JPH06217276A - Moving picture encoding device - Google Patents

Moving picture encoding device

Info

Publication number
JPH06217276A
JPH06217276A JP21302693A JP21302693A JPH06217276A JP H06217276 A JPH06217276 A JP H06217276A JP 21302693 A JP21302693 A JP 21302693A JP 21302693 A JP21302693 A JP 21302693A JP H06217276 A JPH06217276 A JP H06217276A
Authority
JP
Japan
Prior art keywords
image
sound source
source position
sound
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP21302693A
Other languages
Japanese (ja)
Inventor
Osamu Okada
理 岡田
Shigenobu Minami
重信 南
Shoichiro Yamazaki
彰一郎 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP21302693A priority Critical patent/JPH06217276A/en
Publication of JPH06217276A publication Critical patent/JPH06217276A/en
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

PURPOSE:To provide the moving picture encoding device which can precisely estimate the position of a speaker and clearly display the display area of the speaker. CONSTITUTION:This device consists of a television camera 12 which picks up an image of a subject and generates an image signal, microphones 11L and 11R which gather the voice of the speaker picked up by the television camera 12 and output voice signals, an estimating circuit 13 which estimates the sound source position from the voice signals obtained from those microphones 11L and 11R, and an encoding circuit 15 which encodes the video signal of an image area in a specific range including the sound source position estimated by the estimating circuit 13 in its center by assigning a larger encoding quantity than video signals of other image areas so that the image area in the specific range is higher in resolution than other image areas.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、映像信号を符号化する
ための符号化装置に係わり、特に画像の注目部分を、映
像信号とともに得られる音声信号により特定し、その特
定した画像領域については割り当て符号量を増大して画
像符号化を行う動画像符号化装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a coding apparatus for coding a video signal, and in particular, an attention portion of an image is specified by an audio signal obtained together with the video signal, and the specified image area is The present invention relates to a moving picture coding apparatus that increases the allocated code amount and performs picture coding.

【0002】[0002]

【従来の技術】近年、通信技術の進歩に伴い、離れた場
所にいながら会議のできる遠隔会議システム(テレビ会
議システム)や、個人でも利用できるテレビ電話システ
ムなどが実用に供されるようになっている。
2. Description of the Related Art In recent years, with the progress of communication technology, a remote conference system (a video conference system) that allows a conference to be held in a distant place, a video telephone system that can be used by individuals, and the like have come into practical use. ing.

【0003】このようなシステムにおいては、電話回線
等の通信回線を使用して映像と音声を伝送するが、その
ためにチャネル当たりの伝送可能な符号量が制限される
ために、この制限される上限の符号量以内に映像信号の
データ量を抑えるべく、符号化して画像情報を伝送す
る。
In such a system, video and audio are transmitted using a communication line such as a telephone line. However, since the amount of code that can be transmitted per channel is limited, the upper limit is limited. In order to suppress the data amount of the video signal within the code amount of, the image information is encoded and transmitted.

【0004】単位時間当たりの伝送可能な符号量は十分
なものではないから、動画像を伝送する場合には、自然
な動きを確保するために1コマ当たりの画像の符号量は
伝送レートで決まってしまう。
Since the amount of code that can be transmitted per unit time is not sufficient, when transmitting a moving image, the amount of code of an image per frame is determined by the transmission rate in order to ensure natural movement. Will end up.

【0005】一般的には、画面全体が均一の解像度にな
るように符号化を行うが、そのために、相手の顔が不鮮
明であったりする弊害がある。通常、人間の感覚では画
面全体に注意が行き届くわけではなく、画面中の注目部
分に神経が集中する傾向がある。従って、注目部分の画
質を向上させれば、他の部分は多少解像度が悪くとも気
にならない。
Generally, the encoding is performed so that the entire screen has a uniform resolution, but this has the adverse effect that the other party's face is unclear. Usually, the human sense does not pay attention to the entire screen, and the nerve tends to concentrate on the attention part in the screen. Therefore, if the image quality of the portion of interest is improved, other portions will not be concerned even if the resolution is somewhat poor.

【0006】このような観点から、主観的な画質を向上
させることを目的として、より重要な情報源である人物
の顔領域を他の領域よりも鮮明に表示する符号化方式の
検討が行われており、その中にフレーム間差分画像を用
いた手法(文献「上野他、“カラー動画TV電話におけ
る顔領域検出方式の一検討”,1989年電子情報通信学会
春期全国大会D-92」)等が提案されている。
From such a viewpoint, a coding method for displaying a person's face area, which is a more important information source, more clearly than other areas is studied for the purpose of improving subjective image quality. Among them, a method using inter-frame difference images (reference "Ueno et al.," A study of face area detection method for color video TV phones ", 1989 IEICE Spring National Convention D-92"), etc. Is proposed.

【0007】このシステムは、テレビカメラで通話者を
撮影し、これにより得られた映像信号から、画像上の動
きのある部分を検出し、検出した領域から発言者の顔領
域を推定し、この推定した顔領域について符号量を多め
に割り当て、他の領域には割り当て符号量を少なくする
符号化処理を施すことにより、人物の顔領域を他の領域
よりも鮮明に表示できるようにしている。
This system takes a picture of a talker with a television camera, detects a moving part on the image from the video signal obtained by this, estimates the face area of the speaker from the detected area, By assigning a larger amount of code to the estimated face area and performing encoding processing to reduce the assigned code amount to other areas, the face area of the person can be displayed more clearly than other areas.

【0008】[0008]

【発明が解決しようとする課題】動画TV電話における
顔領域検出方式を会議システムに応用する場合に、人物
以外に動きのあるものが写ってしまったり、あるいは複
数の人物が写っていて、それぞれの表情に動きがあるよ
うな場合などでは発言者の顔領域の推定が困難になって
しまう。
When applying the face area detection method in a moving picture TV phone to a conference system, a moving object other than a person may appear in the image, or a plurality of persons may appear in the image. It becomes difficult to estimate the face area of the speaker when the facial expression has movement.

【0009】このように、複数の人物が写っていたり、
人物以外に動きのあるものが写っている場合に、動画像
の顔領域を検出する方式で最も重要である発言者の顔領
域のみを抽出することができないと云う欠点がある。
In this way, a plurality of persons are shown,
There is a drawback in that it is not possible to extract only the face area of the speaker, which is the most important in the method of detecting the face area of a moving image, when a moving object other than a person is captured.

【0010】そこで、この発明の目的は、映像信号中の
発言者の位置を精度良く推定することができて、画面中
の発言者の領域を適確に抽出でき、従って、発言者の写
っている領域を鮮明に表示することができる動画像符号
化装置を提供することにある。
Therefore, an object of the present invention is to accurately estimate the position of the speaker in the video signal and to accurately extract the area of the speaker on the screen. An object of the present invention is to provide a moving picture coding device capable of clearly displaying the existing area.

【0011】[0011]

【課題を解決するための手段】この発明によると、映像
信号を符号化して伝送する画像伝送装置において、被写
体を撮像し、映像信号を発生するテレビカメラと、この
テレビカメラにより撮像される被写体の音声を収音し、
音声信号を出力し、互いに離間して配置された複数のマ
イクロフォンと、これら複数のマイクロフォンから得ら
れた音声信号から音源位置を推定する音源位置推定回路
と、この音源位置推定回路により推定された音源位置を
中心に所定の範囲の画像領域を高い解像度となるように
この画像領域に対応する映像信号を、他の画像領域より
多めに割り当てた符号量(codedbit rate)で符号化する
符号化回路とより構成される動画像符号化装置が提供さ
れる。
According to the present invention, in an image transmission device for encoding and transmitting a video signal, a television camera for picking up an image of a subject and generating the video signal, and a subject for image pickup by the television camera. Collects voice,
A plurality of microphones that output a sound signal and are arranged apart from each other, a sound source position estimation circuit that estimates a sound source position from the sound signals obtained from the plurality of microphones, and a sound source estimated by the sound source position estimation circuit An encoding circuit that encodes a video signal corresponding to this image area so as to have a high resolution in an image area in a predetermined range centered on a position, at a code amount (coded bit rate) allocated more than other image areas. There is provided a moving picture coding device including the following.

【0012】[0012]

【作用】上記構成の動画像符号化装置によると、テレビ
カメラが被写体を撮像し、映像信号を出力する。一方、
被写体の前に互いに離間して配置された複数のマイクロ
フォンが音声を収音し、音源位置推定回路は収音した複
数チャンネル分の音声信号に基づいて被写体中の音源位
置を推定する。符号化回路はテレビカメラから出力され
る映像信号を符号化するに当たり、推定回路により推定
された音源位置を中心に所定の範囲の画像領域が高い解
像度となるように他の画像領域よりも多めに割り当てた
符号量で当該画像領域の映像信号が符号化される。
According to the moving picture coding apparatus having the above construction, the television camera picks up an image of a subject and outputs a video signal. on the other hand,
A plurality of microphones, which are arranged in front of the subject and are spaced apart from each other, pick up the voice, and the sound source position estimation circuit estimates the sound source position in the subject based on the picked-up audio signals of a plurality of channels. When encoding the video signal output from the television camera, the encoding circuit has a higher resolution than the other image areas so that the image area in a predetermined range around the sound source position estimated by the estimation circuit has a high resolution. The video signal of the image area is encoded by the assigned code amount.

【0013】この結果、画面の音源位置周辺を重点的に
高解像度で符号化することができるので、発言者をより
鮮明に映し出されるように映像信号を符号化できる動画
像符号化が実現できる。特に、推定された音源位置を中
心に所定の範囲の画像領域を画面中の被写体顔領域の範
囲に合わせておくことにより、発言者の顔領域が高い解
像度となるように映像信号を符号化できる。
As a result, since the periphery of the sound source position on the screen can be encoded with high resolution, it is possible to realize moving image encoding capable of encoding the video signal so that the speaker can be displayed more clearly. In particular, the video signal can be coded so that the face area of the speaker has a high resolution by matching the image area of a predetermined range around the estimated sound source position with the range of the subject face area on the screen. .

【0014】[0014]

【実施例】以下、この発明の一実施例について図面を参
照しながら説明する。この発明は、複数チャンネルの音
声信号から音源位置を推定し、この推定した音源位置周
辺を重点的に画像を符号化することにより、発言者をよ
り鮮明なるように符号化する動画像符号化方式を採用し
た画像符号化装置を提供する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. The present invention is a moving picture coding method in which a sound source position is estimated from audio signals of a plurality of channels, and an image is coded with emphasis around the estimated sound source position so that a speaker can be more clearly coded. An image coding apparatus adopting the above is provided.

【0015】図2は、この発明の画像符号化装置を有す
るテレビ会議システムの会議室の概略構成を示してお
り、この図では、1台のテレビカメラが3名の会議出席
者を捉えている。
FIG. 2 shows a schematic structure of a conference room of a video conference system having the image encoding device of the present invention. In this figure, one television camera captures three conference attendees. .

【0016】図2に示すように、会議出席者A1ないし
A3が座っている机9上には、出席者の音声を取り込む
ように左右に一定の間隔で2個のマイクロフォン(感音
手段)11Rおよび11Lが置かれている。また、机9
の前方には、テレビカメラ12が設けられ、机9に並ん
で座っている会議出席者A1ないしA3の像を捉えて映
像信号を発生する。
As shown in FIG. 2, on the desk 9 on which the conference attendees A1 to A3 are sitting, two microphones (sound-sensing means) 11R are arranged at regular intervals on the left and right so as to capture the voices of the attendees. And 11L are placed. Also, desk 9
A television camera 12 is provided in front of the above, and captures images of the conference attendees A1 to A3 sitting side by side on the desk 9 to generate a video signal.

【0017】右用および左用のマイクロフォン11Rお
よび11Lによって入力された音声信号およびテレビカ
メラ12によって入力された映像信号は、画像処理系で
ある図1に示す画像推定符号化部10に入力され、ここ
で1画面当たり所定の符号量に収まるように符号化され
る。なお、音声信号は図示しない音声信号処理系にも与
えられ、ここでディジタル信号に変換され、符号化され
た映像信号と共に伝送路へと送り出され、相手側に伝送
される。
The audio signals input by the right and left microphones 11R and 11L and the video signal input by the television camera 12 are input to the image estimation coding unit 10 shown in FIG. 1 which is an image processing system. Then, the encoding is performed so that a predetermined code amount can be accommodated in one screen. The audio signal is also given to an audio signal processing system (not shown), converted into a digital signal here, sent out to the transmission path together with the encoded video signal, and transmitted to the other party.

【0018】画像処理系である画像推定符号化部10
は、テレビカメラ12が捉えた会議出席者A1ないしA
3の像のうち、発言者の顔領域の位置を推定してこの推
定位置の領域の映像信号を他の領域の映像信号より多め
に割り当てた符号量M(i)で符号化し、他の領域をそ
の残りの符号量M(0)で符号化する。すなわち、1画
面当たりの総符号量M(total) は決められており、この
決められた符号量を推定位置の領域に割り当てる符号量
(M(i))と、その他の領域に割り当てる符号量(M
(0))とに配分される。即ち、M(total) =M(i)
+M(0)となる。
Image estimation coding unit 10 which is an image processing system
Are conference attendees A1 to A captured by the TV camera 12.
Of the image of FIG. 3, the position of the face area of the speaker is estimated, and the video signal of the area at this estimated position is coded with a code amount M (i) that is assigned more than the video signals of other areas, and the other area With the remaining code amount M (0). That is, the total code amount M (total) per one screen is determined, and the code amount (M (i)) assigned to the area of the estimated position and the code amount assigned to other areas (M (i)) are determined. M
(0)) and. That is, M (total) = M (i)
It becomes + M (0).

【0019】この画像推定符号化部10は図1に示すよ
うに、音源位置推定部13と音源位置情報記憶部14と
画像符号化部15および画像メモリ16とからなる。画
像メモリ16はテレビカメラ12から得られる映像信号
をディジタル変換して得た画像データを、画面単位で一
時保持するメモリであり、画像を扱うために複数枚分の
画像を記憶する容量を有し、画像データを逐次更新記憶
する。音源位置推定部13は音源位置を推定する。即
ち、この推定部13は発言者の位置をマイクロフォン1
1Rおよび11Lの音声信号出力から推定すると共に、
画像メモリ16に保持された画像データから左右のマイ
クロフォン11Lおよび11R位置から画像上の音源位
置、すなわち、発言者領域を推定する。音源位置情報記
憶部14は音源位置推定部13にて推定された音源位置
の情報と、推定を行った時刻の情報とを記憶する。この
とき、時刻情報は外部から与えるか、若しくは画像推定
符号化部10に時計回路を設けてこれより得るようにす
る。
As shown in FIG. 1, the image estimation coding unit 10 comprises a sound source position estimation unit 13, a sound source position information storage unit 14, an image coding unit 15 and an image memory 16. The image memory 16 is a memory that temporarily holds, for each screen, image data obtained by digitally converting a video signal obtained from the television camera 12, and has a capacity of storing a plurality of images for handling the image. , The image data is sequentially updated and stored. The sound source position estimation unit 13 estimates the sound source position. That is, the estimation unit 13 determines the position of the speaker as the microphone 1
Estimating from 1R and 11L audio signal output,
From the image data stored in the image memory 16, the sound source position on the image, that is, the speaker area is estimated from the positions of the left and right microphones 11L and 11R. The sound source position information storage unit 14 stores the information on the sound source position estimated by the sound source position estimating unit 13 and the information on the estimation time. At this time, the time information is given from the outside, or a clock circuit is provided in the image estimation coding unit 10 to obtain it.

【0020】画像符号化部15は音源位置情報記憶部1
4の情報を用いて画像メモリ16に保持された画像デー
タを符号化して出力する。即ち、これは、映像信号のう
ち、発言者位置を中心とした領域をより鮮明に表示する
ような符号化を行う。そのために、画像符号化部15
は、音源位置情報記憶部14に記憶された発言者位置情
報をもとに、その発言者位置の画像上の領域を重点符号
化領域として決定し、この重点符号化領域の映像信号に
対して符号量M(i)を割り当て、他の領域の映像信号
に対して符号量M(0)を割り当てて、その割り当てら
れた範囲内に収まるように、それぞれの領域の映像信号
を符号化する。
The image encoding unit 15 is a sound source position information storage unit 1.
The image data held in the image memory 16 is encoded using the information of No. 4 and output. That is, this performs encoding so that the area of the video signal centered on the speaker position is displayed more clearly. Therefore, the image encoding unit 15
Determines, based on the speaker position information stored in the sound source position information storage unit 14, an area on the image of the speaker position as an important coding area, and with respect to the video signal of this important coding area. The code amount M (i) is assigned, the code amount M (0) is assigned to the video signals of the other regions, and the video signals of the respective regions are encoded so as to be within the assigned range.

【0021】音源位置推定部13は図3に示すように、
遅延回路31、推定回路32、減算回路33および音源
位置推定回路34とから構成されている。これらのう
ち、遅延回路31は左マイクロフォン11Lで得た左チ
ャンネルの音声入力信号を遅延し、推定回路32はこの
遅延回路31から出力する遅延左チャンネルの音声入力
信号と右マイクロフォン11Rで得た右チャンネル音声
信号とから左チャンネル音声信号を推定する。減算回路
33は遅延回路31から出力する遅延左チャンネル音声
信号と推定回路32から出力する推定左チャンネル音声
信号を入力とし、左チャンネル音声信号から推定左チャ
ンネル音声信号を差し引いてその差信号を得る回路であ
る。この差信号が推定回路32にフィードバックされる
ことにより、推定回路32は当該差信号が零になるよう
な推定左チャンネル音声信号を推定して出力し、それに
より、推定回路32は遅延左チャンネルの音声入力信号
を参照して右マイクロフォン11Rで得た右チャンネル
音声信号から左チャンネル音声信号を推定インパルス応
答系列H(k)として推定できることになる。音源位置
推定回路34は推定回路32の求めた推定インパルス応
答系列H(k)を用いて音源位置を推定する。
As shown in FIG. 3, the sound source position estimating unit 13
The delay circuit 31, the estimation circuit 32, the subtraction circuit 33, and the sound source position estimation circuit 34 are included. Of these, the delay circuit 31 delays the left channel audio input signal obtained by the left microphone 11L, and the estimation circuit 32 outputs the delayed left channel audio input signal output from the delay circuit 31 and the right channel obtained by the right microphone 11R. The left channel audio signal is estimated from the channel audio signal. The subtraction circuit 33 receives the delayed left channel audio signal output from the delay circuit 31 and the estimated left channel audio signal output from the estimation circuit 32 as an input, and subtracts the estimated left channel audio signal from the left channel audio signal to obtain a difference signal thereof. Is. By feeding back this difference signal to the estimation circuit 32, the estimation circuit 32 estimates and outputs the estimated left channel audio signal such that the difference signal becomes zero, and the estimation circuit 32 thereby causes the estimation left channel of the delayed left channel to be output. The left channel audio signal can be estimated as the estimated impulse response sequence H (k) from the right channel audio signal obtained by the right microphone 11R with reference to the audio input signal. The sound source position estimating circuit 34 estimates the sound source position using the estimated impulse response sequence H (k) obtained by the estimating circuit 32.

【0022】上記のような構成において、テレビカメラ
12により会議出席者を撮影し、同時に机9上のマイク
ロフォン11Rおよび11Lにより音声を収音する。テ
レビカメラ12からの映像信号は画像符号化部15に送
られ、マイクロフォン11Rおよび11Lからの音声信
号は音源位置推定部13に送られる。音源位置推定部1
3はこの音声信号をもとに、音源の位置を推定し、推定
結果は音源位置情報記憶部14に記憶される。
In the above-mentioned structure, the television camera 12 photographs the attendees of the conference, and at the same time, the microphones 11R and 11L on the desk 9 collect the voice. The video signal from the television camera 12 is sent to the image encoding unit 15, and the audio signals from the microphones 11R and 11L are sent to the sound source position estimating unit 13. Sound source position estimation unit 1
3 estimates the position of the sound source based on this audio signal, and the estimation result is stored in the sound source position information storage unit 14.

【0023】画像符号化部15はこの音源位置情報記憶
部14に記憶されている最新の音源位置情報を利用して
テレビ画像における画面上の音源位置対応領域を特定
し、その領域を予め設定した符号量M(i)で、また、
その他の領域は符号量M(0)で符号化し、伝送する。
これにより、テレビ会議に出席している人のうち、発言
者が受信側のモニタ(図示せず)に高解像度で表示でき
る。
The image coding unit 15 uses the latest sound source position information stored in the sound source position information storage unit 14 to specify the sound source position corresponding region on the screen in the television image and preset the region. With the code amount M (i),
The other areas are encoded with the code amount M (0) and transmitted.
As a result, of the people who are attending the video conference, the speaker can display it on the monitor (not shown) on the receiving side in high resolution.

【0024】発言者の特定についてもう少し具体的に説
明する。図3において、発言者A1が発した音声をX
(ω)とすると、この音声X(ω)はマイクロフォン1
1Rおよび11Lに収音される。いま、この音声X
(ω)を発することにより右側のマイクロフォン11R
の入力音声信号をYR(ω)および左側のマイクロフォ
ン11Lの入力音声信号をYLO(ω)とすると、これ
ら入力音声信号YR(ω)およびYLO(ω)は発生源
からマイクロフォンまでの音声の伝播遅延並びに室内の
音声特性で決まる伝達関数FR(ω)およびGL(ω)
により以下のように表わされる。ただし、ωは角周波数
である。
The identification of the speaker will be described more specifically. In FIG. 3, the voice uttered by the speaker A1 is X.
(Ω), this voice X (ω) is microphone 1
Sound is picked up on 1R and 11L. This voice X now
Microphone 11R on the right side by emitting (ω)
Let YR (ω) be the input voice signal of Y and LLO (ω) be the input voice signal of the left microphone 11L, these input voice signals YR (ω) and YLO (ω) are the propagation delays of the voice from the source to the microphone. And transfer functions FR (ω) and GL (ω) that are determined by the voice characteristics in the room
Is expressed as follows. However, ω is an angular frequency.

【0025】 YR(ω)=FR(ω)X(ω) … (1) YLO(ω)=GL(ω)X(ω) … (2) さらに、左チャンネル入力音声信号YLO(ω)は、推
定回路32における因果律を保証するための遅延回路3
1によってC(ω)なるフラットな遅延を受ける。これ
によって左チャンネル入力音声信号YLO(ω)は、遅
延回路31まで含めた伝達関数FL(ω)により以下の
YL(ω)のように表わすことができる。
YR (ω) = FR (ω) X (ω) (1) YLO (ω) = GL (ω) X (ω) (2) Further, the left channel input audio signal YLO (ω) is Delay circuit 3 for ensuring causality in estimation circuit 32
1 causes a flat delay of C (ω). As a result, the left channel input audio signal YLO (ω) can be expressed as the following YL (ω) by the transfer function FL (ω) including the delay circuit 31.

【0026】 YL(ω)=C(ω)GL(ω)X(ω) =FL(ω)X(ω) … (3) この左チャンネル入力音声信号YL(ω)は、減算回路
33に入力される。推定回路32は、右チャンネルの音
声信号YR(ω)および左チャンネルの音声信号YL
(ω)を用い、右チャンネル音声信号YR(ω)より左
チャンネル音声信号YL(ω)を得るための伝達関数G
(ω)を次式(4)に基づき推定し、この伝達関数G
(ω)から推定伝達関数Gp(ω)を生成する。
YL (ω) = C (ω) GL (ω) X (ω) = FL (ω) X (ω) (3) This left channel input audio signal YL (ω) is input to the subtraction circuit 33. To be done. The estimation circuit 32 uses the right channel audio signal YR (ω) and the left channel audio signal YL.
The transfer function G for obtaining the left channel audio signal YL (ω) from the right channel audio signal YR (ω) by using (ω)
(Ω) is estimated based on the following equation (4), and the transfer function G
An estimated transfer function Gp (ω) is generated from (ω).

【0027】 G(ω)=GL(ω)/FR(ω) … (4) 上記伝達関数G(ω)に対する推定伝達関数Gp(ω)
の生成は、具体的には次のようにして行う。
G (ω) = GL (ω) / FR (ω) (4) Estimated transfer function Gp (ω) with respect to the transfer function G (ω)
Is specifically generated as follows.

【0028】推定回路32は、まず右チャンネルの音声
信号YR(ω)を用いて時間領域の推定左チャンネル音
声信号yp(ω)を算出する。推定回路32は、図4A
に示すような時間領域の推定左チャンネル音声信号yp
(k)を算出する適応トランスバーサルフィルタ32a
と、図4Bに示すような伝達関数G(ω)の推定インパ
ルス応答系列Hp(k)を逐次更新する修正回路32b
とにより構成されている。適応トランスバーサルフィル
タ32aと修正回路32bは図示しないクロック発生源
から与えられるシステムクロックに同期して動作する。
適応トランスバーサルフィルタ32aは、入力音声信号
YR(ω)を順次送って右チャンネル音声信号x(k)
ないしx(k−n+1)を各時間成分毎の値に変換する
nタップのシフトレジスタ411 ないし41n-1 と、修
正回路32bで修正された各時間成分毎の推定インパル
ス応答hp1(k)ないしhpn(k)と上記シフトレ
ジスタ411 ないし41n-1 を経て得られる右チャンネ
ル音声信号x(k)ないしx(k−n−1)との各成分
毎の乗算を行う乗算器421 ないし42n と、この乗算
結果の総和(Σ)を求めて推定左チャンネル音声入力信
号yp(k)を得る加算器43とより構成されている。
The estimation circuit 32 first calculates an estimated left channel audio signal yp (ω) in the time domain using the right channel audio signal YR (ω). The estimation circuit 32 is shown in FIG.
Estimated left channel audio signal yp in the time domain as shown in
Adaptive transversal filter 32a for calculating (k)
And a correction circuit 32b for sequentially updating the estimated impulse response sequence Hp (k) of the transfer function G (ω) as shown in FIG. 4B.
It is composed of and. The adaptive transversal filter 32a and the correction circuit 32b operate in synchronization with the system clock supplied from a clock generation source (not shown).
The adaptive transversal filter 32a sequentially sends the input audio signal YR (ω) and outputs the right channel audio signal x (k).
To x (k-n + 1) to n-tap shift registers 41 1 to 41 n-1 for converting each time component into a value and an estimated impulse response hp1 (k) corrected by the correction circuit 32b for each time component. To hpn (k) and the right channel audio signal x (k) to x (k-n-1) obtained through the shift registers 41 1 to 41 n-1 are multiplied by each component 42 1 Through 42 n, and an adder 43 for obtaining the estimated left channel audio input signal yp (k) by obtaining the sum (Σ) of the multiplication results.

【0029】すなわち、修正回路32bは後述する(1
0)式の演算を行って推定インパルス応答系列hp1
(k)ないしhpn(k)を求め、それらを時間成分別
に分けて適応トランスバーサルフィルタ32aの対応す
る乗算器421 ないし42n に与える。乗算器421
いし42n は推定インパルス応答系列hp1(k)ない
しhpn(k)とシフトレジスタ411 ないし41n-1
を経て得られる右チャンネル音声信号x(k)ないしx
(k−n+1)とを各成分毎に乗算し、時間成分別の推
定左チャンネル音声信号を得る。これら時間成分別推定
左チャンネル音声信号を加算器43が加算することによ
って推定左チャンネル音声信号yp(k)を求める。
That is, the correction circuit 32b will be described later (1
0) is calculated and the estimated impulse response sequence hp1 is calculated.
(K) to hpn (k) are obtained, divided by time components, and given to the corresponding multipliers 42 1 to 42 n of the adaptive transversal filter 32a. The multipliers 42 1 to 42 n include the estimated impulse response sequences hp1 (k) to hpn (k) and the shift registers 41 1 to 41 n-1.
Right channel audio signal x (k) or x
(K-n + 1) is multiplied for each component to obtain an estimated left channel audio signal for each time component. The estimated left channel audio signal yp (k) is obtained by adding the estimated left channel audio signal for each time component by the adder 43.

【0030】このような推定回路32において、まず右
チャンネル音声信号x(k)は一段当たり1サンプル時
間分の遅延時間を有するn段のシフトレジスタ411
いし41n-1 に入力され、次式(5)に示すような時系
列ベクトルが生成される。
In such an estimation circuit 32, the right channel audio signal x (k) is first inputted to the n- stage shift registers 41 1 to 41 n-1 having a delay time of 1 sample time per stage, and the following equation is obtained. A time series vector as shown in (5) is generated.

【0031】 X(k)=(x(k),x(k−1),…,x(k−n
+1))T …(5) 但し、( )T は転置ベクトルを示す。一方、推定伝達
関数Gp(ω)に時間領域において近似した推定インパ
ルス応答系列Hp(k)を次式(6)により表すと、 Hp(k)=(hp1(k),hp2(k),…,hp
n(k))T …(6) 次式(7)により左チャンネル音声信号y(k)の推定
値である推定左チャンネル音声信号yp(k)を得るこ
とができる。
X (k) = (x (k), x (k−1), ..., X (k−n)
+1)) T (5) where () T represents a transposed vector. On the other hand, when the estimated impulse response sequence Hp (k) approximated to the estimated transfer function Gp (ω) in the time domain is expressed by the following equation (6), Hp (k) = (hp1 (k), hp2 (k), ... , Hp
n (k)) T (6) The estimated left channel audio signal yp (k) which is the estimated value of the left channel audio signal y (k) can be obtained by the following equation (7).

【0032】 yp(k)=Hp(k)T ・ X(k) … (7) このとき、伝達関数G(ω)のインパルス応答系列Hが
次式(8)により表されると(但し、nは任意の整
数)、伝達関数の推定が良好に行われることになる。
Yp (k) = Hp (k) T · X (k) (7) At this time, if the impulse response sequence H of the transfer function G (ω) is represented by the following equation (8) (however, (n is an arbitrary integer), so that the transfer function can be estimated well.

【0033】 H=(h1,h2,…,hn)T … (8) 従って、推定インパルス応答系列Hp(k)が Hp(k)=H … (9) となったときに、推定左チャンネル音声信号yp(k)
が実際の左チャンネル音声信号y(k)にかなり近似す
る。
H = (h1, h2, ..., hn) T (8) Therefore, when the estimated impulse response sequence Hp (k) becomes Hp (k) = H ... (9), the estimated left channel speech is obtained. Signal yp (k)
Is fairly close to the actual left channel audio signal y (k).

【0034】従って、(9)式の関係が得られる伝達関
数G(ω)になるような推定伝達関数Gp(ω)を探せ
ば良いわけであり、それには推定伝達関数Gp(ω)が
伝達関数G(ω)になるような推定インパルス応答系列
Hp(k)を推定できれば良いことになる。
Therefore, it suffices to search for the estimated transfer function Gp (ω) that gives the transfer function G (ω) for which the relationship of the equation (9) is obtained, and the estimated transfer function Gp (ω) is transferred to it. It suffices if the estimated impulse response sequence Hp (k) that gives the function G (ω) can be estimated.

【0035】ここで、推定回路32における推定インパ
ルス応答系列Hp(k)の推定は、適応トランスバーサ
ルフィルタ32aにおいて、n段のシフトレジスタ41
1 ないし41n-1 の入出力として得られる時系列ベクト
ルx(k)ないしx(k−n+1)を用いて、修正回路
32bにより逐次的に例えば、以下の演算を行うことに
より達成される。
Here, the estimation of the estimated impulse response sequence Hp (k) in the estimation circuit 32 is performed by the n-stage shift register 41 in the adaptive transversal filter 32a.
This can be achieved by sequentially performing, for example, the following calculation by the correction circuit 32b using the time-series vectors x (k) to x (k-n + 1) obtained as inputs and outputs of 1 to 41 n-1 .

【0036】[0036]

【数1】 [Equation 1]

【0037】このアルゴリズムは、公知の学習同定法で
ある。なお、(10)式において、e(k)は、図3の
減算回路33の出力であり、この出力e(k)は推定左
チャンネル音声信号をyp(k)とすると、つぎの(1
1)式の関係を有している。
This algorithm is a known learning identification method. In the equation (10), e (k) is the output of the subtraction circuit 33 in FIG. 3, and this output e (k) is the following (1) when the estimated left channel audio signal is yp (k).
It has the relationship of the formula (1).

【0038】 e(k)=y(k)−yp(k) … (11) 従って、減算回路33の出力e(k)は左チャンネル音
声信号y(k)に対する推定左チャンネル音声信号yp
(k)との差信号と云うことになる。また、(10)式
において、αは(10)式の収束速度および安定性を決
定する係数となり、音源51から左右のマイクロフォン
11Lおよび11R位置までの距離差を表す。
E (k) = y (k) -yp (k) (11) Therefore, the output e (k) of the subtraction circuit 33 is the estimated left channel audio signal yp with respect to the left channel audio signal y (k).
It will be called a difference signal from (k). Further, in Expression (10), α is a coefficient that determines the convergence speed and stability of Expression (10), and represents the distance difference from the sound source 51 to the left and right microphones 11L and 11R positions.

【0039】従って、画像推定符号化部10では、画像
メモリ16に保持された画像データから左右のマイクロ
フォン11Lおよび11R位置を調べ、距離差αを求
め、これと減算回路33の出力e(k)を利用して修正
回路32bは(10)式の演算を行うことにより、推定
インパルス応答系列Hp(k)の推定を行うことができ
る。
Therefore, the image estimation coding unit 10 checks the positions of the left and right microphones 11L and 11R from the image data held in the image memory 16 to obtain the distance difference α, and the output e (k) of the subtraction circuit 33. The correction circuit 32b can estimate the estimated impulse response sequence Hp (k) by performing the calculation of the equation (10) by utilizing.

【0040】以上の処理により求められた推定インパル
ス応答系列Hp(k)から、音源位置推定回路34によ
り音源位置が推定される。この推定はつぎのようにして
行う。
The sound source position is estimated by the sound source position estimating circuit 34 from the estimated impulse response sequence Hp (k) obtained by the above processing. This estimation is performed as follows.

【0041】推定インパルス応答系列Hp(k)の係数
のうち、最大値をとる項をMx とする。このとき、サン
プリング周期をT(sec)、音速をv(m/sec)、タップ数
をnとすると、音源から左右のマイクロフォン11Lお
よび11R位置までの距離差αは次式(12)により推
定できる。
Of the coefficients of the estimated impulse response sequence Hp (k), the term having the maximum value is Mx. At this time, if the sampling period is T (sec), the sound velocity is v (m / sec), and the number of taps is n, the distance difference α from the sound source to the left and right microphones 11L and 11R positions can be estimated by the following equation (12). .

【0042】 α=v・T(Mx −N/2) … (12) ここで、図5に示すように、左右のマイクロフォン11
Lおよび11Rを直線52で結び、この直線52に平行
な直線53を想定し、音源51の位置が左右のマイクロ
フォン11Lおよび11Rから一定距離離れた直線53
上に存在すると仮定する。このとき、直線52における
左右のマイクロフォン11Lおよび11Rの中心点位置
Poを通り、直線52に垂直な線54と直線53との交
点から音源51までの距離をa、右マイクロフォン11
Rから音源51までの直線距離をb、音源51を通る直
線53とマイクロフォン11Lおよび11Rを通る直線
52との間の垂線の長さをc,マイクロフォン11Lお
よび11R間の距離を2dとすると、次の連立方程式が
成り立つ。
Α = v · T (Mx−N / 2) (12) Here, as shown in FIG.
L and 11R are connected by a straight line 52, and a straight line 53 parallel to the straight line 52 is assumed, and the position of the sound source 51 is a straight line 53 separated from the left and right microphones 11L and 11R by a certain distance.
Suppose it exists above. At this time, the distance from the intersection of the line 54 and the straight line 53 passing through the center point position Po of the left and right microphones 11L and 11R on the straight line 52 to the sound source 51 is a, and the right microphone 11 is
Assuming that the straight line distance from R to the sound source 51 is b, the length of a perpendicular line between the straight line 53 passing through the sound source 51 and the straight line 52 passing through the microphones 11L and 11R is c, and the distance between the microphones 11L and 11R is 2d, The simultaneous equations of hold.

【0043】 (b+a)2 =(d+a)2 +c2 b2 =(d−a)2 +c2 … (13) この連立方程式からbを消去してaを解くことにより、
音源位置Paを推定することができる。
(B + a) 2 = (d + a) 2 + c 2 b 2 = (d−a) 2 + c 2 (13) By eliminating b from this simultaneous equation and solving a,
The sound source position Pa can be estimated.

【0044】上記のように推定された音源位置Paのデ
ータが音源位置情報記憶部14を介して画像符号化部1
5に入力されると、音源位置を中心とする画像領域が重
点符号化領域としてこの領域に対応する画像データが他
の領域の画像データよりも多い符号化量で符号化され
る。この符号化について詳しく説明する。
The data of the sound source position Pa estimated as described above is transmitted to the image coding unit 1 via the sound source position information storage unit 14.
5 is input, the image area centered on the sound source position is used as the priority coding area, and the image data corresponding to this area is coded with a larger coding amount than the image data of the other areas. This encoding will be described in detail.

【0045】画像メモリ16には、図6に示されるよう
に1フレームの画像データが、例えば、1ブロックを8
画素×8ラインとして44×36ブロックに分けて記憶
されている。この画像メモリ16に記憶された画像デー
タはブロック単位で順次に画像符号化部15に送られ
る。画像符号化部15は、図7に示されるように画像メ
モリ16の読み出し端子に接続される直交変換(DC
T)回路71と、DCT回路71の出力端子に接続され
る量子化回路72と、量子化回路72の出力端子に接続
される可変長符号化回路73と、量子化回路72の制御
端子に接続される量子化ステップサイズ決定回路74と
により構成される。この画像符号化部15には、更にマ
ーカ認識回路75および重点符号化領域決定回路76が
含まれている。マーカ認識回路75は画像メモリ16か
ら読み出された画像データから左右マイクロフォン11
Lおよび11Rの位置に対応付けて設けられた2つのマ
ーカ61aおよび61bを認識し、画面上でのマイクロ
フォン11Lと11Rとの間の距離2d’を求める。な
お、マーカはマイクロフォンを会議室に配置したときに
オペレータによって装置に入力される。
In the image memory 16, as shown in FIG. 6, one frame of image data, for example, one block has eight
Pixels × 8 lines are stored separately in 44 × 36 blocks. The image data stored in the image memory 16 is sequentially sent to the image coding unit 15 in block units. The image encoding unit 15 is connected to a read terminal of the image memory 16 as shown in FIG.
T) circuit 71, quantization circuit 72 connected to the output terminal of DCT circuit 71, variable length coding circuit 73 connected to the output terminal of quantization circuit 72, and control terminal of quantization circuit 72 And a quantization step size determining circuit 74 to be performed. The image coding unit 15 further includes a marker recognition circuit 75 and an emphasis coding area determination circuit 76. The marker recognition circuit 75 detects the left and right microphones 11 from the image data read from the image memory 16.
The two markers 61a and 61b provided in correspondence with the positions of L and 11R are recognized, and the distance 2d 'between the microphones 11L and 11R on the screen is obtained. The marker is input to the device by the operator when the microphone is placed in the conference room.

【0046】求められた距離2d’の情報が重点符号化
領域決定回路76に入力されることにより、この回路7
6はこの距離(2d’)情報と音源位置情報記憶部14
から読み出される音源位置情報とから距離2d’の中心
から発言者の位置62までの距離a’を次式14により
求める。
By inputting the information of the obtained distance 2d 'to the emphasis coding area determination circuit 76, this circuit 7
Reference numeral 6 denotes this distance (2d ′) information and sound source position information storage unit 14
The distance a ′ from the center of the distance 2d ′ to the speaker's position 62 is calculated from the sound source position information read from the following equation 14:

【0047】 a´=a・d´/d … (14) 更に、重点符号化領域決定回路76は発言者位置62を
中心として予め設定した幅2w´の領域63を重点符号
化領域と決定する。この重点符号化領域に関する情報が
ステップサイズ決定回路74に入力されると、このステ
ップサイズ決定回路74は重点符号化領域の画像データ
を、他の領域の画像データよりも多くの符号量で符号化
するためのステップサイズを決定する。決定されたステ
ップサイズの情報が量子化回路72に入力されると、量
子化回路72は画像メモリ16から読み出され、DCT
回路71により直交変換された画像データを決定された
ステップサイズで、即ち符号量で量子化する。この場
合、重点符号化領域63に対応する画像データが量子化
回路72に入力されたときに決定されたステップサイズ
で量子化されるが、他の領域の画像データは領域63の
画像データに対するステップサイズよりも荒いステップ
サイズで量子化される。量子化された画像データは可変
長符号化回路73により可変長符号化され、符号化画像
データとして出力される。
A ′ = a · d ′ / d (14) Further, the emphasis coding area determination circuit 76 determines the area 63 having a width 2w ′ preset around the speaker position 62 as the emphasis coding area. . When the information about the priority coding area is input to the step size determining circuit 74, the step size determining circuit 74 codes the image data of the priority coding area with a larger code amount than the image data of other areas. Determine the step size to do. When the information of the determined step size is input to the quantization circuit 72, the quantization circuit 72 is read from the image memory 16 and the DCT
The image data orthogonally transformed by the circuit 71 is quantized by the determined step size, that is, by the code amount. In this case, the image data corresponding to the emphasis-coded area 63 is quantized by the step size determined when it is input to the quantization circuit 72, but the image data of the other areas is the step for the image data of the area 63. It is quantized with a coarser step size than the size. The quantized image data is variable-length coded by the variable-length coding circuit 73 and output as coded image data.

【0048】上記のように符号化された画像データが受
信側に送られ、受信モニタに表示されると、発言者の画
像が他の画像よりも高解像度で表示される。上記実施例
においては、音源位置情報記憶部14には音源情報だけ
記憶されるとして説明したが次のように時間情報をも記
憶しても良い。
When the image data encoded as described above is sent to the receiving side and displayed on the receiving monitor, the image of the speaker is displayed with a higher resolution than other images. Although the sound source position information storage unit 14 stores only the sound source information in the above embodiment, the time information may be stored as follows.

【0049】即ち、音源位置推定部13は音源位置推定
回路34において、推定インパルス応答系列Hp(k)
の係数のうち、最大値をとる項をもとに音源位置Paを
推定するが、この音源位置推定部13にて推定された音
源位置Paの情報と、推定を行った時刻を、図示しない
制御装置の制御のもとに音源位置情報記憶部14に記憶
する。このとき、現在よりt時刻だけ過去の音源位置P
a(t)が、最新の音源位置Paから左右にそれぞれ一
定の幅w以内にある場合には過去の音源位置Pa(t)
の記憶情報を音源位置情報記憶部14から消去するよう
に、制御装置によって記憶部14が制御される。これに
よって、音源位置情報記憶部14には現在の発言者の発
言位置と、過去に発言した者(N人)の最後の発言位置
の情報が以下のように記憶される。
That is, the sound source position estimating unit 13 in the sound source position estimating circuit 34 estimates the impulse response sequence Hp (k).
The sound source position Pa is estimated based on the term having the maximum value among the coefficients of the above. Information on the sound source position Pa estimated by the sound source position estimating unit 13 and the time at which the estimation is performed are controlled by a control (not shown). It is stored in the sound source position information storage unit 14 under the control of the device. At this time, the sound source position P that is t times past from the present time
If a (t) is within a certain width w to the left and right from the latest sound source position Pa, the past sound source position Pa (t)
The storage unit 14 is controlled by the control device so as to delete the stored information of the sound source position information storage unit 14. As a result, the sound source position information storage unit 14 stores information on the current speaking position of the speaker and the last speaking position of the speaker (N persons) who has spoken in the past as follows.

【0050】 T(1),L(1) T(2),L(2) : : T(N),L(N) ただし、 T(1)<T(2)< … <T(N) … (15) ここで、T(i)は発言者iが最後に発言してから経過
した時間、L(i)は発言者iが最後に発言した位置を
示すデータである。また、T(1)は現在の発言者の音
声サンプリングにより上記演算処理した時点での時間、
L(1)は現在の発言者の発言した位置を示すデータで
ある。
T (1), L (1) T (2), L (2) :: T (N), L (N) where T (1) <T (2) <... <T (N) (15) Here, T (i) is the time that has elapsed since the speaker i last spoke, and L (i) is the data indicating the position where the speaker i last spoke. Further, T (1) is the time at the time when the above arithmetic processing is performed by the voice sampling of the current speaker,
L (1) is data indicating the current position of the speaker.

【0051】画像符号化部15では、音源位置情報記憶
部14に記憶された最新の発言者の位置L(1)の情報
をもとに、上述したように画像の符号化を行う。いま、
画面全体の符号量をM、画面全体の幅をWL とし、発言
者iの重点符号化領域の重要度をR(i)、重点符号化
領域以外の領域の重要度をR(0)とする。このとき、
重要度R(i)およびR(0)は自由に設定できるが、
より最近に発言した人に高い重要度を与えるとすると、 R(1)>R(2)> … >R(N)>R(0) … (16) となるように設定できる。
The image encoding unit 15 encodes the image as described above, based on the latest speaker position L (1) information stored in the sound source position information storage unit 14. Now
The code amount of the entire screen is M, the width of the entire screen is WL, the importance of the emphasis-coded area of the speaker i is R (i), and the importance of areas other than the emphasis-coded area is R (0). . At this time,
Although the importance levels R (i) and R (0) can be set freely,
If higher importance is given to a person who speaks more recently, it can be set such that R (1)> R (2)>...> R (N)> R (0).

【0052】このとき、最新の発言者の重点符号化領域
(最新の発言者の画像領域)の符号量M(i)、この重
点符号化領域以外の領域の符号量M(0)は、 M(i)=M・w´・R(i)/RT M(0)=M・(WL −N・w´)R(0)/RT となるように割り当てる。ただし、RTは RT=w´(R(1) +R(2) +…+R(N) )+(WL −N・w´)R(0) … (17) 従って、このように発言者iの重点符号化領域に多めの
符号量M(i)を割り当て、他の領域に残りの符号量M
(0)を割り当ててその割り当て範囲内で符号化を行う
ことにより、発言者位置を中心とした領域をより鮮明に
表示するような符号化を行うことができるようになるた
め、画面当たりの総符号量は従来と変わりないが、画面
全体の主観的な画質の向上を計ることができるようにな
る。
At this time, the code amount M (i) of the emphasis coded area of the latest speaker (image area of the latest speaker) and the code quantity M (0) of the area other than this emphasis coded area are M (I) = Mw'R (i) / RT M (0) = M (WL-Nw ') R (0) / RT However, RT is RT = w '(R (1) + R (2) + ... + R (N)) + (WL-N * w') R (0) (17) Therefore, the speaker i A larger code amount M (i) is assigned to the priority coding region and the remaining code amount M is assigned to another region.
By assigning (0) and performing encoding within the assigned range, it becomes possible to perform encoding so that the region centered on the speaker position is displayed more clearly. Although the code amount is the same as the conventional one, it is possible to improve the subjective image quality of the entire screen.

【0053】以上のように、異なる位置に配置した複数
のマイクロフォンでそれぞれ収音した複数チャンネルの
音声信号と、マイクロフォンおよび発言者を含めた映像
画面上のマイクロフォン位置とから音源位置を推定する
ようにしたことにより、映像画面上の発言者の画像領域
を適確に抽出できるようになり、発言者の画像領域につ
いて符号量を多めに割り当てて符号化するようにしたこ
とにより、発言者の像領域について鮮明に表示すること
が可能な動画像符号化方式が得られる。
As described above, the sound source position is estimated from the audio signals of a plurality of channels picked up by a plurality of microphones arranged at different positions and the microphone position on the video screen including the microphone and the speaker. By doing so, it becomes possible to accurately extract the image area of the speaker on the video screen, and by assigning a larger code amount to the image area of the speaker and encoding it, the image area of the speaker It is possible to obtain a moving image coding method capable of clearly displaying.

【0054】なお、この発明は、上述した実施例に限定
されるものではなく、その要旨を変更しない範囲内で適
宜変形して実施し得る。例えば、上述した実施例におけ
る音源位置推定部13の推定回路32では、時間領域の
適応トランスバーサルフィルタを用いているが、周波数
領域の適応トランスバーサルフィルタなどの他の回路構
成であっても良い。また、推定アルゴリズムとして学習
同定法を例にして説明したが、最急降下法などの他の学
習アルゴリズムを用いることもできる。
The present invention is not limited to the above-mentioned embodiments, but may be modified and carried out without departing from the scope of the invention. For example, although the estimation circuit 32 of the sound source position estimation unit 13 in the above-described embodiment uses the time domain adaptive transversal filter, other circuit configurations such as a frequency domain adaptive transversal filter may be used. Although the learning identification method has been described as an example of the estimation algorithm, other learning algorithms such as the steepest descent method can be used.

【0055】さらに、音源位置推定回路34において、
推定インパルス応答系列Hp(k)の係数のうち、最大
値をとる項をもとに音源位置を推定したが、他の方法を
用いても良い。
Further, in the sound source position estimating circuit 34,
Although the sound source position is estimated based on the term having the maximum value among the coefficients of the estimated impulse response sequence Hp (k), other methods may be used.

【0056】また、画像符号化部15の重点符号化領域
の決定方法も、上述した方法に限らず、重点符号化領域
63において顔領域検出を行うなどの他の方法であって
も良い。また、画像符号化部15における重要度の設定
方法についても、現在までに発言した時間に応じて重要
度を設定する方法、最後に発言してからの時間と現在ま
でに発言した時間との両方を加味して重要度を設定する
方法などの他の手法であっても構わない。
The method of determining the emphasis coding area of the image coding unit 15 is not limited to the above-mentioned method, and other methods such as face area detection in the emphasis coding area 63 may be used. Also, regarding the method of setting the importance in the image encoding unit 15, both the method of setting the importance according to the time of speaking up to the present time, the time since the last speech and the time of speaking up to the present time Other methods such as a method of setting the degree of importance in consideration of

【0057】また、テレビ会議システムでは、被写体は
ほぼ定位置固定であり、テレビ画面は被写体に対して同
一視野角を維持するために、画面上の被写体は被写体自
身が移動しない限り、位置に変化はないから、画像符号
化部15における重要度の設定や重点符号化領域の設定
を外部から行うことにより、例えばVIPは常に高精細
に符号化を行うようにすることもできる。更には、画面
と被写体との関係が変わらないことから、発言者の画像
領域ではなく、発言者の顔部分の領域を特定することは
容易であるから、この特定した顔領域について解像度を
高めるように符号量を割り当てる構成とすることもでき
る。
Further, in the video conference system, the subject is almost fixed at a fixed position, and in order to maintain the same viewing angle with respect to the subject on the TV screen, the subject on the screen changes its position unless the subject itself moves. Therefore, by setting the degree of importance in the image encoding unit 15 and the setting of the emphasis encoding area from the outside, for example, VIP can always be encoded with high definition. Further, since the relationship between the screen and the subject does not change, it is easy to specify the area of the face portion of the speaker instead of the image area of the speaker. Therefore, increase the resolution for this specified face area. It is also possible to adopt a configuration in which the code amount is assigned to.

【0058】さらに、画像符号化部15の符号化方式に
ついても、上述の実施例において、各フレーム毎に重点
符号化領域63に多くの符号量を与えて精細に符号化を
行う手法について述べたが、重点符号化領域63以外の
部分をコマ落としの状態にすることによって重点符号化
領域63に多くの符号量を与えて精細に符号化を行って
も良い。また、発言者の履歴に対応して最新の発言者ほ
ど高解像度にし、発言の古い者ほど低解像度にする等
の、発言順位等に対応させた重み付けにより解像度を変
えるなどしても良い。
Further, regarding the encoding system of the image encoding unit 15, in the above-mentioned embodiment, a method of giving a large amount of code to the emphasis encoding region 63 for each frame and performing fine encoding has been described. However, fine coding may be performed by giving a large amount of code to the emphasis encoding area 63 by putting the portions other than the emphasis encoding area 63 in the state of frame skipping. In addition, the resolution may be changed by weighting corresponding to the order of speech, such that the latest speaker has a higher resolution and the older speaker has a lower resolution in accordance with the history of the speaker.

【0059】なお、上述した実施例では、音声入力を2
チャンネルとしたが、3チャンネル以上あっても良い。
この場合、マイクロフォンの配置に上下方向の高低差を
与えることにより、音源位置の2次元の推定が可能とな
り、この場合には音源として画面上の一点を推定するこ
とができるようになり、より高精度の音源位置推定が可
能となる。
In the above-mentioned embodiment, the voice input is 2
Although there are channels, there may be three or more channels.
In this case, it is possible to estimate the sound source position in two dimensions by giving a vertical difference in the arrangement of the microphones. In this case, it is possible to estimate one point on the screen as the sound source, and it is Accurate sound source position estimation is possible.

【0060】[0060]

【発明の効果】上述した発明によれば、複数チャンネル
の音声信号から音源位置を推定し、音源位置周辺を重点
的に符号化することにより、発言者をより鮮明なるよう
に符号化する動画像符号化方式を提供できる。
According to the above-described invention, a moving image is coded so that a speaker can be sharpened by estimating a sound source position from audio signals of a plurality of channels and by intensively coding the sound source position periphery. An encoding system can be provided.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例に係わるテレビ会議システム
の画像符号化部の構成例を示すブロック図。
FIG. 1 is a block diagram showing a configuration example of an image encoding unit of a video conference system according to an embodiment of the present invention.

【図2】本発明の実施例を説明するための図であって、
本発明に係わるテレビ会議システムの会議室の構成を示
す図。
FIG. 2 is a diagram for explaining an embodiment of the present invention,
The figure which shows the structure of the meeting room of the video conference system concerning this invention.

【図3】図1に示す音源位置推定部の構成を示すブロッ
ク図。
FIG. 3 is a block diagram showing a configuration of a sound source position estimating unit shown in FIG.

【図4】図3に示す音源位置推定回路の構成を示す回路
図。
FIG. 4 is a circuit diagram showing a configuration of a sound source position estimating circuit shown in FIG.

【図5】図3に示す音源位置推定回路の推定方法を説明
するための図。
5 is a diagram for explaining an estimation method of the sound source position estimation circuit shown in FIG.

【図6】図1に示す画像符号化部の重点符号化領域の決
定方法を説明するための図。
6A and 6B are views for explaining a method of determining an emphasis coding area of the image coding unit shown in FIG.

【図7】図1に示す画像符号化部のブロック回路図。7 is a block circuit diagram of the image encoding unit shown in FIG.

【符号の説明】[Explanation of symbols]

10…画像推定符号化部 11R,11L…マイクロフォン 12…テレビカメラ 13…音源位置推定部 14…音源位置情報記憶部 15…画像符号化部 16…画像メモリ 31…遅延回路 32…推定回路 33…減算回路 34…音源位置推定回路。 10 ... Image estimation coding unit 11R, 11L ... Microphone 12 ... Television camera 13 ... Sound source position estimation unit 14 ... Sound source position information storage unit 15 ... Image coding unit 16 ... Image memory 31 ... Delay circuit 32 ... Estimation circuit 33 ... Subtraction Circuit 34 ... Sound source position estimation circuit.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 音声を発する少なくとも1つの被写体を
撮像して映像信号を出力する撮像手段と、 互いに離間して配置配され、前記撮像手段により撮像さ
れる被写体の音声を収音して音声信号を出力する複数の
感音手段と、 前記複数の感音手段から出力される音声信号から音源位
置を推定する推定手段と、 前記推定手段より推定された音源位置を中心に所定の範
囲の画像領域に対応する映像信号を、他の画像領域に対
応する映像信号よりも多く符号量を割当て符号化する符
号化手段と、 により構成される動画像符号化装置。
1. An image pickup means for picking up an image of at least one subject that emits sound and outputting a video signal, and a sound signal obtained by picking up the sound of the subject picked up by the image pickup means. A plurality of sound-sensing means for outputting, an estimating means for estimating a sound source position from a sound signal output from the plurality of sound-sensing means, and an image region in a predetermined range centered on the sound source position estimated by the estimating means And a coding means for allocating and coding a video signal corresponding to (1) to a code amount larger than that of a video signal corresponding to another image area.
【請求項2】 音声を発する少なくとも1つの被写体を
撮像して映像信号を出力する撮像手段と、 互いに離間して配置され、前記撮像手段により撮像され
る被写体の音声を収音して音声信号を出力する複数の感
音手段と、 前記複数の感音手段から得られた音声信号から音源位置
を推定する推定手段と、 前記推定手段により推定された現在及び過去の音源位置
情報の履歴を記憶する音源位置記憶手段と、 前記音源位置記憶手段に記憶された音源位置情報及び過
去の音源位置情報の履歴を利用して位置に応じた符号量
で映像信号を符号化する符号化手段と、 により構成される動画像符号化装置。
2. An image pickup means for picking up an image signal of at least one subject that emits a sound and outputting a video signal, and a sound of the subject picked up by the image pickup means is picked up to output a sound signal. A plurality of sound-sensing means to be output, an estimating means for estimating a sound source position from a sound signal obtained from the plurality of sound-sensing means, and a history of current and past sound source position information estimated by the estimating means are stored. A sound source position storage means, and a coding means for coding a video signal with a code amount according to the position by using the history of the sound source position information and the past sound source position information stored in the sound source position storage means. Video encoding device.
JP21302693A 1992-08-27 1993-08-27 Moving picture encoding device Pending JPH06217276A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21302693A JPH06217276A (en) 1992-08-27 1993-08-27 Moving picture encoding device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-228572 1992-08-27
JP22857292 1992-08-27
JP21302693A JPH06217276A (en) 1992-08-27 1993-08-27 Moving picture encoding device

Publications (1)

Publication Number Publication Date
JPH06217276A true JPH06217276A (en) 1994-08-05

Family

ID=26519581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21302693A Pending JPH06217276A (en) 1992-08-27 1993-08-27 Moving picture encoding device

Country Status (1)

Country Link
JP (1) JPH06217276A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004179997A (en) * 2002-11-27 2004-06-24 Sony Corp Interactive communication system, video image communication device, and image data distribution method for the same
JP2006325179A (en) * 2005-04-20 2006-11-30 Mitsubishi Electric Corp Image processor
JP2010219786A (en) * 2009-03-16 2010-09-30 Canon Inc Image processor and image processing method
JP2015195458A (en) * 2014-03-31 2015-11-05 株式会社ニコン Electronic apparatus
JP2019004520A (en) * 2018-09-27 2019-01-10 株式会社ニコン Electronic apparatus and electronic apparatus system
JP2019050482A (en) * 2017-09-08 2019-03-28 オリンパス株式会社 Information acquisition device, display method, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004179997A (en) * 2002-11-27 2004-06-24 Sony Corp Interactive communication system, video image communication device, and image data distribution method for the same
JP2006325179A (en) * 2005-04-20 2006-11-30 Mitsubishi Electric Corp Image processor
JP2010219786A (en) * 2009-03-16 2010-09-30 Canon Inc Image processor and image processing method
JP2015195458A (en) * 2014-03-31 2015-11-05 株式会社ニコン Electronic apparatus
JP2019050482A (en) * 2017-09-08 2019-03-28 オリンパス株式会社 Information acquisition device, display method, and program
JP2019004520A (en) * 2018-09-27 2019-01-10 株式会社ニコン Electronic apparatus and electronic apparatus system

Similar Documents

Publication Publication Date Title
EP0615387B1 (en) Moving picture encoder
Thoma et al. Motion compensating interpolation considering covered and uncovered background
US6675145B1 (en) Method and system for integrated audiovisual speech coding at low bitrate
CN107911644B (en) Method and device for carrying out video call based on virtual face expression
US6483532B1 (en) Video-assisted audio signal processing system and method
JP5857674B2 (en) Image processing apparatus and image processing system
JP4872871B2 (en) Sound source direction detecting device, sound source direction detecting method, and sound source direction detecting camera
EP0709999B1 (en) Method and apparatus for multi-channel acoustic echo cancellation
EP2323425A1 (en) Method and device for generating, playing audio signals, and processing system for audio signals
WO2013122183A1 (en) Dereverberation parameter estimation device and method, dereverberation/echo-cancellation parameter estimation device, dereverberation device, dereverberation/echo-cancellation device, and dereverberation device online conferencing system
CN110289009B (en) Sound signal processing method and device and interactive intelligent equipment
JPH06217276A (en) Moving picture encoding device
JP4244416B2 (en) Information processing apparatus and method, and recording medium
JP3625325B2 (en) Loudspeaker and echo canceller
EP3982361A1 (en) Talker prediction method, talker prediction device, and communication system
CN109068138A (en) Processing method and processing device, electronic equipment and the storage medium of video image
JPH0761043B2 (en) Stereo audio transmission storage method
JPH0591407A (en) Video communication equipment
JPH0758939B2 (en) Stereo signal transmission method, encoding device and decoding device
CN113223543B (en) Speech enhancement method, device and storage medium
JP3073976B2 (en) Multi-channel acoustic echo canceling method, apparatus thereof, and recording medium recording this method
JPH10126757A (en) Video conference system
CN110121890B (en) Method and apparatus for processing audio signal and computer readable medium
JP2002261659A (en) Multi-channel echo cancellation method, its apparatus, its program, and its storage medium
WO2016151974A1 (en) Information processing device, information processing method, client device, server device, and information processing system