JP4990520B2 - Communication terminal and display method thereof - Google Patents

Communication terminal and display method thereof Download PDF

Info

Publication number
JP4990520B2
JP4990520B2 JP2005344753A JP2005344753A JP4990520B2 JP 4990520 B2 JP4990520 B2 JP 4990520B2 JP 2005344753 A JP2005344753 A JP 2005344753A JP 2005344753 A JP2005344753 A JP 2005344753A JP 4990520 B2 JP4990520 B2 JP 4990520B2
Authority
JP
Japan
Prior art keywords
display
screen
area
state
display area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005344753A
Other languages
Japanese (ja)
Other versions
JP2007150918A (en
Inventor
空悟 守田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2005344753A priority Critical patent/JP4990520B2/en
Priority to US12/095,489 priority patent/US8487956B2/en
Priority to PCT/JP2006/323857 priority patent/WO2007063922A1/en
Publication of JP2007150918A publication Critical patent/JP2007150918A/en
Application granted granted Critical
Publication of JP4990520B2 publication Critical patent/JP4990520B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a communication terminal and a display method thereof which can adaptively and optimally update the size and position of a display image area depending on conditions, makes reallocation of the display image area continuous, can allocate it with the optimum size even if it has a different shape, can eliminate troublesomeness by stopping vibration, and can solve locally stabilized state. <P>SOLUTION: A decoder 30 has a function of displaying a multi-screen, and a function of solving the locally stabilized state by calculating a display magnification factor of the screen based on line segments connecting between the centers of the screen, the thickness of a reference shape and the volume of sounds, optimally forming a plurality of screens on an image surface by controlling the movement of the screen and new generation thereof based on this display magnification factor, determining whether the allocation state of the screen on the image surface is in a vibration state, fixing the screen when it is in a vibration state, determining the stabilized state, and performing agitating processing. <P>COPYRIGHT: (C)2007,JPO&amp;INPIT

Description

本発明は、携帯電話機等の通信端末およびその表示方法に係り、特に、多地点通信可能な通信端末およびその表示方法に関するものである。   The present invention relates to a communication terminal such as a mobile phone and a display method thereof, and more particularly to a communication terminal capable of multipoint communication and a display method thereof.

多地点通信としての代表としては、テレビ会議システムがある。テレビ会議システムでは、MCU(Multi-point Control Unit)を介して複数の端末が接続する。MCUは、多数の端末から送られてきた画像データを1つの画面上に分割合成し、音声データとともに、各々の端末に送信することにより、多地点をつないだテレビ会議を実現する。   A representative example of multipoint communication is a video conference system. In the video conference system, a plurality of terminals are connected via an MCU (Multi-point Control Unit). The MCU divides and synthesizes image data sent from a large number of terminals on one screen, and transmits it to each terminal together with audio data, thereby realizing a video conference connecting multiple points.

基本的に、各拠点の画像を1つの画像に分割合成する場合、
(1)1つの画像を等分割する場合(たとえば4分割、9分割)と、
(2)1つ大きな画像領域を取り、残りの領域を等分割に分割して合成する場合と、
がある(たとえば6分割)。
Basically, when dividing and synthesizing the images of each site into one image,
(1) When one image is equally divided (for example, 4 divisions, 9 divisions),
(2) Taking one large image area and dividing the remaining area into equal parts;
(For example, 6 divisions).

(1)の場合、MCUで結んでいる拠点からの画像が同じ面積を使って合成される。
(2)の場合、話している拠点を大きな面積を割り当て、残りの拠点からの画像を残りの等分割された領域に割り当てて、合成する。
In the case of (1), images from bases connected by MCU are synthesized using the same area.
In the case of (2), a large area is allocated to the talking base, and images from the remaining bases are assigned to the remaining equally divided areas to be combined.

いずれの場合でも、テレビ会議システムでは、大画面のモニタを用いて行うために、複数の拠点の画像を1つの画像に分割合成しても、個々の拠点を映す画像のサイズは充分な大きさを有し、一人で映っている分には、その人の顔が認識困難になるということはない。テレビ会議システムとしては、たとえば特許文献1,2等に開示されている。   In any case, since the video conference system uses a large-screen monitor, even if the images of a plurality of locations are divided and combined into one image, the size of the image showing each location is sufficiently large. As long as you are alone, the face of that person will not be difficult to recognize. A video conference system is disclosed in, for example, Patent Documents 1 and 2 and the like.

図1(A)〜(E)は、一般的なテレビ会議システムにおける多値点通信時のパーソナルコンピュータ(PC)等の端末の表示画面例を示す図である。
図1の例においては、画面1を先に決められた枠(四角形)のウィンドゥに分割する。
たとえば、画面1は1つの大きなウィンドゥ(四角形)2と複数の小さなウィンドゥ(四角形)3−1〜3−5から形成され、話し手を大きなウィンドゥ2に表示する。
この場合、ウィンドゥのサイズ、および分割数は固定的であり、撮像された画像をそのまま表示しているため、撮影の状態に応じて、顔の大きさが変動する。
1A to 1E are diagrams showing examples of display screens of a terminal such as a personal computer (PC) at the time of multilevel communication in a general video conference system.
In the example of FIG. 1, the screen 1 is divided into a predetermined frame (rectangular) window.
For example, the screen 1 is formed of one large window (square) 2 and a plurality of small windows (squares) 3-1 to 3-5, and displays a speaker on the large window 2.
In this case, since the window size and the number of divisions are fixed and the captured image is displayed as it is, the size of the face varies depending on the shooting state.

一般的なPCのウィンドゥ制御の場合、マウスでウィンドゥをドラッグすることにより、ウィンドゥのサイズの変更、ウィンドゥの選択を自由に行うことが可能である。   In the case of a general PC window control, it is possible to freely change the window size and select the window by dragging the window with the mouse.

ところで、携帯電話機等の携帯通信端末は、音声通話だけでなく、メール、Webアクセス、ゲーム、カメラ、テレビ電話、メディアプレィア、ラジオ、テレビなど年々高機能化されている。
現行、携帯通信端末でのテレビ電話は、発呼時に、テレビ電話で接続することを選択するものである。
By the way, mobile communication terminals such as mobile phones are not only for voice calls, but have become more sophisticated year by year, such as mail, web access, games, cameras, videophones, media players, radios, and televisions.
At present, a videophone in a mobile communication terminal is selected to connect by a videophone when a call is made.

しかしながら、パケット通信への対応が進むことにより、音声通話自体がパケット通信に対応したVoIPが使用され、通話中にカメラを起動し、音声および映像での通話に切り替えたり、また逆に、カメラを停止し、音声通話のみにしたりといった使い方が主要となる。さらに、通話中の相手に、自端末に保存している文書(ex. メール)、住所データ、画像(静止画像、動画像)、音声などを送って、(通話相手にて自動的に再生され、)同時に観たり、Webサイトを同時に観たりすることが可能となる。   However, with the progress of support for packet communication, VoIP that supports packet communication is used as the voice call itself, and the camera is activated during the call and switched to voice and video calls, and vice versa. The main usage is to stop and make only voice calls. In addition, send documents (ex. Mail), address data, images (still images, moving images), audio, etc. saved on your terminal to the other party on the call, )) You can watch at the same time or watch the website at the same time.

このように、高機能化により携帯通信端末がIP化された場合、同時に複数の相手(サーバを含む)と通信を行うことが可能となる。
この場合、一つの端末で複数のスクリーンを取り扱う必要がある。複数のスクリーンを取り扱う方法としては、(PDAなどで)ページめくり的に取り扱う方法がある。
特開平06−141310号公報 特開平06−141311号公報
As described above, when the mobile communication terminal is converted to IP due to high functionality, it is possible to communicate with a plurality of other parties (including a server) at the same time.
In this case, it is necessary to handle a plurality of screens with one terminal. As a method of handling a plurality of screens, there is a method of handling pages in a page turning manner (such as with a PDA).
Japanese Patent Laid-Open No. 06-141310 Japanese Patent Application Laid-Open No. 06-141311

とこで、たとえば携帯IP-TV電話では、画面のサイズが小さいため、複数人で、画像ありの通話を行った場合、一人ひとりの顔の大きさが小さくなる。
PCのウィンドゥのように、ユーザがウィンドゥを動かしたら、サイズを変えたりできるようにするには、画面サイズ、および操作キーに制限があり、困難である。
また、複数人が同程度で話した場合、スクリーンが対応できない。
In Toko filtration, for example, in the mobile IP-TV phone, because the size of the screen is small, a plurality of people, when you make a call there image, the size of the face of each individual becomes smaller.
In order to be able to change the size when the user moves the window like a PC window, the screen size and operation keys are limited and difficult.
In addition, when multiple people talk at the same level, the screen is not compatible.

さらに、音量に応じて、スクリーンサイズを設定した場合、無駄な空間を増加させたり、画面内に全スクリーンを表示しきれなくなったりする問題を有している。
具体的には、全スクリーンの音量が小さい場合、小さいスクリーンが画面上を浮遊することになる。一方、全スクリーンが音量最大の場合、表示スクリーンの合計面積が画面面積を超えるという問題を有する。
これに対して、局所的に合計面積を画面面積に規格化することによって、画面内に収まらせることは可能であるが、次時刻におけるスクリーン位置の再配置(移動)が不連続的になる。
Furthermore, when the screen size is set according to the volume, there is a problem that a useless space is increased or the entire screen cannot be displayed in the screen.
Specifically, when the volume of all the screens is small, a small screen floats on the screen. On the other hand, when the volume of all screens is maximum, there is a problem that the total area of the display screen exceeds the screen area.
On the other hand, by locally normalizing the total area to the screen area, it is possible to fit within the screen, but the rearrangement (movement) of the screen position at the next time becomes discontinuous.

また、位置の算出、スクリーンサイズの算出を、周辺のスクリーンとの相互作用によって基づいて算出した場合、その位置、サイズは、必ずしも、期待した状態に収束するとは限らない。
停止せずに、絶えず振動し続ける状態(振動状態)、スクリーンの占有率が小さいまま、停止してしまった状態(局所安定状態)に陥ることがある。振動状態の場合、絶えずスクリーンが振動し続けるため、その動きは煩わしく感じる。
一方、局所安定状態の場合、スクリーンが小さいままであるため、表示される内容も小さくなる。
Further, when the calculation of the position and the calculation of the screen size are calculated based on the interaction with the surrounding screens, the position and the size do not necessarily converge to the expected state.
Without stopping, there may be a state where the screen continues to vibrate (vibration state), or a state where the screen has stopped (local stable state) while the occupation ratio of the screen is small. In the vibration state, the screen continuously vibrates, so that movement is troublesome.
On the other hand, in the case of the local stable state, since the screen remains small, the displayed content is also small.

図2(A)〜(C)は振動状態を示し、音声の大きさが等しい4つのスクリーンがある場合を示している。
各々の画面の表示倍率の二乗総和比は等しい。しかしながら、図2(A)の画面図では、スクリーンが停止しているのに対して、図2(B)と図2(C)の画面図では、スクリーンが絶えず上下に震動している。スクリーンが絶えず振動しているため、ユーザにとっては非常に煩わしいものとなる。
2A to 2C show a vibration state and show a case where there are four screens having the same sound volume.
The square sum ratio of the display magnification of each screen is equal. However, in the screen diagram of FIG. 2 (A), the screen is stopped, whereas in the screen diagrams of FIG. 2 (B) and FIG. 2 (C), the screen constantly vibrates up and down. The screen is constantly vibrating, which is very annoying for the user.

また、図3(A)〜(C)は局所安定状態を示し、音声の大きさが等しい4つのスクリーンがある場合を示している。各々の画面において、スクリーンは停止、ないし振動した状態にある。
各々の画面の表示倍率の二乗総和比は、図3(A)の画面図から、R(t)=0.961712、0.721003、0.551646と、図3(A)画面図が最も高く、図3(B)、図3(C)になるにつれて小さくなる。
これらの値は、スクリーンが画面に占める割合と同じ意味を示しており、図からも、図3(B),(C)におけるスクリーンの大きさが、図3(A)の画面に比べ小さくなり、画面上スクリーンに使用されない無駄な領域(デッドゾーン)が広くなっていることが分かる。結果的に表示される画像が小さくなるという問題点を有している。
3A to 3C show a local stable state and show a case where there are four screens having the same sound volume. In each screen, the screen is stopped or vibrated.
The sum of squares of the display magnification of each screen is the highest in the screen diagram of FIG. 3 (A), R (t) = 0.961712, 0.721003, 0.551646 from the screen diagram of FIG. 3 (A), and FIG. As shown in FIG.
These values have the same meaning as the ratio of the screen to the screen. From the figure, the screen size in FIGS. 3B and 3C is smaller than the screen in FIG. It can be seen that a useless area (dead zone) that is not used for the screen on the screen is widened. As a result, there is a problem that the displayed image becomes small.

本発明の目的は、ユーザが操作することなく、音量の大きさや表示すべき表示画像エリア(スクリーン)の数等の状況に応じて適応的に、最適に表示画像エリア(スクリーン)のサイズ、位置を更新することができ、しかも表示画像エリアの再配置(移動)が連続的になり、異なる形状であっても最適なサイズで配置することが可能であり、振動を停止することにより、煩わしさをなくすことが可能となり、局所安定状態を解消することが可能な通信端末およびその表示方法を提供することにある。   It is an object of the present invention to adaptively and optimally display the size and position of the display image area (screen) according to the situation such as the volume level and the number of display image areas (screens) to be displayed without the user's operation. In addition, the display image area can be rearranged (moved) continuously, and even with different shapes, it can be arranged in an optimal size. Therefore, it is possible to eliminate the local stable state and to provide a communication terminal and a display method thereof.

本発明の第1の観点は、受信した画像データおよび音声データを再生する通信端末であって、画像を表示する表示手段と、前記表示手段に特定のエリアを抽出されて表示すべき複数の画像の各々を表示する表示エリアを形成可能で、所定の情報に基づいて前記表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、前記表示手段の表示画面上に複数の表示エリアを形成する制御手段と、を有し、前記制御手段は、1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し、振動状態であると判定すると表示エリアを固定する機能を有する。   A first aspect of the present invention is a communication terminal that reproduces received image data and audio data, a display unit that displays an image, and a plurality of images that are extracted from a specific area and displayed on the display unit A display area for displaying each of the display area can be formed, a display magnification of the display area is calculated based on predetermined information, a movement of the display area is controlled based on the display magnification, and a new generation is controlled. Control means for forming a plurality of display areas on the display screen, wherein the control means determines whether one or more display areas are in a state of continuously moving in the local region, If it is determined that it is in a vibrating state, it has a function of fixing the display area.

本発明の第3の観点は、受信した画像データおよび音声データを再生する通信端末であって、画像を表示する表示手段と、前記表示手段に特定のエリアを抽出されて表示すべき複数の画像の各々を表示する表示エリアを形成可能で、所定の情報に基づいて前記表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、前記表示手段の表示画面上に複数の表示エリアを形成する制御手段と、を有し、前記制御手段は、1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し当該状態であると判定すると表示エリアを固定する機能と、前記表示エリアが局所安定状態にあるか否かを判定する機能とを有する。 According to a third aspect of the present invention, there is provided a communication terminal that reproduces received image data and audio data, a display unit that displays an image, and a plurality of images that are extracted from a specific area and displayed on the display unit. A display area for displaying each of the display area can be formed, a display magnification of the display area is calculated based on predetermined information, a movement of the display area is controlled based on the display magnification, and a new generation is controlled. and a control means for forming a plurality of display areas on a display screen, said control means, whether one or more display area is in the state continues to move continuously at a local region determine the constant Mr. When it is determined that the state is in this state, it has a function of fixing the display area and a function of determining whether or not the display area is in a local stable state.

好適には、前記制御手段は、一定期間(n)において、表示エリア個数の変動がなく、各表示エリアの音声の大きさの変動がなく、さらに、スクリーンの位置の変動があり、変動が閾値(Pthresh0)以下であり、スクリーンの表示倍率の変動が閾値(Rthresh0)以下である場合、振動状態にあると判定する。   Preferably, the control means has no change in the number of display areas, no change in the volume of sound in each display area, and there is a change in the position of the screen, and the change is a threshold value in a certain period (n). If it is equal to or less than (Pthresh0) and the change in display magnification of the screen is equal to or less than the threshold (Rthresh0), it is determined that the vibration state is present.

好適には、前記制御手段は、振動状態中、前記期間中の表示倍率の二乗総和値(R)が最も大きい状態の配置に固定する。   Preferably, the control means fixes the arrangement in a state where the square sum value (R) of the display magnification during the period is the largest during the vibration state.

好適には、前記制御手段は、一定期間において、表示エリア個数の変動がなく、各表示エリアの音声の大きさの変動がなく、さらに、表示エリアの位置の変動が閾値(Pthresh1)以下であり、表示エリアの表示倍率の二乗総和比が閾値(Rthresh2)以下である場合、局所安定状態にあると判定する。   Preferably, the control means has no change in the number of display areas, no change in the volume of sound in each display area, and no change in the position of the display area is below a threshold (Pthresh1) in a certain period. When the square sum ratio of the display magnification of the display area is equal to or less than the threshold (Rthresh2), it is determined that the local stable state is established.

好適には、前記制御手段は、局所安定状態と判断した場合に表示エリアの位置配置の再配置を促す攪拌処理機能を有する。 Preferably, the control means has an agitation processing function that prompts the rearrangement of the position arrangement of the display area when it is determined that the local stable state .

好適には、前記制御手段は、画面上に仮の中心を配し、各中心における表示倍率の内、最も小さい値を取得する位置を攪拌用の表示エリアの中心とし、一定期間、攪拌用の表示エリアを生成、更新し、消滅することによって、攪拌を行う。   Preferably, the control means arranges a temporary center on the screen, and the position at which the smallest value among the display magnifications at each center is obtained is set as the center of the display area for stirring, and is used for stirring for a certain period. Agitation is performed by creating, updating and disappearing the display area.

前記制御手段は、攪拌処理の実行回数(S)が閾値(Sthresh)を越える場合、安定状態にあると判断し、攪拌処理を停止する。   When the number of execution times (S) of the stirring process exceeds a threshold value (Sthresh), the control means determines that the stirring process is in a stable state and stops the stirring process.

本発明の第4の観点は、受信した画像データ、音声データを再生する通信端末の表示方法であって、特定のエリアを抽出されて表示すべき複数の画像の表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、表示画面上に複数の表示エリアを形成し、表示すべき画像を含む複数の表示エリアを表示し、1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し、当該状態であると判定すると表示エリアを固定する。 A fourth aspect of the present invention, calculated received image data, a display method of a communication terminal for reproducing audio data, the magnification of Viewing area of the plurality of images to be displayed are extracted specific areas And controlling the movement and new generation of the display area based on the display magnification, forming a plurality of display areas on the display screen, displaying a plurality of display areas including an image to be displayed, and displaying one or more It is determined whether or not the display area is in a state of continuously moving in the local area. If it is determined that the display area is in this state, the display area is fixed.

本発明の第5の観点は、受信した画像データ、音声データを再生する通信端末の表示方法であって、特定のエリアを抽出されて表示すべき複数の画像の表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、表示画面上に複数の表示エリアを形成し、表示すべき画像を含む複数の表示エリアを表示し、前記表示エリアが局所安定状態にあるか否かを判定し、局所安定状態と判断された場合に、表示エリアの位置配置の再配置を促す攪拌処理を行う。 A fifth aspect of the present invention, calculated received image data, a display method of a communication terminal for reproducing audio data, the magnification of Viewing area of the plurality of images to be displayed are extracted specific areas And controlling the movement and new generation of the display area based on the display magnification, forming a plurality of display areas on the display screen, and displaying a plurality of display areas including an image to be displayed. It is determined whether or not the local stable state is present, and when it is determined that the local stable state is present, a stirring process that prompts rearrangement of the position arrangement of the display area is performed.

本発明によれば、ユーザが操作することなく、音量の大きさや表示すべき表示画像エリア(スクリーン)の数等の状況に応じて適応的に、最適に表示画像エリア(スクリーン)のサイズ、位置を更新することができ、しかも表示画像エリアの再配置(移動)が連続的になり、異なる形状であっても最適なサイズで配置することが可能となる。
また、振動を停止することにより、煩わしさをなくすことが可能となる。
また、局所安定状態を解消することにより、スクリーンを大きくすることが可能で、また、安定状態であるか否かを判定するため、不用意な攪拌処理を行う必要がない。
According to the present invention, the size and position of the display image area (screen) are adaptively and optimally according to the situation such as the volume level and the number of display image areas (screens) to be displayed without the user's operation. In addition, the display image area can be rearranged (moved) continuously, and even with different shapes, it can be arranged in an optimum size.
Further, by stopping the vibration, it is possible to eliminate troublesomeness.
Further, by eliminating the local stable state, the screen can be enlarged, and it is not necessary to perform an inadvertent stirring process in order to determine whether or not the screen is in a stable state.

以下、本発明の実施形態を図面に関連付けて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図4および図5は、本発明の実施形態に係る携帯通信端末の構成例を示す図であって、図4はエンコード装置を示すブロック図であり、図5はデコード装置を示すブロック図である。   4 and 5 are diagrams showing a configuration example of the mobile communication terminal according to the embodiment of the present invention. FIG. 4 is a block diagram showing the encoding device, and FIG. 5 is a block diagram showing the decoding device. .

本携帯通信端末10は、送信元となるエンコード装置20と、受信側とあるデコード装置30とを有し、多地点通信可能に構成される。   The mobile communication terminal 10 includes an encoding device 20 serving as a transmission source and a decoding device 30 serving as a reception side, and is configured to be capable of multipoint communication.

エンコード装置20は、符号化した音声データ、画像データを、受信側端末に対する指示情報や画像の天地情報等を付加してパケットとしてネットワークに送信する機能を有する。
音声データおよび画像データに付加される送信元の指示情報は、指示された画像の送信元の識別する情報(たとえ、IPアドレス、MACアドレス)と、受信した画像上の位置を示す位置情報とを含む。
送信元となるエンコード装置20は、送信元は、画面上、指示した位置にスクリーン(スクリーンについては後で詳述する)が存在する場合、対応する指示情報、スクリーン情報、音量情報を生成し、同通信中の相手に対して送出する機能を有する。
The encoding device 20 has a function of transmitting the encoded audio data and image data to the network as a packet by adding instruction information for the receiving terminal, image top and bottom information, and the like.
The instruction information of the transmission source added to the audio data and the image data includes information for identifying the transmission source of the instructed image (for example, IP address, MAC address) and position information indicating the position on the received image. Including.
The encoding device 20 serving as a transmission source generates corresponding instruction information, screen information, and volume information when the transmission source has a screen (the screen will be described in detail later) at the indicated position on the screen. It has a function to send to the other party in communication.

図4のエンコード装置20は、マイクロフォン等からなる音声入力部201、デジタルカメラ等の画像入力部202、キー入力等が可能な操作部203、音声入力部201により入力される音声データを符号化する音声符号化処理部204、画像入力部202から入力され所定エリアに切り出された画像データを符号化する画像符号化処理部205、撮像画像に関連付けた天地情報に基づいて、撮像画像の天地を受信側の表示部の画面(端末画面)の天地と一致するように補正する天地補正部206、撮像画像から顔のエリアを検出、抽出する顔エリア検出部207、顔エリア検出部207にて検出された顔エリアに基づいて使用するスクリーン(表示すべき表示画像エリア)を判別しスクリーン情報を生成するスクリーン判別部208、スクリーン判別部208の判定に基づいて受信画像から該当するエリアを切り出す切り出し部209、音声入力部201による入力音量を計測し音量情報を生成する入力音量計測部210、操作部203の入力情報に基づいて端末を制御する端末制御部211、端末制御部211の指示に基づいて指示情報や天地情報、スクリーン情報、音量情報等を含む制御情報を生成する制御情報生成部212、画像・映像を記憶する記憶部213、符号化された音声データおよび画像データ、制御情報、端末制御部211の指示に基づいて記憶部213から読み出された画像・映像データを送信パケットとして生成する送信パケット生成部214、およびネットワークと無線通信可能で生成された送信パケットをネットワークを介して通信相手の端末やサーバに送信するネットワークインタフェース(I/F)215を有する。   The encoding apparatus 20 in FIG. 4 encodes a voice input unit 201 including a microphone, an image input unit 202 such as a digital camera, an operation unit 203 capable of key input, and voice data input by the voice input unit 201. The audio encoding processing unit 204, the image encoding processing unit 205 that encodes the image data input from the image input unit 202 and cut out into a predetermined area, and receives the top and bottom of the captured image based on the top and bottom information associated with the captured image Detected by a top / bottom correction unit 206 that corrects the screen to match the top / bottom of the display screen (terminal screen), a face area detection unit 207 that detects and extracts a face area from the captured image, and a face area detection unit 207. A screen discriminating unit 208 that discriminates a screen (display image area to be displayed) to be used based on the face area and generates screen information. Based on the input information of the operation unit 203 and the input volume measuring unit 210 that generates the volume information by measuring the input volume by the voice input unit 201 by cutting out the corresponding area from the received image based on the determination of the lean determination unit 208. A terminal control unit 211 that controls the terminal, a control information generation unit 212 that generates control information including instruction information, top and bottom information, screen information, volume information, and the like based on instructions from the terminal control unit 211, and stores images and videos A storage unit 213, encoded audio data and image data, control information, a transmission packet generation unit 214 that generates image / video data read from the storage unit 213 based on an instruction from the terminal control unit 211 as a transmission packet; In addition, the transmission packet generated so that wireless communication with the network can be performed via the network is performed on the other party's terminal or A network interface (I / F) 215 for transmitting to the server.

デコード装置30は、通信相手(送信元)のエンコード装置20から送信されネットワークを介して受信した音声データ、画像データを再生する機能を有する。
デコード装置30は、たとえば多地点通信を行っている場合に、受信画像の制御情報に基づいて特定エリアである顔を含む画像を、使用するスクリーン(サイズが制御された表示エリア)を選択して表示し、音声を発する機能を有する。
デコード装置30は、このスクリーンの表示に際し、デッドゾーンをなくした円形(楕円形を含む概念である)ウィンドゥにて分割する機能を有する。
円形(楕円形)ウィンドウに分割するように構成したのは、以下の理由による。
一般的に、画面の分割は、長方形で行っていた。人間の顔は基本的に楕円形であり、長方形の四隅はデットゾーンとなる。このデッドゾーンが、顔を表示するエリアを結果的に狭く(小さく)している。
よって、本実施形態においては、このデッドゾーンをなくした円形(楕円形)ウィンドゥにて分割するように構成している。
また、デコード装置30は、マルチスクリーンを表示する機能を有し、スクリーン中心間を結ぶ線分、基準形状の厚さ、音声の大きさに基づいて、スクリーンの表示倍率を算出し、この表示倍率に基づいてスクリーンの移動、新規生成を制御することにより、画面上に複数のスクリーンを最適に形成する機能を有する。
具体的な処理については、後で図面に関連付けて詳述する。
The decoding device 30 has a function of reproducing audio data and image data transmitted from the encoding device 20 of the communication partner (transmission source) and received via the network.
For example, when performing multipoint communication, the decoding device 30 selects a screen (a display area whose size is controlled) to use an image including a face as a specific area based on the control information of the received image. It has a function to display and emit sound.
The decoding device 30 has a function to divide in a circular (concept including an ellipse) window from which a dead zone is eliminated when the screen is displayed.
The reason for the division into the circular (elliptical) windows is as follows.
In general, the screen is divided into rectangles. The human face is basically oval, and the four corners of the rectangle are dead zones. This dead zone results in a narrow (small) area for displaying the face.
Therefore, in this embodiment, it is configured so as to be divided by a circular (elliptical) window from which this dead zone is eliminated.
Further, the decoding device 30 has a function of displaying a multi-screen, calculates a screen display magnification based on a line segment connecting the centers of the screens, a thickness of a reference shape, and a loudness of the sound. By controlling the movement and new generation of the screen based on the above, it has a function of optimally forming a plurality of screens on the screen.
Specific processing will be described in detail later in association with the drawings.

図5のデコード装置30は、ネットワークと無線通信可能で送信元から送信された音声データ、画像(映像)データ、制御情報や指示情報、スクリーン情報、音量情報等を含むパケットを受信するネットワークインタフェース(I/F)301、キー入力等が可能な操作部302、ネットワークインタフェース301で受信されたパケットを解析し、音声データ、画像データ、送信元アドレス、制御情報(天地情報や指示情報等)を抽出する受信パケット解析部303、受信パケット解析部303により抽出された音声データを復号する音声復号処理部304、受信パケット解析部303により抽出された映像データを復号する映像復号処理部305、映像復号処理部305により復号された映像データ、送信元アドレス、制御情報、スクリーン情報、サイズ情報、天地情報に基づいて表示すべきスクリーン(表示ウィンドウ)のサイズや表示形態を制御する表示画像制御部306、音声復号処理部304により復号された音声の音量を修正する音量修正部307、音量修正部307で修正された音量で発音するスピーカ等の音声出力部308、表示画像制御部306によりサイズや表示形態が制御された画像を補正する画像補正部309、画像補正部309を介した画像を表示するLCD等の表示部(画像出力部)310、および操作部302からの入力情報に基づいて表示画像制御部306に制御情報(天地情報)を与える自端末制御部311を有する。   The decoding device 30 in FIG. 5 is a network interface that receives packets including audio data, image (video) data, control information, instruction information, screen information, volume information, and the like that are wirelessly communicable with a network and transmitted from a transmission source. (I / F) 301, operation unit 302 capable of key input, etc., and packet received by network interface 301 are analyzed, and voice data, image data, transmission source address, control information (top and bottom information, instruction information, etc.) are extracted. The received packet analysis unit 303, the audio decoding processing unit 304 that decodes the audio data extracted by the reception packet analysis unit 303, the video decoding processing unit 305 that decodes the video data extracted by the reception packet analysis unit 303, and the video decoding process. Video data decoded by the unit 305, transmission source address, control information, screen information Display image control unit 306 that controls the size and display form of a screen (display window) to be displayed based on the information, size information, and top and bottom information, and a volume correction unit that corrects the volume of the audio decoded by the audio decoding processing unit 304 307, an audio output unit 308 such as a speaker that produces sound with the volume corrected by the volume correction unit 307, an image correction unit 309 that corrects an image whose size and display form are controlled by the display image control unit 306, and an image correction unit 309. A display unit (image output unit) 310 such as an LCD for displaying an image via the terminal, and a local terminal control unit 311 for giving control information (top and bottom information) to the display image control unit 306 based on input information from the operation unit 302 .

なお、エンコード装置20とデコード装置30は、操作部203と302、ネットワークインタフェース210と301、端末制御部211と自端末制御部311は共用することが可能である。   Note that the encoding device 20 and the decoding device 30 can share the operation units 203 and 302, the network interfaces 210 and 301, the terminal control unit 211, and the own terminal control unit 311.

以下に、本実施形態の特徴部分である表示画像制御部306のより具体的な構成および機能、並びにスクリーンの具体的な構成や表示形態例について順を追って説明する。   Hereinafter, a more specific configuration and function of the display image control unit 306, which is a characteristic part of the present embodiment, and a specific configuration and display mode example of the screen will be described in order.

図5の表示画像制御部306は、受信パケット解析部303により供給される制御情報に基づいてスクリーン情報、サイズ情報、天地情報、および指示情報を抽出する制御情報解析部3061、スクリーン情報に基づいて映像復号処理部305で復号された映像に対してマスキングを行うマスキング処理部3062、サイズ情報に基づいて表示すべきスクリーン(表示画像エリア)の表示倍率を算出し、スクリーンの振動状態、安定状態を判定し、スクリーンの位置配置の再配置を促す攪拌処理する機能を有する表示倍率算出判定部3063、表示倍率算出判定部3063で算出された表示倍率に従ってマスキング処理後の画像を縮小・拡大する縮小・拡大処理部3064、表示倍率算出判定部3063で算出された表示倍率および天地情報に従って表示位置を算出する表示位置算出部3065、および表示位置算出部3065にて得られた表示部310上の位置に縮小・拡大処理部3064にて得られた画像をマッピングするマッピング処理部3066を有する。   The display image control unit 306 in FIG. 5 is based on the control information analysis unit 3061 that extracts screen information, size information, top and bottom information, and instruction information based on the control information supplied from the received packet analysis unit 303. A masking processing unit 3062 that performs masking on the video decoded by the video decoding processing unit 305, calculates a display magnification of the screen (display image area) to be displayed based on the size information, and determines the vibration state and stable state of the screen. A display magnification calculation determination unit 3063 having a function of performing a stirring process for determining and rearranging the position arrangement of the screen, and a reduction / enlargement of the image after the masking process according to the display magnification calculated by the display magnification calculation determination unit 3063 The display magnification and the top and bottom information calculated by the enlargement processing unit 3064 and the display magnification calculation determination unit 3063 The display position calculation unit 3065 for calculating the display position and the mapping processing unit 3066 for mapping the image obtained by the reduction / enlargement processing unit 3064 to the position on the display unit 310 obtained by the display position calculation unit 3065. Have

本実施形態の表示画像制御部306は、1つ以上のスクリーンが局所領域にて継続的に動き続ける状態にあるか否かを判定する振動状態判定機能を有する。
この振動状態判定機能は、一定期間(n)において、スクリーン個数の変動がなく、各スクリーンの音声の大きさの変動がなく、さらに、スクリーンの位置の変動があり、変動が閾値(Pthresh0)以下であり、スクリーンの表示倍率の変動が閾値(Rthresh0)以下である場合、振動状態にあると判定し、振動状態中、前記期間中の表示倍率の二乗総和値(R)が最も大きい状態の配置に固定する。
The display image control unit 306 of this embodiment has a vibration state determination function that determines whether or not one or more screens are in a state of continuously moving in a local region.
This vibration state determination function does not change the number of screens in a certain period (n), does not change the sound volume of each screen, and further changes the position of the screen, and the fluctuation is below the threshold (Pthresh0). If the fluctuation of the display magnification of the screen is less than or equal to the threshold (Rthresh0), it is determined that the vibration state is present, and the arrangement in a state where the square sum value (R) of the display magnification during the period is the largest during the vibration state. Secure to.

また、本実施形態の表示画像制御部306は、スクリーンの安定状態にあるか否かを判定する安定状態判定機能を有する。
この安定状態判定機能は、一定期間(m)において、スクリーン個数の変動がなく、各スクリーンの音声の大きさの変動がなく、さらに、スクリーンの位置の変動が閾値(Pthresh1)以下であり、スクリーンの表示倍率の変動が閾値(Rthresh1)以下である場合、安定状態にあると判定する。
また、安定状態判定機能は、一定期間において、スクリーン個数の変動がなく、各スクリーンの音声の大きさの変動がなく、さらに、スクリーンの位置の変動が閾値(Pthresh1)以下であり、スクリーンの表示倍率の二乗総和比が閾値(Rthresh2)以下である場合、局所安定状態にあると判定する。
Further, the display image control unit 306 of the present embodiment has a stable state determination function for determining whether or not the screen is in a stable state.
This stable state determination function has no fluctuation in the number of screens in a certain period (m), no fluctuation in the sound volume of each screen, and the fluctuation in the screen position is below a threshold (Pthresh1). If the change in display magnification is less than or equal to the threshold (Rthresh1), it is determined that the state is stable.
In addition, the stable state judgment function does not change the number of screens in a certain period, does not change the sound volume of each screen, and the screen position fluctuation is less than the threshold (Pthresh1), and the screen display When the square sum ratio of magnifications is equal to or less than the threshold (Rthresh2), it is determined that the local stable state is established.

また、本実施形態の表示画像制御部306は、スクリーンの安定状態判定機能にて、安定と判断された場合に、スクリーンの位置配置の再配置を促す攪拌処理機能を有する。
この攪拌処置機能は、画面上に仮の中心を配し、各中心における表示倍率の内、先に選択しておらず、最も小さい値を取得する位置を攪拌用のスクリーンの中心とし、一定期間、攪拌用のスクリーンを生成、更新し、消滅することによって、攪拌を行う。
攪拌処理の実行回数(S)が閾値(Sthresh)を越える場合、安定状態にあると判断し、攪拌処理を停止する。
In addition, the display image control unit 306 of the present embodiment has a stirring processing function that prompts rearrangement of the screen position when it is determined to be stable by the screen stable state determination function.
This agitation treatment function has a temporary center on the screen, the display magnification at each center is not selected first, and the position where the smallest value is acquired is the center of the screen for agitation, for a certain period of time Stirring is performed by creating, updating, and extinguishing the screen for stirring.
When the number of executions (S) of the stirring process exceeds the threshold value (Sthresh), it is determined that the state is stable and the stirring process is stopped.

本実施形態の表示画像制御部306によりサイズおよび表示形態が制御されるスクリーンは、1つの画面上に複数のスクリーンを表示するマルチスクリーンとして表示される。
以下に、本実施形態の表示画像制御部306の表示倍率算出判定部3063、表示位置算出部3065の処理を中心にしてマルチスクリーンの表示制御について説明する。
The screen whose size and display form are controlled by the display image control unit 306 of this embodiment is displayed as a multi-screen that displays a plurality of screens on one screen.
Hereinafter, multi-screen display control will be described focusing on the processing of the display magnification calculation determination unit 3063 and the display position calculation unit 3065 of the display image control unit 306 of the present embodiment.

本実施形態の表示倍率算出判定部3063において、スクリーンは、スクリーンの表示位置を示す中心位置座標(P(i))、スクリーンの形状を示す基準形状(Unit(i))、スクリーンに対応付けられた音声の大きい(V(i))、スクリーンを画面上に表示する際の表示倍率(R(i))とを有し、表示倍率(R(i))は、周囲のスクリーンの中心位置座標(P(j))と結ぶ線分(L(i,j))と、その線分上の基準形状の厚さ(Lm(i,j),Lm(j,i))、および、音声の大きさ(V(i),V(j))に基づいて算出しされた仮表示倍率(R(i,j))の内、最も小さい値をする。
表示倍率算出判定部3063において、スクリーン中心から画面境界に垂直に接した点に、音声の大きさ(V(k)=0)、厚さ(Lm(k,i)=0)を設定し、表示倍率(R(i,k))を算出する。
また、スクリーンは、表示倍率(R(i))を最も大きくする位置に移動する。
また、スクリーンは、表示倍率(R(k))の最も大きい位置に、新規スクリーンの中心を生成する。
また、基準形状は、面積を等しくする。
さらにまた、基準形状にて形成したスクリーン間に分離線を引き、前記分離線にて分離されたエリアを新たなスクリーンとする。
In the display magnification calculation determination unit 3063 of this embodiment, the screen is associated with the center position coordinates (P (i)) indicating the display position of the screen, the reference shape (Unit (i)) indicating the shape of the screen, and the screen. Display sound (V (i)) and display magnification (R (i)) when the screen is displayed on the screen, and the display magnification (R (i)) is the center position coordinate of the surrounding screen (P (j)) connecting line segment (L (i, j)), thickness of reference shape on that line segment (Lm (i, j), Lm (j, i)), and voice The smallest value is selected from the temporary display magnifications (R (i, j)) calculated based on the sizes (V (i), V (j)).
In the display magnification calculation determination unit 3063, the audio volume (V (k) = 0) and thickness (Lm (k, i) = 0) are set at a point that is perpendicular to the screen boundary from the center of the screen. The display magnification (R (i, k)) is calculated.
Further, the screen moves to a position where the display magnification (R (i)) is maximized.
The screen generates the center of the new screen at the position where the display magnification (R (k)) is the largest.
The reference shape has the same area.
Furthermore, a separation line is drawn between the screens formed in the reference shape, and an area separated by the separation line is set as a new screen.

次に、本実施形態に係る表示画像制御部306によりサイズおよび表示形態が制御されるスクリーンの表示倍率の算出、新規スクリーンの生成位置の算出、スクリーンの移動位置の算出等についてより具体的に説明する。   Next, the calculation of the display magnification of the screen whose size and display form are controlled by the display image control unit 306 according to the present embodiment, the calculation of the generation position of the new screen, the calculation of the movement position of the screen, etc. will be described more specifically. To do.

図6に示すように、各スクリーン40は、基準形状(Unit)を有する。表示部310の画面上へのスクリーン40は、基準形状(Unit)を表示倍率(R)に従って、拡大・縮小して表示する。   As shown in FIG. 6, each screen 40 has a reference shape (Unit). The screen 40 on the screen of the display unit 310 displays the reference shape (Unit) enlarged or reduced according to the display magnification (R).

表示倍率(R)の算出
表示倍率算出判定部3063は、スクリーンiとスクリーンjとの中心間の距離(L(i,j))、各スクリーンの中心から前記方向への基準形状(Unit)における厚さ(Lm(i,j)、Lm(j,i))を算出し、および、各スクリーンに表示する内容における受信した音声の大きさ(V(i),V(j))に基づいて、スクリーンiにおけるスクリーンjからの算出される表示倍率(R(i,j))を以下の通りに算出する。
Calculation of display magnification (R) :
The display magnification calculation determination unit 3063 is a distance (L (i, j)) between the centers of the screen i and the screen j, and a thickness (Lm (i, j,) in the reference shape (Unit) from the center of each screen to the direction. j), Lm (j, i)), and based on the received audio volume (V (i), V (j)) in the content displayed on each screen, from screen j on screen i The display magnification (R (i, j)) is calculated as follows.

Figure 0004990520
Figure 0004990520

周囲に存在するスクリーン間の表示倍率を算出し、次式のように、その表示倍率の内、最も小さい値を実際の表示倍率(R(i))とする。   The display magnification between the surrounding screens is calculated, and the smallest value among the display magnifications is set as the actual display magnification (R (i)) as shown in the following equation.

Figure 0004990520
Figure 0004990520

新規のスクリーンの生成位置の算出
表示倍率算出判定部3063は、画面上に仮の中心を配し、各中心において、表示倍率(Rmin)を算出する。各表示倍率(R)の内、最も大きい値を取る位置を新規のスクリーンの生成の中心位置とする。
Calculation of new screen generation position :
The display magnification calculation determination unit 3063 places a temporary center on the screen and calculates the display magnification (Rmin) at each center. Of each display magnification (R), the position having the largest value is set as the center position for generating a new screen.

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

この条件を満たす中心(P(k))を新規スクリーンの中心位置とする。   The center (P (k)) satisfying this condition is set as the center position of the new screen.

スクリーンの移動位置の算出
各スクリーンは、現在(t)の位置から一定距離内(集合I)の各位置において、表示倍率(R)を算出し、表示倍率の内、最も大きな値を取る位置を次時刻(t+Δt)における中心位置とする。
Calculation of screen movement position :
Each screen calculates the display magnification (R) at each position within a certain distance (set I) from the current (t) position, and the position having the largest value among the display magnifications is calculated at the next time (t + Δt ).

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

この条件を満たす中心(P(t+Δt))に移動する。   Move to the center (P (t + Δt)) that satisfies this condition.

スクリーン位置は、時間経過に伴い、画面上を移動していく。このため、新規のスクリーンの生成においては、画面上の空き位置全てに対して演算を行う必要はない。つまり、画面上の何点かに対して、新規生成位置の判定を行い、その結果により位置を配置したとしても、時間経過とともに、表示倍率がもっとも大きい位置に移動していく。これにより、生成における演算負荷を低減することが可能となる。   The screen position moves on the screen over time. For this reason, in the generation of a new screen, it is not necessary to perform calculation for all empty positions on the screen. That is, even if a new generation position is determined for some points on the screen and the positions are arranged based on the result, the display magnification moves to the position where the display magnification is the highest as time passes. Thereby, it becomes possible to reduce the calculation load in generation.

随時、スクリーンの位置関係は変動していくため、表示倍率(R(*))算出における基準形状の厚さ(Lm(*))は、その時の方向に対して算出する必要がある。
この厚さ算出に関しては、(複雑な形状に対して)中心から対象方向へデジタル直線を引くことにより、算出することが可能となる。ただし、これは演算負荷の増加となる。これに対しては、各基準形状に対して、各角度に対する厚さを前もって算出したテーブルを参照することにより、表示倍率演算時の演算負荷を低減することが可能となる。
Since the positional relationship of the screen changes at any time, it is necessary to calculate the thickness (Lm (*)) of the reference shape in the display magnification (R (*)) calculation with respect to the direction at that time.
The thickness can be calculated by drawing a digital straight line from the center to the target direction (for a complicated shape). However, this increases the calculation load. For this, by referring to a table in which the thickness for each angle is calculated in advance for each reference shape, it is possible to reduce the calculation load when calculating the display magnification.

画面の四方の壁処理
各スクリーン40は、四方の壁との間に以下の演算規則に従って、表示倍率(R)を算出する。
図7に示すように、スクリーンの中心から壁に垂直に落とした点を算出上の壁の中心とし、中心間の線分(L(i,k))、基準形状(Unit)における厚さ(Lm(i,k),Lm(k,i))と、およびスクリーンの受信した音声の大きさ(V(i),V(k))を算出する。この時、壁における、音声の大きさは(V(k)=0)、基準形状の厚さ(Lm(k,i)=0)として、前述の表示倍率(R)の算出と同様に算出を行う。
各々のスクリーン40において、表示倍率(R(i))を算出する場合、周囲のスクリーンとの表示倍率(R(i,j)と同様に、壁との表示倍率(R(i,k))を算出し、この内、最も小さい値を実際に表示する際の表示倍率(R(i))とする
Wall treatment on all sides of the screen :
Each screen 40 calculates the display magnification (R) according to the following calculation rule between the four walls.
As shown in FIG. 7, the point dropped from the center of the screen perpendicularly to the wall is taken as the center of the calculated wall, and the line segment between the centers (L (i, k)) and the thickness in the reference shape (Unit) ( Lm (i, k), Lm (k, i)) and the magnitude (V (i), V (k)) of the voice received by the screen are calculated. At this time, the sound volume on the wall is calculated as (V (k) = 0) and the thickness of the reference shape (Lm (k, i) = 0) in the same manner as the calculation of the display magnification (R) described above. I do.
When calculating the display magnification (R (i)) for each screen 40, the display magnification with the wall (R (i, k)) is the same as the display magnification with the surrounding screen (R (i, j)). And the display magnification (R (i)) when actually displaying the smallest value among these

基準形状を楕円形とするスクリーン(S(0),S(1))において、音声の大きさ(V(0),V(1))の比を変化させた例を図8(A)〜(C)に示す。
図8(A)〜(C)において、左から、音声の大きさの比(V(0):V(1))が、1:1、2:1、3:1の場合である。このように、音量に大きさに応じて、適応的にスクリーンサイズを変動することが可能となる。
An example in which the ratio of the sound volume (V (0), V (1)) is changed on the screen (S (0), S (1)) whose reference shape is an ellipse is shown in FIGS. Shown in (C).
8A to 8C, from the left, the audio volume ratio (V (0): V (1)) is 1: 1, 2: 1, 3: 1. Thus, the screen size can be adaptively changed according to the volume.

基準形状を楕円形とするスクリーン(S(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減した例を図9(A)〜(C)に示す。
図10(A)〜(C)において、左から、スクリーン数=2、3、4の場合である。
このように、スクリーン数の数に応じて、適応的にスクリーンサイズを変動させ、画面内に全てのスクリーンを形成することが可能となる。
An example in which the number of screens formed on the screen is increased or decreased in screens (S (0), S (1), S (2), S (3)) having an elliptical reference shape is shown in FIGS. C).
10A to 10C, the numbers of screens are 2, 3, and 4 from the left.
In this way, it is possible to adaptively change the screen size according to the number of screens and form all the screens in the screen.

基準形状を楕円形とするスクリーン(S(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減しつつ、そのうち1つのスクリーンの音声の大きさを他のスクリーンの音声の大きさの倍にした例を図10(A)〜(C)に示す。
図10(A)〜(C)において、左から、スクリーン数=2、3、4の場合であり、音声の大きさの比(V(0):V(1))が2:1、比(V(0):V(1):V(2))が2:1:1、比(V(0):V(1):V(2):V(3))が2:1:1:1の場合である。
このように、スクリーン数の数に応じて、適応的にスクリーンサイズを変動させ、画面内に全てのスクリーンを形成することが可能となる。これは、スクリーン(S(0))に映っている人が発言をしている例であり、このように、一人が発言している場合、その人のスクリーンのみが、その大きさに応じて適応的にスクリーンサイズを拡大・縮小することが可能となる。
In a screen (S (0), S (1), S (2), S (3)) with an elliptical reference shape, the number of screens formed on the screen is increased or decreased, and the sound of one of these screens is recorded. FIGS. 10A to 10C show examples in which the size is double the size of the sound of other screens.
10 (A) to 10 (C), from the left, the number of screens is 2, 3, and 4, and the audio volume ratio (V (0): V (1)) is 2: 1. (V (0): V (1): V (2)) is 2: 1: 1, ratio (V (0): V (1): V (2): V (3)) is 2: 1: This is the case of 1: 1.
In this way, it is possible to adaptively change the screen size according to the number of screens and form all the screens in the screen. This is an example in which a person shown on the screen (S (0)) is speaking, and when one person is speaking in this way, only that person's screen will depend on its size. The screen size can be adaptively enlarged / reduced.

基準形状を楕円形とするスクリーンS(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減しつつ、そのうち1つのスクリーンの音声の大きさを他のスクリーンの音声の大きさを1/2倍にした例を図11(A)〜(C)に示す。
図11(A)〜(C)において、左から、スクリーン数=2、3、4の場合であり、音声の大きさの比(V(0):V(1))が2:1、比(V(0):V(1):V(2))が2:1:2、比(V(0):V(1):V(2):V(3))が2:1:2:2の場合である。
このように、スクリーン数の数に応じて、適応的にスクリーンサイズを変動させ、画面内に全てのスクリーンを形成することが可能となる。これは、スクリーン(S(0))に映っている人以外が発言をしている例であり、このように、複数の人が発言している場合でも、状況に合わせて、適応的にスクリーンサイズを拡大・縮小することが可能となる。
In the screens S (0), S (1), S (2), S (3)) having an elliptical reference shape, the number of screens formed on the screen is increased or decreased, and the sound volume of one of the screens is increased. FIGS. 11A to 11C show examples in which the sound volume of other screens is halved.
In FIGS. 11A to 11C, the number of screens is 2, 3, and 4 from the left, and the audio volume ratio (V (0): V (1)) is 2: 1. (V (0): V (1): V (2)) is 2: 1: 2, ratio (V (0): V (1): V (2): V (3)) is 2: 1: This is the case of 2: 2.
In this way, it is possible to adaptively change the screen size according to the number of screens and form all the screens in the screen. This is an example where a person other than the person shown on the screen (S (0)) is speaking, and in this way, even when multiple persons are speaking, the screen is adaptively adapted to the situation. It becomes possible to enlarge / reduce the size.

基準形状が、楕円形(S(oval))、円形(S(circle))、長方形(S(rectangle))が混在している場合(音声の大きさは等しい)の例を図12(A)〜(D)に示す。
図12(A)〜(D)において、左から、長方形と楕円形、円形と楕円形、円形と長方形、下方が円形と楕円形と長方形の場合を示している。
基準形状は、形状が異なっても、面積を同等に設定することにより、各スクリーンは、適応的にスクリーンサイズを調整し、音声の大きさが等しい場合、視覚的に各々のスクリーンサイズが等しく表示することが可能となる。
FIG. 12A shows an example in which the reference shape includes an ellipse (S (oval)), a circle (S (circle)), and a rectangle (S (rectangle)) (sound volume is equal). Shown in (D).
12A to 12D, from the left, a case where a rectangle and an ellipse, a circle and an ellipse, a circle and a rectangle, and a lower part are a circle, an ellipse, and a rectangle are shown.
Regardless of the shape of the reference shape, by setting the area to be equal, each screen adaptively adjusts the screen size, and if the audio volume is equal, each screen size is visually displayed equally It becomes possible to do.

さらに、本実施形態においては、スクリーン外のデッドゾーンを低減することから、図13(A)〜(C)に示すように、各スクリーンの間にエリアの分離線(太線)を形成し、前記分離線に基づいたエリアは各スクリーンの表示エリアとする。これにより、スクリーン数の増減と、各スクリーンの音声の大きさの増減に適応しつつ、画面を最大限に分割利用することが可能となる。
図13(A)〜(C)の例は、音声の大きさの比(V(0):V(1))が2:1、比(V(0):V(1):V(2))が2:1:1、比(V(0):V(1):V(2):V(3))が2:1:1:1の場合である。
Further, in the present embodiment, since the dead zone outside the screen is reduced, as shown in FIGS. 13A to 13C, an area separation line (bold line) is formed between the screens, The area based on the separation line is the display area of each screen. This makes it possible to divide and use the screen to the maximum while adapting to the increase / decrease in the number of screens and the increase / decrease in the sound volume of each screen.
In the example of FIGS. 13A to 13C, the audio volume ratio (V (0): V (1)) is 2: 1 and the ratio (V (0): V (1): V (2). )) Is 2: 1: 1 and the ratio (V (0): V (1): V (2): V (3)) is 2: 1: 1: 1.

次に、振動状態判定処理、安定状態判定処理、攪拌処理について、図14〜図17に関連つけて説明する   Next, the vibration state determination process, the stable state determination process, and the stirring process will be described with reference to FIGS.

図14は、振動回避の基本処理を説明するためのフローチャートである。
以下の処理において、Cはスクリーン個数の変動値、Vは音声の大きさの変動値、Pは位置の変動値、Rは表示倍率の変動値、Rthresh0、Pthresh0は閾値をそれぞれ示している。
FIG. 14 is a flowchart for explaining basic processing for avoiding vibration.
In the following processing, C is a fluctuation value of the number of screens, V is a fluctuation value of the sound volume, P is a fluctuation value of the position, R is a fluctuation value of the display magnification, and Rthresh0 and Pthresh0 are threshold values.

スクリーン個数の変動がなく(C=0)、音声の大きさの変動がない(V=0)の場合で(ステップST1)、表示倍率の変動Rが閾値Rthresh0以下(R≦Rthresh0)、スクリーン位置の変動Pが変動しつつ、その変動幅が閾値Pthresh0以下である(0<P≦Pthresh0)である場合(ST2)、スクリーンが絶えず振動している状態に陥っていると判断し、判断区間における表示倍率の二乗の総和が最大値を取る時刻のスクリーン配置に固定する(配置に置き換える)(ST3)。
なお、スクリーン個数が変動した場合(C≠0)、もしくは音声の大きさが変動した場合(V≠0)、配置の固定を解除し、演算結果に基づいて再配置する(ST4)。
これにより、局所的な位置にて、スクリーンが目障りに振動しつづけることを回避することが可能となる。
When there is no change in the number of screens (C = 0) and there is no change in the volume of the voice (V = 0) (step ST1), the change R of the display magnification is less than or equal to the threshold value Rthresh0 (R ≦ Rthresh0), and the screen position In the case where the fluctuation P is fluctuating and the fluctuation width is equal to or less than the threshold value Pthresh0 (0 <P ≦ Pthresh0) (ST2), it is determined that the screen is constantly oscillating. The screen layout at the time when the sum of the squares of the display magnifications takes the maximum value is fixed (replaced with the layout) (ST3).
If the number of screens changes (C ≠ 0) or the volume of sound changes (V ≠ 0), the fixed arrangement is released and rearranged based on the calculation result (ST4).
As a result, it is possible to avoid that the screen continues to vibrate at local positions.

なお、スクリーン個数の変動C、音声の大きさの変動V、位置の変動P、および表示倍率の変動Rは、以下の式で与えられる。   Note that the variation C in the number of screens, the variation V in the sound volume, the variation P in the position, and the variation R in the display magnification are given by the following equations.

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

なお、C(t)は時間tにおけるスクリーン個数、Vi(t)はスクリーンiが時間tにおける音声の大きさ、Pi(t)はスクリーンiが時間tにおける位置、Ri(t)はスクリーンiが時間tにおける表示倍率とする。Rmaxはディスプレィ全体を1つのスクリーンで覆った場合の表示倍率とする。   Note that C (t) is the number of screens at time t, Vi (t) is the loudness of screen i at time t, Pi (t) is the position of screen i at time t, and Ri (t) is the screen i. Display magnification at time t. Rmax is the display magnification when the entire display is covered with one screen.

図15は、安定状態を判定し、攪拌処理を行う処理を説明するためのフローチャートである。
以下の処理において、Cはスクリーン個数の変動値、Vは音声の大きさの変動値、Pは位置の変動値、Rは表示倍率の変動値、Rthresh1、Rthresh2、Pthresh1は閾値、Rmaxはディスプレィ全体を1つのスクリーンで覆った場合の表示倍率をそれぞれ示している。
FIG. 15 is a flowchart for explaining a process of determining a stable state and performing a stirring process.
In the following processing, C is the fluctuation value of the number of screens, V is the fluctuation value of the sound volume, P is the fluctuation value of the position, R is the fluctuation value of the display magnification, Rthresh1, Rthresh2, Pthresh1 is the threshold value, Rmax is the entire display The display magnification when each is covered with one screen is shown.

スクリーン個数の変動がなく(C=0)、音声の大きさの変動がない(V=0)の場合(ST11)で、表示倍率の変動Rが閾値Rthresh1以下(R≦Rthresh0)、スクリーン位置の変動Pが閾値Pthresh1以下である(P≦Pthresh1)である場合(ST12)、もしくは、表示倍率の二乗総和比R(t)が閾値Rthresh2以下(R(t)≦Rthresh2)、スクリーン位置の変動Pが閾値Pthresh1以下である(P≦Pthresh1)である場合(ST13)、スクリーンが絶えず安定状態に陥ったと判断する。
攪拌回数Sが閾値Sthresh以下の場合(S≦Sthresh)で(ST14)、攪拌処理後の経過時間Qが閾値Qthresh経過している場合(ST15)、攪拌処理を施し、攪拌回数S、経過時間Qを更新(S++、Q=0)する(ST16、ST17)。攪拌回数Sが閾値Sthreshを越える場合(ST14)、安定状態にある判定する(ST18)。
なお、スクリーン個数が変動した場合(C≠0)、もしくは音声の大きさが変動した場合(V≠0)、攪拌回数S、経過時間Qをクリアする(ST19)。
これにより、Rが小さい状態に安定した場合に、この配置状態からの脱却を促すことが可能となる。また、安定状態を判定してから攪拌処理を行うため、不用意な攪拌処理をなくすことが可能となる。
When there is no change in the number of screens (C = 0) and there is no change in the sound volume (V = 0) (ST11), the change R in the display magnification is not more than the threshold value Rthresh1 (R ≦ Rthresh0), and the screen position When the variation P is less than or equal to the threshold value Pthresh1 (P ≦ Pthresh1) (ST12), or the square sum ratio R (t) of the display magnification is equal to or less than the threshold value Rthresh2 (R (t) ≦ Rthresh2), the variation P of the screen position Is equal to or less than the threshold value Pthresh1 (P ≦ Pthresh1) (ST13), it is determined that the screen has constantly fallen into a stable state.
When the number of times of stirring S is less than or equal to the threshold value Sthresh (S ≦ Sthresh) (ST14), and when the elapsed time Q after the stirring process has passed the threshold value Qthresh (ST15), the stirring process is performed, Is updated (S ++, Q = 0) (ST16, ST17). When the number of agitation S exceeds the threshold value Sthresh (ST14), it is determined that it is in a stable state (ST18).
When the number of screens changes (C ≠ 0) or when the volume of voice changes (V ≠ 0), the number of stirring times S and the elapsed time Q are cleared (ST19).
As a result, when R is stable in a small state, it is possible to prompt a departure from this arrangement state. Further, since the stirring process is performed after the stable state is determined, it is possible to eliminate an inadvertent stirring process.

なお、スクリーン個数の変動C、音声の大きさの変動V、位置の変動P、表示倍率の変動R、および時間tにおける表示倍率の二乗総和比は、以下の式で与えられる。   It should be noted that the screen number variation C, the sound volume variation V, the position variation P, the display magnification variation R, and the square sum ratio of the display magnification at time t are given by the following equations.

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

なお、C(t)は時間tにおけるスクリーン個数、Vi(t)はスクリーンiが時間tにおける音声の大きさ、Pi(t)はスクリーンiが時間tにおける位置、Ri(t)はスクリーンiが時間tにおける表示倍率とする。Rmaxはディスプレィ全体を1つのスクリーンで覆った場合の表示倍率とする。   Note that C (t) is the number of screens at time t, Vi (t) is the loudness of screen i at time t, Pi (t) is the position of screen i at time t, and Ri (t) is the screen i. Display magnification at time t. Rmax is the display magnification when the entire display is covered with one screen.

位置の変動Pの算出において、相対値を用いることにより、下記の場合において、対応が可能となる。   In the calculation of the position fluctuation P, it is possible to cope with the following cases by using the relative value.

図16の例は、2つのスクリーンが安定した相対位置関係にあり、1つの塊として、上下に移動する場合を示している。
局所安定の判定において、単純に絶対的な位置のみを用いて判定を行った場合、全体として上下に移動しているため、局所安定状態には該当しないという結果を得る。
また、振動状態という判定においても、上下の移動距離が大きいため、振動状態と判定することは困難となる。
これに対して、本実施形態にように、相対位置を用いて判定を行うことにより、局所安定状態と判定することが可能となる。
The example of FIG. 16 shows a case where two screens are in a stable relative positional relationship and move up and down as one lump.
In the determination of the local stability, when the determination is performed using only the absolute position, the result is that it does not correspond to the local stable state because it moves up and down as a whole.
Also, in the determination of the vibration state, it is difficult to determine the vibration state because the vertical movement distance is large.
On the other hand, as in the present embodiment, it is possible to determine the local stable state by performing the determination using the relative position.

図17(A)〜(E)は、攪拌用のスクリーンを示す図であって、挙動を説明するための図である。   FIGS. 17A to 17E are diagrams illustrating a stirring screen, and are diagrams for explaining the behavior.

画面上に仮の中心を配し、各中心いおいて、表示倍率(Rmin)を算出する。各表示倍率(Rmin)の内、最も小さい値を取る位置に攪拌用のスクリーンを生成し、Uステップ状態(U≧1)を更新した後で、攪拌用のスクリーンを廃棄する。この攪拌用のスクリーンは視覚的に見得ないものとする。
また、この攪拌処理自体をユーザに見得ないものとしても良い。1度で効果が現れない場合、数度繰り返す。この場合、攪拌用のスクリーンの生成位置は、前回と異なる位置に設定するものとする。
攪拌処理後は、安定するまでに時間を要する。このため、この安定していない状態で、攪拌処理実行有無の判定に入れると、攪拌処理回数Sが即座にクリア(S=0)になる。つまり、処理が効果的に効いたか否かに関わらず、効果的に効いたと判断してしまうことになる。このため、経過時間Qは、Qthreshステップ経過してから、判定を再開するものとする。
A temporary center is arranged on the screen, and the display magnification (Rmin) is calculated at each center. A screen for stirring is generated at a position that takes the smallest value among the display magnifications (Rmin), and after updating the U step state (U ≧ 1), the screen for stirring is discarded. This stirring screen is not visually visible.
The stirring process itself may not be visible to the user. If no effect appears once, repeat several times. In this case, the generation position of the stirring screen is set to a position different from the previous time.
After stirring, it takes time to stabilize. For this reason, if the determination is made as to whether or not the agitation process is performed in this unstable state, the number of agitation processes S is immediately cleared (S = 0). That is, it is determined that the process is effective regardless of whether the process is effective. For this reason, the elapsed time Q is assumed to be restarted after Qthresh steps have elapsed.

Figure 0004990520
Figure 0004990520

Figure 0004990520
Figure 0004990520

図17(A)〜(E)は、分かりやすくするための、攪拌用のスクリーンを図示している。
図17(A)〜(E)の画面図において、左(A)から右(E)に時間が進む。
図17(A)において局所安定状態であると判定された場合に、図17(B)に示すように、攪拌処理に入る。攪拌用のスクリーンが生成される。位置関係により、近傍のスクリーンのサイズが小さくなった。
図17(C)において状態更新する。表示倍率の二乗総和比が大きくなるように配置を更新する。
図17(D)において、状態更新する。表示倍率の二乗総和比が大きくなるように更に、配置を更新する。
そして、図17(D)において攪拌処理の終了(状態更新)する。攪拌用のスクリーンを消滅する。表示倍率の二乗総和比が大きくなるように配置を更新する。
図17(A)と図17(E)を比較した場合、スクリーンの位置関係が変化し、表示倍率の二乗総和比R(t)=0.637197から0.884781に増大していることが分かる。
FIGS. 17A to 17E show stirring screens for easy understanding.
In the screen diagrams of FIGS. 17A to 17E, time advances from left (A) to right (E).
When it is determined in FIG. 17A that it is in the local stable state, as shown in FIG. A screen for stirring is generated. Due to the positional relationship, the size of the nearby screen was reduced.
The state is updated in FIG. The arrangement is updated so that the square sum ratio of the display magnification is increased.
In FIG. 17D, the state is updated. Further, the arrangement is updated so that the square sum ratio of the display magnification is increased.
Then, in FIG. 17D, the stirring process ends (state update). Disappear the stirring screen. The arrangement is updated so that the square sum ratio of the display magnification is increased.
When comparing FIG. 17A and FIG. 17E, it can be seen that the positional relationship of the screen changes and the square sum ratio R (t) of the display magnification increases from 0.637197 to 0.884781.

次に、上述したようサイズおよび表示形態が制御される表示部310におけるスクリーン表示制御について、図18から図22に関連付けて説明する。   Next, the screen display control in the display unit 310 in which the size and the display form are controlled as described above will be described with reference to FIGS.

本実施形態においては、前述したように、デッドゾーンをなくした円形(楕円形)ウィンドゥにて分割する。   In this embodiment, as described above, the image is divided by a circular (elliptical) window without a dead zone.

図18および図19に示すように、スクリーン上に表示する画像は、送信側(エンコード装置側)、ないし受信側(デコード装置側)において、画像から顔の特徴点を抽出し、これに基づいて、顔エリア算出を行う。この顔エリアがスクリーンにて包含されるように画像を切り出し、スクリーンにマッピングする。
図18および図19に示すように、受信画像から、顔の特徴点111を検索し、輪郭抽出を行って顔を抽出する。そして、一度、顔エリアを抽出した場合、動きベクトルに応じて顔エリアの追従を行って、切り出しを行う。
As shown in FIGS. 18 and 19, the image displayed on the screen is obtained by extracting facial feature points from the image on the transmitting side (encoding device side) or the receiving side (decoding device side), and based on this. The face area is calculated. An image is cut out and mapped to the screen so that the face area is included on the screen.
As shown in FIGS. 18 and 19, a facial feature point 111 is searched from the received image, and a contour is extracted to extract a face. Once the face area is extracted, the face area is tracked according to the motion vector, and cut out.

本実施形態においては、図4および図5に関連つけた図20に示すように、エンコード装置20側(符号化側)にて、顔エリアを検出し、検出した顔エリアを包含するとともに、顔以外のエリアが最小になるように円形のスクリーンを選択する。円形のスクリーンを包含する四角形エリアを送信画像として切り出し、これを符号化し、スクリーン情報、マイクなどの入力音声の音量情報とともにパケットとして送出する。
エンコード装置20において、図21に示すように、撮像画像に対して、符号化部分は一部分である。網掛けの部分は、切り落とし部分であり、符号化の対象から削除している。結果的に伝送する画像データの容量は削減される。
In the present embodiment, as shown in FIG. 20 related to FIG. 4 and FIG. 5, the face area is detected on the encoding device 20 side (encoding side), and the detected face area is included and the face is detected. Select a circular screen to minimize the area other than. A rectangular area including a circular screen is cut out as a transmission image, encoded, and transmitted as a packet together with screen information and volume information of input sound such as a microphone.
In the encoding device 20, as shown in FIG. 21, the encoded portion is a part of the captured image. The shaded portion is a cut-off portion and is deleted from the encoding target. As a result, the capacity of image data to be transmitted is reduced.

また、図22に示すように、撮像されている内容を解析し、撮像内容に応じて、スクリーン形状を変える場合において、適用可能である。
図22の例においては、人が撮像されていると判断された場合、スクリーン形状を楕円形にし、それ以外の場合はスクリーン形状を長方形にした場合である。
図22に例においては、顔エリアの面積が一定値以上の場合、受信画像を「人物画像」と判別する。顔エリアの面積が一定値以下の場合、受信画像を「非人物画像」と判別する。
「人物画像」と判別した場合、円形スクリーンとする。「非人物画像」と判別した場合、四角形スクリーンとする。「非人物画像」であっても、同送信元からの音圧に応じて、表示サイズを変動させる。
Further, as shown in FIG. 22, the present invention can be applied to the case where the captured content is analyzed and the screen shape is changed according to the captured content.
In the example of FIG. 22, when it is determined that a person is imaged, the screen shape is an ellipse, and in other cases, the screen shape is a rectangle.
In the example of FIG. 22, when the area of the face area is equal to or greater than a certain value, the received image is determined as a “person image”. When the area of the face area is equal to or smaller than a certain value, the received image is determined as a “non-person image”.
When it is determined that the image is a “person image”, a circular screen is used. When it is determined that the image is a “non-person image”, a quadrangular screen is used. Even for a “non-human image”, the display size is changed in accordance with the sound pressure from the transmission source.

そして、図20に示すように、デコード装置30においては、受信データから映像復号処理部305にて復号された受信画像を、制御情報解析部3061で抽出されたスクリーン情報に基づいてマスキングする。
また、表示倍率算出判定部3063において、サイズ情報に基づき表示倍率を算出し、縮小・拡大処理部3064において算出した倍率に従ってマスキングされた画像が縮小、拡大する。一方、表示位置算出部3065において、算出された表示倍率に従って表示位置を算出し、算出した表示位置に縮小または拡大された画像を含むスクリーンを表示部310に表示する。
また、画面上のスクリーンの配置状態が振動状態にあるか否かを判定し、振動状態にある場合に固定化するとともに、安定状態を判定し、攪拌処理を施すことにより、局所安定状態を解消する。
As shown in FIG. 20, in the decoding device 30, the received image decoded by the video decoding processing unit 305 from the received data is masked based on the screen information extracted by the control information analyzing unit 3061.
Further, the display magnification calculation determination unit 3063 calculates the display magnification based on the size information, and the masked image is reduced or enlarged according to the magnification calculated by the reduction / enlargement processing unit 3064. On the other hand, the display position calculation unit 3065 calculates a display position according to the calculated display magnification, and displays a screen including an image reduced or enlarged at the calculated display position on the display unit 310.
In addition, it is determined whether the screen layout on the screen is in a vibrating state, and if it is in a vibrating state, it is fixed, and the stable state is determined and agitation processing is performed to eliminate the local stable state. To do.

個々で、多地点通信を行う場合であって、端末機を図4および図5に示す構成とした場合における処理に負荷について考察する。
デコード装置30側で台数Nに増大した場合の処理は、次のようになる。
Considering the load on the processing when multipoint communication is performed individually and the terminal is configured as shown in FIGS. 4 and 5.
Processing when the number of decoding devices 30 increases to the number N is as follows.

Onew=N×(マスキング処理+縮小・拡大処理+マッピング処理+表示倍率算出+表示位置算出)   Onnew = N × (masking process + reduction / enlargement process + mapping process + display magnification calculation + display position calculation)

これに対して、デコード装置側において、本実施形態の送信側(エンコード装置側)の処理をデコード装置側において行うように構成した場合の処理は次のようになる。   On the other hand, the processing when the decoding device side is configured to perform the transmission side (encoding device side) processing of the present embodiment on the decoding device side is as follows.

Oold=N×(天地補正処理+顔エリア検出+スクリーン判定+切り出し処理+サイズ算出+縮小・拡大処理+表示倍率算出+表示位置算出+マッピング処理)   Oold = N × (top and bottom correction process + face area detection + screen determination + cutout process + size calculation + reduction / enlargement process + display magnification calculation + display position calculation + mapping process)

処理の差を観ると、図4および図5に示す構成の方が、次に示す分、負荷が軽減されていることになる。   Looking at the difference in processing, the load shown in FIGS. 4 and 5 is reduced by the amount shown below.

Osub=Oold−Onew
=N×(天地補正処理+顔エリア検出+スクリーン判定+切り出し処理+サイズ算出−マスキング処理)
Osub = Oold-Onew
= N × (top and bottom correction process + face area detection + screen determination + cutout process + size calculation−masking process)

この内、処理負荷のほとんどは、「顔エリア検出」となる。   Of these, most of the processing load is “face area detection”.

送信側(エンコード装置側)では、次に示す分だけ負荷が増加している。   On the transmission side (encoding device side), the load is increased by the following amount.

Enew=天地補正処理+顔エリア検出+スクリーン判定+切り出し処理+サイズ算出   Enew = top / bottom correction processing + face area detection + screen determination + cutout processing + size calculation

しかし、この負荷は接続する台数には依存しない。   However, this load does not depend on the number of connected units.

以上説明したように、本実施形態によれば、送信元となるエンコード装置20は、送信元は、画面上、指示した位置にスクリーンが存在する場合、対応する指示情報、スクリーン情報、音量情報を生成し、同通信中の相手に対して送出する機能を有し、デコード装置30は、マルチスクリーンを表示する機能を有し、スクリーン中心間を結ぶ線分、基準形状の厚さ、音声の大きさに基づいて、スクリーンの表示倍率を算出し、この表示倍率に基づいてスクリーンの移動、新規生成を制御することにより、画面上に複数のスクリーンを最適に形成し、画面上のスクリーンの配置状態が振動状態にあるか否かを判定し、振動状態にある場合に固定化するとともに、安定状態を判定し、攪拌処理を施すことにより、局所安定状態を解消する機能を有することから、スクリーンのサイズが、音量の大きさ、およびスクリーン数に応じて、適応的にサイズを変動させることができる。
また、スクリーンの動きが連続的になり、異なる形状であっても、最適なサイズに配置することが可能となる利点がある。
さらに、振動を停止することにより、煩わしさをなくすことが可能となる。
また、局所安定状態を解消することにより、スクリーンを大きくする。
また、安定状態であるか否かを判定するため、不用意な攪拌処理を行う必要がないという利点がある。
その結果、複数端末の接続時であっても、通話中の相手を確認しやすく、また、画像(スクリーン)は重ならないように制御されることから、会話している全員の状態が一目で確認することができる。また、新たな参加人にも容易に対応することができる。
As described above, according to the present embodiment, the encoding device 20 serving as the transmission source transmits the corresponding instruction information, screen information, and volume information when the transmission source has a screen at the designated position on the screen. The decoding device 30 has a function of displaying a multi-screen, a line connecting between the centers of the screen, a thickness of a reference shape, and a voice size. Based on this, the screen display magnification is calculated, and screen movement and new generation are controlled based on this display magnification, so that multiple screens are optimally formed on the screen, and the screen layout state on the screen Has a function to eliminate the local stable state by determining whether it is in a vibrating state, fixing it when it is in a vibrating state, determining a stable state, and applying a stirring process. From Rukoto, the size of the screen, the size of the volume, and in accordance with the number of screens, can be adaptively be varied in size.
In addition, there is an advantage that the movement of the screen becomes continuous, and even when the shapes are different, it can be arranged in an optimum size.
Furthermore, the troublesomeness can be eliminated by stopping the vibration.
In addition, the screen is enlarged by eliminating the local stable state.
Moreover, since it determines whether it is a stable state, there exists an advantage that it is not necessary to perform an inadvertent stirring process.
As a result, even when multiple terminals are connected, it is easy to check the other party in a call, and the image (screen) is controlled so that it does not overlap, so you can check the status of everyone who is talking at a glance can do. In addition, new participants can be easily accommodated.

一般的なテレビ会議システムにおける多値点通信時のパーソナルコンピュータ(PC)等の端末の表示画面例を示す図であるIt is a figure which shows the example of a display screen of terminals, such as a personal computer (PC) at the time of multipoint communication in a general video conference system. マルチスクリーン画像の振動状態の課題を説明するための図である。It is a figure for demonstrating the subject of the vibration state of a multi-screen image. マルチスクリーン画像の局所安定状態における課題を説明するための図である。It is a figure for demonstrating the subject in the local stable state of a multiscreen image. 本発明の実施形態に係る携帯通信端末の構成例を示す図であって、エンコード装置を示すブロック図である。It is a figure which shows the structural example of the portable communication terminal which concerns on embodiment of this invention, Comprising: It is a block diagram which shows an encoding apparatus. 本発明の実施形態に係る携帯通信端末の構成例を示す図であって、デコード装置を示すブロック図である。It is a figure which shows the structural example of the portable communication terminal which concerns on embodiment of this invention, Comprising: It is a block diagram which shows a decoding apparatus. 表示倍率の算出処理を説明するための図である。It is a figure for demonstrating the calculation process of a display magnification. 画面四方の壁処理を説明するための図である。It is a figure for demonstrating the wall process of a screen four directions. 基準形状を楕円形とするスクリーン(S(0),S(1))において、音声の大きさ(V(0),V(1))の比を変化させた例を示す図である。It is a figure which shows the example which changed the ratio of the magnitude | size (V (0), V (1)) of an audio | voice in the screen (S (0), S (1)) which makes an elliptical reference | standard shape. 基準形状を楕円形とするスクリーン(S(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減した例を示す図である。It is a figure which shows the example which increased / decreased the number of screens formed on a screen in the screen (S (0), S (1), S (2), S (3)) which makes an oval reference shape. 基準形状を楕円形とするスクリーン(S(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減しつつ、そのうち1つのスクリーンの音声の大きさを他のスクリーンの音声の大きさの倍にした例を示す図である。In a screen (S (0), S (1), S (2), S (3)) with an elliptical reference shape, the number of screens formed on the screen is increased or decreased, and the sound of one of these screens is recorded. It is a figure which shows the example which doubled the magnitude | size of the audio | voice of the other screen. 基準形状を楕円形とするスクリーンS(0),S(1),S(2),S(3))において、画面上に形成するスクリーン数を増減しつつ、そのうち1つのスクリーンの音声の大きさを他のスクリーンの音声の大きさを1/2倍にした例を示す図である。In the screens S (0), S (1), S (2), S (3)) having an elliptical reference shape, the number of screens formed on the screen is increased or decreased, and the sound volume of one of the screens is increased. It is a figure which shows the example which doubled the magnitude | size of the audio | voice of the other screen. 基準形状が、楕円形(S(oval))、円形(S(circle))、長方形(S(rectangle))が混在している場合(音声の大きさは等しい)の例を示す図である。It is a figure which shows the example when a reference | standard shape has mixed ellipse (S (oval)), circle | round | yen (S (circle)), and a rectangle (S (rectangle)) (the magnitude | size of an audio | voice is equal). 各スクリーンの間にエリアの分離線(太線)を形成し、前記分離線に基づいたエリアは各スクリーンの表示エリアとする例を示す図である。It is a figure which shows the example which forms the separation line (bold line) of an area between each screen, and makes the area based on the said separation line into the display area of each screen. 振動回避の基本処理を説明するためのフローチャートである。It is a flowchart for demonstrating the basic process of vibration avoidance. 安定状態を判定し、攪拌処理を行う処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process which determines a stable state and performs a stirring process. 2つのスクリーンが安定した相対位置関係にあり、1つの塊として、上下に移動する場合を示す図である。It is a figure which shows the case where two screens are in a stable relative positional relationship and move up and down as one lump. 攪拌用のスクリーンを示す図であって、挙動を説明するための図である。It is a figure which shows the screen for stirring, Comprising: It is a figure for demonstrating a behavior. スクリーン表示制御について説明するための図であって、受信画像から顔エリアの抽出処理の説明図である。It is a figure for demonstrating screen display control, Comprising: It is explanatory drawing of the extraction process of a face area from a received image. スクリーン表示制御について説明するための図であって、受信画像から顔エリアの抽出処理後の切り出し処理の説明図である。It is a figure for demonstrating screen display control, Comprising: It is explanatory drawing of the clipping process after the extraction process of a face area from a received image. 本実施形態の動作を模式的に示す図である。It is a figure which shows the operation | movement of this embodiment typically. 本実施形態の動作を説明するための図であって、送信側における撮像画像の送信エリア例を示す図である。It is a figure for demonstrating the operation | movement of this embodiment, Comprising: It is a figure which shows the transmission area example of the captured image in the transmission side. スクリーン表示制御について説明するための図であって、顔エリアの面積に応じた処理の説明図である。It is a figure for demonstrating screen display control, Comprising: It is explanatory drawing of the process according to the area of a face area.

符号の説明Explanation of symbols

10・・・携帯通信端末、20・・・エンコード装置、201・・・音声入力部、202・・・画像入力部、203・・・操作部、204・・・音声符号化処理部、205・・・画像符号化処理部、206・・・天地補正部、207・・・顔エリア検出部、208・・・スクリーン判定部、209・・・切り出し処理部、210・・・入力音量計測部、211・・・端末制御部、212・・・制御情報生成部、213・・・記憶部、214・・・送信パケット生成部、215・・・ネットワークインタフェース(I/F)、30・・・デコード装置、301・・・ネットワークインタフェース(I/F)、302・・・操作部、303・・・受信パケット解析部、304・・・音声復号処理部、305・・・映像復号処理部、306・・・表示画像制御部、307・・・音量修正部、308・・音声出力部、309・・・画像補正部、310・・・表示部(画像出力部)、311・・・自端末制御部、3061・・・制御情報解析部、3062・・・マスキング処理部、3063・・・表示倍率算出判定部、3064・・・縮小・拡大処理部、3065・・・表示位置算出部、3066・・・マッピング処理部。
DESCRIPTION OF SYMBOLS 10 ... Portable communication terminal, 20 ... Encoding apparatus, 201 ... Audio | voice input part, 202 ... Image input part, 203 ... Operation part, 204 ... Voice encoding process part, 205. ..Image encoding processing unit, 206... Top and bottom correction unit, 207... Face area detection unit, 208... Screen determination unit, 209. 211: Terminal control unit, 212: Control information generation unit, 213 ... Storage unit, 214 ... Transmission packet generation unit, 215 ... Network interface (I / F), 30 ... Decoding Device 301 network interface (I / F) 302 operation unit 303 received packet analysis unit 304 audio decoding processing unit 305 video decoding processing unit 306 ··table Image control unit, 307... Volume correction unit, 308 .. Audio output unit, 309... Image correction unit, 310... Display unit (image output unit), 311. ..Control information analysis unit, 3062 ... Masking processing unit, 3063 ... Display magnification calculation determination unit, 3064 ... Reduction / enlargement processing unit, 3065 ... Display position calculation unit, 3066 ... Mapping process Department.

Claims (10)

受信した画像データおよび音声データを再生する通信端末であって、
画像を表示する表示手段と、
前記表示手段に特定のエリアを抽出されて表示すべき複数の画像の各々を表示する表示エリアを形成可能で、所定の情報に基づいて前記表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、前記表示手段の表示画面上に複数の表示エリアを形成する制御手段と、を有し、
前記制御手段は、1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し、振動状態であると判定すると表示エリアを固定する機能を有する
通信端末。
A communication terminal that reproduces received image data and audio data,
Display means for displaying an image;
It is possible to form a display area for displaying each of a plurality of images to be displayed by extracting a specific area on the display means, calculating a display magnification of the display area based on predetermined information, and based on the display magnification Control means for controlling movement of the display area, new generation, and forming a plurality of display areas on the display screen of the display means,
The communication means has a function of determining whether or not one or more display areas are in a state of continuously moving in a local region, and fixing the display area when determined to be in a vibration state.
受信した画像データおよび音声データを再生する通信端末であって、
画像を表示する表示手段と、
前記表示手段に特定のエリアを抽出されて表示すべき複数の画像の各々を表示する表示エリアを形成可能で、所定の情報に基づいて前記表示エリアの表示倍率を算出し、当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、前記表示手段の表示画面上に複数の表示エリアを形成する制御手段と、を有し、
前記制御手段は、1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し、当該状態であると判定すると表示エリアを固定する機能と、前記表示エリアが局所安定状態にあるか否かを判定する機能とを有する
通信端末。
A communication terminal that reproduces received image data and audio data,
Display means for displaying an image;
It is possible to form a display area for displaying each of a plurality of images to be displayed by extracting a specific area on the display means, calculating a display magnification of the display area based on predetermined information, and based on the display magnification Control means for controlling movement of the display area, new generation, and forming a plurality of display areas on the display screen of the display means,
The control means determines whether or not one or more display areas are in a state of continuously moving in a local region, and determines that the display area is in this state; A communication terminal having a function of determining whether or not a local stable state exists.
前記制御手段は、
一定期間(n)において、表示エリア個数の変動がなく、各表示エリアの音声の大きさの変動がなく、さらに、スクリーンの位置の変動があり、変動が閾値(Pthresh0)以下であり、スクリーンの表示倍率の変動が閾値(Rthresh0)以下である場合、振動状態にあると判定する
請求項1または記載の通信端末。
The control means includes
In a certain period (n), there is no change in the number of display areas, there is no change in the volume of sound in each display area, there is also a change in the position of the screen, and the change is below the threshold (Pthresh0). when the variation of the display magnification is the threshold value (Rthresh0) hereinafter, the communication terminal according to claim 1 or 2, wherein determining to be in the vibrational state.
前記制御手段は、振動状態中、前記期間中の表示倍率の二乗総和値(R)が最も大きい状態の配置に固定する
請求項記載の通信端末。
The communication terminal according to claim 3 , wherein the control unit fixes the arrangement in a state in which a square sum value (R) of display magnifications during the period is the largest during the vibration state.
前記制御手段は、一定期間において、表示エリア個数の変動がなく、各表示エリアの音声の大きさの変動がなく、さらに、表示エリアの位置の変動が閾値(Pthresh1)以下であり、表示エリアの表示倍率の二乗総和比が閾値(Rthresh2)以下である場合、局所安定状態にあると判定する
請求項2記載の通信端末。
The control means has no change in the number of display areas in a certain period, no change in the volume of sound in each display area, and the change in the position of the display area is not more than a threshold value (Pthresh1). If the square summation ratio of the display magnification is the threshold value (Rthresh2) hereinafter, claim 2 Symbol placement communication terminal determines to be in the local stable state.
前記制御手段は、局所安定状態と判断した場合に表示エリアの位置配置の再配置を促す攪拌処理機能を有する
請求項2または記載の通信端末。
Wherein, the communication terminal according to claim 2 or 5, wherein having a stirring processing function of promoting rearrangement of position location in the display area when it is determined that the local stable state.
前記制御手段は、画面上に仮の中心を配し、各中心における表示倍率の内、最も小さい値を取得する位置を攪拌用の表示エリアの中心とし、一定期間、攪拌用の表示エリアを生成、更新し、消滅することによって、攪拌を行う
請求項記載の通信端末。
The control means places a temporary center on the screen, generates a display area for stirring for a certain period, with the position where the smallest value of the display magnifications at each center is obtained as the center of the display area for stirring. The communication terminal according to claim 6 , wherein stirring is performed by updating and disappearing.
前記制御手段は、攪拌処理の実行回数(S)が閾値(Sthresh)を越える場合、攪拌処理を停止する
請求項または記載の通信端末。
The communication terminal according to claim 6 or 7 , wherein the control means stops the agitation process when the number of executions (S) of the agitation process exceeds a threshold value (Sthresh).
受信した画像データ、音声データを再生する通信端末の表示方法であって、
特定のエリアを抽出されて表示すべき複数の画像の表示エリアの表示倍率を算出し、
当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、表示画面上に複数の表示エリアを形成し、
表示すべき画像を含む複数の表示エリアを表示し、
1つ以上の表示エリアが局所領域にて継続的に動き続ける状態にあるか否かを判定し、当該状態であると判定すると表示エリアを固定する
通信端末の表示方法。
A display method of a communication terminal that reproduces received image data and audio data,
Calculate the display magnification of the display area of multiple images that should be extracted and displayed for a specific area,
Based on the display magnification, the display area is moved and newly generated, and a plurality of display areas are formed on the display screen.
Display multiple display areas that contain images to be displayed,
A communication terminal display method for determining whether or not one or more display areas are in a state of continuously moving in a local area, and fixing the display area when determined to be in the state.
受信した画像データ、音声データを再生する通信端末の表示方法であって、
特定のエリアを抽出されて表示すべき複数の画像の表示エリアの表示倍率を算出し、
当該表示倍率に基づいて表示エリアの移動、新規生成を制御して、表示画面上に複数の表示エリアを形成し、
表示すべき画像を含む複数の表示エリアを表示し、
前記表示エリアが局所安定状態にあるか否かを判定し、局所安定状態と判断された場合に、表示エリアの位置配置の再配置を促す攪拌処理を行う
通信端末の表示方法。
A display method of a communication terminal that reproduces received image data and audio data,
Calculate the display magnification of the display area of multiple images that should be extracted and displayed for a specific area,
Based on the display magnification, the display area is moved and newly generated, and a plurality of display areas are formed on the display screen.
Display multiple display areas that contain images to be displayed,
A display method for a communication terminal that determines whether or not the display area is in a local stable state, and performs a stirring process that prompts rearrangement of the position arrangement of the display area when the display area is determined to be in a local stable state.
JP2005344753A 2005-11-29 2005-11-29 Communication terminal and display method thereof Expired - Fee Related JP4990520B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005344753A JP4990520B2 (en) 2005-11-29 2005-11-29 Communication terminal and display method thereof
US12/095,489 US8487956B2 (en) 2005-11-29 2006-11-29 Communication terminal, system and display method to adaptively update a displayed image
PCT/JP2006/323857 WO2007063922A1 (en) 2005-11-29 2006-11-29 Communication terminal and communication system, and display method of communication terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005344753A JP4990520B2 (en) 2005-11-29 2005-11-29 Communication terminal and display method thereof

Publications (2)

Publication Number Publication Date
JP2007150918A JP2007150918A (en) 2007-06-14
JP4990520B2 true JP4990520B2 (en) 2012-08-01

Family

ID=38211753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005344753A Expired - Fee Related JP4990520B2 (en) 2005-11-29 2005-11-29 Communication terminal and display method thereof

Country Status (1)

Country Link
JP (1) JP4990520B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2255530A4 (en) * 2008-03-17 2012-11-21 Hewlett Packard Development Co Displaying panoramic video image streams
WO2010002925A2 (en) 2008-06-30 2010-01-07 Hewlett-Packard Development Company Lp Compositing video streams
JP5180720B2 (en) * 2008-07-29 2013-04-10 キヤノン株式会社 Video conference system, information processing apparatus and method used in the system, and computer program
WO2011027475A1 (en) * 2009-09-07 2011-03-10 株式会社東芝 Teleconference device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05103324A (en) * 1991-10-09 1993-04-23 Mitsubishi Electric Corp Multi-point video conference controlling device
JPH08298653A (en) * 1995-04-25 1996-11-12 Canon Inc Video conference system and its terminal equipment
JP4500026B2 (en) * 2003-09-10 2010-07-14 パイオニア株式会社 Communication device
JP2005303736A (en) * 2004-04-13 2005-10-27 Ntt Communications Kk Video display method of video conference system, user terminal used with video conference system, and program therefor

Also Published As

Publication number Publication date
JP2007150918A (en) 2007-06-14

Similar Documents

Publication Publication Date Title
JP4994646B2 (en) Communication terminal, communication system, and communication terminal display method
US9894320B2 (en) Information processing apparatus and image processing system
US7508413B2 (en) Video conference data transmission device and data transmission method adapted for small display of mobile terminals
WO2007063922A1 (en) Communication terminal and communication system, and display method of communication terminal
US20110193935A1 (en) Controlling a video window position relative to a video camera position
JP2005123804A (en) Communication system and method
CN104822070B (en) Multi-path video stream playback method and device
JP2011234343A (en) Video processing apparatus and video processing method
JP4990520B2 (en) Communication terminal and display method thereof
US20200090324A1 (en) Method and Apparatus for Determining Experience Quality of VR Multimedia
KR20180062045A (en) Method and apparatus for realizing virtual conference
JP2005303736A (en) Video display method of video conference system, user terminal used with video conference system, and program therefor
JP4973908B2 (en) Communication terminal and display method thereof
JP2005156627A (en) Display apparatus, mobile phone equipped with the same, image display method, image display program and recoding medium with image program stored
JP5274750B2 (en) Communication terminal and display method thereof
CN111903135A (en) Information processing apparatus, information processing method, and program
AU2013222959A1 (en) Method and apparatus for processing information of image including a face
JP4832869B2 (en) Communication terminal and display method thereof
JP2011082867A (en) Communication apparatus and communication conference system
JP2007251501A (en) Teleconference system and teleconferencing method
JP2013182450A (en) Location management program and location management device
JP4926464B2 (en) Communication terminal and display method thereof
JP2019117997A (en) Web conference system, control method of web conference system, and program
JP2008306475A (en) Voice and image conference device
KR101409138B1 (en) Method and system for displaying screen of certain user along with positional information of the user on main screen

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees