WO2018074262A1 - 通信装置および通信方法、並びにプログラム - Google Patents

通信装置および通信方法、並びにプログラム Download PDF

Info

Publication number
WO2018074262A1
WO2018074262A1 PCT/JP2017/036453 JP2017036453W WO2018074262A1 WO 2018074262 A1 WO2018074262 A1 WO 2018074262A1 JP 2017036453 W JP2017036453 W JP 2017036453W WO 2018074262 A1 WO2018074262 A1 WO 2018074262A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
target
mode
video
output
Prior art date
Application number
PCT/JP2017/036453
Other languages
English (en)
French (fr)
Inventor
雅人 赤尾
祐介 阪井
穎 陸
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2018074262A1 publication Critical patent/WO2018074262A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present disclosure relates to a communication device, a communication method, and a program, and more particularly, to a communication device, a communication method, and a program that enable smoother communication.
  • a communication device that allows users in remote locations to communicate with a user on the other side displayed on a display is used.
  • a communication device that allows users in remote locations to communicate with a user on the other side displayed on a display.
  • the other user recognizes the target of attention, thereby making better communication Can do.
  • Patent Document 1 when one user points to a material on the other user side, the position of the material is detected, and the laser pointer on the other user side is moved to the material.
  • a video conference apparatus that irradiates a laser has been proposed.
  • Patent Document 1 only what is in the video that one user can see can be set as the target of attention. It is not envisaged to indicate an attention target in Therefore, it has been difficult to realize smooth communication by recognizing such instructions for various attention objects.
  • This disclosure has been made in view of such a situation, and enables smoother communication.
  • a communication apparatus includes an attention target detection unit that detects an attention object instructed by a user, and an output that causes another user who is a communication partner of the user to recognize the attention object according to the position of the attention object.
  • An output operation unit that switches an output mode when performing an operation.
  • a communication method or program detects an attention target instructed by a user, and performs an output operation that causes another user who is a communication partner of the user to recognize the attention target according to the position of the attention target. The step of switching the output mode.
  • an attention target instructed by a user is detected, and an output mode for performing an output operation for causing another user who is a communication partner of the user to recognize the attention target is switched according to the position of the attention target. It is done.
  • smoother communication can be performed.
  • FIG. 18 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a communication system to which the present technology is applied.
  • the communication system 11 shown in FIG. 1 is configured such that two communication terminals 12A and 12B communicate with each other, and the users of the communication terminals 12A and 12B communicate with each other as communication partners. Is called. Note that the communication system 11 may be configured such that two or more communication terminals 12 perform communication.
  • the communication terminal 12A includes an input device 21A, a trigger detection unit 22A, an attention target detection unit 23A, an output operation unit 24A, a transmission device 25A, a reception device 26A, and an output device 27A.
  • the communication terminal 12B includes the same blocks as the communication terminal 12A. In the following description, the configuration of the communication terminal 12B is omitted.
  • a photographing device for example, the camera 31 in FIG. 2 or the wearable camera 33 in FIG. 16
  • a CCD Charge-Coupled Device
  • CMOS Complementary Metal-Oxide Semiconductor
  • the input device 21A inputs a video signal obtained by photographing a user (speaker) who performs communication using the communication terminal 12A as a subject to the communication terminal 12A. Further, for example, when a depth sensor that detects the depth of a subject using infrared rays or the like is used as the input device 21A, the input device 21A inputs depth information indicating the depth of the subject, and is obtained from the depth information. Processing based on the user's action is performed.
  • the depth information input to the communication terminal 12A by the input device 21A can be included in, for example, meta information including various types of information related to the video signal.
  • the meta information includes, for example, an operation command input by an operation on a remote controller, which will be described later with reference to FIG. 11, or an operation command input by an operation on an operation unit (not shown) (the trigger signal is turned on). Command).
  • the communication terminal 12A can perform processing based on the meta information (local) input from the input device 21A and the meta information (remote) transmitted from the input device 21B.
  • the trigger detection unit 22A uses the image recognition technology for the video signal input from the input device 21A, thereby recognizing the user's motion shown in the video, and whether or not the user has performed a pointing operation. Is supplied to the target detection unit 23A. For example, the trigger detection unit 22A switches the output of the trigger signal supplied to the attention target detection unit 23A from off to on at the timing when it is detected that the user has performed a pointing operation as a result of recognizing the user's operation. In addition, the trigger detection unit 22A switches the output of the trigger signal supplied to the attention target detection unit 23A from on to off at a timing when it is detected that the user has finished the pointing operation.
  • the target object detection unit 23A While the trigger signal supplied from the trigger detection unit 22A is on, the target object detection unit 23A is displayed on the video by using image recognition technology on the video signal input from the input device 21A. The user's hand shape is recognized, and the direction in which the user points is specified. As a result, the target object detection unit 23A detects an object (such as a person or an object) on the extension line in the direction pointed by the user as a target object, and outputs target position information indicating the position of the target object to the output operation unit 24A. To supply.
  • an object such as a person or an object
  • the output operation unit 24A is a process of switching an output mode when performing an output operation for causing the user of the communication terminal 12B to be a communication partner to recognize the target object based on the target position information supplied from the target object detection unit 23A. I do. For example, the output operation unit 24A selects one of the remote mode, the local mode, and the local blind mode as the output mode, as will be described later with reference to FIG. Then, the output operation unit 24A supplies output mode information indicating any one of the remote mode, the local mode, and the local blind mode together with the target position information to the transmission device 25A.
  • the output operation unit 24A notifies the user of the communication terminal 12A of the communication terminal 12A based on the output mode information and target position information on the communication terminal 12B side included in the meta information (remote) supplied from the receiving device 26A.
  • An output operation for recognizing the target of interest detected in 12B is performed.
  • the output operation unit 24A switches the output mode according to the output mode information transmitted from the communication terminal 12B, and performs an output operation for specifying the position of the target of interest indicated by the target position information transmitted from the communication terminal 12B.
  • the performed video signal is supplied to the output device 27A. That is, the output operation unit 24A can perform, for example, video operations (video processing, video editing, video switching, etc.) for displaying a point mark P in FIG.
  • the transmitting device 25A transmits the video signal input from the input device 21A and meta information (local) including at least the output mode information and the target position information supplied from the output operation unit 24A to the communication terminal 12B.
  • the meta information transmitted / received between the communication terminal 12A and the communication terminal 12B can include, for example, depth information, 3D model information, time stamp, and the like in addition to the output mode information and the target position information.
  • the receiving device 26A receives the video signal and meta information transmitted from the communication terminal 12B.
  • the receiving device 26A supplies the video signal transmitted from the communication terminal 12B to the output device 27A via the output operation unit 24A, and is included in the meta information (remote) transmitted from the communication terminal 12B.
  • Output mode information and target position information are supplied to the output operation unit 24A.
  • the transmitting device 25A and the receiving device 26A are specifically provided with a communication function corresponding to a communication protocol such as H.320 / H.323, and include video encoding (H.26x) and audio encoding (G. 7xx) (ITU-T recommendation).
  • the output device 27A for example, a display device (for example, a display 32 or a projector in FIG. 2) that displays an image can be used.
  • the output device 27A displays a video based on the video signal transmitted from the communication terminal 12B, and recognizes the target of interest detected in the communication terminal 12B to the user of the communication terminal 12A according to the output operation by the output operation unit 24A. Display.
  • the communication system 11 is configured as described above. For example, when the user of the communication terminal 12A performs a pointing operation, the output mode is switched according to the position of the target of attention, and the user of the communication terminal 12B recognizes the target of attention. An output operation is performed. Similarly, when the user of the communication terminal 12B performs a pointing operation, the output mode is switched according to the position of the target of interest, and an output operation for causing the user of the communication terminal 12A to recognize the target of interest is performed. Therefore, by using the communication system 11, each user can easily recognize the attention target pointed by the other user, and can perform smoother communication.
  • the communication terminal 12 is simply referred to, and the blocks constituting the communication terminal 12 are also referred to in the same manner.
  • FIG. 2 shows a configuration example in which the camera 31 used as the input device 21 is installed at the center of the upper side of the display 32 used as the output device 27.
  • the camera 31 is used to photograph the user from the front of the user facing the display 32, and the broken line shown in FIG. 2 represents the angle of view of the camera 31.
  • the user can communicate with the communication partner displayed on the display 32 toward the front of the display 32.
  • the target object detection unit 23 detects the target object pointed by the user, and the output operation unit 24 follows the position of the target object. Switch to output mode and perform output operation.
  • the output operation unit 24 switches the output mode of the output operation to the remote mode when the target position information of the target of interest supplied from the target of interest detection unit 23 indicates the inside of the video displayed on the display 32.
  • the target object detection unit 23 includes the target position information of the target object supplied from the target object detection unit 23 outside the video image displayed on the display 32 and within the angle of view that can be captured by the camera 31. Indicates that the output mode of the output operation is switched to the local mode.
  • the target object detection unit 23 is configured so that the target position information of the target object supplied from the target object detection unit 23 is outside the video image displayed on the display 32 and is outside the angle of view that can be captured by the camera 31. , The output mode of the output operation is switched to the local blind mode.
  • the output operation unit 24 supplies output mode information indicating any one of the remote mode, the local mode, and the local blind mode to the transmission device 25 and transmits the output mode information together with the target position information.
  • the output operation unit 24 is supplied with the output mode information and target position information received by the receiving device 26. Then, the output operation unit 24 switches the output mode to any one of the remote mode, the local mode, and the local blind mode according to the output mode information, and allows the user to recognize the target of interest based on the target position information. The operation can be performed.
  • the state where no output operation is performed by the output operation unit 24 is hereinafter referred to as a normal mode as appropriate.
  • FIG. 3 shows an example in which the communication terminal 12A is used by one user A for communication and the communication terminal 12B is used for communication by three users B1 to B3.
  • FIG. 3A shows a state in which the user A heading for the display 32A is viewed from the rear side on the communication terminal 12A side.
  • the user B1 to B1 taken by the camera 31B of the communication terminal 12B are displayed on the display 32A.
  • the video of B3 is displayed.
  • FIG. 3B shows a state where the users B1 to B3 heading for the display 32B are viewed from the rear side on the communication terminal 12B side, and the user A taken by the camera 31A of the communication terminal 12A is displayed on the display 32B. Is displayed.
  • FIG. 4 shows an example in which marks indicating the target of interest are superimposed and displayed as the first output operation in the remote mode.
  • the target object detection unit 23A is displayed on the display 32A.
  • the user B1 in the existing video is identified as the target of attention.
  • the target object detection unit 23A supplies target position information indicating the position of the user B1 to the output operation unit 24A.
  • the output operation unit 24A selects the remote mode as the output mode in accordance with the target position information, and supplies the output mode information indicating the remote mode to the transmission device 25A together with the target position information. Therefore, the transmission device 25A transmits meta information including at least the output mode information and the target position information to the communication terminal 12B together with the video signal obtained by the camera 31A photographing the user A.
  • the output operation unit 24B switches the output mode to the remote mode according to the output mode information transmitted from the communication terminal 12A. Further, the output operation unit 24B specifies that the user B1 is the target of attention based on the target position information transmitted from the communication terminal 12A.
  • the output operation unit 24B performs image processing for superimposing the point mark P on the user B1 shown in the image captured by the camera 31B of the users B1 to B3. Is supplied to the output device 27B.
  • the output device 27B displays the video processed by the output operation unit 24B in the picture-in-picture format with respect to the video showing the user A transmitted from the communication terminal 12A. Output.
  • the video of the user A transmitted from the communication terminal 12A is displayed on the entire screen, and the user B1 to B3 with the point mark P superimposed on the user B1.
  • the video is displayed at the lower right of the screen, for example.
  • the images of the users B1 to B3 are inverted from the output of the camera 31B and displayed so as to have the same positional relationship as the user A who is viewing the images toward the display 32A.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention. Further, any shape may be used as the point mark P.
  • the point mark P is superimposed on the target of interest shown in the video imaged by the camera 31 and displayed on the display 32 in the picture-in-picture format.
  • the target can be recognized.
  • FIG. 5 shows an example of displaying a video clipped as a target object in a picture-in-picture format as a second output operation in the remote mode.
  • the output operation unit 24B performs image processing for cutting out an area in which the user B1 as the target of interest is cut out from an image captured by the camera 31B of the users B1 to B3.
  • the video is supplied to the output device 27B.
  • the output device 27B causes the video processed by the output operation unit 24B to be displayed in the vicinity of the fingertip of the user A with respect to the video showing the user A transmitted from the communication terminal 12A. Outputs that are displayed in picture format.
  • the video of the user A transmitted from the communication terminal 12A is displayed on the entire screen, and the video obtained by cutting out the user B1 by the output operation unit 24B is displayed on the display 32B. It is displayed near the fingertip of A.
  • the target of interest can be recognized by cutting out the target of interest from the video captured by the camera 31 and displaying it on the display 32 in the picture-in-picture format.
  • FIG. 6 shows an example in which the target object is transparently displayed according to the position of the hand of the output video on the communication partner side as the third output operation in the remote mode.
  • the output operation unit 24B is transparently displayed at a position where the user B1 shown in the video obtained by the camera 31B capturing the users B1 to B3 overlaps the fingertip of the user A.
  • the image is supplied to the output device 27B.
  • the output device 27B is supplied from the output operation unit 24B so that the user B1 is superimposed on the video image of the user A transmitted from the communication terminal 12A and the user B1 overlaps the fingertip of the user A.
  • the video is output so that it can be transparently displayed.
  • the video of the user A transmitted from the communication terminal 12A is displayed on the entire screen, and the user B1 is positioned at a position where the user B1 overlaps the fingertip of the user A.
  • Through B3 images are displayed in a transparent manner (indicated by broken lines in the example of FIG. 6).
  • the images of the users B1 to B3 are inverted from the output of the camera 31B and displayed so as to have the same positional relationship as the user A who is viewing the images toward the display 32A.
  • the target of interest displayed in the video captured by the camera 31 is transparently displayed on the display 32, whereby the target of interest can be recognized.
  • FIG. 7 shows an example in which the display of the target of interest in accordance with the position of the hand of the output video on the communication partner side is switched at a predetermined interval as the fourth output operation in the remote mode.
  • the output operation unit 24B displays time switching at a position where the user B1 shown in the video obtained by the camera 31B capturing the users B1 to B3 overlaps the fingertip of the user A.
  • the video is supplied to the output device 27B.
  • the output device 27B is supplied from the output operation unit 24B so that the user B1 is superimposed on the video image of the user A transmitted from the communication terminal 12A and the user B1 overlaps the fingertip of the user A.
  • the output is such that the video to be displayed is displayed with the time switched.
  • the image of the user A transmitted from the communication terminal 12A is displayed on the entire screen, and the user B1 is positioned so that the user B1 overlaps the fingertip of the user A.
  • B3 video are displayed in a time-switched manner. That is, at a predetermined time interval, a display state as shown on the left side of FIG. 6B and a non-display state as shown on the right side of FIG. 6B are alternately performed.
  • the target of interest displayed in the video captured by the camera 31 can be displayed on the display 32 by switching the time of the target, so that the target of interest can be recognized.
  • FIG. 8 shows an example in which a mark indicating the target of interest is superimposed and displayed as the fifth output operation in the remote mode.
  • the output operation unit 24B performs image processing for superimposing the point mark P on the user B1 shown in the image captured by the camera 31B of the users B1 to B3. Is supplied to the output device 27B. Accordingly, the output device 27B performs output such that the video processed by the output operation unit 24B is displayed on the entire screen.
  • the images of the users B1 to B3 in which the point mark P is superimposed on the user B1 are displayed on the entire screen.
  • the images of the users B1 to B3 are inverted from the output of the camera 31B and displayed so as to have the same positional relationship as the user A who is viewing the images toward the display 32A.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention. Further, any shape may be used as the point mark P.
  • the target object is recognized by superimposing the point mark P on the target object shown in the video imaged by the camera 31 and displaying it on the display 32. Can do.
  • the video shot by the camera 31B is transmitted to the input device 21A, and the output operation unit 24A performs the point mark.
  • a method is conceivable in which image processing for superimposing P is performed and then sent back to the input device 21B.
  • the process of superimposing the point mark P on the target of interest pointed by the user A is performed on the input device 21A side so as to coincide with the timing pointed by the user A (with a small time lag).
  • the point mark P can be displayed.
  • the transmission device 25A can transmit the time stamp of the video displayed on the display 32A in the meta information at the timing when the trigger detection unit 22A turns on the trigger signal.
  • the input device 21B can store the video imaged by the camera 31B for a certain period.
  • the video output processing unit 24B can perform video processing for superimposing the point mark P at the timing when the video according to the time stamp is displayed without sending back the video on which the point mark P is superimposed. Therefore, the point mark P can be displayed so as to coincide with the timing pointed by the user A (with a small time lag). Thereby, it is possible to avoid the occurrence of delay due to encoding and decoding of the video signal, and to reduce the transmission amount.
  • FIG. 9 shows an example in which, as a sixth output operation in the remote mode, a mark indicating the target of interest is superimposed and displayed after the angle of view of the camera 31 is adjusted.
  • FIG. 10 shows a modification of the communication system 11 for executing the sixth output operation in the remote mode.
  • the target object detection unit 23A estimates that the target of interest is outside the frame pointed to the display 32A. Then, the attention object detection unit 23A communicates an angle-of-view adjustment command for instructing adjustment of the angle of view of the camera 31B via the transmission device 25A so that the estimated attention object is reflected within the angle of view of the camera 31B. Transmit to the terminal 12B. In response to this, the transmission device 25A can transmit the angle-of-view adjustment command included in the meta information.
  • the angle-of-view adjustment command included in the meta information received by the receiving device 26B is supplied to the input device 21. Therefore, for example, the shooting angle of view of the camera 31B can be adjusted based on the view angle adjustment command by a pan or tilt (swing) mechanism that adjusts the shooting angle of view by machine control provided in the camera 31B. Similarly, in the communication terminal 12A, the shooting angle of view of the camera 31A can be adjusted based on the view angle adjustment command transmitted from the communication terminal 12B.
  • the angle of view of the camera 31B set as indicated by the broken line on the left side of FIG. 9B is changed to a broken line on the right side of FIG. 9B according to the angle of view adjustment command from the attention target detection unit 23A. Adjusted as shown. Then, the object C outside the angle of view is projected by the camera 31B, and the video is transmitted to the communication terminal 12A.
  • the attention target detection unit 23A specifies the object C in the video image displayed on the display 32A as the attention target, and supplies target position information indicating the position of the object C to the output operation unit 24A.
  • the output operation unit 24A selects the remote mode as the output mode in accordance with the target position information, and supplies the output mode information indicating the remote mode to the transmission device 25A together with the target position information. Therefore, the transmission device 25A transmits meta information including at least the output mode information and the target position information to the communication terminal 12B together with the video signal obtained by the camera 31A photographing the user A.
  • the output operation unit 24B switches the output mode to the remote mode according to the output mode information transmitted from the communication terminal 12A. Further, the output operation unit 24B specifies that the object C is the target of attention based on the target position information transmitted from the communication terminal 12A.
  • the output operation unit 24B performs image processing for superimposing the point mark P on the object C shown in the image captured by the camera 31B, and outputs the image to the output device 27B. Supply. Accordingly, the output device 27B performs output such that the video processed by the output operation unit 24B is displayed on the entire screen.
  • an image in which the point mark P is superimposed on the object C is displayed on the entire screen.
  • the video captured by the camera 31B is inverted and displayed from the output of the camera 31B so as to be in the same positional relationship as the user A who is viewing the video toward the display 32A.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention.
  • any shape may be used as the point mark P.
  • the angle of view of the camera 31B can be adjusted by panning or tilting, and can be adjusted by, for example, widening the angle of view by zooming out or changing the cropping position of the wide-angle video. .
  • the point to the target of interest displayed in the video captured by the camera 31 is pointed out.
  • the target object can be recognized by superimposing the mark P and displaying it on the display 32.
  • FIG. 11 shows an example of adjusting and displaying the direction of the user performing the pointing operation as the seventh output operation in the remote mode.
  • the communication terminal 12A adjusts the orientation of the user A on the communication terminal 12B side by transmitting 3D model information that is 3D modeled so that the user A is three-dimensionally included in the meta information. Can be displayed.
  • the position of the user B1 may be recognized based on the video imaged by the camera 31B, and the adjustment may be automatically performed so that the direction pointed by the user A is directed to the user B1. .
  • the target object can be recognized more intuitively by adjusting the orientation of the user displayed on the display 32.
  • the display 32A is divided into four parts as shown in FIG. An image showing is displayed. Further, as shown in FIG. 12B, the video images of the user A are displayed on the displays 32B-1 to 32B-4 of the users B1 to B4, respectively.
  • the display 32B-1 to 32B-4 shows the user A pointing to all of the users B1 to B4, and only the image is displayed. It is difficult to recognize that user A is pointing at user B1.
  • FIG. 13 shows an example in which a mark is displayed only to a target user among a plurality of users as the eighth output operation in the remote mode.
  • the output operation unit 24A indicates that the meta information transmitted to the communication terminal 12B of the user B1 is instructed as a target of attention among a plurality of users.
  • the meta information including the information is transmitted.
  • the meta information transmitted to the communication terminals 12B of the users B2 to B4 does not include instruction information.
  • the output operation unit 24B of the communication terminal 12B of the user B1 outputs the frame mark Q so as to surround the entire screen of the display 32B-1 according to the instruction information indicating that the instruction is given as the target of attention. The operation can be performed.
  • a frame mark Q is displayed so as to surround the entire screen, while the displays 32B-2 to 32B of the users B2 to B4 other than the user B1 are displayed. In 32B-4, the frame mark Q is not displayed.
  • the user B1 can recognize that the user A has pointed, and the users B2 to B4 can recognize that the user A has not been pointed.
  • the target of interest can be recognized by displaying the mark only for the user who is the target of interest among the plurality of users.
  • the orientation of the user performing the pointing operation is adjusted and displayed so that only the target user of the plurality of users is pointed. An example is shown.
  • the output operation unit 24A indicates that the meta information transmitted to the communication terminal 12B of the user B1 is instructed as a target of attention among a plurality of users.
  • the meta information including the information is transmitted.
  • the meta information transmitted to the communication terminals 12B of the users B2 to B4 does not include instruction information.
  • the communication terminal 12A transmits to the communication terminals 12B of the users B1 to B4 the 3D model information that is 3D modeled so that the user A is three-dimensionally represented in the meta information.
  • the output operation unit 24B of the communication terminal 12B of the user B1 causes the direction pointed by the user A displayed on the display 32B-1 to the user B1 in accordance with the instruction information indicating that the instruction is made as the target of attention.
  • the output operation can be performed so that the orientation of the user A is adjusted and displayed.
  • the output operation unit 24B of the communication terminal 12B of each of the users B2 to B4 ensures that the direction indicated by the user A displayed on the displays 32B-2 to 32B-4 does not face the users B2 to B4, respectively.
  • An output operation is performed so that the direction of A is adjusted and displayed.
  • the display 32B-1 of the user B1 can be displayed by adjusting the orientation of the user A so that the direction pointed by the user A is directed to the user B1.
  • the direction of the user A can be adjusted and displayed so that the direction pointed by the user A is other than the users B2 to B4, respectively.
  • the user B1 can recognize that the user A has pointed, and the users B2 to B4 can recognize that the user A has not been pointed.
  • the target object is adjusted by displaying the user's orientation so that only the target user of the plurality of users is pointed. Can be recognized.
  • video operations on the video displayed on the display 32B for example, video processing for superimposing the point mark P, transparent display, time switching display, adjustment of the orientation of the user A, etc.
  • An output operation is performed.
  • the object C that is the target of attention pointed by the user A is within the angle of view of the camera 31A that captures the user A from the front of the user A facing the display 32A. It is in. For this reason, as in the normal mode, the user B1 to B3 can recognize the object C as a target of interest simply by projecting the video image of the object C together with the user A on the display 32B.
  • the output operation unit 24A determines that the target of interest pointed to by the user A is the blind spot of the camera 31A, the output operation unit 24A switches the output mode to the local mode and will be described with reference to FIGS. 16 and 17. The output operation is performed.
  • the wearable worn by the user A as a spectacle-type device, for example, capable of capturing an image in a direction corresponding to the user A's line of sight.
  • the camera 33 is also used as the input device 21A.
  • FIG. 16 shows a first example of the output operation in the local mode.
  • the target object detection unit 23A identifies the display screen of the tablet T as the target object. Then, the target object detection unit 23A supplies target position information indicating the position of the tablet T to the output operation unit 24A.
  • the output operation unit 24A selects the local mode as the output mode according to the target position information, and supplies the output mode information indicating the local mode to the transmission device 25A.
  • the output operation unit 24A recognizes that the display screen of the tablet T faces the user A side and the display screen of the tablet T is a blind spot of the camera 31A.
  • the output operation unit 24A performs video processing for superimposing the point mark P on the display screen of the tablet T shown in the video shot by the wearable camera 33 based on the target position information, and the video is processed.
  • the data is supplied to the transmission device 25A and transmitted.
  • the output operation unit 24B switches the output mode to the local mode according to the output mode information transmitted from the communication terminal 12A, and the output device 27B displays the video transmitted from the communication terminal 12A. indicate.
  • an image in which the point mark P is superimposed on the display screen of the tablet T shown in the image taken by the wearable camera 33 is displayed on the entire screen.
  • the images of the users B1 to B3 displayed on the display 32A displayed in the display 32B remain as viewed by the user A.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention. Further, any shape may be used as the point mark P.
  • the target object in the output operation in the local mode, can be recognized by superimposing the point mark P on the target object displayed in the video photographed by the wearable camera 33 and displaying it on the display 32. .
  • FIG. 17 shows a second example of the output operation in the local mode.
  • the user A is outside an image displayed on the display 32A and is within an angle of view that can be captured by the camera 31A.
  • the target object detection unit 23A identifies the object C1 as the target object. Then, the target object detection unit 23A supplies target position information indicating the position of the object C1 to the output operation unit 24A.
  • the output operation unit 24A selects the local mode as the output mode according to the target position information, and supplies the output mode information indicating the local mode to the transmission device 25A.
  • the output operation unit 24A recognizes that the two objects C1 and C2 are hidden by the user A from the camera 31A and that the object C1 is a blind spot of the camera 31A. Accordingly, the output operation unit 24A performs image processing for superimposing the point mark P on the object C1 shown in the image captured by the wearable camera 33 based on the target position information, and transmits the image to the transmission device 25A. To be sent to.
  • the output operation unit 24B switches the output mode to the local mode according to the output mode information transmitted from the communication terminal 12A, and the output device 27B displays the video transmitted from the communication terminal 12A. indicate.
  • the point mark P is displayed on the object C1 of interest among the two objects C1 and C2 shown in the image taken by the wearable camera 33 on the display 32B.
  • the superimposed video is displayed on the entire screen.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention. Further, any shape may be used as the point mark P.
  • the target object in the output operation in the local mode, can be recognized by superimposing the point mark P on the target object displayed in the video photographed by the wearable camera 33 and displaying it on the display 32. .
  • an output operation for superimposing the point mark P on the target of interest shown in the video photographed by the wearable camera 33 other than the camera 31 is performed.
  • the attention object pointed by the user A of the communication terminal 12A can be recognized by the user B of the communication terminal 12B, and the user A and the user B can perform smooth communication with each other.
  • the attention object is the blind spot of the camera 31A
  • another camera installed in the room where the user A is present is used. May be.
  • video processing is performed such that the point mark P is superimposed on the target of interest shown in the video shot by a camera other than the camera 31A, and the video is displayed on the display 32B.
  • the wearable camera 33 is used as the input device 21A as in FIGS.
  • the user A is outside a video image displayed on the display 32A and is outside a field of view that can be captured by the camera 31A.
  • the attention object detection unit 23A identifies the predetermined portion as the attention object. Then, the target object detection unit 23A supplies target position information indicating the target object to the output operation unit 24A.
  • the output operation unit 24A selects the local blind mode as the output mode according to the target position information, and supplies the output mode information indicating the local blind mode to the transmission device 25A.
  • the output operation unit 24A recognizes that the target of interest is a blind spot of the camera 31A. Accordingly, the output operation unit 24A performs video processing for superimposing the point mark P on the target of interest shown in the video shot by the wearable camera 33 based on the target position information, and transmits the video to the transmission device 25A. To be sent to.
  • the output operation unit 24B switches the output mode to the local blind mode according to the output mode information transmitted from the communication terminal 12A, and the output device 27B displays the video transmitted from the communication terminal 12A. Is displayed.
  • the display 32B displays an image in which the point mark P is superimposed on the target of interest shown in the image taken by the wearable camera 33 on the entire screen.
  • the images of the users B1 to B3 displayed on the display 32A displayed in the display 32B remain as viewed by the user A.
  • the point mark P can be displayed in a conspicuous color such as red or blinking so as to draw attention. Further, any shape may be used as the point mark P.
  • an output operation is performed to superimpose the point mark P on the target of interest shown in the video photographed by the wearable camera 33 other than the camera 31.
  • the attention object pointed by the user A of the communication terminal 12A can be recognized by the user B of the communication terminal 12B, and the user A and the user B can perform smooth communication with each other.
  • the target of interest is the blind spot of the camera 31A
  • another camera installed in the room where the user A is present is used. May be.
  • video processing is performed such that the point mark P is superimposed on the target of interest shown in the video shot by a camera other than the camera 31A, and the video is displayed on the display 32B.
  • FIG. 19 is a flowchart for explaining communication processing in the communication system 11.
  • step S11 the communication terminal 12A and the communication terminal 12B perform communication connection processing for establishing a communication connection with each other via the network.
  • step S12 the communication terminal 12A and the communication terminal 12B exchange terminal information of the communication terminal 12A and the communication terminal 12B as a communication preparation process for starting the communication process.
  • the communication terminal 12 ⁇ / b> A and the communication terminal 12 ⁇ / b> B exchange the size of the display 32 and the specifications (view angle, arrangement, etc.) of the camera 31 as terminal information.
  • step S13 images taken by the cameras 31 on the other side are displayed on the display 32 of each of the communication terminal 12A and the communication terminal 12B, and communication processing (see the flowchart in FIG. 20) is performed.
  • step S14 the communication terminal 12A and the communication terminal 12B determine whether or not to end the communication process, and the communication process in step S13 is continuously performed until it is determined to end the communication process.
  • step S14 when each user of the communication terminal 12A and the communication terminal 12B performs an operation for instructing the end of the communication process, it is determined in step S14 that the communication process is ended, and the process proceeds to step S15.
  • step S15 the communication terminal 12A and the communication terminal 12B perform communication blocking processing for blocking communication with each other, and then the communication processing ends.
  • the communication terminal 12A and the communication terminal 12B can perform an output operation so as to accurately recognize the target of interest in the communication process by exchanging terminal information in the communication preparation process.
  • FIG. 20 is a flowchart for explaining the communication process performed in step S13 of FIG. Note that FIG. 20 illustrates communication processing performed on the communication terminal 12A side, but similar communication processing is also performed on the communication terminal 12B side.
  • step S21 the trigger detection unit 22A determines whether the user A has performed a pointing operation from the video signal input from the input device 21A.
  • step S21 when the trigger detection unit 22A determines that the user A is not performing a pointing operation, the process proceeds to step S22.
  • step S22 the trigger detection unit 22A turns off the output of the trigger signal supplied to the target object detection unit 23A.
  • the target object detection unit 23A stops supplying target position information to the output operation unit 24A without performing the process of detecting the target object.
  • step S23 the output operation unit 24A switches the output mode to the normal mode as the supply of the target position information from the target target detection unit 23A is stopped.
  • step S21 determines in step S21 that the user A has performed a pointing operation
  • the process proceeds to step S24.
  • step S24 the trigger detection unit 22A turns on the output of the trigger signal supplied to the target object detection unit 23A.
  • the target object detection unit 23A performs a process of detecting the target object from the video signal input from the input device 21A, and supplies target position information indicating the position of the target object to the output operation unit 24A.
  • step S25 the output operation unit 24A determines which of the remote mode, the local mode, and the local blind mode is selected as the output mode based on the target position information supplied from the target target detection unit 23A in step S24. judge.
  • step S25 when the output operation unit 24A determines that the remote mode is selected as the output mode, the process proceeds to step S26.
  • step S26 the output operation unit 24A supplies the output mode information indicating the remote mode to the transmission device 25A together with the target position information supplied from the target target detection unit 23A in step S24. Accordingly, the transmission device 25A transmits meta information including at least output mode information indicating the remote mode and target position information to the communication terminal 12B together with the video signal input from the input device 21A.
  • step S25 if it is determined in step S25 that the output operation unit 24A has selected the local mode as the output mode, the process proceeds to step S27.
  • step S27 the output operation unit 24A supplies the output mode information indicating the local mode to the transmission device 25A together with the target position information supplied from the target target detection unit 23A in step S24. Accordingly, the transmission device 25A transmits, to the communication terminal 12B, meta information including at least the output mode information indicating the local mode and the target position information together with the video signal input from the input device 21A.
  • step S25 if it is determined in step S25 that the output operation unit 24A has selected the local blind mode as the output mode, the process proceeds to step S28.
  • step S28 the output operation unit 24A supplies output mode information indicating the local blind mode to the transmission device 25A together with the target position information supplied from the target target detection unit 23A in step S24. Accordingly, the transmission device 25A transmits meta information including at least output mode information indicating the local blind mode and target position information to the communication terminal 12B together with the video signal input from the input device 21A.
  • step S23 After the process of step S23, step S26, step S27, or step S28, the process proceeds to step S29, and the receiving device 26A displays the output mode information included in the meta information transmitted together with the video signal from the communication terminal 12B. It is determined whether or not it has been received.
  • step S29 If it is determined in step S29 that the receiving device 26A has not received the output mode information, the process proceeds to step S30.
  • step S30 the output operation unit 24A switches the output mode to the normal mode in accordance with the reception device 26A not receiving the output mode information.
  • step S29 if it is determined in step S29 that the receiving device 26A has received the output mode information, the receiving device 26A supplies the output mode information and the target position information included in the meta information to the output operation unit 24A for processing. Advances to step S31.
  • step S31 the output operation unit 24A determines whether the output mode information supplied from the receiving device 26A indicates the remote mode, the local mode, or the local blind mode as the output mode.
  • step S31 when the output operation unit 24A determines that the output mode information indicates the remote mode, the process proceeds to step S32.
  • step S32 the output operation unit 24A switches the output mode of the output operation that causes the user B of the communication terminal 12A to recognize the target of attention to the remote mode according to the output mode information.
  • step S33 the output operation unit 24A performs the output operation in the remote mode as described above with reference to FIGS. 4 to 14 based on the target position information supplied together with the output mode information from the receiving device 26A.
  • step S31 determines in step S31 that the output mode information indicates the local mode
  • the process proceeds to step S34.
  • step S34 the output operation unit 24A switches the output mode of the output operation that causes the user B of the communication terminal 12A to recognize the target of attention to the local mode according to the output mode information.
  • step S35 the output operation unit 24A performs the output operation in the local mode as described above with reference to FIGS. 16 and 17 based on the target position information supplied together with the output mode information from the receiving device 26A.
  • step S31 determines in step S31 that the output mode information indicates the local blind mode
  • the process proceeds to step S36.
  • step S36 the output operation unit 24A switches the output mode of the output operation that causes the user B of the communication terminal 12A to recognize the target of attention to the local blind mode according to the output mode information.
  • step S37 the output operation unit 24A performs the output operation in the local blind mode as described above with reference to FIG. 18 based on the target position information supplied together with the output mode information from the receiving device 26A.
  • step S30 After the process of step S30, step S33, step S35, or step S37, the process returns to step S14 in FIG. 19, and the communication process is continuously performed until it is determined that the communication process is terminated as described above.
  • the communication system 11 can switch the output mode when performing the output operation for recognizing the target of interest according to the position of the target of interest, the communication system 11 performs an appropriate output operation according to the position of the target of interest. be able to. Thereby, each user can recognize easily the attention object which the other party's user pointed at, and can perform smoother communication.
  • the operation in which the user points to the target object has been described as an example, but the present invention is not limited to pointing.
  • the attention object detection unit 23 may detect an object in the vicinity of the user's hand as an attention object, assuming that there is an attention object near the hand. it can.
  • the attention object detection part 23 can detect a user's eyes
  • a microphone that inputs voice can be used as the input device 21A.
  • the trigger detection unit 22 recognizes a specific phrase (for example, “look”, “please see”, “attention”, etc.) from the user's voice input from the microphone using voice recognition technology. To do. And the trigger detection part 22 turns on a trigger signal at the timing which recognized the specific phrase.
  • the attention object detection unit 23A can detect, as the attention object, what the user points at or points at the line of sight at that timing.
  • the trigger detection unit 22A may turn on the trigger signal at the timing when the slide show is closed. Furthermore, the trigger detection unit 22A may turn on the trigger signal at the timing when an operation is performed on a predetermined operation means (button or the like) prepared in advance in the communication terminal 12.
  • the user-side communication terminal 12 that has performed the pointing operation performs the process of detecting the target of interest and performs the process of switching the output mode, and then includes the meta information including the output mode information.
  • a configuration for transmission is described.
  • a video captured by the camera 31 of the communication terminal 12 on the user side that has performed the pointing operation is transmitted, and the communication terminal 12 that has received the video performs a process of detecting a target of interest, and outputs it. You may make it perform the process which switches a mode.
  • the communication terminal 12 that has received the video the video can be supplied from the receiving device 26 to the trigger detection unit 22 to detect the trigger. Note that, when the process of detecting the trigger is performed in the communication terminal 12 on the transmission side, it is not necessary to configure the reception device 26 to supply video to the trigger detection unit 22.
  • the communication system 11 may be configured so that each of these processes is performed by either the communication terminal 12A or the communication terminal 12B, or a part thereof is shared.
  • a speaker that outputs sound can be used as the output device 27A.
  • the name of the object recognized by the object recognition process for recognizing the object shown in the video can be output from the speaker.
  • the processes described with reference to the flowcharts described above do not necessarily have to be processed in chronological order in the order described in the flowcharts, but are performed in parallel or individually (for example, parallel processes or objects). Processing).
  • the program may be processed by one CPU, or may be distributedly processed by a plurality of CPUs.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 21 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 105 is further connected to the bus 104.
  • the input / output interface 105 includes an input unit 106 including a keyboard, a mouse, and a microphone, an output unit 107 including a display and a speaker, a storage unit 108 including a hard disk and nonvolatile memory, and a communication unit 109 including a network interface.
  • a drive 110 for driving a removable medium 111 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 101 loads, for example, the program stored in the storage unit 108 to the RAM 103 via the input / output interface 105 and the bus 104 and executes the program. Is performed.
  • the program executed by the computer (CPU 101) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disc, or a semiconductor.
  • the program is recorded on a removable medium 111 that is a package medium including a memory or the like, or is provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 108 via the input / output interface 105 by attaching the removable medium 111 to the drive 110. Further, the program can be received by the communication unit 109 via a wired or wireless transmission medium and installed in the storage unit 108. In addition, the program can be installed in the ROM 102 or the storage unit 108 in advance.
  • An attention object detection unit for detecting an attention object designated by the user;
  • a communication apparatus comprising: an output operation unit that switches an output mode when performing an output operation that causes another user who is a communication partner of the user to recognize the attention object according to the position of the attention object.
  • a trigger detection unit that detects whether or not the user has performed an operation of instructing the target of interest, and that supplies a trigger signal indicating a timing at which the operation has been performed to the target of interest detection unit;
  • the target object detection unit performs a process of detecting the target object based on the user's operation when the trigger signal indicates that the user has performed an operation of instructing the target object.
  • the output operation unit displays the output mode on the display device on the other user side when the position of interest is within the video of the display device that displays the video on the other user side.
  • a process for switching to a remote mode for performing an output operation for performing a predetermined video operation on the video is performed, and output mode information indicating the remote mode is transmitted together with target position information indicating the position of the target of interest.
  • the communication device 2).
  • the output operation unit is configured so that the other user can perform the remote mode based on the target position information.
  • the communication apparatus according to (3), wherein an output operation for causing the user to recognize the instructed target is performed.
  • the output operation unit captures the user from the front of the user whose position of the target of interest is outside the video of the display device that displays the video of the other user and faces the display device
  • the output mode is set to perform an output operation for performing a predetermined video operation on the target of interest shown in a video photographed by a photographing device other than the photographing device.
  • the communication device according to any one of (1) to (4), wherein processing for switching to a local mode is performed, and output mode information indicating the local mode is transmitted together with a video imaged by the other imaging device.
  • the output operation unit is predetermined for the target of interest in the local mode.
  • the communication device according to (5), wherein an output operation for causing the user to recognize the target of interest specified by the other user is performed using the video that has been subjected to the video processing for superimposing the mark.
  • the output operation unit captures the user from the front of the user whose position of the target of interest is outside the video of the display device that displays the video of the other user and faces the display device
  • the output mode is set to a local blind mode in which a predetermined image operation is performed on the target of interest shown in the image captured by another image capturing device other than the image capturing device.
  • the communication device according to any one of (1) to (6), wherein a switching process is performed, and output mode information indicating the local blind mode is transmitted together with the video imaged by the other imaging device.
  • the output operation unit When the output mode information indicating the local blind mode and the video captured by the other imaging device are transmitted from the other user side, the output operation unit responds to the target of interest in the local blind mode.
  • the communication apparatus according to (7), wherein an output operation for causing the user to recognize the target of interest specified by the other user is performed using the video that has been subjected to video processing for superimposing a predetermined mark.
  • the output operation unit causes the display device on the other user side to display the video on the other user side, and performs a predetermined operation on the target of interest displayed on the displayed video.
  • the communication device according to (3), wherein image processing is performed to superimpose and display the mark.
  • the output operation unit performs image processing for extracting an area where the target object is captured in the image on the other user side, and is displayed on the display device on the other user side
  • the communication device according to (3) wherein an output operation is performed to display the clipped video at a predetermined location for a user.
  • the output operation unit causes the video displayed on the other user side to be superimposed on the user displayed on the display device on the other user side and the video displayed on the other user side is transparently displayed.
  • image processing is performed in which the target of interest displayed in the screen is arranged at a predetermined location with respect to the user.
  • the output operation unit In the remote mode, the output operation unit superimposes on the user displayed on the display device on the other user side to display the video of the other user on the previous time and displays the time on the display
  • the said output operation part transmits the information which shows the timing which the said user instruct
  • the communication apparatus as described in said (3).
  • the output operation unit adjusts the angle of view of the imaging device on the other user side so that the target of interest is displayed, and then is captured by the imaging device on the other user side.
  • the communication device wherein image processing is performed to superimpose and display a predetermined mark on the target of interest displayed in a video.
  • the output operation unit is displayed on the display device of the other user so that the direction in which the user indicates the target of interest is directed to the target of interest on the other user side.
  • the communication device according to (3), wherein the orientation of the user is adjusted.
  • the output operation unit is photographed by the other photographing device when a point designated by the user of the target of interest within the angle of view of the photographing device is facing the user side.
  • the communication device according to (5), wherein the video is processed so that a mark is superimposed on the portion of the video.
  • the output operation unit in the video imaged by the other imaging device when the target of interest within the angle of view of the imaging device is in a position hidden from the imaging device,
  • the target object detection unit detects an object on the extension line in the direction pointed by the user as the target object (1) to (17 )
  • Detect the attention target indicated by the user A communication method including a step of switching an output mode in performing an output operation for causing another user who is a communication partner of the user to recognize the target object according to the position of the target object.
  • a program for causing a computer to execute a communication process including a step of switching an output mode when performing an output operation for causing another user who is a communication partner of the user to recognize the target object according to the position of the target object.
  • 11 communication system 12 communication terminal, 21 input device, 22 trigger detection unit, 23 attention target detection unit, 24 output operation unit, 25 transmission device, 26 reception device, 27 output device, 31 camera, 32 display, 33 wearable camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示は、より円滑なコミュニケーションを行うことができるようにする通信装置および通信方法、並びにプログラムに関する。 注目対象検出部は、ユーザが指示した注目対象を検出し、出力操作部は、注目対象の位置に従って、ユーザの通信相手となる他のユーザに注目対象を認識させる出力操作を行う際の出力モードを、リモートモード、ローカルモード、およびローカルブラインドモードのいずれかに切り替える。本技術は、例えば、カメラおよびディスプレイを利用してコミュニケーションを行うコミュニケーションシステムに適用できる。

Description

通信装置および通信方法、並びにプログラム
 本開示は、通信装置および通信方法、並びにプログラムに関し、特に、より円滑なコミュニケーションを行うことができるようにした通信装置および通信方法、並びにプログラムに関する。
 従来、テレビ会議システムなどのコミュニケーションシステムでは、例えば、遠隔地にいるユーザどうしが、ディスプレイに表示される相手側のユーザとコミュニケーションを行うことができる通信装置が利用される。このようなコミュニケーションにおいて、例えば、一方のユーザが、他方のユーザ側にある注目対象を指示するような場合に、その注目対象を他方のユーザに認識させることにより、より良好な意思疎通を行うことができる。
 そこで、特許文献1では、例えば、一方のユーザが、他方のユーザ側にある資料などを指差したときに、その資料の位置検出を行い、他方のユーザ側にあるレーザポインタを動かして資料にレーザを照射するテレビ会議装置が提案されている。
特開平9-237154号公報
 しかしながら、特許文献1における提案では、一方のユーザが見えている映像内にあるものしか注目対象とすることができず、例えば、映像内にあって死角となる位置にある注目対象や、映像外にある注目対象などを指示することは想定されていない。そのため、そのような様々な注目対象に対する指示を認識させることによる円滑なコミュニケーションを実現することは困難であった。
 本開示は、このような状況に鑑みてなされたものであり、より円滑なコミュニケーションを行うことができるようにするものである。
 本開示の一側面の通信装置は、ユーザが指示した注目対象を検出する注目対象検出部と、前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える出力操作部とを備える。
 本開示の一側面の通信方法またはプログラムは、ユーザが指示した注目対象を検出し、前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替えるステップを含む。
 本開示の一側面においては、ユーザが指示した注目対象が検出され、その注目対象の位置に従って、ユーザの通信相手となる他のユーザに注目対象を認識させる出力操作を行う際の出力モードが切り替えられる。
 本開示の一側面によれば、より円滑なコミュニケーションを行うことができる。
本技術を適用したコミュニケーションシステムの一実施の形態の構成例を示すブロック図である。 注目対象の位置に従った出力操作の出力モードについて説明する図である。 通常モードについて説明する図である。 リモートモードにおける第1の出力操作について説明する図である。 リモートモードにおける第2の出力操作について説明する図である。 リモートモードにおける第3の出力操作について説明する図である。 リモートモードにおける第4の出力操作について説明する図である。 リモートモードにおける第5の出力操作について説明する図である。 リモートモードにおける第6の出力操作について説明する図である。 コミュニケーションシステムの変形例を示すブロック図である。 リモートモードにおける第7の出力操作について説明する図である。 複数のユーザとのコミュニケーションの例を説明する図である。 リモートモードにおける第8の出力操作について説明する図である。 リモートモードにおける第9の出力操作について説明する図である。 ローカルモードにおいて、注目対象がカメラの画角内にある例を説明する図である。 ローカルモードにおける出力操作の第1の例を説明する図である。 ローカルモードにおける出力操作の第2の例を説明する図である。 ローカルブラインドモードにおける出力操作の例を説明する図である。 通信処理を説明するフローチャートである。 コミュニケーション処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <コミュニケーションシステムの構成例>
 図1は、本技術を適用したコミュニケーションシステムの一実施の形態の構成例を示すブロック図である。
 図1に示されているコミュニケーションシステム11は、2台の通信端末12Aおよび通信端末12Bが通信を行うように構成されており、通信端末12Aおよび通信端末12Bのユーザを互いに通信相手としてコミュニケーションが行われる。なお、コミュニケーションシステム11は、2台以上の通信端末12が通信を行うような構成としてもよい。
 通信端末12Aは、入力装置21A、トリガ検出部22A、注目対象検出部23A、出力操作部24A、送信装置25A、受信装置26A、および出力装置27Aを備えて構成される。なお、通信端末12Bは、通信端末12Aと同一のブロックを備えて構成されており、以下の説明では、通信端末12Bの構成については省略する。
 入力装置21Aには、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどを用いた撮影装置(例えば、図2のカメラ31または図16のウェアラブルカメラ33)を使用することができる。そして、入力装置21Aは、通信端末12Aを利用してコミュニケーションを行うユーザ(話者)を被写体として撮影することにより得られる映像信号の通信端末12Aへの入力を行う。また、入力装置21Aとして、例えば、赤外線などを利用して被写体のデプスを検出するデプスセンサを使用する場合、入力装置21Aは、被写体の奥行きを示すデプス情報の入力を行い、そのデプス情報から求められるユーザの動作に基づいた処理が行われる。
 なお、入力装置21Aにより通信端末12Aに入力されるデプス情報は、例えば、映像信号に関する各種の情報からなるメタ情報に含めることができる。また、このメタ情報には、例えば、図11を参照して後述するようなリモートコントローラに対する操作により入力される操作コマンドや、図示しない操作手段に対する操作により入力される操作コマンド(トリガ信号をオンにするコマンド)などを含めることができる。そして、通信端末12Aは、入力装置21Aにより入力されるメタ情報(ローカル)と、入力装置21Bから送信されてくるメタ情報(リモート)とに基づいて処理を行うことができる。
 トリガ検出部22Aは、入力装置21Aから入力される映像信号に対して画像認識技術を使用することで、映像に映されているユーザの動作を認識し、ユーザが指差し動作を行ったか否かを示すトリガ信号を注目対象検出部23Aに供給する。例えば、トリガ検出部22Aは、ユーザの動作を認識した結果、ユーザが指差し動作を行ったことを検出したタイミングで、注目対象検出部23Aに供給するトリガ信号の出力をオフからオンに切り替える。また、トリガ検出部22Aは、ユーザが指差し動作を終了したことを検出したタイミングで、注目対象検出部23Aに供給するトリガ信号の出力をオンからオフに切り替える。
 注目対象検出部23Aは、トリガ検出部22Aから供給されるトリガ信号がオンとなっている間、入力装置21Aから入力される映像信号に対して画像認識技術を使用することで、映像に映されているユーザの手の形状を認識し、ユーザが指差した方向を特定する。これにより、注目対象検出部23Aは、ユーザが指差した方向の延長線上にあるもの(人物や物体など)を注目対象として検出し、注目対象の位置を指示する対象位置情報を出力操作部24Aに供給する。
 出力操作部24Aは、注目対象検出部23Aから供給される対象位置情報に基づいて、通信相手となる通信端末12Bのユーザに注目対象を認識させるための出力操作を行う際の出力モードを切り替える処理を行う。例えば、出力操作部24Aは、注目対象の位置に従って、図2を参照して後述するように、リモートモード、ローカルモード、およびローカルブラインドモードのいずれかを出力モードとして選択する。そして、出力操作部24Aは、リモートモード、ローカルモード、およびローカルブラインドモードのいずれかを示す出力モード情報を、対象位置情報とともに送信装置25Aに供給する。
 また、出力操作部24Aは、受信装置26Aから供給されるメタ情報(リモート)に含まれている通信端末12B側の出力モード情報および対象位置情報に基づいて、通信端末12Aのユーザに、通信端末12Bにおいて検出された注目対象を認識させるための出力操作を行う。例えば、出力操作部24Aは、通信端末12Bから送信されてきた出力モード情報に従って出力モードを切り替え、通信端末12Bから送信されてきた対象位置情報により指示される注目対象の位置を特定する出力操作を行った映像信号を、出力装置27Aに供給する。即ち、出力操作部24Aは、例えば、後述する図4のポイントマークPを表示させるような映像操作(映像加工、映像編集、映像切り替えなど)を行うことができる。
 送信装置25Aは、入力装置21Aから入力される映像信号と、出力操作部24Aから供給される出力モード情報および対象位置情報を少なくとも含むメタ情報(ローカル)とを、通信端末12Bに送信する。なお、通信端末12Aおよび通信端末12Bの間で送受信されるメタ情報は、出力モード情報および対象位置情報の他、例えば、デプス情報や、3Dモデル情報、タイムスタンプなどを含むことができる。
 受信装置26Aは、通信端末12Bから送信されてくる映像信号およびメタ情報を受信する。そして、受信装置26Aは、通信端末12Bから送信されてきた映像信号を、出力操作部24Aを介して出力装置27Aに供給するとともに、通信端末12Bから送信されてきたメタ情報(リモート)に含まれている出力モード情報および対象位置情報を出力操作部24Aに供給する。なお、送信装置25Aおよび受信装置26Aは、具体的には、H.320/H.323などの通信プロトコルに対応する通信機能を備え、映像符号化(H.26x)、音声符号化(G.7xx)(ITU-T勧告)などを行うことができる。
 出力装置27Aには、例えば、映像を表示する表示装置(例えば、図2のディスプレイ32やプロジェクタなど)を使用することができる。出力装置27Aは、通信端末12Bから送信されてきた映像信号に基づいた映像を表示するとともに、出力操作部24Aによる出力操作に従って、通信端末12Bにおいて検出された注目対象を通信端末12Aのユーザに認識させる表示を行う。
 このようにコミュニケーションシステム11は構成されており、例えば、通信端末12Aのユーザが指差し動作を行うと、注目対象の位置に従って出力モードが切り替えられて、通信端末12Bのユーザに注目対象を認識させるための出力操作が行われる。同様に、通信端末12Bのユーザが指差し動作を行うと、注目対象の位置に従って出力モードが切り替えられて、通信端末12Aのユーザに注目対象を認識させるための出力操作が行われる。従って、コミュニケーションシステム11を利用することで、互いのユーザは、相手側のユーザが指差した注目対象を容易に認識することができ、より円滑なコミュニケーションを行うことができる。
 なお、通信端末12Aおよび通信端末12Bの区別をする必要がない場合、単に通信端末12と称し、通信端末12を構成する各ブロックについても同様に称する。
 <出力モードの例>
 図2を参照して、注目対象検出部23により検出される注目対象の位置に従った出力操作部24による出力操作の出力モードについて説明する。
 図2では、入力装置21として使用されるカメラ31が、出力装置27として使用されるディスプレイ32の上辺の中央に設置されている構成例が示されている。カメラ31は、ディスプレイ32を向いているユーザの正面から、そのユーザを撮影するのに用いられ、図2に示されている破線は、カメラ31の画角を表している。
 例えば、ユーザは、ディスプレイ32の正面に向かって、ディスプレイ32に映し出される通信相手とコミュニケーションを行うことができる。このとき、ユーザが、任意のものを対象として指差し動作を行うと、注目対象検出部23は、ユーザが指差した注目対象を検出し、出力操作部24は、注目対象の位置に従った出力モードに切り替えて出力操作を行う。
 例えば、出力操作部24は、注目対象検出部23から供給される注目対象の対象位置情報が、ディスプレイ32に映されている映像内を示している場合、出力操作の出力モードをリモートモードに切り替える。また、注目対象検出部23は、注目対象検出部23から供給される注目対象の対象位置情報が、ディスプレイ32に映されている映像外であって、かつ、カメラ31により撮影可能な画角内を示している場合、出力操作の出力モードをローカルモードに切り替える。また、注目対象検出部23は、注目対象検出部23から供給される注目対象の対象位置情報が、ディスプレイ32に映されている映像外であって、かつ、カメラ31により撮影可能な画角外を示している場合、出力操作の出力モードをローカルブラインドモードに切り替える。
 そして、出力操作部24は、例えば、リモートモード、ローカルモード、およびローカルブラインドモードのいずれかを示す出力モード情報を送信装置25に供給し、対象位置情報とともに送信させる。
 一方、出力操作部24には、受信装置26が受信した出力モード情報および対象位置情報が供給される。そして、出力操作部24は、その出力モード情報に従って、リモートモード、ローカルモード、およびローカルブラインドモードのいずれかに出力モードを切り替えて、その対象位置情報に基づいて、ユーザに注目対象を認識させる出力操作を行うことができる。なお、出力操作部24により出力操作が行われていない状態を、以下適宜、通常モードと称する。
 <通常モード>
 図3を参照して、通常モードについて説明する。
 図3では、通信端末12Aを1人のユーザAが利用して通信を行い、通信端末12Bを3人のユーザB1乃至B3が利用して通信を行っている例を示している。
 図3のAには、通信端末12A側において、ディスプレイ32Aに向かうユーザAを後ろ側から見た状態が示されており、ディスプレイ32Aには、通信端末12Bのカメラ31Bにより撮影されたユーザB1乃至B3の映像が表示される。
 図3のBには、通信端末12B側において、ディスプレイ32Bに向かうユーザB1乃至B3を後ろ側から見た状態が示されおり、ディスプレイ32Bには、通信端末12Aのカメラ31Aにより撮影されたユーザAの映像が表示される。
 このように、通常モードでは、ユーザが指差し動作を行っていない状態で、それぞれ互いのディスプレイ32に表示される通信相手と通常のコミュニケーションを行うことができる。
 <リモートモード>
 図4乃至図14を参照して、リモートモードにおいて注目対象を認識させる出力操作について説明する。
 図4には、リモートモードにおける第1の出力操作として、注目対象を指示するマークを重畳表示する例が示されている。
 図4のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、注目対象検出部23Aは、ディスプレイ32Aに映されている映像内のユーザB1を注目対象として特定する。そして、注目対象検出部23Aは、ユーザB1の位置を示す対象位置情報を出力操作部24Aに供給する。
 これにより、出力操作部24Aは、対象位置情報に従って、リモートモードを出力モードとして選択し、リモートモードを示す出力モード情報を、対象位置情報とともに送信装置25Aに供給する。従って、送信装置25Aは、出力モード情報および対象位置情報を少なくとも含むメタ情報を、カメラ31AがユーザAを撮影することにより得られる映像信号とともに通信端末12Bに送信する。
 一方、通信端末12B側において、出力操作部24Bは、通信端末12Aから送信されてきた出力モード情報に従って、出力モードをリモートモードに切り替える。また、出力操作部24Bは、通信端末12Aから送信されてきた対象位置情報に基づいて、ユーザB1が注目対象であることを特定する。
 そして、リモートモードにおける第1の出力操作では、出力操作部24Bは、カメラ31BがユーザB1乃至B3を撮影した映像に映されているユーザB1にポイントマークPを重畳させる映像加工を行い、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、通信端末12Aから送信されてきたユーザAが映された映像に対して、出力操作部24Bにより映像加工が行われた映像がピクチャインピクチャ形式で表示されるような出力を行う。
 従って、図4のBに示すように、ディスプレイ32Bでは、通信端末12Aから送信されてきたユーザAの映像が画面の全体に表示され、ポイントマークPがユーザB1に重畳されたユーザB1乃至B3の映像が、例えば、画面の右下に表示される。このとき、ユーザB1乃至B3の映像は、ディスプレイ32Aに向かって映像を見ているユーザAと同じ位置関係となるように、例えば、カメラ31Bの出力から反転されて表示される。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。
 このように、リモートモードにおける第1の出力操作では、カメラ31により撮影された映像に映されている注目対象にポイントマークPを重畳させ、ピクチャインピクチャ形式でディスプレイ32に表示することにより、注目対象を認識させることができる。
 図5には、リモートモードにおける第2の出力操作として、注目対象を切り出した映像をピクチャインピクチャ形式で表示する例が示されている。
 図5のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第2の出力操作では、出力操作部24Bは、カメラ31BがユーザB1乃至B3を撮影した映像から、注目対象であるユーザB1が映されている領域を切り出す映像加工を行い、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、通信端末12Aから送信されてきたユーザAが映された映像に対して、出力操作部24Bにより映像加工が行われた映像が、ユーザAの指先の近傍においてピクチャインピクチャ形式で表示されるような出力を行う。
 従って、図5のBに示すように、ディスプレイ32Bでは、通信端末12Aから送信されてきたユーザAの映像が画面の全体に表示され、出力操作部24BによりユーザB1が切り出された映像が、ユーザAの指先の近傍に表示される。
 このように、リモートモードにおける第2の出力操作では、カメラ31により撮影された映像から注目対象を切り出してピクチャインピクチャ形式でディスプレイ32に表示することにより、注目対象を認識させることができる。
 図6には、リモートモードにおける第3の出力操作として、通信相手側の出力映像の手の位置に合わせて注目対象を透過表示する例が示されている。
 図6のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第3の出力操作では、出力操作部24Bは、カメラ31BがユーザB1乃至B3を撮影した映像に映されているユーザB1が、ユーザAの指先に重なる位置で透過表示されるように指示し、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、通信端末12Aから送信されてきたユーザAが映された映像に重畳して、ユーザB1がユーザAの指先に重なる位置となるように、出力操作部24Bから供給される映像が透過表示されるような出力を行う。
 従って、図6のBに示すように、ディスプレイ32Bでは、通信端末12Aから送信されてきたユーザAの映像が画面の全体に表示され、ユーザAの指先にユーザB1が重なるような位置でユーザB1乃至B3の映像が透過表示(図6の例では破線で表示)される。このとき、ユーザB1乃至B3の映像は、ディスプレイ32Aに向かって映像を見ているユーザAと同じ位置関係となるように、例えば、カメラ31Bの出力から反転されて表示される。
 このように、リモートモードにおける第3の出力操作では、カメラ31により撮影された映像に映されている注目対象をディスプレイ32に透過表示することにより、注目対象を認識させることができる。
 図7には、リモートモードにおける第4の出力操作として、通信相手側の出力映像の手の位置に合わせた注目対象の表示を所定間隔で切り替える例が示されている。
 図7のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第4の出力操作では、出力操作部24Bは、カメラ31BがユーザB1乃至B3を撮影した映像に映されているユーザB1が、ユーザAの指先に重なる位置で時間切り替え表示されるように指示し、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、通信端末12Aから送信されてきたユーザAが映された映像に重畳して、ユーザB1がユーザAの指先に重なる位置となるように、出力操作部24Bから供給される映像が時間切り替え表示されるような出力を行う。
 従って、図7のBに示すように、ディスプレイ32Bでは、通信端末12Aから送信されてきたユーザAの映像が画面の全体に表示され、ユーザAの指先にユーザB1が重なるような位置でユーザB1乃至B3の映像が時間切り替え表示される。即ち、所定の時間間隔で、図6のBの左側に示されているような表示状態と、図6のBの右側に示されているような非表示状態とが交互に行われる。
 このように、リモートモードにおける第4の出力操作では、カメラ31により撮影された映像に映されている注目対象をディスプレイ32に時間切り替え表示することにより、注目対象を認識させることができる。
 図8には、リモートモードにおける第5の出力操作として、注目対象を指示するマークを重畳表示する例が示されている。
 図8のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第5の出力操作では、出力操作部24Bは、カメラ31BがユーザB1乃至B3を撮影した映像に映されているユーザB1にポイントマークPを重畳させる映像加工を行い、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、出力操作部24Bにより映像加工が行われた映像が全画面に表示されるような出力を行う。
 従って、図8のBに示すように、ディスプレイ32Bでは、ポイントマークPがユーザB1に重畳されたユーザB1乃至B3の映像が画面の全体に表示される。このとき、ユーザB1乃至B3の映像は、ディスプレイ32Aに向かって映像を見ているユーザAと同じ位置関係となるように、例えば、カメラ31Bの出力から反転されて表示される。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。
 このように、リモートモードにおける第5の出力操作では、カメラ31により撮影された映像に映されている注目対象にポイントマークPを重畳させてディスプレイ32に表示することにより、注目対象を認識させることができる。
 ところで、カメラ31Bにより撮影された映像にポイントマークPを重畳させてディスプレイ32Bに表示させるためには、例えば、カメラ31Bにより撮影された映像を入力装置21Aに送信し、出力操作部24AにおいてポイントマークPを重畳させる映像加工を行った後、入力装置21Bに送り返すような方法が考えられる。このように、ユーザAにより指差された注目対象に対してポイントマークPを重畳させる処理を入力装置21A側で行うことで、ユーザAが指差したタイミングに一致するように(少ないタイムラグで)ポイントマークPを表示させることができる。しかしながら、このような方法では、映像信号の符号化および復号により遅延が発生することや、伝送量が増大することなどが懸念される。
 そこで、例えば、入力装置21Aでは、送信装置25Aは、トリガ検出部22Aがトリガ信号をオンにしたタイミングで、ディスプレイ32Aに表示されていた映像のタイムスタンプをメタ情報に含めて送信することができる。また、入力装置21Bでは、カメラ31Bにより撮影された映像を一定期間だけ保存しておくことができる。
 これにより、ポイントマークPを重畳させた映像を送り返すことなく、出力操作部24Bが、タイムスタンプに従った映像が表示されるタイミングでポイントマークPを重畳させる映像加工を行うことができる。従って、ユーザAが指差したタイミングに一致するように(少ないタイムラグで)ポイントマークPを表示させることができる。これにより、映像信号の符号化および復号による遅延の発生を回避することができ、伝送量の減少を図ることができる。
 図9には、リモートモードにおける第6の出力操作として、カメラ31の画角を調整した後に、注目対象を指示するマークを重畳表示する例が示されている。また、図10には、リモートモードにおける第6の出力操作を実行するためのコミュニケーションシステム11の変形例が示されている。
 図9のAの左側に示すように、通信端末12A側では、ユーザAは、ディスプレイ32Aの枠(即ち、カメラ31Bの画角の境界近辺)に対して指差しを行うと、注目対象検出部23Aは、ディスプレイ32Aに対して指差された枠の外側に注目対象があると推定する。そして、注目対象検出部23Aは、推定した注目対象がカメラ31Bの画角内に映されるように、カメラ31Bの画角の調整を指示する画角調整コマンドを、送信装置25Aを介して通信端末12Bに送信させる。これに応じて、送信装置25Aは、画角調整コマンドをメタ情報に含めて送信することができる。
 そして、通信端末12Bでは、図10に示すように、受信装置26Bが受信したメタ情報に含まれている画角調整コマンドが、入力装置21に供給される。従って、例えば、カメラ31Bが備える機械制御によって撮影画角を調整するパンまたはチルト(首振り)機構により、画角調整コマンドに基づいて、カメラ31Bの撮影画角を調整することができる。なお、通信端末12Aにおいても同様に、通信端末12Bから送信される画角調整コマンドに基づいて、カメラ31Aの撮影画角を調整することができる。
 これに応じて、図9のBの左側に破線で示すように設定されていたカメラ31Bの画角が、注目対象検出部23Aからの画角調整コマンドに従って、図9のBの右側に破線で示すように調整される。そして、画角外にあった物体Cがカメラ31Bにより映されるようになり、その映像が通信端末12Aに送信される。
 従って、図9のAの右側に示すように、ディスプレイ32Aに物体Cが表示され、ユーザAは、物体Cに対して指差しを行う。そして、注目対象検出部23Aは、ディスプレイ32Aに映されている映像内の物体Cを注目対象として特定して、物体Cの位置を示す対象位置情報を出力操作部24Aに供給する。
 これにより、出力操作部24Aは、対象位置情報に従って、リモートモードを出力モードとして選択し、リモートモードを示す出力モード情報を、対象位置情報とともに送信装置25Aに供給する。従って、送信装置25Aは、出力モード情報および対象位置情報を少なくとも含むメタ情報を、カメラ31AがユーザAを撮影することにより得られる映像信号とともに通信端末12Bに送信する。
 一方、通信端末12B側において、出力操作部24Bは、通信端末12Aから送信されてきた出力モード情報に従って、出力モードをリモートモードに切り替える。また、出力操作部24Bは、通信端末12Aから送信されてきた対象位置情報に基づいて、物体Cが注目対象であることを特定する。
 そして、リモートモードにおける第6の出力操作では、出力操作部24Bは、カメラ31Bが撮影した映像に映されている物体CにポイントマークPを重畳させる映像加工を行い、その映像を出力装置27Bに供給する。これにより、出力装置27Bは、出力操作部24Bにより映像加工が行われた映像が全画面に表示されるような出力を行う。
 従って、図9のBの右側に示すように、ディスプレイ32Bでは、ポイントマークPが物体Cに重畳された映像が画面の全体に表示される。このとき、カメラ31Bにより撮影された映像は、ディスプレイ32Aに向かって映像を見ているユーザAと同じ位置関係となるように、例えば、カメラ31Bの出力から反転されて表示される。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。なお、カメラ31Bの画角は、パンまたはチルトを行うことにより調整する他、例えば、ズームアウトすることにより画角を広げたり、広角映像のクロップ位置を変更したりすることにより調整することができる。
 このように、リモートモードにおける第6の出力操作では、カメラ31の画角を調整して注目対象が映された状態とした後に、カメラ31により撮影された映像に映されている注目対象にポイントマークPを重畳させてディスプレイ32に表示することにより、注目対象を認識させることができる。
 図11には、リモートモードにおける第7の出力操作として、指差し動作を行うユーザの向きを調整して表示する例が示されている。
 図11のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第7の出力操作では、図4の第1の出力操作と同様に、ディスプレイ32Bでは、図11のBに示すように、ポイントマークPがユーザB1に重畳されたユーザB1乃至B3の映像が、ピクチャインピクチャ形式で表示される。
 このとき、例えば、カメラ31Aおよびディスプレイ32Aの位置関係などによって、ディスプレイ32Aに映されているユーザB1を指差しているユーザAをカメラ31Aにより撮影した映像をディスプレイ32Bに表示したときに、映像内のユーザAが指差した方向が、ユーザB1に向かっていないことがある。そこで、例えば、通信端末12Aが、ユーザAが立体的に表されるように3Dモデル化した3Dモデル情報をメタ情報に含めて送信することで、通信端末12B側において、ユーザAの向きを調整して表示することができる。
 即ち、図11のBの左側に示すように、ディスプレイ32Bに表示されているユーザAが指差す方向がユーザB1に向かっていない場合、リモートコントローラなどを利用してユーザAの向きを変更させることができる。即ち、3Dモデル情報に従ってレンダリングされたユーザAに対する操作を行って、図11のBの右側に示すように、ディスプレイ32Bに表示されるユーザAが指差す方向がユーザB1に向かうように、ユーザAの向きを調整して表示することができる。このように、ユーザAが指差す方向がユーザB1に向かうようにすることで、ユーザAが映されている映像を見るだけで、ユーザB1が指差されていることを直観的に認識することができる。
 なお、例えば、カメラ31Bにより撮影された映像に基づいてユーザB1の位置を認識し、自動的に、ユーザAが指差す方向がユーザB1に向かうような調整を行って表示するようにしてもよい。
 このように、リモートモードにおける第7の出力操作では、ディスプレイ32に表示されるユーザの向きを調整することにより、より直観的に注目対象を認識させることができる。
 ここで、図12乃至図14を参照して、複数のユーザが、それぞれの通信端末12を利用してコミュニケーションを行う場合のリモートモードの出力操作について説明する。
 例えば、図12に示すように、ユーザAが、4人のユーザB1乃至B4を対象としてコミュニケーションを行う場合、図12のAに示すように、ディスプレイ32Aを4分割して、ユーザB1乃至B4それぞれが映された映像が表示される。また、図12のBに示すように、ユーザB1乃至B4それぞれのディスプレイ32B-1乃至ディスプレイ32B-4には、ユーザAが映された映像が表示される。
 このような状態でコミュニケーションを行うときに、図12のAに示すように、ユーザAが、ディスプレイ32Aに映されているユーザB1を指差したとする。この場合、図12のBに示すように、ディスプレイ32B-1乃至32B-4には、ユーザB1乃至B4全員をそれぞれ指差しているようなユーザAが映されることになり、その映像だけでは、ユーザAがユーザB1を指差していることを認識するのは困難である。
 そこで、ユーザAが、4人のユーザB1乃至B4を対象としてコミュニケーションを行う場合、図13または図14に示すようなリモートモードにおける出力操作が行われる。
 図13には、リモートモードにおける第8の出力操作として、複数のユーザのうちの、注目対象のユーザのみにマークを表示する例が示されている。
 図13のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第8の出力操作では、出力操作部24Aは、ユーザB1の通信端末12Bに対して送信するメタ情報にのみ、複数のユーザの中で注目対象として指示されたことを示す指示情報を含めて、そのメタ情報を送信させる。一方、ユーザB2乃至B4の通信端末12Bに対して送信するメタ情報には、指示情報は含まれない。
 これにより、ユーザB1の通信端末12Bの出力操作部24Bは、注目対象として指示されたことを示す指示情報に従って、ディスプレイ32B-1の画面の全体を囲うような枠マークQを表示するように出力操作を行うことができる。
 従って、図13のBに示すように、ユーザB1のディスプレイ32B-1では、画面の全体を囲うような枠マークQが表示される一方、ユーザB1以外のユーザB2乃至B4のディスプレイ32B-2乃至32B-4では、枠マークQの表示は行われない。これにより、ユーザB1は、ユーザAにより指差されたことを認識することができるとともに、ユーザB2乃至B4は、ユーザAにより指差されていないことを認識することができる。
 このように、リモートモードにおける第8の出力操作では、複数のユーザのうち、注目対象とされたユーザにのみマークを表示することにより、注目対象を認識させることができる。
 図14には、リモートモードにおける第9の出力操作として、複数のユーザのうちの、注目対象のユーザのみが指差されているように、指差し動作を行うユーザの向きを調整して表示する例が示されている。
 図14のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに表示されているユーザB1に対して指差しを行うと、図4を参照して上述したように、通信端末12B側において、出力モードがリモートモードに切り替えられる。
 そして、リモートモードにおける第9の出力操作では、出力操作部24Aは、ユーザB1の通信端末12Bに対して送信するメタ情報にのみ、複数のユーザの中で注目対象として指示されたことを示す指示情報を含めて、そのメタ情報を送信させる。一方、ユーザB2乃至B4の通信端末12Bに対して送信するメタ情報には、指示情報は含まれない。また、このとき、通信端末12Aは、ユーザB1乃至B4それぞれの通信端末12Bに対して、ユーザAが立体的に表されるように3Dモデル化した3Dモデル情報をメタ情報に含めて送信する。
 これにより、ユーザB1の通信端末12Bの出力操作部24Bは、注目対象として指示されたことを示す指示情報に従って、ディスプレイ32B-1に表示されるユーザAが指差す方向がユーザB1に向かうように、ユーザAの向きを調整して表示するように出力操作を行うことができる。一方、ユーザB2乃至B4それぞれの通信端末12Bの出力操作部24Bは、ディスプレイ32B-2乃至32B-4に表示されるユーザAが指差す方向が、それぞれユーザB2乃至B4に向かわないように、ユーザAの向きを調整して表示するように出力操作を行う。
 従って、図14のBに示すように、ユーザB1のディスプレイ32B-1のみ、ユーザAが指差す方向がユーザB1に向かうように、ユーザAの向きを調整して表示することができる。一方、ユーザB2乃至B4のディスプレイ32B-2乃至32B-4では、ユーザAが指差す方向が、それぞれユーザB2乃至B4以外となるように、ユーザAの向きを調整して表示することができる。これにより、ユーザB1は、ユーザAにより指差されたことを認識することができるとともに、ユーザB2乃至B4は、ユーザAにより指差されていないことを認識することができる。
 このように、リモートモードにおける第9の出力操作では、複数のユーザのうち、注目対象とされたユーザのみが指差されるように、ユーザの向きを調整して表示することにより、注目対象を認識させることができる。
 以上のように、リモートモードでは、ディスプレイ32Bに表示される映像に対する映像操作(例えば、ポイントマークPを重畳させる映像加工や、透過表示、時間切り替え表示、ユーザAの向きの調整など)を行わせる出力操作が行われる。これにより、通信端末12AのユーザAにより指差された注目対象を、通信端末12BのユーザBに認識させることができ、ユーザAおよびユーザBは、互いに円滑なコミュニケーションを行うことができる。
 <ローカルモード>
 図15乃至図17を参照して、ローカルモードにおいて注目対象を認識させる出力操作について説明する。
 例えば、図15に示すように、ローカルモードの場合、ユーザAが指差した注目対象である物体Cは、ディスプレイ32Aを向いているユーザAの正面からユーザAを撮影するカメラ31Aの画角内にある。このため、通常モードと同様に、カメラ31AがユーザAとともに物体Cを撮影した映像をディスプレイ32Bに映すだけで、物体Cを注目対象としてユーザB1乃至B3に認識させることができる。
 これに対し、ユーザAが指差した注目対象が、カメラ31Aの画角内にあったとしても、カメラ31Aの死角となる状況がある。そこで、出力操作部24Aは、ユーザAが指差した注目対象がカメラ31Aの死角となっていると判断した場合、出力モードをローカルモードに切り替えて、図16および図17を参照して説明するような出力操作を行う。
 ここで、ローカルモードにおいて、注目対象がカメラ31Aの死角となっている場合には、ユーザAの視線に応じた方向の映像を撮影可能な、例えば、眼鏡型のデバイスとしてユーザAが装着するウェアラブルカメラ33も入力装置21Aとして使用される。
 図16には、ローカルモードにおける出力操作の第1の例が示されている。
 図16のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに映されている映像外であって、かつ、カメラ31Aにより撮影可能な画角内にあるタブレットTの表示画面に対して指差し動作を行うと、注目対象検出部23Aは、タブレットTの表示画面を注目対象として特定する。そして、注目対象検出部23Aは、タブレットTの位置を示す対象位置情報を出力操作部24Aに供給する。
 これにより、出力操作部24Aは、対象位置情報に従って、ローカルモードを出力モードとして選択し、ローカルモードを示す出力モード情報を送信装置25Aに供給する。このとき、出力操作部24Aは、タブレットTの表示画面がユーザA側を向いていて、タブレットTの表示画面がカメラ31Aの死角となっていることを認識する。これに従い、出力操作部24Aは、対象位置情報に基づいて、ウェアラブルカメラ33により撮影された映像に映されているタブレットTの表示画面にポイントマークPを重畳させる映像加工を行って、その映像を送信装置25Aに供給して送信させる。
 一方、通信端末12B側において、出力操作部24Bは、通信端末12Aから送信されてきた出力モード情報に従って、出力モードをローカルモードに切り替え、出力装置27Bは、通信端末12Aから送信されてきた映像を表示する。
 従って、図16のBに示すように、ディスプレイ32Bには、ウェアラブルカメラ33により撮影された映像に映されているタブレットTの表示画面にポイントマークPを重畳した映像が画面の全体に表示される。このとき、ディスプレイ32B内に表示されるディスプレイ32Aに映されているユーザB1乃至B3の映像は、ユーザAが見たままとなっている。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。
 このように、ローカルモードにおける出力操作では、ウェアラブルカメラ33により撮影された映像に映されている注目対象にポイントマークPを重畳させてディスプレイ32に表示することにより、注目対象を認識させることができる。
 図17には、ローカルモードにおける出力操作の第2の例が示されている。
 図17のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに映されている映像外であって、かつ、カメラ31Aにより撮影可能な画角内にある物体C1に対して指差し動作を行うと、注目対象検出部23Aは、物体C1を注目対象として特定する。そして、注目対象検出部23Aは、物体C1の位置を示す対象位置情報を出力操作部24Aに供給する。
 これにより、出力操作部24Aは、対象位置情報に従って、ローカルモードを出力モードとして選択し、ローカルモードを示す出力モード情報を送信装置25Aに供給する。このとき、出力操作部24Aは、2つの物体C1および物体C2がユーザAによってカメラ31Aに対して隠れた位置にあって、物体C1がカメラ31Aの死角となっていることを認識する。これに従い、出力操作部24Aは、対象位置情報に基づいて、ウェアラブルカメラ33により撮影された映像に映されている物体C1にポイントマークPを重畳させる映像加工を行って、その映像を送信装置25Aに供給して送信させる。
 一方、通信端末12B側において、出力操作部24Bは、通信端末12Aから送信されてきた出力モード情報に従って、出力モードをローカルモードに切り替え、出力装置27Bは、通信端末12Aから送信されてきた映像を表示する。
 従って、図17のBに示すように、ディスプレイ32Bには、ウェアラブルカメラ33により撮影された映像に映されている2つの物体C1および物体C2のうち、注目対象である物体C1にポイントマークPを重畳した映像が画面の全体に表示される。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。
 このように、ローカルモードにおける出力操作では、ウェアラブルカメラ33により撮影された映像に映されている注目対象にポイントマークPを重畳させてディスプレイ32に表示することにより、注目対象を認識させることができる。
 以上のように、ローカルモードでは、カメラ31以外のウェアラブルカメラ33により撮影された映像に映されている注目対象に対してポイントマークPを重畳させる出力操作が行われる。これにより、通信端末12AのユーザAにより指差された注目対象を、通信端末12BのユーザBに認識させることができ、ユーザAおよびユーザBは、互いに円滑なコミュニケーションを行うことができる。
 なお、ローカルモードでは、注目対象がカメラ31Aの死角となっていることが認識されたとき、ウェアラブルカメラ33を使用する他、例えば、ユーザAが居る部屋に設置されている他のカメラを使用してもよい。この場合、カメラ31A以外のカメラにより撮影された映像に映されている注目対象にポイントマークPを重畳するような映像加工が行われて、その映像がディスプレイ32Bに表示される。
 <ローカルブラインドモード>
 図18を参照して、ローカルブラインドモードにおいて注目対象を認識させる出力操作について説明する。
 ローカルブラインドモードでは、図16および図17と同様に、ウェアラブルカメラ33が入力装置21Aとして使用される。
 図18のAに示すように、通信端末12A側において、ユーザAが、ディスプレイ32Aに映されている映像外であって、かつ、カメラ31Aにより撮影可能な画角外となる所定箇所に対して指差し動作を行うと、注目対象検出部23Aは、その所定箇所を注目対象として特定する。そして、注目対象検出部23Aは、注目対象を示す対象位置情報を出力操作部24Aに供給する。
 これにより、出力操作部24Aは、対象位置情報に従って、ローカルブラインドモードを出力モードとして選択し、ローカルブラインドモードを示す出力モード情報を送信装置25Aに供給する。このとき、出力操作部24Aは、注目対象がカメラ31Aの死角となっていることを認識する。これに従い、出力操作部24Aは、対象位置情報に基づいて、ウェアラブルカメラ33により撮影された映像に映されている注目対象にポイントマークPを重畳させる映像加工を行って、その映像を送信装置25Aに供給して送信させる。
 一方、通信端末12B側において、出力操作部24Bは、通信端末12Aから送信されてきた出力モード情報に従って、出力モードをローカルブラインドモードに切り替え、出力装置27Bは、通信端末12Aから送信されてきた映像を表示する。
 従って、図18のBに示すように、ディスプレイ32Bには、ウェアラブルカメラ33により撮影された映像に映されている注目対象にポイントマークPを重畳した映像が画面の全体に表示される。このとき、ディスプレイ32B内に表示されるディスプレイ32Aに映されているユーザB1乃至B3の映像は、ユーザAが見たままとなっている。なお、ポイントマークPは、例えば、赤色などの目立つような色で表示したり、注意を引くような点滅表示したりすることができる。また、ポイントマークPとして任意の形状を使用してもよい。
 以上のように、ローカルブラインドモードでは、カメラ31以外のウェアラブルカメラ33により撮影された映像に映されている注目対象に対してポイントマークPを重畳させる出力操作が行われる。これにより、通信端末12AのユーザAにより指差された注目対象を、通信端末12BのユーザBに認識させることができ、ユーザAおよびユーザBは、互いに円滑なコミュニケーションを行うことができる。
 なお、ローカルブラインドモードでは、注目対象がカメラ31Aの死角となっていることが認識されたとき、ウェアラブルカメラ33を使用する他、例えば、ユーザAが居る部屋に設置されている他のカメラを使用してもよい。この場合、カメラ31A以外のカメラにより撮影された映像に映されている注目対象にポイントマークPを重畳するような映像加工が行われて、その映像がディスプレイ32Bに表示される。
 <通信処理およびコミュニケーション処理>
 図19は、コミュニケーションシステム11における通信処理を説明するフローチャートである。
 ステップS11において、通信端末12Aおよび通信端末12Bは、ネットワークを介して互いに通信の接続を確立する通信接続処理を行う。
 ステップS12において、通信端末12Aおよび通信端末12Bは、コミュニケーション処理を開始するためのコミュニケーション準備処理として、通信端末12Aおよび通信端末12Bそれぞれの端末情報を交換する。例えば、通信端末12Aおよび通信端末12Bは、ディスプレイ32のサイズおよびカメラ31の仕様(画角や配置など)を、端末情報として交換する。
 ステップS13において、通信端末12Aおよび通信端末12Bそれぞれのディスプレイ32に、互いに相手側のカメラ31で撮影された映像が表示され、コミュニケーション処理(図20のフローチャート参照)が行われる。
 ステップS14において、通信端末12Aおよび通信端末12Bは、コミュニケーション処理を終了するか否かを判定し、コミュニケーション処理を終了すると判定されるまでステップS13のコミュニケーション処理が継続して行われる。
 例えば、通信端末12Aおよび通信端末12Bそれぞれのユーザが、コミュニケーション処理の終了を指示する操作を行うと、ステップS14において、コミュニケーション処理を終了すると判定され、処理はステップS15に進む。
 ステップS15において、通信端末12Aおよび通信端末12Bは、互いに通信を遮断する通信遮断処理を行った後、通信処理は終了される。
 以上のように、通信端末12Aおよび通信端末12Bは、コミュニケーション準備処理で端末情報を交換することで、コミュニケーション処理において、注目対象を正確に認識させるように出力操作を行うことができる。
 図20は、図19のステップS13において行われるコミュニケーション処理を説明するフローチャートである。なお、図20では、通信端末12A側において行われるコミュニケーション処理について説明するが、通信端末12B側においても同様のコミュニケーション処理が行われる。
 ステップS21において、トリガ検出部22Aは、入力装置21Aから入力される映像信号から、ユーザAが指差し動作を行ったか否かを判定する。
 ステップS21において、トリガ検出部22Aが、ユーザAが指差し動作を行っていないと判定した場合、処理はステップS22に進む。
 ステップS22において、トリガ検出部22Aは、注目対象検出部23Aに供給するトリガ信号の出力をオフにする。このトリガ信号に従って、注目対象検出部23Aは、注目対象を検出する処理を行わずに、出力操作部24Aに対する対象位置情報の供給を停止する。
 ステップS23において、出力操作部24Aは、注目対象検出部23Aから対象位置情報の供給が停止しているのに従い、出力モードを通常モードに切り替える。
 一方、ステップS21において、トリガ検出部22Aが、ユーザAが指差し動作を行ったと判定した場合、処理はステップS24に進む。
 ステップS24において、トリガ検出部22Aは、注目対象検出部23Aに供給するトリガ信号の出力をオンにする。このトリガ信号に従って、注目対象検出部23Aは、入力装置21Aから入力される映像信号から注目対象を検出する処理を行い、注目対象の位置を示す対象位置情報を出力操作部24Aに供給する。
 ステップS25において、出力操作部24Aは、ステップS24で注目対象検出部23Aから供給される対象位置情報に基づいて、リモートモード、ローカルモード、およびローカルブラインドモードのいずれを、出力モードとして選択するかを判定する。
 ステップS25において、出力操作部24Aが、リモートモードを出力モードとして選択したと判定した場合、処理はステップS26に進む。
 ステップS26において、出力操作部24Aは、リモートモードを示す出力モード情報を、ステップS24で注目対象検出部23Aから供給された対象位置情報とともに送信装置25Aに供給する。これに従い、送信装置25Aは、入力装置21Aから入力される映像信号とともに、リモートモードを示す出力モード情報と対象位置情報とを少なくとも含むメタ情報を、通信端末12Bに送信する。
 一方、ステップS25において、出力操作部24Aが、ローカルモードを出力モードとして選択したと判定した場合、処理はステップS27に進む。
 ステップS27において、出力操作部24Aは、ローカルモードを示す出力モード情報を、ステップS24で注目対象検出部23Aから供給された対象位置情報とともに送信装置25Aに供給する。これに従い、送信装置25Aは、入力装置21Aから入力される映像信号とともに、ローカルモードを示す出力モード情報と対象位置情報とを少なくとも含むメタ情報を、通信端末12Bに送信する。
 一方、ステップS25において、出力操作部24Aが、ローカルブラインドモードを出力モードとして選択したと判定した場合、処理はステップS28に進む。
 ステップS28において、出力操作部24Aは、ローカルブラインドモードを示す出力モード情報を、ステップS24で注目対象検出部23Aから供給された対象位置情報とともに送信装置25Aに供給する。これに従い、送信装置25Aは、入力装置21Aから入力される映像信号とともに、ローカルブラインドモードを示す出力モード情報と対象位置情報とを少なくとも含むメタ情報を、通信端末12Bに送信する。
 ステップS23、ステップS26、ステップS27、またはステップS28の処理後、処理はステップS29に進み、受信装置26Aは、通信端末12Bから映像信号とともに送信されてくるメタ情報に含まれている出力モード情報を受信したか否かを判定する。
 ステップS29において、受信装置26Aが出力モード情報を受信していないと判定した場合、処理はステップS30に進む。
 ステップS30において、出力操作部24Aは、受信装置26Aが出力モード情報を受信していないのに従い、出力モードを通常モードに切り替える。
 一方、ステップS29において、受信装置26Aが出力モード情報を受信したと判定した場合、受信装置26Aは、メタ情報に含まれている出力モード情報および対象位置情報を出力操作部24Aに供給し、処理はステップS31に進む。
 ステップS31において、出力操作部24Aは、受信装置26Aから供給される出力モード情報が、出力モードとして、リモートモード、ローカルモード、およびローカルブラインドモードのいずれを示しているかを判定する。
 ステップS31において、出力操作部24Aが、出力モード情報がリモートモードを示していると判定した場合、処理はステップS32に進む。
 ステップS32において、出力操作部24Aは、出力モード情報に従って、通信端末12AのユーザBに注目対象を認識させる出力操作の出力モードを、リモートモードに切り替える。
 ステップS33において、出力操作部24Aは、受信装置26Aから出力モード情報とともに供給される対象位置情報に基づいて、図4乃至図14を参照して上述したようなリモートモードで出力操作を行う。
 一方、ステップS31において、出力操作部24Aが、出力モード情報がローカルモードを示していると判定した場合、処理はステップS34に進む。
 ステップS34において、出力操作部24Aは、出力モード情報に従って、通信端末12AのユーザBに注目対象を認識させる出力操作の出力モードを、ローカルモードに切り替える。
 ステップS35において、出力操作部24Aは、受信装置26Aから出力モード情報とともに供給される対象位置情報に基づいて、図16および図17を参照して上述したようなローカルモードで出力操作を行う。
 一方、ステップS31において、出力操作部24Aが、出力モード情報がローカルブラインドモードを示していると判定した場合、処理はステップS36に進む。
 ステップS36において、出力操作部24Aは、出力モード情報に従って、通信端末12AのユーザBに注目対象を認識させる出力操作の出力モードを、ローカルブラインドモードに切り替える。
 ステップS37において、出力操作部24Aは、受信装置26Aから出力モード情報とともに供給される対象位置情報に基づいて、図18を参照して上述したようなローカルブラインドモードで出力操作を行う。
 そして、ステップS30、ステップS33、ステップS35、またはステップS37の処理後、処理は図19のステップS14に戻り、上述したようにコミュニケーション処理を終了すると判定されるまで継続してコミュニケーション処理が行われる。
 以上のように、コミュニケーションシステム11は、注目対象の位置に従って、その注目対象を認識させる出力操作を行う際の出力モードを切り替えることができるので、注目対象の位置に応じた適切な出力操作を行うことができる。これにより、互いのユーザは、相手側のユーザが指差した注目対象を容易に認識することができ、より円滑なコミュニケーションを行うことができる。
 なお、本実施の形態では、ユーザが注目対象を指差す動作を例に説明を行ったが、指差しに限定されない。例えば、注目対象検出部23は、ユーザが手を広げたことを検出したとき、その手の近傍に注目対象があるとして、ユーザの手の位置の近傍にあるものを注目対象として検出することができる。または、注目対象検出部23は、ユーザの視線を検出し、その視線の先にあるものを注目対象として検出することができる。
 さらに、通信端末12では、入力装置21Aとして音声を入力するマイクロホンを使用することができる。この場合、トリガ検出部22は、マイクロホンから入力されるユーザの音声から、音声認識技術を使用して、特定のフレーズ(例えば、「見て」や「ご覧下さい」、「注目」など)を認識する。そして、トリガ検出部22は、特定のフレーズを認識したタイミングでトリガ信号をオンにする。これにより、注目対象検出部23Aは、そのタイミングでユーザが指差したり、視線を向けたりしているものを注目対象として検出することができる。
 また、例えば、コミュニケーションシステム11を利用したコミュニケーションでプレゼンテーションソフトが使用されているときに、トリガ検出部22Aは、途中でスライドショーを閉じたタイミングでトリガ信号をオンにしてもよい。さらに、トリガ検出部22Aは、通信端末12に予め用意された所定の操作手段(ボタンなど)に対する操作が行われたタイミングでトリガ信号をオンにしてもよい。
 なお、本実施の形態においては、指差し動作を行ったユーザ側の通信端末12において注目対象を検出する処理を行って、出力モードを切り替える処理を行った後、出力モード情報を含むメタ情報を送信する構成について説明を行っている。これに対し、例えば、指差し動作を行ったユーザ側の通信端末12のカメラ31で撮影された映像を送信し、その映像を受信した通信端末12において注目対象を検出する処理を行って、出力モードを切り替える処理を行うようにしてもよい。この場合、その映像を受信した通信端末12において、受信装置26からトリガ検出部22に映像を供給して、トリガを検出する処理も行うことができる。なお、送信側の通信端末12においてトリガを検出する処理を行う場合、受信装置26からトリガ検出部22に映像を供給するように構成する必要はない。
 また、コミュニケーションシステム11では、これらの各処理について、通信端末12Aおよび通信端末12Bのどちらかで全てを行う他、それぞれで一部を分担して行うように構成してもよい。
 また、通信端末12では、出力装置27Aとして音声を出力するスピーカを使用することができる。この場合、例えば、映像に映されている物体を認識する物体認識処理により認識された物体の名称などを、スピーカから音声で出力することができる。
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(通信方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
 バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
 以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザが指示した注目対象を検出する注目対象検出部と、
 前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える出力操作部と
 を備える通信装置。
(2)
 前記ユーザが前記注目対象を指示する動作を行ったか否かを検出し、その動作が行われたタイミングを示すトリガ信号を前記注目対象検出部に供給するトリガ検出部
 をさらに備え、
 前記注目対象検出部は、前記トリガ信号により前記ユーザが前記注目対象を指示する動作を行ったことが示されると、前記ユーザの動作に基づいて前記注目対象を検出する処理を行う
 上記(1)に記載の通信装置。
(3)
 前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像内である場合、前記出力モードを、前記他のユーザ側の前記表示装置に表示される映像に対する所定の映像操作を行わせる出力操作を行うリモートモードに切り替える処理を行い、前記注目対象の位置を示す対象位置情報とともに、前記リモートモードを示す出力モード情報を送信させる
 上記(1)または(2)に記載の通信装置。
(4)
 前記出力操作部は、前記他のユーザ側から前記リモートモードを示す出力モード情報と前記対象位置情報とが送信されてきた場合、前記リモートモードで前記対象位置情報に基づいて、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
 上記(3)に記載の通信装置。
(5)
 前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像外であって、かつ、前記表示装置を向いている前記ユーザの正面から前記ユーザを撮影する撮影装置の画角内である場合、前記出力モードを、前記撮影装置以外の他の撮影装置により撮影された映像に映されている前記注目対象に対する所定の映像操作を行わせる出力操作を行うローカルモードに切り替える処理を行い、前記他の撮影装置により撮影された映像とともに、前記ローカルモードを示す出力モード情報を送信させる
 上記(1)から(4)までのいずれかに記載の通信装置。
(6)
 前記出力操作部は、前記他のユーザ側から前記ローカルモードを示す出力モード情報と前記他の撮影装置により撮影された映像とが送信されてきた場合、前記ローカルモードで前記注目対象に対して所定のマークを重畳させる映像加工が行われた前記映像により、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
 上記(5)に記載の通信装置。
(7)
 前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像外であって、かつ、前記表示装置を向いている前記ユーザの正面から前記ユーザを撮影する撮影装置の画角外である場合、前記出力モードを、前記撮影装置以外の他の撮影装置により撮影された映像に映されている前記注目対象に対する所定の映像操作を行わせるローカルブラインドモードに切り替える処理を行い、前記他の撮影装置により撮影された映像とともに、前記ローカルブラインドモードを示す出力モード情報を送信させる
 上記(1)から(6)までのいずれかに記載の通信装置。
(8)
 前記出力操作部は、前記他のユーザ側から前記ローカルブラインドモードを示す出力モード情報と前記他の撮影装置により撮影された映像とが送信されてきた場合、前記ローカルブラインドモードで前記注目対象に対して所定のマークを重畳させる映像加工が行われた前記映像により、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
 上記(7)に記載の通信装置。
(9)
 前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に前記他のユーザ側の映像を表示させ、その表示させた前記映像に映されている前記注目対象に対して所定のマークを重畳表示させる映像加工を行う
 上記(3)に記載の通信装置。
(10)
 前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の映像において前記注目対象が写されている領域を切り出す映像加工を行い、前記他のユーザ側の前記表示装置に表示されている前記ユーザに対する所定箇所に前記切り出した映像を表示させる出力操作を行う
 上記(3)に記載の通信装置。
(11)
 前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に表示されている前記ユーザに重畳して前記他のユーザ側の映像を透過表示させ、その透過表示させた前記映像に映されている前記注目対象を、前記ユーザに対する所定箇所に配置させる映像加工を行う
 上記(3)に記載の通信装置。
(12)
 前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に表示されている前記ユーザに重畳して前前記他のユーザ側の映像を時間切り替え表示させ、その時間切り替え表示させた前記映像に映されている前記注目対象を、前記ユーザに対する所定箇所に配置させる映像加工を行う
 上記(3)に記載の通信装置。
(13)
 前記出力操作部は、前記リモートモードにおいて、前記ユーザが前記注目対象を指示したタイミングを示す情報を、前記出力モード情報および前記対象位置情報とともに送信する
 上記(3)に記載の通信装置。
(14)
 前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の撮影装置の画角を調整して、前記注目対象が映された状態とした後に、前記他のユーザ側の撮影装置により撮影される映像に映されている前記注目対象に対して所定のマークを重畳表示させる映像加工を行う
 上記(3)に記載の通信装置。
(15)
 前記出力操作部は、前記リモートモードにおいて、前記ユーザが前記注目対象を指示している方向が、前記他のユーザ側の前記注目対象に向かうように、前記他のユーザの前記表示装置に表示される前記ユーザの向きを調整させる
 上記(3)に記載の通信装置。
(16)
 前記出力操作部は、前記ローカルモードにおいて、前記撮影装置の画角内である前記注目対象の前記ユーザにより指示された箇所が前記ユーザ側を向いているとき、前記他の撮影装置により撮影された映像において、その個所に対してマークを重畳させる映像加工を行う
 上記(5)に記載の通信装置。
(17)
 前記出力操作部は、前記ローカルモードにおいて、前記撮影装置の画角内である前記注目対象が前記撮影装置に対して隠れた位置にあるとき、前記他の撮影装置により撮影された映像において、前記注目対象に対してマークを重畳させる映像加工を行う
 上記(5)に記載の通信装置。
(18)
 前記注目対象検出部は、前記ユーザが前記注目対象に対して指差し動作をしたときに、前記ユーザが指差した方向の延長線上にあるものを注目対象として検出する
 上記(1)から(17)までのいずれかに記載の通信装置。
(19)
 ユーザが指示した注目対象を検出し、
 前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える
 ステップを含む通信方法。
(20)
 ユーザが指示した注目対象を検出し、
 前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える
 ステップを含む通信処理をコンピュータに実行させるプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 11 コミュニケーションシステム, 12 通信端末, 21 入力装置, 22 トリガ検出部, 23 注目対象検出部, 24 出力操作部, 25 送信装置, 26 受信装置, 27 出力装置, 31 カメラ, 32 ディスプレイ, 33 ウェアラブルカメラ

Claims (20)

  1.  ユーザが指示した注目対象を検出する注目対象検出部と、
     前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える出力操作部と
     を備える通信装置。
  2.  前記ユーザが前記注目対象を指示する動作を行ったか否かを検出し、その動作が行われたタイミングを示すトリガ信号を前記注目対象検出部に供給するトリガ検出部
     をさらに備え、
     前記注目対象検出部は、前記トリガ信号により前記ユーザが前記注目対象を指示する動作を行ったことが示されると、前記ユーザの動作に基づいて前記注目対象を検出する処理を行う
     請求項1に記載の通信装置。
  3.  前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像内である場合、前記出力モードを、前記他のユーザ側の前記表示装置に表示される映像に対する所定の映像操作を行わせる出力操作を行うリモートモードに切り替える処理を行い、前記注目対象の位置を示す対象位置情報とともに、前記リモートモードを示す出力モード情報を送信させる
     請求項1に記載の通信装置。
  4.  前記出力操作部は、前記他のユーザ側から前記リモートモードを示す出力モード情報と前記対象位置情報とが送信されてきた場合、前記リモートモードで前記対象位置情報に基づいて、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
     請求項3に記載の通信装置。
  5.  前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像外であって、かつ、前記表示装置を向いている前記ユーザの正面から前記ユーザを撮影する撮影装置の画角内である場合、前記出力モードを、前記撮影装置以外の他の撮影装置により撮影された映像に映されている前記注目対象に対する所定の映像操作を行わせる出力操作を行うローカルモードに切り替える処理を行い、前記他の撮影装置により撮影された映像とともに、前記ローカルモードを示す出力モード情報を送信させる
     請求項1に記載の通信装置。
  6.  前記出力操作部は、前記他のユーザ側から前記ローカルモードを示す出力モード情報と前記他の撮影装置により撮影された映像とが送信されてきた場合、前記ローカルモードで前記注目対象に対して所定のマークを重畳させる映像加工が行われた前記映像により、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
     請求項5に記載の通信装置。
  7.  前記出力操作部は、前記注目対象の位置が、前記他のユーザ側の映像を表示する表示装置の映像外であって、かつ、前記表示装置を向いている前記ユーザの正面から前記ユーザを撮影する撮影装置の画角外である場合、前記出力モードを、前記撮影装置以外の他の撮影装置により撮影された映像に映されている前記注目対象に対する所定の映像操作を行わせるローカルブラインドモードに切り替える処理を行い、前記他の撮影装置により撮影された映像とともに、前記ローカルブラインドモードを示す出力モード情報を送信させる
     請求項1に記載の通信装置。
  8.  前記出力操作部は、前記他のユーザ側から前記ローカルブラインドモードを示す出力モード情報と前記他の撮影装置により撮影された映像とが送信されてきた場合、前記ローカルブラインドモードで前記注目対象に対して所定のマークを重畳させる映像加工が行われた前記映像により、前記他のユーザが指示した前記注目対象を前記ユーザに認識させる出力操作を行う
     請求項7に記載の通信装置。
  9.  前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に前記他のユーザ側の映像を表示させ、その表示させた前記映像に映されている前記注目対象に対して所定のマークを重畳表示させる映像加工を行う
     請求項3に記載の通信装置。
  10.  前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の映像において前記注目対象が写されている領域を切り出す映像加工を行い、前記他のユーザ側の前記表示装置に表示されている前記ユーザに対する所定箇所に前記切り出した映像を表示させる出力操作を行う
     請求項3に記載の通信装置。
  11.  前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に表示されている前記ユーザに重畳して前記他のユーザ側の映像を透過表示させ、その透過表示させた前記映像に映されている前記注目対象を、前記ユーザに対する所定箇所に配置させる映像加工を行う
     請求項3に記載の通信装置。
  12.  前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の前記表示装置に表示されている前記ユーザに重畳して前前記他のユーザ側の映像を時間切り替え表示させ、その時間切り替え表示させた前記映像に映されている前記注目対象を、前記ユーザに対する所定箇所に配置させる映像加工を行う
     請求項3に記載の通信装置。
  13.  前記出力操作部は、前記リモートモードにおいて、前記ユーザが前記注目対象を指示したタイミングを示す情報を、前記出力モード情報および前記対象位置情報とともに送信する
     請求項3に記載の通信装置。
  14.  前記出力操作部は、前記リモートモードにおいて、前記他のユーザ側の撮影装置の画角を調整して、前記注目対象が映された状態とした後に、前記他のユーザ側の撮影装置により撮影される映像に映されている前記注目対象に対して所定のマークを重畳表示させる映像加工を行う
     請求項3に記載の通信装置。
  15.  前記出力操作部は、前記リモートモードにおいて、前記ユーザが前記注目対象を指示している方向が、前記他のユーザ側の前記注目対象に向かうように、前記他のユーザの前記表示装置に表示される前記ユーザの向きを調整させる
     請求項3に記載の通信装置。
  16.  前記出力操作部は、前記ローカルモードにおいて、前記撮影装置の画角内である前記注目対象の前記ユーザにより指示された箇所が前記ユーザ側を向いているとき、前記他の撮影装置により撮影された映像において、その個所に対してマークを重畳させる映像加工を行う
     請求項5に記載の通信装置。
  17.  前記出力操作部は、前記ローカルモードにおいて、前記撮影装置の画角内である前記注目対象が前記撮影装置に対して隠れた位置にあるとき、前記他の撮影装置により撮影された映像において、前記注目対象に対してマークを重畳させる映像加工を行う
     請求項5に記載の通信装置。
  18.  前記注目対象検出部は、前記ユーザが前記注目対象に対して指差し動作をしたときに、前記ユーザが指差した方向の延長線上にあるものを注目対象として検出する
     請求項1に記載の通信装置。
  19.  ユーザが指示した注目対象を検出し、
     前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える
     ステップを含む通信方法。
  20.  ユーザが指示した注目対象を検出し、
     前記注目対象の位置に従って、前記ユーザの通信相手となる他のユーザに前記注目対象を認識させる出力操作を行う際の出力モードを切り替える
     ステップを含む通信処理をコンピュータに実行させるプログラム。
PCT/JP2017/036453 2016-10-20 2017-10-06 通信装置および通信方法、並びにプログラム WO2018074262A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-205943 2016-10-20
JP2016205943 2016-10-20

Publications (1)

Publication Number Publication Date
WO2018074262A1 true WO2018074262A1 (ja) 2018-04-26

Family

ID=62018419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/036453 WO2018074262A1 (ja) 2016-10-20 2017-10-06 通信装置および通信方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2018074262A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019230155A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7426021B2 (ja) 2021-09-30 2024-02-01 17Live株式会社 映像処理のためのシステム、方法、及びコンピュータ可読媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1198485A (ja) * 1997-09-19 1999-04-09 Nec Corp 画像入力装置および画像入力装置の画像処理プログラムを記録したコンピュータが読み取り可能な記録媒体
JP2005142919A (ja) * 2003-11-07 2005-06-02 Mitsubishi Electric Corp 通信装置及び画像通信システム
JP2009218792A (ja) * 2008-03-10 2009-09-24 Hitachi Ltd 遠隔コミュニケーションにおける映像表示方法
JP2015052895A (ja) * 2013-09-06 2015-03-19 株式会社東芝 情報処理装置及び情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1198485A (ja) * 1997-09-19 1999-04-09 Nec Corp 画像入力装置および画像入力装置の画像処理プログラムを記録したコンピュータが読み取り可能な記録媒体
JP2005142919A (ja) * 2003-11-07 2005-06-02 Mitsubishi Electric Corp 通信装置及び画像通信システム
JP2009218792A (ja) * 2008-03-10 2009-09-24 Hitachi Ltd 遠隔コミュニケーションにおける映像表示方法
JP2015052895A (ja) * 2013-09-06 2015-03-19 株式会社東芝 情報処理装置及び情報処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019230155A1 (ja) * 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN112166601A (zh) * 2018-05-31 2021-01-01 索尼公司 信息处理设备、信息处理方法和程序
US11307670B2 (en) 2018-05-31 2022-04-19 Sony Corporation Information processing apparatus, information processing method, and program
CN112166601B (zh) * 2018-05-31 2023-09-15 索尼公司 信息处理设备、信息处理方法和计算机可读介质
JP7426021B2 (ja) 2021-09-30 2024-02-01 17Live株式会社 映像処理のためのシステム、方法、及びコンピュータ可読媒体

Similar Documents

Publication Publication Date Title
US11259009B2 (en) Modular configurable camera system
KR101078057B1 (ko) 영상인식기법을 이용한 촬영 제어 기능을 구비한 이동단말 및 영상인식기법을 이용한 촬영 제어 시스템
US11172158B2 (en) System and method for augmented video production workflow
JP6328255B2 (ja) マルチ撮像装置、マルチ撮像方法、プログラム、及び記録媒体
US8970663B2 (en) 3D video conference
JP6302564B2 (ja) 動画編集装置、動画編集方法及び動画編集プログラム
JP5577931B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20150271414A1 (en) Display apparatus and display method
JP2011152593A (ja) ロボット操作装置
JP2009071478A (ja) 情報通信端末および情報通信システム
WO2015194084A1 (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP2007158680A (ja) 追尾撮像装置およびこれを利用した追尾撮像システム
JP2008277983A (ja) テレビジョン受像機
WO2018074262A1 (ja) 通信装置および通信方法、並びにプログラム
EP4106326A1 (en) Multi-camera automatic framing
JP2010004480A (ja) 撮像装置、その制御方法及びプログラム
KR101393147B1 (ko) 이동단말기 및 그 촬영방법
WO2021230363A1 (ja) 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム
US20210152731A1 (en) Information processing apparatus and control method therefor
US10051203B2 (en) Composite image creating apparatus
US9762891B2 (en) Terminal device, image shooting system and image shooting method
JP2006238033A (ja) 電子機器
JP2019027824A (ja) 表示制御装置、表示制御システム、表示制御方法、及び表示制御プログラム
WO2022137927A1 (ja) 画像処理装置、画像処理方法、プログラム
JP2016063472A (ja) 携帯端末および携帯端末の制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17861716

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17861716

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP