WO2023012976A1 - 映像処理装置、映像処理方法およびプログラム - Google Patents

映像処理装置、映像処理方法およびプログラム Download PDF

Info

Publication number
WO2023012976A1
WO2023012976A1 PCT/JP2021/029145 JP2021029145W WO2023012976A1 WO 2023012976 A1 WO2023012976 A1 WO 2023012976A1 JP 2021029145 W JP2021029145 W JP 2021029145W WO 2023012976 A1 WO2023012976 A1 WO 2023012976A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
style
unit
image
style data
Prior art date
Application number
PCT/JP2021/029145
Other languages
English (en)
French (fr)
Inventor
秀信 長田
弘員 柿沼
翔大 山田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023539490A priority Critical patent/JPWO2023012976A1/ja
Priority to PCT/JP2021/029145 priority patent/WO2023012976A1/ja
Publication of WO2023012976A1 publication Critical patent/WO2023012976A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Definitions

  • Embodiments of the present invention relate to video processing devices, video processing methods, and programs.
  • Style conversion is known that reflects the style, style, texture, etc. of past works of art on images or videos. Style conversion is an image processing technique that changes the style while preserving the image content (shape, etc.). Such style conversion makes it possible to convert a material image into an image of a desired style, and is becoming common in creating scenes for movies and the like.
  • the frame image of the pre-recorded material video is processed using image retouching software, CG software, etc., or a method such as conversion using a program is adopted. (For example, see Non-Patent Document 1 and Non-Patent Document 2).
  • Style conversion is still limited in its field of application. It is expected that style conversion will be utilized in the entertainment field, including the performing arts.
  • An object of the present invention is to provide a video processing device, a video processing method, and a program that utilize style conversion to generate more entertaining event video.
  • a video processing device includes a video acquisition unit, a reaction acquisition unit, a generation unit, a conversion unit, and an output unit.
  • the image acquisition unit acquires a first image related to the event.
  • the reaction acquisition unit acquires information representing reactions of viewers who watch the event.
  • the generation unit generates dynamic style data based on information representing viewer reactions.
  • the conversion unit performs style conversion on the first video using the dynamic style data to generate a style-converted second video.
  • the output unit outputs the second image.
  • style conversion using dynamic style data generated based on information representing viewer reactions is performed on the first video related to the event.
  • the second video obtained by this style conversion is a highly entertaining event video that reflects the viewer's real-time reactions.
  • a video processing device a video processing method, and a program are provided that utilize style conversion to generate more entertaining event video.
  • FIG. 1 is a diagram showing a functional configuration example of a video processing device according to one embodiment of the present invention.
  • FIG. 2 is a block diagram showing a hardware configuration example of the video processing apparatus shown in FIG.
  • FIG. 3 is a flow chart showing an operation example of the video processing apparatus shown in FIG.
  • FIG. 4 is a diagram showing a modification of the functional configuration of the video processing device shown in FIG.
  • FIG. 1 is a diagram showing a functional configuration example of a video processing device 1 according to an embodiment of the invention.
  • the video processing device 1 utilizes style conversion in the field of stage entertainment including performing arts.
  • the video processing device 1 includes a video acquisition unit 11, a style acquisition unit 12, a reaction acquisition unit 13, a dynamic style data generation unit 14, an application ratio setting unit 15, a style conversion unit 16, A synchronization processing unit 17 , an output unit 18 , a static style data storage unit 19 , and a user interface 21 are provided.
  • the user interface 21 is a user interface for style conversion control.
  • the user interface 21 enables exchange of information between the video processing device 1 and the user.
  • the user is an operator of the video processing device 1, for example.
  • the static style data storage unit 19 stores static style data.
  • the static style data is stored in advance by the user of the video processing device 1, for example.
  • Static style data includes various texture images. Examples of texture images include photographs of inorganic substances such as water, fire, cloth, paper, wood, stone, sand, etc.; A texture image that characteristically expresses the style of the painting, such as a part of a painting, is used as static style data.
  • image feature values associated with texture words such as rough, smooth, and glitter, and feature values that can express gloss, etc. generated by a neural network, are added to the static style. It can also be applied as data.
  • the image acquisition unit 11 acquires images to be subjected to style conversion.
  • the video acquisition unit 11 is an example of a video acquisition unit that acquires a first video related to an event.
  • the image acquisition unit 11 acquires the first image related to the event, for example, as an image from a camera (not shown).
  • the event includes various events related to the entertainment field where the presence of viewers is assumed. Events are not limited to stages, such as performing arts (eg, drama, music, dance), entertainment, and sports, and can include events that are realized in a predetermined space.
  • An event may be an event realized in real space, an event realized in virtual space, or a combination thereof.
  • An event may be rephrased as content.
  • the video acquired by the video acquisition unit 11 is, for example, a video of a live music performance on stage or a video of an actor in performing arts. These include still images or moving images.
  • the style acquisition unit 12 acquires static style data from the static style data storage unit 19.
  • the style acquisition unit 12 receives specification of textures to be applied for style conversion from the user via the user interface 21 and reads static style data corresponding to the specified textures from the static style data storage unit 19 .
  • the style acquisition unit 12 can acquire a part or all of the data stored in the static style data storage unit 19 as a style in any combination.
  • the reaction acquisition unit 13 acquires information representing the reactions of viewers watching the event. Specifically, the reaction acquisition unit 13 detects, for example, the movement of the viewer's hand, the light of the chemical light (pen light) that the viewer shakes, the appearance of a single viewer, and the viewers in a state where the audience is gathered. The appearance of the audience, the brightness of the audience seats, the amount of noise, or the screen on the distribution site when the video is streamed during the performance of the event or stage are acquired as reactions of the viewers watching the event.
  • the user interface 21 can be used to specify which of the reactions given as examples above is to be adopted by the system.
  • the reaction acquisition unit 13 is an example of a reaction acquisition unit that acquires information representing reactions of viewers who watch the event.
  • the dynamic style data generation unit 14 processes the information acquired by the reaction acquisition unit 13 and generates dynamic style data that is an element of style conversion. Specifically, the dynamic style data generation unit 14 generates, for example, the amount of the viewer's hand movement acquired by the reaction acquisition unit 13 for each frame, the amount of the viewer's hand movement acquired by the reaction acquisition unit 13, The luminance value of the color of the light for each frame, the luminance value of a specific color among the colors of the light of the chemical light that the viewer shakes acquired by the reaction acquisition unit 13, and the A value of a motion vector for each frame extracted from a moving image of a single acquired viewer, and a moving image of gathered viewers such as audience seats acquired by the reaction acquisition unit 13 are extracted from the moving image.
  • the dynamic style data generation unit 14 is an example of a generation unit that generates dynamic style data based on information representing viewer reactions.
  • the application ratio setting unit 15 sets the application ratio of static style data and dynamic style data.
  • the application ratio setting unit 15 receives designation of the application ratio from the user via the user interface 21, and sets the application ratio for the style conversion unit 16, which will be described later.
  • the user can specify the application ratio via a GUI (Graphical User Interface) part displayed on a display or the like.
  • GUI Graphic User Interface
  • An example of a GUI component is a slider that can select the ratio of static style data and dynamic style data by a drag operation or the like.
  • a user may be able to enter a numerical value for the application ratio of static style data and dynamic style data.
  • Hardware may be used instead of GUI parts.
  • the application ratio setting unit 15 is an example of a setting unit that sets the application ratio between static style data and dynamic style data.
  • the style conversion unit 16 receives the static style data, the dynamic style data, and the video acquired by the video acquisition unit 11, and executes style conversion according to the application ratio set by the application ratio setting unit 15.
  • the style conversion unit 16 can employ the algorithm described in Non-Patent Document 1 above as a style conversion algorithm.
  • the style conversion unit 16 uses an image representation obtained from a convolutional neural network (CNN) optimized for object recognition, and converts the style representation of the style data to each frame (content image) of the video. Style conversion can be performed by transcription.
  • CNN convolutional neural network
  • Style conversion can be performed by transcription.
  • character information or the like is used for input instead of an image, the character may be converted into an image in advance, or the character information may be converted into a vector representation in some form.
  • the style conversion unit 16 obtains a style-converted video (second video) having the style expression of the style data while maintaining the content expression of the original video (first video). be able to.
  • the style conversion unit 16 is an example of a conversion unit that performs style conversion using dynamic style data on the first video and generates a style-converted second video. As described above, the style conversion unit 16 can execute style conversion using static style data and dynamic style data at a set application ratio.
  • the synchronization processing unit 17 synchronizes the video frame acquired by the video acquisition unit 11 and the style-converted video frame generated by the style conversion unit 16 . From the original video for style conversion to the video after style conversion (for example, only the costumes are expressed in flames, and the brightness of the flames determines the volume of the cheering of the audience at the venue and the number of spectators waving pen-shaped lights). It is necessary to apply a smooth conversion by switching processing to a video with a style conversion applied that changes brightness depending on the brightness. In this case, it is necessary that the moving images before and after applying the style conversion are completely linked.
  • the synchronization processing unit 17 is a mechanism capable of synchronizing the style-converted video frame and the original video frame acquired by the video acquisition unit 11 .
  • the synchronization processing unit 17 is an example of a synchronization processing unit that time-synchronizes the frames of the first video and the frames of the second video.
  • the output unit 18 outputs the original video and the style-converted video synchronized by the synchronization processing unit 17 .
  • a scene being performed on stage is captured by a plurality of cameras (here, C1 and C2), and a screen in which cuts (viewpoints) are changed by switching between these is distributed as a program.
  • C1 and C2 a plurality of cameras
  • cuts viewpoints
  • the output image of C1 and the output image of C2 are synchronized by the synchronization processing unit 17, when a remote viewer sees the image in the output unit 18, the same subject is displayed at the same time from different angles.
  • the output unit 18 may output only the image (second image) whose style has been converted by the style conversion unit 16 .
  • the video to be output can be designated by the user interface 21 .
  • the output unit 18 is an example of an output unit that outputs the second image.
  • the video processing device 1 executes style conversion in real time by incorporating the reaction of viewers of the event. As a result, the video processing device 1 can generate more entertaining event video.
  • FIG. 2 is a diagram showing a hardware configuration example of the video processing device 1.
  • the video processing device 1 can be configured as a computer.
  • the video processing device 1 does not need to be a single computer, and may be configured by a plurality of computers.
  • the video processing device 1 includes a processor 101, a RAM (Random Access Memory) 102, a ROM (Read Only Memory) 103, an auxiliary storage device 104, an input device 105, and an output device 106. , and a communication module 107 , which are connected via a bus 108 .
  • the processor 101 is a processing circuit capable of executing various programs, and controls the overall operation of the video processing device 1 .
  • the processor 101 may be a processor such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), or GPU (Graphics Processing Unit).
  • the processor 101 may be an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or the like.
  • the processor 101 may be composed of a single CPU or the like, or may be composed of a plurality of CPUs or the like.
  • the RAM 102 is a volatile semiconductor memory and is used as a work area for the processor 101.
  • the ROM 103 is a non-volatile semiconductor memory and holds programs for controlling the video processing apparatus 1, control data, and the like.
  • the processor 101 expands the program stored in the ROM 103 into the RAM 102, interprets and executes it, thereby obtaining the image acquisition unit 11, the style acquisition unit 12, the reaction acquisition unit 13, the dynamic style data generation unit 14, the application rate Various functions including the functions of the setting unit 15, the style conversion unit 16, the synchronization processing unit 17, the output unit 18, and the user interface 21 are realized.
  • the auxiliary storage device 104 is a nonvolatile storage device such as a hard disk drive (HDD) or solid state drive (SSD).
  • Auxiliary storage device 104 includes static style data storage unit 19 described above. Note that part of the program may be stored in the auxiliary storage device 104 .
  • the input device 105 is a device for receiving input from the user of the video processing device 1 .
  • the input device 105 includes, for example, a touch panel, keyboard, mouse, operation buttons, or operation switches.
  • the input device 105 receives, for example, an input of an application ratio of static style data and dynamic style data from the user, and passes it to the application ratio setting unit 15 .
  • the output device 106 is a device for outputting information.
  • Output device 106 includes, for example, a display or speakers.
  • the display can be, for example, a liquid crystal display device or an organic EL (Electro-Luminescence) display.
  • the communication module 107 is a module that includes circuits used for communication between the video processing device 1 and other devices.
  • the communication module 107 may be, for example, a communication module conforming to the wired LAN standard.
  • the communication module 107 may be a communication module conforming to the wireless LAN standard, for example.
  • the communication module 107 may have a terminal such as a micro USB (Universal Serial Bus) connector.
  • the communication module 107 can communicate with a camera (not shown) and receive the first image from the camera.
  • the application scene of the style conversion described with respect to one embodiment is the conversion of pre-prepared material or on-stage footage into some pre-defined style, such as the style conversion realized in previous research and commercial cases. It is not limited to the usage scene of playing back this.
  • the application scene assumed by the video processing apparatus 1 according to one embodiment is some reaction ( Applause, cheers, shaking lights, etc.) are extracted, and it is assumed that this will be incorporated as style data.
  • the video processing device 1 can dynamically change the application allocation between the static style data prepared in advance and the dynamic style data generated from the physical features.
  • FIG. 3 is a flowchart showing an operation example of the video processing device 1.
  • a first camera is installed in the audience seats, and this first camera captures images of performers on the stage from the audience seats while the event is in progress.
  • a second camera is installed on the stage, and this second camera shoots images of spectators in the audience seats from the stage while the event is in progress.
  • step S101 the processor 101 of the video processing device 1 uses the video acquisition unit 11 to acquire the first video to be subjected to style conversion.
  • the image acquisition unit 11 acquires, for example, images of live music from the first camera described above.
  • the first image to be subjected to style conversion is not limited to the image obtained from a single camera, and may include images from multiple cameras installed at different positions.
  • step S ⁇ b>102 the processor 101 of the video processing device 1 uses the reaction acquisition unit 13 to acquire information representing the viewer's reaction.
  • the reaction acquiring unit 13 acquires, for example, a video image of the audience (viewers) during the progress of the event from the second camera.
  • the motion of the viewer's hand the brightness value of the chemical light waved by the viewer, the brightness value of a specific color among the light colors of the chemical light waved by the viewer, and the It includes information such as the amount of motion vectors to be extracted, the brightness of the audience seats, the number of areas with a brightness value above a certain level, that is, the number of "bright spots", or the sound pressure obtained as audio information.
  • the images acquired by the reaction acquisition unit 13 are not limited to images acquired from a single camera, and may include images from a plurality of cameras installed at different positions.
  • the video acquired by the reaction acquisition unit 13 may include a video captured by a viewer viewing the event video at a remote location, a captured image from a streaming distribution site or a bulletin board site, and the like.
  • the reaction acquisition unit 13 can also acquire character information written on a streaming distribution site or a bulletin board site as information representing the viewer's reaction. .
  • step S103 the processor 101 of the video processing device 1 uses the dynamic style data generation unit 14 to process the information representing the reaction of the viewer and generate dynamic style data.
  • the dynamic style data generation unit 14 extracts a plurality of physical quantities specified via the user interface 21 for each frame, and selects physical quantities to be used for the dynamic style data based on changes in their values. Configured to dynamically select. Specifically, the dynamic style data generation unit 14 monitors changes in the values of a plurality of physical quantities for each frame, and successively adopts physical quantities showing changes exceeding a preset threshold value as the dynamic style.
  • the dynamic style data generation unit 14 generates various viewing patterns such as the viewer's cheering increasing in one scene, the viewer waving a chemical light in another scene, and the writing on the website increasing in another scene.
  • Dynamic style data can be generated by instantly reflecting the reaction of the user.
  • the video processing apparatus 1 monitors changes in a plurality of physical quantities using the dynamic style data generation unit 14, and if the amount of change between frames exceeds a predetermined threshold value, the physical quantity is Gradually adopted as a dynamic style.
  • the dynamic style data generator 14 may extract physical quantities specified via the user interface 21 for each frame and use the extracted physical quantities as dynamic style data.
  • the dynamic style data generation unit 14 extracts the brightness value of the light color of the chemical light that the viewer shakes for each frame from the video obtained by the reaction acquisition unit 13, and uses the brightness value as dynamic style data. good too.
  • step S ⁇ b>104 the processor 101 of the video processing device 1 acquires static style data using the style acquisition unit 12 .
  • the style acquisition unit 12 reads corresponding data from the static style data storage unit 19 according to user instructions input via the user interface 21 .
  • Static style data includes pre-prepared texture images.
  • step S105 the processor 101 of the video processing device 1 uses the application ratio setting unit 15 to set the application ratio of static style data and dynamic style data.
  • the application ratio setting unit 15 performs setting according to a user's instruction input via the user interface 21, for example.
  • step S106 the processor 101 of the video processing device 1 causes the style conversion unit 16 to cause each frame of the first video acquired in step S101, the dynamic style data acquired in step S103, and the Static style data is input, and style conversion is executed according to the application ratio set by the application ratio setting unit 15 .
  • the style conversion unit 16 performs encoding processing on a style application target image (style conversion target) and a style image using a CNN capable of extracting image features.
  • the style conversion unit 16 obtains, for example, the content representation of the first video as a feature map that is the output of a particular hidden layer of the CNN.
  • the style conversion unit 16 obtains, for example, each style expression of the static style data and the dynamic style data as a gram matrix of the content expression of the same intermediate layer of the CNN.
  • the style conversion unit 16 extracts and pools generated data of a plurality of intermediate layers, and alternates ( A so-called "style swap") is performed.
  • a so-called "style swap” is performed.
  • the decoding phase an image reflecting the features of the style image is restored in the style application target image. According to this method, there is no need for pre-learning using a large amount of data in order to extract the image features of the style application target image and the style image, and processing can be speeded up.
  • the specification of which layer features should be swapped and the unit of processing in CNN are heuristically determined while the user visually confirms the status of style conversion. determined and may be determined via the user interface 21 . Alternatively, an intermediate amount that minimizes the linear sum of content loss and style loss may be swapped by gradient descent or the like.
  • the application rate and granularity of style conversion may be applied in any manner.
  • the subset of regions can be one of the granularities.
  • the number of bright spots extracted from the video is used as the style data.
  • step S ⁇ b>107 the processor 101 of the video processing device 1 executes synchronization processing using the synchronization processing unit 17 . Since style conversion takes time (for example, about several tens of seconds), the synchronization processing unit 17 divides the frame of the original video (first video) and the frame of the post-style conversion video (second video). Time-synchronized and passed to the output unit 18 .
  • step S108 the processor 101 of the video processing device 1 outputs the first video and the second video synchronized by the synchronization processing unit 17 as video data by the output unit 18.
  • the video processing device 1 uses the output unit 18 to transmit the video data to the remote terminal of the viewer via the communication module 107 .
  • a viewer's terminal includes, for example, a smart phone, a mobile phone terminal, a personal computer, a tablet terminal, a game machine, a television receiver, or a wearable terminal such as a head-mounted display. The viewer can display the video based on the received video data on the display of the terminal and view the event video to which the style conversion has been applied.
  • the event video displayed on the viewer's terminal uses the color information of the chemical lights of the audience in front of the stage as dynamic style data for the live video of the live music on the stage. Style conversion.
  • the display mode on the viewer's terminal can be the original image (first image) only, the style-converted image (second image) only, or the original image and the style-converted image displayed simultaneously (for example, vertically or horizontally). side by side or superimposed on each other) can be switched arbitrarily.
  • step S104 may be executed before steps S101 to S103, or may be executed in parallel with steps S101 to S103.
  • the application ratio setting process in step S105 may be performed at any timing.
  • the video acquisition unit 11 acquires the first video related to the event
  • the reaction acquisition unit 13 acquires the
  • the dynamic style data generation unit 14 generates dynamic style data based on the information representing the viewer's reaction
  • the style conversion unit 16 converts the first video to the style conversion using the dynamic style data to generate a style-converted second image
  • the output unit 18 outputs the second image.
  • the output second image is a real-time transfer of the style of the dynamic style data generated based on the information representing the viewer's reaction to the first image.
  • the dynamic style data generation unit 14 monitors physical quantities that can be extracted as information representing viewer reactions, and generates dynamic style data. As a result, the video processing device 1 can apply dynamic information that is not directly related to the texture of the image, such as the appearance, movement, or volume of the voice of the audience, or the frequency of writing on the website, to the style conversion. can be used. Even in events such as performing arts where there are many elements in which it is difficult to predict the reaction of the audience, style conversion with a higher degree of realism can be executed by using such dynamic style data.
  • the style acquisition unit 12 acquires static style data
  • the application ratio setting unit 15 sets the application ratio between the static style data and the dynamic style data
  • the style conversion unit 16 applies static style data and dynamic style data using the set application ratio to perform style conversion.
  • the synchronization processing unit 17 further time-synchronizes the frames of the first video and the frames of the second video, and the output unit 18 time-synchronizes the second video together with the second video. Output the synchronized first video. As a result, it is possible to obtain a video set of the first video and the second video that is not affected by the time delay required for style conversion.
  • the video processing device 1 not only a fixed style (static style) set in advance, but also dynamic style conversion that incorporates reactions of all viewers watching the stage is realized. be able to.
  • FIG. 4 shows a modification of the functional configuration of the video processing device 1.
  • the video processing device 1 applies reactions of multiple viewers to the style conversion.
  • the plurality of viewers includes, for example, viewers at a performance venue, viewers at a remote venue, or viewers watching on a terminal display at home.
  • Each of the reaction acquisition units 131, . . . , 13N acquires information representing reactions of one or more viewers.
  • the reaction acquisition units 131, . . . , 13N may acquire information representing different types of reactions.
  • one reaction acquisition unit 131 may acquire an image of a viewer waving a chemical light at a performance venue
  • another reaction acquisition unit 13x may acquire a voice input to a terminal by a viewer watching at home. .
  • the dynamic style data generators 141, . . . , 14N may generate different types of dynamic style data using different processes.
  • the video processing device 1 shown in FIG. 4 can also adopt the same hardware configuration example as exemplified in FIG.
  • each function provided in the video processing device 1 may be distributed to a plurality of devices, and these devices may cooperate with each other to perform processing.
  • each functional unit may be realized by using a circuit.
  • a circuit may be a dedicated circuit that implements a specific function, or it may be a general-purpose circuit such as a processor.
  • the dynamic style data used for style conversion is not limited to one type of data.
  • dynamic style data that reflects the color of chemical light and dynamic style data that reflects the loudness of the viewer's voice are combined in an arbitrary ratio, and the static It is also possible to apply style data to achieve style conversion using multiple styles.
  • the method described above can be executed by a computer (computer) as a program (software means), such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, MO, etc.) , semiconductor memory (ROM, RAM, flash memory, etc.) or other recording medium (storage medium), or can be transmitted and distributed via a communication medium.
  • the programs stored on the medium also include a setting program for configuring software means (including not only execution programs but also tables and data structures) to be executed by the computer.
  • a computer that implements the above apparatus reads a program recorded on a recording medium, and in some cases, constructs software means by a setting program, and executes the above-described processes by controlling the operation of the software means.
  • the term "recording medium” as used herein is not limited to those for distribution, and includes storage media such as magnetic disks, semiconductor memories, etc. provided in computers or devices connected via a network.
  • the present invention is not limited to the above-described embodiments, and various modifications can be made in the implementation stage without departing from the gist of the invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する映像処理装置を提供する。実施形態に係る映像処理装置は、映像取得部と、反応取得部と、生成部と、変換部と、出力部と、を備える。映像取得部は、イベントに関連する第1映像を取得する。反応取得部は、イベントを視聴する視聴者の反応を表す情報を取得する。生成部は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する。変換部は、第1映像に対して上記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第2映像を生成する。出力部は、上記第2映像を出力する。

Description

映像処理装置、映像処理方法およびプログラム
 本発明の実施形態は、映像処理装置、映像処理方法およびプログラムに関する。
 画像または映像に対して、過去の芸術作品の画風、作風、またはテクスチャ(質感)等を反映させる、スタイル変換が知られている。スタイル変換は、画像のコンテンツ(形状等)を保持したままスタイルを変化させる画像処理技術である。このようなスタイル変換は、素材画像から所望のスタイルの画像への変換を可能にし、映画等のシーン作成において一般的なものとなりつつある。スタイル変換をほどこした映像を作成するには、収録済み素材映像に対して、そのフレーム画像を画像レタッチソフトウェアやCGソフトウェア等を用いて処理するか、あるいはプログラムを用いて変換する等の方法を採用することができる(例えば、非特許文献1、非特許文献2参照)。
Gatys, L.A., Ecker, A.S., Bethge, M., "Image Style Transfer Using Convolutional Neural Networks", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2414-2423 (2016) Justin Johnson, Alexandre Alahi, Li Fei-Fei, "Perceptual Losses for Real-Time Style Transfer and Super-Resolution", CVPR 2016, 27 Mar 2016
 スタイル変換は、まだその適用分野が限られている。舞台芸術等をはじめとするエンターテイメント分野における、スタイル変換の活用が期待される。 
 この発明は、スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する、映像処理装置、映像処理方法およびプログラムを提供することにある。
 実施形態に係る映像処理装置は、映像取得部と、反応取得部と、生成部と、変換部と、出力部と、を備える。映像取得部は、イベントに関連する第1映像を取得する。反応取得部は、イベントを視聴する視聴者の反応を表す情報を取得する。生成部は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する。変換部は、第1映像に対して上記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第2映像を生成する。出力部は、上記第2映像を出力する。
 実施形態によれば、イベントに関連する第1映像に対し、視聴者の反応を表す情報をもとに生成された動的スタイルデータを用いたスタイル変換が実行される。このスタイル変換により得られる第2映像は、視聴者のリアルタイムの反応を反映する、エンターテイメント性の高いイベント映像である。
 したがって、実施形態によれば、スタイル変換を活用して、よりエンターテイメント性の高いイベント映像を生成する、映像処理装置、映像処理方法およびプログラムが提供される。
図1は、この発明の一実施形態に係る映像処理装置の機能構成例を示す図である。 図2は、図1に示した映像処理装置のハードウェア構成例を示すブロック図である。 図3は、図1に示した映像処理装置の動作例を示すフローチャートである。 図4は、図1に示した映像処理装置の機能構成の変形例を示す図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。
 [一実施形態]
 (構成)
 図1は、この発明の一実施形態に係る映像処理装置1の機能構成例を示す図である。 
 映像処理装置1は、舞台芸術をはじめとするステージエンターテイメント分野において、スタイル変換を活用する。
 図1において、映像処理装置1は、映像取得部11と、スタイル取得部12と、反応取得部13と、動的スタイルデータ生成部14と、適用割合設定部15と、スタイル変換部16と、同期処理部17と、出力部18と、静的スタイルデータ記憶部19と、ユーザインタフェース21と、を備える。
 ユーザインタフェース21は、スタイル変換制御のためのユーザインタフェースである。ユーザインタフェース21は、映像処理装置1とユーザとの間の情報のやり取りを可能にする。ここでは、ユーザは、例えば、映像処理装置1のオペレータである。
 静的スタイルデータ記憶部19は、静的スタイルデータを記憶する。静的スタイルデータは、例えば映像処理装置1のユーザによって事前に格納される。静的スタイルデータは、様々なテクスチャ画像を含む。テクスチャ画像の例として、水、火、布、紙、木、石、砂などの無機物の写真、あるいはそれらの特徴を表す画像、または斜線、ドットなどに代表されるデザインに用いられるテクスチャ、あるいは著名な絵画の一部などの、当該絵画の作風が特徴的に表れるテクスチャ画像を、静的スタイルデータとして用いる。また、これらの画像のほかに、ざらざら、つるつる、きらきら、といった質感を表す単語に結び付けられた、画像の特徴量、さらに、ニューラルネットにより生成した光沢などを表現可能な特徴量を、静的スタイルデータとして適用することもできる。
 映像取得部11は、スタイル変換の対象となる映像を取得する。映像取得部11は、イベントに関連する第1映像を取得する映像取得部の一例である。映像取得部11は、イベントに関連する第1映像を、例えば、カメラ(図示せず)からの映像として取得する。イベントは、視聴者の存在が想定される、エンターテイメント分野に係る種々のイベントを含む。イベントは、舞台芸術(例えば、演劇、音楽、舞踊)、演芸、スポーツなど、舞台に限らず、所定の空間で実現されるイベントを含み得る。イベントは、現実空間で実現されるイベント、仮想空間で実現されるイベント、またはそれらの組合せであり得る。イベントは、コンテンツと言い換えられてもよい。映像取得部11が取得する映像は、例えば、舞台上で実演される音楽ライブの様子を撮影した映像や、舞台芸術における役者を撮影した映像である。これらは静止画または動画を含む。
 スタイル取得部12は、静的スタイルデータ記憶部19から静的スタイルデータを取得する。例えば、スタイル取得部12は、ユーザインタフェース21を介してユーザからスタイル変換に適用すべきテクスチャの指定を受け取り、指定されたテクスチャに対応する静的スタイルデータを静的スタイルデータ記憶部19から読み出す。スタイル取得においては、スタイル取得部12は、静的スタイルデータ記憶部19に格納されたデータの一部または全部を、任意の組み合わせでスタイルとして取得することができる。
 反応取得部13は、イベントを視聴する視聴者の反応を表す情報を取得する。具体的には、反応取得部13は、例えば、視聴者の手の動き、視聴者が振るケミカルライト(ペンライト)の光、単一の視聴者の姿、客席などの集合した状態の視聴者の姿、客席の明るさ、ノイズの大きさ、またはイベントや舞台の実施時に前記映像がストリーミング配信された際の配信サイトにおける画面等を、イベントを視聴する視聴者の反応として取得する。前記の例にあげた反応のうち、いずれの反応をシステムで採用するかは、ユーザインタフェース21で指定することが可能である。反応取得部13は、イベントを視聴する視聴者の反応を表す情報を取得する反応取得部の一例である。
 動的スタイルデータ生成部14は、反応取得部13によって取得された情報を処理し、スタイル変換の要素となる動的スタイルデータを生成する。具体的には、動的スタイルデータ生成部14は、例えば、反応取得部13によって取得された視聴者の手の動きの1フレームごとの量、反応取得部13によって取得された視聴者が振るケミカルライトの光の色の1フレームごとの輝度値、反応取得部13によって取得された視聴者が振るケミカルライトの光の色のうち、特定の色の1フレームごとの輝度値、反応取得部13によって取得された単一の視聴者を撮影した動画像から抽出する動きベクトルの1フレームごとの値、反応取得部13によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる動きベクトルの総量の1フレームごとの値、反応取得部13によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる1フレームごとの客席の明るさ、反応取得部13によって取得された客席などの集合した状態の視聴者を撮影した動画像から抽出することのできる1フレームごとの、一定以上の輝度値となる領域の数すなわち「明るい点」の数、反応取得部13によって取得された観客席の音声から得られる1フレームごとの音圧、反応取得部13によって取得された、ストリーミング配信サイトまたは掲示板サイトに書き込まれる文字、または文字の総量、または文字の色、または文字がスクロールされ流れる速さ、文字のフォントの大きさ、これらを動的スタイルデータとして生成する。動的スタイルデータ生成部14は、視聴者の反応を表す情報をもとに動的スタイルデータを生成する生成部の一例である。
 適用割合設定部15は、静的スタイルデータと動的スタイルデータの適用割合を設定する。例えば、適用割合設定部15は、ユーザからユーザインタフェース21を介して適用割合の指定を受け取り、後述するスタイル変換部16に対して適用割合を設定する。ユーザは、例えばディスプレイ等に表示されたGUI(Graphical User Interface)部品を介して適用割合を指定することができる。GUI部品の一例は、ドラッグ操作等により静的スタイルデータと動的スタイルデータの割合を選択可能なスライダである。ユーザが静的スタイルデータと動的スタイルデータとの適用割合を数値で入力可能としてもよい。GUI部品の代わりにハードウェアが用いられてもよい。適用割合設定部15は、静的スタイルデータと動的スタイルデータとの適用割合を設定する設定部の一例である。
 スタイル変換部16は、静的スタイルデータ、動的スタイルデータ、および映像取得部11で取得された映像を入力とし、適用割合設定部15によって設定された適用割合にしたがって、スタイル変換を実行する。スタイル変換部16は、スタイル変換のアルゴリズムとして、上記の非特許文献1に記載されたアルゴリズムを採用することができる。例えば、スタイル変換部16は、物体認識に最適化された畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)から得られる画像表現を用い、スタイルデータのスタイル表現を映像の各フレーム(コンテンツ画像)に対して転写することにより、スタイル変換を実行することができる。画像の代わりに文字情報等を入力に用いる場合、あらかじめ文字を画像に変換してもよいし、文字情報を何らかの形でベクトル表現に変換してもよい。スタイル変換部16は、このようなスタイル変換の結果、元の映像(第1映像)のコンテンツ表現を維持しつつ、スタイルデータのスタイル表現を有する、スタイル変換済みの映像(第2映像)を得ることができる。スタイル変換部16は、第1映像に対して動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第2映像を生成する変換部の一例である。スタイル変換部16は、上述したように、設定された適用割合で静的スタイルデータと動的スタイルデータを用いてスタイル変換を実行することができる。
 同期処理部17は、映像取得部11で取得された映像のフレームと、スタイル変換部16で生成したスタイル変換済みの映像のフレームとを同期させる。スタイルを変換する元の動画から、スタイル変換を行った後の動画(たとえば、衣装だけが炎で表現され、なおかつ炎の明るさが会場の観客の声援の音量やペン型ライトを振る観客の数に応じて明るく変化するようなスタイル変換を適用した動画)に、スイッチング処理によってなめらかに変換をかけていく必要がある。この場合、スタイル変換の適用前後の動画像が完全に連動している必要がある。このため、例えば、スタイル変換前の映像の各フレームにタイムスタンプまたは識別番号が付され、映像取得部11で取得した映像を分岐させ、待機回路(図示せず)を経由させることによってスタイル変換の処理前の映像と処理後の映像を同期させる。同期処理部17は、スタイル変換済みの映像のフレームと、映像取得部11で取得された元の映像のフレームとを同期させることができる機構である。同期処理部17は、第1映像のフレームと第2映像のフレームとを時間同期させる同期処理部の一例である。
 出力部18は、同期処理部17で同期された、元の映像とスタイル変換された映像とを出力する。一例として、舞台で行われているシーンを複数のカメラ(ここではC1、C2とする)でとらえ、これらの切り替えによってカット(視点)を変えた画面を番組として配信する場合であって、C2のカメラで撮影されている画像に対してのみ、スタイル変換を時間をかけて施した画像を出力する場合を想定する。この場合、同期処理部17によってC1の出力映像とC2の出力映像とが同期されるため、出力部18における映像を遠隔の視聴者が見た場合、同じ被写体を別の角度から同時に映しているにもかかわらず、一方の視点の映像のみ、特殊効果(今回の場合にはスタイル変換)を掛けたように見せることができ、演出上の効果が大きくなる。なお、出力部18の映像を、テレビやストリーミング配信ではなく、舞台上のサービス画面と呼ばれる大型スクリーンに映し出す場合にも、同じ効果が期待できる。なお、出力部18は、スタイル変換部16によるスタイル変換済みの映像(第2映像)のみを出力してもよい。出力する映像は、ユーザインタフェース21で指定することができる。出力部18は、第2映像を出力する出力部の一例である。
 この発明の一実施形態に係る映像処理装置1は、上記のような構成により、イベントの視聴者のリアクションを取り入れたスタイル変換をリアルタイムに実行する。これにより、映像処理装置1は、よりエンターテイメント性の高いイベント映像を生成することができる。
 図2は、映像処理装置1のハードウェア構成例を示す図である。映像処理装置1は、コンピュータとして構成され得る。映像処理装置1は、単一のコンピュータである必要はなく、複数のコンピュータによって構成されていてもよい。 
 図2に示すように、映像処理装置1は、プロセッサ101と、RAM(Random Access Memory)102と、ROM(Read Only Memory)103と、補助記憶装置104と、入力装置105と、出力装置106と、通信モジュール107と、を備え、これらがバス108を介して接続されている。
 プロセッサ101は、様々なプログラムを実行することが可能な処理回路であり、映像処理装置1の全体の動作を制御する。プロセッサ101は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサであってよい。また、プロセッサ101は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等であってもよい。さらに、プロセッサ101は、単一のCPU等で構成されていてもよいし、複数のCPU等で構成されていてもよい。
 RAM102は、揮発性の半導体メモリであり、プロセッサ101の作業領域として使用される。ROM103は、不揮発性の半導体メモリであり、映像処理装置1を制御するためのプログラムおよび制御データ等を保持している。プロセッサ101は、ROM103に記憶されたプログラムをRAM102に展開し、解釈および実行することによって、上記の映像取得部11、スタイル取得部12、反応取得部13、動的スタイルデータ生成部14、適用割合設定部15、スタイル変換部16、同期処理部17、出力部18およびユーザインタフェース21の機能を含む、様々な機能を実現する。
 補助記憶装置104は、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)といった不揮発性の記憶装置である。補助記憶装置104は、上記の静的スタイルデータ記憶部19を含む。なお、プログラムの一部は補助記憶装置104に記憶されてもよい。
 入力装置105は、映像処理装置1のユーザからの入力を受け付けるための装置である。入力装置105は、例えば、タッチパネル、キーボード、マウス、操作ボタン、または操作スイッチ等を含む。入力装置105は、例えば、ユーザから静的スタイルデータと動的スタイルデータの適用割合の入力を受け付け、適用割合設定部15に渡す。
 出力装置106は、情報を出力するための装置である。出力装置106は、例えば、ディスプレイまたはスピーカを含む。ディスプレイは、例えば、液晶表示装置または有機EL(Electro-Luminescence)ディスプレイであり得る。
 通信モジュール107は、映像処理装置1と他の機器との通信に使用される回路を含むモジュールである。通信モジュール107は、例えば有線LANの規格に準拠した通信モジュールであってよい。また、通信モジュール107は、例えば無線LANの規格に準拠した通信モジュールであってもよい。通信モジュール107は、マイクロUSB(Universal Serial Bus)コネクタなどの端子を備えていてもよい。通信モジュール107は、図示しないカメラとの間で通信し、カメラから上記第1映像を受信し得る。
 なお、映像処理装置1の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。
 一実施形態に関して説明するスタイル変換の適用シーンは、従前の研究や商用の事例において実現されているスタイル変換のように、あらかじめ準備した素材または舞台上の映像を、事前に設定した何らかのスタイルに変換し、これを再生する、という利用シーンにとどまらない。一実施形態に係る映像処理装置1が想定している適用シーンは、舞台の目の前で視聴する多数の観客や、自宅等のリモート環境で視聴する視聴者が、視聴中にとる何らかのリアクション(拍手、歓声、ライトを振る等)から物理特徴を抽出し、これをスタイルデータとして取り入れることを想定している。さらに、映像処理装置1は、事前に準備した静的スタイルデータと、上記の物理特徴によって生成された動的スタイルデータとの適用配分を動的に変更可能とする。
 (動作)
 次に、以上のように構成された映像処理装置1による情報処理動作を説明する。 
 図3は、映像処理装置1の動作例を示すフローチャートである。例えば、舞台上で音楽ライブ等のイベントが進行されており、観客席には第1カメラが設置され、この第1カメラがイベント進行中に観客席から舞台上の演者の映像を撮影するものとする。また例えば舞台には第2カメラが設置され、この第2カメラがイベント進行中に舞台から観客席の観客の映像を撮影するものとする。
 ステップS101において、映像処理装置1のプロセッサ101は、映像取得部11により、スタイル変換の対象となる第1映像を取得する。映像取得部11は、例えば、上記の第1カメラから音楽ライブの映像を取得する。スタイル変換の対象となる第1映像は、単一のカメラから取得される映像に限られるものではなく、異なる位置に設置された複数のカメラからの映像を含んでよい。
 ステップS102において、映像処理装置1のプロセッサ101は、反応取得部13により、視聴者の反応を表す情報を取得する。反応取得部13は、例えば、上記の第2カメラからイベントの進行中に観客(視聴者)を撮影した映像を取得する。この映像は、例えば、視聴者の手の動き、視聴者が振るケミカルライトの輝度値、視聴者が振るケミカルライトの光の色のうち特定の色の輝度値、単一もしくは複数の視聴者から抽出される動きベクトルの量、客席の明るさ、一定以上の輝度値となる領域の数すなわち「明るい点」の数、または音声情報として得られる音圧、等の情報を含む。反応取得部13により取得される映像は、単一のカメラから取得される映像に限られるものではなく、異なる位置に設置された複数のカメラからの映像を含んでよい。反応取得部13により取得される映像は、遠隔地でイベント映像を視聴する視聴者を撮影した映像や、ストリーミング配信サイトもしくは掲示板サイトのキャプチャ画像等を含んでよい。反応取得部13はまた、カメラからの映像に加えて、またはカメラからの映像に代えて、ストリーミング配信サイトもしくは掲示板サイトに書き込まれる文字の情報等を、視聴者の反応を表す情報として取得し得る。
 ステップS103において、映像処理装置1のプロセッサ101は、動的スタイルデータ生成部14により、視聴者の反応を表す情報を処理し、動的スタイルデータを生成する。一実施形態では、動的スタイルデータ生成部14は、ユーザインタフェース21を介して指定された複数の物理量をフレームごとに抽出し、それらの値の変化に基づいて動的スタイルデータに採用する物理量を動的に選択するように構成される。具体的には、動的スタイルデータ生成部14は、複数の物理量についてフレームごとの値の変化を監視し、事前に設定された閾値を超える変化を示す物理量を次々に動的スタイルとして採用する。これにより、動的スタイルデータ生成部14は、ある場面では視聴者の声援が大きくなり、ある場面では視聴者がケミカルライトを振り、ある場面ではWebサイトへの書き込みが増加する、といった多様な視聴者の反応を即座に反映して動的スタイルデータを生成することができる。一般に、静まり返った舞台において、次の瞬間に観客がケミカルライトを振るか、応援の掛け声をかけるか、または拍手するか等を事前に予測することは困難である。そこで、一実施形態では、映像処理装置1は、動的スタイルデータ生成部14により、複数の物理量の変化を監視し、フレーム間の変化量が所定の閾値を超えるなどの場合に、その物理量を動的なスタイルとして逐次採用する。あるいは、動的スタイルデータ生成部14は、ユーザインタフェース21を介して指定された物理量をフレームごとに抽出し、抽出した物理量を動的スタイルデータとして用いてもよい。例えば、動的スタイルデータ生成部14は、反応取得部13によって得られた映像から、フレームごとに視聴者が振るケミカルライトの光の色の輝度値を抽出し、輝度値を動的スタイルデータとしてもよい。
 ステップS104において、映像処理装置1のプロセッサ101は、スタイル取得部12により、静的スタイルデータを取得する。スタイル取得部12は、例えば、ユーザインタフェース21を介して入力されたユーザの指示にしたがい、静的スタイルデータ記憶部19から対応するデータを読み出す。静的スタイルデータは、事前に用意されたテクスチャ画像を含む。
 ステップS105において、映像処理装置1のプロセッサ101は、適用割合設定部15により、静的スタイルデータと動的スタイルデータの適用割合を設定する。適用割合設定部15は、例えば、ユーザインタフェース21を介して入力されたユーザの指示にしたがって設定を行う。
 ステップS106において、映像処理装置1のプロセッサ101は、スタイル変換部16により、ステップS101で取得された第1映像の各フレーム、ステップS103で取得された動的スタイルデータ、およびステップS104で取得された静的スタイルデータを入力とし、適用割合設定部15によって設定された適用割合にしたがって、スタイル変換を実行する。スタイル変換部16は、画像の特徴を抽出可能なCNNにより、スタイル適用対象画像(スタイル変換の対象)とスタイル画像とに対してエンコード処理を実行する。スタイル変換部16は、例えば、第1映像のコンテンツ表現をCNNの特定の中間層の出力である特徴マップとして得る。またスタイル変換部16は、例えば、静的スタイルデータおよび動的スタイルデータのそれぞれのスタイル表現をCNNの同じ中間層のコンテンツ表現のグラム行列として得る。ここで、スタイル変換部16は、複数の中間層の生成データを取り出してプールしておき、エンコードの途中で特定の層から抽出される特徴をスタイル適用対象画像とスタイル画像との間で交代(いわゆる「スタイル・スワップ」)させる処理を行う。これにより、デコードのフェーズにおいて、スタイル適用対象画像内に、スタイル画像の特徴が反映された画像が復元される。この方法によれば、スタイル適用対象画像およびスタイル画像の画像特徴を抽出するために大量のデータによる事前学習の必要がなく、処理を高速化することができる。
 どの層の特徴をスワップさせるべきかの指定、ならびにCNNにおいて処理を行う単位(スタイル適用対象画像およびスタイル画像それぞれの画像領域のウインドウサイズ)は、スタイル変換の具合をユーザが目視確認しつつヒューリスティックに決定し、ユーザインタフェース21を介して決定してよい。あるいは、勾配降下法等によりコンテンツ損失とスタイル損失の線形和を最小化するような中間量をスワップさせてもよい。
 スタイル変換の適用割合と粒度は、任意の方法で適用されてよい。一例として、スタイルとして画像が使用される場合、そのサブセットの領域を粒度の1つとすることができる。例えば、観客がケミカルライトを振る映像がスタイル画像として採用される場合、映像から抽出される明るい点の数がスタイルデータとして使用される。
 ステップS107において、映像処理装置1のプロセッサ101は、同期処理部17により、同期処理を実行する。スタイル変換には時間を要するため(例えば、数十秒程度)、同期処理部17は、元の映像(第1映像)のフレームと、スタイル変換後の映像(第2映像)のフレームと、を時間同期させ、出力部18に渡す。
 ステップS108において、映像処理装置1のプロセッサ101は、出力部18により、同期処理部17によって同期処理された第1映像と第2映像とを映像データとして出力する。一例として、映像処理装置1は、出力部18により、通信モジュール107を介して、映像データを遠隔地にいる視聴者の端末に送信する。視聴者の端末は、例えば、スマートフォン、携帯電話端末、パーソナルコンピュータ、タブレット端末、ゲーム機、テレビジョン受像機、またはヘッドマウントディスプレイ等のウェアラブル端末を含む。視聴者は、受信した映像データに基づく映像を端末のディスプレイに表示させ、スタイル変換を適用されたイベント映像を視聴することができる。視聴者の端末に表示されるイベント映像は、例えば、舞台上の音楽ライブを撮影したライブ映像に対し、舞台の目の前にいる観客のケミカルライトの色情報を動的スタイルデータとして用いて、スタイル変換したものである。これにより、視聴者は、遠隔地にいながら、他の観客との一体感および臨場感を感じながら音楽ライブを楽しむことができる。また、視聴者自身の視聴時の行動が、スタイルに動的に反映される。視聴者の端末における表示態様は、元の映像(第1映像)のみ、スタイル変換後の映像(第2映像)のみ、または元の映像とスタイル変換後の映像の同時表示(例えば、上下もしくは左右に並べて、または重畳させて)を任意に切り替え可能であってよい。
 図3に示したフローは一例にすぎず、処理の順序は適宜入れ替えて実行されてよい。例えば、ステップS104の静的スタイルデータ取得処理は、ステップS101~S103よりも前に実行されてもよいし、ステップS101~S103と並行して実行されてもよい。同様に、ステップS105の適用割合設定処理も、任意のタイミングで実行されてよい。
 (効果)
 以上詳述したように、この発明の一実施形態に係る映像処理装置1では、映像取得部11が、イベントに関連する第1映像を取得し、反応取得部13が、イベントを視聴する視聴者の反応を表す情報を取得し、動的スタイルデータ生成部14が、視聴者の反応を表す情報をもとに動的スタイルデータを生成し、スタイル変換部16が、上記の第1映像に対して動的スタイルデータを用いたスタイル変換を実行してスタイル変換済みの第2映像を生成し、出力部18が、第2映像を出力する。出力される第2映像は、第1映像に対して、視聴者の反応を表す情報をもとに生成された動的スタイルデータのスタイルをリアルタイムに転写したものである。遠隔地にいる視聴者は、第2映像を視聴することにより、他の視聴者の反応を感知することができ、他の視聴者との一体感および臨場感を楽しむことができる。
 動的スタイルデータ生成部14は、視聴者の反応を表す情報として抽出可能な物理量を監視し、動的スタイルデータを生成する。これにより、映像処理装置1は、観客の姿、動き、もしくは声の大きさ、またはWebサイトへの書き込みの頻度など、画像の質感とは直接的には関連しない動的な情報をスタイル変換に用いることができる。舞台芸術のように観客の反応に予測困難な要素の多いイベントにおいても、このような動的スタイルデータを用いることによって、より臨場感の高いスタイル変換を実行することができる。
 また映像処理装置1では、スタイル取得部12が静的スタイルデータを取得し、適用割合設定部15が、静的スタイルデータと動的スタイルデータとの適用割合を設定し、上記のスタイル変換部16が、設定された適用割合を用いて静的スタイルデータと動的スタイルデータとを適用してスタイル変換を実行する。これにより、得られるスタイル変換後の映像(イベント映像または第2映像)は、視聴者の反応をリアルタイムに反映しつつ、静的スタイルデータによってある程度の統一感のある映像を提供することができる。
 映像処理装置1では、さらに、同期処理部17が、第1映像のフレームと第2映像のフレームとを時間同期させ、上記の出力部18が、上記の第2映像とともに、第2映像に時間同期された第1映像を出力する。これにより、スタイル変換に要する時間の遅れの影響のない第1映像と第2映像の映像セットを得ることができる。
 近年、リアルタイムでのスタイル変換を可能とする試みが提案されている。しかし、上記実施形態のように、視聴者の反応を動的スタイルとして取り入れ、しかもその取り入れる割合を自在に制御可能とする仕組みまで具備するシステムは知られていない。公開されている文献を単純に組み合わせても、上記実施形態に係るスタイル変換処理を実現することは容易ではない。
 実施形態に係る映像処理装置1によれば、事前に設定した固定的なスタイル(静的スタイル)だけではなく、舞台を視聴するあらゆる視聴者のリアクションを取り入れた、動的なスタイル変換を実現することができる。
 (変形例)
 図4は、映像処理装置1の機能構成の変形例を示す。この変形例では、映像処理装置1は、複数の視聴者の反応をスタイル変換に適用する。複数の視聴者は、例えば、公演会場にいる視聴者、リモート会場にいる視聴者、または自宅で端末のディスプレイ上で視聴する視聴者を含む。
 図4に示す映像処理装置1は、反応取得部13および動的スタイルデータ生成部14の代わりに複数の反応取得部131,・・・,13Nおよび複数の動的スタイルデータ生成部141,・・・,14Nを備える点を除き、図1に示した映像処理装置1と同様の構成を有する。以下では、主に図1に示した映像処理装置1との相違について説明する。
 反応取得部131,・・・,13Nは、それぞれ、1または複数の視聴者の反応を表す情報を取得する。反応取得部131,・・・,13Nは、それぞれ異なる種類の反応を表す情報を取得してよい。例えば、ある反応取得部131は、公演会場の視聴者がケミカルライトを振る映像を取得し、別の反応取得部13xは、自宅で視聴する視聴者が端末に入力した声を取得してもよい。
 動的スタイルデータ生成部141,・・・,14Nは、それぞれ、反応取得部131,・・・,13Nから取得された反応を表す情報を受け取り、対応する動的スタイルデータを生成する。動的スタイルデータ生成部141,・・・,14Nは、それぞれ、異なる処理を用いて異なる種類の動的スタイルデータを生成してよい。
 なお、図4に示す映像処理装置1も、図2に例示したのと同じハードウェア構成例を採用することができる。
 この変形例により、地理的に異なる位置にいる複数の視聴者の反応を反映したスタイル変換を実行することができる。スタイル変換後の映像を視聴者に提示することによって、視聴者は、公演会場にいるか、リモート会場にいるか、自宅にいるかを問わず、他の視聴者との一体感を感じることができる。同様に、スタイル変換後の映像を演者自身に提示することによって、演者は、目の前にいる観客だけでなく、遠隔地にいる視聴者の反応をも感知することができる。
 [他の実施形態]
 なお、この発明は上記実施形態に限定されるものではない。例えば、映像処理装置1が備える各機能を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
 スタイル変換に用いられる動的スタイルデータは、1つの種類のデータに限定されない。例えば、ケミカルライトの色を反映する動的スタイルデータと、視聴者の声の大きさを反映する動的スタイルデータとを任意の割合で組み合わせ、さらに上記のように設定された適用割合で静的スタイルデータを適用して、複数のスタイルを用いたスタイル変換を実現することも可能である。
 以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。
 以上で記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体(記憶媒体)に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 1…映像処理装置
 11…映像取得部
 12…スタイル取得部
 13,131,13N…反応取得部
 14,141,14N…動的スタイルデータ生成部
 15…適用割合設定部
 16…スタイル変換部
 17…同期処理部
 18…出力部
 19…静的スタイルデータ記憶部
 21…ユーザインタフェース
 101…プロセッサ
 102…RAM
 103…ROM
 104…補助記憶装置
 105…入力装置
 106…出力装置
 107…通信モジュール

Claims (6)

  1.  イベントに関連する第1映像を取得する映像取得部と、
     前記イベントを視聴する視聴者の反応を表す情報を取得する反応取得部と、
     前記視聴者の反応を表す情報をもとに動的スタイルデータを生成する生成部と、
     前記第1映像に対して前記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第2映像を生成する変換部と、
     前記第2映像を出力する出力部と
     を備える、映像処理装置。
  2.  静的スタイルデータを取得するスタイル取得部と、
     前記静的スタイルデータと前記動的スタイルデータとの適用割合を設定する設定部と、
     をさらに備え、
     前記変換部は、設定された適用割合を用いて前記静的スタイルデータと前記動的スタイルデータとを適用して、前記スタイル変換を実行する、
     請求項1に記載の映像処理装置。
  3.  前記第1映像のフレームと前記第2映像のフレームとを時間同期させる同期処理部をさらに備え、
     前記出力部は、前記第2映像とともに、前記第2映像に時間同期された前記第1映像を出力する、
     請求項1または2に記載の映像処理装置。
  4.  前記反応取得部は、前記イベントを視聴する前記視聴者を撮影した映像、前記イベントに係るインターネットサイトへの書き込み、または前記視聴者が端末に向かって発声した声を、前記視聴者の反応を表す情報として取得する、請求項1乃至3のいずれか一項に記載の映像処理装置。
  5.  映像処理装置が実行する映像処理方法であって、
     イベントに関連する第1映像を取得することと、
     前記イベントを視聴する視聴者の反応を表す情報を取得することと、
     前記視聴者の反応を表す情報をもとに動的スタイルデータを生成することと、
     前記第1映像に対して前記動的スタイルデータを用いたスタイル変換を実行し、スタイル変換済みの第2映像を生成することと、
     前記第2映像を出力することと
     を備える、映像処理方法。
  6.  請求項1乃至4のいずれか一項に記載の装置の各部による処理をコンピュータに実行させるプログラム。
     
PCT/JP2021/029145 2021-08-05 2021-08-05 映像処理装置、映像処理方法およびプログラム WO2023012976A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023539490A JPWO2023012976A1 (ja) 2021-08-05 2021-08-05
PCT/JP2021/029145 WO2023012976A1 (ja) 2021-08-05 2021-08-05 映像処理装置、映像処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029145 WO2023012976A1 (ja) 2021-08-05 2021-08-05 映像処理装置、映像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023012976A1 true WO2023012976A1 (ja) 2023-02-09

Family

ID=85154349

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/029145 WO2023012976A1 (ja) 2021-08-05 2021-08-05 映像処理装置、映像処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023012976A1 (ja)
WO (1) WO2023012976A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111669502A (zh) * 2020-06-19 2020-09-15 北京字节跳动网络技术有限公司 目标对象显示方法、装置及电子设备
WO2020183630A1 (ja) * 2019-03-13 2020-09-17 バルス株式会社 ライブ配信システムおよびライブ配信方法
US20210110220A1 (en) * 2019-10-15 2021-04-15 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020183630A1 (ja) * 2019-03-13 2020-09-17 バルス株式会社 ライブ配信システムおよびライブ配信方法
US20210110220A1 (en) * 2019-10-15 2021-04-15 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111669502A (zh) * 2020-06-19 2020-09-15 北京字节跳动网络技术有限公司 目标对象显示方法、装置及电子设备

Also Published As

Publication number Publication date
JPWO2023012976A1 (ja) 2023-02-09

Similar Documents

Publication Publication Date Title
CN110012352B (zh) 图像特效处理方法、装置及视频直播终端
JP7135141B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
CN104883516B (zh) 一种制作实时演唱视频的方法及***
US9143721B2 (en) Content preparation systems and methods for interactive video systems
US10965783B2 (en) Multimedia information sharing method, related apparatus, and system
CN113518232B (zh) 视频显示方法、装置、设备和存储介质
EP3044952A1 (en) Depth key compositing for video and holographic projection
JP2023179719A (ja) コンピュータプログラム、方法及びサーバ装置
KR20150105058A (ko) 온라인을 이용한 혼합현실형 가상 공연 시스템
CN112637670A (zh) 视频生成方法及装置
CN114296949A (zh) 一种虚拟现实设备及高清晰度截屏方法
CN110730340B (zh) 基于镜头变换的虚拟观众席展示方法、***及存储介质
JP4572615B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
WO2020258907A1 (zh) 虚拟物品的生成方法、装置及设备
WO2023012976A1 (ja) 映像処理装置、映像処理方法およびプログラム
CN113099309A (zh) 视频处理方法及装置
CN112153472A (zh) 一种画面特效的生成方法及装置、存储介质及电子设备
JP4321751B2 (ja) 描画処理装置、描画処理方法および描画処理プログラム、並びにそれらを備えた電子会議システム
CN106331525A (zh) 一种互动电影的实现方法
KR102404130B1 (ko) 텔레 프레젠스 영상 송신 장치, 텔레 프레젠스 영상 수신 장치 및 텔레 프레젠스 영상 제공 시스템
US20150289032A1 (en) Main and immersive video coordination system and method
Das et al. Augmented world: real time gesture based image processing tool with intel realsense™ technology
CN116962746A (zh) 基于连麦直播的线上合唱方法、装置及线上合唱***
JP5111405B2 (ja) コンテンツ制作システム及びコンテンツ制作プログラム
JP5111422B2 (ja) コンテンツ制作システム及びコンテンツ制作プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21952801

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023539490

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE