WO2017026387A1 - 映像処理装置、映像処理方法および記録媒体 - Google Patents

映像処理装置、映像処理方法および記録媒体 Download PDF

Info

Publication number
WO2017026387A1
WO2017026387A1 PCT/JP2016/073074 JP2016073074W WO2017026387A1 WO 2017026387 A1 WO2017026387 A1 WO 2017026387A1 JP 2016073074 W JP2016073074 W JP 2016073074W WO 2017026387 A1 WO2017026387 A1 WO 2017026387A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
content data
moving image
editing
data
Prior art date
Application number
PCT/JP2016/073074
Other languages
English (en)
French (fr)
Inventor
近藤 多伸
祐 高橋
佳孝 浦谷
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2017026387A1 publication Critical patent/WO2017026387A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present invention relates to a technique for processing a moving image.
  • Patent Document 1 discloses a technique for reproducing a multi-angle video by sequentially switching a plurality of moving images recorded at different positions in accordance with subject motion information.
  • an object of the present invention is to generate a moving image in which moving images of a plurality of content data are combined.
  • a video processing device includes a section setting unit that sets a specific section common on the time axis for a plurality of content data including moving images synchronized with each other, Editing processing for generating editing data representing edited moving images including a first section in which any moving picture of the plurality of content data is displayed and a second section in which a moving picture of a specific section in each of the plurality of content data is displayed.
  • Editing processing for generating editing data representing edited moving images including a first section in which any moving picture of the plurality of content data is displayed and a second section in which a moving picture of a specific section in each of the plurality of content data is displayed.
  • FIG. 1 is a configuration diagram illustrating the configuration of a video processing apparatus 10 according to the first embodiment.
  • the video processing device 10 is a computer system for processing sound (for example, voice or musical sound) and moving images, and as illustrated in FIG. 1, the control device 22, the storage device 24, the communication device 26, the display device 32, and the release device 32.
  • a sound device 34 and an operation device 36 are provided.
  • the video processing apparatus 10 can be suitably realized by a portable information processing apparatus such as a mobile phone, a smartphone, a tablet terminal, or a personal computer, but the video processing apparatus 10 can also be realized by a stationary information processing apparatus. is there.
  • the control device 22 is an arithmetic processing device (for example, CPU) that comprehensively controls each element of the video processing device 10.
  • the communication device 26 communicates with a plurality (N) of recording devices 12 (N is a natural number of 2 or more).
  • Each of the N recording devices 12 is video equipment including a sound collecting device that collects sound and an imaging device that picks up a moving image, and the sound collected by the sound collecting device and the moving image picked up by the imaging device Data (hereinafter referred to as “content data”) X is generated.
  • content data data
  • an information terminal such as a mobile phone or a smartphone equipped with a recording function can be used as the recording device 12.
  • the communication device 26 receives content data X (moving image file) from the N recording devices 12. Specifically, the communication device 26 receives content data X from each of the N recording devices 12 by known short-range wireless communication such as Wi-Fi (registered trademark) or Bluetooth (registered trademark). However, the communication method between the communication device 26 and each recording device 12 is arbitrary. For example, the communication device 26 can communicate with each recording device 12 by wire.
  • Wi-Fi registered trademark
  • Bluetooth registered trademark
  • the storage device 24 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, and stores a program executed by the control device 22 and various data used by the control device 22.
  • the storage device 24 of the first embodiment stores N content data X received by the communication device 26 from the N recording devices 12.
  • FIG. 2 illustrates N pieces of content data X (X1, X2,..., XN) received from the N recording devices 12 by the communication device 26.
  • any one piece of content data X includes sound and moving images recorded in parallel with each other.
  • the storage device 24 (that is, a cloud storage) can be installed in a server with which the video processing device 10 can communicate. That is, the storage device 24 can be omitted from the video processing device 10.
  • the N recording devices 12 record, for example, sound and video of a common recording target (subject) at different positions in parallel.
  • a plurality of recording devices 12 are arranged at different points in a common acoustic space such as an acoustic hall, and each recording device 12 records, for example, the state of a stage or a spectator from different angles to generate content data X.
  • the file format of the content data X is arbitrary.
  • the user of each recording device 12 individually starts recording by the recording device 12 triggered by a signal such as a shout, for example. Accordingly, the recording start point of the sound and the moving image does not exactly match among the N pieces of content data X, and may differ for each content data X.
  • the N recording devices 12 record a common subject in parallel, the N pieces of content data X include common sounds (however, acoustic characteristics such as sound volume may be different).
  • the display device 32 (for example, a liquid crystal display panel) in FIG. 1 displays an image instructed from the control device 22.
  • the sound emitting device 34 (for example, a speaker or headphones) emits sound instructed from the control device 22.
  • the operation device 36 is an input device that receives an instruction from the user, and includes, for example, a plurality of operators that detect an operation by the user or a touch panel that detects a user's contact with the display surface of the display device 32.
  • the control device 22 executes a program stored in the storage device 24, thereby providing a plurality of functions (synchronization processing unit 42, section setting unit 44, and editing processing unit 46) for processing the N pieces of content data X. Realize.
  • a configuration in which a part of the function of the control device 22 is realized by an electronic circuit dedicated for sound processing or image processing, or a configuration in which the function of the control device 22 is distributed to a plurality of devices may be employed.
  • the synchronization processing unit 42 synchronizes the N pieces of content data X generated by the recording device 12 with each other.
  • the synchronization of a plurality of content data X means a state in which the time axes of the sound and moving image of each content data X are matched with each other for N pieces of content data X. That is, as illustrated in FIG. 3, the synchronization processing unit 42 has a specific time in each content data X (for example, a time when a specific sound is generated) across N pieces of content data X at a common time on the time axis. The position on the time axis of each content data X is adjusted so that A known technique can be arbitrarily employed for synchronizing the N pieces of content data X.
  • the N pieces of content data X are analyzed by analyzing the sound of each piece of content data X.
  • a configuration in which the two are synchronized with each other is preferable. That is, the position of each content data X on the time axis is adjusted so that the time variation of the sound of each content data X (that is, the sound pressure waveform) matches on the time axis over the N pieces of content data X.
  • the editing processing unit 46 in FIG. 1 is an editing process that integrates N pieces of content data X (that is, N pieces of content data X in which sound and moving images are synchronized with each other on the time axis) after being processed by the synchronization processing unit 42.
  • Edit data Y is generated.
  • the edit data Y is a moving image file including a moving image (hereinafter referred to as “edited moving image”) and sound.
  • the edit processing unit 46 extracts at least one section from each of the N pieces of content data X, and generates the edit data Y by connecting these extracted sections to each other.
  • N pieces of content data X are used as editing data materials.
  • the edit data generated by the edit processing unit 46 is stored in the storage device 24. Note that the file format of the edit data is arbitrary.
  • the editing processing unit 46 of the first embodiment generates an edited moving image having a time length less than a predetermined value (for example, 10 seconds). That is, the edited moving image generated by the editing processing unit 46 is limited to a short time.
  • the edited moving image of the edited data generated by the editing processing unit 46 is displayed on the display device 32, and the sound of the edited data is emitted from the sound emitting device 34. That is, the display device 32 and the sound emitting device 34 function as a playback device that plays back the edited data.
  • the content of the editing process by the editing processing unit 46 is controlled in accordance with an instruction from the user to the operation device 36.
  • FIG. 4 is a schematic diagram of an editing instruction screen 60 displayed on the display device 32 in order for the user to instruct the contents of the editing process.
  • the editing instruction screen 60 includes an editing area 62 and a confirmation area 64.
  • N image sequences 66 representing the moving image of the content data X processed by the synchronization processing unit 42 are arranged in parallel under a common time axis (horizontal axis).
  • the arbitrary image data 66 of the content data X is, for example, an image in which a plurality of images (capture images) included in the moving image of the content data X are arranged in time series along the time axis.
  • the confirmation area 64 a moving image of one piece of content data X selected by the user by operating the operation device 36 is displayed. Therefore, the user can instruct the contents of the editing process while confirming the contents of the moving image of the desired content data X at any time in the confirmation area 64.
  • the user can instruct a desired section (hereinafter referred to as “specific section”) S on the time axis in the editing area 62 by appropriately operating the operation device 36 while visually recognizing the editing instruction screen 60. is there.
  • the section setting unit 44 in FIG. 1 sets a specific section S instructed by the user by operating the operation device 36.
  • the specific section S is a partial section that is common on the time axis for the N pieces of content data X. That is, the time of the start point or end point of the specific section S is the same time on the time axis over the moving images of the N pieces of content data X.
  • the time length TS of the specific section S is set to a numerical value according to an instruction from the user. However, the time length TS of the specific section S can be fixed.
  • FIG. 5 is an explanatory diagram of the relationship between the moving image of the N pieces of content data X processed by the synchronization processing unit 42 and the edited moving image M of the editing data Y generated by the editing processing unit 46.
  • the edited moving image M of the edited data Y generated from the N pieces of content data X (X1, X2,..., XN) by the editing processing unit 46 is divided into a plurality of sections on the time axis. Each section is classified as one of the first section Q1 and the second section Q2.
  • two first sections Q1 and one second section Q2 are shown for convenience, but the number of first sections Q1 and second sections Q2 in the edited video M is arbitrary. It is.
  • the edited moving image M can include a plurality of second sections Q2.
  • the first section Q1 is a section in which any moving image and sound of the N pieces of content data X are reproduced. Specifically, the moving image and sound of one piece of content data X selected by the user with respect to the operation device 36 among the N pieces of content data X are arranged in the first section Q1.
  • the moving image of the content data X1 (the section immediately before the specific section S) is arranged in the first section Q1 immediately before the second section Q2, and the content data X2 is stored in the first section Q1 immediately after the second section Q2.
  • the case where the moving image (section immediately after the specific section S) is arranged is illustrated.
  • the second section Q2 is a section in which the moving image of the specific section S in each of the N pieces of content data X is displayed in time series. That is, among the moving images of the content data X, N moving images Z (Z1, Z2,..., ZN) obtained by extracting moving images Z in the common specific section S on the time axis over the N pieces of content data X are the second. Arranged in a time series in the interval Q2. Therefore, the time length of the second section Q2 corresponds to N times (TS ⁇ N) of the time length TS of the specific section S. Further, in the second section Q2, the sound in the specific section S of the content data X is emitted in parallel with the display of the moving picture Z in the specific section S in each content data X. Note that when displaying each of the N moving pictures Z in the second section Q2, it is also possible to repeatedly reproduce the sound in the specific section S in any one piece of content data X.
  • the order of the arrangement of N videos Z is arbitrary.
  • a configuration is adopted in which the user sets the priorities of each of the N pieces of content data X in advance by operating the operation device 36 and arranges the N moving pictures Z in the order of priorities in the second section Q2.
  • each piece of content data X includes shooting information indicating the angle of view (shooting range) at the time of imaging
  • N in the order of the angle of view (for example, the order from one of the wide angle side and the telephoto side to the other) in the second section Q2.
  • a configuration in which N moving images Z are arranged in a random order in the second section Q2 is also assumed.
  • the N recording devices 12 have a common time zone (specific section).
  • each of the N moving pictures Z (Z1, Z2, Z3,%) Photographed at different positions and angles is sequentially displayed in a time division manner.
  • FIG. 7 is a flowchart of the operation of the video processing apparatus 10.
  • the process of FIG. 7 is started in response to an instruction from the user to the operation device 36.
  • the control device 22 displays the editing instruction screen 60 illustrated in FIG. 4 on the display device 32 (S1), receives an instruction from the user to the operation device 36, and responds to the instruction.
  • the process is executed (S2).
  • the control device 22 (section setting unit 44) sets the first section Q1 and the second section Q2 on the time axis in accordance with an instruction from the user to the operation device 36, and is arranged in each first section Q1.
  • Content data X to be selected from N Further, the control device 22 sets the specific section S in accordance with an instruction from the user to the operation device 36.
  • the reception of the instruction from the user (S2) is repeated until the user instructs execution of the editing process (S3: NO).
  • the control device 22 (editing processing unit 46) generates editing data Y by editing the N pieces of content data X (S4). .
  • the first section Q1 in which any moving image of the N content data X is displayed, and the moving image Z in the specific section S in each of the N content data X is displayed in time series.
  • Editing data Y representing the edited moving image M including the second section Q2 is generated. For example, let us now focus on arbitrary two pieces of content data X (first content data X and second content data X) out of N pieces.
  • Editing data Y of the edited moving image M including the two sections Q2 is generated.
  • the control device 22 displays the edited moving image M of the editing data Y generated in the editing process (S4) on the display device 32 and emits the sound of the editing data Y from the sound emitting device 34 (S5).
  • the specific section S in each of the N pieces of content data X is displayed.
  • Editing data Y of the edited moving image M including the second section Q2 in which N moving images Z are displayed is generated.
  • a plurality of moving images of the content data X in the specific section S that are common on the time axis are combined. Therefore, it is possible to generate an impressive edited moving image M that allows the viewer to view the state of the subject in the specific section S photographed at different positions and angles in a common time zone.
  • the impressive edited video M can be viewed from various directions. Is generated.
  • a particularly impressive event for example, a scoring scene of a sports video
  • the edited moving image M can be generated.
  • each of the pieces of content data X is temporally mutually different.
  • an appropriate edited moving image M in which the matched N pieces of content data X are integrated can be generated.
  • the N pieces of content data X are synchronized with each other using the sound of the content data X, for example, the content of the moving image is analyzed and compared with a configuration in which the N pieces of content data X are synchronized.
  • the time length TS of the specific section S is set according to the instruction from the user.
  • the time length T of the second section Q2 can be set according to the instruction from the user. is there.
  • the time length TS of the specific section S is set to a time (T / N) obtained by dividing the time length T of the second section Q2 by the total number N of content data X.
  • the second section Q2 can be limited to a desired time length T regardless of the total number N of content data X.
  • Second Embodiment A second embodiment of the present invention will be described.
  • symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate
  • FIG. 8 is an explanatory diagram of the edit data Y generated by the edit processing unit 46 of the second embodiment.
  • FIG. 8 illustrates a playback screen 68 displayed on the display device 32 in the second section Q2 of the edited moving image M represented by the edited data Y.
  • the editing processing unit 46 according to the second embodiment parallels in the second section Q ⁇ b> 2 of the edited moving picture M in a region where the moving picture Z in the specific section S in each of the N pieces of content data X is different.
  • Edit data Y is generated so as to be displayed.
  • N moving pictures Z (Z1, Z2,..., ZN obtained by extracting the moving picture Z in the specific section S over the N pieces of content data X from the moving picture of the content data X. ) are arranged in different areas of the playback screen 68 (display device 32). Therefore, the time length of the second section Q2 is equivalent to the time length TS of the specific section S.
  • any moving image and sound of the N pieces of content data X are reproduced as in the first embodiment.
  • a moving image of one content data X is displayed over the entire display area of the display device 32.
  • a plurality of moving pictures Z in the specific section S are displayed in different areas in the display area (thus, an area narrower than the area in which the moving pictures in the first section Q1 are displayed).
  • the N pieces of moving pictures Z in the specific section S in each of the N pieces of content data X is generated. Therefore, as in the first embodiment, it is possible to generate an impressive edited moving image M in which moving images of a plurality of content data X in a specific section S that are common on the time axis are combined.
  • the editing data Y of the edited moving image M including the second section Q2 in which the N moving pictures Z in the specific section S are displayed in parallel in different areas is generated.
  • an impressive edited moving image M that allows the viewer to view in parallel the state of the subject in the specific section S photographed at different positions and angles. For example, by selecting the specific section S so as to include a particularly impressive event in the moving image, an impressive edited moving image M that allows the state of the event to be viewed in parallel from various directions is generated.
  • the editing processing unit 46 includes a section (second section Q2) in which the moving image Z of the specific section S in each of the N pieces of content data is displayed. It is comprehensively expressed as an element that generates the edit data Y of the edited moving image M. It should be noted that the moving image Z in the specific section S can be arranged in the second section Q2 for a plurality of pieces of content data X that are a part of the N pieces of content data X stored in the storage device 24.
  • the edited video M includes a plurality of second sections Q2
  • the configuration in which all the second sections Q2 in the edited video M include the same number of videos Z, or the total number of videos Z is every second section Q2. Different configurations are envisaged.
  • the edit data Y is generated by connecting the sections selected from each of the N pieces of content data X to each other.
  • the generation method of the edit data Y is not limited to the above examples.
  • the edit processing unit 46 can generate the edit data Y as control data that designates a section extracted from each of the N pieces of content data X for each content data X. That is, the editing data Y itself does not need to include moving images or music, and editing data Y that indicates the contents of editing processing using N pieces of content data X is generated.
  • direct editing cutting out or connecting specific sections
  • the section setting unit 44 sets the specific section S in response to an instruction from the user, but the method for setting the specific section S is not limited to the above examples.
  • the section setting unit 44 detects a specific sound (hereinafter referred to as “specific sound”) by analyzing the sound of the content data X, it is also possible to set the specific section S according to the time of the specific sound. is there.
  • the section setting unit 44 detects a specific sound by analyzing the sound over N pieces of content data X or by analyzing the sound of one piece of content data X selected in advance from N pieces.
  • a specific type of sound source for example, a performance sound of a specific musical instrument
  • sound generated by a specific word for example, sound generated by a specific word
  • sound whose volume exceeds a predetermined threshold or sound in a predetermined frequency band
  • Known acoustic analysis techniques for example, sound source separation, voice recognition, feature amount extraction, etc. can be used to detect the specific sound.
  • the section setting unit 44 sets, for example, a section extending from a specific sound point forward or backward to a predetermined length, a predetermined length section including a specific sound time point, or a section between successive specific sounds as the specific section S.
  • the editing data Y of the impressive edited moving image M in which the moving image Z of the specific section S before and after the specific sound is displayed in the second section Q2 in the N pieces of content data X can be generated.
  • a specific section S using an announcement at the time of scoring a sports video (for example, a voice “goal!”)
  • an edited video M that allows viewing the scoring scene from various directions is generated. . Therefore, it is possible to generate an edited moving image M that is impressive for the viewer.
  • N pieces of content data X are acquired from the recording device 12 connected to the video processing device 10, but the configuration for acquiring the N pieces of content data X is limited to the above examples. Not. For example, a configuration in which N pieces of content data X are acquired from a portable recording medium such as an optical disc, or a configuration in which N pieces of content data X are acquired via a communication network such as the Internet may be employed.
  • the edit data Y generated by the edit processing unit 46 is reproduced by the display device 32 and the sound emitting device 34.
  • the use method (output form) of the edit data Y is arbitrary.
  • the edit data Y can be transmitted to an external device.
  • the configuration is such that the editing data Y is transmitted to another communication terminal such as a mobile phone or a smartphone, or the editing data Y generated by the editing processing unit 46 is posted to a video posting site, and a plurality of users
  • the configuration shared by is preferable. It is also possible to write the edit data Y to a portable recording medium (for example, a semiconductor memory) attached to the video processing apparatus 10.
  • a portable recording medium for example, a semiconductor memory
  • the synchronization processing unit 42 synchronizes the N content data X.
  • the configuration in which the N recording devices 12 start recording simultaneously by communication between the recording devices 12 is used. Then, N pieces of content data X synchronized with each other are provided to the video processing apparatus 10. Therefore, the configuration (synchronization processing unit 42) for synchronizing the N pieces of content data X with each other can be omitted from the video processing apparatus 10.
  • the video processing apparatus 10 exemplified in each of the above embodiments is realized by the cooperation of the control device 22 and the program as described above.
  • the program may be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included.
  • “non-transitory recording medium” includes all computer-readable recording media except for transient propagation signals (transitory, “propagating” signal), and does not exclude volatile recording media.
  • the program exemplified above can be provided in the form of distribution via a communication network and installed in a computer.
  • the present invention can also be specified as an operation method (video processing method) of the video processing apparatus 10 according to each of the above-described embodiments.
  • a computer including a single device as well as a computer system including a plurality of devices separated from each other
  • a specific section S that is common on the time axis is set for a plurality of content data X including the first section Q1 in which any moving image of the plurality of content data X is displayed, and each of the plurality of content data X is specified
  • Edit data Y representing the edited movie M including the second zone Q2 in which the movie Z of the zone S is displayed is generated.
  • the video processing apparatus 10 includes a section setting unit 44 that sets a specific section S that is common on the time axis for a plurality of pieces of content data X including moving images synchronized with each other, and a plurality of sections Editing representing an edited moving image M including a first section Q1 in which any moving image of the content data X is displayed and a second section Q2 in which a moving image Z in a specific section S in each of the plurality of content data X is displayed. And an edit processing unit 46 for generating data Y.
  • the edit processing unit 46 edits the edited moving image M including the second interval Q2 in which the moving image Z of the specific interval S in each of the plurality of content data X is displayed in time series. Y is generated.
  • the edit processing unit 46 since a plurality of moving images Z in a specific section S that are common on the time axis are displayed in time series, an impressive edited moving image M in which a plurality of moving images Z shot in a common time zone are sequentially switched. There is an advantage that can be generated.
  • the editing processing unit 46 causes the moving image Z of the specific section S in each of the plurality of content data X to appear in the second section Q2 in the order according to the instruction from the user. Edit data Y of the edited moving image M displayed in the series is generated.
  • the moving picture Z in the specific section S in each of the plurality of content data X is displayed in time series in the second section Q2 in the order according to the instruction from the user. It is possible to generate an edited moving image M reflecting the above.
  • the editing processing unit 46 performs the operation in the second section Q2 in the order of the moving picture Z of the specific section S in each of the plurality of content data X in the order according to the angle of view at the time of imaging.
  • Edit data Y of the edited moving image M displayed in the series is generated.
  • the moving image Z of the specific section S in each of the plurality of content data X is displayed in time series in the second section Q2 in the order according to the angle of view at the time of shooting. It is possible to generate an edited moving image M in which the angle of view of the plurality of moving images Z changes from one of the wide angle side and the telephoto side to the other.
  • the editing processing unit 46 has the time length set in accordance with the instruction from the user for the moving picture Z in the specific section S in each of the plurality of content data X. Edit data Y of the edited moving image M displayed in time series in the second section Q2 is generated.
  • the editing processing unit 46 includes an edited moving picture M including a second section Q2 in which the moving picture Z of the specific section S in each of the plurality of content data X is displayed in parallel in different areas. Edit data Y is generated.
  • the plurality of moving images Z in the specific section S that are common on the time axis are displayed in parallel in different areas, the viewer can check the plurality of moving images Z taken in the common time zone in parallel.
  • An impressive edited moving image M can be generated.
  • each of the plurality of content data X includes sound, and includes a synchronization processing unit that synchronizes the plurality of content data X with each other using sound, and includes an editing processing unit 46 generates edit data Y from a plurality of content data X after processing by the synchronization processing unit.
  • the plurality of content data X are synchronized with each other before execution of the editing process, there is an advantage that the edited moving image M in which the plurality of content data X that are mutually matched in time can be integrated can be generated.
  • the section setting unit 44 sets the specific section S according to an instruction from the user.
  • the section setting unit 44 it is possible to generate the edited moving image M including the moving image Z of the specific section S reflecting the user's preference and intention in each of the plurality of content data X.
  • the section setting unit 44 may specify the specific section according to the time point of the specific sound detected by the acoustic analysis of one or more pieces of content data X among the plurality of content data X. Set S.
  • the specific sound is, for example, sound generated by a specific type of sound source, sound generated by a specific word, sound whose volume exceeds a predetermined threshold, or sound in a predetermined frequency band.
  • a preferred aspect (aspect 10) of the present invention is an operation method (video processing method) of the video processing apparatus 10 according to each embodiment exemplified above.
  • the computer sets a specific section S common on the time axis for a plurality of content data X including moving images synchronized with each other, and any of the plurality of content data X
  • the editing data Y representing the edited moving image M including the first section Q1 in which the moving picture is displayed and the second section Q2 in which the moving picture Z of the specific section S in each of the plurality of content data X is displayed is generated.
  • a preferred aspect (aspect 11) of the present invention is a computer-readable recording medium that records a program for causing a computer to function as the video processing apparatus 10 according to each of the embodiments exemplified above.
  • the recording medium according to aspect 11 includes a section setting unit 44 that sets a specific section S that is common on the time axis for a plurality of pieces of content data X including moving images synchronized with each other, Editing data representing an edited moving image M including a first section Q1 in which any moving picture of the content data X is displayed and a second section Q2 in which a moving picture Z in a specific section S in each of the plurality of content data X is displayed.
  • a program that functions as the editing processing unit 46 that generates Y is stored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

映像処理装置は、相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、複数のコンテンツデータの何れかの動画が表示される第1区間と、複数のコンテンツデータの各々における特定区間の動画が表示される第2区間とを含む編集動画を表す編集データを生成する編集処理部とを具備する。

Description

映像処理装置、映像処理方法および記録媒体
 本発明は、動画を処理する技術に関する。
 音響と動画とを含む素材を編集する各種の技術が従来から提案されている。例えば特許文献1には、相異なる位置で収録された複数の動画を被写体の動き情報に応じて順次に切替えることでマルチアングル映像を再生する技術が開示されている。
特開2007-20092号公報
 しかし、特許文献1の技術では、複数の動画が順次に切替わりながら再生されるに過ぎず、例えば共通の場面を収録した複数の多様な動画が組合わされた印象的な動画を生成することは実際には困難である。以上の事情を考慮して、本発明は、複数のコンテンツデータの動画が組合わされた動画を生成することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る映像処理装置は、相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、複数のコンテンツデータの何れかの動画が表示される第1区間と、複数のコンテンツデータの各々における特定区間の動画が表示される第2区間とを含む編集動画を表す編集データを生成する編集処理部とを具備する。以上の構成では、複数のコンテンツデータの何れかの動画が表示される第1区間に加えて、複数のコンテンツデータにおける特定区間の動画が表示される第2区間を含む編集動画の編集データが生成される。したがって、時間軸上で共通する特定区間内の複数のコンテンツデータの動画が組合わされた編集動画を生成することが可能である。
本発明の第1実施形態に係る映像処理装置の構成を例示する構成図である。 複数のコンテンツデータの説明図である。 複数のコンテンツデータを相互に同期させる処理の説明図である。 編集指示画面の模式図である。 変数処理の説明図である。 編集動画の説明図である。 映像処理の動作のフローチャートである。 第2実施形態における編集動画の説明図である。
<第1実施形態>
 図1は、第1実施形態の映像処理装置10の構成を例示する構成図である。映像処理装置10は、音響(例えば音声または楽音)および動画を処理するためのコンピュータシステムであり、図1に例示される通り、制御装置22と記憶装置24と通信装置26と表示装置32と放音装置34と操作装置36とを具備する。例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の可搬型の情報処理装置で映像処理装置10は好適に実現され得るが、据置型の情報処理装置で映像処理装置10を実現することも可能である。
 制御装置22は、映像処理装置10の各要素を統括的に制御する演算処理装置(例えばCPU)である。通信装置26は、複数(N個)の収録装置12と通信する(Nは2以上の自然数)。N個の収録装置12の各々は、音響を収音する収音装置と動画を撮像する撮像装置とを具備する映像機器であり、収音装置が収音した音響と撮像装置が撮像した動画とを表すデータ(以下「コンテンツデータ」という)Xを生成する。音響および動画の収録に専用されるデジタルカムコーダ等の映像機器のほか、収録機能を搭載した携帯電話機またはスマートフォン等の情報端末が収録装置12として利用され得る。第1実施形態の通信装置26は、N個の収録装置12からコンテンツデータX(動画ファイル)を受信する。具体的には、通信装置26は、例えばWi-Fi(登録商標)またはBluetooth(登録商標)等の公知の近距離無線通信によりN個の収録装置12の各々からコンテンツデータXを受信する。ただし、通信装置26と各収録装置12との通信方式は任意であり、例えば通信装置26が有線で各収録装置12と通信することも可能である。
 記憶装置24は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成され、制御装置22が実行するプログラムと制御装置22が使用する各種のデータとを記憶する。第1実施形態の記憶装置24は、N個の収録装置12から通信装置26が受信したN個のコンテンツデータXを記憶する。図2には、通信装置26がN個の収録装置12から受信したN個のコンテンツデータX(X1,X2,……,XN)が例示されている。図2に例示される通り、任意の1個のコンテンツデータXは、相互に並行に収録された音響および動画を包含する。なお、映像処理装置10が通信可能なサーバに記憶装置24(すなわちクラウドストレージ)を設置することも可能である。すなわち、映像処理装置10から記憶装置24は省略され得る。
 N個の収録装置12は、例えば相異なる位置で共通の収録対象(被写体)の音響および動画を並行に収録する。例えば、音響ホール等の共通の音響空間の相異なる地点に複数の収録装置12が配置され、各収録装置12が別個の角度から例えば舞台または観客の様子を収録してコンテンツデータXを生成する。なお、コンテンツデータXのファイル形式は任意である。各収録装置12の利用者は、例えば掛け声等の合図を契機として収録装置12による収録を個々に開始する。したがって、音響および動画の収録の開始点は、N個のコンテンツデータXの間で厳密には一致せず、コンテンツデータX毎に相違し得る。ただし、N個の収録装置12は共通の被写体を並行に収録するから、N個のコンテンツデータXは、相互に共通の音響(ただし音量等の音響特性は相違し得る)を含有する。
 図1の表示装置32(例えば液晶表示パネル)は、制御装置22から指示された画像を表示する。放音装置34(例えばスピーカーまたはヘッドホン)は、制御装置22から指示された音響を放音する。操作装置36は、利用者からの指示を受付ける入力機器であり、例えば利用者による操作を検知する複数の操作子、または、表示装置32の表示面に対する利用者の接触を検知するタッチパネルで構成される。
 制御装置22は、記憶装置24に記憶されたプログラムを実行することで、N個のコンテンツデータXを処理するための複数の機能(同期処理部42,区間設定部44および編集処理部46)を実現する。なお、制御装置22の一部の機能を音響処理または画像処理の専用の電子回路で実現した構成、または、制御装置22の機能を複数の装置に分散した構成も採用され得る。
 同期処理部42は、収録装置12が生成したN個のコンテンツデータXを相互に同期させる。複数のコンテンツデータXの同期とは、各コンテンツデータXの音響および動画の時間軸をN個のコンテンツデータXについて相互に合致させた状態を意味する。すなわち、同期処理部42は、図3に例示される通り、各コンテンツデータXにおける特定の時刻(例えば特定の音響が発音された時点)がN個のコンテンツデータXにわたり時間軸上の共通の時点となるように各コンテンツデータXの時間軸上の位置を調整する。N個のコンテンツデータXの同期には公知の技術が任意に採用され得るが、例えば図3の例示からも理解される通り、各コンテンツデータXの音響を解析することでN個のコンテンツデータXを相互に同期させる構成が好適である。すなわち、各コンテンツデータXの音響の時間変動(すなわち音圧波形)がN個のコンテンツデータXにわたり時間軸上で整合するように各コンテンツデータXの時間軸上の位置が調整される。
 図1の編集処理部46は、同期処理部42による処理後のN個のコンテンツデータX(すなわち音響および動画が時間軸上で相互に同期したN個のコンテンツデータX)を統合する編集処理で編集データYを生成する。編集データYは、動画(以下「編集動画」という)と音響とを含む動画ファイルである。具体的には、編集処理部46は、N個のコンテンツデータXの各々から少なくともひとつの区間を抽出し、これらの抽出した区間を相互に連結することで編集データYを生成する。以上の通り、N個のコンテンツデータXは編集データの素材として利用される。編集処理部46が生成した編集データは記憶装置24に記憶される。なお、編集データのファイル形式は任意である。
 第1実施形態の編集処理部46は、所定値(例えば10秒)を下回る時間長の編集動画を生成する。すなわち、編集処理部46が生成する編集動画は短時間に制限される。編集処理部46が生成した編集データの編集動画は表示装置32により表示され、当該編集データの音響は放音装置34から放音される。すなわち、表示装置32および放音装置34は、編集データを再生する再生機器として機能する。編集処理部46による編集処理の内容は、操作装置36に対する利用者からの指示に応じて制御される。
 図4は、編集処理の内容を利用者が指示するために表示装置32に表示される編集指示画面60の模式図である。図4に例示される通り、編集指示画面60は、編集領域62と確認領域64とを包含する。編集領域62には、同期処理部42による処理後のコンテンツデータXの動画を表象するN個の画像列66が共通の時間軸(横軸)のもとで並列に配置される。任意の1個のコンテンツデータXの画像列66は、例えば当該コンテンツデータXの動画に包含される複数の画像(キャプチャ画像)を時間軸に沿って時系列に配列した画像である。他方、確認領域64には、操作装置36に対する操作で利用者が選択した1個のコンテンツデータXの動画が表示される。したがって、利用者は、所望のコンテンツデータXの動画の内容を確認領域64で随時に確認しながら、編集処理の内容を指示することが可能である。
 利用者は、編集指示画面60を視認しながら操作装置36を適宜に操作することで、編集領域62に時間軸上の所望の区間(以下「特定区間」という)Sを指示することが可能である。図1の区間設定部44は、操作装置36に対する操作で利用者から指示された特定区間Sを設定する。特定区間Sは、N個のコンテンツデータXについて時間軸上で共通する一部の区間である。すなわち、特定区間Sの始点または終点の時刻は、N個のコンテンツデータXの動画にわたり時間軸上の同時刻である。特定区間Sの時間長TSは、利用者からの指示に応じた数値に設定される。ただし、特定区間Sの時間長TSを固定長とすることも可能である。
 図5は、同期処理部42による処理後のN個のコンテンツデータXの動画と編集処理部46が生成する編集データYの編集動画Mとの関係の説明図である。図5に例示される通り、編集処理部46がN個のコンテンツデータX(X1,X2,……,XN)から生成する編集データYの編集動画Mは、時間軸上で複数の区間に区分され、各区間は第1区間Q1および第2区間Q2の何れかに分類される。図5の例示では、2個の第1区間Q1と1個の第2区間Q2とが便宜的に図示されているが、編集動画M内の第1区間Q1および第2区間Q2の個数は任意である。例えば、編集動画Mに複数の第2区間Q2を含めることも可能である。
 第1区間Q1は、N個のコンテンツデータXの何れかの動画および音響が再生される区間である。具体的には、N個のコンテンツデータXのうち利用者が操作装置36に対する操作で選択した1個のコンテンツデータXの動画および音響が第1区間Q1に配置される。図5では、第2区間Q2の直前の第1区間Q1にコンテンツデータX1の動画(特定区間Sの直前の区間)が配置され、第2区間Q2の直後の第1区間Q1にコンテンツデータX2の動画(特定区間Sの直後の区間)が配置された場合が例示されている。
 第2区間Q2は、N個のコンテンツデータXの各々における特定区間Sの動画が時系列に表示される区間である。すなわち、コンテンツデータXの動画のうち時間軸上の共通の特定区間S内の動画ZをN個のコンテンツデータXにわたり抽出したN個の動画Z(Z1,Z2,……,ZN)が第2区間Q2に時系列に配置される。したがって、第2区間Q2の時間長は、特定区間Sの時間長TSのN個分(TS×N)に相当する。また、第2区間Q2では、各コンテンツデータXにおける特定区間S内の動画Zの表示に並行して、当該コンテンツデータXのうち特定区間S内の音響が放音される。なお、第2区間Q2におけるN個の動画Zの各々の表示時に、任意の1個のコンテンツデータXにおける特定区間S内の音響を反復して再生することも可能である。
 N個の動画Zの配列の順序は任意である。例えば、操作装置36に対する操作で利用者がN個のコンテンツデータXの各々の優先度を事前に設定し、第2区間Q2内に優先度の順序でN個の動画Zを配列する構成が採用され得る。例えば撮像時の画角(撮影範囲)を示す撮影情報を各コンテンツデータXが含む場合、第2区間Q2内に画角の順序(例えば広角側および望遠側の一方から他方に向かう順序)でN個の動画Zを配列することも可能である。また、N個の動画Zを第2区間Q2内にランダムな順序で配列する構成も想定される。以上の説明から理解される通り、編集データYで表現される編集動画Mの第2区間Q2では、図6に例示される通り、N個の収録装置12が相互に共通の時間帯(特定区間S)に別個の位置および角度で撮影したN個の動画Z(Z1,Z2,Z3,……)の各々が時分割で順次に表示される。
 図7は、映像処理装置10の動作のフローチャートである。操作装置36に対する利用者からの指示を契機として図7の処理が開始される。図7の処理を開始すると、制御装置22は、図4に例示した編集指示画面60を表示装置32に表示させ(S1)、操作装置36に対する利用者からの指示を受付けて当該指示に応じた処理を実行する(S2)。例えば制御装置22(区間設定部44)は、操作装置36に対する利用者からの指示に応じて、第1区間Q1および第2区間Q2を時間軸上に設定し、各第1区間Q1に配置されるコンテンツデータXをN個のなかから選択する。また、制御装置22は、操作装置36に対する利用者からの指示に応じて特定区間Sを設定する。利用者からの指示の受付(S2)は、利用者が編集処理の実行を指示するまで反復される(S3:NO)。
 操作装置36に対する操作で利用者が編集処理を指示すると(S3:YES)、制御装置22(編集処理部46)は、N個のコンテンツデータXに対する編集処理で編集データYを生成する(S4)。具体的には、前述の通り、N個のコンテンツデータXの何れかの動画が表示される第1区間Q1と、N個のコンテンツデータXの各々における特定区間Sの動画Zが時系列に表示される第2区間Q2とを含む編集動画Mを表す編集データYが生成される。例えばいま、N個のうち任意の2個のコンテンツデータX(第1コンテンツデータXおよび第2コンテンツデータX)に着目する。第1コンテンツデータXおよび第2コンテンツデータXの一方の動画が表示される第1区間Q1と、第1コンテンツデータXおよび第2コンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2と、を含む編集動画Mの編集データYが生成される。制御装置22は、編集処理(S4)で生成した編集データYの編集動画Mを表示装置32に表示させるとともに当該編集データYの音響を放音装置34から放音させる(S5)。
 以上に説明した通り、第1実施形態では、N個のコンテンツデータXの何れかの動画が選択的に表示される第1区間Q1に加えて、N個のコンテンツデータXの各々における特定区間SのN個の動画Zが表示される第2区間Q2を含む編集動画Mの編集データYが生成される。編集動画Mのうち第2区間Q2については、時間軸上で共通する特定区間S内の複数のコンテンツデータXの動画が組合わされる。したがって、共通の時間帯に相異なる位置および角度で撮影された特定区間S内の被写体の様子を視聴者が視聴できる印象的な編集動画Mを生成できる。例えば、動画内で特に印象的なイベント(例えばスポーツの動画の得点シーン)を包含するように特定区間Sを選定することで、当該イベントの様子を多様な方向から視聴できる印象的な編集動画Mが生成される。第1実施形態では特に、特定区間SのN個の動画Zが時系列に表示されるから、共通の時間帯(特定区間S)に撮影された複数の動画Zが順次に切替わる印象的な編集動画Mを生成できるという利点がある。
 また、第1実施形態では、N個のコンテンツデータXを相互に同期させたうえで編集処理が実行されるから、収録開始の時点がコンテンツデータX毎に相違する場合でも、時間的に相互に整合したN個のコンテンツデータXを統合した適切な編集動画Mを生成できるという利点がある。第1実施形態では特に、コンテンツデータXの音響を利用してN個のコンテンツデータXを相互に同期させるから、例えば動画の内容を解析してN個のコンテンツデータXを同期させる構成と比較して、動画の内容に関わらず適切にN個のコンテンツデータXを同期させることが可能である。
 なお、以上の例示では、利用者からの指示に応じて特定区間Sの時間長TSを設定したが、第2区間Q2の時間長Tを利用者からの指示に応じて設定することも可能である。特定区間Sの時間長TSは、第2区間Q2の時間長TをコンテンツデータXの総数Nで除算した時間(T/N)に設定される。以上の構成によれば、コンテンツデータXの総数Nの多寡に関わらず、第2区間Q2を所望の時間長Tに制限することが可能である。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 図8は、第2実施形態の編集処理部46が生成する編集データYの説明図である。編集データYが表す編集動画Mのうち第2区間Q2において表示装置32に表示される再生画面68が図8には例示されている。図8に例示される通り、第2実施形態の編集処理部46は、編集動画Mの第2区間Q2において、N個のコンテンツデータXの各々における特定区間Sの動画Zが相異なる領域に並列に表示されるように編集データYを生成する。すなわち、編集動画Mの第2区間Q2では、コンテンツデータXの動画のうち特定区間S内の動画ZをN個のコンテンツデータXにわたり抽出したN個の動画Z(Z1,Z2,……,ZN)が再生画面68(表示装置32)の相異なる領域に配置される。したがって、第2区間Q2の時間長は特定区間Sの時間長TSと同等である。第1区間Q1では、第1実施形態と同様に、N個のコンテンツデータXの何れかの動画および音響が再生される。第1区間Q1については、1個のコンテンツデータXの動画が表示装置32の表示領域の全体にわたり表示される。他方、第2区間Q2については、特定区間Sの複数の動画Zが表示領域内の相異なる領域(したがって、第1区間Q1の動画が表示される領域よりも狭い領域)に表示される。
 第2実施形態では、N個のコンテンツデータXの何れかの動画が選択的に表示される第1区間Q1に加えて、N個のコンテンツデータXの各々における特定区間SのN個の動画Zが表示される第2区間Q2を含む編集動画Mの編集データYが生成される。したがって、第1実施形態と同様に、時間軸上で共通する特定区間S内の複数のコンテンツデータXの動画が組合わされた印象的な編集動画Mを生成することが可能である。また、第2実施形態では、特定区間SのN個の動画Zが相異なる領域に並列に表示される第2区間Q2を含む編集動画Mの編集データYが生成されるから、共通の時間帯に相異なる位置および角度で撮影された特定区間S内の被写体の様子を視聴者が並列に視聴できる印象的な編集動画Mを生成することが可能である。例えば、動画内で特に印象的なイベントを包含するように特定区間Sを選定することで、当該イベントの様子を多様な方向から並列に視聴できる印象的な編集動画Mが生成される。
 第1実施形態および第2実施形態の例示から理解される通り、編集処理部46は、N個のコンテンツデータの各々における特定区間Sの動画Zが表示される区間(第2区間Q2)を含む編集動画Mの編集データYを生成する要素として包括的に表現される。なお、記憶装置24に記憶されたN個のコンテンツデータXの一部である複数のコンテンツデータXについて、特定区間S内の動画Zを第2区間Q2に配置することも可能である。また、編集動画Mが複数の第2区間Q2を内包する場合、編集動画M内の全部の第2区間Q2が同数の動画Zを含む構成、または、動画Zの総数が第2区間Q2毎に相違し得る構成が想定される。
<変形例>
 以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、N個のコンテンツデータXの各々から選択された区間を相互に連結することで編集データYを生成したが、編集データYの生成方法は以上の例示に限定されない。例えば、N個のコンテンツデータXの各々から抽出される区間をコンテンツデータX毎に指定する制御データを編集データYとして編集処理部46が生成することも可能である。すなわち、編集データY自体が動画または音楽を包含する必要はなく、N個のコンテンツデータXを利用した編集処理の内容を指示する編集データYが生成される。以上の説明から理解される通り、各コンテンツデータXに対する直接的な編集(特定区間の切出または連結)は必須ではない。
(2)前述の各形態では、利用者からの指示に応じて区間設定部44が特定区間Sを設定したが、特定区間Sの設定方法は以上の例示に限定されない。例えば、区間設定部44がコンテンツデータXの音響の解析で特定の音響(以下「特定音」という)を検出した場合に、当該特定音の時点に応じて特定区間Sを設定することも可能である。
 例えば、区間設定部44は、N個のコンテンツデータXにわたる音響の解析、または、N個から事前に選択された1個のコンテンツデータXの音響の解析により特定音を検出する。具体的には、特定の種類の音源が発音した音響(例えば特定の楽器の演奏音)、特定の語句を発音した音声、音量が所定の閾値を上回る音響、または、所定の周波数帯域の音響が特定音として例示され得る。特定音の検出には、公知の音響解析技術(例えば音源分離、音声認識、特徴量抽出等)が利用され得る。区間設定部44は、例えば、特定音の時点から前方または後方の所定長にわたる区間、特定音の時点を含む所定長の区間、または、相前後する特定音の間の区間を、特定区間Sとして設定する。以上の構成によれば、N個のコンテンツデータXにおいて特定音の前後の特定区間Sの動画Zが第2区間Q2にて表示される印象的な編集動画Mの編集データYを生成することが可能である。例えば、スポーツの動画の得点時のアナウンス(例えば「ゴール!」という音声)を特定音として特定区間Sを設定することで、得点のシーンを多様な方向から視聴できるな編集動画Mが生成される。したがって、視聴者にとって印象的な編集動画Mを生成することが可能である。
(3)前述の各形態では、映像処理装置10に接続された収録装置12からN個のコンテンツデータXを取得したが、N個のコンテンツデータXを取得するための構成は以上の例示に限定されない。例えば、光ディスク等の可搬型の記録媒体からN個のコンテンツデータXを取得する構成、または、インターネット等の通信網を介してN個のコンテンツデータXを取得する構成も採用され得る。
(4)前述の各形態では、編集処理部46が生成した編集データYを表示装置32および放音装置34により再生したが、編集データYの利用方法(出力形態)は任意である。例えば、編集データYを外部装置に送信することも可能である。具体的には、携帯電話機またはスマートフォン等の他の通信端末に編集データYを送信する構成、または、編集処理部46が生成した編集データYを動画投稿サイトに投稿して複数の利用者の間で共有する構成が好適である。また、映像処理装置10に装着された可搬型の記録媒体(例えば半導体メモリ)に編集データYを書込むことも可能である。
(5)前述の各形態では、同期処理部42がN個のコンテンツデータXを同期させたが、例えば各収録装置12の相互間の通信によりN個の収録装置12が同時に収録を開始する構成では、相互に同期したN個のコンテンツデータXが映像処理装置10に提供される。したがって、N個のコンテンツデータXを相互に同期させるための構成(同期処理部42)は映像処理装置10から省略され得る。
(6)前述の各形態で例示した映像処理装置10は、前述の通り制御装置22とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号(transitory, propagating signal)を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
(7)本発明は、前述の各形態に係る映像処理装置10の動作方法(映像処理方法)としても特定され得る。具体的には、本発明の好適な態様に映像処理方法においては、コンピュータ(単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む)が、相互に同期した動画を含む複数のコンテンツデータXについて時間軸上で共通する特定区間Sを設定し、複数のコンテンツデータXの何れかの動画が表示される第1区間Q1と、複数のコンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2とを含む編集動画Mを表す編集データYを生成する。
(8)以上に例示した具体的な形態から把握される本発明の好適な態様を以下に例示する。
<態様1>
 本発明の好適な態様(態様1)に係る映像処理装置10は、相互に同期した動画を含む複数のコンテンツデータXについて時間軸上で共通する特定区間Sを設定する区間設定部44と、複数のコンテンツデータXの何れかの動画が表示される第1区間Q1と、複数のコンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2とを含む編集動画Mを表す編集データYを生成する編集処理部46とを具備する。態様1では、複数のコンテンツデータXの何れかの動画が表示される第1区間Q1に加えて、複数のコンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2を含む編集動画Mの編集データYが生成される。したがって、時間軸上で共通する特定区間S内の複数のコンテンツデータXの動画が組合わされた印象的な編集動画Mを生成することが可能である。
<態様2>
 態様1の好適例(態様2)において、編集処理部46は、複数のコンテンツデータXの各々における特定区間Sの動画Zが時系列に表示される第2区間Q2を含む編集動画Mの編集データYを生成する。態様2では、時間軸上で共通する特定区間Sの複数の動画Zが時系列に表示されるから、共通の時間帯に撮影された複数の動画Zが順次に切替わる印象的な編集動画Mを生成できるという利点がある。
<態様3>
 態様2の好適例(態様3)において、編集処理部46は、複数のコンテンツデータXの各々における特定区間Sの動画Zが、利用者からの指示に応じた順序で、第2区間Q2において時系列に表示される編集動画Mの編集データYを生成する。態様3では、複数のコンテンツデータXの各々における特定区間Sの動画Zが、利用者からの指示に応じた順序で第2区間Q2内に時系列に表示されるから、利用者の嗜好や意図を反映した編集動画Mを生成することが可能である。
<態様4>
 態様2の好適例(態様4)において、編集処理部46は、複数のコンテンツデータXの各々における特定区間Sの動画Zが、撮像時の画角に応じた順序で、第2区間Q2において時系列に表示される編集動画Mの編集データYを生成する。態様4では、複数のコンテンツデータXの各々における特定区間Sの動画Zが、撮影時の画角に応じた順序で第2区間Q2内に時系列に表示されるから、例えば第2区間Q2内の複数の動画Zの画角が広角側および望遠側の一方から他方に変化する編集動画Mを生成することが可能である。
<態様5>
 態様2から態様4の好適例(態様5)において、編集処理部46は、複数のコンテンツデータXの各々における特定区間Sの動画Zが、利用者からの指示に応じて設定された時間長の第2区間Q2において時系列に表示される編集動画Mの編集データYを生成する。態様5では、利用者からの指示に応じた時間長の範囲内に複数のコンテンツデータXの配列した編集動画Mを生成することが可能である。
<態様6>
 態様1の好適例(態様6)において、編集処理部46は、複数のコンテンツデータXの各々における特定区間Sの動画Zが相異なる領域に並列に表示される第2区間Q2を含む編集動画Mの編集データYを生成する。態様6では、時間軸上で共通する特定区間Sの複数の動画Zが相異なる領域に並列に表示されるから、共通の時間帯に撮影された複数の動画Zを視聴者が並列に確認できる印象的な編集動画Mを生成することが可能である。
<態様7>
 態様1から態様6の何れかの好適例において、複数のコンテンツデータXの各々は音響を含み、音響を利用して複数のコンテンツデータXを相互に同期させる同期処理部を具備し、編集処理部46は、同期処理部による処理後の複数のコンテンツデータXから編集データYを生成する。以上の態様では、編集処理の実行前に複数のコンテンツデータXを相互に同期させるから、時間的に相互に整合した複数のコンテンツデータXを統合した編集動画Mを生成できるという利点がある。
<態様8>
 態様1から態様7の何れかの好適例において、区間設定部44は、利用者からの指示に応じて特定区間Sを設定する。以上の態様では、複数のコンテンツデータXの各々において利用者の嗜好や意図を反映した特定区間Sの動画Zを含む編集動画Mを生成することが可能である。
<態様9>
 態様1から態様7の何れかの好適例において、区間設定部44は、複数のコンテンツデータXのうち1個以上のコンテンツデータXの音響の解析により検出される特定音の時点に応じて特定区間Sを設定する。以上の態様では、複数のコンテンツデータXにおいて特定音が検出された時点に応じた特定区間Sの動画Zが第2区間Q2にて表示されるから、例えば特定音が発音された場面を視聴者に効果的に印象付ける編集動画Mを生成することが可能である。態様9において、特定音は、例えば、特定の種類の音源が発音した音響、特定の語句を発音した音声、音量が所定の閾値を上回る音響、または、所定の周波数帯域の音響である。
<態様10>
 本発明の好適な態様(態様10)は、以上に例示した各形態に係る映像処理装置10の動作方法(映像処理方法)である。具体的には、態様10に係る映像処理方法は、コンピュータが、相互に同期した動画を含む複数のコンテンツデータXについて時間軸上で共通する特定区間Sを設定し、複数のコンテンツデータXの何れかの動画が表示される第1区間Q1と、複数のコンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2とを含む編集動画Mを表す編集データYを生成する。
<態様11>
 本発明の好適な態様(態様11)は、以上に例示した各形態に係る映像処理装置10としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体である。具体的には、態様11に係る記録媒体は、コンピュータを、相互に同期した動画を含む複数のコンテンツデータXについて時間軸上で共通する特定区間Sを設定する区間設定部44、および、複数のコンテンツデータXの何れかの動画が表示される第1区間Q1と、複数のコンテンツデータXの各々における特定区間Sの動画Zが表示される第2区間Q2とを含む編集動画Mを表す編集データYを生成する編集処理部46として機能させるプログラムを記憶する。
10……映像処理装置、12……収録装置、22……制御装置、24……記憶装置、26……通信装置、32……表示装置、34……放音装置、36……操作装置、42……同期処理部、44……区間設定部、46……編集処理部。

Claims (11)

  1.  相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部と、
     前記複数のコンテンツデータの何れかの動画が表示される第1区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第2区間とを含む編集動画を表す編集データを生成する編集処理部と
     を具備する映像処理装置。
  2.  前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が時系列に表示される前記第2区間を含む前記編集動画の編集データを生成する
     請求項1の映像処理装置。
  3.  前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、利用者からの指示に応じた順序で、前記第2区間において時系列に表示される前記編集動画の編集データを生成する
     請求項2の映像処理装置。
  4.  前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、撮像時の画角に応じた順序で、前記第2区間において時系列に表示される前記編集動画の編集データを生成する
     請求項2の映像処理装置。
  5.  前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が、利用者からの指示に応じて設定された時間長の前記第2区間において時系列に表示される前記編集動画の編集データを生成する
     請求項2から請求項4の何れかの映像処理装置。
  6.  前記編集処理部は、前記複数のコンテンツデータにおける前記特定区間の動画が相異なる領域に並列に表示される前記第2区間を含む前記編集動画の編集データを生成する
     請求項1の映像処理装置。
  7.  前記複数のコンテンツデータの各々は音響を含み、
     前記音響を利用して前記複数のコンテンツデータを相互に同期させる同期処理部を具備し、
     前記編集処理部は、前記同期処理部による処理後の前記複数のコンテンツデータから前記編集データを生成する
     請求項1から請求項6の何れかの映像処理装置。
  8.  前記区間設定部は、利用者からの指示に応じて前記特定区間を設定する
     請求項1から請求項7の何れかの映像処理装置。
  9.  前記区間設定部は、前記複数のコンテンツデータのうち1個以上のコンテンツデータの音響の解析により検出される特定音の時点に応じて前記特定区間を設定する
     請求項1から請求項7の何れかの映像処理装置。
  10.  コンピュータが、
     相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定し、
     前記複数のコンテンツデータの何れかの動画が表示される第1区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第2区間とを含む編集動画を表す編集データを生成する
     映像処理方法。
  11.  コンピュータを、
     相互に同期した動画を含む複数のコンテンツデータについて時間軸上で共通する特定区間を設定する区間設定部、および、
     前記複数のコンテンツデータの何れかの動画が表示される第1区間と、前記複数のコンテンツデータにおける前記特定区間の動画が表示される第2区間とを含む編集動画を表す編集データを生成する編集処理部
     として機能させるプログラムを記録した記録媒体。
     
PCT/JP2016/073074 2015-08-07 2016-08-05 映像処理装置、映像処理方法および記録媒体 WO2017026387A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-157324 2015-08-07
JP2015157324A JP2017038152A (ja) 2015-08-07 2015-08-07 映像処理装置および映像処理方法

Publications (1)

Publication Number Publication Date
WO2017026387A1 true WO2017026387A1 (ja) 2017-02-16

Family

ID=57984338

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/073074 WO2017026387A1 (ja) 2015-08-07 2016-08-05 映像処理装置、映像処理方法および記録媒体

Country Status (2)

Country Link
JP (1) JP2017038152A (ja)
WO (1) WO2017026387A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10462512B2 (en) 2017-03-31 2019-10-29 Gracenote, Inc. Music service with motion video

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340570A (ja) * 1998-06-22 1998-12-22 Toshiba Corp マルチシーン記録ディスク
JP2000339933A (ja) * 1999-05-31 2000-12-08 Kenwood Corp 記録媒体再生システム
JP2003078864A (ja) * 2001-08-30 2003-03-14 Nec Corp カメラ映像提供システム及びカメラ映像の時刻補正方法
JP2003324689A (ja) * 2002-05-08 2003-11-14 Alpine Electronics Inc ビデオ再生装置及びdvdビデオ再生装置
JP2004304486A (ja) * 2003-03-31 2004-10-28 Nec Corp 動画像編集装置および動画像編集方法
JP2011229166A (ja) * 2011-06-09 2011-11-10 Hitachi Ltd 電子機器
JP2013131871A (ja) * 2011-12-20 2013-07-04 Sharp Corp 編集装置、遠隔制御装置、テレビジョン受像機、特定音声信号、編集システム、編集方法、プログラム、および、記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340570A (ja) * 1998-06-22 1998-12-22 Toshiba Corp マルチシーン記録ディスク
JP2000339933A (ja) * 1999-05-31 2000-12-08 Kenwood Corp 記録媒体再生システム
JP2003078864A (ja) * 2001-08-30 2003-03-14 Nec Corp カメラ映像提供システム及びカメラ映像の時刻補正方法
JP2003324689A (ja) * 2002-05-08 2003-11-14 Alpine Electronics Inc ビデオ再生装置及びdvdビデオ再生装置
JP2004304486A (ja) * 2003-03-31 2004-10-28 Nec Corp 動画像編集装置および動画像編集方法
JP2011229166A (ja) * 2011-06-09 2011-11-10 Hitachi Ltd 電子機器
JP2013131871A (ja) * 2011-12-20 2013-07-04 Sharp Corp 編集装置、遠隔制御装置、テレビジョン受像機、特定音声信号、編集システム、編集方法、プログラム、および、記録媒体

Also Published As

Publication number Publication date
JP2017038152A (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP6542039B2 (ja) フォーリー式触覚コンテンツ作成のためのシステム及び方法
US10681408B2 (en) Systems and methods for creating composite videos
US20160336039A1 (en) Systems and methods for creating music videos synchronized with an audio track
EP3236346A1 (en) An apparatus and associated methods
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
CN112822563A (zh) 生成视频的方法、装置、电子设备和计算机可读介质
TW201545120A (zh) 自動產生編譯視訊
CN103842936A (zh) 将多个实况视频剪辑和静态照片记录、编辑和合并为成品组合作品
US10607653B2 (en) Image processing method, image processing apparatus, and program
KR20140112527A (ko) 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램
US10708536B2 (en) Signal processing apparatus and method of generating audio signal
US20190019533A1 (en) Methods for efficient annotation of audiovisual media
JP2005236428A (ja) コミュニケーション装置、システムおよび表示方法
JP2010166322A (ja) 映像視聴装置及び映像再生制御方法及び記録再生用プログラム
WO2017026387A1 (ja) 映像処理装置、映像処理方法および記録媒体
JP2016063477A (ja) 会議システム、情報処理方法、及びプログラム
JP6443205B2 (ja) コンテンツ再生システム、コンテンツ再生装置、コンテンツ関連情報配信装置、コンテンツ再生方法、及びコンテンツ再生プログラム
EP3633587B1 (en) An apparatus and associated methods for presentation of comments
KR101957282B1 (ko) 동영상 제어장치 및 방법
JP2013131871A (ja) 編集装置、遠隔制御装置、テレビジョン受像機、特定音声信号、編集システム、編集方法、プログラム、および、記録媒体
JP2005252372A (ja) ダイジェスト映像作成装置及びダイジェスト映像作成方法
EP3321795B1 (en) A method and associated apparatuses
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2017017387A (ja) 映像処理装置および映像処理方法
CN115699723B (zh) 影像编辑装置、影像编辑方法以及记录介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16835084

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16835084

Country of ref document: EP

Kind code of ref document: A1