WO2023084806A1 - 動画編集システム - Google Patents

動画編集システム Download PDF

Info

Publication number
WO2023084806A1
WO2023084806A1 PCT/JP2022/014170 JP2022014170W WO2023084806A1 WO 2023084806 A1 WO2023084806 A1 WO 2023084806A1 JP 2022014170 W JP2022014170 W JP 2022014170W WO 2023084806 A1 WO2023084806 A1 WO 2023084806A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving image
editing
telop
text object
unit
Prior art date
Application number
PCT/JP2022/014170
Other languages
English (en)
French (fr)
Inventor
真司 藤原
Original Assignee
株式会社高山化成
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社高山化成 filed Critical 株式会社高山化成
Priority to CN202280074915.XA priority Critical patent/CN118216159A/zh
Publication of WO2023084806A1 publication Critical patent/WO2023084806A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Definitions

  • the present invention relates to a moving image editing system that enables text and audio to be superimposed on any moving image (video) by simple editing operations on a user terminal.
  • the captured moving images may be edited using video editing software that runs on a computer.
  • editing processing for example, various types of information obtained by shooting or recording, a table of contents, additional information such as a title, and audio output are added to the moving image.
  • video editing requires video editing skills, HTML (Hypertext Markup Language) and Flash knowledge. Without these skills and knowledge, it is difficult to create and edit video content with conventional video editing systems. It takes time and effort, and it is difficult to easily edit a moving image.
  • HTML Hypertext Markup Language
  • Patent Document 1 rules for arranging content material information on a layout are determined in advance and stored, and content is generated by automatically arranging content material information according to these rules.
  • a content generation system is disclosed. This allows users to automatically generate content simply by applying rules to prepared content materials.
  • content can be easily created without special knowledge or technology for creating content, and content can be played back freely without time restrictions.
  • Patent Literature 1 when arranging content material information on a layout, it is necessary to perform editing processing according to predetermined rules, so users are said to have a low degree of freedom in video editing. There's a problem.
  • the present invention has been made in view of the above-mentioned problems, and its object is to provide a video editing system that greatly improves the workability and convenience of video editing and allows video editing with a high degree of freedom. .
  • a moving image editing system of the present invention includes at least an administrator terminal and a moving image editing server connected to the administrator terminal via a network, wherein:
  • the moving image editing server causes the administrator terminal to display a first moving image editing screen including at least a moving image reproduction area for reproducing a moving image and a timeline display area for displaying a timeline of the reproduction time of the moving image.
  • a screen display unit in response to a request from the administrator terminal, placing at least one first text object at an arbitrary position within the timeline display area, and text representing a character string input to the first text object; a text object placement unit that receives data; and a playback time of the moving image corresponding to the position of the first text object placed in the timeline display area based on the text data input to the first text object. and a first telop display unit for superimposing and displaying the character string as a first telop on the moving image being reproduced.
  • the first edit screen display unit causes the administrator terminal to further display an object placement area that enables placement of an object at an arbitrary position within the timeline display area.
  • the video editing server includes an object placement unit that places at least one object at an arbitrary position in the object placement area in response to a request from the administrator terminal, and the object placed in the object placement area.
  • a text object display unit for displaying a second text object superimposed on the moving image at the playback time of the moving image corresponding to the position of; a text object editing unit for receiving an input of text data representing a character string in said second text object, and said character string received by said text object editing unit being transferred to said second text object arranged in said object placement area.
  • the above configuration may further include a multilingual translation server connected to the moving image editing server via the network, wherein the text object placement unit and the text object editing unit are configured to either the first text object or the Text data representing the character string input in the second text object is transmitted to the multilingual translation server, and the multilingual translation server receives the text data from the text object placement unit or the text object editing unit.
  • a multilingual translation server connected to the moving image editing server via the network, wherein the text object placement unit and the text object editing unit are configured to either the first text object or the Text data representing the character string input in the second text object is transmitted to the multilingual translation server, and the multilingual translation server receives the text data from the text object placement unit or the text object editing unit.
  • translating into at least one or more languages different from the character string sending text data representing the translated character string to the video editing server, the first telop display unit and the second telop display unit, Based on the text data representing the translated character string received from the multilingual translation server, it is preferable to superimpose the translated character string as a first telop or a second telop on the moving image being played. .
  • the video editing server includes a storage unit storing sound information for speech synthesis, reads the sound information stored in the storage unit, and inputs the sound information into the first text object.
  • a speech synthesizing unit for generating synthesized speech corresponding to the text data representing the translated character string or the text data representing the translated character string;
  • a voice output unit for outputting in synchronization with the superimposed display of the first telop by the unit may be further provided.
  • the text object placement unit expands or contracts an area of the first text object placed at an arbitrary position in the timeline display area, thereby superimposing and displaying the text object on the moving image. It is preferable to adjust the superimposed display time of the first telop.
  • the object placement unit expands or reduces the area of the object placed at an arbitrary position within the object placement area, thereby superimposing the second telop on the moving image. It is preferable to adjust the display time.
  • the moving image editing server calls up the material moving image data stored in the storage unit, and arranges and displays a plurality of frame images constituting the material moving image data in chronological order.
  • a second editing screen display unit for displaying an editing screen on the administrator terminal; and a cut editing unit that deletes a section whose range is not specified by specifying a range of a partial section including the frame image of .
  • the second editing screen display unit retrieves a plurality of the material moving image data from the storage unit, arranges and displays a plurality of frame images constituting the material moving image data in chronological order. and the moving image editing server generates a synthesized moving image to be played back in synchronization within one screen based on the plurality of material moving image data called by the second editing screen display unit. is preferably further provided.
  • the cut editing unit changes the length of the range-designated section for a plurality of frame images constituting an arbitrary one material moving image in the composite moving image, other It is preferable to change the length of the section corresponding to the range-specified section in synchronization with the plurality of frame images constituting the material moving image.
  • the character string input to the text object is used as the first telop to reproduce the moving image. It can be superimposed on the inside. Also, the time at which the first telop is superimposed and displayed can be easily set by adjusting the arrangement position of the object in the timeline display area. That is, according to the present invention, it is possible to provide a moving image editing system that greatly improves the workability and convenience of moving image editing and enables highly flexible moving image editing.
  • FIG. 1 is a conceptual diagram showing an example of the configuration of a video editing system according to Embodiment 1 of the present invention
  • FIG. 2 is a block diagram showing the hardware configuration of the video editing server according to Embodiment 1 of the present invention
  • FIG. 3 is a block diagram showing the hardware configuration of the administrator terminal according to Embodiment 1 of the present invention
  • FIG. FIG. 2 is a block diagram showing an example of a functional configuration of a video editing server according to Embodiment 1 of the present invention
  • 10 is an explanatory diagram showing a first moving image editing screen displayed on an administrator terminal; 4 is a flow chart showing a flow of video editing processing by an administrator; 10 is a flowchart showing the flow of first telop editing processing in moving image editing processing; 10 is a flowchart showing the flow of second telop editing processing in moving image editing processing; FIG. 11 is an explanatory diagram showing how a second text object is edited on the first moving image editing screen; 10 is a flow chart showing the flow of first telop display processing during playback of an edited moving image.
  • FIG. 10 is a flowchart showing the flow of second telop display processing during playback of an edited moving image; FIG. FIG.
  • FIG. 9 is a block diagram showing an example of a functional configuration of a moving image editing server according to Embodiment 2 of the present invention
  • FIG. 11 is an explanatory diagram showing a second moving image editing screen displayed on the administrator terminal
  • 4 is a flow chart showing a flow of synthetic video editing processing by an administrator
  • 10 is a flowchart showing the flow of cut editing processing
  • Embodiment 1 Video editing system
  • the video editing system according to the first embodiment includes a video editing server 10, an administrator terminal 30 used by an administrator, a user terminal 40 used by a user, and a multilingual translator via a network 20.
  • Servers 50 are configured to be mutually communicably connected.
  • FIG. 1 is a conceptual diagram showing an example of the configuration of a video editing system according to the first embodiment.
  • the moving picture editing server 10 is implemented by executing a moving picture editing program in, for example, a workstation, personal computer, or other computer device.
  • the video editing server 10 stores video data, audio data, and the like, and enables video editing, such as superimposing a telop on video content as a material, in response to a request from the administrator terminal 30 .
  • the video editing server 10 enables playback of edited video content upon request from the user terminal 40 .
  • a "moving image” means a sequence of a plurality of still images (frame images).
  • Animation includes, for example, animation displayed on display devices such as computer systems, handheld computers, mobile phones, televisions, and the like.
  • Moving images displayed on a display device such as a computer include, for example, moving images in a virtual three-dimensional space and moving images distributed via a network. Examples of moving images may include, for example, television images and the like, in addition to images shot at companies, homes, and the like.
  • “Moving image data” means the data of the moving image. Movie data can be recorded in the movie editing server 10 in the form of digital data, for example.
  • telop means a character string (including numbers, symbols, codes, etc.) superimposed on moving image (video) content.
  • the "telop” in the present invention can be rephrased as a caption, subtitle, ticker, alert, superimpose, or the like.
  • the hardware configuration of the video editing server 10 is as follows. That is, as shown in FIG. 2, the video editing server 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a communication control interface 14, a storage device 15, and an input operation At least a portion 16 is provided. These components are also communicatively connected to each other via a path 17 as shown in FIG. FIG. 2 is a block diagram showing the hardware configuration of the video editing server.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • FIG. 2 is a block diagram showing the hardware configuration of the video editing server.
  • the CPU 11 performs various arithmetic processing and the like in order to control the video editing server 10 as a whole. More specifically, the CPU 11 reads a moving image editing program from the ROM 12 and executes it using the RAM 13 as a work area, thereby controlling the operation of each component of the moving image editing server 10 .
  • the ROM 12 is a read-only memory, and stores an initial program to be executed by the CPU 11 when the video editing server 10 is activated, for example.
  • the RAM 13 is a writable volatile memory that temporarily stores programs, data, and the like being executed.
  • the communication control interface 14 controls data transmission to the outside and data reception from the outside.
  • the video editing server 10 is communicably connected to the network 20 via the communication control interface 14 .
  • the storage device 15 is composed of, for example, a magnetic disk device or the like, and stores various programs and various data that should be retained even when the power of the video editing server 10 is turned off.
  • the input operation unit 16 is specifically a keyboard, a mouse, or the like, and receives input operations by an administrator or the like.
  • the network 20 is realized by using various networks such as the Internet, a dedicated line, a WAN (Wide Area Network), a power line network, a wireless network, a public line network, and a mobile phone network. Furthermore, the network 20 may establish Internet communication with improved security by using virtual private network technology such as VPN (Virtual Private Network).
  • VPN Virtual Private Network
  • the administrator terminal 30 is realized by a portable terminal device such as a mobile phone, a smart phone, a PHS (Personal Handy-phone System) and a PDA (Personal Digital Assistant), and an information processing device such as a desktop or notebook personal computer. be.
  • the administrator terminal 30 is preferably equipped with an Internet browser or the like in order to implement the moving image editing system of the first embodiment.
  • the hardware configuration of the administrator terminal 30 includes at least a CPU 31, a ROM 32, a RAM 33, a display section 34, an input section 35, and a communication control interface 36, for example, as shown in FIG.
  • FIG. 3 is a block diagram showing the hardware configuration of the administrator terminal 30. As shown in FIG.
  • the CPU 31 performs various arithmetic processing and the like in order to control the administrator terminal 30 as a whole. More specifically, the CPU 31 reads a computer program from the ROM 32 and executes it using the RAM 33 as a work area, thereby controlling the operation of each component of the administrator terminal 30 .
  • the ROM 32 is a writable non-volatile memory, and can store various programs and various data that should be retained even when the power of the administrator terminal 30 is turned off.
  • the RAM 33 is a writable volatile memory, and can temporarily store programs, data, etc. being executed.
  • the display unit 34 is realized by, for example, a display, a monitor, a touch panel, or the like configured from liquid crystal or organic EL (Electro Luminescence).
  • the communication control interface 36 controls data transmission from the administrator terminal 30 to the outside and data reception from the outside to the administrator terminal 30 .
  • the administrator terminal 30 is communicably connected to the network 20 via the communication control interface 36 .
  • the user terminal 40 is realized by a portable terminal device such as a mobile phone, a smart phone, a PHS and a PDA, and an information processing device such as a desktop or notebook personal computer.
  • a portable terminal device such as a mobile phone, a smart phone, a PHS and a PDA
  • an information processing device such as a desktop or notebook personal computer.
  • the user terminal 40 is equipped with an Internet browser or the like in order to realize the moving image editing system of the first embodiment.
  • the hardware configuration of the user terminal 40 can employ a hardware configuration including at least a CPU, a ROM, a RAM, a display section, an input section, and a communication control interface. Therefore, the detailed description of the hardware configuration of the user terminal 40 is omitted.
  • the multilingual translation server 50 has a function of translating the character strings for telops obtained from the video editing server 10 into one or more other languages for the text data.
  • the multilingual translation server 50 may store dictionary information for translation in advance in a dictionary database (not shown), for example.
  • the multilingual translation server 50 receives a translation request for a telop character string from the video editing server 10 and acquires text data of the character string. Also, the multilingual translation server 50 translates the character string into another language while referring to dictionary information for translation as necessary, and then transmits text data representing the translated character string to the video editing server 10. .
  • the existing multilingual translation service is not particularly limited, and examples thereof include Google (registered trademark) translation.
  • the moving image editing server 10 includes at least a control unit 101, a storage unit 102, and an interface unit 103 functionally and conceptually, as shown in FIG.
  • FIG. 4 is a block diagram showing an example of the functional configuration of the video editing server 10. As shown in FIG.
  • the control unit 101 has an internal memory for storing control programs such as an OS (Operating System), programs that define various processing procedures, and required data.
  • the control unit 101 performs information processing for executing various processes using these programs and the like.
  • the control unit 101 functionally conceptually includes a first edit screen display unit 111, a text object placement unit 112, a first telop display unit 113, an object placement unit 114, a text object display unit 115, a text At least an object editing unit 116 , a second telop display unit 117 , a voice synthesis unit 118 and a voice output unit 119 are provided.
  • the first editing screen display unit 111 causes the administrator terminal 30 to display the first video editing screen 130 .
  • the first moving image editing screen 130 includes at least a moving image reproduction area 131 for reproducing a moving image and a timeline display area 132 for displaying a timeline of the reproduction time of the moving image.
  • FIG. 5 is an explanatory diagram showing the first moving image editing screen 130. As shown in FIG.
  • the movie playback area 131 plays back and displays movies based on the movie data stored in the storage unit 102 of the movie editing server 10 .
  • the timeline display area 132 displays a timeline of video playback times.
  • the timeline display area 132 also has a text object placement area 133 that enables placement of the first text object 135 and an object placement area 134 that enables placement of the object 136 (details of these will be described later). ).
  • the timeline display area 132 represents the passage of playback time in the direction indicated by the arrow X in FIG.
  • the timeline display area 132 also displays a playback time display line 137 indicating the current playback time position.
  • the reproduction time display line 137 horizontally moves in the direction indicated by the arrow X as the reproduction time elapses when the moving image is reproduced. Further, when the reproduction of the moving image is paused, the reproduction time display line 137 stops horizontal movement at the paused time.
  • the first telop 138 Based on the positional relationship between the reproduction time display line 137 and the first text object and the objects described later, the first telop 138 based on which first text object or the second telop based on which object is superimposed and displayed in the moving image. You can easily check whether For example, when the horizontally moving reproduction time display line 137 is displayed overlapping the first text object, the character string input in the first text object is displayed as the first telop 138 superimposed on the moving image.
  • the text object placement unit 112 makes it possible to easily edit the playback time and end time of the first telop to be superimposed and displayed during playback of the moving image and the content to be displayed as the first telop in response to a request from the administrator terminal 30. .
  • the text object placement unit 112 accepts placement of at least one first text object 135 at an arbitrary position within the text object placement area 133 in response to a request from the administrator terminal 30 .
  • the text object placement unit 112 moves the placed first text object 135 within the text object placement area 133 and expands and shrinks the area of the first text object 135 in response to a request from the administrator terminal 30. Accept accordingly.
  • the position of the left end of the first text object 135 placed in the text object placement area 133 is such that the character string input into the first text object 135 is displayed as the first telop 138 in the moving image being played. Corresponds to the start time to be superimposed.
  • the position of the right end of the first text object 135 corresponds to the time when the superimposed display of the first telop 138 in the moving image ends. Therefore, the administrator simply moves the first text object 135 within the text object placement area 133 or expands or contracts the area of the first text object 135 to display the first telop superimposed on the moving image being reproduced.
  • the start time and end time can be easily adjusted.
  • the movement, expansion, and reduction of the first text object 135 can be performed by input means of the administrator terminal 30, specifically, for example, a mouse.
  • the expansion and contraction of the area of the first text object 135 are performed, for example, within the text object placement area 133 in the direction indicated by the arrow X indicating the timeline of the playback time of the moving image, or in the opposite direction.
  • the text object placement unit 112 accepts input of text data representing a character string into the first text object 135 from the input means of the administrator terminal 30 . Furthermore, the text object placement unit 112 can also accept multilingual translation of the character string input in the first text object 135 in response to a request from the administrator terminal 30 . In this case, the text object placement unit 112 transmits the text data representing the character string input in the first text object 135 to the multilingual translation server 50, and the translated character string translated by the multilingual translation server 50 is Accepts text data to represent. Text data representing a character string includes character information, numeric information, symbol information, and information in which these are combined.
  • the text object placement unit 112 stores the first telop information in the telop information database (details will be described later) in association with the moving image data.
  • the first telop information includes start time information and end time information for superimposed display of the first telop 138, text data representing the character string input to the first text object 135, and text data representing the translated character string. , graphical information and audio information.
  • the first telop information may also include information about the display position of the first telop 138 in the moving image.
  • the first telop display unit 113 reads the first telop information stored in the telop information database, and based on the first telop information, superimposes the first telop 138 on an arbitrary position of the video being reproduced.
  • the character string displayed as the first telop 138 is generated based on text data representing the character string input to the first text object 135 included in the first telop information, or text data representing the translated character string.
  • the superimposed display of the first telop 138 starts and ends at a predetermined reproduction time based on the start time information and the end time information of the superimposed display of the first telop 138 included in the first telop information. .
  • the first telop display section 113 sequentially displays the first telops stored in the telop information database. The information is read, and the character string of the text data input to each first text object 135 is superimposed and displayed as the first telop 138 at a predetermined reproduction time.
  • the object placement unit 114 accepts placement of at least one object 136 at an arbitrary position within the object placement area 134 in response to a request from the administrator terminal 30 .
  • the administrator can visually manage the objects 136. FIG.
  • complicated management can be avoided even when a large number of objects 136 are arranged, and when the administrator edits the object 136, the object 136 to be edited can be easily found. Etc., operability and work efficiency can be improved.
  • the object placement unit 114 accepts requests from the administrator terminal 30 to move the placed object 136 within the object placement area 134 and to expand and contract the area of the object 136 .
  • the position of the left end of the object 136 placed in the object placement area 134 corresponds to the start time of superimposing and displaying the second telop (or the second text object 139) in the moving image being reproduced.
  • the position of the right end of the object 136 corresponds to the end time of superimposing the second telop (or the second text object 139) on the moving image being reproduced. Therefore, by simply moving the object 136 within the object placement area 134 or expanding or contracting the area of the object 136, the administrator can set the start time and end time (superimposed) of the second telop to be superimposed on the moving image being played. display time) can be easily adjusted.
  • the movement of the object 136 and the expansion and contraction of the area of the object 136 can be performed by input means of the administrator terminal 30, specifically, for example, a mouse.
  • the expansion and contraction of the area of the object 136 can be performed within the object placement area 134, for example, in the direction indicated by the arrow X indicating the timeline of the playback time of the moving image, or in the opposite direction.
  • the object placement unit 114 can also place a plurality of objects 136 in parallel in a direction perpendicular to the timeline of the video playback time. As a result, two or more text objects 139 can be superimposed and displayed simultaneously at the same playback time during playback of the moving image.
  • the object placement section 114 does not accept input of text data representing character strings at the request of the administrator terminal 30.
  • the object placement unit 114 associates the start time information and end time information of the superimposed display of the second text object 139 with the video data as second telop information. and store it in the telop information database.
  • the start time information and end time information of the superimposed display of the second text object 139 become the start time information and end time information of the superimposed display of the second telop.
  • the text object display unit 115 displays the text object display unit 115 for the moving image being edited at the playback time corresponding to the position where the object 136 is placed. 2
  • the text object 139 is superimposed and displayed.
  • the second text object 139 is an object into which text data representing a character string can be input using the input means of the administrator terminal 30 .
  • the text object display unit 115 does not superimpose the second text object 139 during playback of a moving image without editing the moving image.
  • the superimposed display of the second text object 139 is performed by the text object display unit 115 calling the second telop information stored in the telop information database, and superimposing the second text object 139 included in the second telop information. It is executed based on start time information and end time information.
  • the text object editing unit 116 accepts input of text data (character information, numeric information, symbol information, and combined information thereof) representing a character string in the second text object 139 from the input means of the administrator terminal 30. . Furthermore, the text object editing unit 116 receives multilingual translation of the character string input in the second text object 139 in response to a request from the administrator terminal 30 . In this case, the text object editing unit 116 transmits the text data representing the character string input in the second text object 139 to the multilingual translation server 50, and the translated character string translated by the multilingual translation server 50 is accepts (receives) text data representing
  • the text object editing unit 116 accepts requests from the administrator terminal 30 to move the display position of the second text object 139 in the moving image and to expand and reduce the area of the second text object 139 .
  • the second telop can be moved to an arbitrary position within the moving image and displayed in a superimposed manner.
  • the text object editing unit 116 accepts a request from the administrator terminal 30 to change the shape of the second text object 139, the color to be displayed, the font and character size of the character string input as text.
  • the text object editing unit 116 inputs information about the display position of the second telop (second text object 139 ) in the moving image, information about the shape of the second text object 139 , color to be displayed, etc., to the second text object 139 .
  • Text data representing the translated character string, text data representing the translated character string, and information about the font, character size, etc. of the character string input to the second text object 139 are included in the second telop information, and the telop Store in the information database.
  • the second telop display unit 117 reads the second telop information stored in the telop information database, and superimposes the second telop on the moving image being played based on the second telop information.
  • the second telop contains information about the position, area, shape, color, etc. of the second text object 139 included in the second telop information, and the character string input to the second text object 139 included in the second telop information. It is generated based on the text data representing the character string, the text data representing the character string after translation, or the like.
  • the superimposed display of the second telop starts and ends at a predetermined reproduction time based on the start time information and end time information of the superimposed display of the second text object 139 included in the second telop information.
  • the second telop display unit 117 reads out the second telop information stored in the telop information database, and displays the second telop information sequentially or simultaneously.
  • a plurality of second telops are superimposed and displayed at the time.
  • the speech synthesis unit 118 reads out sound information for speech synthesis stored in a speech database (details will be described later), and uses text data representing the character string input to the first text object 135 or post-translation text data. Generates synthesized speech corresponding to the text data representing the character string of The speech synthesizing unit 118 may store the generated synthetic speech data in the telop information database in association with the first telop information.
  • the audio output unit 119 outputs the audio synthesized by the audio synthesis unit 118 in synchronization with the superimposed display of the first telop 138 by the first telop display unit 113 .
  • the speech output unit 119 reads out the synthesized speech data from the telop information database, and superimposes the first telop 138. You may make it output at the time of a display.
  • the storage unit 102 has a plurality of storage areas defined therein, and includes at least a video database 121 , a telop information database 122 and an audio database 123 .
  • a storage medium such as a hard disk for storing data and programs to be saved can be used.
  • the video database 121 stores material video data.
  • the material moving image data includes moving image data that is a material before moving image editing.
  • the telop information database 122 stores the first telop information and/or the second telop information associated with the material moving image data stored in the moving image database 121.
  • the voice database 123 stores sound information for voice synthesis.
  • sound information is information necessary for synthesizing speech, and may include phoneme data for outputting synthetic sounds for short sounds, words, phrase units, and the like.
  • the interface unit 103 enables input and output by generating a web page, transfers the web page over the network 20, and displays it on the administrator terminal 30 and the user terminal 40 with a web browser. More specifically, it is implemented by a CGI (Common Gateway Interface) script.
  • CGI is an interface that activates a program, that is, a CGI script, corresponding to a request sent from a client's browser on the WWW server side, and returns the result obtained by this program to the client side.
  • CGI scripts are stored in memory.
  • HTTP Hypertext Transport Protocol
  • video editing using a general-purpose web browser or the like can be performed on the administrator terminal 30 such as a personal computer or a smart phone, and the edited video can be played back on the user terminal 40 as well.
  • FIG. 6 is a flow chart showing the flow of video editing processing by an administrator.
  • FIG. 7 is a flow chart showing the flow of the first telop editing process in the moving image editing process.
  • FIG. 8 is a flow chart showing the flow of the second telop editing process in the moving image editing process.
  • FIG. 9 is an explanatory diagram showing how the second text object is edited on the first moving image editing screen.
  • the administrator first accesses the video editing server 10 from the administrator terminal 30 via the network 20 in order to use the video editing system of the first embodiment.
  • the first editing screen display unit 111 of the video editing server 10 transmits HTML document data for displaying the first video editing screen 130 to the administrator terminal 30 .
  • the first video editing screen 130 is displayed on the display or the like of the administrator terminal 30 (S101).
  • the administrator uses input means such as a keyboard and a mouse provided in the administrator terminal 30 to select a video from material video data stored in the video database 121. Select and call the material video to be edited.
  • the first editing screen display unit 111 displays the material moving image in the moving image reproduction area 131 (S102).
  • Arrangement of at least one first text object 135 at an arbitrary position within is accepted (S103, S104). Specifically, at least one first text object 135 is added to an arbitrary position within the text object placement area 133 using input means such as a keyboard and a mouse provided in the administrator terminal 30 (S201 ). Subsequently, when it is desired to adjust the time at which the first telop 138 is superimposed on the moving image being reproduced, the input means of the administrator terminal 30 is used to move the placement position of the first text object 135 . Furthermore, when the superimposed display time of the first telop is adjusted, the area of the first text object 135 is expanded or reduced using the input means of the administrator terminal 30 (S202).
  • the text object placement unit 112 accepts input of text data representing a character string into the first text object 135 from the input means of the administrator terminal 30 (S203). At least part of the input character string is displayed in the first text object 135, so that the administrator can easily determine the correspondence between the placed first text object 135 and the first telop. Also, the character string input in the first text object 135 can be translated into another language (S204). In this case, the text object placement unit 112 transmits text data representing the character string input in the first text object 135 to the multilingual translation server 50 (S205).
  • the text object placement unit 112 puts it in the first text object 135. Display the character string after translation into another language (S206). It should be noted that the translation of the character string in the first text object 135 into another language can be performed even while the moving image is being reproduced, and it is not always necessary to stop the reproduction.
  • the text object placement unit 112 puts the superimposed display start time information and end time information of the first telop 138 and the The text data representing the character string and the text data representing the translated character string are associated with the material moving image data as first telop information and stored in the telop information database 122 (S207). This completes the first telop editing process.
  • the text object display unit 115 superimposes and displays the second text object 139 on the video being edited at the playback time corresponding to the position where the object 136 is placed ( S304).
  • the text object editing unit 116 accepts input of text data representing a character string in the second text object 139 in response to a request from the administrator terminal 30 (S305). At least part of the entered string is also displayed in object 136 . Therefore, the administrator can easily determine the correspondence between the placed object 136, the second text object 139, and the second telop. Also, the text object editing unit 116 moves the display position of the second text object 139 in the moving image or expands or reduces the area of the second text object 139 in response to a request from the administrator terminal 30 . By moving the second text object 139, the second telop can be superimposed and displayed at an arbitrary position within the reproduced moving image. Further, by expanding or contracting the area of the second text object 139, the display area of the second telop can be expanded or contracted.
  • the text object editing unit 116 changes the shape of the second text object 139, the color to be displayed, and the font and character size of the character string input as text in response to a request from the administrator terminal 30. etc. can be changed.
  • the second text object 139 can be edited, for example, by causing the text object editing unit 116 to display an editing palette 140 having a GUI (Graphical User Interface) function on the first video editing screen 130.
  • the edit palette 140 includes icons (buttons) for changing the shape and color of the second text object 139 and icons (buttons) for changing the typeface, color and size of the character string input in the second text object 139 . ), etc.
  • the text object editing unit 116 also accepts translation of the character string input in the second text object 139 into another language in response to a request from the administrator terminal 30 (S306). In this case, the text object editing unit 116 transmits text data representing the character string input in the second text object 139 to the multilingual translation server 50 (S307). When the multilingual translation server 50 translates into another language and the multilingual translation server 50 sends the text data representing the translated character string, the text object editing unit 116 converts the second text object 139 into , the character string after translation into another language is displayed (S308). It should be noted that the character string input into the second text object 139 can be translated into another language even while the moving image is being reproduced, and the reproduction does not necessarily need to be stopped.
  • the text object editing unit 116 stores the second telop information in the telop information database 122 (S309), thereby ending the second telop editing process. do.
  • the second telop information includes information about the display position of the second telop (second text object 139) in the moving image, information about the shape of the second text object 139, color to be displayed, etc., and Text data representing the input character string, text data representing the translated character string, and information about the font, character size, etc. of the character string input to the second text object 139 are included.
  • FIG. 10 is a flowchart showing the flow of the first telop display process when playing back an edited moving image.
  • FIG. 11 is a flow chart showing the flow of second telop display processing when an edited moving image is reproduced.
  • moving image data for moving image reproduction is selected and called from the material moving image data stored in the moving image database 121, and the moving image is reproduced (S401). Since the first telop information is associated with the selected moving image data, the first telop display unit 113 reads the first telop information stored in the telop information database 122 (S402). Then, the first telop display unit 113 superimposes and displays the first telop 138 on the moving image being reproduced based on the start time information of the superimposed display of the first telop included in the first telop information (S403).
  • the speech synthesis unit 118 reads the sound information for speech synthesis stored in the speech database 123, and the text data representing the character string input to the first text object 135 or the translated character string. Generates synthesized speech corresponding to text data. Further, the voice output unit 119 outputs the voice synthesized by the voice synthesizing unit 118 in synchronization with the superimposed display of the first telop 138 (S404). After that, the superimposed display of the first telop 138 is ended based on the ending time information of the superimposed display of the first telop included in the first telop information (S405). This completes the display processing of the first telop.
  • the second telop display processing will be explained.
  • moving image data is selected from the material moving image data stored in the moving image database 121 and the moving image is reproduced (S501). Since the second telop information is associated with the selected moving image data, the second telop display unit 117 reads out the second telop information stored in the telop information database 122 (S502). Then, the second telop display unit 117 superimposes and displays the second telop on the moving image being reproduced based on the start time information of the superimposed display of the second telop included in the second telop information (S503). After that, the superimposed display of the second telop is ended based on the ending time information of the superimposed display of the second telop included in the second telop information (S504). Thus, the display processing of the second telop ends.
  • the moving image editing system of the present invention it is possible to edit moving images with a high degree of freedom using an extremely simple method.
  • a telop can be easily superimposed and displayed.
  • synthetic speech when displaying a telop superimposed, or to translate the speech into another language and display it.
  • the moving image editing system of the present invention is extremely useful, for example, for business manuals using moving images for technical guidance to foreign workers.
  • Embodiment 2 Video editing system
  • the video editing system according to the second embodiment makes it possible to easily and greatly improve the workability of material videos before editing telops by performing cut editing and generating composite videos. different in that More details are as follows.
  • components having the same functions as those of the video editing system according to Embodiment 1 and steps for performing the same processing as the video editing method according to Embodiment 1 are denoted by the same reference numerals. , and detailed description may be omitted.
  • a video editing server, an administrator terminal, a user terminal, and a multilingual server are connected so as to be able to communicate with each other via a network.
  • the hardware configuration of the video editing server, administrator terminal, user terminal, and multilingual server can be the same as in the first embodiment (see FIGS. 2 and 3). Therefore, detailed description of these hardware configurations is omitted.
  • FIG. 12 is a block diagram showing the configuration of the video editing server 10'.
  • the moving image editing server 10' includes at least a control unit 101', a storage unit 102, and an interface unit 103 functionally and conceptually.
  • control unit 101' differs from the control unit 101 according to Embodiment 1 in that it includes a second editing screen display unit 124, a cut editing unit 125, and a synthetic video generating unit 126.
  • the second editing screen display unit 124 causes the administrator terminal 30 to display the second video editing screen 150 in response to a request from the administrator terminal 30 .
  • the second moving image editing screen 150 has at least a material moving image display area 151, a frame image display area 152, and a synthesized moving image reproduction area 153 for reproducing a synthesized moving image.
  • FIG. 13 is an explanatory diagram showing the second moving image editing screen 150. As shown in FIG.
  • the material moving image display area 151 can display at least one material moving image 154 .
  • the material moving image 154 is based on the material moving image data stored in the moving image database 121 of the storage unit 102, and is called by the second editing screen display unit 124 in response to a request from the administrator terminal 30.
  • the material moving image display area 151 can display not only the material moving image 154 but also a (still) image and a synthesized moving image during editing (details will be described later).
  • the frame image display area 152 displays a plurality of frame images 155 arranged in chronological order.
  • the frame image 155 constitutes the material moving image 154 displayed in the material moving image display area 151 .
  • a plurality of frame images 155 forming the material moving image are displayed in chronological order.
  • the frame image display area 152 displays a playback position display line 156 so as to be superimposed on the plurality of frame images 155 arranged and displayed in chronological order.
  • a playback position display line 156 indicates which frame image 155 is to be played back and displayed at which playback time in the material moving image being played.
  • the reproduction position display line 156 horizontally moves in the direction indicated by the arrow Y as the reproduction time elapses when the material moving image is reproduced. Further, when the reproduction of the material moving image is paused, the reproduction position display line 156 stops horizontal movement at the time of the pause. From the positional relationship of the reproduction position display line 156 in the frame image display area 152, it is possible to easily confirm which frame image is being reproduced as a moving image. Note that the direction indicated by the arrow Y in FIG. 13 represents the passage of time during which the material moving image is reproduced.
  • the synthetic video playback area 153 is an area for displaying a synthetic video, and has at least a first video playback area 153a and a second video playback area 153b.
  • first moving image reproduction area 153a the first material moving image cut and edited in the first frame image display area 152a can be reproduced.
  • second moving image reproduction area 153b it is possible to reproduce the second material moving image cut-edited in the second frame image display area 152b.
  • the term “composite moving image” means a moving image in which a plurality of material moving images are synchronously reproduced within one screen. In the composite moving image of the present embodiment, a case where the first material moving image and the second material moving image are played in synchronization is taken as an example.
  • the cut editing unit 125 designates a section (range) of the frame images to be played back from among the plurality of frame images that make up the material moving image data, and performs cut editing. Specifically, the cut editing unit 125 arranges at least one object 157 at an arbitrary position within the frame image display area 152 in response to a request from the administrator terminal 30 . As a result, the object 157 can be superimposed and displayed on the frame images 155 displayed in the frame image display area 152 in chronological order.
  • the object 157 designates a section (range) of only the frame images required for moving image reproduction among the plurality of frame images displayed in the frame image display area 152 in time series. Sections not specified by the object 157 are excluded so as not to reproduce the moving image. Therefore, the administrator can easily perform cut editing simply by superimposing and displaying the object 157 on the frame images 155 arranged in chronological order.
  • the cut editing unit 125 also accepts requests from the administrator terminal 30 to move the placed object 157 within the frame image display area 152 and to expand and reduce the area of the object 157 .
  • the administrator can change the playback portion of the material moving image simply by moving the object 157 within the frame image display area 152 .
  • the reproduction time can be appropriately adjusted simply by expanding or contracting the area of the object 157 .
  • the expansion and contraction of the area of the object 157 can be performed, for example, in the horizontal direction within the frame image display area 152 (the direction parallel to the direction indicated by the arrow Y in FIG. 13).
  • the cut editing unit 125 may perform It can be reflected in the same way.
  • the designated section of the frame images that make up the first material moving image is extended, the designated section of the frame images that are reproduced in synchronization with the designated section even in the second material moving image is treated as the first material moving image. can be extended as well.
  • the cut editing unit 125 can also designate a plurality of different sections in the frame image display area 152 using a plurality of objects.
  • three different sections are designated by objects 157a to 157c in the second frame image display area 152b.
  • the cut editing unit 125 can arbitrarily change and set the reproduction order of each specified section. For example, after the section designated by the object 157a is reproduced, the section designated by the object 157c is reproduced, and then the section designated by the object 157b is reproduced.
  • the cut editing unit 125 can store the cut-edited material moving image data in the moving image database 121 in response to a request from the administrator terminal 30 .
  • the composite video generation unit 126 In response to a request from the administrator terminal 30, the composite video generation unit 126 generates a composite video in which each material video can be played synchronously within one screen.
  • the material moving image was stored in the moving image database 121 and called by the second editing screen display unit 124 in response to a request from the administrator terminal 30 and displayed in the material moving image display area 151 .
  • the material moving image is cut-edited by the cut editing unit 125, it is the material moving image after cut-editing.
  • FIG. 13 shows a synthesized moving image obtained by combining a first material moving image that has been cut-edited in the first frame image display area 152a and a second material moving image that has been cut-edited in the second frame image display area 152b.
  • the synthetic moving image generation unit 126 can store moving image data related to the synthetic moving image in the moving image database 121 in response to a request from the administrator terminal 30 .
  • FIG. 14 is a flowchart showing the flow of synthetic moving image editing processing by the administrator.
  • FIG. 15 is a flow chart showing the flow of cut editing processing by the administrator.
  • the administrator first accesses the video editing server 10' from the administrator terminal 30 via the network 20 in order to use the video editing system of the second embodiment.
  • the second editing screen display unit 124 of the video editing server 10 ′ transmits HTML document data for displaying the second video editing screen 150 to the administrator terminal 30 .
  • the second video editing screen 150 is displayed on the display or the like of the administrator terminal 30 (S601).
  • the administrator uses input means such as a keyboard and a mouse provided in the administrator terminal 30 to edit material video data stored in the video database 121. selects and calls a plurality of material moving image data to be used for generating a synthesized moving image.
  • the second edit screen display unit 124 displays material moving images based on the plurality of selected material moving image data in the material moving image display area 151 in response to a request from the administrator terminal 30 (S602).
  • a selection of a moving image is accepted (S701).
  • the frame images constituting the second material moving image are arranged and displayed in time series in the image display area 152a, and the frame images constituting the second material moving image are arranged and displayed in time series in the second frame image display area 152b.
  • the section to be reproduced is specified by superimposing the object 157 on the first frame image display area 152a and the second frame image display area 152b. That is, when the “add cut” icon 158 shown in FIG. 13 is selected, the cut editing unit 125 receives a request for superimposed display of the object 157 from the administrator terminal 30 . Furthermore, the cut editing unit 125 superimposes the object 157 on the plurality of frame images 155 displayed in the first frame image display area 152a and the second frame image display area 152b (S702).
  • the superimposed object 157 is moved within the first frame image display area 152a or the second frame image display area 152b in response to a request from the administrator terminal 30. It is possible by appropriately moving in the horizontal direction. In addition, expansion or contraction of the section to be played back is possible by expanding or contracting the area of the object 157 in response to a request from the administrator terminal 30 (S703). As a result, cut editing is performed to extract only the section desired to be reproduced in the material moving image.
  • the section designated by the object in the first frame image display area 152a and the section designated by the object in the second frame image display area 152b should be associated with each other. It is possible by As a result, when the section specified in the first frame image display area 152a is expanded or contracted, the section specified in the second frame image display area 152b can also be expanded or contracted synchronously.
  • the composite moving image generation unit 126 receives a request from the administrator terminal 30, and the first material moving image and the second material moving image after cut editing are reproduced within one screen in synchronization with the same reproduction time. Synthetic moving image data is generated (S607). Note that in the stored composite moving image data, frame images that are reproduced in synchronization with the same reproduction time are associated with the first material moving image and the second material moving image. Further, when the “save” icon 159 shown in FIG. 13 is selected, the synthetic moving image generation unit 126 accepts storage of the synthetic moving image data, and causes the moving image database 121 to store the synthetic moving image data. This completes the synthetic moving image editing process.
  • the synthetic moving image generated by the synthetic moving image editing processing can be further subjected to the moving image editing processing and telop display processing described in the first embodiment.
  • Second telop display unit 118 Audio synthesizing unit 119 Audio output unit 121 Moving image database 122 Moving image database 123 Audio database 124 Second editing screen display unit 125 Cut editing unit 126... Composite moving image generation unit 130... First moving image editing screen 131... Moving image playback area 132... Time line display area 133... Text object placement area 134... Object placement area 135... First text object 136... Objects 137 Reproduction time display line 138 First telop 139 Second text object 150 Second video editing screen 151 Material video display area 152 Frame image display area 153 Composite video playback area , 154... material moving image, 155... frame image, 157... object

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Studio Circuits (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】動画編集の作業性及び利便性を大幅に向上させ、自由度の高い動画編集が可能な動画編集システムを提供する。 【解決手段】本発明は、管理者端末30と動画編集サーバ10とを備え、動画編集サーバ10は、動画を再生する動画再生領域131とタイムライン表示領域132とを少なくとも含む第1動画編集画面を、管理者端末30に表示させる第1編集画面表示部111と、タイムライン表示領域132内の第1テキストオブジェクト135を配置し、第1テキストオブジェクト135に入力された文字列を表すテキストデータを受け付けるテキストオブジェクト配置部112と、第1テキストオブジェクト135に入力されたテキストデータに基づき、タイムライン表示領域132内に配置された第1テキストオブジェクト135の位置に対応する動画の再生時刻に、文字列を第1テロップとして動画に重畳表示させる第1テロップ表示部113とを備える。

Description

動画編集システム
 本発明は、ユーザー端末上の簡単な編集操作により、任意の動画(映像)にテキスト及び音声を重畳表示させることを可能にする動画編集システムに関する。
 近年、日本国内に於ける外国人労働者の増加に伴い、外国人労働者とのコミュニケーションや、育成及び技術指導に関する課題を抱える企業が増加している。特に、製造現場で使用される特有の専門用語等を日本語で技術指導等を行うのは、外国人労働者にとって難解であり、技術指導を行う方にも過度な負担を強いる。他方、外国人労働者の技術指導等に於いては動画や画像を用いた業務マニュアルを活用することが有用であるとの調査結果もある。
 動画等を用いた業務マニュアルの作製に於いては、撮影された動画を、コンピュータ上で動作する動画編集ソフトウェアを用いて編集処理を行う場合がある。編集処理としては、例えば、撮影や記録によって得られた各種の情報及び目次、タイトル等の付帯情報、並びに音声出力を動画に追加すること等が行われる。
 しかし、動画の編集処理には、ビデオ編集の技術や、HTML(Hypertext Markup Language)及びFlashの知識等が必要となる。これらの技術及び知識等を備えない場合、従来の動画編集システムでは動画コンテンツの製作及び編集が困難であり、また、たとえこれらの技術等を備えていたとしても、動画の編集処理には多大な時間と手間を要し、簡単に動画編集を行うことは困難である。
 この点に関し、例えば、特許文献1には、コンテンツ素材情報をレイアウト上に配置していくルールを予め定め、保持させておき、このルールに従って、コンテンツ素材情報を自動的に配置してコンテンツを生成する、コンテンツ生成システムが開示されている。これにより、ユーザーは、用意したコンテンツ素材にルールを適用するだけで、自動的にコンテンツを生成することが可能とされている。また、コンテンツ生成のための特別の知識や技術がなくても簡単にコンテンツを作成することができ、時間条件に制限されることなく自由に再生できるとされている。
 しかし、特許文献1に記載のコンテンツ生成システムでは、コンテンツ素材情報をレイアウト上に配置する際、予め定められたルールに従って編集処理を行う必要があるため、ユーザーには動画編集の自由度が低いという問題がある。
特開2006-48465号公報
 本発明は前記問題点に鑑みなされたものであり、その目的は、動画編集の作業性及び利便性を大幅に向上させ、自由度の高い動画編集が可能な動画編集システムを提供することにある。
 本発明の動画編集システムは、前記の課題を解決するために、管理者端末と、前記管理者端末にネットワークを介して接続された動画編集サーバと、を少なくとも備える動画編集システムに於いて、前記動画編集サーバは、動画を再生する動画再生領域と、前記動画の再生時間のタイムラインを表示するタイムライン表示領域とを少なくとも含む第1動画編集画面を、前記管理者端末に表示させる第1編集画面表示部と、前記管理者端末からの要求により、前記タイムライン表示領域内の任意の位置に少なくとも1つの第1テキストオブジェクトを配置し、前記第1テキストオブジェクトに入力された文字列を表すテキストデータを受け付けるテキストオブジェクト配置部と、前記第1テキストオブジェクトに入力された前記テキストデータに基づき、前記タイムライン表示領域内に配置された前記第1テキストオブジェクトの位置に対応する前記動画の再生時刻に、前記文字列を第1テロップとして再生中の前記動画に重畳表示させる第1テロップ表示部と、を備えることを特徴とする。
 前記の構成に於いて、前記第1編集画面表示部は、前記タイムライン表示領域内に於いて、任意の位置にオブジェクトの配置を可能にするオブジェクト配置領域をさらに前記管理者端末に表示させるものであり、前記動画編集サーバは、前記管理者端末からの要求により、前記オブジェクト配置領域の任意の位置に少なくとも1つのオブジェクトを配置するオブジェクト配置部と、前記オブジェクト配置領域内に配置された前記オブジェクトの位置に対応する前記動画の再生時刻に、第2テキストオブジェクトを前記動画に重畳表示させるテキストオブジェクト表示部と、前記管理者端末からの要求により、前記テキストオブジェクト表示部により前記動画に重畳表示された前記第2テキストオブジェクトに、文字列を表すテキストデータの入力を受け付けるテキストオブジェクト編集部と、前記テキストオブジェクト編集部により受け付けられた前記文字列を、前記オブジェクト配置領域内に配置された前記第2テキストオブジェクトの位置に対応する前記動画の再生時刻に、第2テロップとして再生中の前記動画に重畳表示させる第2テロップ表示部と、をさらに備えることが好ましい。
 さらに前記の構成に於いては、前記動画編集サーバに前記ネットワークを介して接続された多言語翻訳サーバをさらに備え、前記テキストオブジェクト配置部及び前記テキストオブジェクト編集部は、前記第1テキストオブジェクト又は前記第2テキストオブジェクトに入力された文字列を表すテキストデータを前記多言語翻訳サーバに送信し、前記多言語翻訳サーバは、前記テキストオブジェクト配置部又は前記テキストオブジェクト編集部から受信した前記テキストデータに基づき、前記文字列とは異なる少なくとも1つ以上の言語に翻訳し、翻訳後の文字列を表すテキストデータを前記動画編集サーバに送信し、前記第1テロップ表示部及び前記第2テロップ表示部は、前記多言語翻訳サーバから受信した前記翻訳後の文字列を表すテキストデータに基づき、前記翻訳後の文字列を第1テロップ又は第2テロップとして、再生中の前記動画にそれぞれ重畳表示させることが好ましい。
 また前記の構成に於いて、前記動画編集サーバは、音声合成用の音情報が格納された記憶部と、前記記憶部に格納されている前記音情報を読み出して、前記第1テキストオブジェクトに入力された前記文字列を表すテキストデータ、又は前記翻訳後の文字列を表すテキストデータに対応した合成音声を生成する音声合成部と、前記音声合成部で合成された音声を、前記第1テロップ表示部による前記第1テロップの重畳表示に同期させて出力する音声出力部と、をさらに備えるようにしてもよい。
 前記の構成に於いて、前記テキストオブジェクト配置部は、前記タイムライン表示領域内の任意の位置に配置された前記第1テキストオブジェクトの領域を拡張又は縮小することにより、前記動画に重畳表示させる前記第1テロップの重畳表示時間を調整することが好ましい。
 前記の構成に於いて、前記オブジェクト配置部は、前記オブジェクト配置領域内の任意の位置に配置された前記オブジェクトの領域を拡張又は縮小することにより、前記動画に重畳表示させる前記第2テロップの重畳表示時間を調整することが好ましい。
 前記の構成に於いて、前記動画編集サーバは、前記記憶部に格納されている素材動画データを呼び出し、前記素材動画データを構成する複数のフレーム画像を時系列に配置して表示する第2動画編集画面を、前記管理者端末に表示させる第2編集画面表示部と、前記第2動画編集画面に於いて、時系列に配置して表示されている前記複数のフレーム画像に対して、1以上のフレーム画像を含む一部区間を範囲指定することにより、範囲指定されなかった区間を削除するカット編集部と、をさらに備えるようにしてもよい。
 また前記の構成に於いて、前記第2編集画面表示部は、複数の前記素材動画データを前記記憶部から呼び出し、前記素材動画データを構成する複数のフレーム画像を時系列にそれぞれ配置して表示するものであり、前記動画編集サーバは、前記第2編集画面表示部が呼び出した複数の前記素材動画データに基づき、1つの画面内で同期させて各々再生させる合成動画を生成する合成動画生成部をさらに備えることが好ましい。
 さらに前記の構成に於いて、前記カット編集部は、前記合成動画に於ける任意の1つの素材動画を構成する複数のフレーム画像に対し、前記範囲指定した区間の長さを変更した場合、他の素材動画を構成する複数のフレーム画像に対しても、前記範囲指定した区間に対応する区間の長さを同期して変更することが好ましい。
 本発明によれば、動画の再生時間のタイムラインを表示するタイムライン表示領域の任意の位置にテキストオブジェクトを配置することで、テキストオブジェクトに入力された文字列を第1テロップとして、再生する動画中に重畳表示させることができる。また、第1テロップを重畳表示させる時刻を、タイムライン表示領域に於いてオブジェクトの配置位置を調整することにより容易に設定することができる。すなわち、本発明によれば、動画編集の作業性及び利便性を大幅に向上させ、自由度の高い動画編集が可能な動画編集システムを提供することができる。
本発明の実施の形態1に係る動画編集システムの構成の一例を示す概念図である。 本発明の実施の形態1に係る動画編集サーバのハードウェア構成を表すブロック図である。 本発明の実施の形態1に係る管理者端末のハードウェア構成を表すブロック図である。 本発明の実施の形態1に係る動画編集サーバの機能構成の一例を示すブロック図である。 管理者端末に表示させる第1動画編集画面を表す説明図である。 管理者による動画編集処理の流れを示すフローチャートである。 動画編集処理に於ける第1テロップ編集処理の流れを示すフローチャートである。 動画編集処理に於ける第2テロップ編集処理の流れを示すフローチャートである。 第1動画編集画面に於いて、第2テキストオブジェクトの編集の様子を表す説明図である。 編集済み動画再生時の第1テロップ表示処理の流れを示すフローチャートである。 編集済み動画再生時の第2テロップ表示処理の流れを示すフローチャートである。 本発明の実施の形態2に係る動画編集サーバの機能構成の一例を示すブロック図である。 管理者端末に表示させる第2動画編集画面を表す説明図である。 管理者による合成動画編集処理の流れを示すフローチャートである。 カット編集処理の流れを示すフローチャートである。
(実施の形態1)
 [動画編集システム]
 先ず、本発明の実施の形態1に係る動画編集システムについて、以下に説明する。
 <動画編集システムの全体構成>
 本実施の形態1の動画編集システムは、図1に示すように、ネットワーク20を介して、動画編集サーバ10、管理者が使用する管理者端末30、ユーザーが使用するユーザー端末40及び多言語翻訳サーバ50が相互に通信可能に接続されて構成されている。図1は、本実施の形態1に係る動画編集システムの構成の一例を示す概念図である。
 動画編集サーバ10は、例えば、ワークステーションやパーソナルコンピュータ、その他のコンピュータ装置に於いて、動画編集プログラムが実行されることで実現される。動画編集サーバ10は、動画データ及び音声データ等を格納し、管理者端末30からの要求により、素材となる動画コンテンツにテロップを重畳表示させるなどの動画編集を可能にする。また、動画編集サーバ10は、ユーザー端末40からの要求により、編集済み動画コンテンツの再生を可能にする。
 尚、本明細書に於いて、「動画」とは複数の静止画(フレーム画像)の列から構成されるものを意味する。「動画」には、例えば、コンピュータ・システム、ハンドヘルドコンピュータ、携帯電話、テレビ等の表示装置上に表示される動画が含まれる。コンピュータ等の表示装置上に表示される動画は例えば、仮想3次元空間の動画やネットワークを介して配信される動画を含む。動画の例としては、例えば、企業や家庭等で撮影された映像の他、テレビの映像等を含み得る。「動画データ」とは、前記動画のデータを意味する。動画データは、例えば、デジタル・データの形態で動画編集サーバ10に記録され得る。また、「テロップ」とは、動画(映像)コンテンツに重畳して表示される文字列(数字、記号及び符号等を含む。)を意味する。また本発明に於ける「テロップ」は、キャプション、サブタイトル、ティッカー、アラート又はスーパーインポーズ等と換言することもできる。
 動画編集サーバ10のハードウェア構成は、具体的には例えば、次の通りである。すなわち、動画編集サーバ10は、図2に示すように、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、通信制御インターフェース14、記憶装置15及び入力操作部16を少なくとも備える。また、これらの各構成要素は、図2に示す通り、パス17を介して相互に通信可能に接続される。尚、図2は、動画編集サーバのハードウェア構成を表すブロック図である。
 CPU11は、動画編集サーバ10の全体を制御するために各種演算処理等を行う。より具体的には、CPU11は、ROM12から動画編集プログラムを読み出し、RAM13を作業領域に用いて実行することで、動画編集サーバ10の各構成要素の動作を制御する。ROM12は、読み出し専用のメモリであって、例えば動画編集サーバ10の起動時にCPU11に実行させる初期プログラムなどを格納する。RAM13は、書き込み可能な揮発性のメモリであって、実行中のプログラムやデータ等を一時的に格納する。通信制御インターフェース14は、外部へのデータ送信の制御や外部からのデータ受信の制御を行う。動画編集サーバ10は、通信制御インターフェース14を介してネットワーク20と通信可能に接続される。記憶装置15は、例えば、磁気ディスク装置等からなり、動画編集サーバ10の電源がオフにされても保持されるべき各種プログラム・各種データを格納する。入力操作部16は、具体的には、キーボードやマウス等であって、管理者等による入力操作を受け付ける。
 ネットワーク20は、インターネットや専用回線、WAN(Wide Area Network)、電灯線ネットワーク、無線ネットワーク、公衆回線網、携帯電話網等の種々のものを用いることにより実現される。さらに、ネットワーク20はVPN(Virtual Private Network)等の仮想専用ネットワーク技術を用いることで、セキュリティ性を向上させたインターネット通信を確立するようにしてもよい。
 管理者端末30は、携帯電話、スマートフォン、PHS(Personal Handy-phone System)及びPDA(Personal Digital Assistant)等の携帯端末装置、並びにデスクトップ型又はノート型のパーソナルコンピュータ等の情報処理装置等により実現される。管理者端末30には、本実施の形態1の動画編集システムを実現するために、インターネットブラウザ等が搭載されていることが好ましい。また管理者端末30のハードウェア構成は、例えば、図3に示すように、CPU31、ROM32、RAM33、表示部34、入力部35及び通信制御インターフェース36を少なくとも備える。図3は、管理者端末30のハードウェア構成を表すブロック図である。
 CPU31は、管理者端末30の全体を制御するために各種演算処理等を行う。より具体的には、CPU31は、ROM32からコンピュータプログラムを読み出し、RAM33を作業領域に用いて実行することで、管理者端末30の各構成要素の動作を制御する。ROM32は、書き込み可能な不揮発性のメモリであって、管理者端末30の電源がオフにされても保持されるべき各種プログラム・各種データを格納することができる。RAM33は、書き込み可能な揮発性のメモリであって、実行中のプログラムやデータ等を一時的に格納することができる。表示部34は、例えば、液晶又は有機EL(Electro Luminescence)等から構成されるディスプレイ、モニタ、又はタッチパネル等により実現される。通信制御インターフェース36は、管理者端末30から外部へのデータ送信の制御や、外部から管理者端末30へのデータ受信の制御を行う。管理者端末30は、通信制御インターフェース36を介してネットワーク20と通信可能に接続される。
 ユーザー端末40は、携帯電話、スマートフォン、PHS及びPDA等の携帯端末装置、並びにデスクトップ型又はノート型のパーソナルコンピュータ等の情報処理装置等により実現される。本実施の形態1の動画編集システムに於いて、ユーザー端末40は少なくとも1台あればよく、複数台でもよい。ユーザー端末40には、本実施の形態1の動画編集システムを実現するために、インターネットブラウザ等が搭載されていることが好ましい。ユーザー端末40のハードウェア構成は管理者端末30と同様、CPU、ROM、RAM、表示部、入力部及び通信制御インターフェースを少なくとも備えたハードウェア構成を採用することができる。従って、ユーザー端末40のハードウェア構成の詳細については、その説明を省略する。
 多言語翻訳サーバ50は、動画編集サーバ10から取得したテロップ用の文字列をテキストデータに対し1以上の他の言語に翻訳する機能を有する。多言語翻訳サーバ50は、例えば、辞書データベース(図示しない)に翻訳用の辞書情報を予め格納しておいてもよい。多言語翻訳サーバ50は、動画編集サーバ10からテロップ用の文字列の翻訳要求を受け付けると共に、当該文字列のテキストデータを取得する。また多言語翻訳サーバ50は、必要に応じて翻訳用の辞書情報を参照しながら、文字列を他の言語に翻訳した後、翻訳後の文字列を表すテキストデータを動画編集サーバ10に送信する。
 尚、多言語翻訳サーバ50としては、既存の多言語翻訳サービスで提供されるものを利用することもできる。既存の多言語翻訳サービスとしては特に限定されず、例えば、Google(登録商標)翻訳等が挙げられる。
 <動画編集サーバ>
 次に、動画編集サーバ10の機能構成について、以下に説明する。
 動画編集サーバ10は、図4に示すように、機能概念的には制御部101、記憶部102及びインターフェース部103を少なくとも備える。図4は、動画編集サーバ10の機能構成の一例を示すブロック図である。
 制御部101は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、及び所要データを格納するための内部メモリを有する。制御部101は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部101は、図4に示すように、機能概念的には第1編集画面表示部111、テキストオブジェクト配置部112、第1テロップ表示部113、オブジェクト配置部114、テキストオブジェクト表示部115、テキストオブジェクト編集部116、第2テロップ表示部117、音声合成部118及び音声出力部119を少なくとも備える。
 第1編集画面表示部111は、管理者端末30に第1動画編集画面130を表示させる。第1動画編集画面130には、図5に示すように、動画を再生する動画再生領域131と、前記動画の再生時間のタイムラインを表示するタイムライン表示領域132とを少なくとも含む。図5は、第1動画編集画面130を表す説明図である。
 動画再生領域131は、動画編集サーバ10の記憶部102に格納されている動画データに基づき動画を再生表示する。タイムライン表示領域132は、動画の再生時間のタイムラインを表示する。またタイムライン表示領域132は、第1テキストオブジェクト135の配置を可能にするテキストオブジェクト配置領域133と、オブジェクト136の配置を可能にするオブジェクト配置領域134とを有する(これらの詳細については後述する。)。
 タイムライン表示領域132は、図5の矢印Xで示す方向に向かって再生時間の時間経過を表す。また、タイムライン表示領域132には、現在の再生時間位置を示す再生時刻表示線137も表示される。再生時刻表示線137は、動画が再生されると、再生時間の経過と共に矢印Xで示す方向に水平移動する。また、動画の再生が一時停止される場合、再生時刻表示線137は一時停止となった時刻で水平移動を停止する。そして再生時刻表示線137と、後述の第1テキストオブジェクト及びオブジェクトとの位置関係から、現在どの第1テキストオブジェクトに基づく第1テロップ138、又はどのオブジェクトに基づく第2テロップが動画中に重畳表示されているかを容易に確認することができる。例えば、水平移動する再生時刻表示線137が第1テキストオブジェクトと重なって表示されている場合には、第1テキストオブジェクト内に入力された文字列が第1テロップ138として動画に重畳表示される。
 テキストオブジェクト配置部112は、管理者端末30の要求に応じて、動画の再生中に重畳表示させる第1テロップの再生時刻や終了時刻、及び第1テロップとして表示させる内容を簡便に編集可能にする。
 すなわち、テキストオブジェクト配置部112は、管理者端末30からの要求に応じて、テキストオブジェクト配置領域133内の任意の位置に少なくとも1つの第1テキストオブジェクト135を配置することを受け付ける。また、テキストオブジェクト配置部112は、配置された第1テキストオブジェクト135のテキストオブジェクト配置領域133内での移動や、第1テキストオブジェクト135の領域の拡張及び縮小を、管理者端末30からの要求に応じて受け付ける。ここで、テキストオブジェクト配置領域133内に配置された第1テキストオブジェクト135の左端の位置は、当該第1テキストオブジェクト135内にテキスト入力された文字列が第1テロップ138として再生中の動画内に重畳表示される開始時刻に対応する。また、第1テキストオブジェクト135の右端の位置は、動画内での第1テロップ138の重畳表示が終了する時刻に対応する。従って、管理者は、第1テキストオブジェクト135をテキストオブジェクト配置領域133内で移動させ、又は第1テキストオブジェクト135の領域を拡張又は縮小させるだけで、再生中の動画に重畳表示させる第1テロップの開始時刻や終了時刻(重畳表示時間)を簡便に調節することができる。尚、第1テキストオブジェクト135の移動、拡張及び縮小は、管理者端末30の入力手段、具体的には、例えば、マウス等により可能である。第1テキストオブジェクト135の領域の拡張及び縮小は、例えば、テキストオブジェクト配置領域133内に於いて、動画の再生時間のタイムラインを示す矢印Xで示す方向、又はその反対方向に行う。
 また、テキストオブジェクト配置部112は、管理者端末30の入力手段により第1テキストオブジェクト135内への文字列を表すテキストデータの入力を受け付ける。さらに、テキストオブジェクト配置部112は、管理者端末30の要求に応じて、第1テキストオブジェクト135内に入力された文字列の多言語翻訳を受け付けることもできる。この場合、テキストオブジェクト配置部112は第1テキストオブジェクト135内に入力された文字列を表すテキストデータを多言語翻訳サーバ50に送信し、多言語翻訳サーバ50で翻訳された翻訳後の文字列を表すテキストデータを受け付ける。尚、文字列を表すテキストデータとは、文字情報、数字情報、記号情報及びこれらが結合した情報を含む。
 テキストオブジェクト配置部112は、テキストオブジェクト配置領域133内に第1テキストオブジェクト135が配置されると、第1テロップ情報を動画データに対応付けてテロップ情報データベース(詳細については後述する。)に格納させる。第1テロップ情報には、第1テロップ138の重畳表示の開始時刻情報及び終了時刻情報の他、第1テキストオブジェクト135に入力された文字列を表すテキストデータや翻訳後の文字列を表すテキストデータ、図形情報及び音声情報が含まれる。また第1テロップ情報には、第1テロップ138の動画内に於ける表示位置に関する情報を含ませてもよい。
 第1テロップ表示部113は、テロップ情報データベースに格納されている第1テロップ情報を読み出し、当該第1テロップ情報に基づき、第1テロップ138を再生中の動画の任意の位置に重畳表示させる。第1テロップ138として表示される文字列は、第1テロップ情報に含まれる第1テキストオブジェクト135に入力された文字列を表すテキストデータ、又は翻訳後の文字列を表すテキストデータに基づき生成される。また、第1テロップ138の重畳表示は、第1テロップ情報に含まれる第1テロップ138の重畳表示の開始時刻情報及び終了時刻情報に基づき、所定の再生時刻に重畳表示が開始され、かつ終了する。第1テキストオブジェクト135が、テキストオブジェクト配置部112により、テキストオブジェクト配置領域133内に複数配置されている場合は、第1テロップ表示部113は、順次、テロップ情報データベースに格納されている第1テロップ情報を読み出し、それぞれの第1テキストオブジェクト135に入力されたテキストデータの文字列を第1テロップ138として、所定の再生時刻に重畳表示させる。
 オブジェクト配置部114は、管理者端末30からの要求に応じて、オブジェクト配置領域134内の任意の位置に少なくとも1つのオブジェクト136を配置することを受け付ける。オブジェクト136をオブジェクト配置領域134内で自由に配置可能にすることで、管理者はオブジェクト136の管理を視覚的に行うことができる。その結果、多数のオブジェクト136を配置する場合にも管理が煩雑になるのを回避できる上、管理者がオブジェクト136の編集を行う場合にも、編集対象となるオブジェクト136を容易に見つけ出すことができるなど、操作性及び作業効率の向上が図れる。また、オブジェクト配置部114は、配置されたオブジェクト136のオブジェクト配置領域134内での移動や、オブジェクト136の領域の拡張及び縮小を、管理者端末30からの要求に応じて受け付ける。ここで、オブジェクト配置領域134内に配置されたオブジェクト136の左端の位置は、第2テロップ(又は、第2テキストオブジェクト139)を再生中の動画内に重畳表示させる開始時刻に対応する。また、オブジェクト136の右端の位置は、第2テロップ(又は、第2テキストオブジェクト139)を再生中の動画内に重畳表示させるのを終了する時刻に対応する。従って、管理者は、オブジェクト136をオブジェクト配置領域134内で移動させ、又はオブジェクト136の領域を拡張又は縮小させるだけで、再生中の動画に重畳表示させる第2テロップの開始時刻や終了時刻(重畳表示時間)を簡便に調節することができる。尚、オブジェクト136の移動、並びにオブジェクト136の領域の拡張及び縮小は、管理者端末30の入力手段、具体的には、例えば、マウス等により可能である。オブジェクト136の領域の拡張及び縮小は、例えば、オブジェクト配置領域134内に於いて、動画の再生時間のタイムラインを示す矢印Xで示す方向、又はその反対方向に行うことができる。またオブジェクト配置部114は、複数のオブジェクト136を動画の再生時間のタイムラインに対し垂直となる方向に於いて並列配置させることができる。これにより、動画の再生中、同じ再生時刻に同時に2つ以上のテキストオブジェクト139を重畳表示させることができる。尚、オブジェクト配置部114は、テキストオブジェクト配置部112と異なり、管理者端末30の要求により、文字列を表すテキストデータの入力を受け付けない。
 オブジェクト配置部114は、オブジェクト配置領域134内に少なくとも1つのオブジェクト136が配置されると、第2テキストオブジェクト139の重畳表示の開始時刻情報及び終了時刻情報を第2テロップ情報として動画データに対応付けて、テロップ情報データベースに格納させる。第2テキストオブジェクト139の重畳表示の開始時刻情報及び終了時刻情報は、第2テロップの重畳表示の開始時刻情報及び終了時刻情報になるものである。
 テキストオブジェクト表示部115は、オブジェクト配置部114により少なくとも1つのオブジェクト136がオブジェクト配置領域134内に配置されると、編集中の動画に対し、オブジェクト136が配置された位置に対応する再生時刻に第2テキストオブジェクト139を重畳表示させる。この第2テキストオブジェクト139は、管理者端末30の入力手段により、文字列を表すテキストデータの入力が可能なオブジェクトである。テキストオブジェクト表示部115は、動画編集を伴わない動画再生に於いては、第2テキストオブジェクト139を重畳表示しない。尚、第2テキストオブジェクト139の重畳表示は、テロップ情報データベースに格納されている第2テロップ情報をテキストオブジェクト表示部115が呼び出し、当該第2テロップ情報に含まれる第2テキストオブジェクト139の重畳表示の開始時刻情報及び終了時刻情報に基づき実行される。
 テキストオブジェクト編集部116は、第2テキストオブジェクト139内への文字列を表すテキストデータ(文字情報、数字情報、記号情報及びこれらが結合した情報)の、管理者端末30の入力手段による入力を受け付ける。さらに、テキストオブジェクト編集部116は、管理者端末30の要求に応じて、第2テキストオブジェクト139内に入力された文字列の多言語翻訳を受け付ける。この場合、テキストオブジェクト編集部116は第2テキストオブジェクト139内に入力された文字列を表すテキストデータを多言語翻訳サーバ50に送信し、多言語翻訳サーバ50で翻訳された翻訳後の文字列を表すテキストデータを受け付ける(受信する。)。
 また、テキストオブジェクト編集部116は、動画内での第2テキストオブジェクト139の表示位置の移動や、第2テキストオブジェクト139の領域の拡張及び縮小を、管理者端末30からの要求に応じて受け付ける。第2テキストオブジェクト139を移動させることで、第2テロップを動画内の任意の位置に移動させ、重畳表示させることができる。さらにテキストオブジェクト編集部116は、第2テキストオブジェクト139の形状や表示させる色、テキスト入力された文字列のフォントや文字サイズ等の変更を、管理者端末30からの要求に応じて受け付ける。
 テキストオブジェクト編集部116は、第2テロップ(第2テキストオブジェクト139)の動画内に於ける表示位置に関する情報、第2テキストオブジェクト139の形状や表示させる色等に関する情報、第2テキストオブジェクト139に入力された文字列を表すテキストデータ、翻訳後の文字列を表すテキストデータ、及び第2テキストオブジェクト139に入力された文字列のフォントや文字サイズ等に関する情報等を第2テロップ情報に含めて、テロップ情報データベースに格納させる。
 第2テロップ表示部117は、テロップ情報データベースに格納されている第2テロップ情報を読み出し、当該第2テロップ情報に基づき、再生中の動画に第2テロップを重畳表示させる。第2テロップは、第2テロップ情報に含まれる第2テキストオブジェクト139の配置位置や領域、形状及び色等に関する情報と、第2テロップ情報に含まれる第2テキストオブジェクト139に入力された文字列を表すテキストデータ又は翻訳後の文字列を表すテキストデータ等とに基づき生成される。また、第2テロップの重畳表示は、第2テロップ情報に含まれる第2テキストオブジェクト139の重畳表示の開始時刻情報及び終了時刻情報に基づき、所定の再生時刻に重畳表示が開始され、かつ終了する。オブジェクト136が、オブジェクト配置部114により、オブジェクト配置領域134内に複数配置されている場合、第2テロップ表示部117は、テロップ情報データベースに格納されている第2テロップ情報を読み出して、順次又は同時刻に複数の第2テロップを重畳表示させる。
 音声合成部118は、音声データベース(詳細については後述する。)に格納されている音声合成用の音情報を読み出して、第1テキストオブジェクト135に入力された文字列を表すテキストデータ、又は翻訳後の文字列を表すテキストデータに対応した合成音声を生成する。尚、音声合成部118には、生成した合成音声のデータを第1テロップ情報に対応付けてテロップ情報データベースに格納させるようにしてもよい。
 音声出力部119は、音声合成部118で合成された音声を、第1テロップ表示部113による第1テロップ138の重畳表示に同期させて出力する。音声出力部119は、合成音声のデータが第1テロップ情報に対応付けてテロップ情報データベースに格納されている場合には、当該テロップ情報データベースから合成音声のデータを読み出して、第1テロップ138の重畳表示の際に出力するようにしてもよい。
 記憶部102は、例えば、その内部に複数の記憶領域が定義されており、動画データベース121、テロップ情報データベース122及び音声データベース123を少なくとも備える。この記憶部102としては、保存用のデータやプログラムを記憶するためのハードディスク等の記憶媒体を使用することができる。
 動画データベース121は、素材動画データを格納する。素材動画データは、動画編集前の素材となる動画データを含む。
 テロップ情報データベース122は、動画データベース121に格納されている素材動画データに対応付けられた第1テロップ情報及び/又は第2テロップ情報を格納する。
 音声データベース123は、音声合成用の音情報を格納する。ここで、「音情報」とは音声を合成するために必要な情報であり、短音、単語、文節単位等に対する合成音を出力するための音素データを含み得る。
 インターフェース部103は、ウェブページの生成による入出力を可能にするものであり、当該ウェブページをネットワーク20上で転送し、ウェブブラウザで管理者端末30及びユーザー端末40に表示させる。より詳細には、CGI(Common Gateway Interface)スクリプトによって実現される。CGIとは、クライアントのブラウザから送信される要求に対してWWWサーバ側で対応するプログラム、すなわちCGIスクリプトを起動し、このプログラムで得た結果をクライアント側に返送するインターフェースである。CGIスクリプトはメモリに格納されている。インターネットに接続された動画編集サーバ10から管理者端末30及びユーザー端末40へのHTML文書の伝送に際しては、プロトコルとしてHTTP(Hypertext Transport Protocol)が採用される。これにより、パーソナルコンピュータやスマートフォン等の管理者端末30に於いて汎用ウェブブラウザ等を用いた動画編集が可能となり、またユーザー端末40に於いても編集済み動画の再生等が可能となる。
 [動画編集システムの動作]
 次に、本実施の形態1に係る動画編集システムの動作について説明する。
 動画編集システムに於ける動画編集処理等の各種の動作は、動画編集サーバ10の記憶部102が、制御部101に於ける第1編集画面表示部111等の各構成部の機能を実現すべく備える動画編集プログラムによって実現される。ここで、動画編集プログラムは、以下に説明される各種の動作を行うためのコードから構成されており、各構成部の機能を実装したものとなる。
 <動画編集処理>
 先ず、本実施の形態1の動画編集システムを用いた動画編集処理について、図6~図9に基づき説明する。図6は、管理者による動画編集処理の流れを示すフローチャートである。図7は、動画編集処理に於ける第1テロップ編集処理の流れを示すフローチャートである。図8は、動画編集処理に於ける第2テロップ編集処理の流れを示すフローチャートである。図9は、第1動画編集画面に於いて、第2テキストオブジェクトの編集の様子を表す説明図である。
 管理者は、図6に示すように、本実施の形態1の動画編集システムを利用するため、先ず管理者端末30からネットワーク20を介して動画編集サーバ10にアクセスする。動画編集サーバ10へアクセスすると、動画編集サーバ10の第1編集画面表示部111は、第1動画編集画面130を表示するためのHTML文書のデータを、管理者端末30に送信する。これにより、管理者端末30のディスプレイ等には、第1動画編集画面130が表示される(S101)。
 管理者は、第1動画編集画面130に於いて、管理者端末30に備えられているキーボードやマウス等の入力手段を用いて、動画データベース121に格納されている素材動画データの中から、動画編集を行う素材動画を選択し呼び出す。第1編集画面表示部111は管理者端末30からの要求に応じて、動画再生領域131に素材動画を表示させる(S102)。
 次に、管理者が第1テロップ編集処理(S103、S104)を行う場合、図7に示すように、テキストオブジェクト配置部112は、管理者端末30からの要求に応じて、テキストオブジェクト配置領域133内の任意の位置に少なくとも1つの第1テキストオブジェクト135の配置を受け付ける(S103、S104)。具体的には、管理者端末30に備えられているキーボードやマウス等の入力手段を用いて、テキストオブジェクト配置領域133内の任意の位置に少なくとも1つの第1テキストオブジェクト135が追加される(S201)。続いて、第1テロップ138が再生中の動画に重畳表示させる時刻を調整したい場合には、管理者端末30の入力手段を用いて第1テキストオブジェクト135の配置位置を移動させる。さらに、第1テロップの重畳表示の時間を調整した場合には、管理者端末30の入力手段を用いて第1テキストオブジェクト135の領域を拡張又は縮小させる(S202)。
 続いて、テキストオブジェクト配置部112は、管理者端末30の入力手段により第1テキストオブジェクト135内への文字列を表すテキストデータの入力を受け付ける(S203)。入力された文字列の少なくとも一部は第1テキストオブジェクト135内に表示され、これにより管理者は配置した第1テキストオブジェクト135と第1テロップとの対応付けを容易に判別することができる。また、第1テキストオブジェクト135内に入力された文字列は、他の言語に翻訳させることもできる(S204)。この場合、テキストオブジェクト配置部112は第1テキストオブジェクト135内に入力された文字列を表すテキストデータを多言語翻訳サーバ50に送信する(S205)。多言語翻訳サーバ50に於いて他の言語に翻訳され、当該多言語翻訳サーバ50から翻訳後の文字列を表すテキストデータが送信されると、テキストオブジェクト配置部112は第1テキストオブジェクト135内に他の言語への翻訳後の文字列を表示する(S206)。尚、第1テキストオブジェクト135内への文字列の他の言語への翻訳は動画の再生中でも可能であり、必ずしも再生の停止を要しない。
 さらに管理者端末30により編集済み動画データの格納が要求されると、テキストオブジェクト配置部112は、第1テロップ138の重畳表示の開始時刻情報及び終了時刻情報、第1テキストオブジェクト135に入力された文字列を表すテキストデータ並びに翻訳後の文字列を表すテキストデータを第1テロップ情報として素材動画データに対応付け、テロップ情報データベース122に格納させる(S207)。これにより、第1テロップ編集処理が終了する。
 続いて、第2テロップ編集処理(S105、S106)を行う場合、図8に示すように、オブジェクト配置部114は、管理者端末30からの要求に応じて、オブジェクト配置領域134内の任意の位置に少なくとも1つのオブジェクト136の配置を受け付ける(S301)。具体的には、管理者端末30に備えられているキーボードやマウス等の入力手段を用いて、オブジェクト配置領域134内の任意の位置に少なくとも1つのオブジェクト136が追加される。続いて、第2テロップが再生中の動画に重畳表示させる時刻を調整したい場合には、管理者端末30の入力手段を用いてオブジェクト136の配置位置を移動させる。さらに、第2テロップの重畳表示の時間を調整した場合には、管理者端末30の入力手段を用いてオブジェクト136の領域を拡張又は縮小させる(S302)。
 オブジェクト配置部114によりオブジェクト136が配置されると、テキストオブジェクト表示部115は、編集中の動画に対し、オブジェクト136が配置された位置に対応する再生時刻に第2テキストオブジェクト139を重畳表示させる(S304)。
 続いて、テキストオブジェクト編集部116は、管理者端末30からの要求に応じて、第2テキストオブジェクト139内への文字列を表すテキストデータの入力を受け付ける(S305)。入力された文字列の少なくとも一部は、オブジェクト136内にも表示される。そのため、管理者は、配置したオブジェクト136と、第2テキストオブジェクト139及び第2テロップとの対応付けを容易に判別することができる。また、テキストオブジェクト編集部116は、管理者端末30からの要求に応じて、第2テキストオブジェクト139の動画内での表示位置を移動させ、あるいは第2テキストオブジェクト139の領域を拡張又は縮小させる。第2テキストオブジェクト139を移動させることで、第2テロップを、再生される動画内の任意の位置に重畳表示させることができる。また、第2テキストオブジェクト139の領域を拡張又は縮小させることで、第2テロップの表示領域を拡張又は縮小させることができる。
 さらに、テキストオブジェクト編集部116は、図9に示すように、管理者端末30からの要求に応じて、第2テキストオブジェクト139の形状や表示させる色、テキスト入力された文字列のフォントや文字サイズ等を変更させることができる。第2テキストオブジェクト139の編集は、例えば、テキストオブジェクト編集部116がGUI(Graphical  User  Interface)機能を備えた編集パレット140を第1動画編集画面130に表示させることにより行うことができる。編集パレット140は、第2テキストオブジェクト139の形状や色を変更するためのアイコン(ボタン)、第2テキストオブジェクト139内に入力された文字列の書体、色及びサイズを変更するためのアイコン(ボタン)等を備える。
 また、テキストオブジェクト編集部116は、管理者端末30からの要求に応じて、第2テキストオブジェクト139内に入力された文字列の他の言語への翻訳も受け付ける(S306)。この場合、テキストオブジェクト編集部116は、第2テキストオブジェクト139内に入力された文字列を表すテキストデータを多言語翻訳サーバ50に送信する(S307)。多言語翻訳サーバ50に於いて他の言語に翻訳され、当該多言語翻訳サーバ50から翻訳後の文字列を表すテキストデータが送信されると、テキストオブジェクト編集部116は、第2テキストオブジェクト139内に、他の言語への翻訳後の文字列を表示する(S308)。尚、第2テキストオブジェクト139内に入力された文字列の他言語への翻訳は動画の再生中でも可能であり、必ずしも再生の停止を要しない。
 さらに管理者端末30により編集済み動画データの格納が要求されると、テキストオブジェクト編集部116は、第2テロップ情報をテロップ情報データベース122に格納させ(S309)、これにより第2テロップ編集処理が終了する。この第2テロップ情報には、第2テロップ(第2テキストオブジェクト139)の動画内に於ける表示位置に関する情報、第2テキストオブジェクト139の形状や表示させる色等に関する情報、第2テキストオブジェクト139に入力された文字列を表すテキストデータ、翻訳後の文字列を表すテキストデータ、及び第2テキストオブジェクト139に入力された文字列のフォントや文字サイズ等に関する情報等が含まれる。
 <テロップ表示処理>
 次に、編集済み動画を再生する際のテロップ表示処理について説明する。図10は、編集済み動画再生時の第1テロップ表示処理の流れを示すフローチャートである。図11は、編集済み動画再生時の第2テロップ表示処理の流れを示すフローチャートである。
 先ず、第1テロップ表示処理について説明する。図10に示すように、動画データベース121に格納されている素材動画データの中から、動画再生を行う動画データを選択して呼び出し、動画再生を行う(S401)。選択された動画データには第1テロップ情報が対応付けられているため、第1テロップ表示部113は、テロップ情報データベース122に格納されている第1テロップ情報を読み出す(S402)。そして第1テロップ表示部113は、第1テロップ情報に含まれる第1テロップの重畳表示の開始時刻情報に基づき、第1テロップ138を再生中の動画に重畳表示させる(S403)。また、音声合成部118は、音声データベース123に格納されている音声合成用の音情報を読み出して、第1テキストオブジェクト135に入力された文字列を表すテキストデータ、又は翻訳後の文字列を表すテキストデータに対応した合成音声を生成する。さらに音声出力部119が、音声合成部118で合成された音声を、第1テロップ138の重畳表示に同期させて出力する(S404)。その後、第1テロップ情報に含まれる第1テロップの重畳表示の終了時刻情報に基づき、第1テロップ138の重畳表示を終了させる(S405)。これにより、第1テロップの表示処理が終了する。
 次に、第2テロップ表示処理について説明する。先ず、図11に示すように、第1テロップ表示処理の場合と同様、動画データベース121に格納されている素材動画データの中から動画データを選択し動画再生を行う(S501)。選択された動画データには第2テロップ情報が対応付けられているため、第2テロップ表示部117は、テロップ情報データベース122に格納されている第2テロップ情報を読み出す(S502)。そして第2テロップ表示部117は、第2テロップ情報に含まれる第2テロップの重畳表示の開始時刻情報に基づき、第2テロップを再生中の動画に重畳表示させる(S503)。その後、第2テロップ情報に含まれる第2テロップの重畳表示の終了時刻情報に基づき、第2テロップの重畳表示を終了させる(S504)。これにより、第2テロップの表示処理が終了する。
 以上の通り、本発明の動画編集システムによれば、極めて簡便な方法により自由度の高い動画編集が可能であり、特定の専門的知識や技術等を有しなくても、再生中の動画に容易にテロップを重畳表示させることができる。また、テロップの重畳表示の際に合成音声を出力したり、他の言語に翻訳して表示させたりすることも可能である。その結果、本発明の動画編集システムは、例えば、外国人労働者に対する技術指導等のための動画を用いた業務マニュアル等に極めて有用である。
(実施の形態2)
 [動画編集システム]
 次に、本発明の実施の形態2に係る動画編集システムについて、以下に説明する。
 本実施の形態2に係る動画編集システムは、実施の形態1と比較して、テロップ編集前の素材動画に対し、簡便かつ作業性を大幅に向上させたカット編集や合成動画の生成を可能にしている点で異なる。より詳細には以下の通りである。尚、以下の説明においては、実施の形態1に係る動画編集システムと同様の機能を有する構成要素や、当該実施の形態1に係る動画編集方法と同一の処理を行うステップについては、同一の符号を付して詳細な説明を省略する場合がある。
 <動画編集システムの全体構成>
 本実施の形態2に係る動画編集システムの全体構成は、実施の形態1の場合と同様、ネットワークを介して、動画編集サーバ、管理者端末、ユーザー端末及び多言語サーバが相互に通信可能に接続されたものである(図1参照)。また、動画編集サーバ、管理者端末、ユーザー端末及び多言語サーバのハードウェア構成も実施の形態1の場合と同様の構成を採用することができる(図2及び図3参照)。従って、これらのハードウェア構成の詳細な説明については省略する。
 <動画編集サーバ>
 本実施の形態2に係る動画編集サーバの詳細な構成について、図12に基づき説明する。図12は、動画編集サーバ10’の構成を示すブロック図である。同図に示すように、動画編集サーバ10’は、機能概念的には制御部101’、記憶部102及びインターフェース部103を少なくとも備える。
 制御部101’は、図12に示すように、第2編集画面表示部124、カット編集部125及び合成動画生成部126を備える点で、実施の形態1に係る制御部101と異なる。
 第2編集画面表示部124は、管理者端末30からの要求に応じて、管理者端末30に第2動画編集画面150を表示させる。第2動画編集画面150は、図13に示すように、素材動画表示領域151と、フレーム画像表示領域152と、合成動画を再生する合成動画再生領域153とを少なくとも有する。尚、図13は、第2動画編集画面150を表す説明図である。
 素材動画表示領域151は、少なくとも1つの素材動画154を表示することができる。素材動画154は、記憶部102の動画データベース121に格納されている素材動画データに基づくものであり、管理者端末30からの要求に応じて、第2編集画面表示部124が呼び出したものである。また素材動画表示領域151は、素材動画154だけでなく、(静止)画像や編集中の合成動画(詳細については、後述する。)も表示することができる。
 フレーム画像表示領域152は、複数のフレーム画像155を時系列に配置して表示する。フレーム画像155は、素材動画表示領域151に表示されている素材動画154を構成するものである。素材動画が複数選択され、素材動画表示領域151にそれぞれ表示されている場合には、例えば図13に示すように、第1フレーム画像表示領域152aと第2フレーム画像表示領域152bのそれぞれに、対応する素材動画を構成する複数のフレーム画像155が時系列で表示される。さらに、フレーム画像表示領域152は、時系列に配置して表示された複数のフレーム画像155上に重畳するようにして、再生位置表示線156を表示する。再生位置表示線156は、再生中の素材動画に於いて、どの再生時刻にどのフレーム画像155が再生表示されるのかを示す。再生位置表示線156は、素材動画が再生されると、再生時間の経過と共に矢印Yで示す方向に水平移動する。また、素材動画の再生が一時停止される場合、再生位置表示線156は一時停止となった時刻で水平移動を停止する。そして、フレーム画像表示領域152に於ける再生位置表示線156の位置関係から、どのフレーム画像が動画再生されているのかを容易に確認することができる。尚、図13中に示す矢印Yで示す方向は、素材動画の再生時間の時間経過を表す。
 合成動画再生領域153は合成動画を表示する領域であり、第1動画再生領域153aと第2動画再生領域153bとを少なくとも有する。第1動画再生領域153aでは、第1フレーム画像表示領域152aでカット編集された第1素材動画を再生することができる。また、第2動画再生領域153bでは、第2フレーム画像表示領域152bでカット編集された第2素材動画を再生することができる。尚、本明細書に於いて「合成動画」とは、1つの画面内で複数の素材動画を同期して再生させる動画を意味する。本実施の形態の合成動画では、第1素材動画と第2素材動画とが同期して再生される場合を例にしている。
 カット編集部125は、素材動画データを構成する複数のフレーム画像のうち、動画再生させるフレーム画像を区間(範囲)指定して、カット編集する。具体的には、カット編集部125は、管理者端末30からの要求に応じて、フレーム画像表示領域152内の任意の位置に少なくとも1つのオブジェクト157を配置させる。これにより、フレーム画像表示領域152内に時系列で配置して表示されているフレーム画像155上に、オブジェクト157を重畳表示させることができる。ここで、オブジェクト157は、フレーム画像表示領域152に時系列で表示されている複数のフレーム画像のうち、動画再生に必要なフレーム画像だけを区間(範囲)指定するものである。そして、オブジェクト157により指定されていない区間については、動画再生されないように除外される。そのため、管理者は、オブジェクト157を、時系列で複数配置されているフレーム画像155上に重畳表示させるだけで、容易にカット編集を行うことができる。
 またカット編集部125は、配置されたオブジェクト157のフレーム画像表示領域152内での移動や、オブジェクト157の領域の拡張及び縮小を、管理者端末30からの要求に応じて受け付ける。これにより、管理者は、オブジェクト157をフレーム画像表示領域152内で移動させるだけで、素材動画の再生部分を変更することができる。また、オブジェクト157の領域を拡張又は縮小させるだけで、再生時間を適宜調整することができる。尚、オブジェクト157の領域の拡張及び縮小は、例えば、フレーム画像表示領域152内の水平となる方向(図13の矢印Yで示す方向に平行な方向)に於いて行うことができる。
 さらに、カット編集部125は、オブジェクト157の領域の拡張及び縮小が、合成動画を構成する任意の1つの素材動画に対して行われるものである場合、同期して再生される他の素材動画に対しても同様に反映させることができる。例えば、第1素材動画を構成するフレーム画像の指定区間を拡張させた場合、第2素材動画に於いても当該指定区間に同期して再生されるフレーム画像の指定区間を、第1素材動画と同様に拡張させることができる。
 またカット編集部125は、複数のオブジェクトにより、フレーム画像表示領域152に複数の異なる区間を指定することもできる。図13では、第2フレーム画像表示領域152bに於いて、オブジェクト157a~157cにより、それぞれ3つの異なる区間が指定されている。このような場合、カット編集部125は、各指定区間の再生順序を任意に変更して設定することもできる。例えば、オブジェクト157aで指定される区間が再生された後に、オブジェクト157cで指定される区間が再生され、その後にオブジェクト157bで指定される区間が再生されるように設定することができる。
 さらにカット編集部125は、管理者端末30からの要求に応じて、カット編集後の素材動画データを動画データベース121に格納させることができる。
 合成動画生成部126は、管理者端末30からの要求に応じて、1つの画面内で各々の素材動画が同期して再生可能な合成動画を生成する。素材動画は、動画データベース121に格納されていたものを、管理者端末30からの要求に応じて第2編集画面表示部124が呼び出し、素材動画表示領域151に表示されていたものである。また、素材動画は、カット編集部125によりカット編集されている場合、カット編集後の素材動画である。図13では、第1フレーム画像表示領域152aでカット編集された第1素材動画と、第2フレーム画像表示領域152bでカット編集された第2素材動画とが組み合わされ、合成された合成動画が示されている。また合成動画生成部126は、管理者端末30からの要求に応じて、合成動画に関する動画データを動画データベース121に格納させることができる。
 [動画編集システムの動作]
 次に、本実施の形態2に係る動画編集システムの動作について説明する。
 動画編集システムに於ける動画編集処理等の各種の動作は、動画編集サーバ10’の記憶部102が、制御部101’の第2編集画面表示部124等の各構成部の機能を実現すべく備える動画編集プログラムによって実現される。ここで、動画編集プログラムは、以下に説明される各種の動作を行うためのコードから構成されており、各構成部の機能を実装したものとなる。
 <合成動画生成処理>
 先ず、本実施の形態2に係る動画編集システムを用いた合成動画編集処理について図14及び図15に基づき説明する。尚、以下の説明では、2つの素材動画からなる合成動画を生成する場合を例にして説明する。図14は、管理者による合成動画編集処理の流れを示すフローチャートである。図15は、管理者によるカット編集処理の流れを示すフローチャートである。
 管理者は、図14に示すように、本実施の形態2の動画編集システムを利用するため、先ず管理者端末30からネットワーク20を介して動画編集サーバ10’にアクセスする。動画編集サーバ10’へアクセスすると、動画編集サーバ10’の第2編集画面表示部124は、第2動画編集画面150を表示するためのHTML文書のデータを、管理者端末30に送信する。これにより、管理者端末30のディスプレイ等には、第2動画編集画面150が表示される(S601)。
 次に、管理者は、第2動画編集画面150に於いて、管理者端末30に備えられているキーボードやマウス等の入力手段を用いて、動画データベース121に格納されている素材動画データの中から、合成動画の生成に用いる複数の素材動画データを選択し呼び出す。これにより、第2編集画面表示部124は、管理者端末30からの要求に応じて、素材動画表示領域151に、選択された複数の素材動画データに基づく素材動画をそれぞれ表示させる(S602)。
 続いて、管理者がカット編集処理(S603、S604)を行う場合、図15に示すように、カット編集部125は、管理者端末30からの要求に応じて、カット編集処理の対象となる素材動画の選択を受け付ける(S701)。例えば、合成動画を構成する素材動画として第1素材動画と第2素材動画の2つが選択された場合には、図13に示すように、第1素材動画を構成するフレーム画像を、第1フレーム画像表示領域152aに時系列で配置して表示させると共に、第2素材動画を構成するフレーム画像を、第2フレーム画像表示領域152bに時系列で配置して表示させる。
 次に、動画再生させたい区間の指定は、オブジェクト157を第1フレーム画像表示領域152aや第2フレーム画像表示領域152bに重畳表示させることにより行う。すなわち、図13中に示す「カット追加」のアイコン158が選択されると、カット編集部125は管理者端末30からのオブジェクト157の重畳表示の要求を受け付ける。さらにカット編集部125は、オブジェクト157を、第1フレーム画像表示領域152a及び第2フレーム画像表示領域152bに表示されている複数のフレーム画像155上に重畳表示させる(S702)。
 動画再生させたい区間(指定された区間)の移動は、管理者端末30からの要求に応じて、重畳表示させたオブジェクト157を、第1フレーム画像表示領域152aや第2フレーム画像表示領域152b内で、水平となる方向に適宜移動させることにより可能である。また、動画再生させたい区間の拡張や縮小は、管理者端末30からの要求に応じて、オブジェクト157の領域を拡張又は縮小させることにより可能である(S703)。これにより、素材動画で再生させたい区間だけを抽出するカット編集が行われる。
 また、同じ再生時刻に同期して再生させたい場合には、第1フレーム画像表示領域152aでオブジェクトにより指定された区間と、第2フレーム画像表示領域152bでオブジェクトにより指定された区間とを対応付けることにより可能である。これにより、第1フレーム画像表示領域152aで指定された区間を拡張又は縮小させた場合には、第2フレーム画像表示領域152bで指定されている区間も同期して拡張又は縮小させることができる。
 カット編集の終了後、合成動画を生成する場合には、図13中に示す「動画生成」のアイコン160を選択する。これにより、合成動画生成部126は、管理者端末30からの要求を受け付け、カット編集後の第1素材動画及び第2素材動画が、1つの画面内で、同じ再生時刻に同期して各々再生される合成動画データを生成する(S607)。尚、格納される合成動画データに於いては、第1素材動画と第2素材動画とに於いて、同じ再生時刻に同期して再生されるフレーム画像が対応付けられている。さらに、図13に示す「保存」のアイコン159が選択されると、合成動画生成部126は合成動画データの保存を受け付け、動画データベース121に当該合成動画データを格納させる。これにより、合成動画編集処理が終了する。
 尚、合成動画編集処理により生成された合成動画に対しては、さらに実施の形態1で説明した動画編集処理やテロップ表示処理を実行させることができる。
10、10’…動画編集サーバ、11…CPU、12…ROM、13…RAM、14…通信制御インターフェース、15…記憶装置、16…入力操作部、20…ネットワーク、30…管理者端末、31…CPU、32…ROM、33…RAM、34…表示部、35…入力部、36…通信制御インターフェース、40…ユーザー端末、50…多言語翻訳サーバ、101、101’…制御部、102…記憶部、103…インターフェース部、111…第1編集画面表示部、112…テキストオブジェクト配置部、113…第1テロップ表示部、114…オブジェクト配置部、115…テキストオブジェクト表示部、116…テキストオブジェクト編集部、117…第2テロップ表示部、118…音声合成部、119…音声出力部、121…動画データベース、122…動画データベース、123…音声データベース、124…第2編集画面表示部、125…カット編集部、126…合成動画生成部、130…第1動画編集画面、131…動画再生領域、132…タイムライン表示領域、133…テキストオブジェクト配置領域、134…オブジェクト配置領域、135…第1テキストオブジェクト、136…オブジェクト、137…再生時刻表示線、138…第1テロップ、139…第2テキストオブジェクト、150…第2動画編集画面、151…素材動画表示領域、152…フレーム画像表示領域、153…合成動画再生領域、154…素材動画、155…フレーム画像、157…オブジェクト

Claims (9)

  1.  管理者端末と、前記管理者端末にネットワークを介して接続された動画編集サーバと、を少なくとも備える動画編集システムに於いて、
     前記動画編集サーバは、
     動画を再生する動画再生領域と、前記動画の再生時間のタイムラインを表示するタイムライン表示領域とを少なくとも含む第1動画編集画面を、前記管理者端末に表示させる第1編集画面表示部と、
     前記管理者端末からの要求により、前記タイムライン表示領域内の任意の位置に少なくとも1つの第1テキストオブジェクトを配置し、前記第1テキストオブジェクトに入力された文字列を表すテキストデータを受け付けるテキストオブジェクト配置部と、
     前記第1テキストオブジェクトに入力された前記テキストデータに基づき、前記タイムライン表示領域内に配置された前記第1テキストオブジェクトの位置に対応する前記動画の再生時刻に、前記文字列を第1テロップとして再生中の前記動画に重畳表示させる第1テロップ表示部と、
     を備える動画編集システム。
  2.  前記第1編集画面表示部は、前記タイムライン表示領域内に於いて、任意の位置にオブジェクトの配置を可能にするオブジェクト配置領域をさらに前記管理者端末に表示させるものであり、
     前記動画編集サーバは、
     前記管理者端末からの要求により、前記オブジェクト配置領域の任意の位置に少なくとも1つのオブジェクトを配置するオブジェクト配置部と、
     前記オブジェクト配置領域内に配置された前記オブジェクトの位置に対応する前記動画の再生時刻に、第2テキストオブジェクトを前記動画に重畳表示させるテキストオブジェクト表示部と、
     前記管理者端末からの要求により、前記テキストオブジェクト表示部により前記動画に重畳表示された前記第2テキストオブジェクトに、文字列を表すテキストデータの入力を受け付けるテキストオブジェクト編集部と、
     前記テキストオブジェクト編集部により受け付けられた前記文字列を、前記オブジェクト配置領域内に配置された前記第2テキストオブジェクトの位置に対応する前記動画の再生時刻に、第2テロップとして再生中の前記動画に重畳表示させる第2テロップ表示部と、
     をさらに備える請求項1に記載の動画編集システム。
  3.  前記動画編集サーバに前記ネットワークを介して接続された多言語翻訳サーバをさらに備え、
     前記テキストオブジェクト配置部及び前記テキストオブジェクト編集部は、前記第1テキストオブジェクト又は前記第2テキストオブジェクトに入力された文字列を表すテキストデータを前記多言語翻訳サーバに送信し、
     前記多言語翻訳サーバは、前記テキストオブジェクト配置部又は前記テキストオブジェクト編集部から受信した前記テキストデータに基づき、前記文字列とは異なる少なくとも1つ以上の言語に翻訳し、翻訳後の文字列を表すテキストデータを前記動画編集サーバに送信し、
     前記第1テロップ表示部及び前記第2テロップ表示部は、前記多言語翻訳サーバから受信した前記翻訳後の文字列を表すテキストデータに基づき、前記翻訳後の文字列を第1テロップ又は第2テロップとして、再生中の前記動画にそれぞれ重畳表示させる請求項2に記載の動画編集システム。
  4.  前記動画編集サーバは、
     音声合成用の音情報が格納された記憶部と、
     前記記憶部に格納されている前記音情報を読み出して、前記第1テキストオブジェクトに入力された前記文字列を表すテキストデータ、又は前記翻訳後の文字列を表すテキストデータに対応した合成音声を生成する音声合成部と、
     前記音声合成部で合成された音声を、前記第1テロップ表示部による前記第1テロップの重畳表示に同期させて出力する音声出力部と、
     をさらに備える請求項3に記載の動画編集システム。
  5.  前記テキストオブジェクト配置部は、前記タイムライン表示領域内の任意の位置に配置された前記第1テキストオブジェクトの領域を拡張又は縮小することにより、前記動画に重畳表示させる前記第1テロップの重畳表示時間を調整する請求項1~4の何れか1項に記載の動画編集システム。
  6.  前記オブジェクト配置部は、前記オブジェクト配置領域内の任意の位置に配置された前記オブジェクトの領域を拡張又は縮小することにより、前記動画に重畳表示させる前記第2テロップの重畳表示時間を調整する請求項2~4の何れか1項に記載の動画編集システム。
  7.  前記動画編集サーバは、
     前記記憶部に格納されている素材動画データを呼び出し、前記素材動画データを構成する複数のフレーム画像を時系列に配置して表示する第2動画編集画面を、前記管理者端末に表示させる第2編集画面表示部と、
     前記第2動画編集画面に於いて、時系列に配置して表示されている前記複数のフレーム画像に対して、1以上のフレーム画像を含む一部区間を範囲指定することにより、範囲指定されなかった区間を削除するカット編集部と、
     をさらに備える請求項1~6の何れか1項に記載の動画編集システム。
  8.  前記第2編集画面表示部は、複数の前記素材動画データを前記記憶部から呼び出し、前記素材動画データを構成する複数のフレーム画像を時系列にそれぞれ配置して表示するものであり、
     前記動画編集サーバは、
     前記第2編集画面表示部が呼び出した複数の前記素材動画データに基づき、1つの画面内で同期させて各々再生させる合成動画を生成する合成動画生成部をさらに備える請求項7に記載の動画編集システム。
  9.  前記カット編集部は、
     前記合成動画に於ける任意の1つの素材動画を構成する複数のフレーム画像に対し、前記範囲指定した区間の長さを変更した場合、
     他の素材動画を構成する複数のフレーム画像に対しても、前記範囲指定した区間に対応する区間の長さを同期して変更する請求項8に記載の動画編集システム。

     
     
PCT/JP2022/014170 2021-11-15 2022-03-24 動画編集システム WO2023084806A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280074915.XA CN118216159A (zh) 2021-11-15 2022-03-24 动态图像编辑***

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-185842 2021-11-15
JP2021185842 2021-11-15

Publications (1)

Publication Number Publication Date
WO2023084806A1 true WO2023084806A1 (ja) 2023-05-19

Family

ID=86335478

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/014170 WO2023084806A1 (ja) 2021-11-15 2022-03-24 動画編集システム

Country Status (3)

Country Link
JP (1) JP2023073184A (ja)
CN (1) CN118216159A (ja)
WO (1) WO2023084806A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012182724A (ja) * 2011-03-02 2012-09-20 Kddi Corp 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体
JP2014140135A (ja) * 2013-01-21 2014-07-31 Kddi Corp 情報再生端末
US20190104259A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Media editing application with anchored timeline for captions and subtitles
JP2021061526A (ja) * 2019-10-07 2021-04-15 日本テレビ放送網株式会社 字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法
JP2021141564A (ja) * 2020-02-28 2021-09-16 株式会社ドワンゴ コンテンツ配信装置、コンテンツ配信方法、コンテンツ配信システム、および、コンテンツ配信プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012182724A (ja) * 2011-03-02 2012-09-20 Kddi Corp 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体
JP2014140135A (ja) * 2013-01-21 2014-07-31 Kddi Corp 情報再生端末
US20190104259A1 (en) * 2017-09-29 2019-04-04 Apple Inc. Media editing application with anchored timeline for captions and subtitles
JP2021061526A (ja) * 2019-10-07 2021-04-15 日本テレビ放送網株式会社 字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法
JP2021141564A (ja) * 2020-02-28 2021-09-16 株式会社ドワンゴ コンテンツ配信装置、コンテンツ配信方法、コンテンツ配信システム、および、コンテンツ配信プログラム

Also Published As

Publication number Publication date
JP2023073184A (ja) 2023-05-25
CN118216159A (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
KR20230042523A (ko) 멀티미디어 데이터의 처리 방법, 생성 방법 및 관련 기기
KR20030019230A (ko) 메일 송수신 장치 및 방법
JP2004287595A (ja) 複合メディアコンテンツの変換装置及び変換方法並びに複合メディアコンテンツ変換プログラム
KR100849900B1 (ko) 컨텐츠 송신방법, 시나리오 데이터, 기록매체 및 시나리오 데이터 생성방법
JP6280215B2 (ja) ビデオ会議端末、セカンダリストリームデータアクセス方法およびコンピュータ記憶媒体
JP4142382B2 (ja) コンテンツ作成システム及びコンテンツ作成方法
KR20140078171A (ko) 증강현실 콘텐츠 재생 시스템
US20060159414A1 (en) Systems and methods for associating graphics information with audio and video material
WO2010063070A1 (en) Method and system for displaying data on a mobile terminal
CN111405303A (zh) 基于网页快速建立直播的方法
WO2023084806A1 (ja) 動画編集システム
JP2018180519A (ja) 音声認識誤り修正支援装置およびそのプログラム
US20080218632A1 (en) Method and apparatus for modifying text-based subtitles
JP4129162B2 (ja) コンテンツ作成実演システム及びコンテンツ作成実演方法
JP2009098727A (ja) 画像表示装置、画像ビューアプログラム
JP4308235B2 (ja) 共有ホワイトボード履歴再現方法、共有ホワイトボードシステム、プログラム、および記録媒体
JP2004336289A (ja) 共有ホワイトボード履歴再現方法、共有ホワイトボードシステム、クライアント、プログラム、および記録媒体
KR102078479B1 (ko) 영상 편집 방법 및 영상 편집 장치
JP2006048465A (ja) コンテンツ生成システム、プログラム及び記録媒体
JP2020039085A (ja) 情報処理装置およびプログラム
JP2001195604A (ja) 動画像情報の編集方法
KR102359962B1 (ko) 강의 통역 장치
KR102384263B1 (ko) 음성 인덱싱을 이용한 비디오 가공 방법 및 장치
JP2008299493A (ja) コンテンツ作成支援システム及びコンピュータプログラム
JP2004139602A (ja) 電子メール作成装置およびプログラム記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22892310

Country of ref document: EP

Kind code of ref document: A1