WO2023188606A1 - 記録方法、記録装置、及びプログラム - Google Patents

記録方法、記録装置、及びプログラム Download PDF

Info

Publication number
WO2023188606A1
WO2023188606A1 PCT/JP2022/046895 JP2022046895W WO2023188606A1 WO 2023188606 A1 WO2023188606 A1 WO 2023188606A1 JP 2022046895 W JP2022046895 W JP 2022046895W WO 2023188606 A1 WO2023188606 A1 WO 2023188606A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
recording
frames
subject
search
Prior art date
Application number
PCT/JP2022/046895
Other languages
English (en)
French (fr)
Inventor
啓 山路
俊輝 小林
潤 小林
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023188606A1 publication Critical patent/WO2023188606A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • the present invention relates to a recording method, a recording device, and a program.
  • a frame in moving image data
  • additional information regarding the subject within the frame may be recorded.
  • the moving image data can be used after specifying the subject within the frame.
  • At least one keyword is assigned to each scene of a moving image based on a user's operation, and the keyword assigned to each scene is recorded together with the moving image data.
  • One embodiment of the present invention has been made in view of the above circumstances, and is intended to solve the problems of the prior art described above and to efficiently record supplementary information for frames in moving image data.
  • the purpose is to provide a recording method, recording device, and program.
  • the recording method of the present invention is a recording method for recording supplementary information for a frame in moving image data composed of a plurality of frames, and in which a subject in a frame is a recognition process for each frame; a search process for searching for incidental information that can be recorded for the recognized subject; and a recording process for recording incidental information for frames based on the results of the search process.
  • a recording method comprising a step, where the number of frames constituting the moving image data is a first number, and the number of frames on which the search step is executed is a second number, the second number is smaller than the first number. It is.
  • the search step does not have to be performed for frames in which blur in the subject or angle of view is detected.
  • the above recording method records the results of the recognition process performed on the first frame among the plurality of frames, and the results of the recognition process performed on the second frame different from the first frame.
  • the method may further include a first determination step of determining the degree of similarity. In this case, if the degree of similarity determined in the first determination step satisfies the first restriction condition regarding execution of the search step, execution of the search step for the first frame may be restricted.
  • the first determination process sets priorities for the multiple subjects and adjusts the priorities of the multiple subjects.
  • the degree of similarity may be determined based on this.
  • the third number may be smaller than the second number.
  • the above recording method records the results of a search process performed on a first frame among a plurality of frames, and the results of a search process performed on a second frame different from the first frame.
  • the method may further include a second determination step of determining the degree of similarity. In this case, if the degree of similarity determined in the second determination step satisfies the second restriction condition regarding execution of the recording step, execution of the recording step for the first frame may be restricted.
  • the search process for the first frame and the second frame if recordable additional information is searched for a plurality of subjects, in the second determination process, priorities are set for the plurality of subjects, The degree of similarity may be determined based on the priorities of multiple subjects.
  • the above recording method may further include a receiving step of receiving a user's input regarding an instruction to record supplementary information.
  • the recording process is performed on an input frame corresponding to the user's input among the plurality of frames to record the supplementary information.
  • information regarding recording instructions may be recorded as supplementary information.
  • the recording process may be performed on an input frame and a complementary frame before or after the input frame to record the supplementary information.
  • the supplementary information may be stored in a data file different from the video data.
  • a recording device is a recording device that includes a processor and records supplementary information for a frame in moving image data made up of a plurality of frames.
  • the above processor performs a recognition process that recognizes a subject within a frame for each frame, a search process that searches for incidental information that can be recorded for the recognized subject among the incidental information, and a result of the search process.
  • a recording process for recording supplementary information on the frame is executed based on the above.
  • the second number is the first number. smaller than the number.
  • the program according to one embodiment of the present invention is a program for causing a computer to perform each of the recognition step, search step, and recording step included in the recording method according to the above-described one embodiment of the present invention. be.
  • FIG. 3 is an explanatory diagram of moving image data.
  • FIG. 6 is a diagram showing supplementary information regarding a subject within a frame.
  • FIG. 3 is a diagram illustrating an example of incidental information having a hierarchical structure.
  • FIG. 3 is a diagram related to a procedure for specifying the position of a circular subject area.
  • FIG. 3 is a diagram related to a procedure for recording supplementary information on a frame.
  • FIG. 6 is a diagram showing a case where supplementary information is recorded for all frames in moving image data.
  • 1 is a diagram showing a hardware configuration of a recording device according to one embodiment of the present invention.
  • FIG. 2 is an explanatory diagram of functions of a recording device according to one embodiment of the present invention.
  • FIG. 1 is a diagram showing a hardware configuration of a recording device according to one embodiment of the present invention.
  • FIG. 2 is an explanatory diagram of functions of a recording device according to one embodiment of the present invention.
  • FIG. 6 is a diagram illustrating whether a search process is executed for each of a first frame and a second frame that are similar to each other. It is an explanatory diagram about the execution rate of a search process.
  • FIG. 7 is an explanatory diagram of the execution rate of the search process, and is a diagram when the subject within the frame changes due to a scene change. It is an explanatory diagram about complementation of supplementary information. It is an explanatory diagram about the execution rate of a search process, and is a diagram when the user inputs regarding the record instruction of supplementary information.
  • FIG. 6 is a diagram illustrating whether or not a recording process is executed for each of a first frame and a second frame that have similar results in a search process.
  • FIG. 3 is an explanatory diagram regarding the execution rate of a recording process. It is an explanatory diagram about an execution rate of a recording process, and is a diagram when a user inputs regarding a recording instruction of supplementary information.
  • FIG. 3 is a diagram showing a recording flow according to one embodiment of the present invention (Part 1).
  • FIG. 2 is a diagram showing a recording flow according to one embodiment of the present invention (Part 2). It is a figure which shows the fluctuation
  • FIG. 7 is a diagram illustrating an example in which supplementary information is stored in a data file different from video data.
  • the concept of "device” includes a single device that performs a specific function, as well as a device that exists in a distributed manner and independently of each other, but cooperates (cooperates) to perform a specific function. It also includes combinations of multiple devices that achieve this.
  • person means a subject who performs a specific act, and the concept includes individuals, groups, corporations such as companies, and organizations.
  • computers and devices that constitute artificial intelligence (AI) may also be included in the "person”.
  • Artificial intelligence is the realization of intellectual functions such as inference, prediction, and judgment using hardware and software resources.
  • the artificial intelligence algorithm may be arbitrary, such as an expert system, case-based reasoning (CBR), Bayesian network, or subsumption architecture.
  • One embodiment of the present invention relates to a recording method, a recording device, and a program for recording supplementary information on frames in moving image data.
  • the moving image data is created by a known moving image shooting device (hereinafter referred to as a shooting device) such as a video camera and a digital camera.
  • a shooting device such as a video camera and a digital camera.
  • the photographic equipment generates analog image data (RAW image data) by photographing the subject within the angle of view under preset exposure conditions at a constant frame rate (number of frame images photographed per unit time). do.
  • the imaging device creates a frame (specifically, frame image data) by performing correction processing such as ⁇ correction on digital image data converted from analog image data.
  • Each frame in the moving image data includes one or more objects, that is, one or more objects exist within the angle of view of each frame.
  • the subject is a person, an object, a background, etc. that exist within the angle of view.
  • a subject is interpreted in a broad sense and is not limited to a specific tangible object, but includes scenery, scenes such as dawn and nighttime, events such as travel and weddings, cooking, and hobbies. may include themes such as, patterns and designs, etc.
  • Video data has a file format depending on its data structure.
  • the file format includes a codec (compression technology) of moving image data, a corresponding file format, and version information.
  • File formats include MPEG (Moving Picture Experts Group)-4, H. Examples include H.264, MJPEG (Motion JPEG), HEIF (High Efficiency Image File Format), AVI (Audio Video Interleave), MOV (QuickTime file format), WMV (Windows Media Video), and FLV (Flash Video).
  • MJPEG is a file format in which frame images constituting a moving image are images in JPEG (Joint Photographic Experts Group) format.
  • the file format is reflected in the data structure of each frame.
  • the first data in the data structure of each frame starts from a marker segment of an SOI (Start of Image) or a BITMAP FILE HEADER which is header information.
  • SOI Start of Image
  • BITMAP FILE HEADER which is header information.
  • Pieces of information include, for example, information indicating frame numbers (serial numbers assigned sequentially from the frame at the start of shooting).
  • each frame includes frame image data.
  • the data of the frame image indicates the resolution of the frame image recorded at the angle of view at the time of shooting, and the gradation values of two colors of black and white or three colors of RGB (Red Green Blue) specified for each pixel.
  • the angle of view is a data processing range in which an image is displayed or drawn, and the range is defined in a two-dimensional coordinate space whose coordinate axes are two mutually orthogonal axes.
  • each frame may include an area where additional information can be recorded (written).
  • the supplementary information is tag information regarding each frame and the subject within each frame.
  • the video file format is, for example, HEIF
  • additional information in Exif (Exchangeable image file format) format corresponding to each frame, specifically information regarding the shooting date and time, shooting location, shooting conditions, etc. can be stored.
  • the photographing conditions include the type of photographic equipment used, exposure conditions such as ISO sensitivity, f-value, and shutter speed, focusing position (for example, focus point during autofocus), content of image processing, and the like.
  • the content of the image processing includes the name and characteristics of the image processing performed on the image data of the frame, the device that performed the processing, the area within the field of view where the image processing was performed, and the like.
  • Each frame in the moving image data is provided with a box area in which additional information can be recorded, and additional information regarding the subject within the frame can be recorded.
  • items corresponding to a subject can be recorded as supplementary information regarding the subject. Items are matters and categories to which the subject falls when the subject is classified from various viewpoints, and are easily understood by words that express the type, condition, nature, structure, attributes, and other characteristics of the subject. be. For example, in the case shown in FIG. 2, “person”, “woman”, “Japanese”, “carrying a bag”, and “carrying a luxury bag” correspond to the items.
  • additional information for two or more items may be added to one subject, or additional information for multiple items with different levels of abstraction may be added.
  • accuracy is a concept representing the degree of detail (definition) of the content of the subject described by the supplementary information.
  • additional information of an item having higher precision than that item may be added to a subject to which additional information of a certain item has been added.
  • additional information of a certain item For example, in the case shown in FIG. 3, for example, for a subject to which supplementary information of the item "person” has been added, supplementary information of the item " woman", which is more accurate, is added. Further, for the subject to which the additional information for the item "Owns a bag” has been added, additional information for the item "Owns a luxury bag” with higher accuracy is added. Note that it is preferable that the supplementary information is defined for each layer as shown in FIG.
  • the subject items may include items that cannot be identified from the appearance of the subject, such as the presence or absence of abnormalities such as diseases in agricultural crops, or the quality of fruits such as sugar content.
  • items that cannot be identified from the appearance can be determined from the feature amount of the subject in the image data.
  • the correspondence between the feature amount of the object and the attribute of the object is learned in advance, and based on the correspondence, the attribute of the object can be determined (estimated) from the feature amount of the object in the image.
  • the feature values of the subject include, for example, the resolution of the subject in the frame, the amount of data, the degree of blur, the degree of blur, the size ratio of the frame to the angle of view, the position in the angle of view, the color, or a combination of multiple of these. It is.
  • the feature amount can be calculated by applying a known image analysis technique and analyzing the subject area within the viewing angle. Further, the feature amount may be a value output when a frame (image) is input to a mathematical model constructed by machine learning, or may be a one-dimensional or multidimensional vector value, for example. In addition, at least any value that is uniquely output when one image is input can be used as the feature amount.
  • the coordinates of the subject are the coordinates of a point on the edge of an area surrounding part or all of the subject (hereinafter referred to as the subject area) in a two-dimensional coordinate space that defines the angle of view of the frame.
  • the shape of the subject area is not particularly limited, but may be approximately circular or rectangular, for example.
  • the subject area may be extracted by the user specifying a certain range within the angle of view, or may be automatically extracted using a known subject detection algorithm or the like.
  • the subject area is a rectangular area indicated by a broken line in Figure 2
  • the subject area is determined by the coordinates of two intersection points located at both ends of the diagonal line at the edge of the subject area (points indicated by white circles and black circles in Figure 2). is located. In this way, the position of the subject at the angle of view can be accurately specified using the coordinates of a plurality of points.
  • the subject area may be an area specified by the coordinates of a base point within the subject area and the distance from the base point.
  • the subject area is determined by the coordinates of the center (base point) of the subject area and the distance from the base point to the edge of the subject area (that is, the radius r). be identified.
  • the coordinates of the center, which is the base point, and the radius, which is the distance from the base point are the position information of the subject area. In this way, by using the base point within the subject area and the distance from the base point, the position of the subject can be accurately expressed.
  • the position of a rectangular subject area may be expressed by the coordinates of the center of the area and the distance from the center in each coordinate axis direction.
  • the image quality is the image quality of the subject indicated by the data of the frame image, and includes, for example, the resolution, noise, and brightness of the subject.
  • the sense of resolution includes the presence or absence and degree of blur or blur, resolution, or a grade or rank corresponding thereto.
  • the noise includes an S/N value, the presence or absence of white noise, or a grade or rank corresponding thereto.
  • the brightness includes a brightness value, a score indicating brightness, or a grade or rank corresponding thereto.
  • the brightness may include the presence or absence of exposure abnormalities such as blown-out highlights or blown-out shadows (whether the brightness exceeds the range that can be represented by gradation values).
  • the information representing image quality may include evaluation results (sensory evaluation results) when resolution, noise, brightness, etc. are evaluated based on human sensibilities.
  • additional information regarding the recording instruction may be recorded in the box area of the frame in which the user inputs regarding the recording instruction for the additional information.
  • the information regarding the recording instruction is information specifying that a recording instruction has been made, or an identification code (code information) indicating that the frame is a frame for which a recording instruction has been made.
  • code information code information
  • the moving image data in which the incidental information described above is recorded in a frame can be used for various purposes, for example, for the purpose of creating training data for machine learning.
  • the moving image data is annotated (selected) based on the incidental information recorded for the frame because the subject within the frame can be identified from the incidental information (more specifically, the incidental information item).
  • the annotated moving image data and its frame image data are used to create teacher data, and machine learning is performed by collecting the amount of teacher data necessary for machine learning.
  • a frame in which incidental information is recorded (in particular, a frame in which incidental information regarding a subject is recorded) is also referred to as a "target frame.”
  • the subject within the target frame is recognized. Specifically, a subject area is extracted within the field of view of the target frame, and the subject within the extracted area is recognized. Note that when multiple subject areas are extracted within the target frame, the same number of subjects as the extracted areas are recognized.
  • the search item is a plurality of items (group of items) set as candidates for supplementary information. For example, if the subject is a person, the item "person" is searched among the search items.
  • the search items include multiple items whose accuracy (more specifically, fineness) changes in stages with respect to a certain point of view.
  • the search items include the item "person,” and further include items representing gender, age, nationality, occupation, etc. as more detailed items related to "person.”
  • items corresponding to the recognized subject are searched as additional information that can be recorded for the subject.
  • the greater the number of searched items or the more specific (detailed) the searched items the higher the accuracy of the search.
  • the precision of the search items that is, the number and definition of items included in the search items, are variable and can be changed once they are set. For example, after setting the accuracy of the search item according to the subject in a certain frame (first subject), the accuracy of the search item for the subject in another frame (second subject) is changed according to the second subject. be able to.
  • the accuracy of the search items may be set high depending on the subject in the previous frame. For example, for a subject in a certain frame (first subject), search is performed to determine whether or not it is a person, and for subjects in subsequent frames (the same subject as the first subject above), gender, nationality, and Search items with higher accuracy, such as age, may be set.
  • the method of searching for additional information that can be recorded for a subject may be estimated from the feature amount of the subject, and items that match or correspond to the estimation results may be found from among the search items. Additionally, when multiple subjects are recognized within the target frame, additional information that can be recorded for at least some of the multiple subjects may be searched from the search items. .
  • the searched item (that is, a part of the search item) is recorded as supplementary information for the target frame.
  • Recording supplementary information for a target frame means, for example, writing the supplementary information in a box area (specifically, a box area conforming to JUMBF) provided in the image data of the target frame.
  • additional information indicating "no matching item" may be recorded for the target frame.
  • additional information items
  • the searched additional information are combined with one corresponding object. It is recorded for the target frame in association. Note that the search for additional information (items) does not have to be performed for all of the plurality of subjects within a frame.
  • the supplementary information when recording supplementary information for frames in moving image data using the above-described procedure, it is preferable that the supplementary information can be recorded efficiently.
  • FIG. 6 if an attempt is made to record supplementary information for each frame constituting moving image data, the load associated with the above-mentioned processing increases. Furthermore, the amount of additional information recorded becomes enormous, and the recording capacity of moving image data becomes large. As a result, the recording time of the moving image data (in other words, the first number N1 of frames constituting the moving image data) becomes short.
  • the video data there may be cases where the subjects are the same or similar between frames before and after (for example, when a common subject is photographed).
  • the incidental information that can be recorded for the subject within the frame is common between frames, and the search results for the incidental information (items) are similar (overlapping) between the frames in the previous and subsequent frames.
  • the recording device and recording method described below are used for the purpose of efficiently recording supplementary information for frames in video data.
  • the configuration of a recording apparatus according to one embodiment of the present invention and the flow of a recording method according to one embodiment of the present invention will be described.
  • a recording device (hereinafter referred to as recording device 10) is a computer including a processor 11 and a memory 12, as shown in FIG.
  • the processor 11 includes, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a DSP (Digital Signal Processor), or a TPU (Tensor Processing Unit).
  • the memory 12 is configured by, for example, a semiconductor memory such as a ROM (Read Only Memory) and a RAM (Random Access Memory).
  • the recording device 10 also includes an input device 13 that receives user operations such as a touch panel and cursor buttons, and an output device 14 such as a display and a speaker.
  • the input device 13 may include a device that accepts a user's voice input. In this case, the recording device 10 may recognize the user's voice, analyze the voice by morphological analysis, etc., and obtain the analysis result as input information.
  • the memory 12 also stores a program (hereinafter referred to as a recording program) for recording supplementary information for frames in moving image data.
  • the recording program is a program for causing a computer to execute each step included in the recording method of the present invention (specifically, each step in the recording flow shown in FIGS. 17A and 17B).
  • the recording program may be obtained by reading it from a computer-readable recording medium, or may be obtained by downloading it through a communication network such as the Internet or an intranet.
  • the recording device 10 can freely access various data stored in the storage 15.
  • the data stored in the storage 15 includes data necessary for the recording device 10 to record supplementary information, specifically, data of the above-mentioned search items.
  • the storage 15 may be built-in or externally attached to the recording device 10, or may be configured by NAS (Network Attached Storage) or the like.
  • the storage 15 may be an external device that can communicate with the recording device 10 via the Internet or a mobile communication network, such as an online storage.
  • the recording device 10 described above is configured by, for example, a moving image shooting device.
  • the configuration (particularly the mechanical configuration) of the photographing device constituting the recording device 10 is substantially the same as that of a known device having a video recording function.
  • the photographing device described above may have an autofocus (AF) function to automatically focus on a predetermined position within the angle of view.
  • the photographing device described above may have a function of specifying a focus position, that is, an AF point, while recording moving image data using an AF function.
  • the above-mentioned photographic equipment has a function of detecting blur in the angle of view caused by camera shake, etc., and blur of the subject caused by movement of the subject.
  • shake refers to irregular and slow shaking (shake), and includes, for example, an intentional change in the angle of view, or specifically, an operation (specifically In other words, it is different from panning operation).
  • the blur of the subject can be detected by, for example, a known image analysis technique.
  • a blur in the angle of view can be detected by, for example, a known blur detection device such as a gyro sensor.
  • the above-mentioned photographic equipment may include a finder, specifically an electronic viewfinder or an optical viewfinder, through which the user (i.e., the videographer) looks into while recording moving image data.
  • the above-mentioned photographing device may have a function of detecting the respective positions of the user's line of sight and pupils and specifying the position of the user's line of sight while recording the moving image data.
  • the user's line of sight position corresponds to the intersection position of the user's line of sight looking into the finder and a display screen (not shown) in the finder.
  • the photographing device described above may be equipped with a known distance sensor such as an infrared sensor.
  • the photographing device described above can measure the distance in the depth direction (depth) for each subject within the angle of view.
  • the recording device 10 includes an acquisition section 21, an input reception section 22, a detection section 23, a recognition section 24, a first judgment section 25, a search section 26, a second judgment section 27, a recording section 28, and It has a complementing section 29.
  • These functional units are realized by cooperation between hardware devices included in the recording device 10 (processor 11, memory 12, input device 13, and output device 14) and software including the above-mentioned recording program. Each of the above-mentioned functional units will be explained below.
  • the acquisition unit 21 acquires moving image data composed of a plurality of frames. Specifically, the acquisition unit 21 acquires moving image data by recording frames (frame images) at a constant frame rate at the angle of view of the photographing equipment that constitutes the recording device 10 .
  • the input receiving unit 22 executes a receiving process, and receives a user operation performed in connection with recording supplementary information on a frame in the receiving process.
  • the user operations accepted by the input receiving unit 22 include a user's input regarding an instruction to record supplementary information (hereinafter referred to as input of a recording instruction).
  • Inputting a recording instruction is an input operation performed to instruct a target frame in which supplementary information is to be recorded, among a plurality of frames constituting moving image data.
  • the user performs a predetermined operation (for example, pressing a predetermined button or emitting a sound) at a timing at which the user desires to record supplementary information.
  • the input accepting unit 22 accepts the operation as an input of a recording instruction.
  • the detection unit 23 uses a known blur detection means to detect the blur that has occurred when the subject or the angle of view has blurred during recording of moving image data. Furthermore, when detecting a blur, the detection unit 23 identifies the frame in which the blur is detected out of the moving image data.
  • the recognition unit 24 executes a recognition process, and in the recognition process, recognizes a subject within a frame of the moving image data for each frame. Specifically, in the recognition step, a subject area is extracted at the angle of view of each frame, and a subject within the extracted subject area is identified. Further, when a plurality of subjects exist within the frame (that is, when a plurality of subject areas are extracted within the field of view of the frame), the recognition unit 24 recognizes the plurality of subjects.
  • the mode in which a subject within a frame is recognized frame by frame may include a mode in which there is a frame in which a subject within a frame is not recognized among a plurality of frames constituting video data.
  • the first determination unit 25 executes a first determination step and determines the degree of similarity between the first frame and the second frame in the video data.
  • the first frame and the second frame are mutually different frames among a plurality of frames forming the moving image data.
  • the second frame is a frame before the first frame or a frame after the first frame.
  • the degree of similarity between the recognition result for the subject in the first frame and the recognition result for the subject in the second frame is determined. That is, the first determination unit 25 determines the degree of similarity between the subject in the first frame recognized by the recognition unit 24 and the subject in the second frame.
  • each of the feature amounts of the two objects to be compared (strictly speaking, the feature amount of the object region at the angle of view within the frame) is defined in the feature amount space.
  • the degree of similarity between the subjects may be determined based on the distance between the feature amounts in the feature amount space. In this case, the smaller the distance, the more similar the objects are to each other (the higher the degree of similarity).
  • the first determination unit 25 determines whether the above degree of similarity satisfies the first limiting condition in the first determination step.
  • the first limiting condition is a condition set in advance regarding the execution of the search process by the search unit 26.
  • "setting in advance” means setting before the search process is executed.
  • the first limiting condition is that the degree of similarity exceeds a predetermined level.
  • the predetermined level defines the degree of similarity at which it can be determined that two compared subjects are similar.
  • the first limiting condition is not limited to the above condition, and may be, for example, a condition that a state in which the degree of similarity exceeds a predetermined level continues for several frames or more.
  • the first judgment unit 25 determines that the above-mentioned degree of similarity satisfies the first limiting condition, that is, the first frame and the second frame are similar. It is determined that the
  • the first determination unit 25 sets priorities for the plurality of subjects. At this time, a higher priority is set for a main subject among the plurality of subjects, such as a subject closer to the center of the angle of view or a subject closer to the AF point. Alternatively, the user may specify the priority for each subject. Note that the mode in which priority is set for each subject may include a mode in which there is a subject for which priority is not set among a plurality of subjects.
  • the first determination unit 25 determines the degree of similarity based on the priorities of the plurality of subjects, and more specifically, emphasizes the degree of similarity determined for a subject with a higher priority. For example, if the degree of similarity determined for the subject with the highest priority (i.e., the main subject) exceeds a predetermined level, the first determination unit 25 determines that the first frame and the second frame are similar. You may. Note that the mode in which the degree of similarity is determined based on the priority of each subject may include a mode in which there is a priority that is not referred to when determining the degree of similarity among the priorities of multiple subjects. .
  • the search unit 26 executes a search process on the target frame.
  • the search unit 26 searches for incidental information that can be recorded for the subject in the target frame recognized by the recognition unit 24 from among the incidental information included in the search item.
  • the second number N2 is smaller than the first number N1.
  • execution of the search process is restricted for frames other than the target frame (hereinafter referred to as non-target frames) among the plurality of frames constituting the moving image data.
  • restricting the execution of the search process for non-target frames means, for example, not executing the search process for non-target frames.
  • the degree of similarity determined in the first determination step by the first determination unit 25 satisfies the first limiting condition described above. That is, as shown in FIG. 9, it is assumed that the first frame and the second frame are similar.
  • the search unit 26 sets the first frame as a non-target frame, and limits execution of the search process for the non-target frame. Specifically, as shown in FIG. 9, the search process for the first frame is not performed and is omitted.
  • the search step for the first frame since the search step for the first frame is not executed, the number of frames (target frames) on which the search step is executed, that is, the second number N2, becomes smaller than the first number N1.
  • the execution rate of the search process becomes lower than the frame rate when recording moving image data, as shown in FIG.
  • the degree of similarity of the subject between the previous and subsequent frames continues to exceed a predetermined level.
  • the interval between frames at which the search process is executed is longer than the recording interval of frames in the moving image data. Note that in FIGS. 10 to 16, 18, and 19, the target frame on which the search step is executed among the plurality of frames forming the moving image data is hatched with diagonal lines.
  • the search unit 26 executes the search process on the first frame, and as shown in FIG. 11, makes the execution rate of the search process after the scene change higher than the previous rate.
  • whether or not the search unit 26 executes the search process in other words, whether a frame corresponds to a target frame or a non-target frame may change depending on factors other than the above. Specifically, a frame in the moving image data in which the detection unit 23 detects blurring of the subject or the angle of view becomes a non-target frame, and the search process is not performed for that frame. Since the subject may not be clear in frames where blur is detected, by excluding such frames from the search process, the validity of the search results can be ensured while reducing the burden of executing the search process. I can do it.
  • the search unit 26 executes a search process on the input frame and the complementary frame, as shown in FIG. 13.
  • the input frame is a frame in the moving image data that corresponds to the input of a recording instruction, and specifically, it is a frame recorded at the moment the input is accepted.
  • the complementary frames are frames before or after the input frame, for example, several frames immediately before and after the input frame. Note that the complementary frame may be only the frame before the input frame, or may be only the frame after the input frame.
  • the complementing unit 29 executes a complementing step of recording complementary information for non-target frames.
  • the complementary information is information determined based on supplementary information recorded in the recording process for two frames before and after the non-target frame. To explain in detail with reference to FIG. 12, for example, while the recording process is executed and additional information is recorded for each of frame A and frame B, there is no information between frames A and B. Assume that the target frame exists.
  • the complementing unit 29 generates complementary information ( Specifically, for example, items common to frames A and B are created.
  • the complementing unit 29 executes a complementing step of recording the created complementary information on the non-target frames between frames A and B.
  • complementary information for a non-target frame in this way, complementary information as supplementary information can be easily recorded for a non-target frame in which supplementary information is not originally recorded. Note that when the complementary information is recorded for a non-target frame, information indicating that the complementary information has been recorded may be further recorded in the non-target frame as additional information.
  • the second determination unit 27 executes a second determination step and determines the degree of similarity between the result of the search step executed for the first frame and the result of the search step executed for the second frame. do. Specifically, the second determination unit 27 determines the degree of similarity between the item searched as incidental information that can be recorded on the subject in the first frame and the item searched as incidental information that can be recorded on the subject in the second frame. Determine.
  • each of the two pieces of supplementary information (items) to be compared is digitized (more specifically, vectorized) using a known method such as Word2vec, and the digitized information is defined in a vector space. Then, the degree of similarity between pieces of supplementary information may be determined based on the distance between pieces of supplementary information in the vector space. In this case, the smaller the distance between the vectors, the more similar the supplementary information is.
  • the second determination unit 27 determines whether or not the above degree of similarity is satisfied in the second determination step.
  • the second limiting condition is a condition set in advance regarding execution of the recording process by the recording unit 28.
  • "setting in advance” means setting before the execution of the recording process.
  • the second limiting condition is that the degree of similarity exceeds a predetermined level.
  • the predetermined level defines the degree of similarity at which it can be determined that two pieces of supplementary information to be compared are similar.
  • the second limiting condition is not limited to the above condition, and may be, for example, a condition that a state in which the degree of similarity exceeds a predetermined level continues for several frames or more.
  • the second determination unit 27 uses the result of the search process performed on the first frame and the search process performed on the second frame. It is determined that the results of the process are similar to each other.
  • the second determination unit 27 sets priorities for the multiple subjects. .
  • a higher priority is set for a main subject among the plurality of subjects, such as a subject closer to the center of the angle of view or a subject closer to the AF point.
  • the user may set priorities for each subject.
  • the mode in which priorities are set for a plurality of subjects may include a mode in which there are subjects for which priorities are not set among the plurality of subjects.
  • the second determination unit 27 determines the degree of similarity described above based on the priorities of the plurality of subjects, and more specifically, emphasizes the degree of similarity determined for a subject with a higher priority. For example, if the degree of similarity determined for the subject with the highest priority (i.e., the main subject) exceeds a predetermined level, the second determination unit 27 determines that the search results for the first frame and the search results for the second frame are different from each other. It may be determined that they are similar.
  • the mode of determining the degree of similarity based on the priorities of multiple subjects may include a mode in which there are priorities among the priorities of multiple subjects that are not referred to when determining the degree of similarity. good.
  • the recording unit 28 performs a recording process on the target frame.
  • the recording unit 28 records supplementary information for the target frame based on the result of the search process by the search unit 26 (search result).
  • search result the result of the search process by the search unit 26.
  • the third number N3 is the first number N1 and 2 smaller than the number N2. That is, execution of the recording process is restricted for a specific target frame (hereinafter referred to as a non-recording frame) among the target frames.
  • restricting execution of the recording process for non-recording frames means, for example, not performing the recording process for non-recording frames.
  • the degree of similarity determined in the second determination step by the second determination unit 27 satisfies the above-mentioned second limiting condition. That is, as shown in FIG. 14, assume a situation where the search results for the first frame and the search results for the second frame are similar.
  • the recording unit 28 sets the first frame as a non-recording frame and restricts execution of the recording process on the frame. Specifically, as shown in FIG. 14, the recording process for the first frame is not performed and is omitted.
  • the number of frames on which the recording process is performed is smaller than the second number N2 of frames (target frames) on which the search process is performed.
  • the execution rate of the recording process becomes lower than the execution rate of the search process, as shown in FIG. In other words, the interval between frames (execution rate) in which the recording process is executed becomes longer than the interval between frames (target frame) in which the search process is executed.
  • Whether or not the recording unit 28 executes the recording process in other words, whether or not a frame corresponds to a non-recording frame may also change depending on factors other than the above.
  • the recording unit 28 performs the recording process on the input frame and the complementary frame, as shown in FIG. Execute. That is, the recording unit 28 records recordable supplementary information for the subject in the input frame based on the result of the search process for the input frame. Furthermore, the recording unit 28 records recordable additional information for the subject in the complementary frame, based on the result of the search process for the complementary frame.
  • the recording flow by the recording device 10 proceeds according to the flow shown in FIGS. 17A and 17B, and each step (process) in the recording flow is executed by the processor 11 included in the recording device 10. That is, in each step in the recording flow, the processor 11 executes the processing corresponding to each step among the data processing prescribed in the recording program. Specifically, the processor 11 executes recognition processing in the recognition step, search processing in the search step, and recording processing in the recording step.
  • the recording flow is executed using the start of recording of moving image data as a trigger (S001).
  • i is set to 1 for the frame number #i (i is a natural number) constituting the video data, and then the recognition process, search process, and recording are performed for the frame #i.
  • the recognition step a subject within the frame is recognized, and if a plurality of subjects exist within the frame, the plurality of subjects are recognized.
  • additional information (more specifically, items) that can be recorded for the recognized subject is searched from among the search items.
  • additional information is recorded for the frame based on the result of the search step (search result). Note that in the recording flow, the search step is not limited to being executed after the recognition step, but may be executed at the same timing as the recognition step.
  • step S003 is omitted.
  • step S006 it is determined whether i of the current frame number #i is greater than N.
  • N is a natural number of 2 or more, and can be set to any value. If i is larger than N, the process moves to the next step S007. On the other hand, if i is less than or equal to N, the process returns to step S003 and the recognition process, search process, and recording process are performed again on the frame #i.
  • step S007 the recognition process is performed on frame #i in the same manner as step S003.
  • the first determination step is executed with the frame #i as the first frame and the frame before #i as the second frame (S008).
  • the degree of similarity between the result of the recognition step performed on the first frame and the result of the recognition step performed on the second frame is determined. That is, in step S008, the degree of similarity between the subject in the first frame and the subject in the second frame is determined.
  • the degree of similarity is determined based on the priorities of the plurality of subjects. By considering the priorities of multiple subjects in this way, the degree of similarity can be determined more appropriately. For example, the degree of similarity can be determined by placing emphasis on the main subject among the multiple subjects.
  • the first determination step it is determined whether the above degree of similarity satisfies the first limiting condition (S009). If the above degree of similarity satisfies the first limiting condition, execution of the search process for frame #i (first frame) is restricted unless a recording instruction is input. The process is not executed.
  • step S010 if the above-mentioned degree of similarity does not satisfy the first limiting condition (specifically, does not reach a predetermined level), a search process is performed for frame #i in the same manner as step S003. (S010). Note that if blurring of the subject or angle of view is detected for frame #i, step S010 and subsequent steps are omitted. Further, when the search process is executed in step S010, it is preferable to return the execution rate of the search process immediately after that to the normal rate (initial rate).
  • step S010 After executing step S010, the frame #i is set as the first frame, the frame before #i (strictly speaking, the frame on which the search step was executed before the frame #i) is set as the second frame, A second determination step is executed (S011). In the second determination step, the degree of similarity between the result of the search step performed on the first frame and the result of the search step performed on the second frame is determined.
  • recordable supplementary information may be searched for a plurality of subjects.
  • priorities are set for the plurality of subjects, and the degree of similarity is determined based on the priorities of the plurality of subjects.
  • the recording process is executed for the frame #i (S013).
  • the item searched in step S010 is recorded in the frame #i as supplementary information.
  • the processor 11 executes a reception step of accepting the input. After that, the processor 11 determines whether the frame #i corresponds to an input frame corresponding to the input of a recording instruction, or a complementary frame before or after the input frame (S015).
  • the search step and the recording step are executed for the frame #i (S016).
  • information regarding the above recording instruction for example, information indicating that a recording instruction was input, or identification information corresponding thereto
  • supplementary information for example, information indicating that the user has inputted a recording instruction can be recorded in the input frame as supplementary information.
  • the results of the recognition process performed on the first frame and the results of the recognition process performed on the second frame are The degree of similarity between and is determined. That is, the degree of similarity between the subject in the first frame and the subject in the second frame (in other words, the degree of similarity between frames) is determined.
  • the number of frames (second number N2) on which the search step is executed is smaller than the number of frames (first number N1) that make up the moving image data. That is, as shown in FIG. 18, the execution rate of the search process is lower than the frame rate when recording moving image data. Thereby, the load related to the execution of the search process can be reduced, that is, the search process can be executed more efficiently.
  • the degree of similarity between the result of the search process executed on the first frame and the result of the search process executed on the second frame is determined. do. That is, the degree of similarity between the supplementary information (item) searched for the subject in the first frame and the supplementary information (item) searched for the subject in the second frame is determined.
  • the recording process for the first frame is not performed. limited. Specifically, the recording process is not performed on the first frame. That is, in the above case, there is a high possibility that the supplementary information recorded for the first frame and the second frame will be similar, and the recording process for the first frame is limited from the viewpoint of efficiency.
  • the number of frames on which the recording process is performed (third number N3) is smaller than the number of frames on which the search process is performed (second number N2). That is, as shown in FIG. 18, the execution rate of the recording process is lower than the frame rate when recording moving image data and the execution rate of the search process. Thereby, the load related to execution of the recording process can be reduced, that is, the recording process can be executed more efficiently. Furthermore, by restricting the execution of the recording process for the first frame, the data capacity for recording additional information can be reduced accordingly.
  • a user's input regarding an instruction to record supplementary information is accepted. Further, a search step and a recording step are performed on the frame (input frame) corresponding to the input. Thereby, even if the subject in the frame is similar between the input frame and the frame immediately before it, additional information can be recorded for the input frame. In this way, the additional information can be recorded in a frame (input frame) that is determined by reflecting the user's intention, thereby improving the convenience of recording the additional information for the user.
  • the search step and the recording step are performed on complementary frames before or after the input frame.
  • a lag time lag
  • the recording process it is possible to record the supplementary information on the frame at the time point desired by the user (the time point at which the user desires a recording instruction).
  • supplementary information is recorded for a non-target frame using supplementary information recorded in a similar frame.
  • the execution rate of the search process is the same as the frame rate at the time of recording the video data. (See Figure 18).
  • the present invention is not limited to this, and as shown in FIG. 19, the execution rate of the search step may be lower than the frame rate at the time of recording the moving image data from the beginning of recording of the moving image data.
  • the degree of similarity between the first frame and the second frame is determined based on the subject in each frame, but at that time, content other than the subject may be considered. Specifically, the degree of similarity between frames may be determined by taking into consideration the orientation of the photographing device, the movement of the subject, the sound emitted by the subject, etc. at each point in time during recording of moving image data. If it is determined based on these contents that the first frame and the second frame are different from each other, the execution rate of the search process may be set higher than the previous rate.
  • a moving image photographing device that is, a device that records moving image data
  • the recording device of the present invention may be constituted by a device other than the shooting device, for example, an editing device that acquires moving image data from the shooting device after shooting a video and edits the data. .
  • the recognition process, search process, and recording process are performed on frames in the moving image data.
  • the past frame is set as the second frame
  • the frame after the second frame (for example, the current frame) is set as the first frame
  • the degree of similarity is determined between the first frame and the second frame. become.
  • execution of the searching step or recording step for the first frame is limited.
  • the recognition step, search step, and recording step may be performed on the frames in the moving image data.
  • the recognition step, search step, and recording step may be performed sequentially from the last frame in the video data.
  • the first frame may be set as a frame before the second frame, and the degree of similarity between the frames may be determined, and whether each restriction condition is satisfied or not may be determined.
  • additional information for a frame is stored in a part of the video data (specifically, in a box area in the data structure of the frame).
  • the present invention is not limited to this, and as shown in FIG. 20, the supplementary information may be stored in a data file different from the moving image data.
  • the data file in which the additional information is stored (hereinafter referred to as the additional information file DF) is linked to the video data MD that includes the frame to which the additional information is added, and specifically, Contains an identification ID. Further, as shown in FIG.
  • the supplementary information file DF stores, for each frame, the number of the frame in which the supplementary information is recorded and the supplementary information regarding the subject within the frame.
  • the mode in which the supplementary information is recorded for each frame in the supplementary information file DF described above may include a mode in which there is a frame in which supplementary information is not written among a plurality of frames that constitute the video data. .
  • the processor included in the recording device of the present invention includes various types of processors.
  • processors include, for example, a CPU, which is a general-purpose processor that executes software (programs) and functions as various processing units.
  • various types of processors include PLDs (Programmable Logic Devices), which are processors whose circuit configurations can be changed after manufacturing, such as FPGAs (Field Programmable Gate Arrays).
  • various types of processors include dedicated electric circuits, such as ASICs (Application Specific Integrated Circuits), which are processors having circuit configurations specifically designed to perform specific processing.
  • ASICs Application Specific Integrated Circuits
  • one functional unit included in the recording apparatus of the present invention may be configured by one of the various processors described above.
  • one functional unit included in the recording device of the present invention may be configured by a combination of two or more processors of the same type or different types, for example, a combination of a plurality of FPGAs, or a combination of an FPGA and a CPU.
  • the plurality of functional units included in the recording device of the present invention may be configured by one of various processors, or two or more of the plurality of functional units may be configured by a single processor. Good too.
  • one processor may be configured by a combination of one or more CPUs and software, and this processor may function as a plurality of functional units.
  • a processor is used that realizes the functions of the entire system including multiple functional units in the recording device of the present invention with one IC (Integrated Circuit) chip. It can also be a form.
  • the hardware configuration of the various processors described above may be an electric circuit (Circuitry) that is a combination of circuit elements such as semiconductor elements.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供する。 複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第1数とし、検索工程が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい。

Description

記録方法、記録装置、及びプログラム
 本発明は、記録方法、記録装置、及びプログラムに関する。
 動画像データ中のフレーム(フレーム画像)に対して、そのフレーム内の被写体に関する付帯情報を記録することがある。そのような付帯情報が記録されることで、フレーム内の被写体を特定した上で動画像データを利用することができる。
 例えば、特許文献1に記載の発明では、ユーザの操作に基づいて、動画像の各シーン対して少なくとも1つのキーワードを付与し、各シーンに付与されたキーワードを、動画像データとともに記録する。
特開平6-309381号公報
 一方、動画像データを構成する複数のフレームのそれぞれに対してキーワード等の付帯情報を記録しようとすると、その処理に係る負荷が大きくなり、また付帯情報の記録容量が大きくなる。
 本発明の一つの実施形態は、上記の事情に鑑みてなされたものであり、前述した従来技術の問題点を解決し、動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供することを目的とする。
 上記の目的を達成するために、本発明の記録方法は、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第1数とし、検索工程が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい記録方法である。
 また、検索工程は、被写体又は画角のブレが検出されたフレームに対して実行されなくてもよい。
 また、上記の記録方法は、複数のフレームのうち、第1フレームに対して実行された認識工程の結果と、第1フレームと異なる第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する第1判定工程をさらに備えてもよい。この場合、第1判定工程にて判定された類似度合いが、検索工程の実行に関する第1制限条件を満たす場合に、第1フレームに対する検索工程の実行が制限されるとよい。
 また、第1フレーム及び第2フレームに対して、認識工程で複数の被写体が認識された場合、第1判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。
 また、記録工程にて付帯情報が記録されるフレームの数を第3数とした場合に、第3数が第2数より小さくてもよい。
 また、上記の記録方法は、複数のフレームのうち、第1フレームに対して実行された検索工程の結果と、第1フレームと異なる第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する第2判定工程をさらに備えてもよい。この場合、第2判定工程にて判定された類似度合いが、記録工程の実行に関する第2制限条件を満たす場合に、第1フレームに対する記録工程の実行が制限されるとよい。
 また、第1フレーム及び第2フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第2判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。
 また、上記の記録方法は、付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備えてもよい。この場合、複数のフレームのうち、ユーザの入力に対応する入力フレームに対して、記録工程が実行されて付帯情報が記録されるとよい。
 また、入力フレームに対する記録工程では、記録指示に関する情報が付帯情報として記録されてもよい。
 また、複数のフレームのうち、入力フレーム、及び、入力フレームの前又は後の補完フレームに対して記録工程が実行されて付帯情報が記録されてもよい。
 また、付帯情報は、動画像データとは異なるデータファイルに保存されてもよい。
 また、本発明の一つの実施形態に係る記録装置は、プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置である。また、上記のプロセッサは、フレーム内の被写体を、フレーム毎に認識する認識処理と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索処理と、検索処理の結果に基づいて、フレームに対して付帯情報を記録する記録処理と、を実行する。そして、本発明の一つの実施形態では、動画像データを構成するフレームの数を第1数とし、検索処理が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい。
 また、本発明の一つの実施形態に係るプログラムは、前述した本発明の一つの実施形態に係る記録方法に含まれる認識工程、検索工程及び記録工程のそれぞれを、コンピュータに実施させるためのプログラムである。
動画像データの説明図である。 フレーム内の被写体に関する付帯情報を示す図である。 階層構造の付帯情報の例を示す図である。 円形状の被写体領域の位置を特定する手順に関する図である。 フレームに対して付帯情報を記録する手順に関する図である。 動画像データ中のすべてのフレームに対して付帯情報を記録するケースを示す図である。 本発明の一つの実施形態に係る記録装置のハードウェア構成を示す図である。 本発明の一つの実施形態に係る記録装置の機能についての説明図である。 互いに類似する第1フレーム及び第2フレームの各々に対する検索工程の実行の有無を示す図である。 検索工程の実行レートについての説明図である。 検索工程の実行レートについての説明図であり、シーン変更によりフレーム内の被写体が変わった場合の図である。 付帯情報の補完についての説明図である。 検索工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。 検索工程での結果が類似する第1フレーム及び第2フレームの各々に対する記録工程の実行の有無を示す図である。 記録工程の実行レートについての説明図である。 記録工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。 本発明の一つの実施形態に係る記録フローを示す図である(その1)。 本発明の一つの実施形態に係る記録フローを示す図である(その2)。 検索工程及び記録工程のそれぞれの実行レートについての変動を示す図である。 検索工程の実行レートに関する変更例を示す図である。 付帯情報が動画像データとは異なるデータファイルに保存されている例を示す図である。
 本発明の具体的な実施形態について説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱しない限り、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。
 また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置が含まれるとともに、分散して互いに独立して存在しつつ協働(連携)して特定の機能を発揮する複数の装置の組み合わせも含まれることとする。
 また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、グループ、企業等の法人、及び団体等が含まれる。さらに、人工知能(AI:Artificial Intelligence)を構成するコンピュータ及びデバイスも、「者」に含まれ得る。人工知能は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現されるものである。人工知能のアルゴリズムは任意であり、例えば、エキスパートシステム、事例ベース推論(CBR:Case-Based Reasoning)、ベイジアンネットワーク又は包摂アーキテクチャ等である。
 <<本発明の一つの実施形態について>>
 本発明の一つの実施形態は、動画像データ中のフレームに対して付帯情報を記録する記録方法、記録装置及びプログラムに関する。
 [動画像データ及びフレームについて]
 動画像データは、ビデオカメラ及びデジタルカメラ等のような公知の動画撮影機器(以下、撮影機器という)によって作成される。撮影機器は、一定のフレームレート(単位時間に撮影されるフレーム画像の数)にて、画角内の被写体を、予め設定された露光条件で撮影してアナログ画像データ(RAW画像データ)を生成する。その後、撮影機器は、アナログ画像データから変換されるデジタル画像データに対してγ補正等の補正処理を実施することで、フレーム(詳しくは、フレーム画像のデータ)を作成する。
 そして、撮影機器がフレーム画像のデータを一定のレート(間隔)で記録することで、図1に示すように、複数のフレームによって構成される動画像データが作成される。なお、以下では、動画像データを構成するフレームの数を、第1数N1と呼ぶこととする。
 動画中データ中の各フレーム内には、1つ以上の被写体が含まれ、つまり、各フレームの画角内には1つ以上の被写体が存在する。被写体は、画角内に存在する人、物及び背景等である。また、本明細書において、被写体は、広義に解釈され、特定の有形物に限られず、景色(風景)、明け方及び夜間等のようなシーン、旅行及び結婚式等のようなイベント、料理及び趣味等のようなテーマ、並びにパターン及び模様等を含み得る。
 動画像データは、そのデータ構造に応じたファイル形式を有する。ファイル形式は、動画像データのコーデック(圧縮技術)と対応するファイルフォーマット、及びバージョン情報を有する。ファイル形式には、MPEG(Moving Picture Experts Group)-4、H.264、MJPEG(Motion JPEG)、HEIF(High Efficiency Image File Format)、AVI(Audio Video Interleave)、MOV(QuickTime file format)、WMV(Windows Media Video)、及び、FLV(Flash Video)等が挙げられる。MJPEGは、動画を構成するフレーム画像がJPEG(Joint Photographic Experts Group)形式の画像からなるファイルフォーマットである。
 ファイルフォーマットは、各フレームのデータ構造に反映される。本発明の一つの実施形態では、各フレームのデータ構造における先頭のデータが、SOI(Start of Image)のマーカセグメント、又はヘッダ情報であるBITMAP FILE HEADERから始まる。これらの情報には、例えば、フレーム番号(撮影開始時点のフレームから順に付与される通し番号)を示す情報が含まれる。
 また、各フレームのデータ構造には、フレーム画像のデータが含まれる。フレーム画像のデータは、撮影時の画角にて記録されたフレーム画像の解像度、及び、画素毎に規定された白黒2色又はRGB(Red Green Blue)3色の階調値等を示す。画角は、画像が表示又は描画されるデータ処理上の範囲であり、その範囲は、互いに直交する2つの軸を座標軸とする二次元座標空間にて規定される。
 また、各フレームのデータ構造には、付帯情報が記録(書き込み)可能な領域が含まれ得る。付帯情報は、各フレーム及び各フレーム内の被写体に関するタグ情報である。
 動画ファイルフォーマットが例えばHEIFである場合、各フレームに対応するExif(Exchangeable image file format)形式の付帯情報、具体的には、撮影日時、撮影場所及び撮影条件等に関する情報が格納できる。撮影条件には、使用された撮影機器の種類、ISO感度、f値及びシャッタスピード等の露光条件、合焦位置(例えば、オートフォーカス時のフォーカスポイント)、並びに画像処理の内容等が含まれる。画像処理の内容は、フレームの画像データに対して実行された画像処理の名称、特徴、処理を実行した機器、並びに画角の中で画像処理が実行された領域等を含む。
 [付帯情報について]
 動画像データ中の各フレームには、付帯情報が記録可能なボックス領域が設けられており、フレーム内の被写体に関する付帯情報が記録可能である。具体的には、被写体に該当する項目が、その被写体に関する付帯情報として記録可能である。項目は、被写体を各観点で分類した場合に、その被写体が該当する事項及びカテゴリであり、分かり易くは、被写体の種類、状態、性質、構造、属性及びその他の特徴を表す語句(ワード)である。例えば、図2に示すケースでは、「人」、「女性」、「日本人」、「鞄を所持」及び「高級バッグを所持」が項目に該当する。
 また、一つの被写体に対して、2つ以上の項目の付帯情報が付加されてもよく、また、抽象度が異なる複数の項目の付帯情報が付加されてもよい。そして、一つの被写体に対して付加される付帯情報の項目が多いほど、あるいは、付帯情報が具体的(詳細)であるほど、その被写体に対する付帯情報の項目の精度が高くなる。ここで、精度とは、付帯情報によって記述される被写体の内容についての詳しさの度合い(精細度)を表す概念である。
 また、ある項目の付帯情報が付加された被写体に対して、その項目よりも精度が高い項目の付帯情報を付加してもよい。例えば、図3に示すケースでは、例えば、「人」という項目の付帯情報が付加された被写体に対して、より精度が高い「女性」という項目の付帯情報が付加されている。また、「鞄を所持」という項目の付帯情報が付加された被写体に対して、より精度が高い「高級バッグを所持」という項目の付帯情報が付加されている。
 なお、付帯情報は、図3に示すように階層ごとに規定されているのが好ましい。
 また、被写体の項目には、被写体の外観からは識別できない項目、例えば、農作物における病気等のような異常の有無、若しくは、果物の糖度等のような品質等が含まれてもよい。上記のように外観から識別不能な項目は、画像データにおける被写体の特徴量から判定できる。具体的には、被写体の特徴量と被写体の属性との対応関係を予め学習しておき、その対応関係に基づいて、画像内の被写体の特徴量から当該被写体の属性を判定(推定)できる。
 なお、被写体の特徴量は、例えば、フレームにおける被写体の解像度、データ量、ボケの度合い、ブレの度合い、フレームの画角に対するサイズ比、画角における位置、色味、又はこれらを複数組み合わせたものである。特徴量は、公知の画像解析技術を適用し、画角中の被写体領域を解析することで算出できる。また、特徴量は、機械学習によって構築される数理モデルにフレーム(画像)が入力されることで出力される値でもよく、例えば、1次元又は多次元のベクトル値でもよい。その他、少なくとも、一つの画像を入力したときに一意に出力されるような値であれば、特徴量として用いることができる。
 また、上記のボックス領域には、画角における被写体の位置(座標位置)を示す付帯情報、奥行方向における被写体までの距離(深度)を示す付帯情報が記録されてもよい。被写体の座標は、図2に示すように、フレームの画角を規定する二次元座標空間において、被写体の一部又は全部を囲む領域(以下、被写体領域)の縁上に存在する点の座標である。被写体領域の形状は、特に限定されないが、例えば略円形状又は矩形形状でもよい。被写体領域は、ユーザが画角内の一定範囲を指定することで抽出されてもよく、あるいは、公知の被写体検出アルゴリズム等を利用して自動的に抽出されてもよい。
 被写体領域が、図2にて破線にて示す矩形状の領域である場合、被写体領域の縁において対角線の両端に位置する2つの交点(図2にて白丸及び黒丸で示す点)の座標により被写体の位置が特定される。このように複数の点の座標により、画角における被写体の位置を的確に特定することができる。
 また、被写体領域は、被写体領域内における基点の座標、及び当該基点からの距離によって特定される領域でもよい。例えば、図4に示すように被写体領域が円形状である場合には、被写体領域の中心(基点)の座標、及び、基点から被写体領域の縁までの距離(つまり、半径r)によって被写体領域が特定される。この場合、基点である中心の座標と、基点からの距離である半径とが被写体領域の位置情報となる。このように被写体領域内の基点と、基点からの距離を用いることで、被写体の位置を的確に表すことができる。
 なお、矩形状である被写体領域の位置は、その領域の中心の座標、及び各座標軸方向における中心からの距離によって表されてもよい。
 さらに、上記のボックス領域には、図2に示すように、被写体の画質を表す付帯情報を記録してもよい。画質は、フレーム画像のデータが示す被写体の画質であり、例えば、被写体の解像感、ノイズ、及び明るさ等である。解像感は、ボケ又はブレ等の有無及び程度、解像度、又は、これらに応じた等級若しくはランク等を含む。ノイズは、S/N値、ホワイトノイズの有無、又は、これらに応じた等級若しくはランク等を含む。明るさは、輝度値、明るさを示すスコア、又は、これらに応じた等級若しくはランク等を含む。また、明るさには、白飛び又は黒つぶれのような露光異常の有無(階調値により表現可能な範囲を超えているか)が含まれ得る。また、画質を表す情報には、解像感、ノイズ及び明るさ等を人の感性に基づいて評価した場合の評価結果(官能評価結果)が含まれてもよい。
 さらにまた、付帯情報の記録指示に関するユーザの入力がなされたフレームのボックス領域には、図2に示すように、記録指示に関する付帯情報が記録されてもよい。記録指示に関する情報は、記録指示がなされた旨を明記する情報、あるいは、記録指示がなされたフレームであることを示す識別コード(符号情報)である。付帯情報の記録指示については、後に説明することとする。
 以上までに説明した付帯情報がフレームに記録された動画像データは、様々な用途に利用され、例えば、機械学習の教師データを作成する目的で用いられ得る。詳しく説明すると、動画像データは、フレーム内の被写体を付帯情報(詳しくは、付帯情報の項目)から特定できるため、フレームに対して記録された付帯情報に基づいてアノテーション(選別)される。アノテーション後の動画像データ及びそのフレーム画像のデータは、教師データの作成に供され、機械学習に必要な分の教師データを集めて機械学習が実施される。
 [付帯情報を記録する基本的な流れについて]
 以下、図5を参照しながら、動画像データ中のフレームに対して付帯情報を記録する基本的な流れについて説明する。なお、以下では、動画像データを構成する複数のフレームのうち、付帯情報が記録されるフレーム(特に、被写体に関する付帯情報が記録されるフレーム)を、「対象フレーム」とも呼ぶこととする。
 対象フレームに対して付帯情報を記録する場合には、図5に示すように、先ず、対象フレーム内の被写体を認識する。具体的には、対象フレームの画角内にて被写体領域を抽出し、抽出された領域内の被写体を認識する。なお、対象フレーム内で複数の被写体領域が抽出された場合には、抽出された領域と同数の被写体を認識する。
 次に、認識された被写体に対して記録可能な付帯情報を、検索項目に基づいて検索する。検索項目は、付帯情報の候補として設定された複数の項目(項目群)である。例えば、被写体が人である場合には、検索項目の中から「人」という項目を検索する。
 また、検索項目には、ある観点について精度(詳しくは、精細度)が段階的に変わった複数の項目が含まれている。例えば、検索項目には、「人」という項目が含まれており、「人」に関連するより詳細な項目として、性別、年齢、国籍及び職業等を表す項目がさらに含まれている。そして、上記の検索項目から、認識された被写体に該当する項目を、その被写体に対して記録可能な付帯情報として検索する。この際、検索される項目の数が多いほど、あるいは検索される項目が具体的(詳細)であるほど、検索の精度が高くなる。
 また、検索項目の精度、つまり、検索項目に含まれる項目の数及び精細度は、可変であり、また、一度設定された後に変更可能である。例えば、あるフレーム内の被写体(第1被写体)に応じて検索項目の精度を設定した後に、別のフレーム内の被写体(第2被写体)に対する検索項目の精度を、第2被写体に応じて変更することができる。
 検索項目の精度は、前のフレーム内の被写体に応じて高く設定してもよい。例えば、あるフレーム内の被写体(第1被写体)に対して、人であるか否かを検索し、その後のフレーム内の被写体(上記の第1被写体と同じ被写体)に対して、性別、国籍及び年齢等のような精度をより高くした検索項目を設定してもよい。
 なお、被写体に対して記録可能な付帯情報を検索する方法は、特に限定されない。例えば、被写体の特徴量から被写体の種類、性質及び状態等を推定し、推定結果と一致又は対応する項目を検索項目の中から見つけてもよい。また、対象フレーム内で複数の被写体を認識した場合には、複数の被写体のうち、少なくとも一部の被写体について、その被写体に対して記録可能な付帯情報を検索項目の中から検索してもよい。
 次に、上述の検索結果に基づき、検索された項目(つまり、検索項目の一部)を付帯情報として対象フレームに対して記録する。付帯情報を対象フレームに対して記録するとは、例えば、対象フレームの画像データに設けられたボックス領域(詳しくは、JUMBFに準拠するボックス領域)に付帯情報を書き込むことである。なお、対象フレーム内の被写体に該当する項目が検索項目中に存在しない場合には、「該当項目なし」という付帯情報を、対象フレームに対して記録してもよい。
 また、対象フレーム内で複数の被写体が認識された場合、図5に示すように、付帯情報(項目)を被写体毎に検索し、検索された付帯情報(項目)を、対応する一つの被写体と関連付けて対象フレームに対して記録する。なお、付帯情報(項目)の検索は、フレーム内の複数の被写体の全てに対して実行しなくてもよい。
 ところで、上述の手順により、動画像データ中のフレームに対して付帯情報を記録する場合、効率よく付帯情報を記録できるのが好ましい。一方、図6に示すように、動画像データを構成するフレームの各々に対して付帯情報を記録しようとすると、上述の処理に係る負荷が大きくなる。また、付帯情報の記録量が膨大となり、動画像データの記録容量が大きくなる。この結果、動画像データの収録時間(換言すると、動画データを構成するフレームの第1数N1)が小さくなってしまう。
 一方、動画像データ中、前後のフレーム間では、被写体が同一又は類似している場合(例えば、共通の被写体を撮影している場合)があり得る。その場合、フレーム内の被写体に対して記録可能な付帯情報がフレーム間で共通し、前後のフレームにおいて、付帯情報(項目)の検索結果がフレーム間で類似する(重複する)可能性がある。
 本発明の一つの実施形態では、動画データ中のフレームに対して付帯情報を効率よく記録する目的のために、以下に説明する記録装置及び記録方法を用いている。以下では、本発明の一つの実施形態に係る記録装置の構成、及び本発明の一つの実施形態に係る記録方法の流れについて説明する。
 [本発明の一つの実施形態に係る記録装置の構成]
 本発明の一つの実施形態に記録装置(以下、記録装置10)は、図7に示すように、プロセッサ11及びメモリ12を備えるコンピュータである。プロセッサ11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、又はTPU(Tensor Processing Unit)等によって構成される。メモリ12は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリ等によって構成される。
 また、記録装置10は、タッチパネル及びカーソルボタン等のようなユーザ操作を受け付ける入力機器13、並びに、ディスプレイ及びスピーカ等のような出力機器14を備える。入力機器13には、ユーザの音声入力を受け付ける機器が含まれてもよい。この場合、記録装置10は、ユーザの音声を認識し、形態素解析等によって音声を解析し、その解析結果を入力情報として取得してもよい。
 また、メモリ12には、動画像データ中のフレームに対して付帯情報を記録するためのプログラム(以下、記録用プログラム)が格納されている。記録用プログラムは、コンピュータに本発明の記録方法に含まれる各工程(具体的には、図17A及び17Bに示す記録フロー中の各ステップ)を実施させるためのプログラムである。記録用プログラムは、コンピュータが読み取り可能な記録媒体から読み込むことで取得されてもよいし、インターネット又はイントラネット等の通信網を通じてダウンロードすることで取得されてもよい。
 また、記録装置10は、ストレージ15内に記憶された各種のデータに自由にアクセス可能である。ストレージ15に記憶されたデータには、記録装置10が付帯情報を記録するために必要なデータ、具体的には、上述した検索項目のデータが含まれる。
 なお、ストレージ15は、記録装置10に内蔵又は外付けされてもよく、若しくはNAS(Network Attached Storage)等によって構成されてもよい。あるいは、ストレージ15が、記録装置10とインターネット又はモバイル通信網を通じて通信可能な外部機器、例えばオンラインストレージでもよい。
 上述の記録装置10は、例えば、動画の撮影機器によって構成される。記録装置10を構成する撮影機器の構成(特に、メカ構成)は、動画撮影の機能を有する公知の機器のものと略共通する。また、上記の撮影機器は、画角内の所定位置に自動的に合焦するオートフォーカス(AF)機能を有してもよい。さらに、上記の撮影機器は、AF機能を利用して動画像データを記録している間の合焦位置、すなわちAFポイントを特定する機能を有してもよい。
 また、上記の撮影機器は、手振れ等によって発生する画角のブレ、及び、被写体の動きに起因して発生する被写体のブレを検出する機能を有する。ここで、「ブレ」は、不規則で且つ遅い揺れ(ブレ)であり、例えば、意図的な画角変更、具体的には、撮影機器の向きを所定方向に沿って素早く変更させる操作(具体的には、パン操作)とは相違する。なお、被写体のブレは、例えば、公知の画像解析技術によって検出可能である。画角のブレは、例えば、ジャイロセンサ等の公知のブレ検出機器によって検出可能である。
 また、上記の撮影機器は、動画像データの記録中にユーザ(すなわち、動画の撮影者)が覗き込むファインダ、詳しくは電子ビューファインダ又は光学ビューファインダを備えてもよい。この場合、上記の撮影機器は、動画像データの記録中、ユーザの視線及び瞳のそれぞれの位置を検出して、ユーザの視線位置を特定する機能を有してもよい。ユーザの視線位置は、ファインダ内を覗き込んでいるユーザの視線と、ファインダ内の表示画面(不図示)との交点位置に相当する。
 また、上記の撮影機器は、赤外センサ等の公知の距離センサを搭載してもよい。この場合、上記の撮影機器は、画角内の各被写体について、奥行方向の距離(深度)を測定可能である。
 記録装置10の機能、特に、フレームへの付帯情報の記録に関連する機能について、図8を参照しながら説明する。記録装置10は、図8に示すように、取得部21、入力受付部22、検出部23、認識部24、第1判定部25、検索部26、第2判定部27、記録部28、及び補完部29を有する。これらの機能部は、記録装置10が備えるハードウェア機器(プロセッサ11、メモリ12、入力機器13及び出力機器14)と、前述の記録用プログラムを含むソフトウェアとの協働によって実現される。
 以下、上述した各機能部について説明する。
 (取得部)
 取得部21は、複数のフレームにより構成される動画像データを取得する。具体的には、取得部21は、記録装置10を構成する撮影機器の画角にて、一定のフレームレートでフレーム(フレーム画像)を記録することで動画像データを取得する。
 (入力受付部)
 入力受付部22は、受付け工程を実行し、受付け工程において、フレームへの付帯情報の記録に関連して行われるユーザ操作を受け付ける。入力受付部22が受け付けるユーザ操作には、付帯情報の記録指示に関するユーザの入力(以下、記録指示の入力)が含まれる。記録指示の入力は、動画像データを構成する複数のフレームのうち、付帯情報が記録される対象フレームを指示するために行われる入力操作である。具体的に説明すると、動画像データの記録中、ユーザは、付帯情報の記録を希望するタイミングで所定の動作(例えば、所定のボタンを押す操作又は音声を発する操作等)を行う。入力受付部22は、その操作を記録指示の入力として受け付ける。
 (検出部)
 検出部23は、動画像データの記録中、被写体又は画角のブレが発生した場合に、公知のブレ検出手段により、発生したブレを検出する。また、検出部23は、ブレを検出した場合に、動画像データのうち、そのブレが検出されたフレームを特定する。
 (認識部)
 認識部24は、認識工程を実行し、認識工程において、動画像データにおけるフレーム内の被写体を、フレーム毎に認識する。具体的に説明すると、認識工程では、各フレームの画角において被写体領域を抽出し、抽出された被写体領域内の被写体を特定する。また、フレーム内に複数の被写体が存在する場合(つまり、フレームの画角内で複数の被写体領域が抽出される場合)、認識部24は、複数の被写体を認識する。
 なお、フレーム内の被写体をフレーム毎に認識する態様には、動画像データを構成する複数のフレームの中に、フレーム内の被写体が認識されないフレームが存在する態様が含まれてもよい。
 (第1判定部)
 第1判定部25は、第1判定工程を実行し、動画像データにおける第1フレームと第2フレームとの間の類似度合いを判定する。第1フレーム及び第2フレームは、動画像データを構成する複数のフレームのうち、互いに異なるフレームである。第2フレームは、第1フレームよりも前のフレーム、又は、第1フレームよりも後のフレームである。
 以下では、動画像データの記録中、現時点(リアルタイム)に相当するフレームが第1フレームであり、過去(例えば、第1フレームの数フレーム前)のフレームが第2フレームであるケースを例に挙げて説明する。
 第1判定工程では、第1フレーム内の被写体についての認識結果と、第2フレーム内の被写体についての認識結果と、の類似度合いを判定する。つまり、第1判定部25は、認識部24が認識した第1フレーム内の被写体と、第2フレーム内の被写体との間の類似度合いを判定する。
 なお、類似度合いを判定する際には、類似度合いを評価(算出)する公知の技術が利用可能である。例えば、比較される2つの被写体の特徴量(厳密には、フレーム内の画角における被写体領域の特徴量)の各々を特徴量空間内で規定する。そして、特徴量空間における特徴量間の距離によって、被写体同士の類似度合いを判定してもよい。この場合、距離が小さいほど、被写体同士が類似している(類似度合いが高い)ことになる。
 さらに、第1判定部25は、第1判定工程において、上記の類似度合いが第1制限条件を満たすか否かを判定する。第1制限条件とは、検索部26による検索工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、検索工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第1制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される2つの被写体同士が類似していると判定し得る程度の類似度合いを規定している。
 なお、第1制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。
 そして、上記の類似度合いが所定のレベルを超えると判定された場合、第1判定部25は、上記の類似度合いが第1制限条件を満たし、つまり、第1フレームと第2フレームとが類似していると判定する。
 また、第1フレーム及び第2フレームに対して認識部24が複数の被写体を認識した場合、第1判定部25は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはAFポイントにより近い被写体等に対しては、より高い優先度が設定される。または、ユーザが各被写体に対する優先度を指定してもよい。
 なお、各被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。
 そして、第1判定部25は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体(すなわち、主要被写体)について判定された類似度合いが所定のレベルを超える場合、第1判定部25は、第1フレームと第2フレームとが類似していると判定してもよい。
 なお、各被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。
 (検索部)
 検索部26は、対象フレームに対して検索工程を実行する。検索工程において、検索部26は、検索項目に含まれる付帯情報のうち、認識部24によって認識された対象フレーム内の被写体に対して記録可能な付帯情報を検索する。
 また、本発明の一つの実施形態では、検索部26による検索工程が実行される対象フレームの数を第2数N2とした場合に、第2数N2が第1数N1よりも小さい。つまり、動画像データを構成する複数のフレームのうち、対象フレーム以外のフレーム(以下、非対象フレームという)に対しては、検索工程の実行が制限される。
 ここで、非対象フレームに対して検索工程の実行を制限するとは、例えば、非対象フレームに対する検索工程を実行しないことである。具体的に説明すると、第1判定部25による第1判定工程にて判定された類似度合いが前述の第1制限条件を満たしているとする。つまり、図9に示すように、第1フレームと第2フレームとが類似しているとする。この場合、検索部26は、第1フレームを非対象フレームとして設定し、非対象フレームに対する検索工程の実行を制限する。詳しくは、図9に示すように、第1フレームに対する検索工程が実行されずに省略される。
 そして、第1フレームに対する検索工程が実行されないので、検索工程が実行されるフレーム(対象フレーム)の数、すなわち第2数N2が、第1数N1よりも小さくなる。これにより、前後のフレームが類似し続ける状況では、図10に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。
 具体的に説明すると、例えば、同じシーンで同じ被写体を撮影して動画像データを記録する場合、前後のフレーム間における被写体の類似度合いが所定のレベルを超える状態が継続することになる。この場合、図10に示すように、検索工程が実行されるフレームの間隔が、動画像データにおけるフレームの記録間隔よりも長くなる。
 なお、図10~16、18、及び19において、動画像データを構成する複数のフレームのうち、検索工程が実行される対象フレームには、斜線のハッチングが付けられている。
 また、動画像データの記録中、撮影シーンの変更等によって前後のフレームが切り替わり、第1フレーム内の被写体と第2フレーム内の被写体との類似度合いが大きく変化したとする。この場合、検索部26は、第1フレームに対して検索工程を実行し、図11に示すように、シーン変更後における検索工程の実行レートを、それまでのレートよりも大きくする。
 また、検索部26による検索工程の実行の有無、換言すると、フレームが対象フレーム及び非対象フレームのいずれに該当するかは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データ中、検出部23により被写体又は画角のブレが検出されたフレームは、非対象フレームとなり、そのフレームに対しては検索工程が実行されない。ブレが検出されたフレームでは被写体が明瞭でない可能性があるため、そのようなフレームを検索工程の対象から外すことにより、検索結果の妥当性を確保しつつ、検索工程の実行負担を軽減することができる。
 また、動画像データの記録中に入力受付部22が記録指示の入力を受け付けた場合、検索部26は、図13に示すように、入力フレーム及び補完フレームに対して検索工程を実行する。入力フレームは、動画像データ中、記録指示の入力に対応するフレームであり、具体的には入力が受け付けられた瞬間に記録されたフレームである。補完フレームは、図13に示すように、入力フレームの前又は後のフレームであり、例えば、入力フレームの直前及び直後の数フレームである。なお、補完フレームは、入力フレームの前のフレームのみでもよく、あるいは入力フレームの後のフレームのみでもよい。
 (補完部)
 補完部29は、非対象フレームに対して補完情報を記録する補完工程を実行する。補完情報は、非対象フレームの前後にある2つのフレームに対して記録工程にて記録された付帯情報に基づいて決められる情報である。図12を参照しながら具体的に説明すると、例えば、フレームA及びフレームBのそれぞれに対しては、記録工程が実行されて付帯情報が記録された一方で、フレームA、Bの間には非対象フレームが存在することとする。ここで、フレームAに対して記録された付帯情報と、フレームBに対して記録された付帯情報とが、比較的類似している場合、補完部29は、これらの情報に応じた補完情報(具体的には、例えば、フレームA、Bに共通の項目)を作成する。
 そして、補完部29は、作成した補完情報を、フレームA、Bの間の非対象フレームに対して記録する補完工程を実行する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。
 なお、補完情報が非対象フレームに対して記録された場合には、補完情報が記録された旨の情報が付帯情報として非対象フレームにさらに記録されてもよい。
 (第2判定部)
 第2判定部27は、第2判定工程を実行し、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。詳しくは、第2判定部27は、第1フレーム内の被写体に記録可能な付帯情報として検索された項目と、第2フレーム内の被写体に記録可能な付帯情報として検索された項目との類似度合いを判定する。
 なお、類似度合いを判定する際には、類似度合いを評価(算出)する公知の技術が利用可能である。例えば、比較される2つの付帯情報(項目)の各々を、Word2vec等の公知の手法によって数値化(詳しくは、ベクトル化)し、数値化された情報をベクトル空間内で規定する。そして、ベクトル空間における付帯情報間の距離によって、付帯情報同士の類似度を判定してもよい。この場合、ベクトル間の距離が小さいほど、付帯情報同士が類似していることになる。
 さらに、第2判定部27は、第2判定工程において、上記の類似度合いが満たすか否かを判定する。第2制限条件とは、記録部28による記録工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、記録工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第2制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される2つの付帯情報同士が類似していると判定し得る程度の類似度合いを規定している。
 なお、第2制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。
 そして、上記の類似度合いが所定のレベルを超えると判定された場合、第2判定部27は、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果とが互いに類似していると判定する。
 また、第1フレーム及び第2フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第2判定部27は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはAFポイントにより近い被写体等に対しては、より高い優先度が設定される。また、ユーザが各被写体に対して優先度を設定してもよい。
 なお、複数の被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。
 そして、第2判定部27は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体(すなわち、主要被写体)について判定された類似度合いが所定のレベルを超える場合、第2判定部27は、第1フレームに対する検索結果と第2フレームに対する検索結果とが類似していると判定してもよい。
 なお、複数の被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。
 (記録部)
 記録部28は、対象フレームに対して記録工程を実行する。記録工程において、記録部28は、検索部26による検索工程の結果(検索結果)に基づいて、対象フレームに対して付帯情報を記録する。より詳しく説明すると、記録工程では、検索項目の中から検索された項目、つまり対象フレーム内の被写体に該当する項目を、付帯情報として対象フレームに対して記録する。
 また、本発明の一つの実施形態では、記録部28による記録工程にて付帯情報が記録される対象フレームの数を第3数N3とした場合に、第3数N3が第1数N1及び第2数N2よりも小さい。つまり、対象フレームのうち、特定の対象フレーム(以下、非記録フレームという)に対して記録工程の実行が制限される。
 ここで、非記録フレームに対して記録工程の実行を制限するとは、例えば、非記録フレームに対する記録工程を実行しないことである。具体的に説明すると、第2判定部27による第2判定工程にて判定された類似度合いが前述の第2制限条件を満たしているとする。つまり、図14に示すように、第1フレームに対する検索結果と第2フレームに対する検索結果とが類似している場面を想定する。この場合、記録部28は、第1フレームを非記録フレームに設定し、当該フレームに対する記録工程の実行を制限する。詳しくは、図14に示すように、第1フレームに対する記録工程が実行されずに省略される。
 そして、第1フレームに対する記録工程が実行されないので、記録工程が実行されるフレームの数、すなわち第3数N3が、検索工程が実行されたフレーム(対象フレーム)の第2数N2よりも小さくなる。これにより、前後のフレームの間で検索工程での結果(検索結果)が類似している状況が続けば、図15に示すように、記録工程の実行レートが検索工程の実行レートより小さくなる。つまり、記録工程が実行されるフレームの間隔(実行レート)が、検索工程が実行されたフレーム(対象フレーム)の間隔よりも長くなる。
 記録部28による記録工程の実行の有無、換言すると、フレームが非記録フレームに該当するか否かは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データの記録中に入力受付部22が記録指示の入力を受け付けた場合、記録部28は、図16に示すように、入力フレーム及び補完フレームに対して記録工程を実行する。つまり、記録部28は、入力フレームに対する検索工程の結果に基づいて、入力フレーム内の被写体に対して記録可能な付帯情報を記録する。また、記録部28は、補完フレームに対する検索工程の結果に基づいて、補完フレーム内の被写体に対して記録可能な付帯情報を記録する。
 [本発明の一つの実施形態に係る記録フローについて]
 次に、記録装置10を用いた記録フローについて説明する。以下に説明する記録フローでは、本発明の記録方法が用いられる。つまり、以下に説明する記録フロー中の各ステップは、本発明の記録方法の構成要素に相当する。
 なお、下記のフローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において、フロー中の不要なステップを削除したり、フローに新たなステップを追加したり、フローにおける2つのステップの実行順序を入れ替えてもよい。
 記録装置10による記録フローは、図17A及び17Bに示す流れに従って進行し、記録フロー中の各ステップ(工程)は、記録装置10が備えるプロセッサ11によって実行される。つまり、記録フロー中の各工程において、プロセッサ11は、記録用プログラムに規定されたデータ処理のうち、各工程と対応する処理を実行する。具体的に説明すると、プロセッサ11は、認識工程では認識処理を、検索工程では検索処理を、記録工程では記録処理をそれぞれ実行する。
 記録フローは、動画像データの記録開始をトリガーとして実施される(S001)。記録フローが開始されると、先ず、動画像データを構成するフレームの番号#i(iは自然数)についてiを1に設定した上で、#iのフレームに対して認識工程、検索工程及び記録工程を実行する(S002、S003)。つまりは、最初のフレーム内に対して付帯情報を記録する。
 認識工程では、フレーム内の被写体を認識し、フレーム内に複数の被写体が存在する場合には、複数の被写体を認識する。検索工程では、認識された被写体に対して記録可能な付帯情報(詳しくは、項目)を、検索項目の中から検索する。記録工程では、検索工程の結果(検索結果)に基づいて、フレームに対して付帯情報を記録する。
 なお、記録フローにおいて、検索工程は、認識工程の後に実行される場合に限定されず、認識工程と同じタイミングで実行されてもよい。
 なお、#iのフレームについて被写体又は画角のブレが検出された場合、ステップS003は省略される。
 次に、動画像データの記録を終了するかを判定し(S004)、記録を終了しない場合には、iをインクリメントした上で(S005)、ステップS006に移行する。ステップS006では、現時点のフレーム番号#iのiがNより大きいかを判定する。ここで、Nは2以上の自然数であり、任意の値に設定することができる。iがNより大きい場合には、次のステップS007に移行する。他方、iがN以下である場合には、ステップS003に戻り、再び、#iのフレームに対して認識工程、検索工程及び記録工程を実行する。
 ステップS007では、ステップS003と同じ要領で、#iのフレームに対して認識工程を実行する。その後、#iのフレームを第1フレームとし、#iよりも前のフレームを第2フレームとして第1判定工程を実行する(S008)。第1判定工程では、第1フレームに対して実行された認識工程の結果と、第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、ステップS008では、第1フレーム内の被写体と、第2フレーム内の被写体との類似度合いを判定する。
 なお、第1フレーム及び第2フレームに対する認識工程にて複数の被写体が認識される場合がある。この場合、第1判定工程では、認識された複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。
 また、第1判定工程では、上記の類似度合いが第1制限条件を満たしているかを判定する(S009)。上記の類似度合いが第1制限条件を満たす場合、記録指示の入力がない限り、#iのフレーム(第1フレーム)に対する検索工程の実行が制限され、詳しくは、#iのフレームに対して検索工程が実行されない。
 他方、上記の類似度合いが第1制限条件を満たしていない(具体的には、所定のレベルに達していない)場合、ステップS003と同じ要領で、#iのフレームに対して検索工程を実行する(S010)。
 なお、#iのフレームについて被写体又は画角のブレが検出された場合、ステップS010、及びそれ以降のステップが省略される。
 また、ステップS010において検索工程を実行した場合には、その直後における検索工程の実行レートを、通常のレート(初期のレート)に戻すのがよい。
 ステップS010の実行後には、#iのフレームを第1フレームとし、#iよりも前のフレーム(厳密には、#iのフレームより前に検索工程が実行されたフレーム)を第2フレームとして、第2判定工程を実行する(S011)。第2判定工程では、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。
 なお、第1フレーム及び第2フレームの各々に対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索される場合がある。この場合、第2判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで、類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。
 また、第2判定工程では、上記の類似度合いが第2制限条件を満たしているかを判定する(S012)。上記の類似度合いが第2制限条件を満たしていない(具体的には、所定のレベルに達していない)場合、#iのフレームに対して記録工程を実行する(S013)。本ステップS013では、ステップS010で検索された項目を、付帯情報として#iのフレームに記録する。
 他方、上記の類似度合いが第2制限条件を満たす場合には、#iのフレーム(第1フレーム)に対する記録工程の実行が制限され、詳しくは、#iのフレームに対して記録工程が実行されない。
 また、記録フロー中、付帯情報の記録指示に関するユーザの入力が有った場合には(S014)、プロセッサ11が、その入力を受け付ける受付け工程を実行する。その後、プロセッサ11は、#iのフレームが記録指示の入力に対応する入力フレーム、あるいは入力フレームの前又は後にある補完フレームに該当するかを判定する(S015)。
 そして、#iのフレームが入力フレーム又は補完フレームに該当する場合には、#iのフレームに対して検索工程及び記録工程を実行する(S016)。
 なお、#iのフレームが入力フレームに該当する場合の記録工程では、上記の記録指示に関する情報(例えば、記録指示の入力があった旨の情報、又はそれに対応する識別情報)が付帯情報として記録される。これにより、ユーザが記録指示の入力を行ったことを示す情報を、付帯情報として入力フレームに記録することができる。この結果、ユーザがどのようなフレームに対して記録指示を行ったのかを特定することができる。さらに、記録指示がなされるフレームに関する傾向を、上記の付帯情報が記録されたフレームに基づく機械学習等によって把握することができる。
 上述した一連の工程、特に、S005以降のステップは、動画像データの記録が終了するまで繰り返し実行される。そして、動画像データの記録が終了した時点で、記録フローが終了する。
 以上までに説明してきたように、本発明の一つの実施形態に係る記録フローでは、第1フレームに対して実行された認識工程の結果と、第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、第1フレーム内の被写体と第2フレーム内の被写体との類似度合い(換言すると、フレーム間の類似度)を判定する。
 そして、上記の類似度合いが第1制限条件を満たす場合、つまり、第1フレームと第2フレームとが類似する場合、第1フレームに対する検索工程の実行が制限される。詳しくは、第1フレームに対して検索工程が実行されない。つまり、上記の場合には、第1フレーム及び第2フレームに対する検索工程の結果が類似する可能性が高く、効率化の観点から、第1フレームに対する検索工程を制限する。
 以上の結果、動画像データを構成するフレームの数(第1数N1)よりも、検索工程が実行されるフレームの数(第2数N2)が小さくなる。すなわち、図18に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。これにより、検索工程の実行に係る負荷を軽減することができ、つまり、検索工程をより効率的に実行することができる。
 また、本発明の一つの実施形態に係る記録フローでは、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。つまり、第1フレーム内の被写体に対して検索された付帯情報(項目)と、第2フレーム内の被写体に対して検索された付帯情報(項目)との類似度合いを判定する。
 そして、上記の類似度合いが第2制限条件を満たす場合、つまり、第1フレームと第2フレームとの間で付帯情報(項目)の検索結果が類似する場合、第1フレームに対する記録工程の実行が制限される。詳しくは、第1フレームに対して記録工程が実行されない。つまり、上記の場合には、第1フレーム及び第2フレームに対して記録される付帯情報が類似する可能性が高く、効率化の観点から、第1フレームに対する記録工程を制限する。
 以上の結果、検索工程が実行されるフレームの数(第2数N2)よりも、記録工程が実行されるフレームの数(第3数N3)が小さくなる。すなわち、図18に示すように、記録工程の実行レートが、動画像データ記録時のフレームレート、及び検索工程の実行レートより小さくなる。これにより、記録工程の実行に係る負荷を軽減することができ、つまり、記録工程をより効率的に実行することができる。また、第1フレームに対する記録工程の実行が制限されることで、その分、付帯情報を記録するためのデータ容量を小さくすることができる。
 また、本発明の一つの実施形態では、付帯情報の記録指示に関するユーザの入力を受け付ける。また、その入力に対応するフレーム(入力フレーム)に対して検索工程及び記録工程が実行される。これにより、入力フレームとその直前のフレーム内との間でフレーム内の被写体が類似している場合であっても、入力フレームに対して付帯情報を記録することができる。このようにユーザの意思を反映して決められるフレーム(入力フレーム)に付帯情報を記録できるので、ユーザにとって、付帯情報の記録に関する利便性が向上する。
 また、本発明の一つの実施形態では、入力フレームに加え、入力フレームの前又は後の補完フレームに対しても検索工程及び記録工程が実行される。これにより、ユーザにとっての利便性がより一層向上する。つまり、ユーザが付帯情報の記録指示を希望する本来の時点と、記録指示の入力が実際に行われるタイミングとの間にずれ(タイムラグ)が生じ得る。このような場合であっても、補完フレームに対して記録工程が実行されることで、ユーザにとって所望の時点(記録指示を希望する時点)のフレームに対して付帯情報を記録することができる。
 本発明の一つの実施形態では、類似するフレームに記録された付帯情報を用いて、非対象フレームに対して補完情報を記録する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。
 <<その他の実施形態>>
 以上までに説明してきた実施形態は、本発明の記録方法、記録装置、及びプログラムを分かり易く説明するための具体例であり、あくまでも一例に過ぎず、その他の実施形態も考えられ得る。
 (検索工程の実行について)
 上記の実施形態において、動画像データの記録開始当初には、それぞれのフレームに対して検索工程を実行し、換言すると、検索工程の実行レートが動画像データ記録時のフレームレートと同じであることとした(図18参照)。ただし、これに限定されず、図19に示すように、動画像データの記録開始当初から、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくてもよい。
 (検索工程の実行制限について)
 上記の実施形態では、検索工程の実行を制限する態様として、検索工程を実行しないことを説明した。ただし、上記の態様に限定されず、検索工程の実行を制限する態様としては、例えば、フレーム内の一部の被写体に対する検索工程を中断すること、あるいは、検索項目における項目数を減らす等して検索工程を簡素化すること等でもよい。また、過去に検索工程が実行されたフレームに対する検索結果を流用することも、検索工程の実行を制限する一つの態様に該当し得る。なお、過去の検索結果を流用したフレームに対しては、検索結果の流用を示す付帯情報が記録されるとよい。
 (記録工程の実行制限について)
 上記の実施形態では、記録工程の実行を制限する態様として、記録工程を実行しないことを説明した。ただし、上記の態様に限定されず、記録工程の実行を制限する態様としては、例えば、検索された付帯情報の一部の記録を中断すること、あるいは、記録する付帯情報の数(詳しくは項目数)を減らすこと等でもよい。
 (フレーム間の類似度合いの判定について)
 上記の実施形態では、第1フレームと第2フレームとの間の類似度合いを、各フレーム内の被写体に基づいて判定したが、その際に、被写体以外の内容を考慮してもよい。具体的には、動画像データ記録中の各時点における撮影機器の向き、被写体の動き、及び被写体が発する音声等を加味して、フレーム間の類似度合いを判定してもよい。そして、これらの内容に基づき、第1フレームと第2フレームとが互いに相違すると判定された場合には、検索工程の実行レートを、それまでのレートよりも大きくするとよい。
 (本発明の記録装置を構成する装置・機器について)
 上記の実施形態では、動画の撮影機器(つまり、動画像データを記録する機器)が本発明の記録装置を構成することとした。ただし、これに限定されず、撮影機器とは別の機器、例えば、動画の撮影後に動画像データを撮影機器から取得してデータ編集を行う編集機器が本発明の記録装置を構成してもよい。
 (認識工程、検索工程及び記録工程の実行時期について)
 上記の実施形態では、動画像データを記録しながら、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行することとした。この場合、過去のフレームを第2フレームとし、第2フレームよりも後のフレーム(例えば、現時点のフレーム)を第1フレームとし、第1フレームと第2フレームとの間で類似度合いを判定することになる。そして、類似度合いが第1制限条件又は第2制限条件を満たす場合には、第1フレームに対する検索工程又は記録工程の実行が制限される。
 ただし、これに限定されるものではなく、動画像データの記録が終了した後に、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行してもよい。その場合には、動画像データ中の最終フレームから順に認識工程、検索工程及び記録工程を実行してもよい。換言すると、第1フレームを第2フレームよりも前のフレームに設定して、フレーム間の類似度合いを判定し、また、各制限条件の成否を判定してもよい。
 (付帯情報が保存されるデータの変形例)
 上記の実施形態では、フレームに対する付帯情報が動画像データの一部(詳しくは、フレームのデータ構造におけるボックス領域)に保存されることとした。ただし、これに限定されず、図20に示すように、付帯情報が動画像データとは異なるデータファイルに保存されてもよい。この場合、付帯情報が保存されるデータファイル(以下、付帯情報ファイルDF)は、その付帯情報が付加されたフレームを含む動画像データMDと紐付けられ、具体的には、その動画像データの識別IDを含んでいる。また、付帯情報ファイルDFには、図20に示すように、付帯情報が記録されたフレームの番号と、そのフレーム内の被写体に関する付帯情報がフレーム毎に記憶されている。
 以上のように付帯情報を動画像データとは別のデータファイルに保存することにより、動画像データの容量の増加を抑えつつ、動画像データ中のフレームに対する付帯情報を適切に記録することができる。
 なお、上記の付帯情報ファイルDFに付帯情報をフレーム毎に記録する態様には、動画像データを構成する複数のフレーム中、付帯情報が記載されていないフレームが存在する態様が含まれてもよい。
 (プロセッサの構成について)
 本発明の記録装置が備えるプロセッサには、各種のプロセッサが含まれる。各種のプロセッサには、例えば、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUが含まれる。
 また、各種のプロセッサには、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるPLD(Programmable Logic Device)が含まれる。
 さらに、各種のプロセッサには、ASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 また、本発明の記録装置が有する1つの機能部を、上述した各種のプロセッサのうちの1つによって構成してもよい。あるいは、本発明の記録装置が有する1つの機能部を、同種又は異種の2つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、若しくは、FPGA及びCPUの組み合わせ等によって構成してもよい。
 また、本発明の記録装置が有する複数の機能部を、各種のプロセッサのうちの1つによって構成してもよいし、複数の機能部のうちの2以上をまとめて1つのプロセッサによって構成してもよい。
 また、上述の実施形態のように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の機能部として機能する形態でもよい。
 また、例えば、SoC(System on Chip)等に代表されるように、本発明の記録装置における複数の機能部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態でもよい。また、上述した各種のプロセッサのハードウェア的な構成は、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)でもよい。
 10 記録装置
 11 プロセッサ
 12 メモリ
 13 入力機器
 14 出力機器
 15 ストレージ
 21 取得部
 22 入力受付部
 23 検出部
 24 認識部
 25 第1判定部
 26 検索部
 27 第2判定部
 28 記録部
 29 補完部
 DF 付帯情報ファイル
 MD 動画像データ

Claims (13)

  1.  複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、
     前記フレーム内の被写体を、前記フレーム毎に認識する認識工程と、
     前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索工程と、
     前記検索工程の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録工程と、を備え、
     前記動画像データを構成する前記フレームの数を第1数とし、前記検索工程が実行される前記フレームの数を第2数とした場合に、前記第2数が前記第1数より小さい、記録方法。
  2.  前記検索工程は、被写体又は画角のブレが検出された前記フレームに対して実行されない、請求項1に記載の記録方法。
  3.  前記複数のフレームのうち、第1フレームに対して実行された前記認識工程の結果と、前記第1フレームと異なる第2フレームに対して実行された前記認識工程の結果と、の類似度合いを判定する第1判定工程をさらに備え、
     前記第1判定工程にて判定された前記類似度合いが、前記検索工程の実行に関する第1制限条件を満たす場合に、前記第1フレームに対する前記検索工程の実行が制限される、請求項1又は2に記載の記録方法。
  4.  前記第1フレーム及び前記第2フレームに対して、前記認識工程で複数の被写体が認識された場合、前記第1判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項3に記載の記録方法。
  5.  前記記録工程にて前記付帯情報が記録されるフレームの数を第3数とした場合に、前記第3数が前記第2数より小さい、請求項1に記載の記録方法。
  6.  前記複数のフレームのうち、第1フレームに対して実行された前記検索工程の結果と、前記第1フレームと異なる第2フレームに対して実行された前記検索工程の結果と、の類似度合いを判定する第2判定工程をさらに備え、
     前記第2判定工程にて判定された前記類似度合いが、前記記録工程の実行に関する第2制限条件を満たす場合に、前記第1フレームに対する前記記録工程の実行が制限される、請求項5に記載の記録方法。
  7.  前記第1フレーム及び前記第2フレームに対する前記検索工程において、複数の被写体に対して、記録可能な前記付帯情報が検索された場合、前記第2判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項6に記載の記録方法。
  8.  前記付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備え、
     前記複数のフレームのうち、前記ユーザの入力に対応する入力フレームに対して、前記記録工程が実行されて前記付帯情報が記録される、請求項1に記載の記録方法。
  9.  前記入力フレームに対する前記記録工程では、前記記録指示に関する情報が前記付帯情報として記録される、請求項8に記載の記録方法。
  10.  前記複数のフレームのうち、前記入力フレーム、及び、前記入力フレームの前又は後の補完フレームに対して前記記録工程が実行されて前記付帯情報が記録される、請求項8に記載の記録方法。
  11.  前記付帯情報は、前記動画像データとは異なるデータファイルに保存される、請求項1に記載の記録方法。
  12.  プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置であって、
     前記プロセッサが、
     前記フレーム内の被写体を、前記フレーム毎に認識する認識処理と、
     前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索処理と、
     前記検索処理の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録処理と、を実行し、
     前記動画像データを構成する前記フレームの数を第1数とし、前記検索処理が実行される前記フレームの数を第2数とした場合に、前記第2数が前記第1数より小さい、記録装置。
  13.  請求項1に記載された記録方法に含まれる前記認識工程、前記検索工程及び前記記録工程のそれぞれを、コンピュータに実施させるためのプログラム。
PCT/JP2022/046895 2022-03-30 2022-12-20 記録方法、記録装置、及びプログラム WO2023188606A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-056153 2022-03-30
JP2022056153 2022-03-30

Publications (1)

Publication Number Publication Date
WO2023188606A1 true WO2023188606A1 (ja) 2023-10-05

Family

ID=88200046

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/046895 WO2023188606A1 (ja) 2022-03-30 2022-12-20 記録方法、記録装置、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023188606A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234228A (ja) * 2003-01-29 2004-08-19 Seiko Epson Corp 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
JP2009271752A (ja) * 2008-05-08 2009-11-19 Fujifilm Corp キーワード設定方法、プログラムおよび装置
JP2013242640A (ja) * 2012-05-18 2013-12-05 Olympus Corp 画像検索装置及びその方法、画像検索プログラム
JP2017204692A (ja) * 2016-05-10 2017-11-16 キヤノン株式会社 撮像装置、遠隔制御装置、制御方法及びプログラム並びに記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234228A (ja) * 2003-01-29 2004-08-19 Seiko Epson Corp 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
JP2009271752A (ja) * 2008-05-08 2009-11-19 Fujifilm Corp キーワード設定方法、プログラムおよび装置
JP2013242640A (ja) * 2012-05-18 2013-12-05 Olympus Corp 画像検索装置及びその方法、画像検索プログラム
JP2017204692A (ja) * 2016-05-10 2017-11-16 キヤノン株式会社 撮像装置、遠隔制御装置、制御方法及びプログラム並びに記憶媒体

Similar Documents

Publication Publication Date Title
CN110532871B (zh) 图像处理的方法和装置
WO2020192483A1 (zh) 图像显示方法和设备
WO2021043273A1 (zh) 图像增强方法和装置
US11276177B1 (en) Segmentation for image effects
KR20230013243A (ko) 프레임에서 타겟 오브젝트를 위한 고정된 크기 유지
CN112446380A (zh) 图像处理方法和装置
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN109565551A (zh) 对齐于参考帧合成图像
WO2023024697A1 (zh) 图像拼接方法和电子设备
WO2023011013A1 (zh) 视频图像的拼缝搜索方法、视频图像的拼接方法和装置
KR102262671B1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
US11385526B2 (en) Method of processing image based on artificial intelligence and image processing device performing the same
CN111147751B (zh) 拍照模式的生成方法、装置和计算机可读存储介质
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
WO2021045599A1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
US20190304152A1 (en) Method and device for processing image
WO2023188606A1 (ja) 記録方法、記録装置、及びプログラム
WO2023188652A1 (ja) 記録方法、記録装置、及びプログラム
WO2021190412A1 (zh) 一种生成视频缩略图的方法、装置和电子设备
Allaert et al. Optical Flow Techniques for Facial Expression Analysis--a Practical Evaluation Study
CN114693986A (zh) 主动学习模型的训练方法、图像处理方法及装置
JP2019071047A (ja) ビデオシーケンスのフレームを選択する方法、システム、及び、装置
US12039440B2 (en) Image classification method and apparatus, and image classification model training method and apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935733

Country of ref document: EP

Kind code of ref document: A1