WO2023149135A1 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
WO2023149135A1
WO2023149135A1 PCT/JP2022/047854 JP2022047854W WO2023149135A1 WO 2023149135 A1 WO2023149135 A1 WO 2023149135A1 JP 2022047854 W JP2022047854 W JP 2022047854W WO 2023149135 A1 WO2023149135 A1 WO 2023149135A1
Authority
WO
WIPO (PCT)
Prior art keywords
fluctuation
image content
degree
image
content
Prior art date
Application number
PCT/JP2022/047854
Other languages
English (en)
French (fr)
Inventor
晃彦 佐藤
卓摩 ▲柳▼澤
空也 西住
茂夫 網代
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2023149135A1 publication Critical patent/WO2023149135A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/80Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present invention relates to an image processing device, an image processing method and a program.
  • the act of photographing has the aspect of "recording” the photographed subject as image content and the aspect of "expressing” what the photographer wants to convey through the image content.
  • the action of photography emphasizes "expression” through image content, it is particularly important that the intention of the photographer (hereinafter also referred to as content acquisition intention) is reflected on the content.
  • content acquisition intention the intention of the photographer
  • the expressions and movements of the subjects, the positional relationships between the subjects, etc. often do not match the photographer's intentions. I had to wait until it was, and always concentrate so as not to miss a shot.
  • Japanese Patent Laid-Open No. 2002-200003 proposes a technique of generating aggregated content for providing a rich retrospective experience including an atmosphere, using photographed images or video content. Also, as a technique for generating non-existent image content, a technique using a deep neural network model using a generative adversarial network (GAN) has been proposed.
  • Patent Literature 2 proposes a technique of generating an image in which the line of sight or the orientation of the face is changed using a trained GAN model.
  • the technique proposed in Patent Document 2 is a technique for generating an image in which the line of sight or the direction of the face is changed, and does not consider generating content that reflects the content acquisition intention of the image content.
  • the present invention has been made in view of the above problems, and its object is to realize a technique that can obtain image content that more appropriately reflects the content acquisition intention.
  • the image processing device of the present invention has the following configuration. That is, content acquisition means for acquiring a first image content, and among the elements constituting an image, an element having a fluctuation that is a variation in state is taken as a fluctuation element, and the degree of fluctuation of the fluctuation element of the first image content is acquired.
  • FIG. 1 is a block diagram showing a functional configuration example of an image processing apparatus according to an embodiment
  • FIG. 1 is a block diagram showing a hardware configuration example of an image processing apparatus according to an embodiment
  • FIG. 4 is a diagram for explaining fluctuations of elements constituting image content according to the embodiment
  • 4 is a flow chart showing the operation of the fluctuation model learning process according to the embodiment
  • 4 is a flowchart showing the operation of image content generation processing (reconstruction processing) according to the embodiment
  • FIG. 1 is a diagram (1) for explaining an example of image content fluctuation rule generation according to an embodiment
  • FIG. 2 illustrates an example of image content fluctuation rule generation according to the embodiment (2)
  • FIG. 3 is a diagram (3) for explaining an example of image content fluctuation rule generation according to the embodiment
  • FIG. 4 is a diagram (4) for explaining an example of image content fluctuation rule generation according to the embodiment
  • FIG. 4 is a diagram showing an example of image content generation according to the embodiment
  • an example using a digital camera capable of generating image content will be described below as an example of an image processing device.
  • the present embodiment is applicable not only to digital cameras but also to other devices capable of generating image content.
  • These devices may include, for example, mobile phones including smartphones, game machines, personal computers, tablet terminals, other wearable information terminals, server devices, and the like.
  • FIG. 1A is a diagram showing an example functional configuration of a digital camera 100 as an example of an image processing apparatus that generates image content according to an embodiment.
  • An example of the hardware configuration of the digital camera will be described later with reference to FIG. 1B.
  • part or all of the functional configuration example shown in FIG. 1A may be realized, for example, by the CPU 122 or GPU 126 of the digital camera 100, which will be described later, executing a computer program.
  • the digital camera 100 includes, for example, an image content acquisition unit 101, a fluctuation element extraction unit 102, a fluctuation model generation unit 103, a fluctuation model database 104, and a content intention acquisition unit 105.
  • Digital camera 100 further includes fluctuation rule determination unit 106 , image content reconstruction unit 107 , display unit 108 , and user instruction acquisition unit 109 .
  • the image content acquisition unit 101 performs image content acquisition processing.
  • the image content acquisition unit 101 may acquire not only the image content, but also the meta information for the image content.
  • the meta information for the image content includes, for example, date and time information when the image content was acquired and acquisition position information.
  • the image content acquisition unit 101 controls acquisition of image content by the imaging device 129, which will be described later, and outputs the acquired image content to the fluctuation element extraction unit 102 and the image content reconstruction unit 107, which will be described later.
  • the image content acquisition unit 101 may perform image processing such as arbitrary trimming or resizing on the image content according to the output destination, normalize the image content, and then output the normalized image content.
  • FIG. 2 shows the “fluctuations” of the elements that make up the image content.
  • the horizontal axis represents the time axis
  • the vertical axis represents the degree of each element.
  • Reference numerals 201, 202, and 203 in the figure indicate changes on the time axis of the elements that make up the image content.
  • 201 indicates the change on the time axis of the "degree of smile” of the "expression” of the main subject.
  • Reference numeral 202 indicates changes in the "composition position" on the time axis, and 203 indicates changes in the "cloudy amount” of the "weather” on the time axis.
  • fluctuations in the states of the elements that make up an image are referred to as “fluctuations.”
  • variation (change) in the state of an element such as the degree of smile will be described as “fluctuation.”
  • An element having "fluctuation” is called a “fluctuation element”.
  • the fluctuation factor is measurable in degree of state variability from the image content.
  • the intention of the photographer when photographing an image is that the "smile level" is high, that the subject is reflected on the left side as the "composition position", or A case in which the "amount of clouds" is either small will be described as an example.
  • the timing when the fluctuation of the fluctuation element is the highest is the timing when the "smile level” is 204, the timing when the "composition position” is 205, and the timing when the "amount of clouds” is 206.
  • the image contents acquired at timings 204, 205, and 206 become contents 207, 208, and 209, respectively.
  • the fluctuation element extraction unit 102 extracts fluctuation elements included in image content. For example, in an example where a person's facial expression is used as a fluctuation element, the fluctuation element extraction unit 102 executes detection of the person's face in the image content to extract the fluctuation element. The fluctuation element extraction unit 102 further performs fluctuation degree acquisition processing for a person's facial expression when a person's face is detected. For example, the fluctuation element extraction unit 102 digitizes the degree of smile, the degree of emotion, the degree of opening of the eyes, the degree of opening of the mouth, etc. by obtaining the degree. When acquiring the degree of fluctuation, the degree of fluctuation may be calculated from the image content, or the degree of fluctuation corresponding to the image content may be acquired via the network.
  • fluctuation elements may include, for example, the posture of a person in the image content, the composition of the image content, the lighting in the image content, the weather in the image content, or the clothing of the subject in the image content.
  • the degree of fluctuation may be obtained from at least one of the orientation of the face, the orientation of the body, and the amount of blurring in the movement of the person.
  • the composition of the image content for example, the degree of fluctuation may be obtained from at least one of the positional relationship between the subjects, the distance between the subjects, and the like.
  • the degree of fluctuation may be obtained from, for example, the position of the light source.
  • the degree of fluctuation may be obtained from at least one of weather, amount of clouds, and the like.
  • the degree of fluctuation may be obtained from at least one of the clothing type, color, and the like.
  • Fluctuation element extraction section 102 outputs the calculated degree of fluctuation element to fluctuation rule determination section 106 together with the image content.
  • the fluctuation element extraction unit 102 also outputs the image content and the degree of fluctuation of the fluctuation element to the fluctuation model generation unit 103 as learning data for a fluctuation model, which will be described later.
  • the fluctuation model generation unit 103 uses the image content obtained from the fluctuation element extraction unit 102 and the degree of fluctuation of the extracted fluctuation element to perform processing for learning a learning model (hereinafter referred to as a fluctuation model) for each fluctuation element. .
  • a fluctuation model is generated for each fluctuation element and trained to produce image content corresponding to a specified degree of fluctuation. For example, a fluctuation model whose fluctuation element is a person's facial expression is trained to generate image content with a specified facial expression. Even for the same fluctuation element, a plurality of fluctuation models may be generated for each period such as one month, for each region where the user has stayed, or according to instructions from the user.
  • the fluctuation model may consist of a known machine learning algorithm capable of generating images, such as GAN (Generative Adversarial Network).
  • GAN Generic Adversarial Network
  • a GAN consists of two neural networks: a generator that generates image content and a discriminator that identifies whether the image content generated by the generator is a genuine image or not.
  • the generator minimizes the loss function and the discriminator maximizes, respectively. Iteratively update the neural network of This ensures that the image content generated by the generator produces natural images.
  • the configuration of the neural network in the GAN and the learning algorithm since well-known techniques are applied, the description in this embodiment is omitted.
  • the data used for learning are stored in the fluctuation model database 104 in association with the learned fluctuation model.
  • the image content included in the learning data and the degree of the fluctuation element of the image content are stored in the fluctuation model database 104 in association with the information indicating the fluctuation element (corresponding to the model).
  • the fluctuation model database 104 is stored in the HDD 125, which will be described later, and stores the fluctuation model for each fluctuation element generated by the fluctuation model generation unit 103 and the data used for learning.
  • the case where the fluctuation model generation unit 103 and the fluctuation model database 104 are included in the digital camera 100 will be described as an example.
  • a configuration may be adopted in which a communication unit is provided within the digital camera 100, and the fluctuation model generation unit 103 and the fluctuation model database 104 are arranged on an external server or cloud.
  • the fluctuation model generator 103 and the fluctuation model database 104 may be arranged in both the digital camera 100 and the external server, and these may be selectively used depending on the application and purpose.
  • the external server may store a fluctuation model generation unit that is used infrequently, a fluctuation model during learning, and learning data.
  • the update history of the fluctuation model may also be managed on the external server or cloud service side.
  • the content intention acquisition unit 105 acquires the content acquisition intention that the photographer wants to express in the image content that has been input, and outputs a content acquisition intention identifier indicating the content acquisition intention to the fluctuation rule determination unit 106 .
  • the relationship between the fluctuation element included in the image content and the content acquisition intent identifier is determined in advance, and the fluctuation element included in the acquired image content is converted into the content acquisition intent identifier.
  • the content intention acquisition unit 105 can acquire the content acquisition intention identifier based on the image information of the image content. Identifiers of content acquisition intentions include, for example, keywords such as "fun” and "commemorative photo", which are used for tagging with general image content.
  • the content intent acquisition unit 105 may receive an instruction or selection of a content acquisition intent identifier from the user.
  • the content intention acquisition unit 105 may estimate the information of the content acquisition intention identifier from the user action history such as the operation history for acquiring the image content and the number of photographing attempts.
  • the content intention acquisition unit 105 may further use sound information to output a content acquisition intention identifier.
  • the content intention acquisition unit 105 can convert the sound information of the shooting space including the voice of the photographer into a content acquisition intent identifier by using the surrounding sound information at the time of content acquisition.
  • the fluctuation rule determination unit 106 uses the identifier of the content acquisition intention described above for the fluctuation element of the image content to be reconstructed and the degree thereof to determine the fluctuation degree change amount (hereinafter referred to as fluctuation rule) for each fluctuation element. calculate.
  • the fluctuation rule determining unit 106 also designates a fluctuation model used in the image content reconstruction unit 107, which will be described later. Details of the processing by the fluctuation rule determination unit 106 will be described later.
  • the image content reconstruction unit 107 reads the fluctuation model from the fluctuation model database 104 according to the rule (fluctuation degree change amount of the fluctuation element) determined by the fluctuation rule determination unit 106 . Then, the image content reconstruction unit 107 reconstructs the image content by inputting the image content to be reconstructed and the parameters for reconstruction to the fluctuation model. Details of image content reconstruction will be described later. Image content reconstruction unit 107 outputs the reconstructed image content to display unit 108 .
  • the display unit 108 causes the display device 128 to display various image contents.
  • the display unit 108 causes the display device 128 to display at least the image content acquired by the image content acquisition unit 101 or the image content reconstructed by the image content reconstruction unit 107 .
  • the user instruction acquisition unit 109 accepts various instructions regarding reconstruction of image content from the user via the input device 127, and prompts each processing unit of the digital camera 100 to perform predetermined processing.
  • the user instruction acquisition unit 109 receives an image content acquisition instruction or a reconstruction instruction from the user.
  • specification of parameters required for image content reconstruction such as content acquisition intent identifiers and fluctuation models, may be accepted.
  • the digital camera 100 includes, for example, a system bus 121, a CPU 122, a ROM 123, a RAM 124, an HDD 125, a GPU 126, an input device 127, a display device 128, and an imaging device 129. Each unit of the digital camera 100 is connected to the system bus 121 .
  • the CPU 122 is an arithmetic circuit such as a CPU (Central Processing Unit), and realizes each function of the digital camera 100 by developing a computer program stored in the ROM 123 or HDD 125 into the RAM 124 and executing it.
  • the ROM 123 includes a non-volatile storage medium such as a semiconductor memory, and stores programs executed by the CPU 122 and necessary data.
  • the RAM 124 includes a volatile storage medium such as a semiconductor memory, and temporarily stores calculation results of the CPU 122, for example.
  • the HDD 125 includes a hard disk drive, and stores, for example, computer programs executed by the CPU 122, processing results thereof, and the like.
  • a GPU (Graphics Processing Unit) 126 includes an arithmetic circuit, and can execute, for example, part or all of learning stage processing and inference stage processing of a learning model. Since a GPU can process more data in parallel than a CPU, it is effective to use a GPU for deep learning processing that performs repetitive calculations using a neural network as described above.
  • the input device 127 includes operation members such as buttons and a touch panel that receive operation inputs to the digital camera 100 .
  • Display device 128 includes a display panel, such as an OLED.
  • the imaging device 129 includes, for example, an optical system unit such as a lens, an aperture, and a shutter, and an imaging device such as a CMOS sensor.
  • the optical system unit may have a configuration including a compound eye lens or a multi-eye lens.
  • the optical unit may also be capable of changing optical properties such as zoom and aperture (eg depending on the image content to be acquired).
  • the image content acquisition unit 101 acquires image content for learning via the imaging device 129 .
  • the acquired learning image content is still image data.
  • the image content acquisition unit 101 may cut out still image data from moving image content.
  • Image content acquisition section 101 outputs the acquired still image data to fluctuation element extraction section 102 .
  • the image content to be acquired is not limited to that output from the imaging device 129, and image content that has been acquired in advance and stored in the HDD 125 may be used.
  • Image content for training may be limited to image content acquired at a specific time period or at a specific location.
  • the image content for learning may be image content acquired between a predetermined start instruction and an end instruction by the user as a shooting period or a learning data collection period.
  • the training image content may be obtained according to the image content to be reconstructed.
  • the image content for learning may be image content acquired during a predetermined period before and after the acquisition date and time of the image content to be reconstructed and processed.
  • the learning image content may be image content acquired in a predetermined range around the acquisition position of the image content to be reconstructed.
  • the fluctuation element extraction unit 102 extracts predetermined fluctuation elements from the input still image data, and calculates (acquires) the degree of fluctuation (score) for the extracted fluctuation elements.
  • the image content acquisition unit 101 normalizes the still image data in the region containing the extracted fluctuation element, and outputs the result together with fluctuation degree information (as fluctuation model learning data) to the fluctuation model generation unit 103 .
  • the extraction frequency of fluctuation elements may be determined for each fluctuation element.
  • the frequency of extraction may be high for elements that fluctuate rapidly, and the frequency of extraction for elements that fluctuate slowly may be low.
  • the fluctuation model generation unit 103 reads the fluctuation model information to be learned from the fluctuation model database 104, and performs machine learning processing of the fluctuation model using the input learning data.
  • the fluctuation model machine learning process is, for example, the above-described GAN learning stage process.
  • the fluctuation model generation unit 103 updates the fluctuation model information in the fluctuation model database 104 together with the data used for learning. If the fluctuation model to be learned does not exist in the fluctuation model database 104, the fluctuation model is newly added.
  • the fluctuation of the fluctuation element in the image content acquired by the user or obtained under the user's experience is used as learning data for each fluctuation element model.
  • a neural network of a GAN generator in which the fluctuation of the fluctuation element can be tuned (that is, an image can be generated according to the specified degree of fluctuation).
  • this processing can be implemented by the units shown in FIG. 1A, which are implemented by executing a computer program by the CPU 122 or GPU 126 of the digital camera 100, for example.
  • this processing is started in response to receiving an instruction from the user.
  • it is sufficient that one image content to be reconstructed is selected, and the timing of the instruction may be arbitrary.
  • the image content 208 in FIG. 2 is selected.
  • the image content acquisition unit 101 acquires image content to be reconstructed.
  • image content 208 is image content to be reconstructed will be described as an example.
  • the fluctuation element extraction unit 102 receives the image content to be reconstructed from the image content acquisition unit 101, extracts the fluctuation element included in the image content, and calculates (acquires) the degree of the fluctuation element. .
  • the operation of the fluctuation element extraction unit 102 is the same as that in the learning process.
  • the content intent acquisition unit 105 acquires an identifier of content acquisition intent from an arbitrary group of information attached to the image content. For example, identifiers of intent to acquire content such as "travel”, “commemorative photo”, and “fun” are acquired from a person, facial expression, and background object appearing in the image content 208, and associated with the image content.
  • the content intention acquisition unit 105 may acquire the content acquisition intention identifier based on additional information other than the image content. For example, if the digital camera 100 is equipped with voice recognition technology, the content intention acquisition unit 105 uses the result of voice recognition to acquire the content acquisition intent identifier. For example, the content intention acquisition unit 105 may be based on user utterance information recorded during a predetermined period before and after the image content is shot, or user utterance information input during a predetermined period after the image content is reproduced. to obtain the identifier of the content acquisition intent.
  • the keyword is associated with the image content as a content acquisition intent identifier.
  • the identifier of the content acquisition intention is predicted and calculated from the user's operation history information and action history information before and after the shooting action of the image content 208 selected in S401, text information entered by the user, etc. You may make it
  • the content intention acquisition unit 105 associates the content acquisition intention identifier with the image content 208 and outputs it to the fluctuation rule determination unit 106 .
  • the fluctuation rule determination unit 106 uses the image content to be reconstructed, the fluctuation element information associated with the image content, and the content acquisition intent identifier to generate control information for the image content reconstruction unit 107. Determine the rule of fluctuation that becomes.
  • FIGS. 5A to 5D show the relationship between the degree of fluctuation of fluctuation elements of image content to be reconstructed and various types of information.
  • the fluctuation rule determination unit 106 selects and reads fluctuation model information related to fluctuation elements of the image content 208 to be reconstructed from the fluctuation model database 104 .
  • the read fluctuation model information is information of a fluctuation model learned using learning data, and the learning data includes at least image content including fluctuation elements to be reconstructed.
  • the fluctuation rule determination unit 106 uses the read fluctuation model information and the related learning data group to calculate information on the fluctuation range that can be reconstructed in the fluctuation model.
  • FIG. 5A shows a distribution example of learning data for a fluctuation model related to a smile.
  • learning is performed so that an image of the degree of fluctuation included in the learning data can be generated. Therefore, from the distribution of the degree of smile in the learning data shown in FIG. 5A, it can be understood that the fluctuation range of the image content that can be reconstructed by specifying the degree of the fluctuation element is in the range of degrees 1 to 6.
  • the fluctuation rule determining unit 106 calculates a recommended value for the degree of fluctuation of the post-reconstruction fluctuation element from the content acquisition intent identifier.
  • the digital camera 100 stores information in which the aforementioned content acquisition intent identifier and the ideal degree of fluctuation of the fluctuation element are associated with each other in advance as conversion table information between the intention and the ideal degree of fluctuation. hold as The fluctuation rule determining unit 106 calculates the degree of fluctuation of the post-reconstruction fluctuation element by referring to the conversion table information.
  • the conversion table for the content acquisition intent identifier "fun” is associated with fluctuation elements of "expression” and "composition", as shown in FIG. 5B.
  • the ideal degree of fluctuation of the fluctuation element of "facial expression” is associated with a degree of 7, which is the maximum degree of smile in "facial expression”.
  • the fluctuation rule determination unit 106 determines the fluctuation model to be used and calculates parameters to be set in the determined fluctuation model.
  • the parameters to be set are calculated so as to fall within the aforementioned reconfigurable fluctuation range and approach the ideal degree of fluctuation of the fluctuation element due to the content acquisition intention. For example, first, the fluctuation rule determination unit 106 determines whether the ideal degree of fluctuation corresponding to the shooting intention corresponds to the degree of fluctuation that can be set for reconstruction (in the above example, the degree is from 1 to 6). or not). If the ideal degree of fluctuation corresponds to the degree of fluctuation that can be set for reconstruction, the fluctuation rule determination unit 106 sets the ideal degree of fluctuation as the degree to be set for reconstruction.
  • the fluctuation rule determining unit 106 determines the degree that is closest to the ideal degree among the degrees of fluctuation that can be set for reconstruction.
  • the degree to be set for reconstruction That is, the post-adjustment degree adjusted according to the ideal degree of fluctuation is set for reconstruction.
  • the parameters set for the fluctuation model of the fluctuation element “facial expression” have an ideal degree of fluctuation of 7, while the upper limit of the reconfigurable range of the fluctuation model is The degree is 6. Therefore, the value to be set is degree 6.
  • the fluctuation rule determination unit 106 determines the order of reconstruction processing using a plurality of fluctuation models.
  • the processing order of the fluctuation model here is arbitrary and may be determined by various factors.
  • fluctuation models with a large difference between the above-mentioned recommended value of the degree of fluctuation and the degree of fluctuation in the image content to be reconfigured are executed in descending order of fluctuation models with a small difference.
  • the reconstruction processing of the fluctuation model is performed in the order of the fluctuation model of "facial expression", then "amount of clouds", and finally "composition".
  • the fluctuation rule determination unit 106 thus outputs the fluctuation model information, the parameter information to be passed to the fluctuation model, and the reconstruction processing order information of the fluctuation model to the image content reconstruction unit 107 as fluctuation rules.
  • the image content reconstruction unit 107 uses the image content to be reconstructed and the fluctuation rule determined by the fluctuation rule determination unit 106 to execute reconstruction processing. For example, as a result of reconstruction processing, an image as shown in FIG. 6 is generated.
  • the reconstructed image shown in FIG. 6 maintains the atmosphere of the image content 208 to be reconstructed, does not change the "composition” significantly, and has a large degree of smiling in the "expression".
  • the degree of "cloud amount" is small new image content.
  • the generated image may prompt the user to confirm via the display unit 108 and receive feedback on the reconstruction process. For example, when the user gives an instruction to record the reconstructed image content, along with the recording process, positive feedback is given to the fluctuation model, otherwise negative feedback is given, and a new A reconstruction process may be performed.
  • the degree of fluctuation of the fluctuation element of the acquired image content and the information indicating the user's shooting intention are acquired, and the acquired image content is processed using a learned learning model. , to generate image contents with different degrees of fluctuation.
  • the learning model generates image content in which the degree of fluctuation obtained in the obtained image content is the degree corresponding to the information indicating the shooting intention. By doing so, it is possible to obtain image content that more appropriately reflects the content acquisition intention.
  • the present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
  • a circuit for example, ASIC
  • Image content acquisition unit 101 Image content acquisition unit 102. Fluctuation element extraction unit 103... Fluctuation model generation unit 105... Content intention acquisition unit 106... Fluctuation rule determination unit 107... Image content reconstruction unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)

Abstract

第1画像コンテンツを取得するコンテンツ取得手段と、画像を構成する要素のうち、状態のばらつきである揺らぎを持つ要素を揺らぎ要素として、第1画像コンテンツの揺らぎ要素の揺らぎ度合いを取得する度合い取得手段と、ユーザの撮影意図を示す情報を取得する意図取得手段と、学習済みの学習モデルを使用して、第1画像コンテンツから、画像コンテンツの揺らぎ要素の揺らぎ度合いが異なる第2画像コンテンツを生成する生成手段と、を有する。ここで、学習モデルは、第1画像コンテンツにおいて取得された揺らぎ度合いを、撮影意図を示す情報に対応する度合いとする第2画像コンテンツを生成する。

Description

画像処理装置、画像処理方法及びプログラム
 本発明は、画像処理装置、画像処理方法及びプログラムに関する。
 撮影行為には、撮影対象を画像コンテンツとして「記録」する側面と、撮影者が伝えたい事を、画像コンテンツを通じて「表現」する側面とがあることが知られている。撮影行為が画像コンテンツを通した「表現」を重視するものである場合、撮影者の意図した事(以下、コンテンツ取得意図ともいう)がコンテンツ上に反映されていることが特に重要である。一方、実際の撮影シーンでは、被写体の表情や動き、被写体同士の位置関係等が撮影者の意図に沿わない状態であることが多いため、撮影者は、被写体の状態がコンテンツ取得意図の通りになるまで待機し、撮り逃さないように常に集中する必要があった。
 他方、画像コンテンツを通じた「表現」を重視する場合、得られた画像コンテンツが、「撮影者が撮影行為で得た画像コンテンツ」である必然性は希薄化している。特許文献1では、撮影された画像又は映像コンテンツを用いて、雰囲気を含めたリッチな振り返り体験を提供するための集約コンテンツを生成する技術を提案している。また、実在しない画像コンテンツを生成する技術として、敵対的生成ネットワーク(GAN)を用いたディープニューラルネットワークのモデルを用いる技術が提案されている。特許文献2では、学習させたGANのモデルを用いて、視線または顔の向きを変換した画像を生成する技術を提案している。
特開2016-51270号公報 特開2019-148980号公報
 特許文献1で提案される技術では、元となる画像や映像コンテンツにコンテンツ取得意図が反映されていない場合、当該画像等を用いて生成される集約コンテンツにもコンテンツ取得意図を反映することができない。また、特許文献2で提案される技術は、視線または顔の向きを変換した画像を生成する技術であり、画像コンテンツのコンテンツ取得意図を反映したコンテンツを生成することは考慮していなかった。
 本発明は、上記課題に鑑みてなされ、その目的は、コンテンツ取得意図がより適切に反映された画像コンテンツを得ることが可能な技術を実現することである。
 この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、第1画像コンテンツを取得するコンテンツ取得手段と、画像を構成する要素のうち、状態のばらつきである揺らぎを持つ要素を揺らぎ要素として、前記第1画像コンテンツの揺らぎ要素の揺らぎ度合いを取得する度合い取得手段と、ユーザの撮影意図を示す情報を取得する意図取得手段と、学習済みの学習モデルを使用して、前記第1画像コンテンツから、画像コンテンツの揺らぎ要素の揺らぎ度合いが異なる第2画像コンテンツを生成する生成手段と、を有し、前記学習モデルは、前記第1画像コンテンツにおいて取得された揺らぎ度合いを、前記撮影意図を示す情報に対応する度合いとする前記第2画像コンテンツを生成する、ことを特徴とする。
 本発明によれば、コンテンツ取得意図がより適切に反映された画像コンテンツを得ることが可能になる。
 本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。
 添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る画像処理装置の機能構成例を示すブロック図 実施形態に係る画像処理装置のハードウェア構成例を示すブロック図 実施形態に係る画像コンテンツを構成する要素の揺らぎを説明する図 実施形態に係る揺らぎモデルの学習処理の動作を示すフローチャート 実施形態に係る画像コンテンツの生成処理(再構成処理)の動作を示すフローチャート 実施形態に係る画像コンテンツの揺らぎルール生成の一例を説明する図(1) 実施形態に係る画像コンテンツの揺らぎルール生成の一例を説明する図(2) 実施形態に係る画像コンテンツの揺らぎルール生成の一例を説明する図(3) 実施形態に係る画像コンテンツの揺らぎルール生成の一例を説明する図(4) 実施形態に係る画像コンテンツの生成例を示す図
 以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
 以下では画像処理装置の一例として、画像コンテンツを生成可能なデジタルカメラを用いる例を説明する。しかし、本実施形態は、デジタルカメラに限らず、画像コンテンツを生成することが可能な他の機器にも適用可能である。これらの機器には、例えばスマートフォンを含む携帯電話機、ゲーム機、パーソナルコンピュータ、タブレット端末、その他のウェアラブル情報端末、サーバ装置などが含まれてよい。
 <デジタルカメラの機能構成例>
 図1Aは、実施形態の画像コンテンツを生成する画像処理装置の一例としてのデジタルカメラ100の機能構成例を示す図である。デジタルカメラのハードウェア構成の例については、図1Bを参照して後述する。なお、図1Aに示す機能構成例の一部又は全部は、例えば、デジタルカメラ100の後述するCPU122或いはGPU126がコンピュータプログラムを実行することにより実現されてよい。
 デジタルカメラ100は、例えば、画像コンテンツ取得部101、揺らぎ要素抽出部102、揺らぎモデル生成部103、揺らぎモデルデータベース104、及びコンテンツ意図取得部105を含む。また、デジタルカメラ100は、更に、揺らぎルール決定部106、画像コンテンツ再構成部107、表示部108、及びユーザ指示取得部109を含む。
 まず、画像コンテンツ取得部101は、画像コンテンツの取得処理を行なう。本実施形態において、画像コンテンツ取得部101は、画像コンテンツの取得だけでなく、画像コンテンツに対するメタ情報も合わせて取得してもよい。画像コンテンツに対するメタ情報は、例えば、画像コンテンツを取得した日時情報、取得位置情報を含む。
 画像コンテンツ取得部101は、後述の撮像デバイス129による画像コンテンツの取得を制御し、取得した画像コンテンツを後述の揺らぎ要素抽出部102及び画像コンテンツ再構成部107へ出力する。画像コンテンツ取得部101は、出力先に合わせて任意のトリミングやリサイズ等の画像処理を画像コンテンツに施して正規化した上で出力してもよい。
 ここで、図2を参照して、本実施形態に係る「揺らぎ」および「揺らぎ要素」について説明する。図2は、画像コンテンツを構成する要素の「揺らぎ」を表わしている。図2では、横軸は時間軸を表し、縦軸は各要素の度合いの大きさを表している。図中の201、202、及び203は、画像コンテンツを構成する要素の時間軸上の変化を示す。例えば、201は、主被写体の「表情」のうち「笑顔度」の時間軸上の変化を示している。202は、「構図位置」の時間軸上の変化を示し、203は、「天候」のうち「曇の量」の時間軸上の変化を示す。本実施形態では、画像を構成する要素のうちの状態のばらつきを「揺らぎ」という。例えば、笑顔度のような1つの要素において、その状態がばらつく(変化する)ことを、「揺らぎ」として説明する。そして、「揺らぎ」を有する要素を「揺らぎ要素」という。揺らぎ要素は、画像コンテンツから状態のばらつきの度合いが測定可能である。
 図2に示す例では、撮影者が画像を撮影する際の撮影意図(すなわち画像コンテンツの取得意図)が、「笑顔度」が高いこと、「構図位置」として被写体が左側に映り込むこと、又は「雲の量」が少ないことのいずれかである場合を例に説明する。
 揺らぎ要素の揺らぎが最も高いタイミングは、「笑顔度」が204であるタイミングと、「構図位置」が205であるタイミングと、「雲の量」が206のタイミングである。タイミング204、205、206において取得された画像コンテンツは、それぞれコンテンツ207、208、209となる。
 揺らぎ要素抽出部102は、画像コンテンツに含まれる揺らぎ要素を抽出する。例えば、人物の表情を揺らぎ要素とする例では、揺らぎ要素抽出部102は、画像コンテンツにおいて人物の顔の検出を実行して揺らぎ要素を抽出する。揺らぎ要素抽出部102は、更に、人物の顔を検出した場合に人物の表情に対する揺らぎ度合い取得処理を行う。例えば、揺らぎ要素抽出部102は、この度合いの取得により、笑顔の度合い、喜怒哀楽の度合い、目の開き度合い、口の開き度合い等を数値化する。なお、揺らぎ度合いを取得する際には、画像コンテンツから揺らぎ度合いを算出してもよいし、当該画像コンテンツに対応する揺らぎ度合いをネットワークを介して取得してもよい。
 なお、他の揺らぎ要素には、例えば、画像コンテンツにおける人物の姿勢、画像コンテンツの構図、画像コンテンツにおける照明、画像コンテンツにおける天候或いは画像コンテンツにおける被写体の服飾等を含んでよい。人物の姿勢は、例えば、顔の向き、体の向き、人物の動きのブレ量などの少なくともいずれかから揺らぎ度合いを求めてよい。また、画像コンテンツの構図は、例えば、被写体同士の位置関係、被写体同士の距離などの少なくともいずれかから揺らぎ度合いを求めてよい。照明は、例えば光源位置などから揺らぎ度合いを求めてよい。天候は、例えば、天気、雲量などの少なくともいずれかから揺らぎ度合いを求めてよい。服飾は、例えば、服飾の種別、色などの少なくともいずれかから揺らぎ度合いを求めてよい。揺らぎ要素抽出部102は、算出した揺らぎ要素の度合いを、画像コンテンツと合わせて、揺らぎルール決定部106へ出力する。また、揺らぎ要素抽出部102は、画像コンテンツと揺らぎ要素の揺らぎ度合いとを、後述する揺らぎモデルの学習データとして、揺らぎモデル生成部103へ出力する。
 揺らぎモデル生成部103は、揺らぎ要素抽出部102から得られる画像コンテンツと抽出された揺らぎ要素の揺らぎ度合いとを用いて、揺らぎ要素ごとの学習モデル(以下、揺らぎモデルという)を学習させる処理を行なう。揺らぎモデルは、揺らぎ要素毎に生成され、指定された揺らぎ度合いに対応する画像コンテンツを生成するように学習される。例えば、人物の表情を揺らぎ要素とする揺らぎモデルは、指定される表情の画像コンテンツを生成するように学習される。なお、同一の揺らぎ要素であっても、1か月単位等の期間毎や、ユーザが滞在した地域毎、もしくはユーザからの指示に応じて、揺らぎモデルを複数生成しても構わない。
 揺らぎモデルは、例えば、GAN(Generative Adversarial Network、敵対的生成ネットワーク)など、画像を生成可能な公知の機械学習アルゴリズムで構成されてよい。GANは、画像コンテンツを生成する生成器と、生成器によって生成された画像コンテンツが本物の画像か否かを識別する識別器との2つのニューラルネットワークで構成される。
 揺らぎモデルの学習段階の処理では、上述の生成器と識別器とが、互いに損失関数(loss関数)を共有しつつ、生成器はロス関数を最小化、識別器が最大化するように、それぞれのニューラルネットワークの更新を繰り返す。これにより、生成器が生成する画像コンテンツは、自然な画像を生成するようになる。なお、GANにおけるニューラルネットワークの構成や、学習アルゴリズムに関しては、周知の技術を適応するため、本実施形態での説明は省略する。こうして、学習で用いたデータは、学習済みの揺らぎモデルと関連付けられて、揺らぎモデルデータベース104に保存される。換言すれば、学習データに含まれる画像コンテンツと当該画像コンテンツの揺らぎ要素の度合いとが、(モデルに対応する)揺らぎ要素を示す情報と関連付けられて、揺らぎモデルデータベース104に保持される。
 揺らぎモデルデータベース104は、後述のHDD125に記憶され、揺らぎモデル生成部103で生成された揺らぎ要素毎の揺らぎモデルと、学習で用いたデータとを格納する。
 なお、本実施形態では、揺らぎモデル生成部103と、揺らぎモデルデータベース104とがデジタルカメラ100内に含まれる場合を例に説明する。しかしながら、デジタルカメラ100内に通信部を設け、外部サーバやクラウド上に、揺らぎモデル生成部103や、揺らぎモデルデータベース104を配置するような構成を取ってもよい。もしくは、デジタルカメラ100と外部サーバとの両方に揺らぎモデル生成部103及び揺らぎモデルデータベース104を配置して、これらを用途や目的によって使い分けてもよい。
 例えば、デジタルカメラ100側には、主被写体の表情のような使用頻度が高くなることが想定される揺らぎ要素に関連付けられる揺らぎモデルの生成部や、データベースを置く。一方、外部サーバ側には、使用頻度の低い揺らぎモデルの生成部や学習途中の揺らぎモデル、学習データを格納するようにしてもよい。また、外部サーバやクラウドサービス側では、揺らぎモデルの更新履歴も含めて管理してもよい。
 コンテンツ意図取得部105は、入力した画像コンテンツに対し、撮影者が当該画像コンテンツに表現したいコンテンツ取得意図を取得し、コンテンツ取得意図を示すコンテンツ取得意図の識別子を揺らぎルール決定部106に出力する。
 本実施形態では、例えば、予め、画像コンテンツに含まれる揺らぎ要素と、コンテンツ取得意図識別子との関係を定めておき、取得される画像コンテンツに含まれる揺らぎ要素から、コンテンツ取得意図の識別子に変換する。すなわち、コンテンツ意図取得部105は、画像コンテンツの画像情報に基づいてコンテンツ取得意図の識別子を取得することができる。コンテンツ取得意図の識別子は、例えば、「楽しい」「記念写真」などの一般的な画像コンテンツでタグ付けに用いられるようなキーワードを含む。更に、コンテンツ意図取得部105は、ユーザから、コンテンツ取得意図識別子についての指示或いは選択を受け付けてもよい。また、コンテンツ意図取得部105は、画像コンテンツ取得のために行われた操作履歴や撮影試行数等のユーザ行動履歴から、コンテンツ取得意図識別子の情報を推定してもよい。
 コンテンツ意図取得部105は、さらに音情報を用いてコンテンツ取得意図識別子を出力してもよい。例えば、コンテンツ意図取得部105は、コンテンツ取得時の周辺の音情報を用いることで、撮影者の音声を含む撮影空間の音情報から、コンテンツ取得意図識別子に変換することも可能である。
 揺らぎルール決定部106は、再構成したい画像コンテンツの揺らぎ要素と、その度合いに対して、前述のコンテンツ取得意図の識別子を用いて、揺らぎ要素毎の揺らぎ度合い変更量(以下、揺らぎルールという)を算出する。また、揺らぎルール決定部106は、後述の画像コンテンツ再構成部107に用いる揺らぎモデルの指定を行う。揺らぎルール決定部106よる処理の詳細については後述する。
 画像コンテンツ再構成部107は、揺らぎルール決定部106で決定されたルール(揺らぎ要素の揺らぎ度合い変更量)に従って、揺らぎモデルデータベース104から揺らぎモデルを読み出す。そして、画像コンテンツ再構成部107は、揺らぎモデルに対して、再構成したい画像コンテンツと再構成用のパラメータとを入力することで、画像コンテンツを再構成する。画像コンテンツの再構成の詳細については後述する。画像コンテンツ再構成部107は、再構成した画像コンテンツを表示部108へ出力する。
 表示部108は、表示デバイス128に様々な画像コンテンツを表示させる。本実施形態では、表示部108は、少なくとも、画像コンテンツ取得部101が取得した画像コンテンツ或いは画像コンテンツ再構成部107で再構成された画像コンテンツを表示デバイス128に表示させる。
 ユーザ指示取得部109は、入力デバイス127を介して、ユーザからの画像コンテンツの再構成に関する様々な指示を受け付け、デジタルカメラ100の各処理部に所定の処理を促す。例えば、ユーザ指示取得部109は、ユーザからの画像コンテンツの取得指示や、再構成指示を受け付ける。この他にも、コンテンツ取得意図の識別子や、揺らぎモデルといった画像コンテンツの再構成で、必要となるパラメタの指定を受け付けてもよい。
 <デジタルカメラのハードウェア構成例>
 次に、図1Bを参照して、デジタルカメラ100のハードウェア構成例について説明する。デジタルカメラ100は、例えば、システムバス121と、CPU122と、ROM123と、RAM124と、HDD125と、GPU126と、入力デバイス127と、表示デバイス128と、撮像デバイス129とを含む。デジタルカメラ100の各部はシステムバス121に接続される。
 CPU122は、CPU(中央演算装置)などの演算回路であり、ROM123又はHDD125に記憶されたコンピュータプログラムをRAM124に展開、実行することによりデジタルカメラ100の各機能を実現する。ROM123は、例えば半導体メモリなどの不揮発性の記憶媒体を含み、例えばCPU122が実行するプログラムや必要なデータを記憶する。RAM124は、例えば半導体メモリなどの揮発性の記憶媒体を含み、例えばCPU122の演算結果などを一時的に記憶する。HDD125はハードディスクドライブを含み、例えばCPU122が実行するコンピュータプログラムや、その処理結果などを記憶する。この例では、デジタルカメラ100がハードディスクを有する場合を例に説明しているが、デジタルカメラ100はハードディスクの代わりにSSDなどの記憶媒体を有してもよい。GPU(Graphics Processing Unit)126は、演算回路を含み、例えば学習モデルの学習段階の処理や推論段階の処理の一部又は全部を実行し得る。GPUは、CPUと比較して、データをより多く並列処理することができるため、上述のニューラルネットワークを用いた繰り返し演算を行うディープラーニングの処理では、GPUで処理を行うことが有効である。
 入力デバイス127は、デジタルカメラ100に対する操作入力を受け付けるボタンやタッチパネルなどの操作部材を含む。表示デバイス128は、例えばОLEDなどの表示パネルを含む。撮像デバイス129は、例えば、レンズ、絞り、シャッター等の光学系ユニットと、CMOSセンサ等の撮像素子とを含む。光学系ユニットは、複眼レンズや多眼レンズを備えた構成であってもよい。また、光学ユニットは、(例えば取得する画像コンテンツに応じて)ズームや絞りといった光学特性を変更可能であってよい。
 <揺らぎモデルの学習処理>
 揺らぎモデル生成部103等による揺らぎモデルの学習処理について、図3を参照して説明する。なお、本処理は、例えば、デジタルカメラ100のCPU122或いはGPU126がコンピュータプログラムを実行することによって実現される、図1Aに示す各部により実現され得る。また、本処理は、基本的にはユーザから撮影指示を受けたタイミング、およびその前後の任意の期間で実行され得る。しかし、ユーザから撮影指示を受け付けていない場合にも、例えば、画像コンテンツ取得部101が常時起動して撮影者の周辺環境を撮影可能な場合には、一定の間隔で実行されてもよい。
 S301では、画像コンテンツ取得部101は、撮像デバイス129を介して学習用の画像コンテンツを取得する。例えば、取得される学習用画像コンテンツは、静止画データである。また、画像コンテンツ取得部101は動画コンテンツから静止画データを切り出してもよい。画像コンテンツ取得部101は、取得した静止画データを、揺らぎ要素抽出部102へ出力する。なお、取得される画像コンテンツは、撮像デバイス129から出力されるものに限らず、予め取得されてHDD125に記憶されている画像コンテンツを用いてもよい。学習用の画像コンテンツは、特定の期間や特定の位置で取得された画像コンテンツに限定されてもよい。例えば、学習用の画像コンテンツは、撮影期間や学習データの収集期間として、ユーザによる所定の開始指示から終了指示の間に取得された画像コンテンツであってもよい。或いは、学習用の画像コンテンツは、再構成の対象となる画像コンテンツに応じて取得されてもよい。学習用の画像コンテンツは、再構成される処理対象の画像コンテンツの取得日時の前後の所定期間に取得された画像コンテンツであってもよい。或いは、学習用の画像コンテンツは、再構成の処理対象の画像コンテンツの取得位置の周囲の所定範囲で取得された画像コンテンツであってもよい。
 S302では、揺らぎ要素抽出部102は、入力された静止画データに対して、所定の揺らぎ要素を抽出し、抽出した揺らぎ要素に対する揺らぎ度合い(スコア)を算出(取得)する。画像コンテンツ取得部101は、静止画データから、抽出された揺らぎ要素を含む領域で正規化し、揺らぎの度合い情報と合わせて、(揺らぎモデルの学習データとして)揺らぎモデル生成部103へ出力する。
 なお、この説明では、本処理が、1つの静止画データに対して、揺らぎ要素毎に実行されることを想定している。しかし、揺らぎの要素の抽出頻度を、揺らぎ要素毎に定めてもよい。例えば、揺らぎの変化が激しい要素は抽出頻度を高く、変化が緩やかな要素は抽出頻度を低くしてもよい。
 S303では、揺らぎモデル生成部103は、揺らぎモデルデータベース104から学習対象の揺らぎモデル情報を読み出し、入力された学習データを用いて、揺らぎモデルの機械学習処理を行う。揺らぎモデルの機械学習処理は、例えば上述したGANの学習段階の処理である。そのうえで、揺らぎモデル生成部103は、学習に用いたデータと合わせて、揺らぎモデルデータベース104の揺らぎモデル情報を更新する。なお、学習対象の揺らぎモデルが揺らぎモデルデータベース104に存在しない場合には、揺らぎモデルが新規に追加される。
 以上の処理により、ユーザが取得した、もしくはユーザ体験下で得られる画像コンテンツ中の揺らぎ要素の揺らぎを、揺らぎ要素モデル毎の学習データとして用いる。これにより、揺らぎ要素の揺らぎがチューニング可能(すなわち指定される揺らぎ度合いに応じた画像を生成可能)なGANの生成器のニューラルネットワークを構築することができる。
 <再構成処理の動作>
 次に、図4を参照して、揺らぎ要素モデルを用いた画像コンテンツの再構成処理について説明する。なお、本処理は、例えば、デジタルカメラ100のCPU122或いはGPU126がコンピュータプログラムを実行することによって実現される、図1Aに示す各部により実現され得る。なお、本処理は、ユーザからの指示を受け付けたことに応じて開始される。処理の開始には、再構成の対象となる画像コンテンツが、1つ選択されていればよく、指示のタイミングは任意であってよい。本実施形態では、図2の画像コンテンツ208が選択されたものとして説明する。例えば、ユーザの画像コンテンツの取得指示を受けて開始するようにすればよい。この他にも、画像コンテンツ取得後に記録画像の表示中や、画像コンテンツの再生時に、再構成の指示を受け付けるようにしてもよい。
 S401では、画像コンテンツ取得部101は、再構成の対象となる画像コンテンツを取得する。ここでは、例えば、画像コンテンツ208が再構成の対象となる画像コンテンツである場合を例に説明する。
 S402では、揺らぎ要素抽出部102は、画像コンテンツ取得部101から再構成の対象となる画像コンテンツを受け取って、画像コンテンツが含んでいる揺らぎ要素を抽出すると共に揺らぎ要素の度合いを算出(取得)する。揺らぎ要素抽出部102の動作は、学習処理における処理と同様である。
 S403では、コンテンツ意図取得部105が、画像コンテンツに付随する任意の情報群から、コンテンツ取得意図の識別子を取得する。例えば、画像コンテンツ208に映り込んだ人物やその表情、背景のオブジェクトから、「旅行」、「記念写真」、「楽しい」といったコンテンツ取得意図の識別子を取得し、画像コンテンツに関連付ける。
 なお、コンテンツ意図取得部105は、画像コンテンツ以外の更なる情報に基づいて、コンテンツ取得意図の識別子を取得してよい。例えば、デジタルカメラ100に、音声認識技術が搭載されている場合、コンテンツ意図取得部105は、音声認識の結果をコンテンツ取得意図識別子の取得に利用する。例えば、コンテンツ意図取得部105は、画像コンテンツが撮影された前後の所定期間に記録されたユーザの発話情報、或いは、画像コンテンツが再生された後の所定期間に入力されたユーザの発話情報に基づいて、コンテンツ取得意図の識別子を取得してよい。具体的には、画像コンテンツ208の取得時や、再構成の指示時に、ユーザの「曇ってしまった」、「雲で見えない」、「晴れてほしかった」といった音声を認識した場合には、「天候」もしくは、理想的な状態とされる「晴れ」をキーワードにしてもよい。この場合、当該キーワードがコンテンツ取得意図識別子として画像コンテンツに関連付けられる。
 上述の例以外にも、S401で選択された画像コンテンツ208の撮影行為前後におけるユーザの操作履歴情報や行動履歴情報、ユーザの入力したテキスト情報などから、コンテンツ取得意図の識別子を予測して、算出するようにしてもよい。
 その後、コンテンツ意図取得部105は、画像コンテンツ208にコンテンツ取得意図識別子を関連付けて、揺らぎルール決定部106へ出力する。
 S404では、揺らぎルール決定部106は、再構成の対象となる画像コンテンツと、画像コンテンツに関連付けられた揺らぎ要素情報と、コンテンツ取得意図識別子とを用いて、画像コンテンツ再構成部107への制御情報となる揺らぎのルールを決定する。
 本実施形態に係る揺らぎルールの作成方法について、図5Aから図5Dを参照して説明する。図5Aから図5Dは、再構成の対象となる画像コンテンツの揺らぎ要素の揺らぎ度合いと、各種情報との関係を示している。
 揺らぎルール決定部106は、揺らぎモデルデータベース104から、再構成の対象となる画像コンテンツ208の揺らぎ要素に関連する揺らぎモデル情報を選択し、読み出す。なお、読み出される揺らぎモデル情報は、学習データを用いて学習された揺らぎモデルの情報であり、学習データは、再構成の対象となる揺らぎ要素を含む画像コンテンツを少なくとも含む。
 揺らぎルール決定部106は、読み出した揺らぎモデル情報と、関連する学習データ群とを用いて、揺らぎモデルにおいて、再構成が可能な揺らぎ範囲の情報を算出する。例えば、笑顔に関する揺らぎモデルの学習データの分布例を図5Aに示している。上述のGANの学習では、学習データに含まれる揺らぎ度合いの画像を生成できるように学習されている。従って、図5Aに示す学習データにおける笑顔の度合いの分布から、揺らぎ要素の度合いの指定によって再構成可能な画像コンテンツの揺らぎ範囲が、度合い1から6の範囲であることが把握される。
 次に、揺らぎルール決定部106は、コンテンツ取得意図識別子から、再構成後の揺らぎ要素の揺らぎの度合いの推奨値を算出する。本実施形態では、例えば、デジタルカメラ100は、前述のコンテンツ取得意図識別子と、揺らぎ要素の理想的な揺らぎの度合いとを関連付けた情報を、予め、意図と理想的な揺らぎの度合いの変換テーブル情報として保持する。揺らぎルール決定部106は、当該変換テーブル情報を参照することで、再構成後の揺らぎ要素の揺らぎ度合いを算出する。
 例えば、「楽しい」というコンテンツ取得意図識別子に対する変換テーブルは、図5Bに示すように、「表情」及び「構図」の揺らぎ要素が関連付けられている。この例では、「表情」の揺らぎ要素の理想的な揺らぎの度合いは、「表情」における笑顔の度合いが最大値である度合い7となるように関連付けられている。
 揺らぎルール決定部106は、利用する揺らぎモデルを決定し、決定した揺らぎモデルに設定するパラメータを算出する。設定するパラメータは、前述の再構成が可能な揺らぎ範囲におさまり、且つ、コンテンツ取得意図による揺らぎ要素の理想的な揺らぎの度合いに近づくように算出される。例えば、まず、揺らぎルール決定部106は、撮影意図に対応する理想的な揺らぎの度合いが、揺らぎ度合いのうち再構成に設定可能な度合いに対応するか(上記の例では1から6の度合いであるか)を判定する。揺らぎルール決定部106は、理想的な揺らぎの度合いが、揺らぎ度合いのうち再構成に設定可能な度合いに対応する場合、理想的な揺らぎの度合いを再構成に設定する度合いとして設定する。揺らぎルール決定部106は、理想的な揺らぎの度合いが、揺らぎ度合いのうち再構成に設定可能な度合いに対応しない場合、再構成に設定可能な度合いのうち、理想的な度合いに最も近い度合いを再構成に設定する度合いとする。つまり、理想的な揺らぎの度合いに応じて調整した調整後の度合いが、再構成のために設定される。例えば、図5Cのように、揺らぎ要素「表情」の揺らぎモデルに設定されるパラメータは、理想的な揺らぎの度合いは、度合い7であるのに対し、揺らぎモデルの再構成可能な範囲の上限が度合い6である。このため、設定される値は、度合い6となる。
 さらに、揺らぎルール決定部106は、複数の揺らぎモデルを用いた再構成処理の順序を決定する。ここでの揺らぎモデルの処理順序は、任意であり、様々な要因によって決定されてよい。本実施形態では、例えば、前述の揺らぎの度合いの推奨値と、再構成の対象となる画像コンテンツ内の揺らぎの度合いの差が大きい揺らぎモデルから、当該差が少ない揺らぎモデルの順に実施する。この場合、例えば、図5Dに示すような、最初に「表情」、続いて「雲の量」、最後に「構図」の揺らぎモデルという順序で、揺らぎモデルの再構成処理を実施する。
 揺らぎルール決定部106は、このようにして、揺らぎモデル情報と、揺らぎモデルに渡すパラメタ情報と、揺らぎモデルの再構成処理順序情報とを、揺らぎルールとして、画像コンテンツ再構成部107に出力する。
 S405では、画像コンテンツ再構成部107は、再構成の対象となる画像コンテンツと、揺らぎルール決定部106で決定された揺らぎルールを用いて、再構成処理を実行する。例えば、再構成処理の結果として、図6に示すような画像が生成される。図6に示す、再構成された画像は、再構成の対象となる画像コンテンツ208に対し、雰囲気は維持しつつ、「構図」は大きく変化することなく、「表情」の笑顔の度合いは大きく、「雲の量」の度合いは小さい新しい画像コンテンツである。
 なお、生成された画像は、表示部108を介して、ユーザによる確認を促し、再構成処理に対するフィードバックを受け付けるようにしてもよい。例えば、ユーザから再構成された画像コンテンツの記録指示が出た場合は、記録処理とともに、揺らぎモデルに対して、ポジティブなフィードバックを、そうではない場合には、ネガティブなフィードバックをかけて、新たに再構成処理を実施してもよい。
 以上説明したように、本実施形態では、取得した画像コンテンツの揺らぎ要素の揺らぎ度合いと、ユーザの撮影意図を示す情報とを取得し、学習済みの学習モデルを使用して、取得した画像コンテンツから、揺らぎ度合いが異なる画像コンテンツを生成する。このとき、学習モデルは、取得した画像コンテンツにおいて取得された揺らぎ度合いを、撮影意図を示す情報に対応する度合いとする画像コンテンツを生成する。このようにすることで、コンテンツ取得意図がより適切に反映された画像コンテンツを得ることが可能になる。
 (その他の実施形態)
 本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
 本願は、2022年2月3日提出の日本国特許出願特願2022-015820を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。
101…画像コンテンツ取得部、102…揺らぎ要素抽出部、103…揺らぎモデル生成部、105…コンテンツ意図取得部、106…揺らぎルール決定部、107…画像コンテンツ再構成部

Claims (13)

  1.  第1画像コンテンツを取得するコンテンツ取得手段と、
     画像を構成する要素のうち、状態のばらつきである揺らぎを持つ要素を揺らぎ要素として、前記第1画像コンテンツの揺らぎ要素の揺らぎ度合いを取得する度合い取得手段と、
     ユーザの撮影意図を示す情報を取得する意図取得手段と、
     学習済みの学習モデルを使用して、前記第1画像コンテンツから、画像コンテンツの揺らぎ要素の揺らぎ度合いが異なる第2画像コンテンツを生成する生成手段と、を有し、
     前記学習モデルは、前記第1画像コンテンツにおいて取得された揺らぎ度合いを、前記撮影意図を示す情報に対応する度合いとする前記第2画像コンテンツを生成する、ことを特徴とする画像処理装置。
  2.  前記意図取得手段は、前記第1画像コンテンツの画像情報に基づいて、又は前記第1画像コンテンツに関連付けられる情報であって、ユーザが入力したテキスト情報、操作履歴情報、行動履歴情報、及び音情報のうち少なくとも1つの情報に基づいて、前記撮影意図を示す情報を取得する、ことを特徴とする請求項1に記載の画像処理装置。
  3.  前記意図取得手段は、前記第1画像コンテンツが撮影された前後の所定期間又は前記第1画像コンテンツが再生された後の所定期間におけるユーザの発話情報に基づいて前記撮影意図を示す情報を取得する、ことを特徴とする請求項2に記載の画像処理装置。
  4.  前記撮影意図を示す情報が、揺らぎ要素の揺らぎ度合いのうちの設定可能な度合いに対応するかを判定する判定手段を更に有し、
     前記撮影意図を示す情報が、揺らぎ要素の揺らぎ度合いのうちの設定可能な度合いに対応する場合に、前記学習モデルは、前記第1画像コンテンツにおいて抽出された揺らぎ要素の揺らぎ度合いを、前記撮影意図を示す情報に対応する度合いとする前記第2画像コンテンツを生成する、ことを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  5.  前記撮影意図を示す情報が、揺らぎ要素の揺らぎ度合いのうちの設定可能な度合いに対応しない場合、前記学習モデルは、前記第1画像コンテンツにおいて抽出された揺らぎ要素の揺らぎ度合いを、前記撮影意図を示す情報に応じて調整した調整後の度合いとする前記第2画像コンテンツを生成する、ことを特徴とする請求項4に記載の画像処理装置。
  6.  前記調整後の度合いは、揺らぎ要素の設定可能な度合いのうち、前記撮影意図を示す情報に対応する度合いに最も近い揺らぎ度合いである、ことを特徴とする請求項5に記載の画像処理装置。
  7.  前記判定手段は、前記学習モデルを学習させる学習データとして用いられた複数の画像コンテンツのそれぞれの揺らぎ度合いの分布と、前記撮影意図を示す情報との対応に基づいて、前記撮影意図を示す情報が、前記設定可能な度合いに対応するかを判定する、ことを特徴とする請求項4から6のいずれか1項に記載の画像処理装置。
  8.  前記学習モデルは、撮影された画像コンテンツと、当該撮影された画像コンテンツの揺らぎ要素の揺らぎ度合いと含む学習データを用いて、入力される画像コンテンツから、画像コンテンツの揺らぎ度合いを指定した揺らぎ度合いとする画像コンテンツを生成するように学習される、ことを特徴とする請求項1から7のいずれか1項に記載の画像処理装置。
  9.  画像コンテンツを撮影する撮像手段を更に有し、
     前記学習モデルのための学習データは、前記撮像手段によって撮影された画像コンテンツと、当該撮影された画像コンテンツの揺らぎ要素の揺らぎ度合いとを含むように構成されたデータである、ことを特徴とする請求項1から8のいずれか1項に記載の画像処理装置。
  10.  前記学習モデルのための学習データとして用いられる複数の画像コンテンツは、
      ユーザによる所定の開始指示から終了指示の間に取得された画像コンテンツと、
      処理対象の画像コンテンツの取得日時の前後の所定期間に取得された画像コンテンツと、
      処理対象の画像コンテンツの取得位置の周囲の所定範囲で取得された画像コンテンツと、の少なくともいずれかを含む、ことを特徴とする請求項1から9のいずれか1項に記載の画像処理装置。
  11.  画像コンテンツの揺らぎ要素は、画像コンテンツにおける人物の表情又は姿勢、画像コンテンツの構図、画像コンテンツにおいて把握される天候、及び画像コンテンツにおいて把握される被写体の服飾のうち少なくとも1つを含む、ことを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。
  12.  画像処理装置において実行される画像処理方法であって、
     第1画像コンテンツを取得するコンテンツ取得工程と、
     画像を構成する要素のうち、状態のばらつきである揺らぎを持つ要素を揺らぎ要素として、前記第1画像コンテンツの揺らぎ要素の揺らぎ度合いを取得する度合い取得工程と、
     ユーザの撮影意図を示す情報を取得する意図取得工程と、
     学習済みの学習モデルを使用して、前記第1画像コンテンツから、画像コンテンツの揺らぎ要素の揺らぎ度合いが異なる第2画像コンテンツを生成する生成工程と、を有し、
     前記学習モデルは、前記第1画像コンテンツにおいて取得された揺らぎ度合いを、前記撮影意図を示す情報に対応する度合いとする前記第2画像コンテンツを生成する、ことを特徴とする画像処理方法。
  13.  コンピュータを、請求項1から11のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
PCT/JP2022/047854 2022-02-03 2022-12-26 画像処理装置、画像処理方法及びプログラム WO2023149135A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-015820 2022-02-03
JP2022015820A JP2023113444A (ja) 2022-02-03 2022-02-03 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023149135A1 true WO2023149135A1 (ja) 2023-08-10

Family

ID=87552274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/047854 WO2023149135A1 (ja) 2022-02-03 2022-12-26 画像処理装置、画像処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2023113444A (ja)
WO (1) WO2023149135A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106025A1 (ja) * 2022-11-15 2024-05-23 キヤノン株式会社 画像処理装置及び方法、プログラム及び記憶媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010068190A (ja) * 2008-09-10 2010-03-25 Nikon Corp デジタルカメラ、画像処理装置およびデジタルカメラシステム
JP2012044415A (ja) * 2010-08-18 2012-03-01 Canon Inc 撮像装置及びその制御方法、並びにプログラム
US20200151860A1 (en) * 2018-11-13 2020-05-14 Adobe Inc. Intelligent identification of replacement regions for mixing and replacing of persons in group portraits
JP2021124977A (ja) * 2020-02-05 2021-08-30 キヤノン株式会社 端末装置、機能提案方法、プログラム及びサーバ装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010068190A (ja) * 2008-09-10 2010-03-25 Nikon Corp デジタルカメラ、画像処理装置およびデジタルカメラシステム
JP2012044415A (ja) * 2010-08-18 2012-03-01 Canon Inc 撮像装置及びその制御方法、並びにプログラム
US20200151860A1 (en) * 2018-11-13 2020-05-14 Adobe Inc. Intelligent identification of replacement regions for mixing and replacing of persons in group portraits
JP2021124977A (ja) * 2020-02-05 2021-08-30 キヤノン株式会社 端末装置、機能提案方法、プログラム及びサーバ装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106025A1 (ja) * 2022-11-15 2024-05-23 キヤノン株式会社 画像処理装置及び方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
JP2023113444A (ja) 2023-08-16

Similar Documents

Publication Publication Date Title
US11995530B2 (en) Systems and methods for providing feedback for artificial intelligence-based image capture devices
TW202042175A (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體
US11231838B2 (en) Image display with selective depiction of motion
JP4640456B2 (ja) 画像記録装置、画像記録方法、画像処理装置、画像処理方法、プログラム
US20160180572A1 (en) Image creation apparatus, image creation method, and computer-readable storage medium
JP7247327B2 (ja) ダイナミックデプス画像を撮影して編集するための手法
US9690980B2 (en) Automatic curation of digital images
CN110555527A (zh) 延时摄影视频的生成方法及设备
JP2009141516A (ja) 画像表示装置,カメラ,画像表示方法,プログラム,画像表示システム
WO2023149135A1 (ja) 画像処理装置、画像処理方法及びプログラム
CN115623313A (zh) 图像处理方法、图像处理装置、电子设备、存储介质
WO2024106025A1 (ja) 画像処理装置及び方法、プログラム及び記憶媒体
CN111415397A (zh) 一种人脸重构、直播方法、装置、设备及存储介质
JP2022040912A (ja) 検出装置および検出方法
JP7292349B2 (ja) 画像を処理するための方法およびシステム
JP7514848B2 (ja) 選択的な動きの描画を伴う画像表示
EP3652641B1 (en) Methods and systems for processing imagery
US8442975B2 (en) Image management apparatus
CN117152030A (zh) 图像处理方法和电子设备
JP2011061857A (ja) 画像処理装置、画像処理方法、プログラム、撮像装置
JP2007336124A (ja) 人物撮像装置,その制御方法およびその制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925037

Country of ref document: EP

Kind code of ref document: A1