WO2023171335A1 - データ生成装置および方法、並びにプログラム - Google Patents

データ生成装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2023171335A1
WO2023171335A1 PCT/JP2023/005919 JP2023005919W WO2023171335A1 WO 2023171335 A1 WO2023171335 A1 WO 2023171335A1 JP 2023005919 W JP2023005919 W JP 2023005919W WO 2023171335 A1 WO2023171335 A1 WO 2023171335A1
Authority
WO
WIPO (PCT)
Prior art keywords
generation
face
face image
image data
parameters
Prior art date
Application number
PCT/JP2023/005919
Other languages
English (en)
French (fr)
Inventor
朝己 上田
洋 一木
正樹 柏森
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Publication of WO2023171335A1 publication Critical patent/WO2023171335A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present technology relates to a data generation device, method, and program, and particularly relates to a data generation device, method, and program that can obtain a facial image dataset suitable for learning an AI model.
  • AI Artificial Intelligence
  • facial image datasets consisting of image data of real faces collected through web collection or actual measurements cannot be said to be appropriate from a privacy perspective and pose a large ethical risk.
  • This technology was developed in view of this situation, and makes it possible to obtain facial image datasets suitable for learning AI models.
  • a data generation device changes part or all of the generation parameters obtained by digitizing seed images of arbitrary faces, thereby From the generation parameters, a number of input generation parameters greater than the predetermined number is generated, and facial image data is generated based on each of the plurality of input generation parameters, thereby generating a face image composed of a plurality of the facial image data. including the step of generating a dataset.
  • a program according to one aspect of the present technology is a program corresponding to a data generation method according to one aspect of the present technology.
  • the data generation device changes the generation parameters of a predetermined number of seed images by changing part or all of the generation parameters obtained by digitizing seed images of arbitrary faces.
  • a parameter generation unit that generates a number of input generation parameters larger than a predetermined number, and facial image data that is composed of a plurality of pieces of facial image data, by generating face image data based on each of the plurality of input generation parameters.
  • a data set generation unit that generates a set.
  • the generation parameters of a predetermined number of seed images can be changed from the generation parameters to the predetermined number.
  • a large number of input generation parameters are generated, and facial image data is generated based on each of the plurality of input generation parameters, thereby generating a face image data set including the plurality of facial image data.
  • FIG. 1 is a diagram illustrating a configuration example of a data generation device.
  • FIG. 2 is a diagram illustrating an approach for generating a face image dataset.
  • FIG. 3 is a diagram illustrating the flow of processing when generating a face image data set.
  • FIG. 3 is a diagram illustrating scrambling of generation parameters.
  • FIG. 3 is a diagram illustrating labeling of face IDs.
  • FIG. 3 is a diagram illustrating face ID cleansing.
  • FIG. 3 is a diagram illustrating attribute labeling and cleansing. It is a flowchart explaining data set generation processing. It is a diagram showing an example of the configuration of a computer.
  • a face image data set is constructed that does not use a real face image, that is, does not include face image data of a real face image, but only includes face image data of a fictitious face generated by a face generator.
  • a face image data set whose privacy is protected, that is, whose personal information is free.
  • the seed image for generating the face image dataset is increased in bulk.
  • facial variations are increased.
  • the generation parameters consist of multiple parameters that potentially include facial features such as eyes, color, and hairstyle of a person, especially the appearance characteristics of the face.By inputting these generation parameters into the face generator, A face image (face image data) can be obtained as the output of the face generator. Such generated parameters are also called latent variables.
  • the generation parameters of the seed image that have been bulked up in large quantities are input to the face generator to generate face image data, and labeling and cleansing are performed on the obtained multiple face image data. , a face image dataset is obtained.
  • an attribute value and a face ID of an attribute of a face image based on the face image data are given to the face image data.
  • attribute values and face IDs are automatically assigned, or annotated, without any human intervention.
  • the attributes here are the characteristics of the face shown in the face image (features that represent the appearance of the face), such as age, gender, expression, eye shape, hair color, etc., and the face ID is the This is an identification ID that identifies the displayed face. For example, faces assigned the same face ID are considered to be similar to each other, that is, the faces of the same person.
  • the statistical values (distribution) of the attribute values of the facial image data that makes up the facial image dataset, the number of face IDs, the resolution of the facial image data, and the facial image data that makes up the facial image dataset is set to the desired statistical value, resolution, and data amount.
  • the face image data is thinned out, that is, part of the face image data is deleted, and the face image data is downsampled or upsampled.
  • Facial image datasets can be constructed at low cost according to data volume, resolution, attributes, and statistical values.
  • the facial image can be changed to achieve the desired attribute values. can be controlled (controlled). Therefore, it is possible to easily generate facial images with attribute values that are often lacking in actual measurements, as well as facial images that match the attributes and statistical values desired by customers such as AI developers, reducing the cost of constructing facial image datasets. can be kept low.
  • a fictitious face image, a real face image provided by a customer, or the like can be used as a seed image (input image) used for bulking.
  • the customer specifies the amount of data, resolution, attributes, attribute statistics (distribution of attribute values for each attribute), etc. of the facial image dataset that they ultimately want to obtain, and the target value is input (input parameter).
  • a facial image data set may be generated.
  • the final face image dataset file contains face image data, an index file in which face IDs and attribute labels are linked to the face image data, sample thumbnail images of the face images, and attribute statistical values for each attribute.
  • the attribute statistics data file may also be included.
  • a face image of a face intermediate to the face of the preset face image may be generated, and the face image may be input to the face generator.
  • the combination of the seed image and the preset face image is performed in the space of generation parameters, not in the combination of images. That is, by combining the generation parameters of the seed image and the generation parameters of the preset face image, the generation parameters of the intermediate face image are generated.
  • face image A It is possible to obtain a face image having appearance characteristics intermediate between those of face image B and face image B.
  • generation parameters of seed images and preset face images may be edited (controlled) before composition.
  • the generation parameters for the facial images of the intermediate faces obtained in large quantities in this way are input to the face generator, and facial image data corresponding to the generation parameters for the facial images of the intermediate faces are generated.
  • labeling is performed by performing clustering on the face image data using an attribute classifier or the like, and statistics of attribute values, that is, attribute statistics are calculated. Then, cleansing is performed so that the calculated attribute statistic value becomes equal to the target value, that is, the attribute statistic value specified by the customer, and a final facial image data set is generated.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a data generation device to which the present technology is applied.
  • the data generation device 11 shown in FIG. 1 is composed of, for example, a personal computer, and generates a facial image data set based on the input seed image and target value.
  • the data generation device 11 can construct a face image dataset consisting of about 50,000 face images from about several hundred seed images.
  • the data generation device 11 includes an encoder 21, a scrambling section 22, an attribute/ID control section 23, a decoder 24, and an annotation section 25.
  • the encoder 21 is supplied with image data of a plurality of seed images (input images) prepared in advance.
  • the seed image may be, for example, a real face image provided by a customer or a face image of a fictitious face generated by a face generator.
  • the encoder 21 is composed of a parameter estimator that receives, for example, image data of a face image as input and outputs generation parameters (latent variables) corresponding to each face image, that is, generation parameters in which facial features are concealed as numerical data. .
  • the encoder 21 digitizes the input seed image by performing arithmetic processing based on the face image data of the supplied seed image, and supplies generation parameters of various images obtained by the digitization to the scrambling unit 22. .
  • the generation parameters are composed of parameters for each of a plurality of layers (hierarchies). That is, the generation parameters are composed of multiple layers, and each layer is composed of a predetermined number of parameters. It is known that by changing (controlling) the parameters of which layer that constitutes the generation parameters, which features (attributes) of the facial image (face) generated based on the generation parameters will change.
  • the encoder 21 by converting the face image data of the seed image into numerical generation parameters, personal information (features) about the face included in the seed image is diluted to some extent, thereby realizing privacy protection. can do.
  • the scrambling unit 22 scrambles the various image generation parameters supplied from the encoder 21 and supplies the scrambled parameters to the attribute/ID control unit 23. For example, in scrambling generation parameters, arbitrary random noise is added to the generation parameters, and the resultant values are used as generation parameters after scrambling.
  • the attribute/ID control unit 23 generates new generation parameters (hereinafter also referred to as input generation parameters) in which part or all of the generation parameters are controlled (changed) based on the generation parameters supplied from the scrambling unit 22. ) are generated and supplied to the decoder 24.
  • the attribute/ID control unit 23 changes part or all of the generation parameters obtained by digitizing the seed image of an arbitrary face, thereby changing the generation parameters of the predetermined number of seed images to that predetermined value. It functions as a parameter generation unit that generates a larger number of input generation parameters.
  • the input generation parameters obtained from the seed image and the generation parameters of any preset face image prepared in advance may be combined to form the final input generation parameters.
  • the decoder 24 is composed of a face generator that receives input generation parameters as input and outputs face image data, and generates a face image data set by generating face image data based on a plurality of input generation parameters. functions as a data set generator.
  • input generation parameters are converted into facial image data using methods such as GAN (Generative Adversarial Network) and VAE (Variational AutoEncoder).
  • GAN Geneative Adversarial Network
  • VAE Virtual AutoEncoder
  • the face generator By using a face generator, it is not only possible to obtain a photorealistic face image of an artificial face, but also to generate a large number of face images with different characteristics by controlling (changing) the generation parameters. Furthermore, the face generator can also generate face image data with a specified resolution.
  • the decoder 24 performs calculations based on the input generation parameters supplied from the attribute/ID control unit 23 to generate face image data corresponding to the input generation parameters, and supplies the data to the annotation unit 25.
  • the annotation unit 25 is supplied with target values indicating requirements for the facial image data set desired by the customer (hereinafter also referred to as customer requirements).
  • the target value includes, for example, the amount (number) of facial image data that makes up the facial image dataset, the resolution of the facial image data, attributes such as the age to be labeled, and the attributes of each attribute specified by the customer. These include attribute statistical values that indicate the distribution of attribute values. That is, the target value indicates at least one of the following: data amount, resolution, labeling attribute (labeling attribute), and attribute statistical value.
  • the annotation unit 25 generates (constructs) a facial image data set that satisfies customer requirements based on the supplied target value and the facial image data supplied from the decoder 24, and stores it in a subsequent stage such as a recording unit (not shown). Output.
  • the annotation unit 25 performs labeling and cleansing for attributes and face IDs on the face image data set (face image data), and generates a final face image data set that satisfies customer requirements.
  • annotation section 25 by using existing arbitrary clustering methods, similarity calculation methods, attribute estimators obtained through pre-learning, etc., the annotation section 25 eliminates the need for specifying operations by the administrator, etc. Labeling and cleansing can be done without any cleaning.
  • Cleansing is a bias removal process that removes bias in statistical data such as attributes in a plurality of face image data. Specifically, for example, in cleansing, some facial image data that constitutes a facial image dataset is deleted (removed) and the attribute statistical values are adjusted so that the attribute statistical values are indicated by the target values. .
  • the annotation unit 25 includes face image data, an index file in which face IDs and attribute labels are linked to the face image data, sample thumbnail images of face images, and attributes indicating attribute statistical values of each attribute.
  • a facial image dataset file (facial image dataset file) including a statistical value data file is generated.
  • the data generation device 11 generates a facial image data set using the approach roughly shown in FIG.
  • the seed image may be, for example, a real face image provided by a customer or a face image of a fictitious face generated by outsourcing, that is, a CG (Computer Graphics) image.
  • CG Computer Graphics
  • the number of seed images that can be prepared is small, but highly accurate face images, that is, images of normal faces can be used.
  • face images that is, images of normal faces
  • privacy protection measures are required, and as such measures, in the data generation device 11, digitization by the encoder 21 and scrambling by the scrambling unit 22 are performed.
  • fictitious face images are prepared, for example, as shown by arrow Q12.
  • fictitious face images are, for example, face images randomly generated by an arbitrary face generator.
  • a face generator If a face generator generates a fictitious face image, it is possible to easily prepare a large number of face images. It also includes abnormal facial images with low similarity. Furthermore, the plurality of randomly generated fictitious face images may not include a sufficient number of face images having desired characteristics (attributes), such as Japanese faces, for example.
  • fictitious face images shown in arrow Q12 low-accuracy fictitious face images (inappropriate fictitious face images) are removed, that is, fictitious face images are sorted, and fictitious face images have desired characteristics.
  • a set of a plurality of preset face images shown by arrow Q13 is generated by editing the fictitious face image so that it becomes a face image having .
  • editing of a fictitious face image to obtain a preset face image can be realized by changing predetermined parameters that constitute the generation parameters of the fictitious face image.
  • the generation parameters of the preset face image which is a fictitious face image prepared in advance, and the input generation parameters obtained from the seed image are blended and synthesized to form the final input. It is used as a generation parameter.
  • the generation parameters of the preset face image and the input generation parameters are weighted and added based on predetermined weights. In this case, if the weight is set to 1/2, the average value of the generation parameter of the preset face image and the input generation parameter will be obtained as the final input generation parameter.
  • parameters suitable for input to the decoder 24 can be generated in large quantities with high precision as final input generation parameters.
  • the final input generation parameters can be generated at least as many times as there are combinations of the plurality of input generation parameters generated from various images and the generation parameters of each of the plurality of preset facial images. Further, by changing the blend ratio (weight) in blend synthesis, even more input generation parameters can be generated.
  • the attribute/ID control unit 23 may generate the final input generation parameters in a number corresponding to the amount of data based on the amount of data as the target value. In such a case, cleansing in the annotation unit 25 may be taken into consideration, and more input generation parameters than the number indicated by the data amount may be generated.
  • a large amount of facial image data is generated by the decoder 24 based on the input generation parameters, and the obtained facial image data is labeled and cleansed with respect to the face ID and attributes.
  • a facial image dataset is generated. At this time, cleansing achieves satisfaction of customer requirements and equality.
  • FIG. 3 shows a more detailed flow of processing in the data generation device 11 when generating a face image dataset. Note that in FIG. 3, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • a real face image or a CG image is used as a seed image, for example, as shown in the upper left corner of the figure, and the seed image is converted into a generation parameter by the encoder 21 (parameter estimator). Then, the generated parameters are scrambled by the scrambling unit 22, that is, subjected to privacy filtering, and inputted to the attribute/ID control unit 23.
  • the attribute/ID control unit 23 gradually changes (increases or decreases) a predetermined parameter among a plurality of parameters that constitute the generation parameters supplied from the scrambling unit 22 by a predetermined value. , generates a plurality of input generation parameters from one generation parameter. At this time, by sequentially changing the parameters to be controlled (changed) in the generation parameters, more generation parameters for input can be generated.
  • the original seed image is increased in bulk, and more input generation parameters with more diverse attribute values and face IDs are obtained.
  • attribute/ID control unit 23 appropriately performs cleansing on the generation parameters of the plurality of preset facial images described with reference to FIG.
  • preset face images that do not look like a human face are removed from a group of preset face images, and preset faces with predetermined attribute values that are too large are removed to avoid biasing the distribution of attribute values. Images may be removed.
  • cleansing may be performed in response to a specified operation by the administrator, or based on a model such as an attribute estimator or a target value indicating customer requirements. Cleansing may be performed without requiring any operations.
  • the generated input generation parameters and the generation parameters of the preset face image after cleansing are blended and synthesized to generate a large amount of final input generation parameters, which are sent to the decoder 24. is input.
  • face image data is generated based on the input generation parameters supplied from the attribute/ID control unit 23, and an intermediate data set consisting of a plurality of generated face image data is supplied to the annotation unit 25.
  • the annotation unit 25 performs labeling (annotation) and cleansing on the facial image data that constitutes the supplied intermediate data set.
  • attribute labeling that is, attribute values are assigned to each face image data remaining after face ID cleansing, and the face image data to which attribute values have been assigned is cleansed, and finally A facial image data set consisting of the remaining facial image data is obtained.
  • random noise that is, randomly generated numerical values (random numbers) is added to the parameters of a specific layer among the multiple layers that make up the generation parameters, and the scrambled It is used as the generation parameter after
  • the part indicated by the arrow Q41 shows a face image based on scrambled generation parameters obtained by scrambling the generation parameters obtained from the seed image P11.
  • the numbers listed in the horizontal direction indicate the layer to which random noise has been added, among the layers that constitute the generation parameters.
  • the generation parameters are composed of a total of 18 layers from the 0th layer to the 17th layer.
  • seed0 seed0
  • seed4 seed4
  • the face image P12 is a face image obtained by adding (adding) random noise "seed0" to the sixth layer and the seventh layer in the generation parameters of the seed image P11.
  • the face image P13 is a face image obtained by adding random noise "seed3" to the 16th layer and the 17th layer in the generation parameters of the seed image P11.
  • the horizontal axis shows the layer to which random noise is added, and the vertical axis shows the degree of similarity.
  • the input generation parameters obtained from the seed image are input to the decoder 24, and an intermediate data set consisting of a plurality of face image data is generated.
  • each face image data constituting the intermediate data set is input to the face authenticator, and a facial feature amount vector of each face image data is output as a result of the calculation by the face authenticator.
  • This facial feature amount vector is a vector representing the appearance characteristics of the face included in the facial image data.
  • the annotation unit 25 performs feature clustering, such as DBSCAN (Density-Based Spatial Clustering of Applications with Noise), on all facial feature vectors obtained as output from the face authenticator. As a result, a face ID is assigned to each face image data that constitutes the intermediate data set. That is, face ID labeling is performed.
  • feature clustering such as DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
  • facial feature vectors V11 to V13 are obtained for the facial image data, that is, facial images P31 to P33, as shown by arrow Q62, for example.
  • the face ID "id0000" is assigned to all face images belonging to the face ID class including, for example, the face image P31 and the face image P32.
  • intra-class cleansing shown by arrow Q71 and inter-class cleansing shown by arrow Q72 are performed alternately.
  • face image data belonging to the face ID class to be processed is targeted, and feature clustering such as DBSCAN is performed in the same way as in labeling.
  • feature clustering such as DBSCAN
  • face image data belonging to classes other than the class containing the largest amount of face image data are deleted.
  • a face ID class consisting of four face images including face image P41 and face image P42 and whose face ID is "id0000" is targeted and intra-class cleansing is performed. Suppose that it happens.
  • feature quantity clustering is performed using four facial images as targets. Assume that as a result, three facial images including facial image P41 are classified into one class, and the remaining facial image P42 is classified into another class. Then, the face image P42 is deleted, and the class consisting of the face image data of the three face images including the face image P41, which has the largest number of face images, is the face ID class of the face ID "id0000" after intra-class cleansing. It is said that
  • the degree of similarity between any two face ID classes is calculated. Then, for example, if the degree of similarity between face ID classes is greater than 0.7, those two face ID classes are integrated into one new face ID class.
  • the face ID of the face ID class to which more face image data belongs is set as the face ID of the integrated face ID class.
  • the face ID class to which less face image data belongs will be selected. , More specifically, face image data belonging to that face ID class is deleted.
  • the annotation unit 25 repeats and alternates the above-described intra-class cleansing and inter-class cleansing a predetermined number of times or until convergence, and finally performs the above-described intra-class cleansing and inter-class cleansing on the face image data of each of the plurality of face ID classes. , which performs attribute labeling and cleansing.
  • the annotation unit 25 inputs each face image data subject to attribute labeling, that is, face image data belonging to the face ID class, to the attribute estimator and performs calculations.
  • the attribute value of the desired attribute of the face image data is obtained as an output. This means that the facial image data has been labeled with respect to the customer requirements, that is, the attributes indicated by the target values.
  • the face image data is labeled with age and gender as attributes.
  • the number written above each face image shown by arrow Q81 indicates the attribute value of the attribute "age” given to the face image (face image data), and the number written next to the number " "Male” or “Female” indicates the attribute value of the attribute "gender” given to the face image.
  • attribute statistical values indicating the distribution of attribute values are determined based on the attribute values of each face image data.
  • attribute statistical values for the attribute "age” indicated by arrow Q82 and attribute statistical values for the attribute "gender” indicated by arrow Q83 are determined.
  • cleansing of the facial image data is performed based on the attribute statistical value of each attribute obtained in this way and the target value.
  • the final attribute statistical value of a facial image dataset becomes the attribute statistical value indicated by the target value
  • the number (data amount) of facial image data making up the facial image dataset is data indicated by the target value.
  • Some face image data is deleted as appropriate to maintain the same amount of data.
  • the dataset consisting of the remaining facial image data is set as the final facial image dataset.
  • resolution conversion processing such as downsampling or upsampling may be performed on each face image data as necessary so that the resolution of the face image data becomes the resolution indicated by the target value. .
  • step S11 the encoder 21 calculates generation parameters of a plurality of various images by estimation by inputting the face image data of the supplied seed image into the parameter estimator and performs arithmetic processing, and uses the obtained generation parameters.
  • the signal is supplied to the scrambling section 22.
  • step S12 the scrambling unit 22 scrambles the various image generation parameters supplied from the encoder 21 and supplies the scrambled parameters to the attribute/ID control unit 23.
  • the scrambling unit 22 generates a scrambled generation parameter by adding random noise generated based on an arbitrary seed to a parameter of a specific layer of the generation parameter.
  • step S13 the attribute/ID control unit 23 increases the size of the generation parameter based on the generation parameter supplied from the scrambling unit 22, and uses the new generation parameter obtained as an input generation parameter to the decoder 24. supply to.
  • the attribute/ID control unit 23 generates a new plurality of input generation parameters from each of the generation parameters supplied from the scrambling unit 22, as described with reference to FIG. At this time, the attribute/ID control unit 23 changes the input generation parameters by, for example, changing specific parameters constituting the generation parameters by a predetermined value, or changing the parameter part to be controlled (changed). generate.
  • the attribute/ID control unit 23 performs cleansing on the generation parameters of a plurality of preset facial images prepared in advance based on target values, etc. as appropriate, and also cleanses the generation parameters of the preset facial images and the input generation parameters. are blended and synthesized and used as the final input generation parameters.
  • the attribute/ID control unit 23 changes the blend ratio of the blend synthesis by a predetermined value for each combination of the generation parameters of the preset face images to be synthesized and blended and the input generation parameters, for example, while changing the blend ratio of the blend synthesis by a predetermined value. Generate a large number of generation parameters.
  • step S14 the decoder 24 inputs the input generation parameters supplied from the attribute/ID control unit 23 to the face generator and performs arithmetic processing to generate face image data corresponding to each input generation parameter, It is supplied to the annotation section 25.
  • the decoder 24 may input the resolution indicated by the target value and the input generation parameter to the face generator to generate face image data having the resolution indicated by the target value.
  • a data set consisting of a large amount of face image data generated by the decoder 24 is supplied to the annotation unit 25 as a non-final, intermediate face image data set, that is, an intermediate data set.
  • step S15 the annotation unit 25 performs labeling and cleansing for the face ID and attributes based on the target value indicating customer requirements supplied from the outside and the intermediate data set supplied from the decoder 24.
  • the annotation unit 25 assigns a face ID to the face image data by calculating the face feature vector of each face image data using a face authentication device and performing feature clustering. do. Further, as described with reference to FIG. 6, for example, the annotation unit 25 cleanses the face ID by performing intra-class cleansing and inter-class cleansing on the face image data to which the face ID has been added. Note that, for example, when the number of face IDs is specified as the target value, the annotation unit 25 performs cleansing so that the number of face IDs in the set of face image data after cleansing becomes the number indicated by the target value. conduct.
  • the annotation unit 25 uses an attribute estimator to label the face image data after cleansing with respect to the face ID, and performs cleansing based on the target value. to generate the final face image dataset. At this time, the annotation unit 25 also performs resolution conversion processing on the face image data as necessary.
  • the annotation unit 25 creates an index file in which face IDs and attribute labels are linked to face image data, sample thumbnail images of face images, and each attribute based on the labeling results for face image data. Generate attribute statistics data file.
  • the annotation unit 25 generates a face image dataset file including the face image data, index file, sample thumbnail image, and attribute statistical value data file, and outputs it to a subsequent stage such as a recording unit.
  • a facial image dataset that protects privacy and meets customer requirements has been obtained.
  • a customer requirement target value
  • an attribute statistical value with an unbiased distribution of attribute values is specified, so the obtained facial image data set is a data set with equality.
  • the annotation unit 25 performs labeling and cleansing so that, for example, the distribution of attribute values for each attribute is uniform and a predetermined number of face image data is obtained. By doing so, it is possible to protect privacy and obtain a facial image data set that has an unbiased distribution of attribute values.
  • the data generation device 11 digitizes the seed image, increases the resulting generation parameters, generates face image data based on the input generation parameters, and generates the face image data. Label and cleanse your data.
  • a facial image dataset suitable for learning an AI model that is, a facial image dataset that protects privacy and has equality, at a low cost.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware and, for example, a general-purpose personal computer that can execute various functions by installing various programs.
  • FIG. 9 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504.
  • An input section 506 , an output section 507 , a recording section 508 , a communication section 509 , and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 executes the above-described series by, for example, loading a program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. processing is performed.
  • a program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example. Additionally, programs may be provided via wired or wireless transmission media, such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. Other programs can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, in parallel, or at necessary timing such as when a call is made. It may also be a program that performs processing.
  • embodiments of the present technology are not limited to the embodiments described above, and various changes can be made without departing from the gist of the present technology.
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • the data generation device By changing part or all of the generation parameters obtained by digitizing the seed image of an arbitrary face, a number of input generation parameters greater than the predetermined number can be obtained from the generation parameters of the predetermined number of the seed images.
  • a data generation method comprising the step of generating face image data based on a plurality of input generation parameters to generate a face image data set including a plurality of said face image data.
  • the data generation device generates a plurality of input generation parameters from one generation parameter by increasing or decreasing some or all of the plurality of parameters constituting the generation parameter (1 ) Data generation method described in .
  • the data generation device generates the final input generation parameters by blending and synthesizing the input generation parameters and the generation parameters of a preset face image prepared in advance.
  • (1) to (3) The data generation method according to any one of the above.
  • (5) The data generation method according to (4), wherein the preset face image is a fictitious face image.
  • the data generation device performs cleansing on the generation parameters of the plurality of preset face images, and blends and synthesizes the generation parameters of the preset face images after cleansing and the input generation parameters.
  • (4) or (5) Data generation method described in .
  • the data generation device scrambles the generation parameters of the seed image and generates the input generation parameters based on the scrambled generation parameters.
  • Data generation method (8) The data generation method according to (7), wherein the data generation device performs scrambling by adding random noise to the parameters of a specific layer among the plurality of layers that constitute the generation parameters of the seed image. (9) The data generation device performs labeling and cleansing on the face image data set regarding face IDs or attributes, and generates the final face image data set. (1) Any one of (8) above. Data generation method described in. (10) The data generation method according to (9), wherein the data generation device generates the final face image data set that satisfies predetermined requirements by performing cleansing on the face image data set.
  • the predetermined requirement is the number of facial image data constituting the facial image data set, the resolution of the facial image data, a labeling attribute, or a statistical value of an attribute value of an attribute of the facial image data.
  • a parameter generation unit that generates A data generation device comprising: a data set generation unit that generates a face image data set including a plurality of the face image data by generating face image data based on each of the plurality of input generation parameters.
  • a number of input generation parameters greater than the predetermined number can be obtained from the generation parameters of the predetermined number of the seed images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術は、AIモデルの学習に適した顔画像データセットを得ることができるようにするデータ生成装置および方法、並びにプログラムに関する。 データ生成装置は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の種画像の生成パラメータから、所定数よりも多い数の入力用生成パラメータを生成し、複数の各入力用生成パラメータに基づいて顔画像データを生成することで、複数の顔画像データからなる顔画像データセットを生成する。本技術はデータ生成装置に適用することができる。

Description

データ生成装置および方法、並びにプログラム
 本技術は、データ生成装置および方法、並びにプログラムに関し、特に、AIモデルの学習に適した顔画像データセットを得ることができるようにしたデータ生成装置および方法、並びにプログラムに関する。
 従来、AI(Artificial Intelligence)顔認識器等のAIモデルの学習に用いられている著名な顔画像データセットは、web収集や実測によって集められた実在する顔の画像データで構築されている。
 また、顔画像データセットの構築に関する技術として、実在する顔の画像(実顔画像)を複数用意し、それらの複数の実顔画像同士を合成することで顔画像データセットを構築する技術も提案されている(例えば、特許文献1参照)。
国際公開第2015/033431号
 しかしながら、上述した技術では、AIモデルの学習に適した顔画像データセット、具体的にはプライバシが保護された、平等性を有する顔画像データセットを得ることは困難であった。
 例えばweb収集や実測によって集められた実在する顔の画像データからなる顔画像データセットは、プライバシの観点から適切であるとはいえず、倫理的リスクが大きい。
 特に、近年では、GDPR(General Data Protection Regulation)などのプライバシへの法規制やAI公平性への規制が国内外で進んでおり、実顔画像データで構築されたデータセットは規制により公開停止されたり商用利用が難しくなったりする傾向にある。
 また、web収集等による実在する顔の顔画像データセットや、特許文献1に記載の技術による顔画像データセットの構築にあたっては、実顔画像のみが用いられるため、構築コストが大きいだけでなく平等性を確保することが困難である。
 すなわち、適切なAIモデルの学習のためには、年齢や性別などの各属性の統計的な偏りの少ない顔画像データセット、つまり平等性を有する顔画像データセットが必要となるが、そのような偏りの少ない実顔画像の収集は現実的に困難である。
 本技術は、このような状況に鑑みてなされたものであり、AIモデルの学習に適した顔画像データセットを得ることができるようにするものである。
 本技術の一側面のデータ生成方法は、データ生成装置が、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するステップを含む。
 本技術の一側面のプログラムは、本技術の一側面のデータ生成方法に対応するプログラムである。
 本技術の一側面のデータ生成装置は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部とを備える。
 本技術の一側面においては、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータが生成され、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットが生成される。
データ生成装置の構成例を示す図である。 顔画像データセットの生成のアプローチについて説明する図である。 顔画像データセット生成時における処理の流れについて説明する図である。 生成パラメータのスクランブル化について説明する図である。 顔IDのラベリングについて説明する図である。 顔IDのクレンジングについて説明する図である。 属性のラベリングとクレンジングについて説明する図である。 データセット生成処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術では、実顔画像を用いず、すなわち実顔画像の顔画像データを含まず、顔生成器により生成された架空の顔の顔画像データのみからなる顔画像データセットが構築される。これにより、プライバシが保護された、すなわち個人情報フリーな顔画像データセットを得ることができる。
 また、本技術では、予め用意した種画像(入力画像)から得られた生成パラメータの一部または全部を変更することで、顔画像データセットを生成するための種画像が大量にかさ増しされるとともに、顔のバリエーションが増加するようにされる。
 生成パラメータは、人の顔の目や色、髪型などの顔の特徴、特に顔の見た目の特徴を潜在的に内包する複数のパラメータからなり、この生成パラメータを顔生成器に入力することで、顔生成器の出力として顔画像(顔画像データ)を得ることができる。このような生成パラメータは、潜在変数とも呼ばれている。
 さらに、本技術では、大量にかさ増しされた種画像の生成パラメータが顔生成器に入力されて顔画像データが生成され、得られた複数の顔画像データに対して、ラベリングとクレンジングが行われ、顔画像データセットが得られる。
 ラベリングでは、顔画像データに対して、その顔画像データに基づく顔画像が有する属性の属性値と顔IDが付与される。特にラベリングでは、人手を介することなく、自動的に属性値と顔IDの付与、すなわちアノテーションが行われる。
 ここでいう属性とは、例えば年齢、性別、表情、目の形、髪の色など、顔画像により示される顔が有する特徴(顔の見た目を表す特徴)であり、顔IDとは顔画像により示される顔を識別する識別IDである。例えば同じ顔IDが付与された顔は互いに類似する顔、すなわち同一人物の顔であるとされる。
 また、クレンジングでは、顔画像データセットを構成する顔画像データが有する属性の属性値の統計値(分布)や、顔IDの数、顔画像データの解像度、顔画像データセットを構成する顔画像データの数(データ量)が所望の統計値や解像度、データ量となるようにされる。具体的には、例えば顔画像データの間引き、すなわち一部の顔画像データの削除や、顔画像データのダウンサンプリングやアップサンプリングなどが行われる。
 このように、種画像のかさ増しやラベリング、クレンジングを行うことで、顔画像データセットの属性等の統計的な偏りを少なくする、すなわち平等性を実現したり、AI開発者等の顧客が求めるデータ量や解像度、属性、統計値に沿った顔画像データセットを低コストで構築したりすることができる。
 特に、種画像のかさ増しにおいては、顔画像自体を編集するのではなく、生成パラメータを制御する、すなわち生成パラメータの一部や全部を変更することで、様々な属性(属性値)や顔IDを有するバリエーションに富んだ顔を生成することができる。
 しかも、生成パラメータの制御対象とする箇所によって、顔のどの特徴(属性)が変化するかが知られているので、生成パラメータを制御することで、目的の属性値となるように顔画像を変化させる(制御する)ことができる。したがって、実測では不足しがちな属性値を有する顔画像や、AI開発者等の顧客が求める属性や統計値に沿った顔画像を容易に生成することができ、顔画像データセットの構築コストを低く抑えることができる。
 例えば、実際の実施の形態の例として、かさ増しに用いられる種画像(入力画像)として、架空の顔画像や、顧客から提供される実顔画像などを用いることができる。
 また、最終的に得たい顔画像データセットのデータ量、解像度、属性、属性統計値(各属性の属性値の分布)などを顧客がターゲット値として指定し、そのターゲット値が入力(入力パラメータ)とされて顔画像データセットが生成されてもよい。
 最終的に得られる顔画像データセットのファイルには、顔画像データ、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイル、顔画像のサンプルサムネイル画像、各属性の属性統計値を示す属性統計値データファイルが含まれているようにしてもよい。
 このような場合、例えば顔画像データセットの生成プロセスにおいて、各種画像(入力画像)に対して、事前に用意しておいた数千枚のプリセット顔画像が合成されて、種画像に基づく顔と、プリセット顔画像の顔との中間の顔(中間顔)の顔画像が生成され、その顔画像が顔生成器の入力とされてもよい。
 このとき、種画像とプリセット顔画像との合成は、画像の合成ではなく生成パラメータの空間で行われる。すなわち、種画像の生成パラメータと、プリセット顔画像の生成パラメータとを合成することで、中間顔の顔画像の生成パラメータが生成される。
 例えば所定の見た目の特徴を有する顔画像Aの生成パラメータと、顔画像Aとは異なる見た目の特徴を有する顔画像Bの生成パラメータとの平均値を顔生成器の入力とすれば、顔画像Aと顔画像Bの中間の見た目の特徴を有する顔画像を得ることができる。
 また、より多くの属性バリエーションの顔を得るために、種画像やプリセット顔画像の生成パラメータが合成前に編集(制御)されるようにしてもよい。
 このようにして大量に得られた中間顔の顔画像の生成パラメータが顔生成器に入力されて、それらの中間顔の顔画像の生成パラメータに対応する顔画像データが生成される。
 その後、顔画像データに対して属性分類器等によりクラスタリングを行うことでラベリングが行われ、属性値の統計量、すなわち属性統計値が算出される。そして、算出された属性統計値と、ターゲット値、すなわち顧客により指定された属性統計値とが等しくなるようにクレンジングが行われ、最終的な顔画像データセットが生成される。
〈データ生成装置の構成例〉
 図1は、本技術を適用したデータ生成装置の一実施の形態の構成例を示す図である。
 図1に示すデータ生成装置11は、例えばパーソナルコンピュータなどからなり、入力された種画像とターゲット値に基づいて、顔画像データセットを生成する。一例として、例えばデータ生成装置11では、数百枚程度の種画像から、約5万枚の顔画像からなる顔画像データセットを構築することができる。
 データ生成装置11は、エンコーダ21、スクランブル化部22、属性/ID制御部23、デコーダ24、およびアノテーション部25を有している。
 例えばエンコーダ21には、予め用意された複数の種画像(入力画像)の画像データが供給される。上述のように種画像は、例えば顧客から提供された実顔画像や、顔生成器により生成された架空の顔の顔画像などとされる。
 エンコーダ21は、例えば顔画像の画像データを入力として、それぞれの顔画像に応じた生成パラメータ(潜在変数)、すなわち顔の特徴が数値データとして秘匿化された生成パラメータを出力するパラメータ推定器からなる。
 エンコーダ21は、供給された種画像の顔画像データに基づく演算処理を行うことで、入力された種画像を数値化し、数値化により得られた各種画像の生成パラメータをスクランブル化部22に供給する。
 例えば生成パラメータは、複数の各レイヤ(階層)のパラメータからなる。すなわち、生成パラメータは、複数のレイヤから構成され、各レイヤは予め定められた数のパラメータから構成されている。生成パラメータを構成するどのレイヤのパラメータを変更(制御)すれば、生成パラメータに基づき生成される顔画像(顔)のどの特徴(属性)が変化するかは既知となっている。
 エンコーダ21において、種画像の顔画像データを数値である生成パラメータに変換することで、種画像に含まれている顔に関する個人的な情報(特徴)がある程度希釈されるので、プライバシの保護を実現することができる。
 スクランブル化部22は、エンコーダ21から供給された各種画像の生成パラメータをスクランブル化し、属性/ID制御部23に供給する。例えば生成パラメータのスクランブル化では、生成パラメータに対して任意のランダムノイズが加算され、スクランブル化後の生成パラメータとされる。
 このように種画像の数値化により得られた生成パラメータをスクランブル化することで、生成パラメータから種画像が復元不能になるので、プライバシの保護をさらに強化することができる。
 属性/ID制御部23は、スクランブル化部22から供給された生成パラメータに基づいて、その生成パラメータの一部または全部が制御(変更)された新たな生成パラメータ(以下、入力用生成パラメータとも称する)を複数生成し、デコーダ24に供給する。
 換言すれば、属性/ID制御部23は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の種画像の生成パラメータから、その所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部として機能する。
 例えば、生成パラメータのうちの特定のパラメータだけを少しずつ変化させて、複数の入力用生成パラメータを生成することで、年齢等の各特徴(属性)が互いに異なる大量の顔画像の入力用生成パラメータを得ることができる。すなわち、顔の見た目の各特徴(属性)のバリエーションを増やすことができる。
 なお、後述するように、種画像から得られた入力用生成パラメータと、予め用意した任意のプリセット顔画像の生成パラメータとを合成し、最終的な入力用生成パラメータとしてもよい。
 デコーダ24は、例えば入力用生成パラメータを入力とし、顔画像データを出力とする顔生成器からなり、複数の各入力用生成パラメータに基づいて顔画像データを生成することで顔画像データセットを生成するデータセット生成部として機能する。
 顔生成器では、例えばGAN(Generative Adversarial Network)やVAE(Variational AutoEncoder)などの手法によって入力用生成パラメータが顔画像データに変換される。これにより、異なる入力用生成パラメータによって異なる見た目の特徴を有する顔の顔画像データが得られる。
 顔生成器を用いれば、フォトリアルな人工顔の顔画像を得ることができるだけでなく、生成パラメータを制御(変更)することで大量に異なる特徴を有する顔画像を生成することもできる。また、顔生成器では、指定された解像度の顔画像データを生成することも可能である。
 デコーダ24は、属性/ID制御部23から供給された入力用生成パラメータに基づく演算により、入力用生成パラメータに対応する顔画像データを生成し、アノテーション部25に供給する。
 アノテーション部25には、顧客の求める顔画像データセットの要件(以下、顧客要件とも称する)を示すターゲット値が供給される。
 上述のようにターゲット値は、例えば顧客により指定された、顔画像データセットを構成する顔画像データのデータ量(数)、顔画像データの解像度、ラベリング対象となる年齢等の属性、各属性の属性値の分布を示す属性統計値などである。すなわち、ターゲット値は、データ量、解像度、ラベリングを行う属性(ラベリングの属性)、および属性統計値のうちの少なくとも何れか1つを示すものなどとされる。
 アノテーション部25は、供給されたターゲット値と、デコーダ24から供給された顔画像データとに基づいて、顧客要件を満たす顔画像データセットを生成(構築)し、図示せぬ記録部等の後段に出力する。
 すなわち、アノテーション部25は、顔画像データセット(顔画像データ)に対して属性と顔IDについてのラベリングとクレンジング(クリーニング)を行い、顧客要件を満たす最終的な顔画像データセットを生成する。
 特にアノテーション部25では、既存の任意のクラスタリング手法や類似度算出手法、予め学習により得られた属性推定器などを用いることで、管理者の指定操作等を必要とせずに、すなわち人手を必要とせずにラベリングとクレンジングを行うことができる。
 クレンジングは、複数の顔画像データにおける属性等の統計的なデータの偏り(バイアス)を除去するバイアス除去処理である。具体的には、例えばクレンジングでは、ターゲット値により示される属性統計値となるように、顔画像データセットを構成するいくつかの顔画像データが削除(除去)され、属性統計値の調整が行われる。
 なお、より詳細にはアノテーション部25は、顔画像データ、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイル、顔画像のサンプルサムネイル画像、および各属性の属性統計値を示す属性統計値データファイルを含む顔画像データセットのファイル(顔画像データセットファイル)を生成する。
〈顔画像データセットの生成について〉
 続いて、データ生成装置11の各部で行われる処理、すなわち顔画像データセットの生成について、より詳細に説明する。
 データ生成装置11では、大まかに図2に示すアプローチで顔画像データセットが生成される。
 すなわち、まず矢印Q11に示すように、複数の種画像が用意される。種画像は、例えば顧客から提供された実顔画像や、業務委託等により生成された架空の顔の顔画像、すなわちCG(Computer Graphics)画像などとされる。
 例えば、種画像として実顔画像を利用する場合、種画像として用意可能な数は少数であるが、高精度な顔画像、すなわち顔として正常な顔の画像を用いることができる。但し、種画像として実顔画像を用いる場合には、プライバシ保護の対策が必要であり、その対策としてデータ生成装置11では、エンコーダ21による数値化や、スクランブル化部22におけるスクランブル化が行われる。
 また、最終的な入力用生成パラメータの生成にプリセット顔画像が利用される場合、例えば矢印Q12に示すように、大量の架空の顔画像(架空顔画像)が用意される。これらの架空顔画像は、例えば任意の顔生成器がランダムに生成した顔画像などとされる。
 顔生成器により架空顔画像を生成すれば、容易に大量の顔画像を用意することができるが、顔生成器によりランダムに生成された架空顔画像のなかには、低精度な顔画像、すなわち、顔らしさが低い異常な顔画像も含まれる。また、ランダムに生成した複数の架空顔画像には、例えば日本人顔などの所望の特徴(属性)を有する顔画像が十分な数だけ含まれていない可能性もある。
 そこで、例えば矢印Q12に示した架空顔画像群に対して、低精度な架空顔画像(適切ではない架空顔画像)の除去、すなわち架空顔画像の選別を行ったり、架空顔画像が所望の特徴を有する顔の画像となるように、架空顔画像に対する編集を行ったりして、矢印Q13に示す複数のプリセット顔画像のセットが生成される。
 例えば、プリセット顔画像を得るための架空顔画像に対する編集は、架空顔画像の生成パラメータを構成する所定のパラメータの変更などにより実現することができる。
 属性/ID制御部23では、このようにして予め用意された架空顔画像であるプリセット顔画像の生成パラメータと、種画像から得られた入力用生成パラメータとがブレンド合成されて、最終的な入力用生成パラメータとされる。
 ブレンド合成では、例えばプリセット顔画像の生成パラメータと、入力用生成パラメータとが所定の重みに基づき重み付き加算される。この場合、重みを1/2とすれば、プリセット顔画像の生成パラメータと、入力用生成パラメータとの平均値が最終的な入力用生成パラメータとして得られる。
 以上のようなブレンド合成により、最終的な入力用生成パラメータとして、デコーダ24の入力として適切なパラメータを高精度かつ大量に生成することができる。
 特に、ここでは、少なくとも各種画像から生成した複数の入力用生成パラメータと、複数の各プリセット顔画像の生成パラメータとの組み合わせの数だけ、最終的な入力用生成パラメータを生成することができる。また、ブレンド合成におけるブレンド比率(重み)を変えることで、さらに多くの入力用生成パラメータを生成することができる。
 なお、属性/ID制御部23が、ターゲット値としてのデータ量に基づいて、そのデータ量に応じた数だけ最終的な入力用生成パラメータを生成するようにしてもよい。そのような場合、アノテーション部25におけるクレンジングも考慮されて、データ量により示される数より多めの入力用生成パラメータが生成されるようにすればよい。
 また、入力用生成パラメータが得られると、デコーダ24により入力用生成パラメータに基づき顔画像データが大量に生成され、得られた顔画像データに対して顔IDと属性についてラベリングとクレンジングが行われ、顔画像データセットが生成される。このとき、クレンジングによって顧客要件の充足や平等性が実現される。
 データ生成装置11における、顔画像データセット生成時におけるより詳細な処理の流れを図3に示す。なお、図3において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図3の例では、例えば図中、左上に示すように実顔画像やCG画像が種画像とされ、その種画像がエンコーダ21(パラメータ推定器)により生成パラメータに変換される。そして、それらの生成パラメータがスクランブル化部22でスクランブル化、すなわちプライバシフィルタリングされ、属性/ID制御部23へと入力される。
 このとき、プライバシ保護の観点から、種画像としての実顔画像に対してはスクランブル化を行った方がよりよいが、種画像としてのCG画像に対しては必ずしもスクランブル化を行う必要はない。
 以上のスクランブル化までの処理によって、少数ではあるが高精度な(人の顔らしい)架空の顔画像の生成パラメータを得ることができる。
 属性/ID制御部23は、例えばスクランブル化部22から供給された生成パラメータを構成する複数のパラメータのうちの所定のパラメータを所定の値ずつ段階的に変化(増加または減少)させていくことで、1つの生成パラメータから複数の入力用生成パラメータを生成する。このとき、生成パラメータにおける制御(変更)するパラメータを順次変化させていくことで、さらに多くの入力用生成パラメータを生成することができる。
 これにより、もとの種画像が大量にかさ増しされて、より多様な属性値や顔IDを有する、より多くの入力用生成パラメータが得られる。
 なお、生成パラメータの制御には、ターゲット値として顧客により指定された属性やデータ量、属性統計値などが必要に応じて用いられるようにしてもよい。このようなターゲット値に基づき生成パラメータの制御を行えば、必要な属性や枚数の顔画像データを確実に得ることができるので、低コストで確実に顧客要件を満たすことができる。
 また、属性/ID制御部23では、図2を参照して説明した複数のプリセット顔画像の生成パラメータに対して、適宜、クレンジングが行われる。
 例えばクレンジングでは、プリセット顔画像群のうち、人の顔らしくない低精度なプリセット顔画像が除去されたり、属性値の分布に偏りが生じないように、枚数が多すぎる所定の属性値のプリセット顔画像が除去されたりする。
 属性/ID制御部23では、管理者による指定操作等に応じてクレンジングが行われるようにしてもよいし、属性推定器等のモデルや、顧客要件を示すターゲット値に基づいて、管理者による指定操作等を必要とせずにクレンジングが行われるようにしてもよい。
 例えばプリセット顔画像のクレンジングにおいても、ターゲット値を用いれば、入力用生成パラメータの生成時と同様に、低コストで確実に顧客要件を満たすことができるようになる。
 さらに属性/ID制御部23では、生成された入力用生成パラメータと、クレンジング後のプリセット顔画像の生成パラメータとがブレンド合成されて、大量の最終的な入力用生成パラメータが生成され、デコーダ24に入力される。
 このとき、ブレンド合成のブレンド比率や、合成対象とする入力用生成パラメータとプリセット顔画像の生成パラメータの組み合わせが変えられて大量の入力用生成パラメータが生成される。これにより、属性値等の偏りが少なく、より多様な属性値や顔IDを有する、さらに多くの入力用生成パラメータを低コストで得ることができる。
 デコーダ24では属性/ID制御部23から供給された入力用生成パラメータに基づいて顔画像データが生成され、生成された複数の顔画像データからなる中間データセットがアノテーション部25に供給される。
 アノテーション部25では、供給された中間データセットを構成する顔画像データに対してラベリング(アノテーション)とクレンジングが行われる。
 具体的には、例えば顔画像データに対して顔IDを付与する顔IDのラベリングが行われた後、顔IDが付与された顔画像データのクレンジングが行われる。
 さらに、顔IDについてのクレンジングにより残った各顔画像データに対して、属性のラベリング、すなわち属性値の付与が行われるとともに、属性値が付与された顔画像データのクレンジングが行われ、最終的に残った顔画像データからなる顔画像データセットが得られる。これにより、プライバシが保護され、顔画像の精度(人らしさ)や平等性が保証された顧客要件を満たす顔画像データセット、すなわち、AIモデルの学習に適した顔画像データセットを得ることができる。
 ところで、種画像の生成パラメータのスクランブル化においては、生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータに対してランダムノイズ、すなわちランダムに生成された数値(乱数)が加算され、スクランブル化後の生成パラメータとされる。
 このとき、生成パラメータに加算(付加)するランダムノイズを複数個生成し、ランダムノイズごとに生成パラメータへの加算処理を行うことで、1つの生成パラメータから、互いに顔の類似度が低い、すなわち別人度合いが高い複数の新たな生成パラメータを得ることができる。換言すれば、1つの生成パラメータと、複数個のランダムノイズとから、互いに顔IDが異なる(顔ID間の距離が大きい)複数のスクランブル化後の生成パラメータを得ることができる。
 ここで、図4を参照して、スクランブル化において特定のレイヤにランダムノイズを付加したときのもとの種画像の顔との類似度の例について説明する。
 この例では、所定の種画像P11が用いられて生成パラメータが求められ、その生成パラメータのスクランブル化が行われるものとする。
 矢印Q41に示す部分には、種画像P11から得られた生成パラメータをスクランブル化することで得られた、スクランブル化後の生成パラメータに基づく顔画像が示されている。
 矢印Q41に示す部分における図中、横方向に並べられて記されている数値は、生成パラメータを構成するレイヤのうち、ランダムノイズが加算されたレイヤを示している。ここでは、生成パラメータは、第0レイヤから第17レイヤまでの合計18個のレイヤから構成されている。
 また、矢印Q41に示す部分における図中、縦方向に並べられて記されている文字「seed0」乃至「seed4」は、ランダムノイズの生成に用いられたシード(数値)を表している。以下では、例えばシード「seed0」により生成されたランダムノイズをランダムノイズ「seed0」などとも記すこととする。
 例えば顔画像P12は、種画像P11の生成パラメータにおける第6レイヤおよび第7レイヤに対してランダムノイズ「seed0」を付加(加算)することで得られた顔画像である。同様に、例えば顔画像P13は、種画像P11の生成パラメータにおける第16レイヤおよび第17レイヤに対してランダムノイズ「seed3」を付加することで得られた顔画像である。
 矢印Q41に示す部分における各顔画像を見ると、第0レイヤ乃至第3レイヤにランダムノイズを付加すると姿勢や髪型などが変化し、第4レイヤ乃至第7レイヤにランダムノイズを付加すると目などの顔の特徴が変化することが分かる。また、第8レイヤ乃至第17レイヤにランダムノイズを付加すると顔の色が変化することが分かる。
 このようなスクランブル化により得られた各顔画像と、もとの種画像P11との類似度を顔認証器により計算したところ、矢印Q42に示す結果が得られた。
 矢印Q42に示す部分において、横軸はランダムノイズを付加したレイヤを示しており、縦軸は類似度を示している。
 この例では、ランダムノイズのシードによらず、第4レイヤ乃至第9レイヤのうちの任意のレイヤに対してランダムノイズを付加したときに類似度が大幅に低下し、もとの種画像P11の顔とは異なる見た目の特徴を有する顔が得られることが分かる。したがって、第4レイヤ乃至第9レイヤのうちの1または複数の任意のレイヤをランダムノイズの付加対象とすれば、より効果的にスクランブル化を行うことができることが分かる。
 続いて、図3を参照して説明した顔IDと属性のラベリングおよびクレンジングについて説明する。
 例えば図5の矢印Q61に示すように、種画像から得られた入力用生成パラメータがデコーダ24に入力され、複数の顔画像データからなる中間データセットが生成される。
 すると、アノテーション部25では、中間データセットを構成する各顔画像データが顔認証器に入力され、顔認証器での演算の結果として各顔画像データの顔特徴量ベクトルが出力される。この顔特徴量ベクトルは、顔画像データが有する顔の見た目の特徴を表すベクトルである。
 アノテーション部25は、顔認証器の出力として得られた全ての顔特徴量ベクトルを対象として、例えばDBSCAN(Density-Based Spatial Clustering of Applications with Noise)等の特徴量クラスタリングを行う。これにより、中間データセットを構成する各顔画像データに対して顔IDが付与される。すなわち、顔IDのラベリングが行われる。
 具体的には、例えば矢印Q62に示すように、顔画像データ、すなわち顔画像P31乃至顔画像P33について顔特徴量ベクトルV11乃至顔特徴量ベクトルV13が得られたとする。
 このとき、顔画像P31乃至顔画像P33のうち、互いに顔特徴量ベクトル間のコサイン距離が近いもの同士が同じ顔IDクラスに分類される。そして、矢印Q63に示すように同じ顔IDクラスに属す顔画像(顔画像データ)に対して同じ顔IDが付与される。
 この例では、例えば顔画像P31や顔画像P32を含む顔IDクラスに属す全ての顔画像に対して、顔ID「id0000」が付与されている。
 このようにして、中間データセットを構成する各顔画像データが何れかの顔IDクラスに分類されると、例えば図6に示すように顔IDについてのクレンジングが行われる。
 具体的には、顔IDについてのクレンジングでは、矢印Q71に示すクラス内クレンジングと、矢印Q72に示すクラス間クレンジングとが交互に行われる。
 すなわち、クラス内クレンジングでは、処理対象の顔IDクラスに属す顔画像データが対象とされて、ラベリング時と同様のDBSCAN等の特徴量クラスタリングが行われる。そして、その結果として複数のクラスが得られたときには、最も多くの顔画像データからなるクラス以外の他のクラスに属す顔画像データが削除される。
 具体的には、例えば矢印Q73に示すように、顔画像P41および顔画像P42を含む4つの顔画像からなり、顔IDが「id0000」である顔IDクラスが対象とされてクラス内クレンジングが行われるとする。
 この場合、4つの顔画像が対象とされて特徴量クラスタリングが行われる。そして、その結果、顔画像P41を含む3つの顔画像が1つのクラスに分類され、残りの1つの顔画像P42が他のクラスに分類されたとする。すると、顔画像P42が削除され、属する顔画像の数が最も多い、顔画像P41を含む3つの顔画像の顔画像データからなるクラスが、クラス内クレンジング後の顔ID「id0000」の顔IDクラスとされる。
 また、矢印Q72に示すクラス間クレンジングでは、任意の2つの顔IDクラス間の類似度が計算される。そして、例えば顔IDクラス間の類似度が0.7より大きい場合、それらの2つの顔IDクラスが統合され、1つの新たな顔IDクラスとされる。
 このとき、例えば、属している顔画像データがより多い顔IDクラスの顔IDが、統合後の顔IDクラスの顔IDとされる。
 また、例えば2つの顔IDクラス間の類似度が0.5より大きく、かつ0.7以下である場合には、それらの2つの顔IDクラスのうち、属している顔画像データがより少ない方の顔IDクラス、より詳細にはその顔IDクラスに属す顔画像データが削除される。
 一方、例えば2つの顔IDクラス間の類似度が0.5以下であるときには、それらの2つの顔IDクラスは、そのまま残される。
 アノテーション部25は、以上のようなクラス内クレンジングとクラス間クレンジングを、所定の回数だけ、または収束するまで繰り返し交互に行い、最終的に残った複数の各顔IDクラスの顔画像データに対して、属性のラベリングとクレンジングを行う。
 具体的には、アノテーション部25は、例えば図7に示すように、属性のラベリング対象となる各顔画像データ、すなわち顔IDクラスに属す顔画像データを属性推定器に入力して演算を行い、出力として顔画像データの所望の属性の属性値を得る。これにより、顧客要件、すなわちターゲット値により示される属性について、顔画像データに対するラベリングが行われたことになる。
 この例では、例えば矢印Q81に示すように、顔画像データに対して属性としての年齢および性別のラベリングが行われる。特に、矢印Q81に示す各顔画像の上側に記された数値は、顔画像(顔画像データ)に付与された属性「年齢」の属性値を示しており、数値の横に記された文字「男性」または「女性」は、顔画像に付与された属性「性別」の属性値を示している。
 また、属性のラベリングが行われると、その後、各顔画像データの属性値に基づき、属性値の分布を示す属性統計値が求められる。この例では、矢印Q82に示す属性「年齢」についての属性統計値と、矢印Q83に示す属性「性別」についての属性統計値が求められる。
 さらに、このようにして求められた各属性の属性統計値と、ターゲット値とに基づいて、顔画像データのクレンジングが行われる。
 すなわち、例えば顔画像データセットの最終的な属性統計値が、ターゲット値により示される属性統計値となり、かつ顔画像データセットを構成する顔画像データの数(データ量)がターゲット値により示されるデータ量となるように、適宜、いくつかの顔画像データが削除される。そして、残った顔画像データからなるデータセットが最終的な顔画像データセットとされる。なお、このとき、顔画像データの解像度が、ターゲット値により示される解像度となるように、必要に応じて各顔画像データに対してダウンサンプリングやアップサンプリング等の解像度変換処理が施されてもよい。
 以上の処理により、最終的に顧客要件を満たす顔画像データセットが得られる。
〈データセット生成処理の説明〉
 最後に、データ生成装置11により行われるデータセット生成処理について説明する。すなわち、以下、図8のフローチャートを参照して、データ生成装置11によるデータセット生成処理について説明する。
 ステップS11においてエンコーダ21は、供給された種画像の顔画像データをパラメータ推定器に入力して演算処理を行うことで、推定により複数の各種画像の生成パラメータを算出し、得られた生成パラメータをスクランブル化部22に供給する。
 ステップS12においてスクランブル化部22は、エンコーダ21から供給された各種画像の生成パラメータをスクランブル化し、属性/ID制御部23に供給する。
 例えばスクランブル化部22は、生成パラメータの特定のレイヤのパラメータに対して、任意のシードに基づき生成されたランダムノイズを加算することで、スクランブル化後の生成パラメータを生成する。
 このとき、例えば複数のランダムノイズごとにスクランブル化を行ったり、ランダムノイズを加算するレイヤを変えたりすることで、1つの生成パラメータから、複数のスクランブル化後の生成パラメータが生成されるようにしてもよい。また、種画像が架空顔画像である場合には、特にスクランブル化は行われなくてもよい。
 ステップS13において属性/ID制御部23は、スクランブル化部22から供給された生成パラメータに基づいて、生成パラメータのかさ増しを行い、その結果得らえた新たな生成パラメータを入力用生成パラメータとしてデコーダ24に供給する。
 例えば属性/ID制御部23は、図3を参照して説明したように、スクランブル化部22から供給された各生成パラメータのそれぞれから、新たな複数の入力用生成パラメータを生成する。このとき、属性/ID制御部23は、例えば生成パラメータを構成する特定のパラメータを所定の値ずつ変化させたり、制御する(変化させる)パラメータ部分を変化させたりすることで、入力用生成パラメータを生成する。
 さらに、属性/ID制御部23は、予め用意した複数のプリセット顔画像の生成パラメータに対して、適宜、ターゲット値等に基づきクレンジングを行うとともに、プリセット顔画像の生成パラメータと、入力用生成パラメータとをブレンド合成し、最終的な入力用生成パラメータとする。
 このとき、属性/ID制御部23は、例えば合成ブレンドするプリセット顔画像の生成パラメータと入力用生成パラメータとの組み合わせごとに、ブレンド合成のブレンド比率を所定値ずつ変化させながら、最終的な入力用生成パラメータを大量に生成する。
 ステップS14においてデコーダ24は、属性/ID制御部23から供給された入力用生成パラメータを顔生成器に入力して演算処理を行うことで各入力用生成パラメータに対応する顔画像データを生成し、アノテーション部25に供給する。
 この場合、例えばデコーダ24が、ターゲット値により示される解像度と、入力用生成パラメータとを顔生成器に入力し、ターゲット値により示される解像度の顔画像データを生成するようにしてもよい。
 デコーダ24により生成された大量の顔画像データからなるデータセットが、最終的ではない中間の顔画像データセット、すなわち中間データセットとしてアノテーション部25に供給される。
 ステップS15においてアノテーション部25は、外部から供給された顧客要件を示すターゲット値と、デコーダ24から供給された中間データセットとに基づいて、顔IDと属性についてのラベリングおよびクレンジングを行う。
 例えばアノテーション部25は、図5を参照して説明したように、顔認証器により各顔画像データの顔特徴量ベクトルを算出して特徴量クラスタリングを行うことで、顔画像データに顔IDを付与する。また、アノテーション部25は、例えば図6を参照して説明したように、顔IDを付与した顔画像データに対してクラス内クレンジングとクラス間クレンジングを行うことで、顔IDについてのクレンジングを行う。なお、例えばターゲット値として顔IDの数が指定されている場合には、アノテーション部25は、クレンジング後の顔画像データのセットにおける顔IDの数がターゲット値により示される数となるようにクレンジングを行う。
 さらにアノテーション部25は、例えば図7を参照して説明したように、顔IDについてのクレンジング後の顔画像データに対して属性推定器による属性の付与(ラベリング)を行うとともに、ターゲット値に基づくクレンジングを行い、最終的な顔画像データセットを生成する。このとき、必要に応じてアノテーション部25は顔画像データに対する解像度変換処理も行う。
 より詳細には、アノテーション部25は、顔画像データに対するラベリング結果等に基づいて、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイルや、顔画像のサンプルサムネイル画像、各属性の属性統計値データファイルを生成する。
 そして、アノテーション部25は、それらの顔画像データ、インデックスファイル、サンプルサムネイル画像、および属性統計値データファイルを含む顔画像データセットファイルを生成し、記録部等の後段に出力する。
 これにより、プライバシが保護され、かつ顧客要件を満たす顔画像データセットが得られたことになる。一般的に顧客要件(ターゲット値)として、属性値の分布の偏りのない属性統計値が指定されることから、得られる顔画像データセットは平等性を有するデータセットとなる。
 なお、必ずしも顧客要件が指定される必要はない。顧客要件がない場合には、例えば各属性について属性値の分布が均等であり、かつ予め定めた顔画像データ数となるようにアノテーション部25でのラベリングおよびクレンジングが行われる。そうすることで、プライバシが保護され、かつ属性値の分布の偏りのない平等性を有する顔画像データセットを得ることができる。
 このようにして最終的な顔画像データセットが得られると、データセット生成処理は終了する。
 以上のようにしてデータ生成装置11は、種画像を数値化し、その結果得られた生成パラメータをかさ増して得られた入力用生成パラメータに基づき顔画像データを生成するとともに、得られた顔画像データに対してラベリングとクレンジングを行う。
 このようにすることで、AIモデルの学習に適した顔画像データセット、すなわちプライバシが保護された、平等性を有する顔画像データセットを低コストで得ることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 データ生成装置が、
 任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
 複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
 ステップを含むデータ生成方法。
(2)
 前記データ生成装置は、前記生成パラメータを構成する複数のパラメータのうちの一部または全部を増加または減少させていくことで、1つの前記生成パラメータから複数の前記入力用生成パラメータを生成する
 (1)に記載のデータ生成方法。
(3)
 前記データ生成装置は、前記生成パラメータを構成する特定のパラメータを変化させることで、前記入力用生成パラメータを生成する
 (1)または(2)に記載のデータ生成方法。
(4)
 前記データ生成装置は、前記入力用生成パラメータと、予め用意されたプリセット顔画像の前記生成パラメータとをブレンド合成することで、最終的な前記入力用生成パラメータを生成する
 (1)乃至(3)の何れか一項に記載のデータ生成方法。
(5)
 前記プリセット顔画像は、架空顔画像である
 (4)に記載のデータ生成方法。
(6)
 前記データ生成装置は、複数の前記プリセット顔画像の前記生成パラメータに対するクレンジングを行い、クレンジング後の前記プリセット顔画像の前記生成パラメータと、前記入力用生成パラメータとをブレンド合成する
 (4)または(5)に記載のデータ生成方法。
(7)
 前記データ生成装置は、前記種画像の前記生成パラメータをスクランブル化し、スクランブル化された前記生成パラメータに基づいて前記入力用生成パラメータを生成する
 (1)乃至(6)の何れか一項に記載のデータ生成方法。
(8)
 前記データ生成装置は、前記種画像の前記生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータにランダムノイズを加算することでスクランブル化を行う
 (7)に記載のデータ生成方法。
(9)
 前記データ生成装置は、前記顔画像データセットに対して、顔IDまたは属性についてのラベリングおよびクレンジングを行い、最終的な前記顔画像データセットを生成する
 (1)乃至(8)の何れか一項に記載のデータ生成方法。
(10)
 前記データ生成装置は、前記顔画像データセットに対するクレンジングを行うことで、所定の要件を満たす前記最終的な前記顔画像データセットを生成する
 (9)に記載のデータ生成方法。
(11)
 前記所定の要件は、前記顔画像データセットを構成する前記顔画像データの数、前記顔画像データの解像度、ラベリングの属性、または前記顔画像データの属性の属性値の統計値である
 (10)に記載のデータ生成方法。
(12)
 前記データ生成装置は、前記種画像を数値化することで、前記種画像に応じた前記生成パラメータを生成する
 (1)乃至(11)の何れか一項に記載のデータ生成方法。
(13)
 前記データ生成装置は、前記入力用生成パラメータに基づいて、GANまたはVAEにより前記顔画像データを生成する
 (1)乃至(12)の何れか一項に記載のデータ生成方法。
(14)
 任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、
 複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部と
 を備えるデータ生成装置。
(15)
 任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
 複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 データ生成装置, 21 エンコーダ, 22 スクランブル化部, 23 属性/ID制御部, 24 デコーダ, 25 アノテーション部

Claims (15)

  1.  データ生成装置が、
     任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
     複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
     ステップを含むデータ生成方法。
  2.  前記データ生成装置は、前記生成パラメータを構成する複数のパラメータのうちの一部または全部を増加または減少させていくことで、1つの前記生成パラメータから複数の前記入力用生成パラメータを生成する
     請求項1に記載のデータ生成方法。
  3.  前記データ生成装置は、前記生成パラメータを構成する特定のパラメータを変化させることで、前記入力用生成パラメータを生成する
     請求項1に記載のデータ生成方法。
  4.  前記データ生成装置は、前記入力用生成パラメータと、予め用意されたプリセット顔画像の前記生成パラメータとをブレンド合成することで、最終的な前記入力用生成パラメータを生成する
     請求項1に記載のデータ生成方法。
  5.  前記プリセット顔画像は、架空顔画像である
     請求項4に記載のデータ生成方法。
  6.  前記データ生成装置は、複数の前記プリセット顔画像の前記生成パラメータに対するクレンジングを行い、クレンジング後の前記プリセット顔画像の前記生成パラメータと、前記入力用生成パラメータとをブレンド合成する
     請求項4に記載のデータ生成方法。
  7.  前記データ生成装置は、前記種画像の前記生成パラメータをスクランブル化し、スクランブル化された前記生成パラメータに基づいて前記入力用生成パラメータを生成する
     請求項1に記載のデータ生成方法。
  8.  前記データ生成装置は、前記種画像の前記生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータにランダムノイズを加算することでスクランブル化を行う
     請求項7に記載のデータ生成方法。
  9.  前記データ生成装置は、前記顔画像データセットに対して、顔IDまたは属性についてのラベリングおよびクレンジングを行い、最終的な前記顔画像データセットを生成する
     請求項1に記載のデータ生成方法。
  10.  前記データ生成装置は、前記顔画像データセットに対するクレンジングを行うことで、所定の要件を満たす前記最終的な前記顔画像データセットを生成する
     請求項9に記載のデータ生成方法。
  11.  前記所定の要件は、前記顔画像データセットを構成する前記顔画像データの数、前記顔画像データの解像度、ラベリングの属性、または前記顔画像データの属性の属性値の統計値である
     請求項10に記載のデータ生成方法。
  12.  前記データ生成装置は、前記種画像を数値化することで、前記種画像に応じた前記生成パラメータを生成する
     請求項1に記載のデータ生成方法。
  13.  前記データ生成装置は、前記入力用生成パラメータに基づいて、GANまたはVAEにより前記顔画像データを生成する
     請求項1に記載のデータ生成方法。
  14.  任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、
     複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部と
     を備えるデータ生成装置。
  15.  任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
     複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2023/005919 2022-03-11 2023-02-20 データ生成装置および方法、並びにプログラム WO2023171335A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022037743 2022-03-11
JP2022-037743 2022-03-11

Publications (1)

Publication Number Publication Date
WO2023171335A1 true WO2023171335A1 (ja) 2023-09-14

Family

ID=87936863

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005919 WO2023171335A1 (ja) 2022-03-11 2023-02-20 データ生成装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023171335A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140328547A1 (en) * 2013-05-02 2014-11-06 Machine Perception Technologies Inc. Anonymization of facial expressions
CN111160487A (zh) * 2019-12-31 2020-05-15 清华大学 人脸图像数据集的扩充方法和装置
CN111951153A (zh) * 2020-08-12 2020-11-17 杭州电子科技大学 基于生成对抗网络隐空间解构的人脸属性精细化编辑方法
CN112907494A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种基于自监督学习的非配对人脸图像翻译方法
CN112991160A (zh) * 2021-05-07 2021-06-18 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140328547A1 (en) * 2013-05-02 2014-11-06 Machine Perception Technologies Inc. Anonymization of facial expressions
CN111160487A (zh) * 2019-12-31 2020-05-15 清华大学 人脸图像数据集的扩充方法和装置
CN111951153A (zh) * 2020-08-12 2020-11-17 杭州电子科技大学 基于生成对抗网络隐空间解构的人脸属性精细化编辑方法
CN112907494A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种基于自监督学习的非配对人脸图像翻译方法
CN112991160A (zh) * 2021-05-07 2021-06-18 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Pang et al. Image-to-image translation: Methods and applications
Schwarz et al. Voxgraf: Fast 3d-aware image synthesis with sparse voxel grids
US10529115B2 (en) Generating cartoon images from photos
Mohammed et al. Visio-lization: generating novel facial images
Chuang et al. Performance driven facial animation using blendshape interpolation
Cao et al. Expressive speech-driven facial animation
Yin et al. Semi-latent gan: Learning to generate and modify facial images from attributes
Le et al. Live speech driven head-and-eye motion generators
CN107341435A (zh) 视频图像的处理方法、装置和终端设备
CN113344777B (zh) 基于三维人脸分解的换脸与重演方法及装置
CN111696029A (zh) 虚拟形象视频生成方法、装置、计算机设备及存储介质
CN113850169A (zh) 一种基于图像分割和生成对抗网络的人脸属性迁移方法
Raj et al. Review on generative adversarial networks
CN110415261B (zh) 一种分区域训练的表情动画转换方法及***
Geng et al. Towards photo-realistic facial expression manipulation
Theobald et al. Real-time expression cloning using appearance models
WO2023171335A1 (ja) データ生成装置および方法、並びにプログラム
Laishram et al. Face De-Identification Using Face Caricature
Jung et al. Hair modeling and simulation by style
Petersen et al. Style Agnostic 3D Reconstruction via Adversarial Style Transfer
CN116993892A (zh) 一种基于生成对抗网络的面部纹理补全方法
Verma et al. Investigating the accuracy and performance enhancement in Metaverse
WO2022097371A1 (ja) 認識システム、認識方法、プログラム、学習方法、学習済みモデル、蒸留モデル、及び、学習用データセット生成方法
CN113033747B (zh) 一种用于人机识别的图形识别码生成方法
CN109509144B (zh) 一种基于对抗生成网络的与职业相关的人脸老化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23766514

Country of ref document: EP

Kind code of ref document: A1