WO2023171335A1

WO2023171335A1 - データ生成装置および方法、並びにプログラム

Info

Publication number: WO2023171335A1
Application number: PCT/JP2023/005919
Authority: WO
Inventors: 朝己上田; 洋一木; 正樹柏森
Original assignee: ソニーセミコンダクタソリューションズ株式会社
Priority date: 2022-03-11
Filing date: 2023-02-20
Publication date: 2023-09-14

Abstract

本技術は、AIモデルの学習に適した顔画像データセットを得ることができるようにするデータ生成装置および方法、並びにプログラムに関する。データ生成装置は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の種画像の生成パラメータから、所定数よりも多い数の入力用生成パラメータを生成し、複数の各入力用生成パラメータに基づいて顔画像データを生成することで、複数の顔画像データからなる顔画像データセットを生成する。本技術はデータ生成装置に適用することができる。

Description

データ生成装置および方法、並びにプログラム

　本技術は、データ生成装置および方法、並びにプログラムに関し、特に、AIモデルの学習に適した顔画像データセットを得ることができるようにしたデータ生成装置および方法、並びにプログラムに関する。

　従来、AI（Artificial Intelligence）顔認識器等のAIモデルの学習に用いられている著名な顔画像データセットは、web収集や実測によって集められた実在する顔の画像データで構築されている。

　また、顔画像データセットの構築に関する技術として、実在する顔の画像（実顔画像）を複数用意し、それらの複数の実顔画像同士を合成することで顔画像データセットを構築する技術も提案されている（例えば、特許文献１参照）。

国際公開第２０１５／０３３４３１号

　しかしながら、上述した技術では、AIモデルの学習に適した顔画像データセット、具体的にはプライバシが保護された、平等性を有する顔画像データセットを得ることは困難であった。

　例えばweb収集や実測によって集められた実在する顔の画像データからなる顔画像データセットは、プライバシの観点から適切であるとはいえず、倫理的リスクが大きい。

　特に、近年では、GDPR（General Data Protection Regulation）などのプライバシへの法規制やAI公平性への規制が国内外で進んでおり、実顔画像データで構築されたデータセットは規制により公開停止されたり商用利用が難しくなったりする傾向にある。

　また、web収集等による実在する顔の顔画像データセットや、特許文献１に記載の技術による顔画像データセットの構築にあたっては、実顔画像のみが用いられるため、構築コストが大きいだけでなく平等性を確保することが困難である。

　すなわち、適切なAIモデルの学習のためには、年齢や性別などの各属性の統計的な偏りの少ない顔画像データセット、つまり平等性を有する顔画像データセットが必要となるが、そのような偏りの少ない実顔画像の収集は現実的に困難である。

　本技術は、このような状況に鑑みてなされたものであり、AIモデルの学習に適した顔画像データセットを得ることができるようにするものである。

　本技術の一側面のデータ生成方法は、データ生成装置が、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するステップを含む。

　本技術の一側面のプログラムは、本技術の一側面のデータ生成方法に対応するプログラムである。

　本技術の一側面のデータ生成装置は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部とを備える。

　本技術の一側面においては、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータが生成され、複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットが生成される。

データ生成装置の構成例を示す図である。顔画像データセットの生成のアプローチについて説明する図である。顔画像データセット生成時における処理の流れについて説明する図である。生成パラメータのスクランブル化について説明する図である。顔IDのラベリングについて説明する図である。顔IDのクレンジングについて説明する図である。属性のラベリングとクレンジングについて説明する図である。データセット生成処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術では、実顔画像を用いず、すなわち実顔画像の顔画像データを含まず、顔生成器により生成された架空の顔の顔画像データのみからなる顔画像データセットが構築される。これにより、プライバシが保護された、すなわち個人情報フリーな顔画像データセットを得ることができる。

　また、本技術では、予め用意した種画像（入力画像）から得られた生成パラメータの一部または全部を変更することで、顔画像データセットを生成するための種画像が大量にかさ増しされるとともに、顔のバリエーションが増加するようにされる。

　生成パラメータは、人の顔の目や色、髪型などの顔の特徴、特に顔の見た目の特徴を潜在的に内包する複数のパラメータからなり、この生成パラメータを顔生成器に入力することで、顔生成器の出力として顔画像（顔画像データ）を得ることができる。このような生成パラメータは、潜在変数とも呼ばれている。

　さらに、本技術では、大量にかさ増しされた種画像の生成パラメータが顔生成器に入力されて顔画像データが生成され、得られた複数の顔画像データに対して、ラベリングとクレンジングが行われ、顔画像データセットが得られる。

　ラベリングでは、顔画像データに対して、その顔画像データに基づく顔画像が有する属性の属性値と顔IDが付与される。特にラベリングでは、人手を介することなく、自動的に属性値と顔IDの付与、すなわちアノテーションが行われる。

　ここでいう属性とは、例えば年齢、性別、表情、目の形、髪の色など、顔画像により示される顔が有する特徴（顔の見た目を表す特徴）であり、顔IDとは顔画像により示される顔を識別する識別IDである。例えば同じ顔IDが付与された顔は互いに類似する顔、すなわち同一人物の顔であるとされる。

　また、クレンジングでは、顔画像データセットを構成する顔画像データが有する属性の属性値の統計値（分布）や、顔IDの数、顔画像データの解像度、顔画像データセットを構成する顔画像データの数（データ量）が所望の統計値や解像度、データ量となるようにされる。具体的には、例えば顔画像データの間引き、すなわち一部の顔画像データの削除や、顔画像データのダウンサンプリングやアップサンプリングなどが行われる。

　このように、種画像のかさ増しやラベリング、クレンジングを行うことで、顔画像データセットの属性等の統計的な偏りを少なくする、すなわち平等性を実現したり、AI開発者等の顧客が求めるデータ量や解像度、属性、統計値に沿った顔画像データセットを低コストで構築したりすることができる。

　特に、種画像のかさ増しにおいては、顔画像自体を編集するのではなく、生成パラメータを制御する、すなわち生成パラメータの一部や全部を変更することで、様々な属性（属性値）や顔IDを有するバリエーションに富んだ顔を生成することができる。

　しかも、生成パラメータの制御対象とする箇所によって、顔のどの特徴（属性）が変化するかが知られているので、生成パラメータを制御することで、目的の属性値となるように顔画像を変化させる（制御する）ことができる。したがって、実測では不足しがちな属性値を有する顔画像や、AI開発者等の顧客が求める属性や統計値に沿った顔画像を容易に生成することができ、顔画像データセットの構築コストを低く抑えることができる。

　例えば、実際の実施の形態の例として、かさ増しに用いられる種画像（入力画像）として、架空の顔画像や、顧客から提供される実顔画像などを用いることができる。

　また、最終的に得たい顔画像データセットのデータ量、解像度、属性、属性統計値（各属性の属性値の分布）などを顧客がターゲット値として指定し、そのターゲット値が入力（入力パラメータ）とされて顔画像データセットが生成されてもよい。

　最終的に得られる顔画像データセットのファイルには、顔画像データ、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイル、顔画像のサンプルサムネイル画像、各属性の属性統計値を示す属性統計値データファイルが含まれているようにしてもよい。

　このような場合、例えば顔画像データセットの生成プロセスにおいて、各種画像（入力画像）に対して、事前に用意しておいた数千枚のプリセット顔画像が合成されて、種画像に基づく顔と、プリセット顔画像の顔との中間の顔（中間顔）の顔画像が生成され、その顔画像が顔生成器の入力とされてもよい。

　このとき、種画像とプリセット顔画像との合成は、画像の合成ではなく生成パラメータの空間で行われる。すなわち、種画像の生成パラメータと、プリセット顔画像の生成パラメータとを合成することで、中間顔の顔画像の生成パラメータが生成される。

　例えば所定の見た目の特徴を有する顔画像Aの生成パラメータと、顔画像Aとは異なる見た目の特徴を有する顔画像Bの生成パラメータとの平均値を顔生成器の入力とすれば、顔画像Aと顔画像Bの中間の見た目の特徴を有する顔画像を得ることができる。

　また、より多くの属性バリエーションの顔を得るために、種画像やプリセット顔画像の生成パラメータが合成前に編集（制御）されるようにしてもよい。

　このようにして大量に得られた中間顔の顔画像の生成パラメータが顔生成器に入力されて、それらの中間顔の顔画像の生成パラメータに対応する顔画像データが生成される。

　その後、顔画像データに対して属性分類器等によりクラスタリングを行うことでラベリングが行われ、属性値の統計量、すなわち属性統計値が算出される。そして、算出された属性統計値と、ターゲット値、すなわち顧客により指定された属性統計値とが等しくなるようにクレンジングが行われ、最終的な顔画像データセットが生成される。

〈データ生成装置の構成例〉
　図１は、本技術を適用したデータ生成装置の一実施の形態の構成例を示す図である。

　図１に示すデータ生成装置１１は、例えばパーソナルコンピュータなどからなり、入力された種画像とターゲット値に基づいて、顔画像データセットを生成する。一例として、例えばデータ生成装置１１では、数百枚程度の種画像から、約５万枚の顔画像からなる顔画像データセットを構築することができる。

　データ生成装置１１は、エンコーダ２１、スクランブル化部２２、属性／ID制御部２３、デコーダ２４、およびアノテーション部２５を有している。

　例えばエンコーダ２１には、予め用意された複数の種画像（入力画像）の画像データが供給される。上述のように種画像は、例えば顧客から提供された実顔画像や、顔生成器により生成された架空の顔の顔画像などとされる。

　エンコーダ２１は、例えば顔画像の画像データを入力として、それぞれの顔画像に応じた生成パラメータ（潜在変数）、すなわち顔の特徴が数値データとして秘匿化された生成パラメータを出力するパラメータ推定器からなる。

　エンコーダ２１は、供給された種画像の顔画像データに基づく演算処理を行うことで、入力された種画像を数値化し、数値化により得られた各種画像の生成パラメータをスクランブル化部２２に供給する。

　例えば生成パラメータは、複数の各レイヤ（階層）のパラメータからなる。すなわち、生成パラメータは、複数のレイヤから構成され、各レイヤは予め定められた数のパラメータから構成されている。生成パラメータを構成するどのレイヤのパラメータを変更（制御）すれば、生成パラメータに基づき生成される顔画像（顔）のどの特徴（属性）が変化するかは既知となっている。

　エンコーダ２１において、種画像の顔画像データを数値である生成パラメータに変換することで、種画像に含まれている顔に関する個人的な情報（特徴）がある程度希釈されるので、プライバシの保護を実現することができる。

　スクランブル化部２２は、エンコーダ２１から供給された各種画像の生成パラメータをスクランブル化し、属性／ID制御部２３に供給する。例えば生成パラメータのスクランブル化では、生成パラメータに対して任意のランダムノイズが加算され、スクランブル化後の生成パラメータとされる。

　このように種画像の数値化により得られた生成パラメータをスクランブル化することで、生成パラメータから種画像が復元不能になるので、プライバシの保護をさらに強化することができる。

　属性／ID制御部２３は、スクランブル化部２２から供給された生成パラメータに基づいて、その生成パラメータの一部または全部が制御（変更）された新たな生成パラメータ（以下、入力用生成パラメータとも称する）を複数生成し、デコーダ２４に供給する。

　換言すれば、属性／ID制御部２３は、任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の種画像の生成パラメータから、その所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部として機能する。

　例えば、生成パラメータのうちの特定のパラメータだけを少しずつ変化させて、複数の入力用生成パラメータを生成することで、年齢等の各特徴（属性）が互いに異なる大量の顔画像の入力用生成パラメータを得ることができる。すなわち、顔の見た目の各特徴（属性）のバリエーションを増やすことができる。

　なお、後述するように、種画像から得られた入力用生成パラメータと、予め用意した任意のプリセット顔画像の生成パラメータとを合成し、最終的な入力用生成パラメータとしてもよい。

　デコーダ２４は、例えば入力用生成パラメータを入力とし、顔画像データを出力とする顔生成器からなり、複数の各入力用生成パラメータに基づいて顔画像データを生成することで顔画像データセットを生成するデータセット生成部として機能する。

　顔生成器では、例えばGAN（Generative Adversarial Network）やVAE（Variational AutoEncoder）などの手法によって入力用生成パラメータが顔画像データに変換される。これにより、異なる入力用生成パラメータによって異なる見た目の特徴を有する顔の顔画像データが得られる。

　顔生成器を用いれば、フォトリアルな人工顔の顔画像を得ることができるだけでなく、生成パラメータを制御（変更）することで大量に異なる特徴を有する顔画像を生成することもできる。また、顔生成器では、指定された解像度の顔画像データを生成することも可能である。

　デコーダ２４は、属性／ID制御部２３から供給された入力用生成パラメータに基づく演算により、入力用生成パラメータに対応する顔画像データを生成し、アノテーション部２５に供給する。

　アノテーション部２５には、顧客の求める顔画像データセットの要件（以下、顧客要件とも称する）を示すターゲット値が供給される。

　上述のようにターゲット値は、例えば顧客により指定された、顔画像データセットを構成する顔画像データのデータ量（数）、顔画像データの解像度、ラベリング対象となる年齢等の属性、各属性の属性値の分布を示す属性統計値などである。すなわち、ターゲット値は、データ量、解像度、ラベリングを行う属性（ラベリングの属性）、および属性統計値のうちの少なくとも何れか１つを示すものなどとされる。

　アノテーション部２５は、供給されたターゲット値と、デコーダ２４から供給された顔画像データとに基づいて、顧客要件を満たす顔画像データセットを生成（構築）し、図示せぬ記録部等の後段に出力する。

　すなわち、アノテーション部２５は、顔画像データセット（顔画像データ）に対して属性と顔IDについてのラベリングとクレンジング（クリーニング）を行い、顧客要件を満たす最終的な顔画像データセットを生成する。

　特にアノテーション部２５では、既存の任意のクラスタリング手法や類似度算出手法、予め学習により得られた属性推定器などを用いることで、管理者の指定操作等を必要とせずに、すなわち人手を必要とせずにラベリングとクレンジングを行うことができる。

　クレンジングは、複数の顔画像データにおける属性等の統計的なデータの偏り（バイアス）を除去するバイアス除去処理である。具体的には、例えばクレンジングでは、ターゲット値により示される属性統計値となるように、顔画像データセットを構成するいくつかの顔画像データが削除（除去）され、属性統計値の調整が行われる。

　なお、より詳細にはアノテーション部２５は、顔画像データ、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイル、顔画像のサンプルサムネイル画像、および各属性の属性統計値を示す属性統計値データファイルを含む顔画像データセットのファイル（顔画像データセットファイル）を生成する。

〈顔画像データセットの生成について〉
　続いて、データ生成装置１１の各部で行われる処理、すなわち顔画像データセットの生成について、より詳細に説明する。

　データ生成装置１１では、大まかに図２に示すアプローチで顔画像データセットが生成される。

　すなわち、まず矢印Q11に示すように、複数の種画像が用意される。種画像は、例えば顧客から提供された実顔画像や、業務委託等により生成された架空の顔の顔画像、すなわちCG（Computer Graphics）画像などとされる。

　例えば、種画像として実顔画像を利用する場合、種画像として用意可能な数は少数であるが、高精度な顔画像、すなわち顔として正常な顔の画像を用いることができる。但し、種画像として実顔画像を用いる場合には、プライバシ保護の対策が必要であり、その対策としてデータ生成装置１１では、エンコーダ２１による数値化や、スクランブル化部２２におけるスクランブル化が行われる。

　また、最終的な入力用生成パラメータの生成にプリセット顔画像が利用される場合、例えば矢印Q12に示すように、大量の架空の顔画像（架空顔画像）が用意される。これらの架空顔画像は、例えば任意の顔生成器がランダムに生成した顔画像などとされる。

　顔生成器により架空顔画像を生成すれば、容易に大量の顔画像を用意することができるが、顔生成器によりランダムに生成された架空顔画像のなかには、低精度な顔画像、すなわち、顔らしさが低い異常な顔画像も含まれる。また、ランダムに生成した複数の架空顔画像には、例えば日本人顔などの所望の特徴（属性）を有する顔画像が十分な数だけ含まれていない可能性もある。

　そこで、例えば矢印Q12に示した架空顔画像群に対して、低精度な架空顔画像（適切ではない架空顔画像）の除去、すなわち架空顔画像の選別を行ったり、架空顔画像が所望の特徴を有する顔の画像となるように、架空顔画像に対する編集を行ったりして、矢印Q13に示す複数のプリセット顔画像のセットが生成される。

　例えば、プリセット顔画像を得るための架空顔画像に対する編集は、架空顔画像の生成パラメータを構成する所定のパラメータの変更などにより実現することができる。

　属性／ID制御部２３では、このようにして予め用意された架空顔画像であるプリセット顔画像の生成パラメータと、種画像から得られた入力用生成パラメータとがブレンド合成されて、最終的な入力用生成パラメータとされる。

　ブレンド合成では、例えばプリセット顔画像の生成パラメータと、入力用生成パラメータとが所定の重みに基づき重み付き加算される。この場合、重みを1/2とすれば、プリセット顔画像の生成パラメータと、入力用生成パラメータとの平均値が最終的な入力用生成パラメータとして得られる。

　以上のようなブレンド合成により、最終的な入力用生成パラメータとして、デコーダ２４の入力として適切なパラメータを高精度かつ大量に生成することができる。

　特に、ここでは、少なくとも各種画像から生成した複数の入力用生成パラメータと、複数の各プリセット顔画像の生成パラメータとの組み合わせの数だけ、最終的な入力用生成パラメータを生成することができる。また、ブレンド合成におけるブレンド比率（重み）を変えることで、さらに多くの入力用生成パラメータを生成することができる。

　なお、属性／ID制御部２３が、ターゲット値としてのデータ量に基づいて、そのデータ量に応じた数だけ最終的な入力用生成パラメータを生成するようにしてもよい。そのような場合、アノテーション部２５におけるクレンジングも考慮されて、データ量により示される数より多めの入力用生成パラメータが生成されるようにすればよい。

　また、入力用生成パラメータが得られると、デコーダ２４により入力用生成パラメータに基づき顔画像データが大量に生成され、得られた顔画像データに対して顔IDと属性についてラベリングとクレンジングが行われ、顔画像データセットが生成される。このとき、クレンジングによって顧客要件の充足や平等性が実現される。

　データ生成装置１１における、顔画像データセット生成時におけるより詳細な処理の流れを図３に示す。なお、図３において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３の例では、例えば図中、左上に示すように実顔画像やCG画像が種画像とされ、その種画像がエンコーダ２１（パラメータ推定器）により生成パラメータに変換される。そして、それらの生成パラメータがスクランブル化部２２でスクランブル化、すなわちプライバシフィルタリングされ、属性／ID制御部２３へと入力される。

　このとき、プライバシ保護の観点から、種画像としての実顔画像に対してはスクランブル化を行った方がよりよいが、種画像としてのCG画像に対しては必ずしもスクランブル化を行う必要はない。

　以上のスクランブル化までの処理によって、少数ではあるが高精度な（人の顔らしい）架空の顔画像の生成パラメータを得ることができる。

　属性／ID制御部２３は、例えばスクランブル化部２２から供給された生成パラメータを構成する複数のパラメータのうちの所定のパラメータを所定の値ずつ段階的に変化（増加または減少）させていくことで、１つの生成パラメータから複数の入力用生成パラメータを生成する。このとき、生成パラメータにおける制御（変更）するパラメータを順次変化させていくことで、さらに多くの入力用生成パラメータを生成することができる。

　これにより、もとの種画像が大量にかさ増しされて、より多様な属性値や顔IDを有する、より多くの入力用生成パラメータが得られる。

　なお、生成パラメータの制御には、ターゲット値として顧客により指定された属性やデータ量、属性統計値などが必要に応じて用いられるようにしてもよい。このようなターゲット値に基づき生成パラメータの制御を行えば、必要な属性や枚数の顔画像データを確実に得ることができるので、低コストで確実に顧客要件を満たすことができる。

　また、属性／ID制御部２３では、図２を参照して説明した複数のプリセット顔画像の生成パラメータに対して、適宜、クレンジングが行われる。

　例えばクレンジングでは、プリセット顔画像群のうち、人の顔らしくない低精度なプリセット顔画像が除去されたり、属性値の分布に偏りが生じないように、枚数が多すぎる所定の属性値のプリセット顔画像が除去されたりする。

　属性／ID制御部２３では、管理者による指定操作等に応じてクレンジングが行われるようにしてもよいし、属性推定器等のモデルや、顧客要件を示すターゲット値に基づいて、管理者による指定操作等を必要とせずにクレンジングが行われるようにしてもよい。

　例えばプリセット顔画像のクレンジングにおいても、ターゲット値を用いれば、入力用生成パラメータの生成時と同様に、低コストで確実に顧客要件を満たすことができるようになる。

　さらに属性／ID制御部２３では、生成された入力用生成パラメータと、クレンジング後のプリセット顔画像の生成パラメータとがブレンド合成されて、大量の最終的な入力用生成パラメータが生成され、デコーダ２４に入力される。

　このとき、ブレンド合成のブレンド比率や、合成対象とする入力用生成パラメータとプリセット顔画像の生成パラメータの組み合わせが変えられて大量の入力用生成パラメータが生成される。これにより、属性値等の偏りが少なく、より多様な属性値や顔IDを有する、さらに多くの入力用生成パラメータを低コストで得ることができる。

　デコーダ２４では属性／ID制御部２３から供給された入力用生成パラメータに基づいて顔画像データが生成され、生成された複数の顔画像データからなる中間データセットがアノテーション部２５に供給される。

　アノテーション部２５では、供給された中間データセットを構成する顔画像データに対してラベリング（アノテーション）とクレンジングが行われる。

　具体的には、例えば顔画像データに対して顔IDを付与する顔IDのラベリングが行われた後、顔IDが付与された顔画像データのクレンジングが行われる。

　さらに、顔IDについてのクレンジングにより残った各顔画像データに対して、属性のラベリング、すなわち属性値の付与が行われるとともに、属性値が付与された顔画像データのクレンジングが行われ、最終的に残った顔画像データからなる顔画像データセットが得られる。これにより、プライバシが保護され、顔画像の精度（人らしさ）や平等性が保証された顧客要件を満たす顔画像データセット、すなわち、AIモデルの学習に適した顔画像データセットを得ることができる。

　ところで、種画像の生成パラメータのスクランブル化においては、生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータに対してランダムノイズ、すなわちランダムに生成された数値（乱数）が加算され、スクランブル化後の生成パラメータとされる。

　このとき、生成パラメータに加算（付加）するランダムノイズを複数個生成し、ランダムノイズごとに生成パラメータへの加算処理を行うことで、１つの生成パラメータから、互いに顔の類似度が低い、すなわち別人度合いが高い複数の新たな生成パラメータを得ることができる。換言すれば、１つの生成パラメータと、複数個のランダムノイズとから、互いに顔IDが異なる（顔ID間の距離が大きい）複数のスクランブル化後の生成パラメータを得ることができる。

　ここで、図４を参照して、スクランブル化において特定のレイヤにランダムノイズを付加したときのもとの種画像の顔との類似度の例について説明する。

　この例では、所定の種画像P11が用いられて生成パラメータが求められ、その生成パラメータのスクランブル化が行われるものとする。

　矢印Q41に示す部分には、種画像P11から得られた生成パラメータをスクランブル化することで得られた、スクランブル化後の生成パラメータに基づく顔画像が示されている。

　矢印Q41に示す部分における図中、横方向に並べられて記されている数値は、生成パラメータを構成するレイヤのうち、ランダムノイズが加算されたレイヤを示している。ここでは、生成パラメータは、第０レイヤから第１７レイヤまでの合計１８個のレイヤから構成されている。

　また、矢印Q41に示す部分における図中、縦方向に並べられて記されている文字「seed0」乃至「seed4」は、ランダムノイズの生成に用いられたシード（数値）を表している。以下では、例えばシード「seed0」により生成されたランダムノイズをランダムノイズ「seed0」などとも記すこととする。

　例えば顔画像P12は、種画像P11の生成パラメータにおける第６レイヤおよび第７レイヤに対してランダムノイズ「seed0」を付加（加算）することで得られた顔画像である。同様に、例えば顔画像P13は、種画像P11の生成パラメータにおける第１６レイヤおよび第１７レイヤに対してランダムノイズ「seed3」を付加することで得られた顔画像である。

　矢印Q41に示す部分における各顔画像を見ると、第０レイヤ乃至第３レイヤにランダムノイズを付加すると姿勢や髪型などが変化し、第４レイヤ乃至第７レイヤにランダムノイズを付加すると目などの顔の特徴が変化することが分かる。また、第８レイヤ乃至第１７レイヤにランダムノイズを付加すると顔の色が変化することが分かる。

　このようなスクランブル化により得られた各顔画像と、もとの種画像P11との類似度を顔認証器により計算したところ、矢印Q42に示す結果が得られた。

　矢印Q42に示す部分において、横軸はランダムノイズを付加したレイヤを示しており、縦軸は類似度を示している。

　この例では、ランダムノイズのシードによらず、第４レイヤ乃至第９レイヤのうちの任意のレイヤに対してランダムノイズを付加したときに類似度が大幅に低下し、もとの種画像P11の顔とは異なる見た目の特徴を有する顔が得られることが分かる。したがって、第４レイヤ乃至第９レイヤのうちの１または複数の任意のレイヤをランダムノイズの付加対象とすれば、より効果的にスクランブル化を行うことができることが分かる。

　続いて、図３を参照して説明した顔IDと属性のラベリングおよびクレンジングについて説明する。

　例えば図５の矢印Q61に示すように、種画像から得られた入力用生成パラメータがデコーダ２４に入力され、複数の顔画像データからなる中間データセットが生成される。

　すると、アノテーション部２５では、中間データセットを構成する各顔画像データが顔認証器に入力され、顔認証器での演算の結果として各顔画像データの顔特徴量ベクトルが出力される。この顔特徴量ベクトルは、顔画像データが有する顔の見た目の特徴を表すベクトルである。

　アノテーション部２５は、顔認証器の出力として得られた全ての顔特徴量ベクトルを対象として、例えばDBSCAN（Density-Based Spatial Clustering of Applications with Noise）等の特徴量クラスタリングを行う。これにより、中間データセットを構成する各顔画像データに対して顔IDが付与される。すなわち、顔IDのラベリングが行われる。

　具体的には、例えば矢印Q62に示すように、顔画像データ、すなわち顔画像P31乃至顔画像P33について顔特徴量ベクトルV11乃至顔特徴量ベクトルV13が得られたとする。

　このとき、顔画像P31乃至顔画像P33のうち、互いに顔特徴量ベクトル間のコサイン距離が近いもの同士が同じ顔IDクラスに分類される。そして、矢印Q63に示すように同じ顔IDクラスに属す顔画像（顔画像データ）に対して同じ顔IDが付与される。

　この例では、例えば顔画像P31や顔画像P32を含む顔IDクラスに属す全ての顔画像に対して、顔ID「id0000」が付与されている。

　このようにして、中間データセットを構成する各顔画像データが何れかの顔IDクラスに分類されると、例えば図６に示すように顔IDについてのクレンジングが行われる。

　具体的には、顔IDについてのクレンジングでは、矢印Q71に示すクラス内クレンジングと、矢印Q72に示すクラス間クレンジングとが交互に行われる。

　すなわち、クラス内クレンジングでは、処理対象の顔IDクラスに属す顔画像データが対象とされて、ラベリング時と同様のDBSCAN等の特徴量クラスタリングが行われる。そして、その結果として複数のクラスが得られたときには、最も多くの顔画像データからなるクラス以外の他のクラスに属す顔画像データが削除される。

　具体的には、例えば矢印Q73に示すように、顔画像P41および顔画像P42を含む４つの顔画像からなり、顔IDが「id0000」である顔IDクラスが対象とされてクラス内クレンジングが行われるとする。

　この場合、４つの顔画像が対象とされて特徴量クラスタリングが行われる。そして、その結果、顔画像P41を含む３つの顔画像が１つのクラスに分類され、残りの１つの顔画像P42が他のクラスに分類されたとする。すると、顔画像P42が削除され、属する顔画像の数が最も多い、顔画像P41を含む３つの顔画像の顔画像データからなるクラスが、クラス内クレンジング後の顔ID「id0000」の顔IDクラスとされる。

　また、矢印Q72に示すクラス間クレンジングでは、任意の２つの顔IDクラス間の類似度が計算される。そして、例えば顔IDクラス間の類似度が0.7より大きい場合、それらの２つの顔IDクラスが統合され、１つの新たな顔IDクラスとされる。

　このとき、例えば、属している顔画像データがより多い顔IDクラスの顔IDが、統合後の顔IDクラスの顔IDとされる。

　また、例えば２つの顔IDクラス間の類似度が0.5より大きく、かつ0.7以下である場合には、それらの２つの顔IDクラスのうち、属している顔画像データがより少ない方の顔IDクラス、より詳細にはその顔IDクラスに属す顔画像データが削除される。

　一方、例えば２つの顔IDクラス間の類似度が0.5以下であるときには、それらの２つの顔IDクラスは、そのまま残される。

　アノテーション部２５は、以上のようなクラス内クレンジングとクラス間クレンジングを、所定の回数だけ、または収束するまで繰り返し交互に行い、最終的に残った複数の各顔IDクラスの顔画像データに対して、属性のラベリングとクレンジングを行う。

　具体的には、アノテーション部２５は、例えば図７に示すように、属性のラベリング対象となる各顔画像データ、すなわち顔IDクラスに属す顔画像データを属性推定器に入力して演算を行い、出力として顔画像データの所望の属性の属性値を得る。これにより、顧客要件、すなわちターゲット値により示される属性について、顔画像データに対するラベリングが行われたことになる。

　この例では、例えば矢印Q81に示すように、顔画像データに対して属性としての年齢および性別のラベリングが行われる。特に、矢印Q81に示す各顔画像の上側に記された数値は、顔画像（顔画像データ）に付与された属性「年齢」の属性値を示しており、数値の横に記された文字「男性」または「女性」は、顔画像に付与された属性「性別」の属性値を示している。

　また、属性のラベリングが行われると、その後、各顔画像データの属性値に基づき、属性値の分布を示す属性統計値が求められる。この例では、矢印Q82に示す属性「年齢」についての属性統計値と、矢印Q83に示す属性「性別」についての属性統計値が求められる。

　さらに、このようにして求められた各属性の属性統計値と、ターゲット値とに基づいて、顔画像データのクレンジングが行われる。

　すなわち、例えば顔画像データセットの最終的な属性統計値が、ターゲット値により示される属性統計値となり、かつ顔画像データセットを構成する顔画像データの数（データ量）がターゲット値により示されるデータ量となるように、適宜、いくつかの顔画像データが削除される。そして、残った顔画像データからなるデータセットが最終的な顔画像データセットとされる。なお、このとき、顔画像データの解像度が、ターゲット値により示される解像度となるように、必要に応じて各顔画像データに対してダウンサンプリングやアップサンプリング等の解像度変換処理が施されてもよい。

　以上の処理により、最終的に顧客要件を満たす顔画像データセットが得られる。

〈データセット生成処理の説明〉
　最後に、データ生成装置１１により行われるデータセット生成処理について説明する。すなわち、以下、図８のフローチャートを参照して、データ生成装置１１によるデータセット生成処理について説明する。

　ステップＳ１１においてエンコーダ２１は、供給された種画像の顔画像データをパラメータ推定器に入力して演算処理を行うことで、推定により複数の各種画像の生成パラメータを算出し、得られた生成パラメータをスクランブル化部２２に供給する。

　ステップＳ１２においてスクランブル化部２２は、エンコーダ２１から供給された各種画像の生成パラメータをスクランブル化し、属性／ID制御部２３に供給する。

　例えばスクランブル化部２２は、生成パラメータの特定のレイヤのパラメータに対して、任意のシードに基づき生成されたランダムノイズを加算することで、スクランブル化後の生成パラメータを生成する。

　このとき、例えば複数のランダムノイズごとにスクランブル化を行ったり、ランダムノイズを加算するレイヤを変えたりすることで、１つの生成パラメータから、複数のスクランブル化後の生成パラメータが生成されるようにしてもよい。また、種画像が架空顔画像である場合には、特にスクランブル化は行われなくてもよい。

　ステップＳ１３において属性／ID制御部２３は、スクランブル化部２２から供給された生成パラメータに基づいて、生成パラメータのかさ増しを行い、その結果得らえた新たな生成パラメータを入力用生成パラメータとしてデコーダ２４に供給する。

　例えば属性／ID制御部２３は、図３を参照して説明したように、スクランブル化部２２から供給された各生成パラメータのそれぞれから、新たな複数の入力用生成パラメータを生成する。このとき、属性／ID制御部２３は、例えば生成パラメータを構成する特定のパラメータを所定の値ずつ変化させたり、制御する（変化させる）パラメータ部分を変化させたりすることで、入力用生成パラメータを生成する。

　さらに、属性／ID制御部２３は、予め用意した複数のプリセット顔画像の生成パラメータに対して、適宜、ターゲット値等に基づきクレンジングを行うとともに、プリセット顔画像の生成パラメータと、入力用生成パラメータとをブレンド合成し、最終的な入力用生成パラメータとする。

　このとき、属性／ID制御部２３は、例えば合成ブレンドするプリセット顔画像の生成パラメータと入力用生成パラメータとの組み合わせごとに、ブレンド合成のブレンド比率を所定値ずつ変化させながら、最終的な入力用生成パラメータを大量に生成する。

　ステップＳ１４においてデコーダ２４は、属性／ID制御部２３から供給された入力用生成パラメータを顔生成器に入力して演算処理を行うことで各入力用生成パラメータに対応する顔画像データを生成し、アノテーション部２５に供給する。

　この場合、例えばデコーダ２４が、ターゲット値により示される解像度と、入力用生成パラメータとを顔生成器に入力し、ターゲット値により示される解像度の顔画像データを生成するようにしてもよい。

　デコーダ２４により生成された大量の顔画像データからなるデータセットが、最終的ではない中間の顔画像データセット、すなわち中間データセットとしてアノテーション部２５に供給される。

　ステップＳ１５においてアノテーション部２５は、外部から供給された顧客要件を示すターゲット値と、デコーダ２４から供給された中間データセットとに基づいて、顔IDと属性についてのラベリングおよびクレンジングを行う。

　例えばアノテーション部２５は、図５を参照して説明したように、顔認証器により各顔画像データの顔特徴量ベクトルを算出して特徴量クラスタリングを行うことで、顔画像データに顔IDを付与する。また、アノテーション部２５は、例えば図６を参照して説明したように、顔IDを付与した顔画像データに対してクラス内クレンジングとクラス間クレンジングを行うことで、顔IDについてのクレンジングを行う。なお、例えばターゲット値として顔IDの数が指定されている場合には、アノテーション部２５は、クレンジング後の顔画像データのセットにおける顔IDの数がターゲット値により示される数となるようにクレンジングを行う。

　さらにアノテーション部２５は、例えば図７を参照して説明したように、顔IDについてのクレンジング後の顔画像データに対して属性推定器による属性の付与（ラベリング）を行うとともに、ターゲット値に基づくクレンジングを行い、最終的な顔画像データセットを生成する。このとき、必要に応じてアノテーション部２５は顔画像データに対する解像度変換処理も行う。

　より詳細には、アノテーション部２５は、顔画像データに対するラベリング結果等に基づいて、顔画像データに顔IDと属性のラベルが紐付けられたインデックスファイルや、顔画像のサンプルサムネイル画像、各属性の属性統計値データファイルを生成する。

　そして、アノテーション部２５は、それらの顔画像データ、インデックスファイル、サンプルサムネイル画像、および属性統計値データファイルを含む顔画像データセットファイルを生成し、記録部等の後段に出力する。

　これにより、プライバシが保護され、かつ顧客要件を満たす顔画像データセットが得られたことになる。一般的に顧客要件（ターゲット値）として、属性値の分布の偏りのない属性統計値が指定されることから、得られる顔画像データセットは平等性を有するデータセットとなる。

　なお、必ずしも顧客要件が指定される必要はない。顧客要件がない場合には、例えば各属性について属性値の分布が均等であり、かつ予め定めた顔画像データ数となるようにアノテーション部２５でのラベリングおよびクレンジングが行われる。そうすることで、プライバシが保護され、かつ属性値の分布の偏りのない平等性を有する顔画像データセットを得ることができる。

　このようにして最終的な顔画像データセットが得られると、データセット生成処理は終了する。

　以上のようにしてデータ生成装置１１は、種画像を数値化し、その結果得られた生成パラメータをかさ増して得られた入力用生成パラメータに基づき顔画像データを生成するとともに、得られた顔画像データに対してラベリングとクレンジングを行う。

　このようにすることで、AIモデルの学習に適した顔画像データセット、すなわちプライバシが保護された、平等性を有する顔画像データセットを低コストで得ることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　データ生成装置が、
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
　ステップを含むデータ生成方法。
（２）
　前記データ生成装置は、前記生成パラメータを構成する複数のパラメータのうちの一部または全部を増加または減少させていくことで、１つの前記生成パラメータから複数の前記入力用生成パラメータを生成する
　（１）に記載のデータ生成方法。
（３）
　前記データ生成装置は、前記生成パラメータを構成する特定のパラメータを変化させることで、前記入力用生成パラメータを生成する
　（１）または（２）に記載のデータ生成方法。
（４）
　前記データ生成装置は、前記入力用生成パラメータと、予め用意されたプリセット顔画像の前記生成パラメータとをブレンド合成することで、最終的な前記入力用生成パラメータを生成する
　（１）乃至（３）の何れか一項に記載のデータ生成方法。
（５）
　前記プリセット顔画像は、架空顔画像である
　（４）に記載のデータ生成方法。
（６）
　前記データ生成装置は、複数の前記プリセット顔画像の前記生成パラメータに対するクレンジングを行い、クレンジング後の前記プリセット顔画像の前記生成パラメータと、前記入力用生成パラメータとをブレンド合成する
　（４）または（５）に記載のデータ生成方法。
（７）
　前記データ生成装置は、前記種画像の前記生成パラメータをスクランブル化し、スクランブル化された前記生成パラメータに基づいて前記入力用生成パラメータを生成する
　（１）乃至（６）の何れか一項に記載のデータ生成方法。
（８）
　前記データ生成装置は、前記種画像の前記生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータにランダムノイズを加算することでスクランブル化を行う
　（７）に記載のデータ生成方法。
（９）
　前記データ生成装置は、前記顔画像データセットに対して、顔IDまたは属性についてのラベリングおよびクレンジングを行い、最終的な前記顔画像データセットを生成する
　（１）乃至（８）の何れか一項に記載のデータ生成方法。
（１０）
　前記データ生成装置は、前記顔画像データセットに対するクレンジングを行うことで、所定の要件を満たす前記最終的な前記顔画像データセットを生成する
　（９）に記載のデータ生成方法。
（１１）
　前記所定の要件は、前記顔画像データセットを構成する前記顔画像データの数、前記顔画像データの解像度、ラベリングの属性、または前記顔画像データの属性の属性値の統計値である
　（１０）に記載のデータ生成方法。
（１２）
　前記データ生成装置は、前記種画像を数値化することで、前記種画像に応じた前記生成パラメータを生成する
　（１）乃至（１１）の何れか一項に記載のデータ生成方法。
（１３）
　前記データ生成装置は、前記入力用生成パラメータに基づいて、GANまたはVAEにより前記顔画像データを生成する
　（１）乃至（１２）の何れか一項に記載のデータ生成方法。
（１４）
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部と
　を備えるデータ生成装置。
（１５）
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　データ生成装置，　２１　エンコーダ，　２２　スクランブル化部，　２３　属性／ID制御部，　２４　デコーダ，　２５　アノテーション部

Claims

　データ生成装置が、
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
　ステップを含むデータ生成方法。
　前記データ生成装置は、前記生成パラメータを構成する複数のパラメータのうちの一部または全部を増加または減少させていくことで、１つの前記生成パラメータから複数の前記入力用生成パラメータを生成する
　請求項１に記載のデータ生成方法。
　前記データ生成装置は、前記生成パラメータを構成する特定のパラメータを変化させることで、前記入力用生成パラメータを生成する
　請求項１に記載のデータ生成方法。
　前記データ生成装置は、前記入力用生成パラメータと、予め用意されたプリセット顔画像の前記生成パラメータとをブレンド合成することで、最終的な前記入力用生成パラメータを生成する
　請求項１に記載のデータ生成方法。
　前記プリセット顔画像は、架空顔画像である
　請求項４に記載のデータ生成方法。
　前記データ生成装置は、複数の前記プリセット顔画像の前記生成パラメータに対するクレンジングを行い、クレンジング後の前記プリセット顔画像の前記生成パラメータと、前記入力用生成パラメータとをブレンド合成する
　請求項４に記載のデータ生成方法。
　前記データ生成装置は、前記種画像の前記生成パラメータをスクランブル化し、スクランブル化された前記生成パラメータに基づいて前記入力用生成パラメータを生成する
　請求項１に記載のデータ生成方法。
　前記データ生成装置は、前記種画像の前記生成パラメータを構成する複数のレイヤのうちの特定のレイヤのパラメータにランダムノイズを加算することでスクランブル化を行う
　請求項７に記載のデータ生成方法。
　前記データ生成装置は、前記顔画像データセットに対して、顔IDまたは属性についてのラベリングおよびクレンジングを行い、最終的な前記顔画像データセットを生成する
　請求項１に記載のデータ生成方法。
　前記データ生成装置は、前記顔画像データセットに対するクレンジングを行うことで、所定の要件を満たす前記最終的な前記顔画像データセットを生成する
　請求項９に記載のデータ生成方法。
　前記所定の要件は、前記顔画像データセットを構成する前記顔画像データの数、前記顔画像データの解像度、ラベリングの属性、または前記顔画像データの属性の属性値の統計値である
　請求項１０に記載のデータ生成方法。
　前記データ生成装置は、前記種画像を数値化することで、前記種画像に応じた前記生成パラメータを生成する
　請求項１に記載のデータ生成方法。
　前記データ生成装置は、前記入力用生成パラメータに基づいて、GANまたはVAEにより前記顔画像データを生成する
　請求項１に記載のデータ生成方法。
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成するパラメータ生成部と、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成するデータセット生成部と
　を備えるデータ生成装置。
　任意の顔の種画像を数値化して得られた生成パラメータの一部または全部を変更することで、所定数の前記種画像の前記生成パラメータから、前記所定数よりも多い数の入力用生成パラメータを生成し、
　複数の各前記入力用生成パラメータに基づいて顔画像データを生成することで、複数の前記顔画像データからなる顔画像データセットを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。