JP2023142494A

JP2023142494A - 情報処理システム、コンピュータプログラム、及び情報処理方法

Info

Publication number: JP2023142494A
Application number: JP2022049442A
Authority: JP
Inventors: 雄介熊谷; Yusuke Kumagai; 龍道本; Ryu Domoto; 慎平三浦; Shimpei Miura
Original assignee: Hakuhodo DY Holdings Inc
Current assignee: Hakuhodo DY Holdings Inc
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-10-05
Anticipated expiration: 2042-03-25
Also published as: JP7151009B1; WO2023182163A1

Abstract

【課題】クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供する。【解決手段】エンティティの第一のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットが取得される。エンティティの第二のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットが取得される。共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれが、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けられる（Ｓ２１０～Ｓ２５０）。【選択図】図６

Description

本開示は、情報処理システム及び情報処理方法に関する。

異なる手段で収集した消費者に関する複数のデータセットを対応付けるデータフュージョン技術が既に知られている。例えば、出願人は、消費者の第一のグループをクラスタリングして定義される複数のクラスタの特徴データと、消費者の第二のグループをクラスタリングして定義される複数のクラスタの特徴データと、をクラスタの類似性に基づいて、対応付ける技術を既に開示している（例えば、特許文献１参照）。

特開２０１６－１２６６０９号公報

消費者個人の特徴データを、クラスタの特徴データに置き換えることは、個人情報を保護しながら、消費者データを授受する目的で役立つ。

しかしながら、クラスタの類似性を特徴データの内容に基づき評価するだけでは、高精度に対応付けを行うことができない場合がある。すなわち、従来技術には、対応付けの精度について改善の余地があった。

そこで、本開示の一側面によれば、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタ、及び、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関して、クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供できることが望ましい。

本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一取得部と、第二取得部と、対応付け部と、を備える。

第一取得部は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される。

第二取得部は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される。

対応付け部は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される。

このように構成された情報処理システムによれば、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。

本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、それぞれが共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付けるように構成され得る。

このように構成された情報処理システムによれば、共通エンティティが属する第一のクラスタと第二のクラスタとの関係に整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。

本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、複数の第二のクラスタのうち、特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、一以上の非共通第一クラスタのそれぞれの第一のクラスタ特徴データと一以上の非共通第二クラスタのそれぞれの第二のクラスタ特徴データとに基づき、非共通第一クラスタのそれぞれと非共通第二クラスタのそれぞれとの間の関係を判別し、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付けるように構成され得る。

このように構成された情報処理システムによれば、共通エンティティの有無と整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。

本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタの第一の特徴空間上の点を定義するデータであり得る。第二のクラスタ特徴データは、対応する第二のクラスタの第二の特徴空間上の点を定義するデータであり得る。

本開示の一側面によれば、対応付け部は、第一の特徴空間上の複数の第一のクラスタのそれぞれの点を第二の特徴空間に写す写像を、評価関数を用いて探索する処理を実行し得る。

本開示の一側面によれば、評価関数は、同じエンティティを含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力するように設計され得る。

本開示の一側面によれば、評価関数は、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向とは逆方向に変化する値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を特定方向側の限界値にする写像を探索するように構成され得る。

本開示の一側面によれば、評価関数は、特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を最小にする写像を探索するように構成され得る。

本開示の一側面によれば、対応付け部は、写像により写される第二の特徴空間上の複数の第一のクラスタのそれぞれの点と、第二の特徴空間上の複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、複数の第一のクラスタ特徴データのそれぞれを、複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理を実行するように構成され得る。

このように構成された情報処理システムによれば、共通エンティティに注目して、適切な第一の特徴空間から第二の特徴空間への写像を求めた上で、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができるので、高精度な対応付けを実現することができる。

本開示の一側面によれば、対応付け部は、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付ける処理を実行する一方で、写像により写される第二の特徴空間上の非共通第一クラスタのそれぞれの点と、第二の特徴空間上の非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付ける処理を実行するように構成され得る。

本開示の一側面によれば、一以上の共通エンティティは、複数の共通エンティティであり得る。複数の第一のクラスタは、複数の共通エンティティが複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティが複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。

共通エンティティを複数のクラスタに分散させて、一つのクラスタに多数の共通エンティティが含まれないように、第一のグループ及び第二のグループをクラスタリングすれば、共通エンティティを通じて第一のクラスタと第二のクラスタとの間の対応関係を精度よく判別することができ、第一のクラスタ特徴データと、第二のクラスタ特徴データとを精度よく対応付けることができる。

本開示の一側面によれば、複数の第一のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。

本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。第二のクラスタ特徴データは、対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。

エンティティ個々の情報を隠すために、エンティティの特徴が統計化されたクラスタ特徴データが、データ保持者から提供され得る。本開示の一側面によれば、こうした統計処理がなされたクラスタ特徴データ間の対応付けを、適切に行うことができる。

本開示の一側面によれば、エンティティは、消費者であり得る。エンティティの特徴データは、消費者の特徴を説明する特徴データであり得る。

本開示の一側面によれば、上述した情報処理システムが有する機能を少なくとも部分的に実現するためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、及び対応付け部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な一時的でない記録媒体に記録され得る。

本開示の一側面によれば、上述した情報処理システムに対応する情報処理方法が提供されてもよい。本開示の一側面によれば、コンピュータにより実行される情報処理方法が提供されてもよい。

本開示の一側面によれば、情報処理方法は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することを含み得る。

情報処理方法は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することを含み得る。

情報処理方法は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることを含み得る。

この情報処理方法によっても、上述した情報処理システムと同様に、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。

情報処理システムの構成を表すブロック図である。図２Ａは、データ提供システムにおける動作を説明する図であり、図２Ｂは、例示的なクラスタ特徴データの構成を表す図である。共通消費者（白丸）及び非共通消費者（黒丸）を含む消費者グループのクラスタリングに関する説明図である。情報処理システムのプロセッサが実行する取得関連処理を表すフローチャートである。図５Ａは、第一のクラスタ消費者関係表を表す図であり、図５Ｂは、第二のクラスタ消費者関係表を表す図であり、図５Ｃは、クラスタ関係表を表す図である。情報処理システムのプロセッサが実行する分析処理を表すフローチャートである。図７Ａは、分析処理における一部手順の第一例を表すフローチャートであり、図７Ｂは、分析処理における一部手順の第二例を表すフローチャートである。図８Ａは、クラスタリング処理の第一例を表すフローチャートであり、図８Ｂは、クラスタリング処理の第二例を表すフローチャートである。変形例の分析処理を表すフローチャートである。

以下に本開示の例示的実施形態を、図面を参照しながら説明する。
本実施形態の情報処理システム１は、汎用コンピュータに専用のコンピュータプログラムＰｒがインストールされて構成される。情報処理システム１は、図１に示すように、プロセッサ１１と、メモリ１３と、ストレージ１５と、ユーザインタフェース１７と、通信インタフェース１９とを備える。

プロセッサ１１は、ストレージ１５に格納されたコンピュータプログラムＰｒに従う処理を実行する。メモリ１３は、ＲＡＭを備える一次記憶装置であり、プロセッサ１１による処理の実行時に作業エリアとして使用される。

ストレージ１５は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムＰｒの他、コンピュータプログラムＰｒに従う処理の実行時に供される各種データを記憶する。

ユーザインタフェース１７は、情報処理システム１を操作するユーザからの操作信号をプロセッサ１１に入力するための入力デバイスと、ユーザに対して各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。

通信インタフェース１９は、広域ネットワークに接続される。情報処理システム１は、通信インタフェース１９を通じて、第一のデータ提供システム３１及び第二のデータ提供システム３２と通信可能に構成される。

プロセッサ１１は、コンピュータプログラムＰｒに従う処理の実行により、通信インタフェース１９を通じて第一のデータ提供システム３１から第一のデータセット１５Ａを取得し、第二のデータ提供システム３２から第二のデータセット１５Ｂを取得する。

プロセッサ１１は、取得した第一のデータセット１５Ａに、第二のデータセット１５Ｂを結合することにより、データリッチ化した第一のデータセット１５Ａである拡張データセット１５Ｃを生成する。

第一のデータセット１５Ａは、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。

第二のデータセット１５Ｂは、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。

本実施形態によれば、エンティティは、消費者である。すなわち、第一のデータセット１５Ａは、消費者の第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、クラスタ特徴データを備える。

図２Ａに示すように、第一のデータ提供システム３１は、第一のグループにおける複数の消費者の消費者特徴データを記憶する。各消費者特徴データは、対応する消費者の特徴を表す。第一のデータ提供システム３１は、クラスタリング処理を実行することにより、第一のグループを、複数の第一のクラスタにクラスタリングする。

第一のデータ提供システム３１は更に、第一のクラスタ毎に、この第一のクラスタに関する消費者特徴データの一群を統計処理して、第一のクラスタ毎のクラスタ特徴データを生成する。

クラスタ特徴データのそれぞれは、対応するクラスタに属する複数の消費者の消費者特徴データを統計処理により統合して生成される。統計処理は、例えば個人情報保護のために行われる。第一のデータ提供システム３１は、このように生成した第一のクラスタ毎のクラスタ特徴データを備える第一のデータセット１５Ａを情報処理システム１に提供する。

第一のデータ提供システム３１は、プロセッサ３１１及びメモリ３１２を備える。プロセッサ３１１は、メモリ３１２が記憶するコンピュータプログラムに従って、クラスタリング処理及び統計処理を実行する。

第二のデータ提供システム３２もまた、プロセッサ３２１及びメモリ３２２を備える。プロセッサ３２１は、第一のデータ提供システム３１と同様に、メモリ３２２が記憶するコンピュータプログラムに従って、第二のデータ提供システム３２が保持する消費者特徴データの一群に対し、クラスタリング処理及び統計処理を実行する。

これにより、第二のデータ提供システム３２は、消費者の第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備える第二のデータセット１５Ｂを生成し、情報処理システム１に提供する。

消費者特徴データは、対応する消費者の特徴を、複数の要素の値によりベクトル表現する。クラスタ特徴データもまた、対応するクラスタの特徴を、複数の要素の値によりベクトル表現する。

クラスタ特徴データにおける各要素の値は、対応するクラスタに属する消費者集合における、対応する要素の統計的な代表値である。代表値は、消費者集合における対応する要素の平均値、中央値、平均値と分散との組合せ、及び、最大値と最小値との組合せの一以上を含み得る。

図２Ｂに示すクラスタ特徴データは、クラスタの識別コードであるクラスタＩＤに関連付けて、対応するクラスタの特徴を表す各要素の値と、クラスタサイズと、を記述する。クラスタサイズは、対応するクラスタを構成する消費者の数に対応する。

本実施形態では更に、第一のデータ提供システム３１が消費者特徴データを保持する消費者の第一のグループと、第二のデータ提供システム３２が消費者特徴データを保持する消費者の第二のグループとの間に、共通する消費者が存在する可能性を考慮して、情報処理システム１が、第一のデータ提供システム３１及び第二のデータ提供システム３２と通信する。

これにより、情報処理システム１は、第一のグループと第二のグループとの間に共通して存在する消費者の一群を、共通消費者の一群として判別し、これら共通消費者のリストを、第一のデータ提供システム３１及び第二のデータ提供システム３２に送信する。

第一のデータ提供システム３１は、共通消費者のリストに基づいて、第一のグループを、共通消費者の一群が複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なるクラスタに属するように、第一のグループをクラスタリングする。

図３は、白丸及び黒丸で表される消費者の集合を、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリングすることを説明している。丸い破線で囲われた部位が、一つのクラスタに対応する。白丸のそれぞれは、共通消費者の一人を示し、黒丸のそれぞれは、共通消費者ではない消費者、すなわち非共通消費者の一人を示す。

第二のデータ提供システム３２も同様に、第二のグループを、共通消費者の一群が複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングする。

情報処理システム１は、このようなクラスタリングにより生成された第一のクラスタ毎のクラスタ特徴データを含む第一のデータセット１５Ａを、第一のデータ提供システム３１から取得し、第二のクラスタ毎のクラスタ特徴データを含む第二のデータセット１５Ｂを、第二のデータ提供システム３２から取得する。

図４には、第一のデータセット１５Ａ及び第二のデータセット１５Ｂの取得のために、情報処理システム１のプロセッサ１１が実行する取得関連処理の詳細を示す。プロセッサ１１は、ユーザインタフェース１７を通じたユーザからの指示に基づき、取得関連処理を開始する。

取得関連処理を開始すると、プロセッサ１１は、第一のデータ提供システム３１から第一のグループに属する消費者のリストを、第一消費者リストとして取得する（Ｓ１１０）。第一消費者リストは、第一のグループに属する消費者毎に、対応する消費者の識別コードである消費者ＩＤの情報を有する。

プロセッサ１１は更に、第二のデータ提供システム３２から第二のグループに属する消費者のリストを、第二消費者リストとして取得する（Ｓ１２０）。第二消費者リストは、第二のグループに属する消費者毎に、消費者ＩＤの情報を有する。

共通消費者の判別のために、第一消費者リスト及び第二消費者リストには、同種の消費者ＩＤが記述され得る。消費者ＩＤは、例えば、広告ＩＤであり得る。あるいは、消費者ＩＤは、多数の消費者に付与されたＩＤであり得る。

第一消費者リストで使用される消費者ＩＤである第一消費者ＩＤは、第二消費者リストで使用される消費者ＩＤである第二消費者ＩＤとは異なる種類の識別コードであってもよい。この場合には、同一人物を判別するために、第一消費者ＩＤと第二消費者ＩＤとの間の対応関係を示すテーブルが必要になり得る。

続くＳ１３０において、プロセッサ１１は、第一消費者リストに列挙された消費者ＩＤと、第二消費者リストに列挙された消費者ＩＤとの比較により、第一のグループと第二のグループとの間で共通する一以上の消費者である一以上の共通消費者を判別し、共通消費者のリストを生成する。

続くＳ１４０において、プロセッサ１１は、Ｓ１３０で作成した共通消費者のリストを、第一及び第二のデータ提供システム３１，３２に送信し、第一及び第二のデータ提供システム３１，３２に、このリストに基づき、上述した第一のデータセット１５Ａ及び第二のデータセット１５Ｂを生成させる。

続くＳ１５０において、プロセッサ１１は、第一のデータ提供システム３１から、第一のデータセット１５Ａを取得すると共に、第一のクラスタ消費者関係表を取得する。第一のクラスタ消費者関係表は、例えば、図５Ａに示すように、共通消費者の消費者ＩＤ毎に、対応する消費者が属する第一のクラスタの識別コードである第一クラスタＩＤを記述する。第一のデータ提供システム３１は、第一のデータセット１５Ａと共に、第一のクラスタ消費者関係表を情報処理システム１に送信するように構成される。

プロセッサ１１は、第二のデータ提供システム３２から、第二のデータセット１５Ｂを取得すると共に、第二のクラスタ消費者関係表を取得する（Ｓ１６０）。第二のクラスタ消費者関係表は、例えば、図５Ｂに示すように、共通消費者の消費者ＩＤ毎に、対応する消費者が属する第二のクラスタの識別コードである第二クラスタＩＤを記述する。第二のデータ提供システム３２は、第二のデータセット１５Ｂと共に、第二のクラスタ消費者関係表を情報処理システム１に送信するように構成される。

続くＳ１７０において、プロセッサ１１は、取得した第一及び第二のクラスタ消費者関係表に基づき、同じ消費者が含まれる第一のクラスタと第二のクラスタとの組合せを示した図５Ｃに示すクラスタ関係表を生成する。クラスタ関係表は、共通消費者のそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に対応する。図５Ｃに例示されるクラスタ関係表は、同じ共通消費者が含まれる第一のクラスタと、第二のクラスタとの組合せを、第一のクラスタのクラスタＩＤと第二のクラスタのクラスタＩＤとの組み合わせにより示す。

続くＳ１８０において、プロセッサ１１は、Ｓ１７０で生成したクラスタ関係表を、第一のデータセット１５Ａ及び第二のデータセット１５Ｂと共に、ストレージ１５に保存して図４に示す処理を終了する。

続いて、プロセッサ１１が実行する分析処理の詳細を、図６を用いて説明する。分析処理は、例えばユーザインタフェース１７を通じたユーザからの指示に基づいて実行される。

分析処理を開始すると、プロセッサ１１は、ユーザから指定された第一のデータセット１５Ａをストレージ１５から読み出し、読み出した第一のデータセット１５Ａに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、配列Ｄ_ｆを生成する（Ｓ２１０）。

例えば、クラスタがＫ１個であり、Ｋ１個のクラスタ特徴データのそれぞれが、Ｌ１個の要素を有するＬ１次元特徴ベクトルでクラスタの特徴を表すとき、配列Ｄ_ｆは、Ｋ１行Ｌ１列の二次元配列である。

配列Ｄ_ｆの各行ベクトルＤ_ｆ［ｉ］＝（ｘ_ｉ［１］，ｘ_ｉ［２］，ｘ_ｉ［３］，…，ｘ_ｉ［Ｌ１］）は、対応するｉ番目の第一のクラスタのＬ１次元特徴ベクトルである。ここでのｉは、配列Ｄ_ｆの行番号に対応し、クラスタ数Ｋ１に対応する値１から値Ｋ１までの整数値を取る。

以下では、第一のデータセット１５Ａに含まれるクラスタ特徴データによって表現される特徴ベクトルＤ_ｆ［ｉ］に対応するＬ１次元空間のことを第一の特徴空間と表現する。特徴ベクトルＤ_ｆ［ｉ］は、対応する第一のクラスタが第一の特徴空間上において配置される点を定義する。第一の特徴空間は、特徴ベクトルＤ_ｆ［ｉ］が有するＬ１個の要素のそれぞれに対応する次元を有するＬ１次元空間である。

続くＳ２２０において、プロセッサ１１は、ユーザから指定された第二のデータセット１５Ｂをストレージ１５から読み出し、読み出した第二のデータセット１５Ｂに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、配列Ｄ_ｓを生成する。

例えば、クラスタがＫ２個であり、Ｋ２個のクラスタ特徴データのそれぞれが、Ｌ２個の要素を有するＬ２次元特徴ベクトルでクラスタの特徴を表すとき、配列Ｄ_ｓは、Ｋ２行Ｌ２列の二次元配列である。

配列Ｄｓの各行ベクトルＤ_ｓ［ｊ］＝（ｙ_ｊ［１］，ｙ_ｊ［２］，ｙ_ｊ［３］，…，ｙ_ｊ［Ｌ２］）は、対応するｊ番目の第二のクラスタのＬ２次元特徴ベクトルである。ここでのｊは、配列Ｄ_ｓの行番号に対応し、クラスタ数Ｋ２に対応する値１から値Ｋ２までの整数値を取る。

以下では、第二のデータセット１５Ｂに含まれるクラスタ特徴データによって表現される特徴ベクトルＤ_ｓ［ｊ］に対応するＬ２次元空間のことを第二の特徴空間と表現する。特徴ベクトルＤ_ｓ［ｊ］は、対応する第二のクラスタが第二の特徴空間上で配置される点を定義する。第二の特徴空間は、特徴ベクトルＤ_ｓ［ｊ］が有するＬ２個の要素のそれぞれに対応する次元を有するＬ２次元空間である。

続くＳ２３０において、プロセッサ１１は、次に示す評価関数Ｅを最小にする関数ｇを探索することにより、第一のデータセット１５Ａから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット１５Ｂから特定される第二の特徴空間上の同一人物の点近くに、最もよく写す写像を探索する。

上式におけるｍは、第一のデータセット１５Ａにクラスタ特徴データが記述されるＫ１個の第一のクラスタに対応する消費者群のうちのｍ番目の消費者を意味する。

ここでの消費者群は、第一のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるＫ１個の第一のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるＫ１個の第一のクラスタに対応するＫ１人の消費者群であり得る。Ａ_ｆ ^－１［ｍ］は、ｍ番目の消費者が所属する第一のクラスタが、Ｋ１個のクラスタのうち、Ａ_ｆ ^－１［ｍ］番目のクラスタであることを意味する。

上式におけるｎは、第二のデータセット１５Ｂにクラスタ特徴データが記述されるＫ２個の第二のクラスタに対応する消費者群のうちのｎ番目の消費者を意味する。ここでの消費者群は、第二のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるＫ２個の第二のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるＫ２個の第二のクラスタに対応するＫ２人の消費者群であり得る。Ａ_ｓ ^－１［ｎ］は、ｎ番目の消費者が所属する第二のクラスタが、Ｋ２個のクラスタのうち、Ａ_ｓ ^－１［ｎ］番目のクラスタであることを意味する。

ｄ（ｖ１，ｖ２）は、距離関数であり、ベクトルｖ１とベクトルｖ２との間の距離（例えばマハラノビス距離）を表す。τは、設計パラメータであり、ユーザにより、換言すれば分析者により定められる。

評価関数Ｅの第一項及び第二項のそれぞれは、第一のグループにおけるｍ番目の消費者が所属するＡ_ｆ ^－１［ｍ］番目の第一のクラスタの第一の特徴空間上の点Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］を、写像としての関数ｇにより第二の特徴空間上の点に写したときの、第二の特徴空間上の点ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］）と、第二のグループにおけるｎ番目の消費者が所属するＡ_ｓ ^－１［ｎ］番目の第二のクラスタの第二の特徴空間上の点Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］との間の距離ｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）の総和Σｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）を表す。

但し、評価関数Ｅの第一項は、クラスタ関係表によれば、Ａ_ｆ ^－１［ｍ］番目の第一のクラスタとＡ_ｓ ^－１［ｎ］番目の第二のクラスタとの間に同じ消費者が存在するｍ，ｎの組合せの集合Ｍ１についての総和Σｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）である。すなわち、同じ消費者の組合せ（ｍ，ｎ）についての総和Σｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）である。

評価関数Ｅの第二項は、クラスタ関係表によれば、Ａ_ｆ ^－１［ｍ］番目の第一のクラスタとＡ_ｓ ^－１［ｎ］番目の第二のクラスタとの間に同じ消費者が存在しないｍ，ｎの組合せの集合Ｍ２についての総和Σｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）である。すなわち、異なる消費者の組合せ（ｍ，ｎ）についての総和Σｄ（ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］），Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］）である。

この評価関数Ｅは、同じ消費者を含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力する関数である。

従って、評価関数Ｅを最小にする関数ｇを探索することによれば、第一のデータセット１５Ａから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット１５Ｂから特定される第二の特徴空間上の同一人物の点に近い位置に、最もよく写す写像を探索することができる。この写像によれば、非同一人物間の距離は、第二の特徴空間上で遠くなる。関数ｇは、変換直交行列であってもよいし、多層パーセプトロンであってもよい。

Ｓ２３０における評価関数Ｅを最小にする関数ｇの探索後、プロセッサ１１は、探索された関数ｇにより写されるＫ１個の第一のクラスタの第二の特徴空間上の点ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］）と、Ｋ２個の第二のクラスタの第二の特徴空間上の点Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］との間の位置関係（換言すれば相対位置）に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける（Ｓ２４０）。

例えば、プロセッサ１１は、各点には、対応するクラスタのクラスタサイズに一致する人数の消費者が存在するとみなして、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける。

例えば、プロセッサ１１は、Ｓ２４０において図７Ａに示す処理を実行することができる。この処理によれば、プロセッサ１１は、クラスタ関係表に基づき、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定する（Ｓ２４１）。値εは、例えばゼロ又はゼロに近い値であり得る。

プロセッサ１１は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアに関しては、特徴ベクトルｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］）及び特徴ベクトルＤ_ｓ［Ａ_ｓ ^－１［ｎ］］から特定される第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離をそのまま用いて、上記最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける（Ｓ２４３）。

あるいは、プロセッサ１１は、Ｓ２４０において図７Ｂに示す処理を実行することができる。この処理によれば、プロセッサ１１は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付ける（Ｓ２４５）。

同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、ペア毎に、クラスタ特徴データから特定される第一のクラスタの第二の特徴空間上の点ｇ（Ｄ_ｆ［Ａ_ｆ ^－１［ｍ］］）と、第二のクラスタの第二の特徴空間上の点Ｄ_ｓ［Ａ_ｓ ^－１［ｎ］］との間の位置関係に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける（Ｓ２４７）。

例えば、プロセッサ１１は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に限って、これに対する最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける（Ｓ２４７）。

このようしてＳ２４０での処理を終了すると、プロセッサ１１は、第一のデータセット１５Ａに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット１５Ｂに含まれる、Ｓ２４０の処理で対応付けられた一以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット１５Ａと第二のデータセット１５Ｂとを結合する。この結合（すなわち、データフュージョン）により、プロセッサ１１は、拡張データセット１５Ｃを生成し、ストレージ１５に保存する（Ｓ２５０）。その後、プロセッサ１１は、分析処理を終了する。

以上に説明した本実施形態の情報処理システム１によれば、第一のデータセット１５Ａに対応する消費者の第一のグループと、第二のデータセット１５Ｂに対応する消費者の第二のグループとの間に共通する消費者の情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。特には、同じ消費者を有する第一のクラスタと第二のクラスタとを対応付けるように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。

ところで、対応付けの精度向上のためには、第一のデータ提供システム３１及び第二のデータ提供システム３２において、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリング処理が実行されることが好ましい。

このために、第一のデータ提供システム３１及び第二のデータ提供システム３２では、ｋ－ｍｅａｎｓ法を改良した図８Ａに示すクラスタリング処理が実行され得る。

すなわち、第一のデータ提供システム３１のプロセッサ３１１は、クラスタリング処理として、次のペナルティ付き評価関数Ｈが最小となるように、第一のグループを所定数Ｋ個のクラスタにクラスタリングする処理（Ｓ３００）を実行することができる。

評価関数Ｈの第一項は、ｋ－ｍｅａｎｓ法に従う評価関数であり、評価関数Ｈの第二項は、一つのクラスタに複数の共通消費者が存在するときに、ペナルティλを加算する項である。

評価関数Ｈにおけるｍは、消費者のインデックスであり、ｋは、クラスタのインデックスである。Ａ［ｋ］は、第ｋクラスタを構成する消費者集合である。指示関数Ｉ（ｍ∈Ａ［ｋ］）は、第ｍ消費者が第ｋクラスタを構成する消費者集合に存在するとき、値１を返し、それ以外の場合には値０を返す関数である。Ｗ［ｍ］は、第ｍ消費者の重みである。重みＷは１と理解されてもよい。

Ｃ［ｋ］は、第ｋクラスタの中心ベクトルであり、Ｄ［ｍ］は、第ｍ消費者の消費者特徴データから特定される第ｍ消費者の特徴ベクトルである。Ａ^－１［ｉ］は、第ｉ消費者が所属するクラスタが、Ｋ個のクラスタのうち、第Ａ^－１［ｉ］クラスタであることを示す。

指示関数Ｉ（Ａ^－１［ｉ］＝＝Ａ^－１［ｊ］）は、共通消費者の集合Ｑのうち、第ｉ消費者と第ｊ消費者とが同じクラスタに存在するとき値１を返し、第ｉ消費者と第ｊ消費者とが同じクラスタに存在しないとき値０を返す関数である。

すなわち、評価関数Ｈの第二項は、共通消費者の集合Ｑであって、ｉ≠ｊである消費者の組合せについての値Ｉ（Ａ^－１［ｉ］＝＝Ａ^－１［ｊ］）の和にペナルティλを掛けた項である。ペナルティλは正の値として設計者により定められ得る。

第二のデータ提供システム３２のプロセッサ３２１も、第一のデータ提供システム３１と同様にペナルティ付き評価関数Ｈに従って、第二のグループを複数の第二のクラスタにクラスタリングすることができる。

別例として、第一のデータ提供システム３１のプロセッサ３１１は、図８Ｂに示すクラスタリング処理を実行してもよい。

図８Ｂに示すクラスタリング処理によれば、プロセッサ３１１は、所定数Ｋ個の空のクラスタを設定する（Ｓ４１０）。その後、プロセッサ３１１は、消費者の第一のグループのうち、第二のグループと共通する共通消費者の一人を、対象消費者としてランダムに選択する（Ｓ４２０）。

続いて、プロセッサ３１１は、設定されたＫ個のクラスタの中に、共通消費者が割り当てられていない空のクラスタが存在するかを判断する（Ｓ４３０）。プロセッサ３１１は、空のクラスタが存在すると判断すると（Ｓ４３０でＹｅｓ）、対象消費者を、空のクラスタの一つに割り当てる（Ｓ４４０）。

続くＳ４５０において、プロセッサ３１１は、共通消費者の全てをＫ個のクラスタのいずれかに割り当てたかを判断する。ここで否定判断すると（Ｓ４５０でＮｏ）、プロセッサ３１１は、Ｓ４２０において新たに共通消費者を一人、対象消費者に選択し、選択した対象消費者についてＳ４３０以降の処理を実行する。

このようにして、プロセッサ３１１は、共通消費者毎にＳ４３０以降の処理を実行し、共通消費者のそれぞれを、Ｋ個のクラスタのいずれかに割り当てる。

クラスタ数より共通消費者数が少ない場合には、Ｓ４３０で否定判断されることなく、共通消費者がＫ個のクラスタのいずれかに割り当てられる。一方、クラスタ数より共通消費者数が多い場合、Ｋ人の共通消費者を空のクラスタに割り当てた後、残りの共通消費者を新たに対象消費者に選択するとき、プロセッサ３１１は、Ｓ４３０で空のクラスタが存在しないと判断する。

Ｓ４３０で空のクラスタが存在しないと判断すると、プロセッサ３１１は、対象消費者を、次の評価関数Ｒ＝ｄ（Ｃ［ｋ］，Ｄ［ｉ］）が最小となるクラスタに割り当てる（Ｓ４４５）。

評価関数Ｒにおける、Ｃ［ｋ］は、第ｋクラスタの中心ベクトルであり、Ｄ［ｉ］は、対象消費者である第ｉ消費者の消費者特徴データから特定される第ｉ消費者の特徴ベクトルである。ｄ（）は、距離関数である。

Ｓ４４５におけるクラスタの割当後、プロセッサ３１１は、Ｓ４５０の処理を実行する。Ｓ４５０において共通消費者の全てをＫ個のクラスタのいずれかに割り当てたと判断すると、プロセッサ３１１は、第一のグループにおける残りの非共通消費者のそれぞれを、ｋ－ｍｅａｎｓ法と同様に、当該消費者の特徴ベクトルとクラスタの中心ベクトルとの間の距離の総和が最も短くなるように、近傍のクラスタに割り当てる（Ｓ４６０）。

プロセッサ３１１は、このようにして、第一のグループに属する消費者のそれぞれをＫ個のクラスタのいずれかに割り当てることにより、消費者の第一のグループをＫ個のクラスタにクラスタリングする。その後、図８Ｂに示すクラスタリング処理を終了する。

このクラスタリング処理によれば、共通消費者の数がクラスタ数より少ないときには、一つのクラスタに含まれる共通消費者が一人になるように、共通消費者を複数のクラスタに分散して配置することができる。従って、情報処理システム１における第一のクラスタと第二のクラスタとの対応付けを、共通消費者の情報に基づいて、高精度に行うことが可能である。

以上に説明した本開示の技術は、上述した実施形態に限定されるものではなく、種々の態様を採り得る。

上述した実施形態は、第一のデータセット１５Ａに含まれるクラスタ特徴データと、第二のデータセット１５Ｂに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在しない場合でも、写像（関数ｇ）の探索により、第一のクラスタと第二のクラスタとを対応付け可能である。

一方、第一のデータセット１５Ａに含まれるクラスタ特徴データと、第二のデータセット１５Ｂに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在する場合、すなわち、第一のデータセット１５Ａに含まれるクラスタ特徴データの特徴ベクトル（ｘ_ｉ［１］，ｘ_ｉ［２］，ｘ_ｉ［３］，…，ｘ_ｉ［Ｌ１］）と、第二のデータセット１５Ｂに含まれるクラスタ特徴データの特徴ベクトル（ｙ_ｊ［１］，ｙ_ｊ［２］，ｙ_ｊ［３］，…，ｙ_ｊ［Ｌ２］）との間に共通する変数が存在する場合は、この共通変数のみに基づいて最適輸送問題を解くことにより、第一のクラスタと第二のクラスタとの間の対応付けを行ってもよい。

具体的に、プロセッサ１１は、図６に示す分析処理に代えて、図９に示す分析処理を実行することができる。図９に示す分析処理を開始すると、プロセッサ１１は、Ｓ５１０において、指定された第一のデータセット１５Ａをストレージ１５から読み出し、読み出した第一のデータセット１５Ａに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、第一のクラスタ毎に共通変数のみの特徴ベクトルＤ_ｆ ^＊［ｉ］＝（ｘ_ｉ［１］，ｘ_ｉ［２］，ｘ_ｉ［３］，…，ｘ_ｉ［Ｌ０］）を生成する。

ここでは、第一のデータセット１５Ａにおいて第一のクラスタの特徴を説明するＬ１個の要素のうちのＬ０個の要素ｘ_ｉ［１］，ｘ_ｉ［２］，ｘ_ｉ［３］，…，ｘ_ｉ［Ｌ０］と、第二のデータセット１５Ｂにおいて第二のクラスタの特徴を説明するＬ２個の要素のうちのＬ０個の要素ｙ_ｊ［１］，ｙ_ｊ［２］，ｙ_ｊ［３］，…，ｙ_ｊ［Ｌ０］と、が共通変数であるとの前提を置く。

続くＳ５２０において、プロセッサ１１は、指定された第二のデータセット１５Ｂをストレージ１５から読み出し、読み出した第二のデータセット１５Ｂに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、第二のクラスタ毎に共通変数のみの特徴ベクトルＤ_ｓ ^＊［ｊ］＝（ｙ_ｊ［１］，ｙ_ｊ［２］，ｙ_ｊ［３］，…，ｙ_ｊ［Ｌ０］）を生成する。

続くＳ５４０において、プロセッサ１１は、第一のクラスタと第二のクラスタとの組合せ毎の、特徴ベクトルＤ_ｆ ^＊［ｉ］と特徴ベクトルＤ_ｓ ^＊［ｊ］との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付ける。

Ｓ５４０において、プロセッサ１１は、図７Ａに示す処理と同様に、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定して、最適輸送問題を解くことができる。

あるいは、プロセッサ１１は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付けることができる。その後、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、特徴ベクトルＤ_ｆ ^＊［ｉ］と特徴ベクトルＤ_ｓ ^＊［ｊ］との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付けることができる。

続くＳ５５０においてプロセッサ１１は、Ｓ５４０での対応付けに従って、第一のデータセット１５Ａに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット１５Ｂに含まれる、対応付けられた一つ以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット１５Ａと第二のデータセット１５Ｂとを結合する。この結合により、拡張データセット１５Ｃを生成し、これをストレージ１５に保存する。その後、プロセッサ１１は、分析処理を終了する。

図９に示す分析処理によれば、共通変数に注目して負荷の低い手順で、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間のデータフュージョンを実現することができる。

以上には、消費者の特徴データを含むデータセットの結合に、本開示の技術を適用した例を説明したが、消費者以外の、情報端末及び自動車を例に含む様々なものに対して、本開示の技術は適用され得る。すなわち、エンティティは、消費者以外及び人以外であってもよい。

上記実施形態における１つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、１つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。

１…情報処理システム、１１…プロセッサ、１３…メモリ、１５…ストレージ、１５Ａ…第一のデータセット、１５Ｂ…第二のデータセット、１５Ｃ…拡張データセット、１７…ユーザインタフェース、１９…通信インタフェース、３１…第一のデータ提供システム、３２…第二のデータ提供システム、３１１…プロセッサ、３１２…メモリ、３２１…プロセッサ、３２２…メモリ、Ｐｒ…コンピュータプログラム。

Claims

エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
を備える情報処理システム。
前記対応付け部は、前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けるように構成される請求項１記載の情報処理システム。
前記対応付け部は、前記複数の第一のクラスタのうち、前記特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、前記複数の第二のクラスタのうち、前記特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、前記一以上の非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データと前記一以上の非共通第二クラスタのそれぞれの前記第二のクラスタ特徴データとに基づき、前記非共通第一クラスタのそれぞれと前記非共通第二クラスタのそれぞれとの間の関係を判別し、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付けるように構成される請求項２記載の情報処理システム。
前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
前記対応付け部は、
前記第一の特徴空間上の前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
前記写像により写される前記第二の特徴空間上の前記複数の第一のクラスタのそれぞれの点と、前記第二の特徴空間上の前記複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理と、
を実行し、
前記評価関数は、
同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
ように設計される関数である請求項１又は請求項２記載の情報処理システム。
前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
前記対応付け部は、
前記第一の特徴空間上の前記特定クラスタを含む前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付ける処理と、
前記写像により写される前記第二の特徴空間上の前記非共通第一クラスタのそれぞれの点と、前記第二の特徴空間上の前記非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付ける処理と、
を実行し、
前記評価関数は、
同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
ように設計される関数である請求項３記載の情報処理システム。
前記評価関数は、
前記特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、小さい値を出力し、
前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、大きい値を出力する
ように設計され、
前記対応付け部は、前記評価関数の出力を最小にする前記写像を探索する請求項４又は請求項５記載の情報処理システム。
前記一以上の共通エンティティは、複数の共通エンティティであり、
前記複数の第一のクラスタは、前記複数の共通エンティティが前記複数の第一のクラスタに分散して配置されるように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
前記複数の第二のクラスタは、前記複数の共通エンティティが前記複数の第二のクラスタに分散して配置されるように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項１～請求項６のいずれか一項記載の情報処理システム。
前記一以上の共通エンティティは、複数の共通エンティティであり、
前記複数の第一のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
前記複数の第二のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項１～請求項６のいずれか一項記載の情報処理システム。
前記第一のクラスタ特徴データは、前記対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり、
前記第二のクラスタ特徴データは、前記対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データである請求項１～請求項８のいずれか一項記載の情報処理システム。
前記エンティティは、消費者であり、前記エンティティの前記特徴データは、前記消費者の特徴を説明する特徴データである請求項９記載の情報処理システム。
請求項１～請求項１０のいずれか一項記載の情報処理システムにおける前記第一取得部、前記第二取得部、及び前記対応付け部として、コンピュータを機能させるためのコンピュータプログラム。
コンピュータにより実行される情報処理方法であって、
エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
を含む情報処理方法。