JP2023142494A - 情報処理システム、コンピュータプログラム、及び情報処理方法 - Google Patents

情報処理システム、コンピュータプログラム、及び情報処理方法 Download PDF

Info

Publication number
JP2023142494A
JP2023142494A JP2022049442A JP2022049442A JP2023142494A JP 2023142494 A JP2023142494 A JP 2023142494A JP 2022049442 A JP2022049442 A JP 2022049442A JP 2022049442 A JP2022049442 A JP 2022049442A JP 2023142494 A JP2023142494 A JP 2023142494A
Authority
JP
Japan
Prior art keywords
cluster
clusters
common
feature data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022049442A
Other languages
English (en)
Other versions
JP7151009B1 (ja
Inventor
雄介 熊谷
Yusuke Kumagai
龍 道本
Ryu Domoto
慎平 三浦
Shimpei Miura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hakuhodo DY Holdings Inc
Original Assignee
Hakuhodo DY Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hakuhodo DY Holdings Inc filed Critical Hakuhodo DY Holdings Inc
Priority to JP2022049442A priority Critical patent/JP7151009B1/ja
Application granted granted Critical
Publication of JP7151009B1 publication Critical patent/JP7151009B1/ja
Priority to PCT/JP2023/010384 priority patent/WO2023182163A1/ja
Publication of JP2023142494A publication Critical patent/JP2023142494A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供する。【解決手段】エンティティの第一のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットが取得される。エンティティの第二のグループにおける複数のクラスタに関し、クラスタ毎に、対応するクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットが取得される。共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれが、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けられる(S210~S250)。【選択図】図6

Description

本開示は、情報処理システム及び情報処理方法に関する。
異なる手段で収集した消費者に関する複数のデータセットを対応付けるデータフュージョン技術が既に知られている。例えば、出願人は、消費者の第一のグループをクラスタリングして定義される複数のクラスタの特徴データと、消費者の第二のグループをクラスタリングして定義される複数のクラスタの特徴データと、をクラスタの類似性に基づいて、対応付ける技術を既に開示している(例えば、特許文献1参照)。
特開2016-126609号公報
消費者個人の特徴データを、クラスタの特徴データに置き換えることは、個人情報を保護しながら、消費者データを授受する目的で役立つ。
しかしながら、クラスタの類似性を特徴データの内容に基づき評価するだけでは、高精度に対応付けを行うことができない場合がある。すなわち、従来技術には、対応付けの精度について改善の余地があった。
そこで、本開示の一側面によれば、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタ、及び、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関して、クラスタ間の特徴データの適切な対応付けを実現可能な新規技術を提供できることが望ましい。
本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一取得部と、第二取得部と、対応付け部と、を備える。
第一取得部は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される。
第二取得部は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される。
対応付け部は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される。
このように構成された情報処理システムによれば、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。
本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、それぞれが共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付けるように構成され得る。
このように構成された情報処理システムによれば、共通エンティティが属する第一のクラスタと第二のクラスタとの関係に整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
本開示の一側面によれば、対応付け部は、複数の第一のクラスタのうち、特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、複数の第二のクラスタのうち、特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、一以上の非共通第一クラスタのそれぞれの第一のクラスタ特徴データと一以上の非共通第二クラスタのそれぞれの第二のクラスタ特徴データとに基づき、非共通第一クラスタのそれぞれと非共通第二クラスタのそれぞれとの間の関係を判別し、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付けるように構成され得る。
このように構成された情報処理システムによれば、共通エンティティの有無と整合するように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタの第一の特徴空間上の点を定義するデータであり得る。第二のクラスタ特徴データは、対応する第二のクラスタの第二の特徴空間上の点を定義するデータであり得る。
本開示の一側面によれば、対応付け部は、第一の特徴空間上の複数の第一のクラスタのそれぞれの点を第二の特徴空間に写す写像を、評価関数を用いて探索する処理を実行し得る。
本開示の一側面によれば、評価関数は、同じエンティティを含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力するように設計され得る。
本開示の一側面によれば、評価関数は、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、特定方向とは逆方向に変化する値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を特定方向側の限界値にする写像を探索するように構成され得る。
本開示の一側面によれば、評価関数は、特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力するように設計され得る。この場合、対応付け部は、評価関数の出力を最小にする写像を探索するように構成され得る。
本開示の一側面によれば、対応付け部は、写像により写される第二の特徴空間上の複数の第一のクラスタのそれぞれの点と、第二の特徴空間上の複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、複数の第一のクラスタ特徴データのそれぞれを、複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理を実行するように構成され得る。
このように構成された情報処理システムによれば、共通エンティティに注目して、適切な第一の特徴空間から第二の特徴空間への写像を求めた上で、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができるので、高精度な対応付けを実現することができる。
本開示の一側面によれば、対応付け部は、特定クラスタのそれぞれの第一のクラスタ特徴データを、同じエンティティを含む第二のクラスタの第二のクラスタ特徴データと対応付ける処理を実行する一方で、写像により写される第二の特徴空間上の非共通第一クラスタのそれぞれの点と、第二の特徴空間上の非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、非共通第一クラスタのそれぞれの第一のクラスタ特徴データを、非共通第二クラスタの少なくとも一つの第二のクラスタ特徴データに対応付ける処理を実行するように構成され得る。
本開示の一側面によれば、一以上の共通エンティティは、複数の共通エンティティであり得る。複数の第一のクラスタは、複数の共通エンティティが複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティが複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。
共通エンティティを複数のクラスタに分散させて、一つのクラスタに多数の共通エンティティが含まれないように、第一のグループ及び第二のグループをクラスタリングすれば、共通エンティティを通じて第一のクラスタと第二のクラスタとの間の対応関係を精度よく判別することができ、第一のクラスタ特徴データと、第二のクラスタ特徴データとを精度よく対応付けることができる。
本開示の一側面によれば、複数の第一のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、第一のグループをクラスタリングして定義されるクラスタの集合であり得る。複数の第二のクラスタは、複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングして定義されるクラスタの集合であり得る。
本開示の一側面によれば、第一のクラスタ特徴データは、対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。第二のクラスタ特徴データは、対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり得る。
エンティティ個々の情報を隠すために、エンティティの特徴が統計化されたクラスタ特徴データが、データ保持者から提供され得る。本開示の一側面によれば、こうした統計処理がなされたクラスタ特徴データ間の対応付けを、適切に行うことができる。
本開示の一側面によれば、エンティティは、消費者であり得る。エンティティの特徴データは、消費者の特徴を説明する特徴データであり得る。
本開示の一側面によれば、上述した情報処理システムが有する機能を少なくとも部分的に実現するためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、及び対応付け部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な一時的でない記録媒体に記録され得る。
本開示の一側面によれば、上述した情報処理システムに対応する情報処理方法が提供されてもよい。本開示の一側面によれば、コンピュータにより実行される情報処理方法が提供されてもよい。
本開示の一側面によれば、情報処理方法は、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することを含み得る。
情報処理方法は、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することを含み得る。
情報処理方法は、第一のグループと第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることを含み得る。
この情報処理方法によっても、上述した情報処理システムと同様に、第一のデータセットに対応するエンティティの第一のグループと、第二のデータセットに対応するエンティティの第二のグループとの間に共通するエンティティの情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。
情報処理システムの構成を表すブロック図である。 図2Aは、データ提供システムにおける動作を説明する図であり、図2Bは、例示的なクラスタ特徴データの構成を表す図である。 共通消費者(白丸)及び非共通消費者(黒丸)を含む消費者グループのクラスタリングに関する説明図である。 情報処理システムのプロセッサが実行する取得関連処理を表すフローチャートである。 図5Aは、第一のクラスタ消費者関係表を表す図であり、図5Bは、第二のクラスタ消費者関係表を表す図であり、図5Cは、クラスタ関係表を表す図である。 情報処理システムのプロセッサが実行する分析処理を表すフローチャートである。 図7Aは、分析処理における一部手順の第一例を表すフローチャートであり、図7Bは、分析処理における一部手順の第二例を表すフローチャートである。 図8Aは、クラスタリング処理の第一例を表すフローチャートであり、図8Bは、クラスタリング処理の第二例を表すフローチャートである。 変形例の分析処理を表すフローチャートである。
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrがインストールされて構成される。情報処理システム1は、図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行する。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。
ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。
ユーザインタフェース17は、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するための入力デバイスと、ユーザに対して各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。
通信インタフェース19は、広域ネットワークに接続される。情報処理システム1は、通信インタフェース19を通じて、第一のデータ提供システム31及び第二のデータ提供システム32と通信可能に構成される。
プロセッサ11は、コンピュータプログラムPrに従う処理の実行により、通信インタフェース19を通じて第一のデータ提供システム31から第一のデータセット15Aを取得し、第二のデータ提供システム32から第二のデータセット15Bを取得する。
プロセッサ11は、取得した第一のデータセット15Aに、第二のデータセット15Bを結合することにより、データリッチ化した第一のデータセット15Aである拡張データセット15Cを生成する。
第一のデータセット15Aは、エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。
第二のデータセット15Bは、エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備えるデータセットである。
本実施形態によれば、エンティティは、消費者である。すなわち、第一のデータセット15Aは、消費者の第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、クラスタ特徴データを備える。
図2Aに示すように、第一のデータ提供システム31は、第一のグループにおける複数の消費者の消費者特徴データを記憶する。各消費者特徴データは、対応する消費者の特徴を表す。第一のデータ提供システム31は、クラスタリング処理を実行することにより、第一のグループを、複数の第一のクラスタにクラスタリングする。
第一のデータ提供システム31は更に、第一のクラスタ毎に、この第一のクラスタに関する消費者特徴データの一群を統計処理して、第一のクラスタ毎のクラスタ特徴データを生成する。
クラスタ特徴データのそれぞれは、対応するクラスタに属する複数の消費者の消費者特徴データを統計処理により統合して生成される。統計処理は、例えば個人情報保護のために行われる。第一のデータ提供システム31は、このように生成した第一のクラスタ毎のクラスタ特徴データを備える第一のデータセット15Aを情報処理システム1に提供する。
第一のデータ提供システム31は、プロセッサ311及びメモリ312を備える。プロセッサ311は、メモリ312が記憶するコンピュータプログラムに従って、クラスタリング処理及び統計処理を実行する。
第二のデータ提供システム32もまた、プロセッサ321及びメモリ322を備える。プロセッサ321は、第一のデータ提供システム31と同様に、メモリ322が記憶するコンピュータプログラムに従って、第二のデータ提供システム32が保持する消費者特徴データの一群に対し、クラスタリング処理及び統計処理を実行する。
これにより、第二のデータ提供システム32は、消費者の第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表すクラスタ特徴データを備える第二のデータセット15Bを生成し、情報処理システム1に提供する。
消費者特徴データは、対応する消費者の特徴を、複数の要素の値によりベクトル表現する。クラスタ特徴データもまた、対応するクラスタの特徴を、複数の要素の値によりベクトル表現する。
クラスタ特徴データにおける各要素の値は、対応するクラスタに属する消費者集合における、対応する要素の統計的な代表値である。代表値は、消費者集合における対応する要素の平均値、中央値、平均値と分散との組合せ、及び、最大値と最小値との組合せの一以上を含み得る。
図2Bに示すクラスタ特徴データは、クラスタの識別コードであるクラスタIDに関連付けて、対応するクラスタの特徴を表す各要素の値と、クラスタサイズと、を記述する。クラスタサイズは、対応するクラスタを構成する消費者の数に対応する。
本実施形態では更に、第一のデータ提供システム31が消費者特徴データを保持する消費者の第一のグループと、第二のデータ提供システム32が消費者特徴データを保持する消費者の第二のグループとの間に、共通する消費者が存在する可能性を考慮して、情報処理システム1が、第一のデータ提供システム31及び第二のデータ提供システム32と通信する。
これにより、情報処理システム1は、第一のグループと第二のグループとの間に共通して存在する消費者の一群を、共通消費者の一群として判別し、これら共通消費者のリストを、第一のデータ提供システム31及び第二のデータ提供システム32に送信する。
第一のデータ提供システム31は、共通消費者のリストに基づいて、第一のグループを、共通消費者の一群が複数の第一のクラスタに分散して配置されるように、第一のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なるクラスタに属するように、第一のグループをクラスタリングする。
図3は、白丸及び黒丸で表される消費者の集合を、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリングすることを説明している。丸い破線で囲われた部位が、一つのクラスタに対応する。白丸のそれぞれは、共通消費者の一人を示し、黒丸のそれぞれは、共通消費者ではない消費者、すなわち非共通消費者の一人を示す。
第二のデータ提供システム32も同様に、第二のグループを、共通消費者の一群が複数の第二のクラスタに分散して配置されるように、第二のグループをクラスタリングする。共通消費者の数がクラスタ数以下である場合には、複数の共通消費者のそれぞれが互いに異なる第二のクラスタに属するように、第二のグループをクラスタリングする。
情報処理システム1は、このようなクラスタリングにより生成された第一のクラスタ毎のクラスタ特徴データを含む第一のデータセット15Aを、第一のデータ提供システム31から取得し、第二のクラスタ毎のクラスタ特徴データを含む第二のデータセット15Bを、第二のデータ提供システム32から取得する。
図4には、第一のデータセット15A及び第二のデータセット15Bの取得のために、情報処理システム1のプロセッサ11が実行する取得関連処理の詳細を示す。プロセッサ11は、ユーザインタフェース17を通じたユーザからの指示に基づき、取得関連処理を開始する。
取得関連処理を開始すると、プロセッサ11は、第一のデータ提供システム31から第一のグループに属する消費者のリストを、第一消費者リストとして取得する(S110)。第一消費者リストは、第一のグループに属する消費者毎に、対応する消費者の識別コードである消費者IDの情報を有する。
プロセッサ11は更に、第二のデータ提供システム32から第二のグループに属する消費者のリストを、第二消費者リストとして取得する(S120)。第二消費者リストは、第二のグループに属する消費者毎に、消費者IDの情報を有する。
共通消費者の判別のために、第一消費者リスト及び第二消費者リストには、同種の消費者IDが記述され得る。消費者IDは、例えば、広告IDであり得る。あるいは、消費者IDは、多数の消費者に付与されたIDであり得る。
第一消費者リストで使用される消費者IDである第一消費者IDは、第二消費者リストで使用される消費者IDである第二消費者IDとは異なる種類の識別コードであってもよい。この場合には、同一人物を判別するために、第一消費者IDと第二消費者IDとの間の対応関係を示すテーブルが必要になり得る。
続くS130において、プロセッサ11は、第一消費者リストに列挙された消費者IDと、第二消費者リストに列挙された消費者IDとの比較により、第一のグループと第二のグループとの間で共通する一以上の消費者である一以上の共通消費者を判別し、共通消費者のリストを生成する。
続くS140において、プロセッサ11は、S130で作成した共通消費者のリストを、第一及び第二のデータ提供システム31,32に送信し、第一及び第二のデータ提供システム31,32に、このリストに基づき、上述した第一のデータセット15A及び第二のデータセット15Bを生成させる。
続くS150において、プロセッサ11は、第一のデータ提供システム31から、第一のデータセット15Aを取得すると共に、第一のクラスタ消費者関係表を取得する。第一のクラスタ消費者関係表は、例えば、図5Aに示すように、共通消費者の消費者ID毎に、対応する消費者が属する第一のクラスタの識別コードである第一クラスタIDを記述する。第一のデータ提供システム31は、第一のデータセット15Aと共に、第一のクラスタ消費者関係表を情報処理システム1に送信するように構成される。
プロセッサ11は、第二のデータ提供システム32から、第二のデータセット15Bを取得すると共に、第二のクラスタ消費者関係表を取得する(S160)。第二のクラスタ消費者関係表は、例えば、図5Bに示すように、共通消費者の消費者ID毎に、対応する消費者が属する第二のクラスタの識別コードである第二クラスタIDを記述する。第二のデータ提供システム32は、第二のデータセット15Bと共に、第二のクラスタ消費者関係表を情報処理システム1に送信するように構成される。
続くS170において、プロセッサ11は、取得した第一及び第二のクラスタ消費者関係表に基づき、同じ消費者が含まれる第一のクラスタと第二のクラスタとの組合せを示した図5Cに示すクラスタ関係表を生成する。クラスタ関係表は、共通消費者のそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に対応する。図5Cに例示されるクラスタ関係表は、同じ共通消費者が含まれる第一のクラスタと、第二のクラスタとの組合せを、第一のクラスタのクラスタIDと第二のクラスタのクラスタIDとの組み合わせにより示す。
続くS180において、プロセッサ11は、S170で生成したクラスタ関係表を、第一のデータセット15A及び第二のデータセット15Bと共に、ストレージ15に保存して図4に示す処理を終了する。
続いて、プロセッサ11が実行する分析処理の詳細を、図6を用いて説明する。分析処理は、例えばユーザインタフェース17を通じたユーザからの指示に基づいて実行される。
分析処理を開始すると、プロセッサ11は、ユーザから指定された第一のデータセット15Aをストレージ15から読み出し、読み出した第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、配列Dを生成する(S210)。
例えば、クラスタがK1個であり、K1個のクラスタ特徴データのそれぞれが、L1個の要素を有するL1次元特徴ベクトルでクラスタの特徴を表すとき、配列Dは、K1行L1列の二次元配列である。
配列Dの各行ベクトルD[i]=(x[1],x[2],x[3],…,x[L1])は、対応するi番目の第一のクラスタのL1次元特徴ベクトルである。ここでのiは、配列Dの行番号に対応し、クラスタ数K1に対応する値1から値K1までの整数値を取る。
以下では、第一のデータセット15Aに含まれるクラスタ特徴データによって表現される特徴ベクトルD[i]に対応するL1次元空間のことを第一の特徴空間と表現する。特徴ベクトルD[i]は、対応する第一のクラスタが第一の特徴空間上において配置される点を定義する。第一の特徴空間は、特徴ベクトルD[i]が有するL1個の要素のそれぞれに対応する次元を有するL1次元空間である。
続くS220において、プロセッサ11は、ユーザから指定された第二のデータセット15Bをストレージ15から読み出し、読み出した第二のデータセット15Bに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、配列Dを生成する。
例えば、クラスタがK2個であり、K2個のクラスタ特徴データのそれぞれが、L2個の要素を有するL2次元特徴ベクトルでクラスタの特徴を表すとき、配列Dは、K2行L2列の二次元配列である。
配列Dsの各行ベクトルD[j]=(y[1],y[2],y[3],…,y[L2])は、対応するj番目の第二のクラスタのL2次元特徴ベクトルである。ここでのjは、配列Dの行番号に対応し、クラスタ数K2に対応する値1から値K2までの整数値を取る。
以下では、第二のデータセット15Bに含まれるクラスタ特徴データによって表現される特徴ベクトルD[j]に対応するL2次元空間のことを第二の特徴空間と表現する。特徴ベクトルD[j]は、対応する第二のクラスタが第二の特徴空間上で配置される点を定義する。第二の特徴空間は、特徴ベクトルD[j]が有するL2個の要素のそれぞれに対応する次元を有するL2次元空間である。
続くS230において、プロセッサ11は、次に示す評価関数Eを最小にする関数gを探索することにより、第一のデータセット15Aから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット15Bから特定される第二の特徴空間上の同一人物の点近くに、最もよく写す写像を探索する。
Figure 2023142494000002
上式におけるmは、第一のデータセット15Aにクラスタ特徴データが記述されるK1個の第一のクラスタに対応する消費者群のうちのm番目の消費者を意味する。
ここでの消費者群は、第一のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるK1個の第一のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるK1個の第一のクラスタに対応するK1人の消費者群であり得る。A -1[m]は、m番目の消費者が所属する第一のクラスタが、K1個のクラスタのうち、A -1[m]番目のクラスタであることを意味する。
上式におけるnは、第二のデータセット15Bにクラスタ特徴データが記述されるK2個の第二のクラスタに対応する消費者群のうちのn番目の消費者を意味する。ここでの消費者群は、第二のクラスタのそれぞれには、クラスタサイズに対応する複数の消費者が存在するとみなしたときに解釈されるK2個の第二のクラスタに対応する消費者群であり得る。あるいは、消費者群は、クラスタのそれぞれに一人の代表する消費者が存在するとみなしたときに解釈されるK2個の第二のクラスタに対応するK2人の消費者群であり得る。A -1[n]は、n番目の消費者が所属する第二のクラスタが、K2個のクラスタのうち、A -1[n]番目のクラスタであることを意味する。
d(v1,v2)は、距離関数であり、ベクトルv1とベクトルv2との間の距離(例えばマハラノビス距離)を表す。τは、設計パラメータであり、ユーザにより、換言すれば分析者により定められる。
評価関数Eの第一項及び第二項のそれぞれは、第一のグループにおけるm番目の消費者が所属するA -1[m]番目の第一のクラスタの第一の特徴空間上の点D[A -1[m]]を、写像としての関数gにより第二の特徴空間上の点に写したときの、第二の特徴空間上の点g(D[A -1[m]])と、第二のグループにおけるn番目の消費者が所属するA -1[n]番目の第二のクラスタの第二の特徴空間上の点D[A -1[n]]との間の距離d(g(D[A -1[m]]),D[A -1[n]])の総和Σd(g(D[A -1[m]]),D[A -1[n]])を表す。
但し、評価関数Eの第一項は、クラスタ関係表によれば、A -1[m]番目の第一のクラスタとA -1[n]番目の第二のクラスタとの間に同じ消費者が存在するm,nの組合せの集合M1についての総和Σd(g(D[A -1[m]]),D[A -1[n]])である。すなわち、同じ消費者の組合せ(m,n)についての総和Σd(g(D[A -1[m]]),D[A -1[n]])である。
評価関数Eの第二項は、クラスタ関係表によれば、A -1[m]番目の第一のクラスタとA -1[n]番目の第二のクラスタとの間に同じ消費者が存在しないm,nの組合せの集合M2についての総和Σd(g(D[A -1[m]]),D[A -1[n]])である。すなわち、異なる消費者の組合せ(m,n)についての総和Σd(g(D[A -1[m]]),D[A -1[n]])である。
この評価関数Eは、同じ消費者を含む第一のクラスタと第二のクラスタとのペアである特定ペアに関しては、特定ペアを構成する第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、小さい値を出力し、特定ペア以外の第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離が短いほど、大きい値を出力する関数である。
従って、評価関数Eを最小にする関数gを探索することによれば、第一のデータセット15Aから特定される第一の特徴空間上の共通消費者に対応する点を、第二のデータセット15Bから特定される第二の特徴空間上の同一人物の点に近い位置に、最もよく写す写像を探索することができる。この写像によれば、非同一人物間の距離は、第二の特徴空間上で遠くなる。関数gは、変換直交行列であってもよいし、多層パーセプトロンであってもよい。
S230における評価関数Eを最小にする関数gの探索後、プロセッサ11は、探索された関数gにより写されるK1個の第一のクラスタの第二の特徴空間上の点g(D[A -1[m]])と、K2個の第二のクラスタの第二の特徴空間上の点D[A -1[n]]との間の位置関係(換言すれば相対位置)に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S240)。
例えば、プロセッサ11は、各点には、対応するクラスタのクラスタサイズに一致する人数の消費者が存在するとみなして、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける。
例えば、プロセッサ11は、S240において図7Aに示す処理を実行することができる。この処理によれば、プロセッサ11は、クラスタ関係表に基づき、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定する(S241)。値εは、例えばゼロ又はゼロに近い値であり得る。
プロセッサ11は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアに関しては、特徴ベクトルg(D[A -1[m]])及び特徴ベクトルD[A -1[n]]から特定される第一のクラスタと第二のクラスタとの間の第二の特徴空間上の距離をそのまま用いて、上記最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S243)。
あるいは、プロセッサ11は、S240において図7Bに示す処理を実行することができる。この処理によれば、プロセッサ11は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付ける(S245)。
同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、ペア毎に、クラスタ特徴データから特定される第一のクラスタの第二の特徴空間上の点g(D[A -1[m]])と、第二のクラスタの第二の特徴空間上の点D[A -1[n]]との間の位置関係に基づいて、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S247)。
例えば、プロセッサ11は、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に限って、これに対する最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一以上に対応付ける(S247)。
このようしてS240での処理を終了すると、プロセッサ11は、第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット15Bに含まれる、S240の処理で対応付けられた一以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合する。この結合(すなわち、データフュージョン)により、プロセッサ11は、拡張データセット15Cを生成し、ストレージ15に保存する(S250)。その後、プロセッサ11は、分析処理を終了する。
以上に説明した本実施形態の情報処理システム1によれば、第一のデータセット15Aに対応する消費者の第一のグループと、第二のデータセット15Bに対応する消費者の第二のグループとの間に共通する消費者の情報を活用し、クラスタに関する特徴データ間の対応付けを精度よく行うことができる。特には、同じ消費者を有する第一のクラスタと第二のクラスタとを対応付けるように、第一のクラスタ特徴データと、第二のクラスタ特徴データとを対応付けることができる。
ところで、対応付けの精度向上のためには、第一のデータ提供システム31及び第二のデータ提供システム32において、一つのクラスタに含まれる共通消費者が可能な限り少なくなるように、理想的には一つのクラスタに含まれる共通消費者が一人になるように、クラスタリング処理が実行されることが好ましい。
このために、第一のデータ提供システム31及び第二のデータ提供システム32では、k-means法を改良した図8Aに示すクラスタリング処理が実行され得る。
すなわち、第一のデータ提供システム31のプロセッサ311は、クラスタリング処理として、次のペナルティ付き評価関数Hが最小となるように、第一のグループを所定数K個のクラスタにクラスタリングする処理(S300)を実行することができる。
Figure 2023142494000003
評価関数Hの第一項は、k-means法に従う評価関数であり、評価関数Hの第二項は、一つのクラスタに複数の共通消費者が存在するときに、ペナルティλを加算する項である。
評価関数Hにおけるmは、消費者のインデックスであり、kは、クラスタのインデックスである。A[k]は、第kクラスタを構成する消費者集合である。指示関数I(m∈A[k])は、第m消費者が第kクラスタを構成する消費者集合に存在するとき、値1を返し、それ以外の場合には値0を返す関数である。W[m]は、第m消費者の重みである。重みWは1と理解されてもよい。
C[k]は、第kクラスタの中心ベクトルであり、D[m]は、第m消費者の消費者特徴データから特定される第m消費者の特徴ベクトルである。A-1[i]は、第i消費者が所属するクラスタが、K個のクラスタのうち、第A-1[i]クラスタであることを示す。
指示関数I(A-1[i]==A-1[j])は、共通消費者の集合Qのうち、第i消費者と第j消費者とが同じクラスタに存在するとき値1を返し、第i消費者と第j消費者とが同じクラスタに存在しないとき値0を返す関数である。
すなわち、評価関数Hの第二項は、共通消費者の集合Qであって、i≠jである消費者の組合せについての値I(A-1[i]==A-1[j])の和にペナルティλを掛けた項である。ペナルティλは正の値として設計者により定められ得る。
第二のデータ提供システム32のプロセッサ321も、第一のデータ提供システム31と同様にペナルティ付き評価関数Hに従って、第二のグループを複数の第二のクラスタにクラスタリングすることができる。
別例として、第一のデータ提供システム31のプロセッサ311は、図8Bに示すクラスタリング処理を実行してもよい。
図8Bに示すクラスタリング処理によれば、プロセッサ311は、所定数K個の空のクラスタを設定する(S410)。その後、プロセッサ311は、消費者の第一のグループのうち、第二のグループと共通する共通消費者の一人を、対象消費者としてランダムに選択する(S420)。
続いて、プロセッサ311は、設定されたK個のクラスタの中に、共通消費者が割り当てられていない空のクラスタが存在するかを判断する(S430)。プロセッサ311は、空のクラスタが存在すると判断すると(S430でYes)、対象消費者を、空のクラスタの一つに割り当てる(S440)。
続くS450において、プロセッサ311は、共通消費者の全てをK個のクラスタのいずれかに割り当てたかを判断する。ここで否定判断すると(S450でNo)、プロセッサ311は、S420において新たに共通消費者を一人、対象消費者に選択し、選択した対象消費者についてS430以降の処理を実行する。
このようにして、プロセッサ311は、共通消費者毎にS430以降の処理を実行し、共通消費者のそれぞれを、K個のクラスタのいずれかに割り当てる。
クラスタ数より共通消費者数が少ない場合には、S430で否定判断されることなく、共通消費者がK個のクラスタのいずれかに割り当てられる。一方、クラスタ数より共通消費者数が多い場合、K人の共通消費者を空のクラスタに割り当てた後、残りの共通消費者を新たに対象消費者に選択するとき、プロセッサ311は、S430で空のクラスタが存在しないと判断する。
S430で空のクラスタが存在しないと判断すると、プロセッサ311は、対象消費者を、次の評価関数R=d(C[k],D[i])が最小となるクラスタに割り当てる(S445)。
評価関数Rにおける、C[k]は、第kクラスタの中心ベクトルであり、D[i]は、対象消費者である第i消費者の消費者特徴データから特定される第i消費者の特徴ベクトルである。d()は、距離関数である。
S445におけるクラスタの割当後、プロセッサ311は、S450の処理を実行する。S450において共通消費者の全てをK個のクラスタのいずれかに割り当てたと判断すると、プロセッサ311は、第一のグループにおける残りの非共通消費者のそれぞれを、k-means法と同様に、当該消費者の特徴ベクトルとクラスタの中心ベクトルとの間の距離の総和が最も短くなるように、近傍のクラスタに割り当てる(S460)。
プロセッサ311は、このようにして、第一のグループに属する消費者のそれぞれをK個のクラスタのいずれかに割り当てることにより、消費者の第一のグループをK個のクラスタにクラスタリングする。その後、図8Bに示すクラスタリング処理を終了する。
このクラスタリング処理によれば、共通消費者の数がクラスタ数より少ないときには、一つのクラスタに含まれる共通消費者が一人になるように、共通消費者を複数のクラスタに分散して配置することができる。従って、情報処理システム1における第一のクラスタと第二のクラスタとの対応付けを、共通消費者の情報に基づいて、高精度に行うことが可能である。
以上に説明した本開示の技術は、上述した実施形態に限定されるものではなく、種々の態様を採り得る。
上述した実施形態は、第一のデータセット15Aに含まれるクラスタ特徴データと、第二のデータセット15Bに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在しない場合でも、写像(関数g)の探索により、第一のクラスタと第二のクラスタとを対応付け可能である。
一方、第一のデータセット15Aに含まれるクラスタ特徴データと、第二のデータセット15Bに含まれるクラスタ特徴データとの間に、クラスタの特徴を説明する要素として共通する要素が存在する場合、すなわち、第一のデータセット15Aに含まれるクラスタ特徴データの特徴ベクトル(x[1],x[2],x[3],…,x[L1])と、第二のデータセット15Bに含まれるクラスタ特徴データの特徴ベクトル(y[1],y[2],y[3],…,y[L2])との間に共通する変数が存在する場合は、この共通変数のみに基づいて最適輸送問題を解くことにより、第一のクラスタと第二のクラスタとの間の対応付けを行ってもよい。
具体的に、プロセッサ11は、図6に示す分析処理に代えて、図9に示す分析処理を実行することができる。図9に示す分析処理を開始すると、プロセッサ11は、S510において、指定された第一のデータセット15Aをストレージ15から読み出し、読み出した第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データに基づき、第一のクラスタ毎に共通変数のみの特徴ベクトルD [i]=(x[1],x[2],x[3],…,x[L0])を生成する。
ここでは、第一のデータセット15Aにおいて第一のクラスタの特徴を説明するL1個の要素のうちのL0個の要素x[1],x[2],x[3],…,x[L0]と、第二のデータセット15Bにおいて第二のクラスタの特徴を説明するL2個の要素のうちのL0個の要素y[1],y[2],y[3],…,y[L0]と、が共通変数であるとの前提を置く。
続くS520において、プロセッサ11は、指定された第二のデータセット15Bをストレージ15から読み出し、読み出した第二のデータセット15Bに含まれる第二のクラスタ毎のクラスタ特徴データに基づき、第二のクラスタ毎に共通変数のみの特徴ベクトルD [j]=(y[1],y[2],y[3],…,y[L0])を生成する。
続くS540において、プロセッサ11は、第一のクラスタと第二のクラスタとの組合せ毎の、特徴ベクトルD [i]と特徴ベクトルD [j]との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付ける。
S540において、プロセッサ11は、図7Aに示す処理と同様に、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、第一のクラスタと第二のクラスタとの間の距離を特定値εに設定して、最適輸送問題を解くことができる。
あるいは、プロセッサ11は、同じ消費者を含む第一のクラスタと第二のクラスタとのペアに関しては、ペア毎に、クラスタ特徴データを参照せず、一律に、第一のクラスタをペアに対応する第二のクラスタに対応付けることができる。その後、同じ消費者を含まない第一のクラスタと第二のクラスタとのペアの一群に関しては、特徴ベクトルD [i]と特徴ベクトルD [j]との間の特徴空間上の距離に基づいて、最適輸送問題を解くことにより、複数の第一のクラスタのそれぞれを、第二のクラスタの一つ以上に対応付けることができる。
続くS550においてプロセッサ11は、S540での対応付けに従って、第一のデータセット15Aに含まれる第一のクラスタ毎のクラスタ特徴データを、第二のデータセット15Bに含まれる、対応付けられた一つ以上の第二のクラスタのクラスタ特徴データと結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合する。この結合により、拡張データセット15Cを生成し、これをストレージ15に保存する。その後、プロセッサ11は、分析処理を終了する。
図9に示す分析処理によれば、共通変数に注目して負荷の低い手順で、第一のデータセット15Aと第二のデータセット15Bとの間のデータフュージョンを実現することができる。
以上には、消費者の特徴データを含むデータセットの結合に、本開示の技術を適用した例を説明したが、消費者以外の、情報端末及び自動車を例に含む様々なものに対して、本開示の技術は適用され得る。すなわち、エンティティは、消費者以外及び人以外であってもよい。
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
1…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、15A…第一のデータセット、15B…第二のデータセット、15C…拡張データセット、17…ユーザインタフェース、19…通信インタフェース、31…第一のデータ提供システム、32…第二のデータ提供システム、311…プロセッサ、312…メモリ、321…プロセッサ、322…メモリ、Pr…コンピュータプログラム。

Claims (12)

  1. エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得するように構成される第一取得部と、
    エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得するように構成される第二取得部と、
    前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けるように構成される対応付け部と、
    を備える情報処理システム。
  2. 前記対応付け部は、前記複数の第一のクラスタのうち、それぞれが前記共通エンティティの少なくとも一つを含む一以上の第一のクラスタである一以上の特定クラスタに関しては、前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付けるように構成される請求項1記載の情報処理システム。
  3. 前記対応付け部は、前記複数の第一のクラスタのうち、前記特定クラスタ以外の残りの一以上のクラスタである一以上の非共通第一クラスタ、及び、前記複数の第二のクラスタのうち、前記特定クラスタと対応付けられるクラスタ以外の残りの一以上のクラスタである一以上の非共通第二クラスタに関しては、前記一以上の非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データと前記一以上の非共通第二クラスタのそれぞれの前記第二のクラスタ特徴データとに基づき、前記非共通第一クラスタのそれぞれと前記非共通第二クラスタのそれぞれとの間の関係を判別し、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付けるように構成される請求項2記載の情報処理システム。
  4. 前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
    前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
    前記対応付け部は、
    前記第一の特徴空間上の前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
    前記写像により写される前記第二の特徴空間上の前記複数の第一のクラスタのそれぞれの点と、前記第二の特徴空間上の前記複数の第二のクラスタのそれぞれの点との間の位置関係に基づいて、前記複数の第一のクラスタ特徴データのそれぞれを、前記複数の第二のクラスタ特徴データのうちの一つ以上に対応付ける処理と、
    を実行し、
    前記評価関数は、
    同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
    前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
    ように設計される関数である請求項1又は請求項2記載の情報処理システム。
  5. 前記第一のクラスタ特徴データは、前記対応する第一のクラスタの第一の特徴空間上の点を定義し、
    前記第二のクラスタ特徴データは、前記対応する第二のクラスタの第二の特徴空間上の点を定義し、
    前記対応付け部は、
    前記第一の特徴空間上の前記特定クラスタを含む前記複数の第一のクラスタのそれぞれの点を前記第二の特徴空間に写す写像を、評価関数を用いて探索する処理と、
    前記特定クラスタのそれぞれの前記第一のクラスタ特徴データを、同じエンティティを含む前記第二のクラスタの前記第二のクラスタ特徴データと対応付ける処理と、
    前記写像により写される前記第二の特徴空間上の前記非共通第一クラスタのそれぞれの点と、前記第二の特徴空間上の前記非共通第二クラスタのそれぞれの点との間の位置関係に基づいて、前記非共通第一クラスタのそれぞれの前記第一のクラスタ特徴データを、前記非共通第二クラスタの少なくとも一つの前記第二のクラスタ特徴データに対応付ける処理と、
    を実行し、
    前記評価関数は、
    同じエンティティを含む前記第一のクラスタと前記第二のクラスタとのペアである特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、特定方向に変化する値を出力し、
    前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、前記特定方向とは逆方向に変化する値を出力する
    ように設計される関数である請求項3記載の情報処理システム。
  6. 前記評価関数は、
    前記特定ペアに関しては、前記特定ペアを構成する前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、小さい値を出力し、
    前記特定ペア以外の前記第一のクラスタと前記第二のクラスタとのペアに関しては、前記第一のクラスタと前記第二のクラスタとの間の前記第二の特徴空間上の距離が短いほど、大きい値を出力する
    ように設計され、
    前記対応付け部は、前記評価関数の出力を最小にする前記写像を探索する請求項4又は請求項5記載の情報処理システム。
  7. 前記一以上の共通エンティティは、複数の共通エンティティであり、
    前記複数の第一のクラスタは、前記複数の共通エンティティが前記複数の第一のクラスタに分散して配置されるように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
    前記複数の第二のクラスタは、前記複数の共通エンティティが前記複数の第二のクラスタに分散して配置されるように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項1~請求項6のいずれか一項記載の情報処理システム。
  8. 前記一以上の共通エンティティは、複数の共通エンティティであり、
    前記複数の第一のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第一のクラスタに属するように、前記第一のグループをクラスタリングして定義されるクラスタの集合であり、
    前記複数の第二のクラスタは、前記複数の共通エンティティのそれぞれが互いに異なる第二のクラスタに属するように、前記第二のグループをクラスタリングして定義されるクラスタの集合である請求項1~請求項6のいずれか一項記載の情報処理システム。
  9. 前記第一のクラスタ特徴データは、前記対応する第一のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データであり、
    前記第二のクラスタ特徴データは、前記対応する第二のクラスタに属する複数のエンティティの特徴データを統計処理により統合して生成される特徴データである請求項1~請求項8のいずれか一項記載の情報処理システム。
  10. 前記エンティティは、消費者であり、前記エンティティの前記特徴データは、前記消費者の特徴を説明する特徴データである請求項9記載の情報処理システム。
  11. 請求項1~請求項10のいずれか一項記載の情報処理システムにおける前記第一取得部、前記第二取得部、及び前記対応付け部として、コンピュータを機能させるためのコンピュータプログラム。
  12. コンピュータにより実行される情報処理方法であって、
    エンティティの第一のグループをクラスタリングして定義される複数の第一のクラスタに関し、第一のクラスタ毎に、対応する第一のクラスタの特徴を表す第一のクラスタ特徴データを備える第一のデータセットを取得することと、
    エンティティの第二のグループをクラスタリングして定義される複数の第二のクラスタに関し、第二のクラスタ毎に、対応する第二のクラスタの特徴を表す第二のクラスタ特徴データを備える第二のデータセットを取得することと、
    前記第一のグループと前記第二のグループとの間で共通する一以上のエンティティである一以上の共通エンティティに関して、前記共通エンティティのそれぞれが属する第一のクラスタ及び第二のクラスタを識別可能な情報に基づき、前記第一のデータセットが備える複数の第一のクラスタ特徴データのそれぞれを、前記第二のデータセットが備える複数の第二のクラスタ特徴データのうちの一つ以上に対応付けることと、
    を含む情報処理方法。
JP2022049442A 2022-03-25 2022-03-25 情報処理システム、コンピュータプログラム、及び情報処理方法 Active JP7151009B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022049442A JP7151009B1 (ja) 2022-03-25 2022-03-25 情報処理システム、コンピュータプログラム、及び情報処理方法
PCT/JP2023/010384 WO2023182163A1 (ja) 2022-03-25 2023-03-16 情報処理システム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022049442A JP7151009B1 (ja) 2022-03-25 2022-03-25 情報処理システム、コンピュータプログラム、及び情報処理方法

Publications (2)

Publication Number Publication Date
JP7151009B1 JP7151009B1 (ja) 2022-10-11
JP2023142494A true JP2023142494A (ja) 2023-10-05

Family

ID=83558437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022049442A Active JP7151009B1 (ja) 2022-03-25 2022-03-25 情報処理システム、コンピュータプログラム、及び情報処理方法

Country Status (2)

Country Link
JP (1) JP7151009B1 (ja)
WO (1) WO2023182163A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211385A (ja) * 2009-03-09 2010-09-24 Dentsu Inc 情報提供装置及び情報提供方法並びに情報提供用プログラム
JP2017097717A (ja) * 2015-11-26 2017-06-01 株式会社博報堂 情報処理システム及びプログラム
WO2019073959A1 (ja) * 2017-10-10 2019-04-18 株式会社博報堂Dyホールディングス 情報処理システム、データ提供システム、及び関連する方法
CN111159152A (zh) * 2019-12-28 2020-05-15 国网安徽省电力有限公司 基于大数据处理技术的二次运维数据融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211385A (ja) * 2009-03-09 2010-09-24 Dentsu Inc 情報提供装置及び情報提供方法並びに情報提供用プログラム
JP2017097717A (ja) * 2015-11-26 2017-06-01 株式会社博報堂 情報処理システム及びプログラム
WO2019073959A1 (ja) * 2017-10-10 2019-04-18 株式会社博報堂Dyホールディングス 情報処理システム、データ提供システム、及び関連する方法
CN111159152A (zh) * 2019-12-28 2020-05-15 国网安徽省电力有限公司 基于大数据处理技术的二次运维数据融合方法

Also Published As

Publication number Publication date
JP7151009B1 (ja) 2022-10-11
WO2023182163A1 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
US10049300B2 (en) Global visual vocabulary, systems and methods
Dubin et al. Spatial autoregression techniques for real estate data
US20180357669A1 (en) System and method for information processing
EP1320041A2 (en) Searching profile information
KR20190140031A (ko) 이미지 특성의 획득
US20050286772A1 (en) Multiple classifier system with voting arbitration
JP2001202523A (ja) 画像処理方法及びその装置
US20100174707A1 (en) Image searching apparatus, image sorting apparatus and method and program
US20160371349A1 (en) In-database connectivity components analysis of data
CN110706092A (zh) 风险用户识别方法和装置,存储介质及电子设备
JP6173754B2 (ja) 画像検索システム、画像検索装置および画像検索方法
CN112765362A (zh) 基于改进自编码器的知识图谱实体对齐方法及相关设备
US20180173726A1 (en) Generation device, generation method, and non-transitory computer-readable recording medium
CN100568231C (zh) 会话式推荐***及其检索方法
JP5866064B2 (ja) 画像検索装置、画像検索方法、および記録媒体
US20170293660A1 (en) Intent based clustering
WO2023182163A1 (ja) 情報処理システム及び情報処理方法
US20210217033A1 (en) System and Method Using Deep Learning Machine Vision to Conduct Product Positioning Analyses
KR101768807B1 (ko) 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법
CN111563207A (zh) 一种搜索结果的排序方法、装置、存储介质及计算机设备
JP7227412B1 (ja) 情報処理システム、コンピュータプログラム、及び情報処理方法
CN110727840A (zh) 车辆问询标签推送方法、装置、计算机设备和存储介质
CN116186298A (zh) 信息检索方法和装置
CN114691940A (zh) 索引构建方法、装置、向量搜索方法及检索***
CN107801418A (zh) 利用地图检索记录的流动人口推算装置及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220928

R150 Certificate of patent or registration of utility model

Ref document number: 7151009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150