JP5041797B2 - ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム - Google Patents

ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム Download PDF

Info

Publication number
JP5041797B2
JP5041797B2 JP2006336427A JP2006336427A JP5041797B2 JP 5041797 B2 JP5041797 B2 JP 5041797B2 JP 2006336427 A JP2006336427 A JP 2006336427A JP 2006336427 A JP2006336427 A JP 2006336427A JP 5041797 B2 JP5041797 B2 JP 5041797B2
Authority
JP
Japan
Prior art keywords
users
user
classification device
spherical distance
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006336427A
Other languages
English (en)
Other versions
JP2008146609A (ja
Inventor
ブローディ ドージェ
マイスター ベルナルド
ブローディ ジュリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006336427A priority Critical patent/JP5041797B2/ja
Publication of JP2008146609A publication Critical patent/JP2008146609A/ja
Application granted granted Critical
Publication of JP5041797B2 publication Critical patent/JP5041797B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムに関する。
近年、インターネットの社会への普及に伴い、Webその他のネットワーク環境において、ユーザはWebブラウザその他の技術的手段により情報を単に閲覧するだけではなく、商品を購入したり、属性の近いもの同士で情報を送受信してコミュニティを作ったり、といった現実社会における活動と同様の活動をするようになってきた。
ところで、当該Webその他のネットワーク環境においては、ユーザの情報閲覧、商品購入、コミュニティにおける情報の送受信等の活動を記録することは比較的容易である。具体的には、例えば、Web上でユーザの会員登録等を受け付けることによって、サーバが当該ユーザの基本属性を記憶したり、当該会員登録等を行ったユーザのWeb上での情報閲覧、商品購入等の活動を、サーバがログ(活動記録)として自動的に収集、記憶したり、といったことが可能である。
そこで、当該Webその他のネットワーク環境において、登録された基本属性やログ(活動記録)等に基づいてユーザに興味があると考えられる商品やサービスを推薦したり(レコメンデーション)、広告を送信したり、属性が似ていると思われるユーザを紹介したり(ソーシャル・ネットワーキング・サービス;SNS)、といったサービスが行われている。
例えば、特許文献1に記載の技術によれば、Webサーバは、ユーザの購買記録に基づいて当該ユーザの興味を分析し、その分析結果に基づいて、商品推薦(レコメンデーション)を行うことができる。
より具体的には、Webサーバが、すべてのユーザの過去の購買記録に基づいて、人気商品を特定し、その人気商品を購入したユーザが購入した別の商品の購入頻度を集計し、これらの人気商品とその他の商品との間の購入に関する相関を分析し、以ってそれぞれの人気商品について購入頻度において相関の強いその他の商品をその特定商品を購入したユーザに推薦する。
また、例えば、非特許文献1の技術によれば、Webサーバは、ユーザの購買記録や商品の評価記録(レイティング)に基づいて、商品推薦を行うことができる。
より具体的には、Webサーバは、類似商品テーブルを生成し、人気商品を購入したユーザをサンプリングして当該ユーザの購買記録や商品の評価記録(レイティング)に基づいて、当該人気商品を購入したユーザが購入或いはレイティングを行った商品に類似した商品を相関の強い商品として推薦する。
米国特許第6,912,505号明細書 Amazon.com Recommendations,Item−to−Item Collaborative Filtering,Greg Linden, Brent Smith,and Jeremy York,Amazon.com,January・February 2003, IEEE Computer Society
しかしながら、特許文献1及び非特許文献1に記載された発明において、レコメンデーションを行うに当たって、ユーザではなく、まず商品に着目するアプローチを採っていること、及び、人気商品を購入したユーザがあわせて購入した商品との「相関」を用いることに関していくつか課題が存在する。
第1の課題は、一般に相関は−1から1の間の値を取り得ると考えられているが、実際にはより限られた範囲の値しか取らない分布が多々存在している。具体的には例えば、−0.2から+0.6の値しか取らないことも考えられる。このような状況においては、例えば、「相関が+0.7の場合にユーザの属性が近いと判断する」などとした場合、相関を用いてもユーザの属性の重複度合いを判断することができない。
第2の課題は、相関を用いる分析において、あるユーザ同士の相関が負の値を持つ場合、その値は破棄されてしまうが、仮にあるユーザ同士の相関が負の大きな値を持つ場合、そのユーザ同士は明らかに依存性を持っているといえるため、相関により依存性を捉えることには限界があるといえる。
第3の課題は、相関はユーザの属性を表す確率分布に関するグローバルな情報を含んでいないということである。具体的には、あるユーザ同士の属性の重複度合いが比較的大きい場合においても、相関はそれを察知できるとは限らない。即ち、あるユーザの属性の重複度合いが全く無い場合は、相関はゼロであるので正しい判断を下すことができるが、逆に相関がゼロであっても属性の重なり度合いが比較的大きい場合も存在し、無相関=無関係として誤った判断を下すことになるのである。特に、相関は2次のモーメントにしか依存しないため、複数のユーザの行動特性の確率分布が与えられたとき、テールに関する情報は相関を用いた分析結果に現れないことである。例として、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合、このテールの部分には決定的な違いがある。即ち、Bは高額の商品を薦めても購入する見込みは無いが、Aは商品が気に入れば購入する可能性がある。しかしながら、確率分布全体としては似通っているため、相関はこのような差異を判断する情報を与えることができない。
第4の課題は、相関は線形の関係を表現することができるが、非線形の関係を表現することができないことである。具体的には、2つの確率変数XとYがY=aX+bの関係(線形の関係)を有している場合には、相関を用いた分析は有意義な情報を与えることができるが、これら2つの確率変数が例えばY=Sin(X)の関係(周期的に依存する関係)を有している場合(例えば、ネットワークへのアクセス数Yと時間Xとの関係がこれに当たる)、相関を用いた分析はこのような周期的に依存する関係について有意義な情報を与えることができない。
そこで、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法を提供することが望まれている。
そこで、本発明は、商品重視ではなく、ユーザ重視であり、また、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムを提供することを目的とする。
上述の目的を達成するために、本発明者らは研究を重ね、本発明を完成するに至った。具体的には、本発明は以下のようなものを提供する。
(1)分類装置(分類装置10)が複数のユーザの属性を分類する方法であって、
通信ネットワーク(通信ネットワーク30)を介してサーバ(サーバ20)が受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算するステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
このことにより、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。
ここで用いる球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値に近づく。即ち、球面距離は、0〜最大値の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。
なお、当該球面距離の値は、インプットであるユーザ特性データの全てを反映した値であり、「相関」のように負の値が廃棄されることがない。このように本発明の原理によれば、第2の課題を解決することができる。
また、当該球面距離は、グローバルなレベルでユーザの属性の重複度合いを表しているので、基本的にグローバルな全てのモーメントが関与しており、包括的な情報を含んでいるといえる。従って、当該球面距離は、上述の例のように、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合において、「相関」が当該テールの違いを十分に表すことができないのと対照的である。このように本発明の原理によれば、第3の課題を解決することができる。
更に、距離の概念においては、異なるユーザの利用特性を表す確率変数の依存性には無関係に距離が定まる。このため、依存性が線形であるか否かに関わらず、球面距離はユーザの属性の重複度合いを表現することができる。従って、当該球面距離は、「相関」のように線形の依存関係しか十分に表現することができない、という制約から解放されている。このように本発明の原理によれば、第4の課題を解決することができる。
(2) 前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算する(1)に記載の方法。
本発明のこのような構成によれば、前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算することができる、という作用効果を有する。
このことにより、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算し、前記バッタチャヤの球面距離に基づいてユーザを前記バッタチャヤの球面距離の近い複数のグループに分類することができる。
ここで用いるバッタチャヤの球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値であるπ/2に近づく。即ち、球面距離は、0〜π/2の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。
また、前記分類装置は、バッタチャヤの球面距離に基づいて前記ユーザを分類することにより、上述の球面距離を用いる場合と同様に上述の第2乃至第4の課題を解決することができる。
(3) 前記分類装置は、前記バッタチャヤの球面距離を
Figure 0005041797
によって計算する(2)に記載の方法。
本発明のこのような構成によれば、前記分類装置は、前記バッタチャヤの球面距離を
Figure 0005041797
によって計算することができる、という作用効果を有する。
(4) 前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部(表示装置1022)に表示させる(3)に記載の方法。
本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる、という作用効果を有する。
このことにより、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる。
その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。
(5) 前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する(3)又は(4)に記載の方法。
本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算し、前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる、という作用効果を有する。
このことにより、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる。
ここで、ユーザの特性を表す確率空間において、前記相対距離は、それぞれの前記ユーザを中心として個々に計算されるので、当該中心となるユーザにとってのそれぞれのその他の前記ユーザとの間の属性の重複度合いを表現することができる。
したがって、前記分類装置は、前記ユーザの属性の重複度合いを表す前記相対距離に基づいて、属性の重複度合いの大きなユーザ同士を複数のグループに分類することができる。
(6) 前記分類装置は、前記相対距離を
Figure 0005041797
によって計算する(5)に記載の方法。
本発明のこのような構成によれば、 前記分類装置は、前記相対距離を
Figure 0005041797
によって計算することができる、という作用効果を有する。
(7) 前記分類装置は、計算した前記相対距離をヒストグラムとして表示部(表示装置1022)に表示させる(6)に記載の方法。
本発明のこのような構成によれば、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる、という作用効果を有する。
このことにより、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる。
その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。
(8) 前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む(1)から(5)のいずれかに記載の方法。
本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けることができる、という作用効果を有する。
このことにより、前記分類装置は、ユーザを分類する際の閾値の設定を受け付けることができる。
その結果、前記分類装置のユーザは、前記閾値の設定を変更しつつ、ユーザの分類結果を確認することで、状況に応じてユーザの分類の数を調節することができる。
(9) 前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む(5)から(7)のいずれかに記載の方法。
本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けることができる、という作用効果を有する。
このことにより、前記分類装置は、前記相対距離の集計の精度の設定を受け付けることができる。
その結果、前記分類装置のユーザは、前記集計の精度を調整しつつ、ユーザの分類結果を確認することで、状況に応じてユーザを分類する粒度を調節することができる。
(10) 前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む(1)から(9)のいずれかに記載の方法。
本発明のこのような構成によれば、前記分類装置は、前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる、という作用効果を有する。
このことにより、前記分類装置は、特定のユーザに対するレコメンデーションリストを、前記特定のユーザと同じグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。
その結果、前記分類装置は、同一グループに分類されたユーザ内でレコメンデーション又はコミュニティへの勧誘を行うため、前記レコメンデーション又はコミュニティへの勧誘に対してユーザの高い満足度が期待できる。
(11) 複数のユーザの属性を分類する分類装置であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算する手段と、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
このことにより、前記分類装置を運用することにより、(1)と同様の作用効果を有する。
(12) 分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算させるステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
このことにより、前記分類装置に前記プログラムを導入して運用することにより、(1)と同様の作用効果を有する。
本発明によれば、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。
以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明の好適な実施形態の一例に係るシステムの全体構成を示す図である。図2は、本発明の好適な実施形態の一例に係る分類装置10及びサーバ20の構成を示す図である。図3は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。図4は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。図5は本発明の好適な実施形態の一例に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。図6は、本発明の好適な実施形態の一例に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
分類装置10は、通信ネットワーク30を介して、サーバ20及びユーザの端末40と接続可能である。
分類装置10とサーバ20の接続の形態としては、有線でも無線でもよく、本発明において、これらの機器が接続されていることは必要条件ではない。サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データをオフラインで受け付けてもよい。
[分類装置10のハードウェア構成]
図2は、図1で説明した本発明の好適な実施形態の一例に係る分類装置10のハードウェア構成の一例を示す図である。分類装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012など複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、分類装置10の起動時にCPU1010が実行するブートプログラムや、分類装置10のハードウェアに依存するプログラム等を格納する。
記憶部107を構成するハードディスク1074は、分類装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
分類装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、分類装置10にインストールされ実行されてもよい。
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074又は光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを分類装置10に提供してもよい。
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、分類装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。
また、通信I/F1040は、分類装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、分類装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[サーバ20のハードウェア構成]
ここでサーバ20は、上述の分類装置10と同様の構成を備えてよい。
[ユーザの端末40のハードウェア構成]
またユーザの端末40は、上述の分類装置10と同様の構成を備えてよい。
[ユーザ属性分類処理1]
分類装置10は、図3に示すようにユーザ属性分類処理を行う。
まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS101)。
具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS102)。
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS103)。
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記バッタチャヤの球面距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS104)。
次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、マップを表示する(ステップS105)。具体的には、図5に示すようなマップを表示する。この例では、ユーザ1乃至ユーザ8の8人のユーザ属性を確率空間にマップしている。
ユーザ1乃至ユーザ5の間のバッタチャヤの球面距離が非常に小さな値(ε)であり、同様に、ユーザ6及びユーザ7の間のバッタチャヤの球面距離も非常に小さな値(ε)である。更に、ユーザ1乃至ユーザ5とユーザ6及びユーザ7との間のバッタチャヤの球面距離はXである。更に、ユーザ1乃至ユーザ5とユーザ8との間のバッタチャヤの球面距離は√3X/2であり、ユーザ6及びユーザ7とユーザ8との間のバッタチャヤの球面距離はX/2である。
このように、分類装置10の制御部101は、ユーザ属性を確率空間にマッピングしたものを表示するので、ユーザは、視覚的に容易にこのようなユーザ属性の重複度合いを認識することができる。
なお、図5においては、説明のためにユーザの人数を比較的少ない8名としているが、実際には、数万人或いは数百万人といった規模のユーザに対しても同様に、制御部101は、これらのユーザ属性を確率空間にマップして表示することができる。
更に、図5の例において、ユーザ1乃至ユーザ5の間のユーザ属性の重複度合いを更に詳しく調査したい場合には、制御部101は、閾値として小さな値を指定したり、バッタチャヤの球面距離の精度をより細かく調整したりする操作をユーザから受け付けることによって実行することができる。
次に、図示はしていないが、制御部101は、上述のようにグループに分類したユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。
次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS104及びステップS105を繰り返す(ステップS106)。
[ユーザ属性分類処理2]
分類装置10は、上述のユーザ属性分類処理1とは別の好適な実施形態の一例として、図4に示すようにユーザ属性分類処理2を行う。
まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS201)。
具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS202)。
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS203)。
次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の全ての前記ユーザとの相対距離を計算する(ステップS204)。
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS205)。
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、ヒストグラムを表示する(ステップS206)。
次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS205及びステップS206を繰り返す(ステップS207)。
上述のバッタチャヤの球面距離の計算から、相対距離に基づくユーザ属性の分類までの一連の処理について、具体的な例を示して説明する。
計算したバッタチャヤの球面距離により、各ユーザ(ユーザ1乃至ユーザ8)の特性を含む確率空間が図5に示すようになっている場合を考える。
ユーザ1乃至ユーザ5のグループとユーザ6及びユーザ7のグループとの間のバッタチャヤの球面距離がX、ユーザ1乃至ユーザ5のグループとユーザ8との間のバッタチャヤの球面距離が√3X/2、ユーザ6及びユーザ7のグループとユーザ8の間のバッタチャヤの球面距離がX/2であったとする。
ここで、相対距離を計算すると、
Figure 0005041797
となる。
この相対距離の計算結果をヒストグラムに表すと図6のようになる。
図5によると、ゼロ付近、0.09付近、0.16付近、0.18付近、0.3付近、0.35付近の計6本のヒストグラムが観察できる。
或いは、0.09付近のスケールを更に拡大すると、1本の0.09付近のヒストグラム(高さ4)ではなく、0.091付近及び0.094付近にそれぞれ1本ずつ合計2本(高さ2)のヒストグラムが観察できる。
このヒストグラムの本数が、前記ユーザを分類する単位を示している。
即ち、図6のスケールに従えば、6の共通の相対距離を持つグループに前記複数のユーザを分類することができる。或いは、更に細かなスケールを用いて、0.09付近のグループを2つのグループに分解してグループ分けすることもできる。
このように、制御部101は、バッタチャヤの球面距離に基づいて計算した相対距離を用いて、前記複数のユーザをその属性の重複度合いに応じて自動的に分類することができる。
更に、その分類の細かさは、前記複数のユーザの相対距離のヒストグラムを集計する精度を調節することによって調整可能である。即ち、ヒストグラムをより細かな精度で集計すればするほど、グループの分類は細かくなり、ヒストグラムをより粗い精度で集計すればするほど、グループの分類は粗くなる。
更に、図6において、閾値6以上のヒストグラムのみを集計すれば、ユーザは3つのグループ(ゼロ付近、0.18付近、0.35付近)に分類でき、残りのユーザはどの分類にも属さない。しかし、閾値を下げて5以上のヒストグラムで集計すれば、0.16付近のユーザ、0.3付近のユーザが新たにグループ分けに加えられ、場合によっては、あわせて5つのグループに分けることができる。
このように、閾値を調整することによって、制御部101は、ユーザを分類するグループの数を調整することができる。即ち、閾値を上げれば上げるほど、グループの数は少なくなり、閾値を下げれば下げるほど、グループの数は多くなる。
以上、図6を用いてヒストグラムで説明したが、実際には、閾値と集計の精度を設定しておくことにより、制御部101は、自動的なデータ処理で目的とする前記複数のユーザの分類を行うことができる。
このように、本発明の原理によれば、ユーザの属性の重複度合いに応じて分類処理を行うことにより、短期間に大まかな状況をつかむことができる。
なお、上述の例においては、バッタチャヤの球面距離を用いる例を説明したが、本発明の技術的範囲はこれに限られず、本発明の原理は一般的な球面距離を用いる実施形態についても適用可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明に係るシステムの全体構成を示す図である。 本発明に係る分類装置10及びサーバ20の構成を示す図である。 本発明に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。 本発明に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。 本発明に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。 本発明に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。
符号の説明
1 システム
10 分類装置
20 サーバ
30 通信ネットワーク
40 端末
101 制御部
107 記憶部
1022 表示装置

Claims (11)

  1. 分類装置が複数のユーザの属性を分類する方法であって、
    通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
    受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
    マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算するステップと、
    計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
  2. 前記分類装置は、前記バッタチャヤの球面距離を
    Figure 0005041797
    によって計算する請求項に記載の方法。
  3. 前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させる請求項に記載の方法。
  4. 前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
    前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する請求項又は請求項に記載の方法。
  5. 前記分類装置は、前記相対距離を
    Figure 0005041797
    によって計算する請求項に記載の方法。
  6. 前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させる請求項に記載の方法。
  7. 前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む請求項から請求項のいずれかに記載の方法。
  8. 前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む請求項から請求項のいずれかに記載の方法。
  9. 前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む請求項から請求項のいずれかに記載の方法。
  10. 複数のユーザの属性を分類する分類装置であって、
    通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
    受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
    マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算する手段と、
    計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
  11. 分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
    通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
    受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
    マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算させるステップと、
    計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。
JP2006336427A 2006-12-13 2006-12-13 ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム Active JP5041797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006336427A JP5041797B2 (ja) 2006-12-13 2006-12-13 ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006336427A JP5041797B2 (ja) 2006-12-13 2006-12-13 ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム

Publications (2)

Publication Number Publication Date
JP2008146609A JP2008146609A (ja) 2008-06-26
JP5041797B2 true JP5041797B2 (ja) 2012-10-03

Family

ID=39606667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006336427A Active JP5041797B2 (ja) 2006-12-13 2006-12-13 ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム

Country Status (1)

Country Link
JP (1) JP5041797B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101496972B1 (ko) * 2013-01-30 2015-03-12 주식회사 제로믹스 제노타입 기반 에스엔에스를 이용한 그룹 추천시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309526A (ja) * 2004-04-16 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> クラスタリング処理のための入力データの構成方法及び装置及びプログラム
JP4382573B2 (ja) * 2004-05-25 2009-12-16 有限会社Somジャパン 球状自己組織化マップを利用した樹形図作成装置及び樹形図作成プログラム
JP2007026116A (ja) * 2005-07-15 2007-02-01 Nippon Telegr & Teleph Corp <Ntt> 概念検索システム及び概念検索方法

Also Published As

Publication number Publication date
JP2008146609A (ja) 2008-06-26

Similar Documents

Publication Publication Date Title
US10096040B2 (en) Management of the display of online ad content consistent with one or more performance objectives for a webpage and/or website
JP6744882B2 (ja) 行動パターン探索システム、および行動パターン探索方法
JP6501855B1 (ja) 抽出装置、抽出方法、抽出プログラム及びモデル
JP6261547B2 (ja) 判定装置、判定方法及び判定プログラム
US20110264617A1 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
CN102365637A (zh) 表征用户信息
CN111061979B (zh) 一种用户标签的推送方法、装置、电子设备和介质
JP2010204966A (ja) サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。
US20200320548A1 (en) Systems and Methods for Estimating Future Behavior of a Consumer
CN111752731B (zh) 兼容组件的异步选择的***和方法
WO2020150611A1 (en) Systems and methods for entity performance and risk scoring
CN111626767B (zh) 资源数据的发放方法、装置及设备
Martínez-Torres et al. Identifying the features of reputable users in eWOM communities by using Particle Swarm Optimization
CN105389714B (zh) 一种从行为数据识别用户特性的方法
CN111177564B (zh) 一种产品推荐方法及装置
CN112950359A (zh) 一种用户识别方法和装置
CN111382436B (zh) 检测用于异常***的兼容***的方法
JP4962950B2 (ja) ネットワーク上のユーザに対するレコメンデーションの方法、レコメンデーションサーバ及びプログラム
JP5041797B2 (ja) ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム
KR20210029006A (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN107357847B (zh) 数据处理方法及其装置
CN114066513A (zh) 一种用户分类的方法和装置
Hakyemez et al. K-means vs. Fuzzy C-means: a comparative analysis of two popular clustering techniques on the featured mobile applications benchmark
JP6570501B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
Khalid On the link between mobile app quality and user reviews

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Ref document number: 5041797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350