JP2014182421A - Cluster formation apparatus, cluster formation method and cluster formation program - Google Patents

Cluster formation apparatus, cluster formation method and cluster formation program Download PDF

Info

Publication number
JP2014182421A
JP2014182421A JP2013054654A JP2013054654A JP2014182421A JP 2014182421 A JP2014182421 A JP 2014182421A JP 2013054654 A JP2013054654 A JP 2013054654A JP 2013054654 A JP2013054654 A JP 2013054654A JP 2014182421 A JP2014182421 A JP 2014182421A
Authority
JP
Japan
Prior art keywords
cluster
advertisement
user
impressions
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013054654A
Other languages
Japanese (ja)
Other versions
JP5787924B2 (en
Inventor
Kobashikawa Carlos
カルロス コバシカワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013054654A priority Critical patent/JP5787924B2/en
Publication of JP2014182421A publication Critical patent/JP2014182421A/en
Application granted granted Critical
Publication of JP5787924B2 publication Critical patent/JP5787924B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a cluster formation apparatus for forming clusters between users and contents so that accuracy of CTR calculated from result logs of respective cells in a matrix is improved in order to improve distribution accuracy of targeting advertisement.SOLUTION: In a cluster formation apparatus for forming clusters of users and contents to generate a matrix indicating relation between the users and the contents when determining a content suited to each user, first clustering means performs clustering processing for the users or the contents on the basis of their attributes and forms a first cluster group to be hierarchical constitution having parent-child relationship between clusters so that an upper cluster includes an element in a lower cluster, and second clustering means forms a second cluster group by removing a form of a cluster coincident with a previously determined condition on the basis of the number of impressions of elements in each formed cluster.

Description

本発明は、クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラムに関する。   The present invention relates to a cluster forming apparatus, a cluster forming method, and a cluster forming program.

オンラインショッピング等では、広告の対象に対するユーザのクリック等の行動履歴に基づいて、ユーザの興味関心を推測し、ターゲットを絞ってインターネット広告配信を行うターゲティング広告配信が行われている。具体的には、ユーザクラスタと広告クラスタを縦と横に並べた行列(マトリックス表)を用いて広告配信することが行われている(非特許文献1参照)。
クラスタリング処理に関連する技術として、例えば、非特許文献2、非特許文献3には、対象としている情報の密度に基づいたクラスタリング手法が開示されている。
In online shopping or the like, targeted advertisement distribution is performed in which an interest of a user is estimated based on an action history such as a user click on an advertisement target, and Internet advertisement distribution is performed by narrowing down the target. Specifically, advertisement distribution is performed using a matrix (matrix table) in which user clusters and advertisement clusters are arranged vertically and horizontally (see Non-Patent Document 1).
As techniques related to the clustering process, for example, Non-Patent Document 2 and Non-Patent Document 3 disclose a clustering method based on the density of information to be processed.

“Learning Relevance from a Heterogeneous Social Network and Its Application in Online Targeting”,Chi Wang,Rajat Raina,David Fong,Ding Zhou,Jiawei Han,Greg Badros,SIGIR2011, Jul 24−28, 2011, Beijing, China.“Learning Relevance from a Heterogeneous Sociological Network and It's Jig, i, B i, J i, B i, J i, B i, J i, B i, J i, J i, J i, J i. “OPTICS: Ordering Points To Identify the Clustering Structure”,Mihael Ankerst, Markus M. Breunig, Hans−Peter Kriegel, Jorg Sander,Proc. ACM SIGMOD’99 Int. Conf. on Management of Data, Philadelphia PA, 1999.“OPTICS: Ordering Points To Identify the Clustering Structure”, Michael Anchor, Markus M .; Breunig, Hans-Peter Kriegel, Jorg Sander, Proc. ACM SIGMOD'99 Int. Conf. on Management of Data, Philadelphia PA, 1999. “DeLiClu: Boosting Robustness, Completeness, Usability,and Efficiency of Hierarchical Clustering by a Closest Pair Ranking”,Elke Achtert, Christian Bohm, and Peer Kroger,In Proc. 10th Pacific−Asian Conf. on Advances in Knowledge Discovery and Data Mining (PAKDD’06), Singapore, 2006“DeLiClu: Boosting Robustness, Completeness, Usability, and Efficiency of Hierarchical Clustering by a Closed Pair Ranking, Prot. 10th Pacific-Asian Conf. on Advances in Knowledge Discovery and Data Mining (PAKDDD'06), Singapore, 2006

しかしながら、クラスタリング処理の結果であるクラスタが適したものでなければ、当然のことながらターゲティング広告配信にも悪影響が及ぶため、クラスタの精度を高める必要がある。ところが、従来から知られているクラスタリング手法は一般的な言語解析の手法をそのまま用いているだけであり、広告配信特有の事情を考慮してクラスタリングしているものはなかった。
本発明は、このような背景技術の状況の中でなされたもので、ターゲティング広告の配信精度を高めるために、行列内の各セルの実績ログから算出したCTRの精度が高くなるように、ユーザとコンテンツのクラスタを形成するようにしたクラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラムを提供することを目的としている。
However, if the cluster that is the result of the clustering process is not suitable, the delivery of the targeting advertisement is naturally adversely affected, so that it is necessary to increase the accuracy of the cluster. However, conventionally known clustering methods simply use general language analysis methods as they are, and none of them is clustered in consideration of the circumstances specific to advertisement distribution.
The present invention has been made in the background of such a background art, and in order to increase the accuracy of delivery of targeting advertisements, the user can increase the accuracy of CTR calculated from the performance log of each cell in the matrix. It is an object of the present invention to provide a cluster forming apparatus, a cluster forming method, and a cluster forming program that can form a cluster of contents.

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
(1)ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成装置であって、ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成する第1のクラスタリング手段と、前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタを形成する第2のクラスタリング手段を具備することを特徴とするクラスタ形成装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
(1) A cluster forming apparatus that forms a cluster of a user and a content in order to generate a matrix indicating a relationship between the user and the content when determining content suitable for the user, the user or the content based on the attribute A first clustering means for forming a first cluster group so that the upper cluster includes elements in the lower cluster; Based on the number of impressions of the elements in each cluster formed by one clustering means, a second cluster is formed by removing the form as the cluster for a cluster that matches a predetermined condition. A cluster forming apparatus comprising two clustering means

(2)前記第2のクラスタリング手段は、予め定められた条件として、第1のクラスタ群のクラスタ内の要素のインプレッション数が閾値を超えている場合は、該クラスタを第2のクラスタ群のクラスタとして採用し、第1のクラスタ群のクラスタ内の要素のインプレッション数が該閾値を超えていない場合は、該クラスタとしての形態を取り除き、該第2のクラスタ群を形成することを特徴とする(1)に記載のクラスタ形成装置である。   (2) If the number of impressions of the elements in the cluster of the first cluster group exceeds the threshold as a predetermined condition, the second clustering means determines that the cluster is a cluster of the second cluster group. And when the number of impressions of the elements in the cluster of the first cluster group does not exceed the threshold, the form as the cluster is removed and the second cluster group is formed ( The cluster forming apparatus according to 1).

(3)ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成装置が行うクラスタ形成方法であって、第1のクラスタリング手段が、ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成し、第2のクラスタリング手段が、前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタ群を形成することを特徴とするクラスタ形成方法である。   (3) A cluster forming method performed by a cluster forming apparatus that forms a cluster of a user and a content in order to generate a matrix indicating a relationship between the user and the content when determining content suitable for the user, the first clustering The first cluster group is configured such that the means performs a clustering process on the user or content based on the attribute thereof and has a hierarchical structure having a parent-child relationship between the clusters, and the upper cluster includes elements in the lower cluster. And the second clustering means, for the clusters that meet a predetermined condition based on the number of impressions of the elements in each cluster formed by the first clustering means, A cluster characterized in that a second cluster group is formed by removing the form. It is another method of forming.

(4)ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成プログラムであって、コンピュータを、ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成する第1のクラスタリング手段と、前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタ群を形成する第2のクラスタリング手段として機能させるためのクラスタ形成プログラムである。   (4) In determining content suitable for a user, a cluster formation program for forming a cluster of users and content in order to generate a matrix indicating the relationship between the user and the content. A first clustering unit that performs a clustering process based on attributes and has a hierarchical configuration having a parent-child relationship between the clusters, and the upper cluster includes a first cluster group so as to include elements in the lower cluster; Based on the number of impressions of the elements in each cluster formed by the first clustering means, the second cluster group is removed from the cluster that matches a predetermined condition by removing the form as the cluster. To function as the second clustering means for forming It is a static formation program.

本発明にかかるクラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラムによれば、ターゲティング広告の配信精度を高めるために、行列内の各セルの実績ログから算出したCTRの精度が高くなるように、ユーザとコンテンツのクラスタを形成する。   According to the cluster forming apparatus, the cluster forming method, and the cluster forming program according to the present invention, in order to increase the accuracy of targeting advertisement distribution, the user can increase the accuracy of CTR calculated from the performance log of each cell in the matrix. And form a cluster of content.

本実施の形態の構成例についての概念的なモジュール構成図である。It is a conceptual module block diagram about the structural example of this Embodiment. 本実施の形態による処理例を示すフローチャートである。It is a flowchart which shows the process example by this Embodiment. 本実施の形態による処理例を示す説明図である。It is explanatory drawing which shows the process example by this Embodiment. 本実施の形態による処理例を示す説明図である。It is explanatory drawing which shows the process example by this Embodiment. 本実施の形態による処理例を示す説明図である。It is explanatory drawing which shows the process example by this Embodiment. CTR行列の例を示す説明図である。It is explanatory drawing which shows the example of a CTR matrix. 本実施の形態の広告配信システムの全体構成例を示す図である。It is a figure which shows the example of whole structure of the advertisement delivery system of this Embodiment. Webサーバのハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of a Web server. Webサーバのソフトウェア構成例を示す図である。It is a figure which shows the software structural example of a Web server. 広告データベースに記憶される広告情報の構成例を示す図である。It is a figure which shows the structural example of the advertisement information memorize | stored in an advertisement database. ユーザデータベースに記憶されるユーザ情報の構成例を示す図である。It is a figure which shows the structural example of the user information memorize | stored in a user database. インプレッションログ記憶部に記憶されるインプレッションログの構成例を示す図である。It is a figure which shows the structural example of the impression log memorize | stored in an impression log memory | storage part. クリックログ記憶部に記憶されるクリックログの構成例を示す図である。It is a figure which shows the structural example of the click log memorize | stored in a click log memory | storage part. 解析処理部による解析処理例を示すフローチャートである。It is a flowchart which shows the example of an analysis process by an analysis process part. CTR行列の作成処理の一例を示す図である。It is a figure which shows an example of the creation process of a CTR matrix. Webサーバにより行われる処理例を示すフローチャートである。It is a flowchart which shows the process example performed by a Web server. 広告の選択処理例を示すフローチャートである。It is a flowchart which shows the example of an advertisement selection process.

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
Hereinafter, an example of a preferred embodiment for realizing the present invention will be described with reference to the drawings.
FIG. 1 shows a conceptual module configuration diagram of a configuration example of the present embodiment.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection) and the like, and one computer, hardware, device. The case where it implement | achieves by etc. is also included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.

本実施の形態であるクラスタ形成装置は、ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するものであって、図1の例に示すように、クラスタリング処理部231は、第1クラスタ形成部2312、及び第2クラスタ形成部2314を有している。インターネットを利用したオンラインショッピング等で行われているターゲティング広告配信を行うために、行列(マトリックス表、以下CTR行列を主に例示する)の縦軸、横軸となるユーザのクラスタとコンテンツのクラスタを生成するものである。実際のユーザ又はコンテンツは、そのクラスタのいずれか1つ又は複数に属することになる。また、ユーザだけを対象としたクラスタを形成してもよいし、コンテンツだけを対象としたクラスタを形成してもよい。   The cluster forming apparatus according to the present embodiment forms a cluster of users and contents in order to generate a matrix indicating the relationship between users and contents when determining contents suitable for the users. As shown in the example, the clustering processing unit 231 includes a first cluster forming unit 2312 and a second cluster forming unit 2314. In order to perform targeted advertisement distribution performed in online shopping using the Internet, the vertical axis and horizontal axis of a matrix (matrix table, CTR matrix will be exemplified below), user clusters and content clusters Is to be generated. The actual user or content will belong to any one or more of the clusters. Further, a cluster for only the user may be formed, or a cluster for only the content may be formed.

第1クラスタ形成部2312は、ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成する。また、第1クラスタ形成部2312は、OPTICS−DeliCluによってクラスタリング処理を行いようにしてもよい。OPTICS−DeliCluについては、非特許文献2、非特許文献3等に記載されている。概要としては、対象としているユーザ又はコンテンツの属性を軸とした多次元空間を生成し、ユーザ又はコンテンツをその多次元空間内にプロットし、プロットされた点の密度の濃い領域をクラスタとするものである。   The first cluster forming unit 2312 performs a clustering process on the user or content based on the attributes thereof, and has a hierarchical configuration having a parent-child relationship between the clusters, so that the upper cluster includes elements in the lower cluster. A first cluster group is formed. The first cluster forming unit 2312 may perform the clustering process using OPTICS-DeliClu. OPTICS-DeliClu is described in Non-Patent Document 2, Non-Patent Document 3, and the like. The outline is to create a multidimensional space around the attributes of the target user or content, plot the user or content in the multidimensional space, and cluster the dense areas of the plotted points. It is.

また、第1クラスタ形成部2312が行うクラスタリング処理は、多次元空間におけるクラスタ間の距離に応じて、そのクラスタを並べる階層型クラスタリング手法であれば、OPTICS−DeliCluに限る必要はない。第1クラスタ形成部2312が行うクラスタリング処理では、図3を用いて後述するように、あるクラスタの隣には、そのクラスタに最も近いクラスタが位置することになる。
OPTICS−DeliClu以外の階層型クラスタリング手法として、例えば、ユーザに対しては、予め定められたルール(例えば、国籍、性別、年代等にクラスタを分けるルール)に基づいてクラスタを形成するようにしてもよい。そのルールによって階層構造クラスタになればよい。例えば、国籍のルールの場合は「不明→ヨーロッパ→北欧→フィンランド」という順序の親子関係を形成することによって階層構造クラスタになる。
Further, the clustering process performed by the first cluster forming unit 2312 need not be limited to OPTICS-DeliClu as long as it is a hierarchical clustering method in which the clusters are arranged according to the distance between the clusters in the multidimensional space. In the clustering process performed by the first cluster forming unit 2312, as will be described later with reference to FIG. 3, a cluster closest to the cluster is located next to the cluster.
As a hierarchical clustering method other than OPTICS-DeliClu, for example, for a user, a cluster may be formed based on a predetermined rule (for example, a rule that divides clusters according to nationality, gender, age, etc.). Good. What is necessary is just to become a hierarchy cluster according to the rule. For example, in the case of the nationality rule, a hierarchical cluster is formed by forming a parent-child relationship in the order of “unknown → Europe → Northern Europe → Finland”.

第1クラスタ形成部2312が形成する第1のクラスタ群は、階層構想であり、複数の階層(いわゆる木構造)がある。最高階層には一つのクラスタ(ルート)だけがある。全ての要素はその最高階層クラスタに帰属する。すなわち、全ての要素は少なくとも一つのクラスタ(最高階層クラスタ)に帰属する。
あるクラスタの要素はそのクラスタの親クラスタの要素にもなる。同じく、そのクラスタの親クラスタの親クラスタ(祖父の関係にあるクラスタ)の要素にもなる。つまり、ある要素は複数のクラスタに属することが可能である。また、同様に要素のインプレッションの数もそのクラスタの親クラスタのインプレッションとしても数えられることになる。 なお、後述するように、あるクラスタのインプレッションの数が閾値未満ならば、最終的なクラスタにならない。その場合、そのクラスタの親クラスタは、子クラスタが一つ減ることになる。すなわち、閾値未満の要素を持つクラスタは単にその形態として取り除かれたことになる。しかし、そのクラスタに含まれている全ての要素は、親クラスタの要素になる。したがって、クラスタの形態としては削除されるが、そのクラスタの要素はそのまま親クラスタ内にあることになる。つまり、クラスタが削除される以前と同じ状態である。そして、その要素のインプレッションは、親クラスタのインプレッションの対象となる。
The first cluster group formed by the first cluster forming unit 2312 is a hierarchical concept, and has a plurality of hierarchies (so-called tree structure). There is only one cluster (root) in the highest hierarchy. All elements belong to the highest hierarchical cluster. That is, all elements belong to at least one cluster (the highest hierarchical cluster).
An element of a cluster also becomes an element of the parent cluster of that cluster. Similarly, it becomes an element of a parent cluster (cluster having a grandfather relationship) of the parent cluster of the cluster. That is, an element can belong to multiple clusters. Similarly, the number of element impressions is also counted as the impression of the parent cluster of the cluster. As will be described later, if the number of impressions of a certain cluster is less than the threshold value, the final cluster is not obtained. In that case, the parent cluster of the cluster is reduced by one child cluster. That is, clusters having elements below the threshold are simply removed as their form. However, all elements contained in that cluster become elements of the parent cluster. Therefore, the cluster form is deleted, but the elements of the cluster remain in the parent cluster as they are. That is, it is the same state as before the cluster was deleted. Then, the impression of the element becomes the target of the impression of the parent cluster.

第2クラスタ形成部2314は、第1クラスタ形成部2312によって形成された各予め定められた条件に合致するクラスタに対して、クラスタ内の要素のインプレッション数に基づいて、そのクラスタとしての形態を取り除くことによって第2のクラスタ群を形成する。インプレッション数とは、Webサイトに掲載される広告の効果を計る指標の一つで、広告の露出(掲載)回数のことである。Webサイトにユーザが訪れ、広告が1回表示されることを1インプレッションという。
より具体的には、第2クラスタ形成部2314は、予め定められた条件として、第1のクラスタ内の要素のインプレッション数が閾値を超えている場合は、そのクラスタを第2のクラスタ群のクラスタとして採用し、第1のクラスタ群のクラスタ内の要素のインプレッション数がその閾値を超えていない場合は、そのクラスタとしての形態を取り除きその第2のクラスタ群を形成するようにしてもよい。閾値は、予め定められた値(例えば、10万等)であり、高ければ高いほど後述のCTR行列のセルの値は信頼度(質)が高くなるという影響がある。一方、前記の閾値は高ければ高いほどクラスタの要素の類似度が低くなり、あまり似ていない要素を集合する事になるという影響がある。つまり、閾値はこの2つの影響のバランスをとるための数値である。第1のクラスタ群のクラスタ内の要素のインプレッション数が閾値を超えている場合とは、インプレッション数がクラスタを形成するに十分である場合である。第1のクラスタ内の要素のインプレッション数がその閾値を超えていない場合とは、クラスタを形成するのにインプレッション数が不足している状態であり、その第1のクラスタ群のクラスタは、最終的なクラスタとしては採用すべきではないこととなる。そこで、OPTICS−DeliCluによってクラスタリング処理を行った場合の結果を第1のクラス群とする。「クラスタとしての形態を取り除く」(「クラスタを削除する」ともいう)とは、クラスタ内の要素までを削除するわけではなく、クラスタの形態は消去するが、そのクラスタ内の要素は親クラスタに含まれたままである。結果として、階層構造内の1つのクラスタは消去されたことになるが、そのクラスタ内にあった要素は、上位のクラスタ(親クラスタ)に含まれたままである。なお、階層的クラスタであるので、クラスタを削除する前から親のクラスタの要素として、子クラスタの要素は含まれている。したがって、第1のクラスタ群と第2のクラスタ群における全ての要素数は、クラスタを削除した場合であっても変化することはない。さらに、親クラスタ(A)に属する下位のクラスタ(子クラスタ)を全て削除しても、その親クラスタ(A)のインプレッション数が不足している場合は、その上の親クラスタ(B)に属するクラスタ(親クラスタ(A)の兄弟関係にあるクラスタ)に対して、同様の処理を行う。これを第1のクラスタ群に属する全てのクラスタに対して処理する。
このようにクラスタを形成するので、そのクラスタを縦と横(例えば、コンテンツクラスタを縦、ユーザクラスタを横)としたCTR行列を生成し、各セルの実績ログから算出したCTR(Click Through Rate(クリック・スルー・レート))の精度が高くなるため、ターゲティング広告の配信精度が高くなる。なお、CTRは、コンテンツ(広告)がクリックされた割合を示しているが、詳細については次に説明する。
The second cluster forming unit 2314 removes the form as a cluster based on the number of impressions of the elements in the cluster, for the clusters that match each predetermined condition formed by the first cluster forming unit 2312. As a result, a second cluster group is formed. The number of impressions is an index for measuring the effectiveness of advertisements posted on a website, and is the number of advertisement exposures (postings). A user visiting a Web site and displaying an advertisement once is called one impression.
More specifically, if the number of impressions of elements in the first cluster exceeds a threshold as a predetermined condition, the second cluster forming unit 2314 determines that the cluster is a cluster of the second cluster group. When the number of impressions of elements in the cluster of the first cluster group does not exceed the threshold value, the form as the cluster may be removed and the second cluster group may be formed. The threshold value is a predetermined value (for example, 100,000). The higher the threshold value, the higher the reliability (quality) of the cell value of the CTR matrix described later. On the other hand, the higher the threshold is, the lower the similarity of cluster elements is, and there is an effect that elements that are not very similar are gathered. That is, the threshold value is a numerical value for balancing these two effects. The case where the number of impressions of the elements in the cluster of the first cluster group exceeds the threshold is a case where the number of impressions is sufficient to form a cluster. The case where the number of impressions of the elements in the first cluster does not exceed the threshold is a state where the number of impressions is insufficient to form a cluster. It should not be adopted as a secure cluster. Therefore, the result when the clustering process is performed by OPTICS-DeliClu is defined as a first class group. “Removing the form as a cluster” (also called “deleting a cluster”) does not delete the elements in the cluster, but the form of the cluster is deleted, but the elements in the cluster are changed to the parent cluster. Remains included. As a result, one cluster in the hierarchical structure has been erased, but the elements that were in that cluster remain contained in the upper cluster (parent cluster). Since the cluster is a hierarchical cluster, the child cluster element is included as the parent cluster element before deleting the cluster. Therefore, the number of all elements in the first cluster group and the second cluster group does not change even when the cluster is deleted. Further, even if all lower clusters (child clusters) belonging to the parent cluster (A) are deleted, if the number of impressions of the parent cluster (A) is insufficient, it belongs to the parent cluster (B) above it. The same processing is performed on the cluster (the cluster having a sibling relationship with the parent cluster (A)). This is processed for all clusters belonging to the first cluster group.
Since a cluster is formed in this way, a CTR matrix having the cluster as vertical and horizontal (for example, content cluster as vertical and user cluster as horizontal) is generated, and CTR (Click Through Rate ( The accuracy of the click-through rate)) is increased, and the delivery accuracy of the targeting advertisement is increased. The CTR indicates the rate at which the content (advertisement) is clicked. Details will be described next.

次にCTR行列の生成について説明する。
例えば、CTR行列は図6の例に示すようになる。このCTR行列600は、列(横軸)に各ユーザクラスタ(ユーザの階層構造クラスタ620内の各クラスタ)を並べ、行(縦軸)に各広告クラスタ(広告の階層構造クラスタ610内の各クラスタ)を並べたものである。なお、CTR行列600の(1,1)のセル(図6では左上のセル)内は、平均CTR650を示している。
全てのインプレッション数(I)と全てのクリック数(C)を集計する。
CTRは単純な(クリック数/インップレション数)を用いるのではなく、スムージングCTRを用いるものとする。つまり、スムージングCTRは(c+k×C)/(i+k×I)によって算出する。そのために、各ユーザクラスタに対して各広告クラスタのクリック数(c)とインプレッションの数(i)を集計する。kはスムージングパラメータであり、0ではないが0に近い値であればよい。スムージングCTRを用いることによって、ゼロで除算することを避けることができる。そして、あるクラスタのペアのインプレッション数が少ない場合に極端な値となることを防止することにもなる。例えば、全てのクリック数(C)を2.3万、全てのインプレッション数(I)を1000万とした場合は、平均CTR=C/I=2.3万/1000万=0.23%である。ここであるクラスタのクリック数が0.4万、インプレッション数が50万である場合は、平均CTR=0.8%となるが、スムージングCTRは、(0.4万+0.001×2.3万)/(50万+0.001×1000万)=4023/51万=0.79%となる。ここで、0.001は、スムージングパラメータkである。
Next, generation of a CTR matrix will be described.
For example, the CTR matrix is as shown in the example of FIG. In the CTR matrix 600, each user cluster (each cluster in the user hierarchical cluster 620) is arranged in a column (horizontal axis), and each advertisement cluster (each cluster in the advertisement hierarchical cluster 610) is arranged in a row (vertical axis). ). Note that an average CTR 650 is shown in the (1, 1) cell of the CTR matrix 600 (the upper left cell in FIG. 6).
Total number of impressions (I) and total number of clicks (C).
The CTR does not use a simple (number of clicks / number of impressions) but uses a smoothing CTR. That is, the smoothing CTR is calculated by (c + k × C) / (i + k × I). For this purpose, the number of clicks (c) and the number of impressions (i) of each advertisement cluster are totaled for each user cluster. k is a smoothing parameter which is not 0 but may be a value close to 0. By using a smoothing CTR, division by zero can be avoided. This also prevents an extreme value when the number of impressions of a certain cluster pair is small. For example, if all clicks (C) are 23,000 and all impressions (I) are 10 million, the average CTR = C / I = 23,000 / 10 million = 0.3% is there. When the number of clicks of this cluster is 40,000 and the number of impressions is 500,000, the average CTR is 0.8%, but the smoothing CTR is (44,000 + 0.001 × 2.3). 10,000) / (500,000 + 0.001 × 10 million) = 4023 / 510,000 = 0.79%. Here, 0.001 is the smoothing parameter k.

次に広告の選択手順について説明する。
a.ユーザの操作によって新しいウェブページが表示される。その際、操作を行ったユーザ(ユーザの属性等)が入力となる。
b.そのユーザが属するユーザクラスタを検索する。なお、そのユーザが属するクラスタは複数となる可能性がある。
c.前述の通り作成したCTR行列を対象として、検索したユーザクラスタに対応する行において、その行(複数の行であってもよい)の中で最も高いCTRのセルを抽出する。(広告選択の第1ステップ)。
Next, an advertisement selection procedure will be described.
a. A new web page is displayed by a user operation. At that time, the user who performed the operation (user attribute, etc.) is input.
b. Search the user cluster to which the user belongs. Note that there may be multiple clusters to which the user belongs.
c. For the CTR matrix created as described above, in the row corresponding to the searched user cluster, the cell of the highest CTR in that row (may be a plurality of rows) is extracted. (First step of advertisement selection).

d.最も高いCTRのセルに対応する広告群が配信対象になる。各広告のスムージングCTRを算出する。同様に、(c+k*C)÷(i+k*I)の式を用いる。なお、ここでcは広告のクリック数、iは広告のインプレッション数、Cはその広告が含まれるセルのクリック数(前述のCTR行列生成時のスムージング処理された後の分子)、Iはその広告が含まれるセルのインプレッション数(前述のCTR行列生成時のスムージング処理された後の分母)、kはスムージングパラメータである。スムージングパラメータkは、前述のCTR行列生成時に用いたスムージングパラメータkとは異なる値である。例えば、そのセルのクリック数(C)が4023(前述のCTR行列生成時のスムージング処理された後の「4023/51万」の分子)、そのセルのインプレッション数(I)が51万(前述のCTR行列生成時のスムージング処理された後の「4023/51万」の分母)、その広告のクリック数が8、その広告のインプレッション数が500である場合(個別の広告であるので、クリック数等が小さい場合がある)、スムージングCTRは、(8+(1/510)×4023)/(500+(1/510)×51万)=1.05%となる。ここで、(1/510)は、スムージングパラメータkである。この値は、予め定められた値(1000)を分子とし、スムージング処理された後のインプレッション数(4023/51万の分母)を分母としたものにしてもよい。
セル内の広告毎に算出したスムージングCTRの順位(昇順)に応じて、広告を選択し、配信する(広告選択の第2ステップ)。
e.なお、セルの広告の数が予め定められた広告の数未満(つまり、広告数不足)であるならば、そのセルを除いて、次の最も高いスムージングCTRのセルを検索する。
d. The group of advertisements corresponding to the highest CTR cell is targeted for distribution. Calculate a smoothing CTR for each advertisement. Similarly, the equation (c + k * C) ÷ (i + k * I) is used. Here, c is the number of clicks of the advertisement, i is the number of impressions of the advertisement, C is the number of clicks of the cell including the advertisement (the numerator after the smoothing process at the time of generating the CTR matrix), and I is the advertisement. Is the number of impressions of the cell in which k is included (the denominator after the smoothing process at the time of generating the above-mentioned CTR matrix), k is a smoothing parameter. The smoothing parameter k is a value different from the smoothing parameter k used when generating the CTR matrix described above. For example, the number of clicks (C) of the cell is 4023 (numerator of “4023 / 510,000” after the smoothing process at the time of generating the above-mentioned CTR matrix), and the number of impressions (I) of the cell is 510,000 (the above-mentioned When the number of clicks of the advertisement is 8 and the number of impressions of the advertisement is 500 (since it is an individual advertisement, the number of clicks, etc.) The smoothing CTR is (8+ (1/510) × 4023) / (500+ (1/510) × 510,000) = 1.05%. Here, (1/510) is the smoothing parameter k. This value may be a predetermined value (1000) as a numerator and the number of impressions (4023 / 510,000 denominator) after smoothing as a denominator.
The advertisement is selected and distributed according to the ranking (in ascending order) of the smoothing CTR calculated for each advertisement in the cell (second step of advertisement selection).
e. If the number of advertisements in the cell is less than the predetermined number of advertisements (that is, the number of advertisements is insufficient), the cell of the next highest smoothing CTR is searched for except for that cell.

図2は、本実施の形態による処理例を示すフローチャートである。
ステップS2002では、第1クラスタ形成部2312が、OPTICS−DeliCluを用いたクラスタリングを行う。図3を用いて説明する。図3(a)は、ユーザ又はコンテンツをプロットした多次元空間の例を示している。図3(a)内の1つ1つの点が、多次元空間内におけるユーザ又はコンテンツである。図3(b)の例に示すように、7つのクラスタ(図ではA〜G)が生成される。
FIG. 2 is a flowchart showing an example of processing according to this embodiment.
In step S2002, the first cluster forming unit 2312 performs clustering using OPTICS-DeliClu. This will be described with reference to FIG. FIG. 3A shows an example of a multidimensional space in which users or contents are plotted. Each point in FIG. 3A is a user or content in a multidimensional space. As shown in the example of FIG. 3B, seven clusters (A to G in the figure) are generated.

クラスタの形成方法
本実施の形態の第1クラスタ形成部2312で用いるクラスタ手法は、非特許文献2に記載されているOPTICS階層型クラスタ手法であるが、以下に概要を説明する。
ReachabilityPlotの作成:
a.最初に任意の点を選び、その点のラベルを(X)変数に保存する。
b.MinPtsというOPTICS手法のパラメターをNとする。
c.ReachabilityPlotに横軸の(x)に(X)を記入して、縦軸(y)に∞(無限な距離)を記入する。(X)点は「処理済」となる。
d.(X)点に最も近いN点を検索し、その点の中で一番遠い点を抽出し、その点への距離を(y0)として保存する。
e.(X)点に一番近いが、処理済ではない点を検索する。その点への距離を(y1)とする。その点のラベルを(X)変数に保存する(変数の値の更新)。
f.ReachabilityPlotの横軸(x)に(X)を記入し、縦軸(y)に(y0)と(y1)の最大値を記入する。(X)点は「処理済」になる。
g.処理済ではない点がなくなるまで、(d.)ステップからの処理を繰り返す。
h.この手順の出力はReachabilityPlotとなる。横軸は点のラベルの並びであり、縦軸はReachabilityDistanceという距離となる。例えば、図3(b)と図4(b)のようなグラフとなる。
Cluster Formation Method The cluster method used in the first cluster formation unit 2312 of the present embodiment is the OPTICS hierarchical cluster method described in Non-Patent Document 2, and the outline will be described below.
Creating a ReachabilityPlot:
a. First, an arbitrary point is selected, and the label of the point is stored in the (X) variable.
b. Let N be the parameter of the OPTICS method called MinPts.
c. In ReachabilityPlot, (X) is written in (x) on the horizontal axis, and ∞ (infinite distance) is written in the vertical axis (y). The point (X) is “processed”.
d. (X) N points closest to the point are searched, a point farthest among the points is extracted, and the distance to the point is stored as (y0).
e. (X) A point closest to the point but not processed is searched. Let the distance to that point be (y1). The label of the point is stored in the (X) variable (update the value of the variable).
f. (X) is written on the horizontal axis (x) of ReachabilityPlot, and the maximum values of (y0) and (y1) are written on the vertical axis (y). The point (X) becomes “processed”.
g. The processing from step (d.) Is repeated until there is no point that has not been processed.
h. The output of this procedure is ReachabilityPlot. The horizontal axis is the arrangement of point labels, and the vertical axis is the distance called Reachability Distance. For example, the graphs shown in FIGS. 3B and 4B are obtained.

クラスタの階層構造の作成:
a.ReachabilityPlotの点はいくつの種類がある。説明を分かりやすくするために、以下のような用語を定義する。
(a−i)「下がる」:点の(y)の値にξパラメータを乗算し、その値が次の点の(y)の値より高い場合である。ξの値は、例えば0.99のような1未満で1に近い値である。
(a−ii)「上がる」:次の点の(y)の値にξパラメータを乗算し、その値はこの点の(y)の値より高い場合である。
(a−iii)「変更なし」:上がる点でなく、下がる点でもない点である。
(a−iv)「頂点」:条件が2つある。条件は、1)下がる点、2)前の点が下がる点ではないことである。
b.ReachabilityPlotにおいて、クラスタの境界は左端と右端が両方「頂点」となるが、右端はクラスタの要素にはならない。左端と右端のペアの間にどちらの高さより高い頂点があれば、そのペアはクラスタにはならない。クラスタになる場合は、その頂点のペアより高くない頂点は子クラスタの境界になる。
c.なお、「変更なし」の点も複数あることが可能である。隣接する「変更なし」点のインプレッションの数が閾値以上ならクラスタになる。なお、その場合はξパラメータの値を少し増加すれば「変更なし」点は、「上がる」点か「下がる」点になる。したがって、隣接する「変更なし」点のインプレッションの数が閾値未満になり、上記bを適用すればよい。
Creating a cluster hierarchy:
a. There are several types of ReachabilityPlot points. To make the explanation easier to understand, the following terms are defined.
(Ai) “Down”: When the (y) value of a point is multiplied by the ξ parameter and the value is higher than the (y) value of the next point. The value of ξ is a value less than 1 and close to 1, such as 0.99.
(A-ii) “Up”: The value of (y) at the next point is multiplied by the ξ parameter, and the value is higher than the value of (y) at this point.
(A-iii) “No change”: a point that is neither an up point nor a down point.
(A-iv) “Vertex”: There are two conditions. The condition is that 1) the point that goes down, and 2) the point that the previous point goes down.
b. In ReachabilityPlot, the left and right ends of the cluster boundary are “vertices”, but the right end is not an element of the cluster. If there is a vertex higher than either height between the left and right pair, the pair will not be a cluster. In the case of a cluster, vertices that are not higher than the vertex pair become child cluster boundaries.
c. There may be a plurality of “no change” points. If the number of impressions of adjacent “no change” points is greater than or equal to the threshold, the cluster is formed. In this case, if the value of the ξ parameter is slightly increased, the “no change” point becomes an “up” point or a “down” point. Therefore, the number of impressions of adjacent “no change” points is less than the threshold value, and the above b may be applied.

ステップS2004では、第2クラスタ形成部2314が、第1クラスタ内のインプレッション数の合計が閾値を超えているか否かを判断し、超えている場合はステップS2006へ進み、それ以外の場合はステップS2008へ進む。図4を用いて説明する。閾値を10万とした場合である。クラスタC、F、Gは、それぞれ11万、11.3万、10.4万であるので、閾値を超えている。クラスタA、B、D、Eは、それぞれ4万、6.5万、3.2万、6.9万であるので、閾値を超えていない。
ステップS2006では、第2クラスタ形成部2314が、その第1クラスタを第2クラスタとして採用する。図4では、クラスタC、F、Gは、それぞれそのままクラスタ2、4、5として最終的なクラスタとする。
In step S2004, the second cluster formation unit 2314 determines whether or not the total number of impressions in the first cluster exceeds the threshold value. If it exceeds, the process proceeds to step S2006. Otherwise, step S2008 is performed. Proceed to This will be described with reference to FIG. This is a case where the threshold is 100,000. Since the clusters C, F, and G are 110,000, 113,000, and 144,000, respectively, they exceed the threshold. Since the clusters A, B, D, and E are 40,000, 65,000, 32,000, and 69,000, respectively, the threshold is not exceeded.
In step S2006, the second cluster forming unit 2314 adopts the first cluster as the second cluster. In FIG. 4, the clusters C, F, and G are assumed to be final clusters as clusters 2, 4, and 5, respectively.

ステップS2008では、第2クラスタ形成部2314が、第1クラスタのインプレッション数の合計が閾値を超えるまで第1クラスタを削除して第2クラスタを形成する。
ステップS2010では、クラスタリング処理部231が、全ての第1クラスタに対しての処理が終了したか否かを判断し、終了した場合は処理を終了し、それ以外の場合はステップS2004に戻る。
In step S2008, the second cluster forming unit 2314 deletes the first cluster and forms the second cluster until the total number of impressions of the first cluster exceeds the threshold.
In step S2010, the clustering processing unit 231 determines whether or not the processing for all the first clusters is finished. If finished, the processing is finished, and otherwise, the process returns to step S2004.

ステップS2008の処理について、より詳細に説明する。
インプレッション数によるクラスタの階層構造の変更:
a.前述のように各「頂点」のペアは、一つのクラスタ候補になる。しかし、第2クラスタ形成部2314の処理によって、そのクラスタの要素のインプレッション数が閾値未満ならば、最終的なクラスタにはならない(「クラスタを削除」という意味である)。
b.一つの要素でも、インプレッション数が閾値以上となるならば、最終的なクラスタになる。すなわち、そのクラスタは要素が一つだけある。
c.前述のとおり、隣接する「変更なし」点のインプレッション数が閾値以上ならば、クラスタになる。
d.つまり、クラスタには上記の3つの種類がある。具体的には、(1)「頂点」のペア、(2)一つの要素のクラスタ、(3)隣接する「変更なし」、の3種類のクラスタがある。
The process of step S2008 will be described in more detail.
Changing the cluster hierarchy by number of impressions:
a. As described above, each “vertex” pair becomes one cluster candidate. However, if the number of impressions of the elements of the cluster is less than the threshold by the processing of the second cluster forming unit 2314, the final cluster is not created (meaning “delete cluster”).
b. Even one element becomes a final cluster if the number of impressions is greater than or equal to the threshold. That is, the cluster has only one element.
c. As described above, if the number of impressions of adjacent “no change” points is equal to or greater than the threshold value, the cluster is formed.
d. That is, there are the above three types of clusters. Specifically, there are three types of clusters: (1) “vertex” pair, (2) cluster of one element, and (3) adjacent “no change”.

図5(a)の例に示す階層構造は、第1クラスタ形成部2312によって形成された第1のクラスタ群の例を示すものである。つまり、(AとBの間の頂点の高さ)は(BとCの間の頂点の高さ)より低いと判断したことによって、クラスタAとクラスタBの親としてクラスタ1を有し、クラスタ1とクタスタCの親としてクラスタXを有することになる。
図5(b)の例に示す階層構造は、図5(a)の例に示す階層構造に対して、第2クラスタ形成部2314が処理を行った結果の第2のクラスタ群の階層構造を示すものである。閾値を10万とした場合の処理結果である。つまり、インプレッション数が10万未満であるクラスタA(4万)とクラスタB(6.5万)を削除し、その親のクラスタ1(10.5万)はそのまま採用されている。また、インプレッション数が10万未満であるクラスタD(3.2万)とクラスタE(6.9万)を削除し、その親のクラスタ3(10.1万)はそのまま採用されている。他のクラスタ(クラスタC、F、G)、もちろんのことながら、その親のクラスタ(クラスタX、Y、All data(ルート))は、そのまま第2のクラスタ群として採用されている。
The hierarchical structure shown in the example of FIG. 5A shows an example of the first cluster group formed by the first cluster forming unit 2312. That is, by determining that (the height of the vertex between A and B) is lower than (the height of the vertex between B and C), the cluster A has the cluster 1 as a parent of the cluster A and the cluster B, and the cluster 1 and the cluster X as the parent of Kusta C.
The hierarchical structure shown in the example of FIG. 5B is different from the hierarchical structure shown in the example of FIG. 5A with the hierarchical structure of the second cluster group as a result of processing performed by the second cluster forming unit 2314. It is shown. This is the processing result when the threshold is 100,000. That is, the cluster A (40,000) and the cluster B (65,000) with the number of impressions less than 100,000 are deleted, and the parent cluster 1 (105,000) is adopted as it is. Further, the cluster D (32,000) and the cluster E (69,000) having the impression number less than 100,000 are deleted, and the parent cluster 3 (101,000) is adopted as it is. Other clusters (clusters C, F, and G) and, of course, their parent clusters (clusters X, Y, and All data (root)) are directly adopted as the second cluster group.

以下、クラスタリング処理部231を利用した広告配信システムについて説明する。本実施の形態において広告とは、Webページにおいてコンテンツの内容等に応じて表示される広告(リスティング広告と呼ばれる。)を想定する。   Hereinafter, an advertisement distribution system using the clustering processing unit 231 will be described. In the present embodiment, an advertisement is assumed to be an advertisement (referred to as a listing advertisement) that is displayed on a Web page in accordance with the content or the like.

広告配信システムでは、ユーザ及び広告に対してそれぞれクラスタリング処理を行い、ユーザに関するクラスタ(以下、ユーザクラスタという。)と広告に関するクラスタ(以下、広告クラスタという。)とを求め、ユーザクラスタと広告クラスタとの間でのクリック性向を示すCTR行列(例えば、図6に示すCTR行列600)を作成する。ユーザは複数のユーザクラスタに属することができ、広告も複数の広告クラスタに属することができるものとする。   In the advertisement distribution system, a clustering process is performed on each of the user and the advertisement to obtain a user-related cluster (hereinafter referred to as a user cluster) and an advertisement-related cluster (hereinafter referred to as an advertisement cluster). A CTR matrix (for example, CTR matrix 600 shown in FIG. 6) indicating the click tendency between the two is created. A user can belong to a plurality of user clusters, and an advertisement can belong to a plurality of advertisement clusters.

ユーザクラスタの数をN、広告クラスタの数をMとすると、CTR行列はN×Mの行列になる。CTR行列は、ユーザクラスタと広告クラスタの各ペアについて、当該ユーザクラスタに帰属するユーザに対して当該広告クラスタに帰属する広告が表示された回数(インプレッション数と呼ばれる。)と、当該ユーザクラスタに属するユーザが当該広告クラスタに属する広告をクリックしたクリック数とをログから取得して、クリック数とインプレッション数を用いたスムージングCTRを求めるものとする。   If the number of user clusters is N and the number of advertisement clusters is M, the CTR matrix is an N × M matrix. The CTR matrix is the number of times an advertisement belonging to the advertisement cluster is displayed for a user belonging to the user cluster for each pair of the user cluster and the advertisement cluster (referred to as the number of impressions), and belongs to the user cluster. It is assumed that the number of clicks that the user clicked on an advertisement belonging to the advertisement cluster is obtained from the log, and a smoothing CTR using the number of clicks and the number of impressions is obtained.

<<システム構成>>
図7は本実施の形態の広告配信システムの全体構成例を示す図である。本実施の形態の広告配信システムは、ユーザ端末10と通信ネットワーク30を介して通信可能に接続されるWebサーバ20を含んで構成される。
通信ネットワーク30は、例えば公衆電話回線網や専用通信回線網、携帯電話回線網、無線通信網、イーサネット(登録商標)などにより構築される、インターネットやLAN(Local Area Network)である。
Webサーバ20は、画像や動画、テキストなどの各種のコンテンツをHTTP(HyperText Transfer Protocol)に従って提供する、例えばワークステーションやパーソナルコンピュータなどのコンピュータである。ユーザ端末10は、Webサーバ20が提供する各種のWebページを閲覧するブラウザを動作させる、例えばパーソナルコンピュータやタブレットコンピュータ、携帯電話端末、PDA(Personal Digital Assistant)などのコンピュータである。
<< System configuration >>
FIG. 7 is a diagram illustrating an example of the overall configuration of the advertisement distribution system according to the present embodiment. The advertisement distribution system according to the present embodiment is configured to include a Web server 20 that is communicably connected to the user terminal 10 via a communication network 30.
The communication network 30 is, for example, the Internet or a LAN (Local Area Network) constructed by a public telephone line network, a dedicated communication line network, a mobile phone line network, a wireless communication network, Ethernet (registered trademark), or the like.
The Web server 20 is a computer such as a workstation or a personal computer that provides various contents such as images, moving images, and texts according to HTTP (HyperText Transfer Protocol). The user terminal 10 is a computer such as a personal computer, a tablet computer, a mobile phone terminal, or a PDA (Personal Digital Assistant) that operates a browser for browsing various Web pages provided by the Web server 20.

<<Webサーバ20のハードウェア構成>>
図8はWebサーバ20のハードウェア構成例を示す図である。Webサーバ20は、CPU201、メモリ202、記憶装置203、通信インタフェース204、入力装置205、出力装置206を備える。記憶装置203は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュ・メモリなどである。通信インタフェース204は、通信ネットワーク30に接続するためのインタフェースであり、例えばイーサネット(登録商標)に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのUSB(Universal Serial Bus)コネクタやRS232Cコネクタなどである。入力装置205は、データを入力する、例えばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどである。出力装置206は、データを出力する、例えばディスプレイやプリンタ、スピーカなどである。
<< Hardware Configuration of Web Server 20 >>
FIG. 8 is a diagram illustrating a hardware configuration example of the Web server 20. The Web server 20 includes a CPU 201, a memory 202, a storage device 203, a communication interface 204, an input device 205, and an output device 206. The storage device 203 stores various data and programs, for example, a hard disk drive, a solid state drive, a flash memory, or the like. The communication interface 204 is an interface for connecting to the communication network 30, for example, an adapter for connecting to Ethernet (registered trademark), a modem for connecting to a public telephone line network, and a wireless communication device for performing wireless communication USB (Universal Serial Bus) connector for serial communication, RS232C connector or the like. The input device 205 is, for example, a keyboard, a mouse, a touch panel, a button, or a microphone that inputs data. The output device 206 is, for example, a display, a printer, or a speaker that outputs data.

<<Webサーバ20のソフトウェア構成>>
図9はWebサーバ20のソフトウェア構成例を示す図である。Webサーバ20は、HTTP処理部211、Webページ作成部212、広告選択部213、ログ収集部214及び解析処理部215の機能部と、Web情報データベース251、広告データベース252、ユーザデータベース253、インプレッションログ記憶部255及びクリックログ記憶部256の記憶部とを備えている。
なお、上記各機能部は、Webサーバ20が備えるCPU201が記憶装置203に記憶されているプログラムを実行することにより実現され、上記各記憶部は、Webサーバ20が備えるメモリ202及び記憶装置203が提供する記憶領域の一部として実現される。
<< Software Configuration of Web Server 20 >>
FIG. 9 is a diagram illustrating a software configuration example of the Web server 20. The Web server 20 includes an HTTP processing unit 211, a Web page creation unit 212, an advertisement selection unit 213, a log collection unit 214, and an analysis processing unit 215, a Web information database 251, an advertisement database 252, a user database 253, and an impression log. A storage unit 255 and a storage unit of a click log storage unit 256.
Each of the functional units is realized by the CPU 201 included in the Web server 20 executing a program stored in the storage device 203. The storage units are stored in the memory 202 and the storage device 203 included in the Web server 20. This is realized as a part of the storage area to be provided.

<<記憶部の説明>>
(1)Web情報データベース251
Web情報データベース251は、Webページを作成するための情報(以下、Web情報という。)を記憶する。Web情報は、例えば、HTMLで記述されたファイルや、CGI(Common Gateway Interface)などの仕組みにより実行されるプログラムを格納したプログラムファイル、画像ファイルなどである。Web情報データベース251は、例えば、Webサーバ20で動作するオペレーティングシステムが提供するファイルシステムのディレクトリやフォルダにより実現することができる。
<< Description of Storage Unit >>
(1) Web information database 251
The web information database 251 stores information for creating a web page (hereinafter referred to as web information). The Web information is, for example, a file described in HTML, a program file storing a program executed by a mechanism such as CGI (Common Gateway Interface), an image file, or the like. The Web information database 251 can be realized by, for example, a file system directory or folder provided by an operating system operating on the Web server 20.

(2)広告データベース252
広告データベース252は、広告を表示するための情報(以下、広告情報という。)を記憶する。図10は、広告データベース252に記憶される広告情報の構成例を示す図である。広告情報には、広告の識別情報である広告IDに対応付けて、広告のカテゴリ、広告に関するURL(Uniform Resource Locator)、広告のタイトル、入札額、及び実CTR(前述の平均CTR)が含まれる。広告情報のURLが示すWebページはランディングページとも呼ばれ、広告がクリックされるとランディングページにリダイレクトされることになる。
(2) Advertising database 252
The advertisement database 252 stores information for displaying advertisements (hereinafter referred to as advertisement information). FIG. 10 is a diagram illustrating a configuration example of advertisement information stored in the advertisement database 252. The advertisement information includes an advertisement category, an advertisement URL (Uniform Resource Locator), an advertisement title, a bid amount, and an actual CTR (the above-mentioned average CTR) in association with an advertisement ID that is identification information of the advertisement. . The web page indicated by the URL of the advertisement information is also called a landing page, and when the advertisement is clicked, the web page is redirected to the landing page.

入札額は、広告がクリックされた場合に広告主から支払われる最大の単価であり、広告主により決定される。
本実施の形態ではタイトルの文字列をWebページの広告として表示するものとする。広告には広告IDを指定した所定のURL(ホスト名にWebサーバ20が指定されるものとする。以下、リダイレクトURLという。)へのリンクが設定される。Webページにおいて広告がクリックされると、広告IDを含むリクエストがWebサーバ20に送信され、後述するログ収集部214によりクリックされたことのログが収集され、HTTP処理部211により広告IDに対応する広告情報のURLにリダイレクトされる(例えば、当該URLをリダイレクト先として指定した応答が送信される。)。これにより、広告に応じたユーザの行動(クリック)を検知することができる。
The bid amount is the maximum unit price paid from the advertiser when the advertisement is clicked, and is determined by the advertiser.
In the present embodiment, it is assumed that the character string of the title is displayed as an advertisement on the Web page. In the advertisement, a link to a predetermined URL specifying the advertisement ID (Web server 20 is specified as the host name; hereinafter referred to as a redirect URL) is set. When an advertisement is clicked on the web page, a request including the advertisement ID is transmitted to the web server 20, and a log indicating that the click has been clicked is collected by the log collection unit 214 described later, and the HTTP processing unit 211 corresponds to the advertisement ID. Redirected to the URL of the advertisement information (for example, a response specifying the URL as a redirect destination is transmitted). Thereby, the user's action (click) according to the advertisement can be detected.

なお、広告として画像や動画などを表示し、あるいは音声を出力させるようにしてもよく、その場合には、例えば広告情報には、広告として表示する画像や動画のデータを示すURLを追加するようにすることができる。   In addition, you may make it display an image, a moving image, etc. as an advertisement, or you may make it output an audio | voice, and in that case, URL which shows the data of the image displayed as an advertisement, or a moving image may be added, for example Can be.

(3)ユーザデータベース253
ユーザデータベース253は、ユーザに関する情報(以下、ユーザ情報という。)を記憶する。図11はユーザデータベース253に記憶されるユーザ情報の構成例を示す図である。ユーザ情報には、ユーザの識別情報であるユーザIDに対応付けて、ユーザの性別やユーザが現在する都道府県、ユーザの趣味などのユーザの属性とが含まれる。なお、性別、都道府県、趣味以外にも各種のユーザについての属性をユーザ情報に含めることができる。
(3) User database 253
The user database 253 stores information about users (hereinafter referred to as user information). FIG. 11 is a diagram illustrating a configuration example of user information stored in the user database 253. The user information includes user attributes such as the user's gender, the current state of the user, the user's hobbies, and the like in association with the user ID that is the user identification information. In addition to sex, prefectures, and hobbies, various user attributes can be included in the user information.

(4)インプレッションログ記憶部255
インプレッションログ記憶部255は、Webページに広告が表示されたこと(インプレッションと呼ばれる。)を示す情報(以下、インプレッションログという。)を記憶する。図12は、インプレッションログ記憶部255に記憶されるインプレッションログの構成例を示す図である。インプレッションログには、Webページに広告が表示された日時(すなわち、WebページがWebサーバ20から送信された日時である。以下、配信日時という。)、Webページを示すURL、表示された広告を示す広告ID、Webページを閲覧したユーザを示すユーザIDが含まれる。インプレッションログは1つの広告が表示されるにつき1つ登録される。すなわち、例えば1つのWebページに3つの広告が表示された場合には、3つのインプレッションログが登録されることになる。
(4) Impression log storage unit 255
The impression log storage unit 255 stores information (hereinafter referred to as an impression log) indicating that an advertisement is displayed on a web page (referred to as an impression). FIG. 12 is a diagram illustrating a configuration example of an impression log stored in the impression log storage unit 255. In the impression log, the date and time when the advertisement is displayed on the web page (that is, the date and time when the web page was transmitted from the web server 20; hereinafter referred to as distribution date and time), the URL indicating the web page, and the displayed advertisement are displayed. An advertisement ID to be displayed and a user ID indicating a user who has browsed the web page are included. One impression log is registered for each advertisement displayed. That is, for example, when three advertisements are displayed on one Web page, three impression logs are registered.

(5)クリックログ記憶部256
クリックログ記憶部256は、Webページに表示された広告がクリックされたことを示す情報(以下、クリックログという。)を記憶する。図13は、クリックログ記憶部256に記憶されるクリックログの構成例を示す図である。クリックログには、クリックされた広告を示す広告ID、広告をクリックしたユーザを示すユーザID、広告が表示されたWebページを示すURL、及び広告がクリックされた日時(クリック日時)が含まれる。
(5) Click log storage unit 256
The click log storage unit 256 stores information indicating that an advertisement displayed on the Web page has been clicked (hereinafter referred to as a click log). FIG. 13 is a diagram illustrating a configuration example of the click log stored in the click log storage unit 256. The click log includes an advertisement ID indicating the clicked advertisement, a user ID indicating the user who clicked the advertisement, a URL indicating the Web page on which the advertisement is displayed, and the date and time (click date and time) when the advertisement was clicked.

<<機能部の説明>>
(1)HTTP処理部211
HTTP処理部211は、HTTPの処理を行う。HTTP処理部211は、ユーザ端末10から送信されるHTTPのリクエストを受信する。
リクエストにリダイレクトURLが指定されていた場合、HTTP処理部211は、ログ収集部214を呼び出してクリックログを登録させた上で、リクエストに含まれている広告IDに対応する広告情報を広告データベース252から読み出し、読み出した広告情報に含まれているURLをリダイレクト先として指定した応答をユーザ端末10に応答する。
<< Explanation of function part >>
(1) HTTP processing unit 211
The HTTP processing unit 211 performs HTTP processing. The HTTP processing unit 211 receives an HTTP request transmitted from the user terminal 10.
When the redirect URL is specified in the request, the HTTP processing unit 211 calls the log collection unit 214 to register the click log, and then transmits the advertisement information corresponding to the advertisement ID included in the request to the advertisement database 252. And a response specifying the URL included in the read advertisement information as a redirect destination is returned to the user terminal 10.

リクエストにリダイレクトURL以外の、Webページを示すURLが指定された場合には、HTTP処理部211は、Webページ作成部212を呼び出してWebページを表示するための情報(以下、画面情報という。画面情報は例えばHTMLファイルである。)を作成させ、Webページ作成部212が作成した画像情報をユーザ端末10に応答し、ログ収集部214を呼び出してインプレッションログを登録させる。   When a URL indicating a Web page other than the redirect URL is specified in the request, the HTTP processing unit 211 calls information for displaying the Web page by calling the Web page creation unit 212 (hereinafter referred to as screen information). The information is, for example, an HTML file), the image information created by the web page creation unit 212 is responded to the user terminal 10, and the log collection unit 214 is called to register the impression log.

(2)Webページ作成部212
Webページ作成部212は、Webページを表示するための画面情報を作成する。Webページ作成部212は、広告選択部213を呼び出してWebページに表示させる広告を選択させ、選択された広告がWebページに表示され、広告がクリックされた場合にはリダイレクトURLにアクセスするように、例えばリンクタグを設定した文字列を画面情報に挿入する。なお、Webページ作成部212が、広告以外の各種のコンテンツを作成する処理については、一般的なWebサーバによる処理を用いるものとして、ここでは説明を省略する。
(2) Web page creation unit 212
The web page creation unit 212 creates screen information for displaying a web page. The web page creation unit 212 calls the advertisement selection unit 213 to select an advertisement to be displayed on the web page, and the selected advertisement is displayed on the web page. When the advertisement is clicked, the redirect URL is accessed. For example, a character string set with a link tag is inserted into the screen information. In addition, about the process in which the web page preparation part 212 produces various contents other than an advertisement, the process by a general web server is used, and description is abbreviate | omitted here.

(3)広告選択部213
広告選択部213は、Webページに表示する広告を選択する。
広告選択部213は、配信候補抽出部221、広告決定部223を備えている。なお、配信候補抽出部221、広告決定部223も、CPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現される。
(3) Advertisement selection unit 213
The advertisement selection unit 213 selects an advertisement to be displayed on the web page.
The advertisement selection unit 213 includes a distribution candidate extraction unit 221 and an advertisement determination unit 223. The distribution candidate extraction unit 221 and the advertisement determination unit 223 are also realized by the CPU 201 reading the program stored in the storage device 203 into the memory 202 and executing it.

(3−1)配信候補抽出部221
配信候補抽出部221は、広告の候補を決定する。配信候補抽出部221は、前述した広告選択の第1ステップの処理を行う。つまり、クラスタ処理された広告クラスタの中からユーザクラスタに対応する広告クラスタを選択する。
(3−2)広告決定部223
広告決定部223は、配信候補抽出部221が決定した候補の中から表示する広告を、前述した広告選択の第2ステップの処理によって決定する。つまり、広告クラスタ内から個別の広告を選択する。
(3-1) Distribution candidate extraction unit 221
The distribution candidate extraction unit 221 determines advertisement candidates. The distribution candidate extraction unit 221 performs the first step of the advertisement selection described above. That is, an advertisement cluster corresponding to the user cluster is selected from the clustered advertisement clusters.
(3-2) Advertisement determination unit 223
The advertisement determination unit 223 determines an advertisement to be displayed from among the candidates determined by the distribution candidate extraction unit 221 by the above-described second selection process of advertisement selection. That is, an individual advertisement is selected from the advertisement cluster.

(4)ログ収集部214
ログ収集部214は、インプレッションログ及びクリックログを登録する。ログ収集部214は、HTTPにリダイレクトURLが指定されていた場合には、リダイレクトURLに指定されている広告IDに対応するカテゴリを広告データベース252から読み出し、当該広告ID、読み出したカテゴリ、及び現在の日時を設定したクリックログを作成してクリックログ記憶部256に登録する。HTTPにリダイレクトURL以外のURLが指定されていた場合には、ログ収集部214は、広告選択部213が選択した広告のそれぞれについて、現在日時、広告を示す広告ID、及び当該広告のカテゴリを含むインプレッションログを作成してインプレッションログ記憶部255に登録する。
(4) Log collection unit 214
The log collection unit 214 registers an impression log and a click log. When the redirect URL is designated in HTTP, the log collection unit 214 reads out the category corresponding to the advertisement ID designated in the redirect URL from the advertisement database 252 and reads the advertisement ID, the read category, and the current A click log in which the date and time is set is created and registered in the click log storage unit 256. When a URL other than the redirect URL is specified in HTTP, the log collection unit 214 includes the current date and time, the advertisement ID indicating the advertisement, and the category of the advertisement for each advertisement selected by the advertisement selection unit 213. An impression log is created and registered in the impression log storage unit 255.

(5)解析処理部215
解析処理部215は、クラスタリング処理部231、及び行列生成部232を備える。なお、クラスタリング処理部231、及び行列生成部232も、CPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現される。
(5) Analysis processing unit 215
The analysis processing unit 215 includes a clustering processing unit 231 and a matrix generation unit 232. Note that the clustering processing unit 231 and the matrix generation unit 232 are also realized by the CPU 201 reading the program stored in the storage device 203 into the memory 202 and executing it.

(5−1)クラスタリング処理部231
クラスタリング処理部231はクラスタリング処理を行い、ユーザをユーザクラスタに分類し、広告を広告クラスタに分類する。図1〜5を用いて前述した通りの処理を行う。
(5−2)行列生成部232
行列生成部232は、ユーザが広告をクリックしたスムージングCTRからCTR行列を生成する。行列生成部232は、ユーザクラスタと広告クラスタとの全ての組み合わせについて、当該ユーザクラスタに帰属するユーザが、当該広告クラスタに帰属する広告を閲覧したインプレッション数及び当該ユーザが当該広告をクリックしたクリック数を取得して、スムージングCTRを算出する。
(5-1) Clustering processing unit 231
The clustering processing unit 231 performs clustering processing, classifies users into user clusters, and classifies advertisements into advertisement clusters. Processing as described above with reference to FIGS.
(5-2) Matrix generator 232
The matrix generation unit 232 generates a CTR matrix from the smoothing CTR that the user clicks on the advertisement. For all combinations of user clusters and advertisement clusters, the matrix generation unit 232 displays the number of impressions that the user belonging to the user cluster viewed the advertisement belonging to the advertisement cluster and the number of clicks that the user clicked on the advertisement. To obtain a smoothing CTR.

<<解析処理>>
図14は解析処理部215による解析処理の流れを示す図である。
クラスタリング処理部231は、例えばユーザ情報に含まれている属性、インプレッションログ及びクリックログなどに基づく行動履歴などを用いて、前述したようにユーザのクラスタリングを行い、ユーザクラスタを決定する(S311)。
<< Analysis process >>
FIG. 14 is a diagram showing the flow of analysis processing by the analysis processing unit 215.
The clustering processing unit 231 performs user clustering as described above, for example, using an action history based on attributes, impression logs, click logs, and the like included in the user information, and determines a user cluster (S311).

クラスタリング処理部231は、広告についても広告情報に含まれている項目の内容や、広告情報のURLが示すランディングページの内容を用いて、前述したように広告のクラスタリングを行い、広告クラスタを決定する(S312)。   The clustering processing unit 231 also performs advertisement clustering as described above using the contents of items included in the advertisement information and the contents of the landing page indicated by the URL of the advertisement information to determine the advertisement cluster. (S312).

行列生成部232は、ユーザクラスタ及び広告クラスタについてのスムージングCTRを要素とするCTR行列を作成する(S313)。図15はCTR行列の作成処理の一例を示す図である。行列生成部232は、ユーザクラスタ及び各広告クラスタについて、以下の処理を行う。   The matrix generation unit 232 creates a CTR matrix having the smoothing CTR for the user cluster and the advertisement cluster as elements (S313). FIG. 15 is a diagram illustrating an example of a CTR matrix creation process. The matrix generation unit 232 performs the following processing for the user cluster and each advertisement cluster.

行列生成部232は、インプレッションログ記憶部255に登録されているインプレッションログのうち、ユーザIDが対象とするユーザIDに含まれており、かつ、広告IDが対象とする広告IDに含まれているものをカウントしてインプレッション数iuaとして算出する(S331)。行列生成部232は、クリックログ記憶部256に登録されているクリックログのうち、ユーザIDが対象とするユーザIDに含まれており、かつ、広告IDが対象とする広告IDに含まれているものをカウントしてクリック数cuaとして算出する(S332)。 The matrix generation unit 232 is included in the user ID targeted by the user ID among the impression logs registered in the impression log storage unit 255 and is included in the advertisement ID targeted by the advertisement ID. Those are counted and calculated as the number of impressions i ua (S331). The matrix generation unit 232 is included in the user ID targeted by the user ID among the click logs registered in the click log storage unit 256, and is included in the advertisement ID targeted by the advertisement ID. The number is counted and calculated as the click number c ua (S332).

<<リクエスト処理>>
図16は、Webサーバ20により行われる処理の流れを示す図である。
HTTP処理部211は、ユーザ端末10からHTTPのリクエストを受信する(S401)。なおリクエストには、URL、ユーザID及び現在日時が設定されているものとする。
<< Request processing >>
FIG. 16 is a diagram illustrating a flow of processing performed by the Web server 20.
The HTTP processing unit 211 receives an HTTP request from the user terminal 10 (S401). It is assumed that URL, user ID, and current date / time are set in the request.

広告選択部213が選択した広告の広告情報を含む広告リストを作成する(S402)。なお、この広告情報の選択処理については、図17を用いて後述する。   An advertisement list including advertisement information of the advertisement selected by the advertisement selection unit 213 is created (S402). The advertisement information selection process will be described later with reference to FIG.

Webページ作成部212は、リクエストに応じて各種のコンテンツを表示するためのHTMLファイルなどの画面情報を作成する(S403)。なお、ステップS403における画面情報の作成処理は、一般的なWebサーバによる処理を採用することができる。   The web page creation unit 212 creates screen information such as an HTML file for displaying various contents in response to the request (S403). Note that the screen information creation processing in step S403 can employ processing by a general Web server.

Webページ作成部212は、広告リストに含まれる各広告情報について、所定のURLの引数に広告情報に含まれる広告IDを設定したリダイレクトURLを作成する(S404)。リダイレクトURLは、例えば「www.foobar.com/ad?id=xxxx」という形式とすることができる。Webページ作成部212は、広告リストに含まれる各広告情報について、広告情報に含まれるタイトルを内容として含むリダイレクトURLへのリンクタグ(例えば、「<a href="http://www.foobar.com/ad?id=xxxx">タイトル</a>」という形式とすることができる。)を画面情報に挿入する(S405)。   The web page creation unit 212 creates a redirect URL in which the advertisement ID included in the advertisement information is set as an argument of a predetermined URL for each advertisement information included in the advertisement list (S404). The redirect URL can be in the form of “www.foobar.com/ad?id=xxxx”, for example. For each advertisement information included in the advertisement list, the web page creation unit 212 includes a link tag to a redirect URL including the title included in the advertisement information (for example, “<a href =" http: //www.foobar. com / ad? id = xxxx "> title </a>") is inserted into the screen information (S405).

HTTP処理部211は、作成された画面情報をリクエストへの応答としてユーザ端末10に送信する(S406)。ログ収集部214は、広告リストに含まれる各広告情報について、広告情報に含まれる広告IDと、リクエストに含まれていたURL、ユーザID及び現在日時とを含むインプレッションログを作成してインプレッションログ記憶部255に登録する(S407)。   The HTTP processing unit 211 transmits the created screen information to the user terminal 10 as a response to the request (S406). The log collection unit 214 creates an impression log including the advertisement ID included in the advertisement information, the URL included in the request, the user ID, and the current date and time for each advertisement information included in the advertisement list, and stores the impression log. Registered in the unit 255 (S407).

HTTP処理部211は、リクエストにリダイレクトURLが指定されているか否かにより、広告がクリックされたか否かを判定する(S408)。
広告がクリックされたと判定した場合(S408:YES)、ログ収集部214は、リダイレクトURLに設定されている広告IDに対応する広告情報を広告データベース252から読み出し、リクエストに設定されているユーザID及び現在日時ならびに広告ID、カテゴリを含むクリックログを作成してクリックログ記憶部256に登録する(S409)。HTTP処理部211は、広告情報のURLにリダイレクトするようにHTTPのレスポンスをユーザ端末10に送信する(S410)。
一方、広告がクリックされていないと判断した場合には(S408:NO)、処理の流れは終了となる。
The HTTP processing unit 211 determines whether or not an advertisement is clicked based on whether or not a redirect URL is specified in the request (S408).
When it is determined that the advertisement is clicked (S408: YES), the log collection unit 214 reads advertisement information corresponding to the advertisement ID set in the redirect URL from the advertisement database 252, and the user ID set in the request and A click log including the current date and time, advertisement ID, and category is created and registered in the click log storage unit 256 (S409). The HTTP processing unit 211 transmits an HTTP response to the user terminal 10 so as to redirect to the URL of the advertisement information (S410).
On the other hand, if it is determined that the advertisement has not been clicked (S408: NO), the processing flow ends.

<<広告の選択処理>>
図17は、ステップS405における広告の選択処理の流れを示す図である。
配信候補抽出部221は、広告データベース252から前述した広告選択の第1ステップの処理を行う(S421)。つまり、広告クラスタを選択する。
次に、広告決定部223は、広告データベース252から前述した広告選択の第2ステップの処理を行う(S422)。つまり、広告クラスタ内から個別の広告を選択する。
広告決定部223は、CTRの大きい順にn個の広告情報を選択して広告リストとする(S423)。なお、広告決定部223は、CTRに広告情報の入札額を乗じた値の大きい順にn個の広告情報を選択するようにしてもよい。
<< Ad selection process >>
FIG. 17 is a diagram showing a flow of advertisement selection processing in step S405.
The distribution candidate extraction unit 221 performs the above-described first step of advertisement selection from the advertisement database 252 (S421). That is, an advertisement cluster is selected.
Next, the advertisement determination unit 223 performs the above-described second step of advertisement selection from the advertisement database 252 (S422). That is, an individual advertisement is selected from the advertisement cluster.
The advertisement determination unit 223 selects n pieces of advertisement information in descending order of CTR and sets it as an advertisement list (S423). The advertisement determination unit 223 may select n pieces of advertisement information in descending order of a value obtained by multiplying the CTR by the bid amount of the advertisement information.

また、本実施の形態の広告配信システムでは、ユーザ及び広告をクラスタに分類した上で関係性(クリック率)を観測しCTR行列で管理しているので、大量のユーザや広告が存在する場合であっても、関係性の管理を容易に行うことが可能となり、観測値や関係性の管理にかかるリソースを低減することができる。   In the advertisement distribution system according to the present embodiment, since the relationship (click rate) is observed and managed by the CTR matrix after classifying users and advertisements into clusters, there are a large number of users and advertisements. Even if it exists, it becomes possible to manage a relationship easily and the resource concerning management of an observed value or a relationship can be reduced.

また、本実施の形態の広告配信システムでは、配信する広告を決定する際に、期待クリック性向の大きい順に広告を選択しているので、ユーザのニーズに合わせた広告を配信することを可能とするとともに、広告のクリックによる広告収益を向上させることができる。   Further, in the advertisement distribution system according to the present embodiment, when the advertisement to be distributed is determined, the advertisement is selected in descending order of expected click tendency, so that it is possible to distribute the advertisement according to the user's needs. At the same time, it is possible to improve the advertising revenue from the click of the advertisement.

<<他の適用例>>
本実施の形態では広告の配信を想定しているが、広告の配信に限らず、各種のコンテンツの提供を行うシステムに適用してもよい。また、コンテンツとユーザとの関係性もクリック率に限らず、ユーザがコンテンツを嗜好する度合いなど各種の関係性とすることができる。
<< Other application examples >>
In this embodiment, advertisement distribution is assumed. However, the present invention is not limited to advertisement distribution, and may be applied to a system that provides various contents. In addition, the relationship between the content and the user is not limited to the click rate, and various relationships such as the degree to which the user likes the content can be used.

以上、本実施の形態について説明したが、上記実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。   Although the present embodiment has been described above, the above embodiment is intended to facilitate understanding of the present invention and is not intended to limit the present invention. The present invention can be changed and improved without departing from the gist thereof, and the present invention includes equivalents thereof.

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray Disc (registered trademark), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM (registered trademark)) )), Flash memory, Random access memory (RAM) SD (Secure Digital) memory card and the like.
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, etc., or wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.

231…クラスタリング処理部
2312…第1クラスタ形成部
2314…第2クラスタ形成部
211…HTTP処理部
212…Webページ作成部
213…広告選択部
214…ログ収集部
215…解析処理部
221…配信候補抽出部
223…広告決定部
231…クラスタリング処理部
232…行列生成部
251…Web情報データベース
252…広告データベース
253…ユーザデータベース
255…インプレッションログ記憶部
256…クリックログ記憶部
231 ... Clustering processing unit 2312 ... First cluster forming unit 2314 ... Second cluster forming unit 211 ... HTTP processing unit 212 ... Web page creation unit 213 ... Advertisement selection unit 214 ... Log collection unit 215 ... Analysis processing unit 221 ... Delivery candidate extraction Unit 223 ... advertisement determination unit 231 ... clustering processing unit 232 ... matrix generation unit 251 ... Web information database 252 ... advertisement database 253 ... user database 255 ... impression log storage unit 256 ... click log storage unit

Claims (4)

ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成装置であって、
ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成する第1のクラスタリング手段と、
前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタ群を形成する第2のクラスタリング手段
を具備することを特徴とするクラスタ形成装置。
A cluster forming apparatus that forms a cluster of a user and content in order to generate a matrix indicating a relationship between the user and the content in determining content suitable for the user,
A user or content is clustered based on its attributes and has a hierarchical structure having a parent-child relationship between clusters, and a first cluster group is formed so that the upper cluster includes elements in the lower cluster. First clustering means;
Based on the number of impressions of the elements in each cluster formed by the first clustering means, a second cluster group is obtained by removing the form as the cluster for a cluster that matches a predetermined condition. A cluster forming apparatus comprising second clustering means for forming.
前記第2のクラスタリング手段は、予め定められた条件として、第1のクラスタ群のクラスタ内の要素のインプレッション数が閾値を超えている場合は、該クラスタを第2のクラスタ群のクラスタとして採用し、第1のクラスタ群のクラスタ内の要素のインプレッション数が該閾値を超えていない場合は、該クラスタとしての形態を取り除き、該第2のクラスタ群を形成する
ことを特徴とする請求項1に記載のクラスタ形成装置。
The second clustering means adopts the cluster as the cluster of the second cluster group when the number of impressions of the elements in the cluster of the first cluster group exceeds a threshold as a predetermined condition. When the number of impressions of elements in the cluster of the first cluster group does not exceed the threshold, the form as the cluster is removed and the second cluster group is formed. The cluster forming apparatus described.
ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成装置が行うクラスタ形成方法であって、
第1のクラスタリング手段が、ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成し、
第2のクラスタリング手段が、前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタ群を形成する
ことを特徴とするクラスタ形成方法。
In determining content suitable for a user, a cluster forming method performed by a cluster forming apparatus that forms a cluster of the user and the content in order to generate a matrix indicating the relationship between the user and the content,
The first clustering means performs a clustering process on the user or content based on the attribute thereof, has a hierarchical configuration having a parent-child relationship between the clusters, and the upper cluster includes elements in the lower cluster. Forming one cluster group,
The second clustering means removes the form as the cluster from the cluster that matches a predetermined condition based on the number of impressions of the elements in each cluster formed by the first clustering means. A second cluster group is formed by the cluster forming method.
ユーザに適したコンテンツを決定するにあたって、ユーザとコンテンツの関係を示す行列を生成するためにユーザとコンテンツのクラスタを形成するクラスタ形成プログラムであって、
コンピュータを、
ユーザ又はコンテンツを、その属性に基づいてクラスタリング処理を行い、クラスタ間に親子関係を有する階層的構成であり、上位のクラスタは下位のクラスタ内の要素を含むように第1のクラスタ群を形成する第1のクラスタリング手段と、
前記第1のクラスタリング手段によって形成された各クラスタ内の要素のインプレッション数に基づいて、予め定められた条件に合致するクラスタに対して、該クラスタとしての形態を取り除くことによって第2のクラスタ群を形成する第2のクラスタリング手段
として機能させるためのクラスタ形成プログラム。
In determining content suitable for a user, a cluster formation program for forming a cluster of users and content in order to generate a matrix indicating the relationship between the user and the content,
Computer
A user or content is clustered based on its attributes and has a hierarchical structure having a parent-child relationship between clusters, and a first cluster group is formed so that the upper cluster includes elements in the lower cluster. First clustering means;
Based on the number of impressions of the elements in each cluster formed by the first clustering means, a second cluster group is obtained by removing the form as the cluster for a cluster that matches a predetermined condition. A cluster formation program for functioning as second clustering means to be formed.
JP2013054654A 2013-03-18 2013-03-18 Cluster forming apparatus, cluster forming method, and cluster forming program Active JP5787924B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013054654A JP5787924B2 (en) 2013-03-18 2013-03-18 Cluster forming apparatus, cluster forming method, and cluster forming program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013054654A JP5787924B2 (en) 2013-03-18 2013-03-18 Cluster forming apparatus, cluster forming method, and cluster forming program

Publications (2)

Publication Number Publication Date
JP2014182421A true JP2014182421A (en) 2014-09-29
JP5787924B2 JP5787924B2 (en) 2015-09-30

Family

ID=51701118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013054654A Active JP5787924B2 (en) 2013-03-18 2013-03-18 Cluster forming apparatus, cluster forming method, and cluster forming program

Country Status (1)

Country Link
JP (1) JP5787924B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102862A (en) * 2015-12-04 2017-06-08 ヤフー株式会社 Determination device, determination method, and determination program
JP2019046302A (en) * 2017-09-05 2019-03-22 株式会社電通 User measure system
JP2020119220A (en) * 2019-01-23 2020-08-06 Line株式会社 Information processing method, program, terminal, server, and information processing device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003303209A (en) * 2002-04-11 2003-10-24 Interlogics Inc Information providing system, server, program and recording medium
JP2012178128A (en) * 2011-02-28 2012-09-13 Rakuten Inc Advertisement management device, advertisement selection device, advertisement management method, advertisement management program, and recording medium having the advertisement management program recorded thereon

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003303209A (en) * 2002-04-11 2003-10-24 Interlogics Inc Information providing system, server, program and recording medium
JP2012178128A (en) * 2011-02-28 2012-09-13 Rakuten Inc Advertisement management device, advertisement selection device, advertisement management method, advertisement management program, and recording medium having the advertisement management program recorded thereon

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200910110043; 櫻庭 敦之、成田 龍太、全 員嬉、徳山 豪: 'ジャストインタイムウェブ広告におけるタクソノミ自動生成手法' FIT2009 第8回情報科学技術フォーラム 講演論文集 第2分冊 , 20090820, pp.185-186, 社団法人 情報処理学会 *
JPN6014038995; 櫻庭 敦之、成田 龍太、全 員嬉、徳山 豪: 'ジャストインタイムウェブ広告におけるタクソノミ自動生成手法' FIT2009 第8回情報科学技術フォーラム 講演論文集 第2分冊 , 20090820, pp.185-186, 社団法人 情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102862A (en) * 2015-12-04 2017-06-08 ヤフー株式会社 Determination device, determination method, and determination program
JP2019046302A (en) * 2017-09-05 2019-03-22 株式会社電通 User measure system
JP2020119220A (en) * 2019-01-23 2020-08-06 Line株式会社 Information processing method, program, terminal, server, and information processing device

Also Published As

Publication number Publication date
JP5787924B2 (en) 2015-09-30

Similar Documents

Publication Publication Date Title
US9990422B2 (en) Contextual analysis engine
US9798820B1 (en) Classification of keywords
JP5438087B2 (en) Advertisement distribution device
US20110119267A1 (en) Method and system for processing web activity data
TW201417019A (en) Search result ranking method and device
TW201118620A (en) Systems and methods for providing advanced search result page content
US20150026105A1 (en) Systems and method for determining influence of entities with respect to contexts
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US20130198240A1 (en) Social Network Analysis
CN114238573B (en) Text countercheck sample-based information pushing method and device
JP2020035068A (en) Device, method, and program for processing information
JP2018169986A (en) Enterprise information providing system and program
KR100954842B1 (en) Method and System of classifying web page using category tag information and Recording medium using by the same
TW201719569A (en) Identifying social business characteristic user
US9020962B2 (en) Interest expansion using a taxonomy
CN110674178B (en) Method and system for constructing user portrait tag
JP5787924B2 (en) Cluster forming apparatus, cluster forming method, and cluster forming program
JP5284064B2 (en) Product ID server device and method for controlling product ID server device
JP7065718B2 (en) Judgment support device and judgment support method
Spitz et al. Topexnet: entity-centric network topic exploration in news streams
JP4728063B2 (en) Interest information generating apparatus, interest information generating method, and interest information generating program
JP2004240887A (en) Retrieval information display system, retrieval keyword information display method and retrieval keyword information display program
Gao et al. Service recommendation from the evolution of composition patterns
JP4745993B2 (en) Consciousness system construction device and consciousness system construction program
KR102081553B1 (en) Big Data-Based Monitoring System of Promotional Content for Cultural Media

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150728

R150 Certificate of patent or registration of utility model

Ref document number: 5787924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250