JP2018151789A - Information processing apparatus, information processing method, program, and advertisement information processing system - Google Patents

Information processing apparatus, information processing method, program, and advertisement information processing system Download PDF

Info

Publication number
JP2018151789A
JP2018151789A JP2017046663A JP2017046663A JP2018151789A JP 2018151789 A JP2018151789 A JP 2018151789A JP 2017046663 A JP2017046663 A JP 2017046663A JP 2017046663 A JP2017046663 A JP 2017046663A JP 2018151789 A JP2018151789 A JP 2018151789A
Authority
JP
Japan
Prior art keywords
query
queries
node
information processing
graph data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017046663A
Other languages
Japanese (ja)
Other versions
JP6739379B2 (en
Inventor
田村 健
Takeshi Tamura
健 田村
伸次 池宮
Shinji Ikemiya
伸次 池宮
琢郎 森
Takuro Mori
琢郎 森
工藤 和也
Kazuya Kudo
和也 工藤
麻里 衣目
Mari Kinume
麻里 衣目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017046663A priority Critical patent/JP6739379B2/en
Publication of JP2018151789A publication Critical patent/JP2018151789A/en
Application granted granted Critical
Publication of JP6739379B2 publication Critical patent/JP6739379B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processing apparatus, an information processing method, a program, and an advertisement information processing system capable of accurately and easily grasping relevance between queries.SOLUTION: The information processing apparatus includes a calculating unit for calculating a degree of association between respective two queries in a plurality of queries used for network search on the basis of the number of users who have searched for each of the two queries, a generation unit for generating graph data indicating whether there is association between the two queries and a degree of association between each of the two queries and a classification unit for classifying the queries on the basis of the graph data.SELECTED DRAWING: Figure 2

Description

本発明は、情報処理装置、情報処理方法、プログラム、および広告情報処理システムに関する。   The present invention relates to an information processing apparatus, an information processing method, a program, and an advertisement information processing system.

従来、ウェブ検索において、ユーザが入力したキーワード(クエリ)を解析する技術についての研究が進められている。例えば、過去に入力されたクエリのリストを用いてクエリ間の関連性を解析することで、利便性の高い検索サービスを提供することが可能となる(例えば、特許文献1参照)。   2. Description of the Related Art Conventionally, research on a technique for analyzing a keyword (query) input by a user in web search has been advanced. For example, it is possible to provide a highly convenient search service by analyzing the relationship between queries using a list of queries input in the past (see, for example, Patent Document 1).

特開2015−97026号公報JP2015-97026A

クエリの解析においては、クエリ間の関連性をいかに正確に把握できるかが重要となる。また、膨大な数のクエリが解析対象となるため、解析処理を簡易化することも求められている。   In query analysis, it is important how accurately the relationship between queries can be grasped. In addition, since an enormous number of queries are to be analyzed, it is also required to simplify the analysis process.

本発明は、このような事情を考慮してなされたものであり、クエリ間の関連性を正確かつ簡単に把握することが可能な情報処理装置、情報処理方法、プログラム、および広告情報処理システムを提供することを目的の一つとする。   The present invention has been made in view of such circumstances, and provides an information processing apparatus, an information processing method, a program, and an advertisement information processing system that can accurately and easily grasp the relationship between queries. One of the purposes is to provide.

本発明の一態様は、ネットワーク検索に用いられた複数のクエリにおける各2つのクエリの間の関連度を、前記各2つのクエリの双方を検索したユーザ数に基づいて算出する算出部と、前記各2つのクエリの間の関連付けの有無と、前記各2つのクエリの間の関連度とを示すグラフデータを生成する生成部と、前記グラフデータに基づいてクエリを分類する分類部と、を備える情報処理装置である。   One aspect of the present invention is a calculation unit that calculates the degree of association between two queries in a plurality of queries used for network search based on the number of users who have searched both the two queries, A generation unit that generates graph data indicating presence / absence of association between each two queries, and a degree of association between each of the two queries, and a classification unit that classifies the queries based on the graph data. Information processing apparatus.

本発明の一態様によれば、クエリ間の関連性を正確かつ簡単に把握することができる。   According to one aspect of the present invention, the relationship between queries can be grasped accurately and easily.

第1実施形態における情報処理システム1の構成図である。It is a lineblock diagram of information processing system 1 in a 1st embodiment. 第1実施形態における情報処理装置7の機能構成を示す図である。It is a figure which shows the function structure of the information processing apparatus 7 in 1st Embodiment. 第1実施形態におけるクエリ間の関連性を示すグラフデータである。It is graph data which shows the relationship between the queries in 1st Embodiment. 第1実施形態における情報処理装置7の処理の一例を示すフローチャートである。It is a flowchart which shows an example of a process of the information processing apparatus 7 in 1st Embodiment. 第1実施形態におけるノード処理の一例を説明した図である。It is a figure explaining an example of the node process in 1st Embodiment. 第1実施形態におけるノード処理の一例を説明した図である。It is a figure explaining an example of the node process in 1st Embodiment. 第1実施形態におけるノード処理の一例を説明した図である。It is a figure explaining an example of the node process in 1st Embodiment. 第1実施形態におけるノード間の親子関係を示す木構造を示す図である。It is a figure which shows the tree structure which shows the parent-child relationship between the nodes in 1st Embodiment. 第2実施形態における情報処理装置7の処理の一例を示すフローチャートである。It is a flowchart which shows an example of a process of the information processing apparatus 7 in 2nd Embodiment. 第2実施形態におけるクエリ間の関連性を示すグラフデータである。It is graph data which shows the relationship between the queries in 2nd Embodiment. 第2実施形態におけるノード処理の一例を説明した図である。It is a figure explaining an example of the node process in 2nd Embodiment. 第3実施形態における情報処理装置7の処理の一例を示すフローチャートである。It is a flowchart which shows an example of a process of the information processing apparatus 7 in 3rd Embodiment. 第3実施形態におけるクエリ間の関連性を示すグラフデータである。It is graph data which shows the relationship between the queries in 3rd Embodiment. 第3実施形態におけるノード処理の一例を説明した図である。It is a figure explaining an example of the node process in 3rd Embodiment. 第1実施形態における情報処理システム1Aの構成図である。It is a lineblock diagram of information processing system 1A in a 1st embodiment.

以下、図面を参照し、本発明の情報処理装置、情報処理方法、プログラム、および広告情報処理システムの実施形態について説明する。情報処理装置は、ユーザの端末装置から送信されたクエリ間の関連度を示す重複検索スコアを算出し、算出した重複検索スコアに基づいてクエリの分類を行う。   Hereinafter, embodiments of an information processing apparatus, an information processing method, a program, and an advertisement information processing system according to the present invention will be described with reference to the drawings. The information processing device calculates a duplicate search score indicating the degree of association between queries transmitted from the user's terminal device, and classifies the query based on the calculated duplicate search score.

<第1実施形態>
図1は、第1実施形態における情報処理システム1の構成図である。情報処理システム1は、例えば、一以上の端末装置3と、一以上の検索サーバ5と、一以上の情報処理装置7とを備える。端末装置3と、検索サーバ5とは、ネットワークNWによって互いに接続されており、このネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
<First Embodiment>
FIG. 1 is a configuration diagram of an information processing system 1 in the first embodiment. The information processing system 1 includes, for example, one or more terminal devices 3, one or more search servers 5, and one or more information processing devices 7. The terminal device 3 and the search server 5 are connected to each other via a network NW, and communicate with each other via the network NW. The network NW includes, for example, a WAN (Wide Area Network), a LAN (Local Area Network), the Internet, a dedicated line, a wireless base station, a provider, and the like.

[端末装置]
端末装置3は、検索サービスを利用するユーザによって操作される。端末装置3は、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、PDA(Personal Digital Assistant)などのコンピュータ装置である。端末装置3では、ユーザの操作に基づいて動作するブラウザまたはアプリケーションプログラムが、情報提供を要求するクエリを検索サーバ5に送信し、クエリと関連付けされた検索情報を検索サーバ5から受信する。
[Terminal device]
The terminal device 3 is operated by a user who uses the search service. The terminal device 3 is a computer device such as a personal computer, a mobile phone such as a smartphone, a tablet terminal, or a PDA (Personal Digital Assistant). In the terminal device 3, a browser or an application program that operates based on a user operation transmits a query for requesting information provision to the search server 5 and receives search information associated with the query from the search server 5.

[検索サーバ]
検索サーバ5は、端末装置3からクエリを受信し、受信したクエリに基づいて検索の結果を提供する。検索サーバ5は、クエリと、コンテンツの参照情報(例えばURLなど)とを関連付けた検索データベース(図示しない)を備えている。検索サーバ5は、端末装置3からクエリを受信した場合、検索データベースから、クエリに関連付けられたコンテンツを参照するための参照情報を抽出し、端末装置3に送信する。
Search server
The search server 5 receives a query from the terminal device 3 and provides a search result based on the received query. The search server 5 includes a search database (not shown) in which a query is associated with content reference information (for example, a URL). When the search server 5 receives a query from the terminal device 3, the search server 5 extracts reference information for referring to the content associated with the query from the search database, and transmits the reference information to the terminal device 3.

検索サーバ5は、端末装置3から受信したクエリと、クエリの送信元の端末装置3のユーザの識別情報とを関連付けした履歴情報を記憶部(図示しない)に記憶する。ユーザの識別情報とは、例えば、端末装置3に備えられたウェブブラウザごとに管理されるクッキー(HTTP cookie)に関する情報や、端末装置3のIPアドレスなどである。これらの識別情報は、クエリを入力したユーザの識別情報とみなすことができる。また、ユーザが検索サーバ5にアクセスする際にログインを行っている場合、そのログインIDをユーザの識別情報としてよい。
[情報処理装置]
情報処理装置7は、検索サーバ5から履歴情報を取得し、取得した履歴情報を用いてクエリの分類を行う。図2は、情報処理装置7の機能構成を示す図である。情報処理装置7は、例えば、取得部10と、関連度算出部12(算出部)と、生成部14と、分類部16と、記憶部18とを備える。情報処理装置7に含まれる各機能部は、複数の装置に分散されてもよい。例えば、関連度算出部12と他の機能部とは別体の装置によって実現されてもよい。記憶部18は、NAS(Network Attached Storage)などの記憶装置であってもよい。
The search server 5 stores history information that associates the query received from the terminal device 3 with the identification information of the user of the terminal device 3 that is the transmission source of the query, in a storage unit (not shown). The user identification information is, for example, information related to a cookie (HTTP cookie) managed for each web browser provided in the terminal device 3 or the IP address of the terminal device 3. These pieces of identification information can be regarded as identification information of the user who inputs the query. Further, when the user logs in when accessing the search server 5, the login ID may be used as the user identification information.
[Information processing device]
The information processing device 7 acquires history information from the search server 5 and classifies the query using the acquired history information. FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus 7. The information processing device 7 includes, for example, an acquisition unit 10, a relevance calculation unit 12 (calculation unit), a generation unit 14, a classification unit 16, and a storage unit 18. Each functional unit included in the information processing device 7 may be distributed to a plurality of devices. For example, the association degree calculation unit 12 and other function units may be realized by separate devices. The storage unit 18 may be a storage device such as NAS (Network Attached Storage).

関連度算出部12、生成部14、および分類部16は、例えば、CPU(Central Processing Unit)などのプロセッサが、記憶部18に記憶されたプログラム(ソフトウェア)を実行することにより実現される。プログラムは、例えば、ネットワークNWを介してアプリケーションサーバからダウンロードされてもよいし、予め情報処理装置7にプリインストールされていてもよい。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。記憶部18は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などによって実現される。   The degree-of-association calculation unit 12, the generation unit 14, and the classification unit 16 are realized by a processor (software) stored in the storage unit 18, for example, by a processor such as a CPU (Central Processing Unit). For example, the program may be downloaded from the application server via the network NW, or may be preinstalled in the information processing apparatus 7 in advance. In addition, these functional units may be realized by hardware such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), or cooperation of software and hardware. It may be realized by. The storage unit 18 is realized by, for example, a random access memory (RAM), a read only memory (ROM), a hard disk drive (HDD), a flash memory, or a hybrid storage device in which a plurality of these are combined.

取得部10は、端末装置3から送信されたクエリと、送信元の端末装置3のユーザの識別情報とが関連付けされた履歴情報を検索サーバ5から取得し、記憶部18に記憶させる。   The acquisition unit 10 acquires from the search server 5 history information in which the query transmitted from the terminal device 3 is associated with the identification information of the user of the terminal device 3 that is the transmission source, and stores the history information in the storage unit 18.

関連度算出部12は、ネットワーク検索に用いられた複数のクエリにおける各2つのクエリの間の関連度を、各2つのクエリの双方を検索したユーザ数に基づいて算出する。例えば、関連度算出部12は、記憶部18から履歴情報を読み出し、クエリ間の関連度を示す重複検索スコアを算出する。重複検索スコアScoreは、例えば、以下の式(1)によって算出される。   The relevance calculating unit 12 calculates the relevance between each of the two queries in the plurality of queries used for the network search based on the number of users who have searched both the two queries. For example, the relevance calculation unit 12 reads history information from the storage unit 18 and calculates a duplicate search score indicating the relevance between queries. The duplicate search score Score is calculated by the following equation (1), for example.

Figure 2018151789
Figure 2018151789

式(1)において、Auserは、クエリAの検索ユーザ数であり、Buserは、クエリBの検索ユーザ数であり、ALLuserは、検索ユーザ数全体であり、Auser∧Buserは、クエリAとクエリBとの双方を検索しているユーザ数である。重複検索スコアScoreは、値が大きいほど、クエリAとクエリBとの関連度が強いことを示す。また、クエリAとクエリBとの検索ユーザ数が互いに近いほど、重複検索スコアScoreが高くなる傾向になる。関連度算出部12は、重複検索スコアを算出した2つのクエリを示す情報と、算出した重複検索スコアとを関連付けした情報(以下、「重複検索スコア情報」と呼ぶ)を記憶部18に記憶させる。   In the formula (1), Auser is the number of search users of the query A, Buser is the number of search users of the query B, ALLuser is the total number of search users, and User∧Buser is the query A and the query B And the number of users searching both. The duplicate search score Score indicates that the greater the value, the stronger the degree of association between the query A and the query B. Further, the closer the search user numbers of the query A and the query B are, the higher the duplicate search score Score tends to be. The degree-of-association calculation unit 12 causes the storage unit 18 to store information (hereinafter referred to as “duplicate search score information”) that associates the information indicating the two queries for which the duplicate search score has been calculated with the calculated duplicate search score. .

生成部14は、複数のクエリにおける各2つのクエリの間の関連付けの有無と、この各2つのクエリの間の関連度とを示すグラフデータを生成する。また、生成部14は、生成したグラフデータにおける複数のクエリの中から、関連付けされたクエリの数が1つであるクエリを選択し、この選択したクエリと、この選択したクエリと関連付けされたクエリとの間の親子関係を設定する。例えば、生成部14は、記憶部18から読み出した履歴情報を用いて、図3に示すようなグラフデータを生成する。   The production | generation part 14 produces | generates the graph data which show the presence or absence of the correlation between each two queries in a some query, and the relevance degree between these two queries. Further, the generation unit 14 selects a query having one associated query from a plurality of queries in the generated graph data, and selects the selected query and the query associated with the selected query. Set the parent-child relationship between. For example, the generation unit 14 generates graph data as illustrated in FIG. 3 using the history information read from the storage unit 18.

図3では、計8個のクエリがノードAからHとして示されている。図3において、リンクL1からリンクL9が各ノード間の関連付けの有無を示している。リンクL1からリンクL9によって互いに結ばれた2つのノードは、同一のユーザによって双方が検索された2つのクエリを示している。図3において括弧内に示された数値は、各リンクの重複検索スコアを示している。   In FIG. 3, a total of eight queries are shown as nodes A through H. In FIG. 3, links L1 to L9 indicate whether or not each node is associated. The two nodes connected to each other by the link L1 to the link L9 indicate two queries that are both searched by the same user. The numerical values shown in parentheses in FIG. 3 indicate the duplicate search score of each link.

例えば、図3においては、ノードAと、ノードDとは、リンクL4によって接続され、その重複検索スコアは“6”であることが示されている。また、ノードAは、リンクL5によってノードBと接続され、その重複検索スコアは“8”であり、リンクL3によってノードCと接続され、その重複検索スコアは“4”であり、リンクL4によってノードDと接続され、その重複検索スコアは“6”であり、リンクL2によってノードEと接続され、その重複検索スコアは“5”であることが示されている。すなわち、ノードAは、ノードBとの関連性が最も高いことが分かる。   For example, in FIG. 3, the node A and the node D are connected by a link L4, and the duplicate search score is “6”. Node A is connected to node B by link L5, and its duplicate search score is “8”, and is connected to node C by link L3, and its duplicate search score is “4”, and node L is linked by link L4. It is connected to D and its duplicate search score is “6”, and it is connected to node E by link L2 and its duplicate search score is “5”. That is, it can be seen that node A has the highest relevance with node B.

分類部16は、生成部14によって生成されたグラフデータに基づいてクエリを分類する。分類部16によるクエリの分類処理の詳細については後述する。   The classification unit 16 classifies the query based on the graph data generated by the generation unit 14. Details of the query classification processing by the classification unit 16 will be described later.

記憶部18は、取得部10が検索サーバ5から取得した履歴情報、関連度算出部12が算出した重複検索スコア情報、生成部14によって生成されたグラフデータ、分類部16によって分類されたクエリの分類結果などを記憶する。   The storage unit 18 includes history information acquired by the acquisition unit 10 from the search server 5, duplicate search score information calculated by the relevance calculation unit 12, graph data generated by the generation unit 14, and queries classified by the classification unit 16. Stores classification results.

[情報処理装置の処理]
次に、図4を参照しながら情報処理装置7の動作について説明する。図4は、情報処理装置7の処理の一例を示すフローチャートである。
[Processing of information processing device]
Next, the operation of the information processing apparatus 7 will be described with reference to FIG. FIG. 4 is a flowchart illustrating an example of processing of the information processing apparatus 7.

まず、取得部10は、履歴情報を検索サーバ5から取得し、記憶部18に記憶させる(ステップS101)。   First, the acquisition unit 10 acquires history information from the search server 5 and stores it in the storage unit 18 (step S101).

次に、関連度算出部12は、記憶部18から履歴情報を読み出し、読み出した履歴情報に基づいて重複検索スコアを算出する(ステップS103)。関連度算出部12は、重複検索スコア情報を記憶部18に記憶させる。   Next, the relevance calculation unit 12 reads history information from the storage unit 18 and calculates a duplicate search score based on the read history information (step S103). The relevance calculation unit 12 stores the duplicate search score information in the storage unit 18.

次に、生成部14は、記憶部18から重複検索スコア情報を読み出して、クエリ間の関連性を示すグラフデータを生成する(ステップS105)。例えば、生成部14は、図3に示すようなクエリ間の関連性を示すグラフデータを生成する。   Next, the production | generation part 14 reads duplication search score information from the memory | storage part 18, and produces | generates the graph data which show the relationship between queries (step S105). For example, the production | generation part 14 produces | generates the graph data which show the relationship between queries as shown in FIG.

次に、生成部14は、接続先のノードの数が1つであるノード(以下、「末端ノード」と呼ぶ)の処理を行う(ステップS107)。例えば、生成部14は、グラフデータにおいて、末端ノードを選択し、選択した末端ノードを「子ノード」とし、選択した末端ノードの接続先のノードを「親ノード」として親子関係を設定する。   Next, the generation unit 14 performs processing for a node having one connection destination node (hereinafter referred to as “terminal node”) (step S107). For example, in the graph data, the generation unit 14 selects a terminal node, sets the selected terminal node as a “child node”, and sets a parent-child relationship with the connection destination node of the selected terminal node as a “parent node”.

図5は、図3に示されたグラフデータに対するノード処理の一例を説明する図である。図3に示すグラフデータにおいては、2つの末端ノード(ノードDおよびノードF)が存在する。図5のステップS107(1回目)に示されるように、生成部14は、例えば、処理対象の末端ノードとしてノードDを選択し、選択したノードDを「子ノード」とし、ノードDの接続先であるノードAをノードDの「親ノード」として親子関係を設定する。親子関係の設定が完了したノードDは、グラフデータからは削除されたとみなして以降の処理が行われる。図5では、削除されたノードは点線で示されている。   FIG. 5 is a diagram for explaining an example of node processing for the graph data shown in FIG. In the graph data shown in FIG. 3, there are two terminal nodes (node D and node F). As illustrated in step S107 (first time) in FIG. 5, for example, the generation unit 14 selects the node D as the terminal node to be processed, sets the selected node D as the “child node”, and the connection destination of the node D The parent-child relationship is set with the node A as the “parent node” of the node D. The node D for which the parent-child relationship has been set is regarded as deleted from the graph data, and the subsequent processing is performed. In FIG. 5, the deleted nodes are indicated by dotted lines.

次に、生成部14は、全ての末端ノードの処理が完了したか否かを判定する(ステップS109)。生成部14は、全ての末端ノードの処理が完了していないと判定した場合、未処理の末端ノードに対して上記の親子関係の設定を行う。図5に示す例においてノードDの処理が完了した後には、未処理の末端ノードであるノードFが存在する。このため、図5のステップS107(2回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードFを選択し、選択したノードFを「子ノード」とし、ノードFの接続先であるノードEをノードFの「親ノード」として親子関係を設定する。   Next, the generation unit 14 determines whether or not processing for all terminal nodes has been completed (step S109). If the generation unit 14 determines that the processing of all the terminal nodes has not been completed, the generation unit 14 sets the above parent-child relationship with respect to an unprocessed terminal node. In the example shown in FIG. 5, after the processing of the node D is completed, there is a node F that is an unprocessed terminal node. Therefore, as shown in step S107 (second time) in FIG. 5, the generation unit 14 selects the node F as the terminal node to be processed, sets the selected node F as the “child node”, and connects the nodes F A parent-child relationship is set with the previous node E as the “parent node” of node F.

上記のノードFに対する処理の結果、ノードEは、ノードAのみに接続された末端ノードとなる。このため、図5のステップS107(3回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードEを選択し、選択したノードEを「子ノード」とし、ノードEの接続先であるノードAをノードEの「親ノード」として親子関係を設定する。   As a result of the processing for the node F, the node E becomes a terminal node connected to only the node A. Therefore, as shown in step S107 (third time) in FIG. 5, the generation unit 14 selects the node E as the terminal node to be processed, sets the selected node E as the “child node”, and connects the nodes E A parent-child relationship is set with node A as the “parent node” of node E as the previous node.

一方、生成部14は、全ての末端ノードの処理が完了したと判定した場合、グラフデータに含まれる全てのノードの処理が完了したか否かを判定する(ステップS111)。生成部14は、全てのノードの処理が完了していないと判定した場合、未処理のノード(ここでは、関連付けされたクエリの数が2つ以上であるクエリが未処理のノードとなる)の中で、接続先のノードの数が最も少ないノードを処理対象として選択し、選択したノードに接続された複数のリンクの内、重複検索スコアが最も低いリンクを削除する(ステップS113)。リンクが削除されることにより新たに末端ノードが生成されるため、生成部14は、この新たに生成された末端ノードに対する上記の処理を行う。   On the other hand, when it determines with the process of all the terminal nodes having been completed, the production | generation part 14 determines whether the process of all the nodes contained in graph data was completed (step S111). If the generation unit 14 determines that the processing of all the nodes has not been completed, the generation unit 14 selects an unprocessed node (here, a query having two or more associated queries becomes an unprocessed node). Among them, the node having the smallest number of connection destination nodes is selected as a processing target, and the link having the lowest duplicate search score is deleted from the plurality of links connected to the selected node (step S113). Since the end node is newly generated by deleting the link, the generation unit 14 performs the above-described processing for the newly generated end node.

図5に示す例において末端ノードであるノードEの処理が完了した後には、未処理のノードであるノードA、B、C、G、およびHが存在する。このため、生成部14は、全てのノードの処理が完了していないと判定し、上記のリンクの削除処理を行う。例えば、図5に示す例において、接続先のノードの数が最も少ないノードとして、接続先のノードの数が2つであるノードA、C、G、およびHが処理対象の候補となる。生成部14は、ノードA、C、G、およびHのいずれかを1つを処理対象として選択し(図5に示す例ではノードAを選択し)、選択したノードAに接続された複数のリンクL5およびL3の内、重複検索スコアが低いリンクL3を削除する。リンクL3が削除されたことにより、ノードAおよびノードCが末端ノードとなる。なお、生成部14は、選択したノードに接続された複数のリンクの中で重複検索スコアが最も低いリンクが複数存在する場合には、任意の1つのリンクを削除してよい。   In the example shown in FIG. 5, after the processing of the node E, which is the terminal node, is completed, there are nodes A, B, C, G, and H that are unprocessed nodes. For this reason, the generation unit 14 determines that the processing of all the nodes has not been completed, and performs the above-described link deletion processing. For example, in the example illustrated in FIG. 5, nodes A, C, G, and H having two connection destination nodes are candidates for processing as nodes having the smallest number of connection destination nodes. The generation unit 14 selects one of the nodes A, C, G, and H as a processing target (selects the node A in the example illustrated in FIG. 5), and a plurality of nodes connected to the selected node A Of the links L5 and L3, the link L3 having a low duplicate search score is deleted. Since the link L3 is deleted, the node A and the node C become end nodes. Note that the generation unit 14 may delete any one link when there are a plurality of links having the lowest duplicate search score among a plurality of links connected to the selected node.

図6は、図5に示す例においてリンクL3が削除された後のノード処理の一例を説明する図である。図6のステップS107(4回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードAを選択し、選択したノードAを「子ノード」とし、ノードAの接続先であるノードBをノードAの「親ノード」として親子関係を設定する。さらに、図6のステップS107(5回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードCを選択し、選択したノードCを「子ノード」とし、ノードCの接続先であるノードBをノードCの「親ノード」として親子関係を設定する。   FIG. 6 is a diagram illustrating an example of node processing after the link L3 is deleted in the example illustrated in FIG. 6, the generation unit 14 selects the node A as the terminal node to be processed, sets the selected node A as the “child node”, and is the connection destination of the node A. A parent-child relationship is set with node B as the “parent node” of node A. Furthermore, as shown in step S107 (fifth time) in FIG. 6, the generation unit 14 selects the node C as the terminal node to be processed, sets the selected node C as the “child node”, and the connection destination of the node C The parent-child relationship is set with the node B as “parent node” of the node C.

図6に示す例において末端ノードであるノードCの処理が完了した後には、未処理のノードであるノードB、G、およびHが存在する。このため、接続先のノードの数が最も少ないノードとして、接続先のノードの数が2つであるノードB、G、およびHが処理対象の候補となる。生成部14は、ノードB、G、およびHのいずれかを1つを処理対象として選択し(図6に示す例ではノードBを選択し)、選択したノードBに接続された複数のリンクL7およびL8の内、重複検索スコアが低いリンクL7を削除する。リンクL7が削除されたことにより、ノードBおよびノードGが末端ノードとなる。   In the example shown in FIG. 6, after the processing of the node C, which is the terminal node, is completed, there are nodes B, G, and H that are unprocessed nodes. Therefore, the nodes B, G, and H having two connection destination nodes are candidates for processing as the nodes having the smallest number of connection destination nodes. The generation unit 14 selects one of the nodes B, G, and H as a processing target (in the example illustrated in FIG. 6, selects the node B), and a plurality of links L7 connected to the selected node B And the link L7 having a low duplicate search score is deleted. Since the link L7 is deleted, the node B and the node G become the end nodes.

図7は、図6に示す例においてリンクL7が削除された後のノード処理の一例を説明する図である。図7のステップS107(6回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードBを選択し、選択したノードBを「子ノード」とし、ノードBの接続先であるノードHをノードBの「親ノード」として親子関係を設定する。さらに、図7のステップS107(7回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードGを選択し、選択したノードGを「子ノード」とし、ノードGの接続先であるノードHをノードGの「親ノード」として親子関係を設定する。   FIG. 7 is a diagram illustrating an example of node processing after the link L7 is deleted in the example illustrated in FIG. As shown in step S107 (sixth) in FIG. 7, the generation unit 14 selects the node B as the terminal node to be processed, sets the selected node B as the “child node”, and is the connection destination of the node B. The parent-child relationship is set with the node H as the “parent node” of the node B. Further, as shown in step S107 (seventh time) in FIG. 7, the generation unit 14 selects the node G as the terminal node to be processed, sets the selected node G as the “child node”, and the connection destination of the node G A parent-child relationship is set with the node H as the “parent node” of the node G.

一方、生成部14は、全てのノードの処理が完了したと判定した場合、クエリ間の親子関係を示す木構造を生成する(ステップS115)。図8は、図5から図7において設定された親子関係をまとめた木構造を示す図である。図8に示す木構造では、第1から第5階層までの各層にノードが配置されている。   On the other hand, when it determines with the process of all the nodes having been completed, the production | generation part 14 produces | generates the tree structure which shows the parent-child relationship between queries (step S115). FIG. 8 is a diagram showing a tree structure in which the parent-child relationships set in FIGS. 5 to 7 are summarized. In the tree structure shown in FIG. 8, nodes are arranged in each layer from the first to the fifth layers.

次に、分類部16は、生成部14によって生成された木構造を用いてクエリを分類する(ステップS117)。例えば、分類部16は、木構造における階層に基づいてクエリを分類する。分類部16は、同一階層に位置するクエリを同一のグループに属するクエリとして分類してよい。また、分類部16は、予め設定された階層以下のクエリを同一のグループに属するクエリとして分類してもよい。クエリの分類に利用される基準は任意である。以上により、情報処理装置7は、本フローチャートの処理を終了する。   Next, the classification unit 16 classifies the query using the tree structure generated by the generation unit 14 (step S117). For example, the classification unit 16 classifies the query based on the hierarchy in the tree structure. The classification unit 16 may classify queries located in the same hierarchy as queries belonging to the same group. Further, the classification unit 16 may classify queries below a preset hierarchy as queries belonging to the same group. The criteria used for query classification are arbitrary. Thus, the information processing apparatus 7 ends the process of this flowchart.

以上において説明した第1実施形態によれば、クエリ間の関連性を正確かつ簡単に把握することができる。   According to the first embodiment described above, the relationship between queries can be grasped accurately and easily.

<第2実施形態>
以下、第2実施形態について説明する。第1実施形態と比較して、第2実施形態の情報処理装置7は、分類部16におけるクエリの分類処理が異なる。このため、構成などについては第1実施形態で説明した図および関連する記載を援用し、詳細な説明を省略する。
Second Embodiment
Hereinafter, a second embodiment will be described. Compared to the first embodiment, the information processing apparatus 7 of the second embodiment is different in the query classification processing in the classification unit 16. For this reason, about the structure etc., the figure and related description which were demonstrated in 1st Embodiment are used, and detailed description is abbreviate | omitted.

[情報処理装置の処理]
次に、図9を参照しながら情報処理装置7の動作について説明する。図9は、第2実施形態における情報処理装置7の処理の一例を示すフローチャートである。
[Processing of information processing device]
Next, the operation of the information processing apparatus 7 will be described with reference to FIG. FIG. 9 is a flowchart illustrating an example of processing of the information processing apparatus 7 in the second embodiment.

まず、取得部10は、履歴情報を検索サーバ5から取得し、記憶部18に記憶させる(ステップS201)。   First, the acquisition unit 10 acquires history information from the search server 5 and stores it in the storage unit 18 (step S201).

次に、関連度算出部12は、記憶部18から履歴情報を読み出し、読み出した履歴情報に基づいて重複検索スコアを算出する(ステップS203)。関連度算出部12は、重複検索スコア情報を記憶部18に記憶させる。   Next, the relevance calculation unit 12 reads history information from the storage unit 18 and calculates a duplicate search score based on the read history information (step S203). The relevance calculation unit 12 stores the duplicate search score information in the storage unit 18.

次に、生成部14は、記憶部18から重複検索スコア情報を読み出して、クエリ間の関連性を示すグラフデータを生成する(ステップS205)。例えば、生成部14は、図10に示すようなクエリ間の関連性を示すグラフデータを生成する。図10に示すグラフデータにおいては、計10個のクエリがノードAからJとして示されている。   Next, the production | generation part 14 reads duplication search score information from the memory | storage part 18, and produces | generates the graph data which show the relationship between queries (step S205). For example, the production | generation part 14 produces | generates the graph data which show the relationship between queries as shown in FIG. In the graph data shown in FIG. 10, a total of 10 queries are indicated as nodes A to J.

次に、分類部16は、生成したグラフデータにおいて、処理対象とする1つのノードをランダムに選択する(ステップS207)。次に、分類部16は、選択したノードを基準として、所定のリンク数以内で接続されたクエリを1つのグループに分類する(ステップS209)。   Next, the classification unit 16 randomly selects one node to be processed in the generated graph data (step S207). Next, the classification unit 16 classifies the queries connected within the predetermined number of links into one group with the selected node as a reference (step S209).

図11は、図10に示されたグラフデータに対するノード処理の一例を説明する図である。図11のステップS207およびS209(1回目)に示されるように、分類部16は、例えば、処理対象のノードとしてノードJを選択する。次に、分類部16は、ノードJを基準として、例えば、リンク数が3以内で接続されたノードを同一のグループ(Jグループ)に属するノードとして分類する。リンク数が3以内で接続されたノードには、ノードJとリンクL11を介して直接的に接続されたノードI(リンク数1)と、ノードJとリンクL11およびL10を介して接続されたノードH(リンク数2)と、ノードJとリンクL11、L10、およびL9を介して接続されたノードG(リンク数3)と、ノードJとリンクL11、L10、およびL8を介して接続されたノードB(リンク数3)とが含まれる。   FIG. 11 is a diagram for explaining an example of node processing for the graph data shown in FIG. As shown in steps S207 and S209 (first time) in FIG. 11, the classification unit 16 selects, for example, the node J as a processing target node. Next, the classification unit 16 classifies, for example, nodes connected within 3 links as nodes belonging to the same group (J group) with the node J as a reference. The nodes connected within 3 links are the node I directly connected to the node J via the link L11 (the number of links is 1), and the node connected to the node J via the links L11 and L10. H (number of links 2), node G connected to node J via links L11, L10, and L9 (number of links 3), and node J connected to links L11, L10, and L8 B (number of links 3).

次に、分類部16は、全てのノードの分類処理が完了したか否かを判定する(ステップS211)。分類部16は、全てのノードの分類処理が完了していないと判定した場合、ノードの分類処理が完了していないノードの中から、処理対象とする1つのノードをランダムに選択し、上記の分類処理を再度行う。   Next, the classification unit 16 determines whether or not the classification process for all nodes has been completed (step S211). If the classification unit 16 determines that all the node classification processes have not been completed, the classification unit 16 randomly selects one node to be processed from the nodes for which the node classification process has not been completed. Repeat the classification process.

図11に示す例においてノードJを基準とした分類が完了した後には、未分類のノードであるノードA、C、D、E、およびFが存在する。このため、分類部16は、全てのノードの分類処理が完了していないと判定し、ノードA、C、D、E、およびFの中から、処理対象とする1つのノードをランダムに選択し、上記の分類処理を行う。図11のステップS207およびS209(2回目)に示されるように、分類部16は、例えば、処理対象とするノードとしてノードFを選択する。   In the example shown in FIG. 11, after the classification based on the node J is completed, there are nodes A, C, D, E, and F that are unclassified nodes. For this reason, the classification unit 16 determines that the classification processing of all the nodes has not been completed, and randomly selects one node to be processed from the nodes A, C, D, E, and F. The above classification process is performed. As shown in steps S207 and S209 (second time) in FIG. 11, the classification unit 16 selects, for example, the node F as a node to be processed.

次に、分類部16は、ノードFを基準として、例えば、リンク数が3以内で接続されたノードを同一のグループ(Fグループ)に属するノードとして分類する。リンク数が3以内で接続されたノードには、ノードFとリンクL1を介して直接的に接続されたノードE(リンク数1)と、ノードFとリンクL1およびL2を介して接続されたノードA(リンク数2)と、ノードFとリンクL1、L2、およびL4を介して接続されたノードD(リンク数3)と、ノードFとリンクL1、L2、およびL5を介して接続されたノードB(リンク数3)と、ノードFとリンクL1、L2、およびL3を介して接続されたノードC(リンク数3)とが含まれる。   Next, the classification unit 16 classifies the nodes connected with the number of links within 3 as nodes belonging to the same group (F group) with the node F as a reference. The nodes connected within 3 links are the node E directly connected to the node F via the link L1, and the node connected to the node F via the links L1 and L2. A (number of links 2), node D connected to node F via links L1, L2, and L4 (number of links 3), and node F connected to nodes L1, L2, and L5 B (number of links 3) and node C connected to node F via links L1, L2, and L3 (number of links 3) are included.

ここで、ノードBは、ノードJを基準としたグループ(Jグループ)と、ノードFを基準としたグループ(Fグループ)との双方に所属することになる。このように、クエリのランダムな選択を複数回行うことにより、1つのノードが複数のグループに所属することになった場合には、分類部16は、このノードと、このノードの接続先の各ノードとの重複検索スコアの大きさに基づいて、いずれのグループに分類するかを決定する。   Here, the node B belongs to both a group based on the node J (J group) and a group based on the node F (F group). As described above, when a single node belongs to a plurality of groups by performing random selection of a query a plurality of times, the classification unit 16 determines each of the nodes and connection destinations of the nodes. The group to be classified is determined based on the size of the duplicate search score with the node.

例えば、ノードJを基準とした分類処理においてノードJからノードBに至る経路上のノードBと接続されたリンク(図11に示す例では、リンクL8(10))と、ノードFを基準とした分類処理においてノードFからノードBに至る経路上のノードBと接続されたリンク(図11に示す例では、リンクL5(8))とでは、リンクL5(8)よりもリンクL8(10)の重複検索スコアが高い。この場合、ノードBは、重複検索スコアが高い(すなわち、Jグループとの結び付きが強い)と考えられるため、分類部16は、ノードBをJグループに分類する。なお、ノードJを基準としたリンクL8と、ノードFを基準としたリンクL5との重複検索スコアが互いに同じである場合には、分類部16は、ノードBを任意の一方のグループに分類してよい。   For example, in the classification process using node J as a reference, a link (link L8 (10) in the example shown in FIG. 11) connected to node B on the route from node J to node B and node F as a reference In the classification process, the link connected to the node B on the path from the node F to the node B (in the example shown in FIG. 11, the link L5 (8)) has the link L8 (10) rather than the link L5 (8). High duplicate search score. In this case, since the node B is considered to have a high duplicate search score (that is, the connection with the J group is strong), the classification unit 16 classifies the node B into the J group. If the duplicate search scores of the link L8 based on the node J and the link L5 based on the node F are the same, the classification unit 16 classifies the node B into any one group. It's okay.

一方、分類部16は、全てのノードの分類処理が完了したと判定した場合、分類結果を記憶部18に記憶させる。以上により、情報処理装置7は、本フローチャートの処理を終了する。   On the other hand, when the classification unit 16 determines that the classification process for all the nodes has been completed, the classification unit 16 stores the classification result in the storage unit 18. Thus, the information processing apparatus 7 ends the process of this flowchart.

以上において説明した第2実施形態によれば、クエリ間の関連性を正確かつ簡単に把握することができる。また、処理対象とする1つのノードをランダムに選択して、この選択したノードを基準とした分類処理を行うことで処理を簡略化することができる。   According to the second embodiment described above, the relationship between queries can be grasped accurately and easily. Further, the processing can be simplified by randomly selecting one node to be processed and performing a classification process based on the selected node.

<第3実施形態>
以下、第3実施形態について説明する。第1実施形態と比較して、第3実施形態の情報処理装置7は、分類部16におけるクエリの分類処理が異なる。このため、構成などについては第1実施形態で説明した図および関連する記載を援用し、詳細な説明を省略する。
<Third Embodiment>
Hereinafter, the third embodiment will be described. Compared to the first embodiment, the information processing apparatus 7 of the third embodiment is different in the query classification processing in the classification unit 16. For this reason, about the structure etc., the figure and related description which were demonstrated in 1st Embodiment are used, and detailed description is abbreviate | omitted.

[情報処理装置の処理]
次に、図12を参照しながら情報処理装置7の動作について説明する。多くのクエリと関連付けされるクエリは、スパムなどによって不正に検索が行われたキーワードである場合がある。このような多くのクエリと関連付けされるクエリを含む履歴情報に対して処理を行うと、クエリ間の関連性が複雑化し、分類処理の精度が低下する場合がある。そこで、本実施形態の情報処理装置7では、所定数以上のクエリと関連付けされるクエリを削除し、削除したクエリ以外のクエリについて分類処理を行う。図12は、第3実施形態における情報処理装置7の処理の一例を示すフローチャートである。
[Processing of information processing device]
Next, the operation of the information processing apparatus 7 will be described with reference to FIG. Queries associated with many queries may be keywords that have been illegally searched due to spam or the like. When processing is performed on history information including queries associated with such many queries, the relationship between the queries may be complicated, and the accuracy of classification processing may be reduced. Therefore, in the information processing apparatus 7 of this embodiment, queries associated with a predetermined number or more of queries are deleted, and classification processing is performed on queries other than the deleted queries. FIG. 12 is a flowchart illustrating an example of processing of the information processing apparatus 7 in the third embodiment.

まず、取得部10は、履歴情報を検索サーバ5から取得し、記憶部18に記憶させる(ステップS301)。   First, the acquisition unit 10 acquires history information from the search server 5 and stores it in the storage unit 18 (step S301).

次に、関連度算出部12は、記憶部18から履歴情報を読み出し、読み出した履歴情報に基づいて重複検索スコアを算出する(ステップS303)。関連度算出部12は、重複検索スコア情報を記憶部18に記憶させる。   Next, the degree-of-association calculation unit 12 reads history information from the storage unit 18 and calculates a duplicate search score based on the read history information (step S303). The relevance calculation unit 12 stores the duplicate search score information in the storage unit 18.

次に、生成部14は、記憶部18から重複検索スコア情報を読み出して、クエリ間の関連性を示すグラフデータを生成する(ステップS305)。例えば、生成部14は、図13に示すようなクエリ間の関連性を示すグラフデータを生成する。図13に示すグラフデータにおいては、計10個のクエリがノードAからJとして示されている。   Next, the production | generation part 14 reads duplication search score information from the memory | storage part 18, and produces | generates the graph data which show the relationship between queries (step S305). For example, the production | generation part 14 produces | generates the graph data which show the relationship between queries as shown in FIG. In the graph data shown in FIG. 13, a total of 10 queries are shown as nodes A to J.

次に、生成部14は、生成したグラフデータにおいて、接続先のノードの数が所定数以上であるノードを削除する(ステップS307)。図14は、図13に示されたグラフデータに対するノード処理の一例を説明する図である。図14のステップS307に示されるように、生成部14は、接続先のノードの数が所定数以上である(図14に示す例では、接続先のノードの数が5つ以上)ノードBを削除する。これにより、ノードIは、接続先を有さないノードとなる。この場合、分類部16は、ノードIは、Iグループに属するノードとして分類する。   Next, the generation unit 14 deletes nodes in the generated graph data in which the number of connection destination nodes is a predetermined number or more (step S307). FIG. 14 is a diagram for explaining an example of node processing for the graph data shown in FIG. As illustrated in step S307 of FIG. 14, the generation unit 14 determines that the number of connection destination nodes is a predetermined number or more (in the example illustrated in FIG. 14, the number of connection destination nodes is 5 or more). delete. Thereby, the node I becomes a node having no connection destination. In this case, the classification unit 16 classifies the node I as a node belonging to the I group.

次に、生成部14は、接続先のノードの数が1つである末端ノードの処理を行う(ステップS309)。図14に示す例においてノードBが削除された後のグラフデータにおいては、2つの末端ノード(ノードDおよびノードF)が存在する。図14のステップS309(1回目)に示されるように、生成部14は、例えば、処理対象の末端ノードとしてノードDを選択し、選択したノードDを「子ノード」とし、ノードDの接続先であるノードAをノードDの「親ノード」として親子関係を設定する。   Next, the generation unit 14 performs processing for the terminal node having one connection destination node (step S309). In the example shown in FIG. 14, there are two terminal nodes (node D and node F) in the graph data after node B is deleted. As illustrated in step S309 (first time) in FIG. 14, for example, the generation unit 14 selects the node D as the terminal node to be processed, sets the selected node D as the “child node”, and the connection destination of the node D The parent-child relationship is set with the node A as the “parent node” of the node D.

次に、生成部14は、全ての末端ノードの処理が完了したか否かを判定する(ステップS311)。生成部14は、全ての末端ノードの処理が完了していないと判定した場合、未処理の末端ノードに対して上記の親子関係の設定を行う。図14に示す例においてノードDの処理が完了した後には、未処理の末端ノードであるノードFが存在する。このため、図14のステップS309(2回目)に示されるように、生成部14は、処理対象の末端ノードとしてノードFを選択し、選択したノードFを「子ノード」とし、ノードFの接続先であるノードEをノードFの「親ノード」として親子関係を設定する。   Next, the generation unit 14 determines whether or not the processing of all terminal nodes has been completed (step S311). If the generation unit 14 determines that the processing of all the terminal nodes has not been completed, the generation unit 14 sets the above parent-child relationship with respect to an unprocessed terminal node. In the example illustrated in FIG. 14, after the processing of the node D is completed, there is a node F that is an unprocessed terminal node. For this reason, as shown in step S309 (second time) in FIG. 14, the generation unit 14 selects the node F as the terminal node to be processed, sets the selected node F as the “child node”, and connects the nodes F. A parent-child relationship is set with the previous node E as the “parent node” of node F.

一方、生成部14が全ての末端ノードの処理が完了したと判定した場合、分類部16は、グラフデータにおける複数のノードの中から処理対象とする1つのノードをランダムに選択する(ステップS313)。次に、分類部16は、選択したノードを基準として、所定のリンク数以内で接続されたクエリを1つのグループに分類する(ステップS315)。例えば、図14のステップS313およびS315(1回目)に示されるように、分類部16は、例えば、処理対象とするノードとしてノードJを選択する。次に、分類部16は、ノードJを基準として、例えば、リンク数が3以内で接続されたノードを同一のグループ(Jグループ)に属するノードとして分類する。リンク数が3以内で接続されたノードには、ノードJとリンクL11を介して直接的に接続されたノードH(リンク数1)と、ノードJとリンクL12を介して直接的に接続されたノードG(リンク数1)とが含まれる。   On the other hand, when the generation unit 14 determines that the processing of all terminal nodes has been completed, the classification unit 16 randomly selects one node to be processed from among a plurality of nodes in the graph data (step S313). . Next, the classification unit 16 classifies the queries connected within the predetermined number of links into one group based on the selected node (step S315). For example, as shown in steps S313 and S315 (first time) in FIG. 14, the classification unit 16 selects the node J as a node to be processed, for example. Next, the classification unit 16 classifies, for example, nodes connected within 3 links as nodes belonging to the same group (J group) with the node J as a reference. Nodes connected within 3 links are connected directly to node H via node L and node H (number of links 1) and directly to node J via link L12. Node G (number of links 1) is included.

次に、分類部16は、全てのノードの分類処理が完了したか否かを判定する(ステップS317)。分類部16は、全てのノードの分類処理が完了していないと判定した場合、ノードの分類処理が完了していないノードの中から、処理対象とする1つのノードをランダムに選択し、上記の分類処理を再度行う。   Next, the classification unit 16 determines whether or not the classification processing for all the nodes has been completed (step S317). If the classification unit 16 determines that all the node classification processes have not been completed, the classification unit 16 randomly selects one node to be processed from the nodes for which the node classification process has not been completed. Repeat the classification process.

図14に示す例においてノードJを基準とした分類が完了した後には、未分類のノードであるノードA、C、およびEが存在する。このため、分類部16は、全てのノードの分類処理が完了していないと判定し、ノードA、C、およびEの中から、処理対象とする1つのノードをランダムに選択し、上記の分類処理を行う。図14のステップS313およびS315(2回目)に示されるように、分類部16は、例えば、処理対象とするノードとしてノードCを選択する。次に、分類部16は、ノードCを基準として、例えば、リンク数が3以内で接続されたノードを同一のグループ(Cグループ)に属するノードとして分類する。リンク数が3以内で接続されたノードには、ノードCとリンクL3を介して直接的に接続されたノードA(リンク数1)と、ノードCとリンクL13を介して直接的に接続されたノードE(リンク数1)とが含まれる。   In the example shown in FIG. 14, after the classification based on the node J is completed, there are nodes A, C, and E which are unclassified nodes. For this reason, the classification unit 16 determines that the classification process for all the nodes has not been completed, and randomly selects one node to be processed from the nodes A, C, and E, and performs the above classification. Process. As shown in steps S313 and S315 (second time) in FIG. 14, the classification unit 16 selects, for example, the node C as a node to be processed. Next, the classification unit 16 classifies, for example, nodes connected within 3 links as nodes belonging to the same group (C group) with the node C as a reference. Nodes connected within 3 links are connected directly to node A via node L (link number 1) and directly to node C via link L13. Node E (number of links 1).

また、上記の末端ノード処理において、ノードA(親ノード)の子ノードと設定されたノードD、およびノードE(親ノード)の子ノードと設定されたノードFは、親ノードと同じグループ(Cグループ)に所属するノードとして分類される。   In the terminal node processing described above, the node D set as a child node of the node A (parent node) and the node F set as a child node of the node E (parent node) are in the same group (C Group).

一方、分類部16は、全てのノードの分類処理が完了したと判定した場合、分類結果を記憶部18に記憶させる。以上により、情報処理装置7は、本フローチャートの処理を終了する。   On the other hand, when the classification unit 16 determines that the classification process for all the nodes has been completed, the classification unit 16 stores the classification result in the storage unit 18. Thus, the information processing apparatus 7 ends the process of this flowchart.

以上において説明した第3実施形態によれば、クエリ間の関連性を正確かつ簡単に把握することができる。また、多くのクエリと関連付けされるクエリを削除することで、クエリ間の関連性の複雑化を回避でき、クエリの分類処理の精度を向上させることができる。   According to the third embodiment described above, it is possible to accurately and easily grasp the relationship between queries. Also, by deleting queries that are associated with many queries, it is possible to avoid complications in the relationship between queries and improve the accuracy of query classification processing.

<第4実施形態>
以下、第4実施形態について説明する。第1実施形態と比較して、第4実施形態の情報処理システムが、広告情報処理装置をさらに備える点が異なる。このため、構成などについては第1実施形態で説明した図および関連する記載を援用し、詳細な説明を省略する。
<Fourth embodiment>
The fourth embodiment will be described below. Compared to the first embodiment, the information processing system of the fourth embodiment is different in that it further includes an advertisement information processing apparatus. For this reason, about the structure etc., the figure and related description which were demonstrated in 1st Embodiment are used, and detailed description is abbreviate | omitted.

図15は、広告情報処理システム1Aの構成図である。広告情報処理システム1Aは、例えば、図1に示す端末装置3、検索サーバ5、および情報処理装置7に加えて、広告情報処理装置9を備える。広告情報処理装置9は、検索サーバ5および情報処理装置7と接続されている。   FIG. 15 is a configuration diagram of the advertisement information processing system 1A. The advertisement information processing system 1A includes, for example, an advertisement information processing device 9 in addition to the terminal device 3, the search server 5, and the information processing device 7 illustrated in FIG. The advertisement information processing device 9 is connected to the search server 5 and the information processing device 7.

[広告情報処理装置]
広告情報処理装置9は、情報処理装置7から出力されたクエリの分類結果に基づいて、検索サーバ5が端末装置3から受信したクエリに応じた広告情報を決定する。広告情報処理装置9は、決定した広告情報を検索サーバ5に出力する。検索サーバ5は、端末装置3から受信したクエリに対する検索の結果とともに、広告情報処理装置9から入力された広告情報を端末装置3に送信する。
[Advertising information processing device]
The advertisement information processing device 9 determines advertisement information corresponding to the query received by the search server 5 from the terminal device 3 based on the query classification result output from the information processing device 7. The advertisement information processing apparatus 9 outputs the determined advertisement information to the search server 5. The search server 5 transmits the advertisement information input from the advertisement information processing device 9 to the terminal device 3 together with the search result for the query received from the terminal device 3.

例えば、広告情報処理装置9は、複数の広告情報と、広告情報の各々と関連付けされたクエリとを記憶する記憶部(図示しない)を備えている。広告情報処理装置9は、上記の第1から第3実施形態における情報処理装置7によって出力された分類結果に基づいて、検索サーバ5が端末装置3から受信したクエリと関連付けされた広告情報、あるいは、このクエリと同じグループに分類された他のクエリと関連付けされた広告情報を検索サーバ5に出力する。   For example, the advertisement information processing apparatus 9 includes a storage unit (not shown) that stores a plurality of advertisement information and a query associated with each of the advertisement information. The advertisement information processing device 9 is configured to display the advertisement information associated with the query received from the terminal device 3 by the search server 5 based on the classification result output by the information processing device 7 in the first to third embodiments. The advertisement information associated with other queries classified into the same group as this query is output to the search server 5.

上記の第4実施形態の広告情報処理システム1Aによれば、端末装置3のユーザが入力したクエリに適した広告情報を、端末装置3に提供することができる。これにより、広告効果の高いサービスを実現することができる。   According to the advertisement information processing system 1A of the fourth embodiment, advertisement information suitable for a query input by the user of the terminal device 3 can be provided to the terminal device 3. Thereby, it is possible to realize a service with a high advertising effect.

上記の実施形態では、クエリ間の重複検索スコアに基づいてクエリを分類する方法について説明した。なお、クエリの分類を行う場合には、クエリが検索された時間に関する情報があわせて使用されてもよい。例えば、分類部16は、検索サーバ5から取得した履歴情報と、検索サーバ5が端末装置3から各クエリを受信した時間に関する情報とが関連付けされた情報を用いて、クエリ間の関連性を示すグラフデータを生成してもよい。このグラフデータにおいては、関連付けされたクエリ間における時間的な検索の順序が有向グラフによって示されている。また、検索サーバ5が端末装置3から各クエリを受信した時間(検索時間)または各クエリ間の検索時間の差分が、各ノードまたはリンクに紐付けされている。このようなグラフデータを生成することで、例えば、あるユーザは、クエリAを検索した後にクエリBを検索しているといった検索の時系列情報を把握することができ、クエリの分類をより詳細に行うことができる。   In the above embodiment, the method for classifying queries based on the duplicate search score between queries has been described. In addition, when classifying a query, information on the time when the query was searched may be used together. For example, the classification unit 16 indicates the relationship between the queries by using information in which the history information acquired from the search server 5 and the information related to the time when the search server 5 receives each query from the terminal device 3 are associated with each other. Graph data may be generated. In this graph data, the temporal search order between the associated queries is indicated by a directed graph. In addition, the time when the search server 5 receives each query from the terminal device 3 (search time) or the difference in the search time between each query is linked to each node or link. By generating such graph data, for example, a certain user can grasp the time series information of the search that searches the query B after searching the query A, and the query classification is more detailed. It can be carried out.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.

1‥情報処理システム、1A‥広告情報処理システム、3‥端末装置、5‥検索サーバ、7‥情報処理装置、9‥広告情報処理装置、10‥取得部、12‥関連度算出部、14‥生成部、16‥分類部、18‥記憶部、NW‥ネットワーク   DESCRIPTION OF SYMBOLS 1 ... Information processing system, 1A ... Advertisement information processing system, 3 ... Terminal device, 5 ... Search server, 7 ... Information processing device, 9 ... Advertisement information processing device, 10 ... Acquisition part, 12 ... Relevance calculation part, 14 ... Generating unit, 16 ... Classification unit, 18 ... Storage unit, NW ... Network

Claims (10)

ネットワーク検索に用いられた複数のクエリにおける各2つのクエリの間の関連度を、前記各2つのクエリの双方を検索したユーザ数に基づいて算出する算出部と、
前記各2つのクエリの間の関連付けの有無と、前記各2つのクエリの間の関連度とを示すグラフデータを生成する生成部と、
前記生成部によって生成されたグラフデータに基づいてクエリを分類する分類部と、
を備える情報処理装置。
A calculation unit that calculates the degree of association between each two queries in a plurality of queries used for network search based on the number of users who have searched both the two queries;
A generation unit that generates graph data indicating whether or not there is an association between the two queries and a degree of association between the two queries;
A classification unit for classifying a query based on the graph data generated by the generation unit;
An information processing apparatus comprising:
前記生成部は、更に、前記グラフデータにおける前記複数のクエリの中から、関連付けされたクエリの数が1つであるクエリを選択し、前記選択したクエリと、前記選択したクエリと関連付けされたクエリとの間の親子関係を設定し、
前記分類部は、前記生成部により設定された親子関係に基づいてクエリを分類する、
請求項1に記載の情報処理装置。
The generation unit further selects a query having one associated query from the plurality of queries in the graph data, and selects the selected query and the query associated with the selected query. Set the parent-child relationship between
The classification unit classifies the query based on the parent-child relationship set by the generation unit.
The information processing apparatus according to claim 1.
前記生成部は、前記グラフデータにおいて関連付けされたクエリの数が2つ以上であるクエリについて、前記関連度が最も低いクエリとの関連付けを削除して、関連付けされたクエリの数が1つであるクエリを生成し、前記生成したクエリと、前記生成したクエリと関連付けされたクエリとの間の親子関係を設定する、
請求項2に記載の情報処理装置。
The generation unit deletes the association with the query having the lowest degree of association for a query having two or more associated queries in the graph data, and the number of associated queries is one. Generating a query and setting a parent-child relationship between the generated query and a query associated with the generated query;
The information processing apparatus according to claim 2.
前記分類部は、前記グラフデータにおける前記複数のクエリの中から、1つのクエリをランダムに選択し、前記選択したクエリを基準として所定のリンク数以内で接続されたクエリを1つのグループに分類する、
請求項1に記載の情報処理装置。
The classifying unit randomly selects one query from the plurality of queries in the graph data, and classifies queries connected within a predetermined number of links based on the selected query as one group. ,
The information processing apparatus according to claim 1.
前記分類部は、前記クエリのランダムな選択を複数回行うことにより1つクエリが複数のグループに分類される場合には、前記1つのクエリと、前記1つのクエリと関連付けされたクエリとの間の関連度に基づいて、前記1つのクエリが分類される1つのグループを決定する、
請求項4に記載の情報処理装置。
The classification unit, when one query is classified into a plurality of groups by performing random selection of the query a plurality of times, between the one query and a query associated with the one query. Determining one group into which the one query is classified based on the relevance of
The information processing apparatus according to claim 4.
前記生成部は、前記グラフデータにおける前記複数のクエリの中から、所定数以上のクエリと関連付けされたクエリを削除し、
前記分類部は、前記削除したクエリ以外のクエリを分類する、
請求項1に記載の情報処理装置。
The generation unit deletes a query associated with a predetermined number of queries from the plurality of queries in the graph data,
The classification unit classifies a query other than the deleted query;
The information processing apparatus according to claim 1.
前記生成部は、更に、前記グラフデータにおける前記複数のクエリの中から、関連付けされたクエリの数が1つであるクエリを選択し、前記選択したクエリと、前記選択したクエリと関連付けされたクエリとの間の親子関係を設定し、
前記分類部は、前記複数のクエリの中から、前記選択したクエリ以外の1つのクエリをランダムに選択し、前記ランダムに選択したクエリを基準として所定のリンク数以内で接続されたクエリと、前記ランダムに選択したクエリおよび前記所定のリンク数以内で接続されたクエリと親子関係が設定されたクエリとを1つのグループに分類する、
請求項6に記載の情報処理装置。
The generation unit further selects a query having one associated query from the plurality of queries in the graph data, and selects the selected query and the query associated with the selected query. Set the parent-child relationship between
The classification unit randomly selects one query other than the selected query from the plurality of queries, the query connected within a predetermined number of links based on the randomly selected query, and the query Classifying randomly selected queries and queries connected within the predetermined number of links and queries having a parent-child relationship into one group,
The information processing apparatus according to claim 6.
コンピュータが、
ネットワーク検索に用いられた複数のクエリにおける各2つのクエリの間の関連度を、前記各2つのクエリの双方を検索したユーザ数に基づいて算出し、
前記各2つのクエリの間の関連付けの有無と、前記各2つのクエリの間の関連度とを示すグラフデータを生成し、
前記グラフデータに基づいてクエリを分類する、
情報処理方法。
Computer
Calculating the relevance between each two queries in a plurality of queries used for network search based on the number of users who searched both of the two queries;
Generating graph data indicating the presence / absence of association between the two queries and the degree of association between the two queries;
Classifying queries based on the graph data;
Information processing method.
コンピュータに、
ネットワーク検索に用いられた複数のクエリにおける各2つのクエリの間の関連度を、前記各2つのクエリの双方を検索したユーザ数に基づいて算出させ、
前記各2つのクエリの間の関連付けの有無と、前記各2つのクエリの間の関連度とを示すグラフデータを生成させ、
前記グラフデータに基づいてクエリを分類させる、
プログラム。
On the computer,
Relevance between each two queries in a plurality of queries used for network search is calculated based on the number of users who searched both of the two queries,
Generating graph data indicating the presence / absence of association between the two queries and the degree of association between the two queries;
Classifying queries based on the graph data;
program.
請求項1から7のいずれか一項に記載の情報処理装置と、
ユーザの端末装置からクエリを受信し、前記受信したクエリに応じた検索の結果を前記端末装置に送信する検索サーバと、
前記情報処理装置から出力されたクエリの分類結果に基づいて、前記検索サーバが受信した前記クエリと関連付けされた広告情報を決定する広告情報処理装置と、
を備え、
前記検索サーバは、更に、前記広告情報処理装置によって決定された前記広告情報を前記端末装置に送信する、
広告情報処理システム。
An information processing apparatus according to any one of claims 1 to 7,
A search server that receives a query from a terminal device of a user and transmits a search result corresponding to the received query to the terminal device;
An advertisement information processing apparatus that determines advertisement information associated with the query received by the search server, based on a query classification result output from the information processing apparatus;
With
The search server further transmits the advertisement information determined by the advertisement information processing device to the terminal device.
Advertising information processing system.
JP2017046663A 2017-03-10 2017-03-10 Information processing apparatus, information processing method, program, and advertisement information processing system Active JP6739379B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017046663A JP6739379B2 (en) 2017-03-10 2017-03-10 Information processing apparatus, information processing method, program, and advertisement information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017046663A JP6739379B2 (en) 2017-03-10 2017-03-10 Information processing apparatus, information processing method, program, and advertisement information processing system

Publications (2)

Publication Number Publication Date
JP2018151789A true JP2018151789A (en) 2018-09-27
JP6739379B2 JP6739379B2 (en) 2020-08-12

Family

ID=63680401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017046663A Active JP6739379B2 (en) 2017-03-10 2017-03-10 Information processing apparatus, information processing method, program, and advertisement information processing system

Country Status (1)

Country Link
JP (1) JP6739379B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6680956B1 (en) * 2018-11-06 2020-04-15 データ・サイエンティスト株式会社 Search needs evaluation device, search needs evaluation system, and search needs evaluation method
JP6990757B1 (en) 2020-11-19 2022-01-12 ヤフー株式会社 Generator, generation method and generation program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009251A (en) * 2008-06-25 2010-01-14 Internatl Business Mach Corp <Ibm> Apparatus and method for supporting document data search
JP2010182340A (en) * 2010-05-28 2010-08-19 Fujitsu Ltd Content navigation program
JP2012014291A (en) * 2010-06-29 2012-01-19 Internatl Business Mach Corp <Ibm> Job process analysis method, system and program
JP2016139229A (en) * 2015-01-27 2016-08-04 日本放送協会 Device and program for generating personal profile, and content recommendation device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009251A (en) * 2008-06-25 2010-01-14 Internatl Business Mach Corp <Ibm> Apparatus and method for supporting document data search
JP2010182340A (en) * 2010-05-28 2010-08-19 Fujitsu Ltd Content navigation program
JP2012014291A (en) * 2010-06-29 2012-01-19 Internatl Business Mach Corp <Ibm> Job process analysis method, system and program
JP2016139229A (en) * 2015-01-27 2016-08-04 日本放送協会 Device and program for generating personal profile, and content recommendation device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6680956B1 (en) * 2018-11-06 2020-04-15 データ・サイエンティスト株式会社 Search needs evaluation device, search needs evaluation system, and search needs evaluation method
WO2020095357A1 (en) * 2018-11-06 2020-05-14 データ・サイエンティスト株式会社 Search needs assessment device, search needs assessment system, and search needs assessment method
JP6990757B1 (en) 2020-11-19 2022-01-12 ヤフー株式会社 Generator, generation method and generation program
JP2022081196A (en) * 2020-11-19 2022-05-31 ヤフー株式会社 Generation device, generation method, and generating program

Also Published As

Publication number Publication date
JP6739379B2 (en) 2020-08-12

Similar Documents

Publication Publication Date Title
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US8655805B2 (en) Method for classification of objects in a graph data stream
US8468142B2 (en) Caching query results with binary decision diagrams (BDDs)
CN106991160B (en) Microblog propagation prediction method based on user influence and content
CN107766399B (en) Method and system for matching images to content items and machine-readable medium
US20100306166A1 (en) Automatic fact validation
CN104838376B (en) The extracts for information retrieval inquiry is generated for notable user
CN112771564A (en) Artificial intelligence engine that generates semantic directions for web sites to map identities for automated entity seeking
WO2018040062A1 (en) Method and system for generating phrase blacklist to prevent certain content from appearing in search result in response to search queries
US11232156B1 (en) Seed expansion in social network using graph neural network
RU2339078C2 (en) Designation of web-pages for identification of geographical positions
US20160117604A1 (en) Information discovery system
CN103226601B (en) A kind of method and apparatus of picture searching
Lota et al. A systematic literature review on sms spam detection techniques
JP6739379B2 (en) Information processing apparatus, information processing method, program, and advertisement information processing system
WO2015165230A1 (en) Social contact message monitoring method and device
US20170235835A1 (en) Information identification and extraction
JP2013168177A (en) Information provision program, information provision apparatus, and provision method of retrieval service
JP5224453B2 (en) Geographic feature information extraction method and system
CN110120918B (en) Identification analysis method and device
Alshammari et al. Less is more: with a 280-character limit, Twitter provides a valuable source for detecting self-reported flu cases
KR20120090131A (en) Method, system and computer readable recording medium for providing search results
JP2019003406A (en) Information collecting device, information collecting method, and information collecting program
CN113780827A (en) Article screening method and device, electronic equipment and computer readable medium
JP6749865B2 (en) INFORMATION COLLECTION DEVICE AND INFORMATION COLLECTION METHOD

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200721

R150 Certificate of patent or registration of utility model

Ref document number: 6739379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350