JP7067884B2 - 分類装置、分類方法及び分類プログラム - Google Patents

分類装置、分類方法及び分類プログラム Download PDF

Info

Publication number
JP7067884B2
JP7067884B2 JP2017177328A JP2017177328A JP7067884B2 JP 7067884 B2 JP7067884 B2 JP 7067884B2 JP 2017177328 A JP2017177328 A JP 2017177328A JP 2017177328 A JP2017177328 A JP 2017177328A JP 7067884 B2 JP7067884 B2 JP 7067884B2
Authority
JP
Japan
Prior art keywords
query
classification
queries
classification device
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017177328A
Other languages
English (en)
Other versions
JP2019053519A (ja
Inventor
伸次 池宮
健 田村
琢郎 森
和也 工藤
麻里 衣目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017177328A priority Critical patent/JP7067884B2/ja
Publication of JP2019053519A publication Critical patent/JP2019053519A/ja
Application granted granted Critical
Publication of JP7067884B2 publication Critical patent/JP7067884B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分類装置、分類方法及び分類プログラムに関する。
近年、通信ネットワークの発達とともに、様々なサービスがネットワークを介して提供されている。これに関連して、ネットワーク上に存在するサービスを検索したり、サービス内において所望の商品や記事を検索したりするための様々な検索技術が提案されている。
例えば、ユーザ端末から送信された検索キーワードから修飾語とコンセプトキーワードとを区分し、修飾語及びコンセプトキーワードの各々を抽出して生成されるコンセプトキーワード拡張データセットを利用した検索の技術が提案されている。
特開2013-73626号公報
しかしながら、上記の従来技術では、多様なクエリ同士における相互の関係性を導出することは難しい。具体的には、上記の従来技術では、ユーザから入力された複数のクエリ(キーワード)に共通する語や特徴等に基づいてキーワード拡張の処理を行う。すなわち、従来技術では、例えば互いに分野やカテゴリが異なるような多様なクエリ同士からは共通する特徴を抽出できず、結果として、キーワード拡張を行ったり、クエリ同士の関係性を分析したりといった情報処理を行うことができない場合がある。
本願は、上記に鑑みてなされたものであって、多様なクエリ同士における相互の関係性を導出することができる分類装置、分類方法、及び分類プログラムを提供することを目的とする。
本願に係る分類装置は、任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する抽出部と、前記抽出部によって抽出された複数の第2クエリに基づいて、前記第1クエリを特徴付ける特徴情報を生成する生成部と、前記生成部によって生成された特徴情報に基づいて、前記第1クエリに対応するキーワードを分類する分類部と、を備えることを特徴とする。
実施形態の一態様によれば、多様なクエリ同士における相互の関係性を導出することができるという効果を奏する。
図1は、実施形態に係る分類処理の一例を示す図である。 図2は、実施形態に係る分類システムの構成例を示す図である。 図3は、実施形態に係る分類装置の構成例を示す図である。 図4は、実施形態に係る関連度情報記憶部の一例を示す図である。 図5は、実施形態に係る特徴情報記憶部の一例を示す図である。 図6は、実施形態に係る分類情報記憶部の一例を示す図である。 図7は、実施形態に係る分類装置による処理手順を示すフローチャート(1)である。 図8は、実施形態に係る分類装置による処理手順を示すフローチャート(2)である。 図9は、変形例に係る分類装置による処理手順を示すフローチャートである。 図10は、分類装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る分類装置、分類方法及び分類プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る分類装置、分類方法及び分類プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.分類処理の一例〕
まず、図1を用いて、実施形態に係る分類処理の一例について説明する。図1は、実施形態に係る分類処理の一例を示す図である。図1では、実施形態に係る分類処理の一例として、実施形態に係る分類装置100がユーザU01から送信されるキーワードリストL01に含まれる複数のキーワードを分類する処理を例に挙げて説明する。
図1に示す分類装置100は、ユーザから送信される検索クエリ(以下、「クエリ」と表記する)同士の関連度に基づいて、各々のクエリの特徴情報を生成し、生成した特徴情報に基づいて、クエリを所定のクラスに分類(クラスタリング)するサーバ装置である。なお、実施形態では、分類装置100は、検索サイトをユーザに提供するウェブサーバとしての機能を兼ねるものとする。
なお、実施形態では、検索サイト等において検索に用いられるキーワードを「クエリ」と称する。ただし、キーワードとクエリとが完全に一致しない場合もありうる。例えば、ユーザは、「AAAの自動車」といった文をクエリとして入力する場合もある(「AAA」は、例えば自動車メーカーの名称である)。この場合、「AAAの自動車」がクエリとなり、クエリに含まれる単語である「AAA」や「自動車」がキーワードとなりうる。分類装置100は、例えば、クエリを形態素解析等することにより、適宜、クエリからキーワードを抽出する。また、以下の説明では、「クエリ」と「キーワード」が同義であるものとして扱う場合もある。例えば、クエリがキーワードと一致するか、あるいは、クエリを形態素解析等した結果から一のキーワードが抽出された場合等には、クエリとキーワードを同義のものとして扱う。
図1に示すユーザ群は、検索サイト等を利用する複数のユーザであり、クエリを分類装置100に送信する複数のユーザである。また、ユーザU01は、ユーザの一例であり、複数のキーワードが含まれるキーワードリストL01を分類装置100に送信し、キーワードリストL01が含むキーワードの分類を要求するユーザである。なお、図1では図示を省略するが、ユーザ群が含む各ユーザやユーザU01の各々は、検索サイトを利用したり、分類装置100との各種情報の送受信を行ったりするための情報処理端末(以下、「ユーザ端末10」と表記する)を有する。また、以下の説明では、ユーザ端末10と、ユーザ端末10を利用するユーザとを同一視する場合がある。例えば、「ユーザU01がクエリを送信する」とは、実際には、「ユーザU01が利用するユーザ端末10がクエリを送信する」ことを意味する。
ユーザが検索を行う際に送信するクエリは、ユーザの興味関心を示す。このため、クエリを分類することにより、例えば、同じクラスに属するクエリを頻繁に送信するユーザ同士は、互いに同じ興味関心を有するユーザであると推定すること等が可能である。このような情報は、例えば、広告配信等のマーケティングにおいて有用な情報となりうる。このことから、どのようなクエリ同士が類似する関係にあるかを求め、クエリを分類することができれば、例えば、広告配信事業者等にとって有用な情報が得られる。クエリを分類する手法としては、例えば、クエリに対してカテゴリを設定し、同じようなカテゴリに属するクエリを同じクラスに分類する手法等がある。
しかしながら、検索サイト等に送信されるクエリの種類は膨大であり、人手でカテゴリを付与することは現実的ではない。また、プログラム等によってクエリにカテゴリを付与する手法においても、一つのクエリに複数の意味が含まれている場合もあり、自動的に適切なカテゴライズを行うことも難しい。
そこで、実施形態に係る分類装置100は、集計対象となる全ユーザのうち、同一のユーザが異なるクエリを入力した回数に基づいて、ある2つのクエリ同士の関連度を算出する。さらに、分類装置100は、関連度に基づいて、任意のクエリの特徴情報を算出する。そして、分類装置100は、特徴情報に基づいてクエリを分類する。これにより、分類装置100は、ユーザが実際に検索した行動という定量的な情報に基づいてクエリを分類できるため、各々のクエリをカテゴライズすることなく、関連するクエリを適切なクラスに分類することができる。また、分類装置100によれば、予めクエリをカテゴライズすることを要しないため、どのようなクエリが入力された場合でも、クエリ同士の関連度を算出することや、クエリの分類を行うこと等ができる。すなわち、分類装置100は、多様なクエリに対応した分類処理を行うことができる。以下、図1を用いて、分類装置100によって行われる分類処理の一例を流れに沿って説明する。なお、以下の説明では、関連度が算出される2つのクエリのうち、処理対象とするクエリを「第1クエリ」と称し、第1クエリと関連するクエリを「第2クエリ」と称する。このため、所定のキーワードが「第1クエリ」となる場合もあれば、「第2クエリ」となる場合もありうる。
図1に示す例において、ユーザ群の各々のユーザは、検索サイト等においてクエリを入力する(ステップS11)。分類装置100は、各ユーザから送信されるクエリを取得する(ステップS12)。そして、分類装置100は、クエリ同士の関連度を算出する(ステップS13)。
分類装置100は、任意のクエリのうち、互いに異なる二つのクエリのいずれかを入力したユーザの数と、当該二つのクエリを両方とも入力したユーザの数と、に少なくとも基づいて、任意のクエリ同士の関連度を算出する。一例として、分類装置100は、下記式(1)に基づいて、第1クエリ(式(1)では、「クエリA」)と第2クエリ(式(1)では、「クエリB」)の関連度を算出する。
Figure 0007067884000001
上記式(1)において、「Score(A,B)」は、クエリAとクエリBの関連度の数値を示す。「Auser」は、クエリAを検索(入力)したユーザ数を示す。「Buser」は、クエリBを検索したユーザ数を示す。「ALLuser」は、所定の集計期間においてクエリを送信したユーザ(検索を利用したユーザ)の数を示す。そして、「Auser∧Buser」は、クエリAとクエリBの両方を検索したユーザ数を示す。
分類装置100は、上記式(1)を用いて、ユーザ群から検索された全クエリの関連度を算出する。例えば、分類装置100は、第1クエリであるクエリAを検索したユーザが検索するクエリBを集計する。そして、分類装置100は、第1クエリに対する全ての第2クエリに対して、上記式(1)を用いて関連度を算出する。分類装置100は、算出した第1クエリの関連度を記憶部に格納する。なお、分類装置100は、所定の閾値を超える関連度を有する第1クエリと第2クエリのペアのみを抽出して記憶部に格納するようにしてもよい。
上記式(1)において、分類装置100は、集計期間を変更することで、どのくらいの長さの期間におけるクエリ同士の関連度を算出するかを調整することができる。例えば、分類装置100は、集計期間を数年間という範囲で設定すれば、当該数年間の間に同一のユーザが第1クエリと第2クエリとを検索した場合に、「第1クエリと第2クエリの両方を検索したユーザ」として計数するため、比較的長い範囲におけるユーザの興味関心の移り変わりを示した関連度を算出することができる。これにより、分類装置100は、ユーザのライフステージ(例えば、ユーザが検索するクエリが「妊娠」から「出産」に変化したことなど)の移り変わりを反映させた関連度の算出を行うことができる。一方で、分類装置100は、集計期間を数日間という範囲で設定すれば、当該数日間の間に同一のユーザが第1クエリと第2クエリの両方を検索しなければ、「第1クエリと第2クエリの両方を検索したユーザ数」を計数しない。このため、分類装置100は、比較的長い期間を要せずとも関連を有するクエリ同士のペア等を抽出し易くなる。なお、集計期間は、例えば、分類装置100の管理者等によって、適宜、設定されてもよい。
図1の例では、分類装置100は、算出した関連度をデータベースDB01に格納するものとする。図1に示すように、データベースDB01は、第1クエリが「AAA」であり、第2クエリがそれぞれ「BBB」、「CCC」、「DDD」である場合の関連度を記憶する。具体的には、データベースDB01に記憶される情報の一例は、第1クエリが「AAA」であり、第2クエリが「BBB」であるペアの関連度は、「5.93」であることを示している。
続けて、分類装置100は、各クエリ(キーワード)の特徴情報を生成する処理を行う。まず、分類装置100は、算出した関連度に基づいて、第1クエリと関連する第2クエリを抽出する(ステップS14)。具体的には、分類装置100は、第1クエリとの関連度が所定の閾値を超える全ての第2クエリを抽出する。例えば、分類装置100は、第1クエリが入力された場合に、第1クエリとの関連度が所定の閾値を超える第2クエリを抽出する処理を行う所定の検索エンジンを用いて、第2クエリの抽出を行う。
そして、分類装置100は、抽出された第2クエリに基づいて、第1クエリの特徴を示す特徴情報を生成する(ステップS15)。例えば、分類装置100は、抽出された第2クエリを各次元とする単語ベクトルで表記することにより、第1クエリの特徴情報をベクトルとして生成する。この場合、分類装置100は、抽出された第2クエリの各々を形態素解析し、解析されたキーワードに基づいて、第1クエリを示す単語ベクトルを生成してもよい。
上述のように、クエリには、複数のキーワードが含まれる場合がある。仮に、第1クエリに関連する第2クエリとして、「BBBの中古の自動車」というクエリが存在していたとする。この場合、分類装置100は、「BBBの中古の自動車」を形態素解析し、「BBB」、「中古」、「自動車」の各々のキーワードを抽出する。分類装置100は、上記の処理を抽出された全ての第2クエリに対して行うことで、第1クエリを特徴付ける各キーワードと、キーワードの出現回数とを取得する。そして、分類装置100は、各々のキーワードを次元とし、各々のキーワードの出現数を次元数とするベクトルを生成する。仮に、第1クエリ「AAA」に関連する第2クエリに対して上記処理を行い、キーワードとして、「BBB」が「18」回出現し、「CCC」が「15」回出現し、「DDD」が「9」回出現し、「中古」が「25」回出現し、「自動車」が「71」回出現したとする。この場合、第1クエリ「AAA」の特徴情報は、(BBB,CCC,DDD,中古,自動車,・・・)=(18,15,9,25,71,・・・)のようなベクトルとして示される。
分類装置100は、ユーザ群から検索が行われた全クエリを第1クエリとして上記の処理を行い、各々の第1クエリの特徴情報を生成する。そして、分類装置100は、第1クエリと生成した特徴情報とを対応付けて記憶部(図1の例では、データベースDB02)に格納する。
その後、所定のタイミングにおいて、分類装置100による分類処理を利用することを所望するユーザU01は、任意の複数のキーワードを含むキーワードリストを分類装置100に送信する(ステップS16)。図1の例では、ユーザU01は、自動車メーカーの名称の一覧をキーワードとして含むキーワードリストL01を分類装置100に送信する。
分類装置100は、送信されたキーワードリストL01を受け付ける。そして、分類装置100は、特徴情報の類似度に基づいて、キーワードリストL01に含まれるキーワードを分類(クラスタリング)する(ステップS17)。
例えば、分類装置100は、データベースDB02を参照し、キーワードリストL01に含まれる各々のキーワードに対応する第1クエリを抽出する。そして、分類装置100は、抽出された第1クエリの特徴情報の各々の関連性に基づいて、キーワードリストL01に含まれるキーワードを分類する。具体的には、分類装置100は、キーワードリストL01に含まれる各々のキーワードをk-means法等の非階層的手法(non-hierarchical method)を用いて分類する。なお、分類処理の手法は上記の例に限られず、分類装置100は、特徴情報に基づいてキーワードを分類することが可能な手法であれば、いずれの手法を利用してもよい。例えば、分類装置100は、特徴情報同士のコサイン類似度を算出し、所定の閾値を超えるコサイン類似度を有するキーワード同士を同じクラスに分類してもよい。また、分類装置100は、最短距離法などの階層的手法(hierarchical method)を用いてもよいし、サポートベクタマシンのように学習を利用した分類手法を用いてもよい。
図1に示す例では、分類装置100は、キーワードリストL01に含まれるキーワード「AAA」、「BBB」及び「CCC」等を、同じクラスであるクラスCL01に分類したものとする。また、分類装置100は、キーワードリストL01に含まれるキーワード「DDD」等をクラスCL02に分類したものとする。なお、図1の例では、クエリ「AAA」や「BBB」等と、キーワード「AAA」や「BBB」等とは、それぞれ同じ語を示すものとする。
分類装置100は、分類の結果を記憶部(図1の例では、データベースDB03)に格納する。この例では、「AAA」、「BBB」及び「CCC」に何らかの共通の性質(例えば、拠点とする国が共通していたり、資本関係があったり、製造する自動車の特徴が類似することからユーザ同士の比較対象とされていたりする等)を有していることが推定される。また、「AAA」、「BBB」及び「CCC」と、「DDD」とは、何らかの相違する性質(例えば、拠点とする国が異なっていたり、資本関係がなかったり、製造する自動車が競合しなかったりする等)を有していることが推定される。このように、分類装置100によれば、ユーザU01が提示した複数のキーワードに対して、ユーザの検索行動に基づいて生成された特徴情報を用いてクラスタリングがなされるため、ユーザの興味関心が反映された分類を行うことができる。
その後、分類装置100は、キーワードリストL01に含まれる複数のキーワードを分類した結果をユーザU01に送信する(ステップS18)。ユーザU01は、分類された結果を参照することにより、ユーザの行動にどのようなキーワード同士が関連性を有するかといった情報を知得することができる。
図1を用いて上述してきたように、実施形態に係る分類装置100は、任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する。また、分類装置100は、抽出した複数の第2クエリに基づいて、第1クエリを特徴付ける特徴情報を生成する。そして、分類装置100は、生成した特徴情報に基づいて、第1クエリに対応するキーワードを分類する。
すなわち、分類装置100によれば、ユーザから送信されるクエリが有する意味や性質等の定性的な情報によらず、実際のユーザの検索行動という定量的な情報に基づいて分類処理を行う。言い換えれば、分類装置100は、各々のクエリをカテゴライズ等することなく、関連するキーワード同士を分類する。このように、分類装置100は、ユーザから送信される様々なクエリに対して分類を行うことができるため、結果として、多様なクエリ同士における相互の関係性を導出することができる。以下、上記のような処理を行う分類装置100及び分類装置100を含む分類システム1について、詳細に説明する。
〔2.分類システムの構成〕
次に、図2を用いて、実施形態に係る分類システム1の構成について説明する。図2は、実施形態に係る分類システム1の構成例を示す図である。図2に示すように、分類システム1は、ユーザ端末10と、分類装置100とを含む。ユーザ端末10、及び分類装置100は、通信ネットワークであるネットワークN(例えば、インターネット)を介して有線または無線により通信可能に接続される。なお、図2に示す分類システム1に含まれる各装置の数は図示したものに限られない。例えば、分類システム1には、複数台のユーザ端末10等が含まれてもよい。
ユーザ端末10は、ユーザによって利用される情報処理装置である。例えば、ユーザ端末10は、デスクトップ型PCや、ノート型PCや、スマートフォン等の携帯電話機や、タブレット端末や、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。例えば、ユーザ端末10は、ユーザによる操作にしたがって、検索サイトにアクセスする。そして、ユーザ端末10は、ユーザによって入力されたクエリを、検索サイトを提供するサーバ(実施形態では、分類装置100)に対して送信する。
分類装置100は、上述のように、任意のクエリ同士の関連度に基づいて第1クエリを特徴付ける特徴情報を生成し、生成した特徴情報に基づいて、第1クエリに対応するキーワードを分類するサーバ装置である。
〔3.分類装置の構成〕
次に、図3を用いて、実施形態に係る分類装置100の構成について説明する。図3は、実施形態に係る分類装置100の構成例を示す図である。図3に示すように、分類装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、分類装置100は、分類装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を出力するための出力部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、通信ネットワークと有線又は無線で接続され、通信ネットワークを介して、ユーザ端末10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、関連度情報記憶部121と、特徴情報記憶部122と、分類情報記憶部123とを有する。以下、各記憶部について順に説明する。
(関連度情報記憶部121について)
関連度情報記憶部121は、クエリ同士の関連度に関する情報を記憶する。関連度情報記憶部121は、図1で示したデータベースDB01に対応する。ここで、図4に、実施形態に係る関連度情報記憶部121の一例を示す。図4は、実施形態に係る関連度情報記憶部121の一例を示す図である。図4に示すように、関連度情報記憶部121は、「集計期間」、「検索ユーザ全体数」、「第1クエリ」、「第2クエリ」、「関連度」といった項目を有する。
「集計期間」は、ユーザの検索行動に関する情報を集計する期間を示す。「検索ユーザ全体数」は、集計期間における検索ユーザの全体数に関する情報を示す。なお、図4では、「検索ユーザ全体数」に記憶される情報を「A01」のように概念的に示しているが、実際には、「検索ユーザ全体数」の項目には、集計期間において検索サイトを利用した全ユニークユーザ数の具体的な数値が記憶される。なお、当該項目には、集計期間において検索サイトにクエリが送信された(言い換えれば、検索が行われた)回数や、各クエリの検索回数等の情報が記憶されてもよい。
「第1クエリ」は、第1クエリを示す。「第2クエリ」は、第1クエリを検索したユーザが検索したクエリであって、第1クエリとは異なるクエリを示す。「関連度」は、第1クエリと第2クエリとの関連度を示す。関連度は、例えば、上記式(1)によってクエリのペアごとに算出される。
すなわち、図4では、関連度情報記憶部121が保持する情報の一例として、集計期間が「2016年7月1日~2017年6月30日」であって、検索ユーザ全体数が「A01」である集計データのうち、第1クエリが「AAA」であって第2クエリが「BBB」であるペアの関連度は「5.93」であることを示している。
(特徴情報記憶部122について)
特徴情報記憶部122は、クエリの特徴情報を記憶する。特徴情報記憶部122は、図1で示したデータベースDB02に対応する。ここで、図5に、実施形態に係る特徴情報記憶部122の一例を示す。図5は、実施形態に係る特徴情報記憶部122の一例を示す図である。図5に示すように、特徴情報記憶部122は、「第1クエリ」、「抽出された第2クエリ情報」、「形態素解析情報」、「特徴情報」といった項目を有する。
「第1クエリ」は、図4で示した同一の項目に対応する。「抽出された第2クエリ情報」は、第1クエリに対して、所定の閾値を超える関連度を有する第2クエリとして抽出された第2クエリの情報を示す。図5では、「抽出された第2クエリ情報」に記憶される情報を「B01」のように概念的に示しているが、実際には、「抽出された第2クエリ情報」の項目には、抽出された複数の第2クエリを示す情報が記憶される。なお、分類装置100は、第2クエリを抽出する際の関連度の閾値については、任意に設定してもよい。また、分類装置100は、例えば、関連度に関わらず、第1クエリに対して所定数(例えば10個や100個)の第2クエリを抽出するようにしてもよい。
「形態素解析情報」は、抽出された第2クエリを形態素解析した情報を示す。図5では、「形態素解析情報」に記憶される情報を「C01」のように概念的に示しているが、実際には、「形態素解析情報」の項目には、抽出された第2クエリを形態素解析した結果が記憶される。より具体的には、「形態素解析情報」の項目には、第2クエリを形態素解析することにより得られたキーワードや、キーワードの出現回数を示す情報が記憶される。なお、分類装置100は、形態素解析の結果のうち、所定の条件を満たすキーワードのみを記憶するようにしてもよい。例えば、分類装置100は、日本語であれば、第2クエリを形態素解析した結果として、名詞のみをキーワードとして記憶するようにしてもよい。
「特徴情報」は、第1クエリの特徴情報を示す。図5では、「特徴情報」に記憶される情報を「R01」のように概念的に示しているが、実際には、「特徴情報」の項目には、第2クエリを形態素解析して得られたキーワードと、キーワードの出現回数から構成される情報が記憶される。より具体的には、「特徴情報」の項目には、キーワードを次元とし、出現回数を次元数とする単語ベクトルが記憶される。
すなわち、図5では、特徴情報記憶部122が保持する情報の一例として、第1クエリ「AAA」に対して抽出された第2クエリ情報は「B01」であり、かかる第2クエリを形態素解析した形態素解析情報は「C01」であり、かかる情報から生成された特徴情報は「R01」であることを示している。
(分類情報記憶部123について)
分類情報記憶部123は、分類処理の結果を記憶する。分類情報記憶部123は、図1で示したデータベースDB03に対応する。ここで、図6に、実施形態に係る分類情報記憶部123の一例を示す。図6は、実施形態に係る分類情報記憶部123の一例を示す図である。図6に示すように、分類情報記憶部123は、「キーワードリストID」、「クラスID」、「キーワード」といった項目を有する。
「キーワードリストID」は、キーワードリストを識別する識別情報を示す。「クラスID」は、クラスを識別する識別情報を示す。なお、本明細書では、キーワードリストID等の識別情報は、説明で用いる参照符号と共通するものとする。例えば、キーワードリストID「L01」で識別されるキーワードリストは、「キーワードリストL01」を示す。「キーワード」は、分類の対象であるキーワードを示す。
すなわち、図6では、分類情報記憶部123が保持する情報の一例として、キーワードリストID「L01」で識別されるキーワードリストL01に含まれるキーワードは、クラスID「CL01」や「CL02」等で識別されるクラスに分類されたことを示している。また、図6では、例えば、クラスCL01には、キーワード「AAA」や、キーワード「BBB」や、キーワード「CCC」が分類されていることを示している。
(制御部130について)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、分類装置100内部の記憶装置に記憶されている各種プログラム(分類プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
実施形態に係る制御部130は、図3に示すように、取得部131と、算出部132と、抽出部133と、生成部134と、受付部135と、分類部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。例えば、取得部131は、ユーザから送信されるクエリを取得する。具体的には、取得部131は、ユーザから任意に入力されるキーワードであって、検索サイト等における検索処理に用いるためのキーワードをクエリとして取得する。なお、クエリは、複数のキーワードを含んでいてもよい。
また、取得部131は、所定の集計期間において、任意のクエリのうち、互いに異なる二つのクエリのいずれかを入力したユーザの数と、当該二つのクエリを両方とも入力したユーザの数とを取得する。例えば、取得部131は、第1クエリを検索したユーザを識別する情報(サービスにおけるユーザIDや、端末固有の識別情報である端末IDや、ブラウザソフトウェアのクッキー(cookie)等)に基づいて、当該ユーザが第2クエリを検索したか否かを判定可能である。
また、取得部131は、所定の集計期間における全体の検索数や、全体のユニークユーザ数を取得する。なお、取得部131は、一つの検索サイトから上記情報を取得してもよいし、複数の検索サイトから取得した情報を合算してもよい。この場合、取得部131は、ユーザの検索行動に関する情報を、検索サイトをユーザに提供する所定の外部サーバから取得してもよい。また、取得部131は、検索サイトに限らず、所定のサービスサイト(例えば、ショッピングサイトやオークションサイト)等においてユーザから送信されるクエリを取得してもよい。
取得部131は、取得した情報を記憶部120内に格納する。また、取得部131は、後述する各処理部が要する情報を、適宜、記憶部120内から取得してもよい。
(算出部132について)
算出部132は、取得部131によって取得されたクエリ同士の関連度を算出する。算出部132は、任意のクエリのうち、互いに異なる二つのクエリのいずれかを入力したユーザの数と、当該二つのクエリを両方とも入力したユーザの数と、に少なくとも基づいて、任意のクエリ同士の関連度を算出する。なお、算出部132は、クエリに複数のキーワードが含まれている場合には、キーワードごとに、キーワードを入力したユーザの数を計数してもよい。
また、算出部132は、所定期間のうちに互いに異なる二つのクエリを両方とも入力したユーザの数に基づいて、関連度を算出してもよい。例えば、算出部132は、集計期間が設定されている場合には、当該集計期間の間に、互いに異なる二つのクエリを両方とも入力したユーザの数に基づいて関連度を算出する。このように、算出部132は、二つのクエリを検索したという情報を集計する期間を可変とすることで、比較的長い期間(1年以上など)を捉えた関連度を算出するか、あるいは、比較的短い期間を捉えた関連度を算出するか、といった制御を行うことができる。
なお、算出部132は、クエリを入力するユーザを分類し、分類したグループごとに関連度を算出してもよい。例えば、算出部132は、所定のクエリの入力履歴、所定のサービスの利用履歴、又は、所定の属性の少なくともいずれか一つに基づいてユーザを所定のグループに分類し、分類したグループごとに関連度を算出してもよい。例えば、算出部132は、「妊娠」や「出産」等のライフステージに関わるクエリを所定の回数以上検索した履歴を有するユーザ群における、クエリ同士の関連度を算出してもよい。あるいは、算出部132は、ショッピングサービスやオークションサービスを利用した履歴を所定の回数以上有するユーザ群や、年齢層や性別が共通するユーザ群における、クエリ同士の関連度を算出してもよい。これにより、算出部132は、不特定多数のユーザの検索行動のみならず、ある特定の興味関心を有するグループにおけるユーザの検索行動に基づいて、クエリの関連度を算出することができる。
算出部132は、上記式(1)で示す式に対応する数値を代入することにより、互いに異なる二つのクエリである第1クエリと第2クエリとの関連度を算出する。算出部132は、第1クエリと第2クエリのペアと、算出した関連度とを対応付けて、関連度情報記憶部121に記憶する。
(抽出部133について)
抽出部133は、任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する。例えば、抽出部133は、算出部132によって算出された関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する。
具体的には、抽出部133は、第1クエリに対する第2クエリのうち、所定の閾値を超える関連度を有する第2クエリを抽出する。なお、所定の閾値は、例えば分類装置100の管理者によって任意に設定されてもよいし、統計的な手法により算出されてもよい(例えば、算出された全ての関連度における平均値を所定の閾値として設定する等)。また、抽出部133は、第1クエリに対する第2クエリのうち、関連度の高い順から所定数の第2クエリを抽出するようにしてもよい。
(生成部134について)
生成部134は、抽出部133によって抽出された複数の第2クエリに基づいて、第1クエリを特徴付ける特徴情報を生成する。
例えば、生成部134は、複数の第2クエリの各々を構成する要素と、要素の出現回数とに基づいて、複数の第2クエリと関連する第1クエリの特徴情報を生成する。具体的には、生成部134は、第1クエリの特徴情報として、第2クエリを構成するキーワードと、キーワードの出現回数との組合せの情報を生成してもよい。
また、生成部134は、第1クエリの特徴情報として、複数の第2クエリの各々を構成する要素を次元とし、要素の出現回数を各々の次元の次元数とするベクトルを生成してもよい。具体的には、生成部134は、第1クエリの特徴情報として、抽出された複数の第2クエリの各々を構成するキーワードを次元とし、各々のキーワードの出現回数を各々の次元の次元数とする単語ベクトルを生成する。
生成部134は、第1クエリと、生成した特徴情報とを対応付けて、特徴情報記憶部122に格納する。
(受付部135について)
受付部135は、各種要求を受け付ける。例えば、受付部135は、所定のユーザから任意のキーワードを受け付ける。具体的には、受付部135は、キーワードの分類を所望するユーザから、任意のキーワードを受け付けるとともに、当該キーワードの分類の要求(リクエスト)を受け付ける。受付部135は、受け付けたキーワードを分類部136に送る。例えば、受付部135によって一のキーワードが受け付けられた場合、分類部136は、当該一のキーワードが既存のクラスのいずれかに分類されるかを判定する。
また、受付部135は、任意の複数のキーワードを含むキーワードリストを受け付けてもよい。この場合、受付部135は、受け付けたキーワードリストを分類部136に送る。この場合、分類部136は、キーワードリストに含まれる各々のキーワードを分類する。
(分類部136について)
分類部136は、生成部134によって生成された特徴情報に基づいて、第1クエリに対応するキーワードを分類する。
例えば、分類部136は、第1クエリの特徴情報がベクトルである場合には、生成部134によって生成されたベクトルの類似度(例えばコサイン類似度)に基づいて、キーワードを分類する。
また、分類部136は、受付部135によって任意のキーワードが受け付けられた場合には、当該キーワードに対応する特徴情報に基づいて、当該キーワードを分類する。例えば、分類部136は、既存のクラスに属する他のキーワードが存在する場合には、他のキーワードの特徴情報と、受け付けられたキーワードとの特徴情報の類似度に基づいて、受け付けられたキーワードがいずれのクラスに属するかを判定する。
また、分類部136は、受付部135によって任意の複数のキーワードを含むキーワードリストが受け付けられた場合には、キーワードリストに含まれる各々のキーワードの特徴情報に基づいて、当該キーワードリストに含まれる各々のキーワードを分類する。これにより、分類部136は、ユーザが分類を所望する複数のキーワードについて、キーワードの意味やカテゴリ等によらず、適切な分類を行うことができる。
分類部136は、キーワードと分類したクラスとを対応付けて、分類情報記憶部123に格納する。また、分類部136は、分類した結果をユーザに送信する。
また、分類部136は、ユーザから受け付けたキーワードリストに対して分類を行った場合、分類の結果を可視化したグラフ等をユーザに提供してもよい。例えば、分類部136は、キーワードを分布図等で示し、同じクラス(グループ)に分類されたキーワードを同じ色で示すなど、ユーザが一目でキーワード同士の関係を把握できるような情報をユーザに提供してもよい。
〔4.処理手順〕
次に、図7及び図8を用いて、実施形態に係る分類装置100による処理の手順について説明する。まず、図7を用いて、実施形態に係る特徴情報の生成処理の手順について説明する。図7は、実施形態に係る分類装置100による処理手順を示すフローチャート(1)である。
図7に示すように、分類装置100は、ユーザから送信されたクエリを取得したか否かを判定する(ステップS101)。クエリを取得していない場合(ステップS101;No)、分類装置100は、クエリを取得するまで待機する。
一方、クエリを取得した場合(ステップS101;Yes)、分類装置100は、取得したクエリのうち、処理対象とする任意の第1クエリを選択する(ステップS102)。さらに、分類装置100は、第1クエリを検索したユーザが検索した第2クエリを集計する(ステップS103)。
そして、分類装置100は、例えば上記式(1)を用いて、第1クエリと第2クエリとの関連度を算出する(ステップS104)。その後、分類装置100は、全検索クエリの関連度を算出したか否かを判定する(ステップS105)。全クエリの関連度を算出していない場合(ステップS105;No)、分類装置100は、ステップS102からステップS104の処理を繰り返す。
一方、全クエリの関連度を算出した場合(ステップS105;Yes)、分類装置100は、任意の第1クエリについて、所定の閾値を超える関連度を有する複数の第2クエリを抽出する(ステップS106)。そして、分類装置100は、抽出された第2クエリを形態素解析する(ステップS107)。
続けて、分類装置100は、形態素と、各々の形態素の出現回数とに基づいて、第1クエリの特徴情報を生成する(ステップS108)。そして、分類装置100は、生成した特徴情報を記憶部120内に格納する(ステップS109)。
次に、図8を用いて、実施形態に係る分類処理の手順について説明する。図8は、実施形態に係る分類装置100による処理手順を示すフローチャート(2)である。
図8に示すように、分類装置100は、ユーザからキーワードリストを受け付けたか否かを判定する(ステップS201)。キーワードリストを受け付けていない場合(ステップS201;No)、分類装置100は、受け付けるまで待機する。
一方、キーワードリストを受け付けた場合(ステップS201;Yes)、分類装置100は、例えば特徴情報記憶部122を参照して、キーワードリストに含まれる各々のキーワードに対応する特徴情報を特定する(ステップS202)。
そして、分類装置100は、各々のキーワードの特徴情報同士の類似度を算出する(ステップS203)。さらに、分類装置100は、算出した類似度に基づいてキーワードを分類する(ステップS204)。そして、分類装置100は、分類した結果を記憶部120内に格納する(ステップS205)。また、分類装置100は、分類した結果をキーワードリストの送信元であるユーザに送信する(ステップS206)。
〔5.変形例〕
上述した実施形態に係る分類システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の分類システム1に含まれる各装置の他の実施形態について説明する。
〔5-1.キーワードリストの生成〕
上記実施形態では、分類装置100が、ユーザからキーワードリストを受け付ける例を示した。ここで、分類装置100は、ユーザから受け付けた一のキーワードに基づいて、キーワードリストを生成し、生成したキーワードリストに含まれるキーワードを分類する処理を行ってもよい。
例えば、分類装置100は、所定のユーザから任意のキーワードの入力を受け付けた場合に、当該任意のキーワードとの関連度が所定の閾値を超える複数のキーワードを抽出し、当該任意のキーワードと抽出した複数のキーワードとを含むキーワードリストを生成する。そして、分類装置100は、生成したキーワードリストに含まれる各々のキーワードを分類する。この点について、図9を用いて、処理の流れに沿って説明する。図9は、変形例に係る分類装置による処理手順を示すフローチャートである。
図9に示すように、分類装置100は、ユーザからキーワードを受け付けたか否かを判定する(ステップS301)。キーワードを受け付けていない場合(ステップS301;No)、分類装置100は、受け付けるまで待機する。
一方、キーワードを受け付けた場合(ステップS301;Yes)、分類装置100は、例えば関連度情報記憶部121を参照して、受け付けたキーワードに対して所定の閾値を超える関連度を有するキーワードを抽出する(ステップS302)。
そして、分類装置100は、受け付けたキーワードと、ステップS302において抽出したキーワードとを含むキーワードリストを生成する(ステップS303)。そして、分類装置100は、生成したキーワードリストに対して、例えば図8で示した流れに沿って分類処理を実行する(ステップS304)。
このように、分類装置100は、ユーザから受け付けたキーワードに基づいてキーワードリストを生成し、生成したキーワードリストに含まれるキーワードを分類する処理を行ってもよい。これにより、ユーザは、自身でリストを作成することを要さず、興味関心のあるキーワードを一つだけ分類装置100に送信することにより、当該キーワードと関連するキーワード群に関する分類結果を得ることができる。すなわち、ユーザは、入力した一のキーワードに関して、ある程度のグルーピングのなされたキーワード群を得ることができる。このため、マーケティングを行うユーザであれば、例えば、入力した一のキーワードに関してどのようなニーズがあるか、また、入力した一のキーワードに関心を有するユーザが、他のどのようなキーワードに興味を有しているか等の情報を知得することができる。
〔5-2.クエリに対する形態素解析〕
上記実施形態では、分類装置100が、第1クエリと第2クエリの両方を入力したユーザの数に基づいてクエリ同士の関連度を算出する例を示した。ここで、上述のように、クエリは、一のキーワードのみならず、複数のキーワードや文章によって構成される場合がある。このため、分類装置100は、ユーザから送信されたクエリを形態素解析し、形態素解析の結果に含まれるキーワードを第1クエリや第2クエリとして取り扱うようにしてもよい。この場合、分類装置100は、既知の記述を用いて、クエリに含まれる名詞や固有名詞を抽出し、抽出したキーワードのみを処理に用いてもよい。
〔5-3.検索行動〕
分類装置100は、第1クエリと第2クエリとの両方を検索したユーザと判定する期間について、必ずしも集計期間と同じ期間において検索行動がなされたことを条件とすることを要しない。すなわち、分類装置100は、第1クエリと第2クエリとの両方を検索したユーザと判定する期間と、クエリを検索したユーザの数等を集計する期間とをそれぞれ設定してもよい。例えば、分類装置100は、同一ユーザから24時間以内に第1クエリと第2クエリとが送信された場合に、当該ユーザを第1クエリと第2クエリとの両方を検索したユーザと扱ってもよい。また、分類装置100は、同一ユーザにおける同一セッション(例えば、所定の検索サイトへアクセスし、アクセスが途切れるまでの一連の行動)において第1クエリと第2クエリとが送信された場合に、当該ユーザを第1クエリと第2クエリとの両方を検索したユーザと扱ってもよい。このように、分類装置100は、ユーザの検索行動を柔軟に取扱い、種々の情報処理を行ってもよい。
〔5-4.検索サイト〕
上記実施形態では、検索サイトが分類装置100によって提供される例を示した。しかし、検索サイトは、所定の外部サーバ(例えば、検索サービスを提供するウェブサーバ)によって提供されてもよい。この場合、分類装置100は、外部サーバを介して、ユーザが検索サイトに対して送信したクエリやユーザ情報等を取得するようにしてもよい。
〔6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示した関連度情報記憶部121や、特徴情報記憶部122や、分類情報記憶部123は、分類装置100が保持せずに、外部のストレージサーバ等に保持されてもよい。この場合、分類装置100は、ストレージサーバにアクセスすることで、関連度情報や特徴情報等を取得する。
また、例えば、上述してきた分類装置100は、ユーザ端末10からクエリを取得したり、分類結果をユーザに送信したりといった、外部装置とのやりとりを中心に実行するフロントエンドサーバ側と、特徴情報に基づいてクエリを分類する処理等を実行するバックエンドサーバ側とに分散されてもよい。
〔7.ハードウェア構成〕
また、上述してきた実施形態に係る分類装置100やユーザ端末10は、例えば図10に示すような構成のコンピュータ1000によって実現される。以下、分類装置100を例として説明する。図10は、分類装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図2に示すネットワークNに対応する)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が分類装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内の各データが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔8.効果〕
上述してきたように、実施形態に係る分類装置100は、抽出部133と、生成部134と、分類部136とを有する。抽出部133は、任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する。生成部134は、抽出部133によって抽出された複数の第2クエリに基づいて、第1クエリを特徴付ける特徴情報を生成する。分類部136は、生成部134によって生成された特徴情報に基づいて、第1クエリに対応するキーワードを分類する。
このように、実施形態に係る分類装置100は、ユーザから送信されるクエリが有する意味や性質等の定性的な情報によらず、実際のユーザの検索行動という定量的な情報に基づいて分類処理を行う。言い換えれば、分類装置100は、各々のクエリをカテゴライズ等することなく、関連するキーワード同士を分類する。例えば、分類装置100によれば、ユーザの趣味嗜好や興味関心を反映してキーワードを分類するため、意味として直接的に関係のなさそうなキーワード同士であっても、同じグループ(クラス)に属するキーワードとして分類することができる。このように、分類装置100は、ユーザから送信される様々なクエリに対して分類を行うことができるため、結果として、多様なクエリ同士における相互の関係性を導出することができる。
また、生成部134は、複数の第2クエリの各々を構成する要素と、当該要素の出現回数とに基づいて、当該複数の第2クエリと関連する第1クエリの特徴情報を生成する。
このように、実施形態に係る分類装置100は、第2クエリを構成する要素(例えば、第2クエリが含むキーワード)と要素の出現回数とによって第1クエリの特徴を示すため、第1クエリの特徴を詳細に捉えることができる。このため、分類装置100は、第1クエリに対応するキーワードを適切に分類することができる。
また、生成部134は、第1クエリの特徴情報として、複数の第2クエリの各々を構成する要素を次元とし、当該要素の出現回数を各々の次元の次元数とするベクトルを生成する。分類部136は、生成部134によって生成されたベクトルの類似度に基づいて、キーワードを分類する。
このように、実施形態に係る分類装置100は、第2クエリを構成する要素と要素の出現回数とをベクトルによって表現することにより、特徴情報同士の類似度の算出を容易に行うことができる。
また、実施形態に係る分類装置100は、任意のクエリのうち、互いに異なる二つのクエリのいずれかを入力したユーザの数と、当該二つのクエリを両方とも入力したユーザの数と、に少なくとも基づいて、任意のクエリ同士の関連度を算出する算出部132をさらに備える。抽出部133は、算出部132によって算出された関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する。
このように、実施形態に係る分類装置100は、ユーザの検索行動ログに基づいて関連度を算出するため、クエリそのものの意味やカテゴリ等によらず、実際のユーザの興味関心に基づいて関連度を算出することができる。これにより、分類装置100は、似たような行動をとるユーザが検索したクエリ同士の関連度を高く算出するなど、ユーザの行動が的確に反映された関連度の算出を行うことができる。
また、算出部132は、所定期間のうちに互いに異なる二つのクエリを両方とも入力したユーザの数に基づいて、関連度を算出する。
このように、実施形態に係る分類装置100は、所定期間を設定し、所定期間における一連のユーザの検索行動を捉え、関連度を算出する。分類装置100は、例えば所定期間を数年間というスパンで設定することで、妊娠や出産、また、ベビー用品など、ユーザのライフステージの移り変わりに関するクエリ同士を関連度のあるクエリとして抽出することができる。これにより、分類装置100は、ユーザの一連の行動を反映させた分類処理を行うことができる。
また、実施形態に係る分類装置100は、所定のユーザから任意のキーワードを受け付ける受付部135をさらに備える。分類部136は、受付部135によって受け付けられたキーワードに対応する特徴情報に基づいて、当該キーワードを分類する。
このように、実施形態に係る分類装置100は、ユーザから受け付けたキーワードに対して分類を行うことで、ユーザが所望するキーワードがどのような興味関心を持っているユーザに検索されているか、また、当該キーワードがどのような他のキーワードと関連性を有するかといった情報をユーザに提供することができる。
また、受付部135は、任意の複数のキーワードを含むキーワードリストを受け付ける。分類部136は、受付部135によって受け付けられたキーワードリストに含まれる各々のキーワードの特徴情報に基づいて、当該キーワードリストに含まれる各々のキーワードを分類する。
このように、実施形態に係る分類装置100は、キーワードリストに含まれるキーワードを分類することで、どのようなキーワード同士がユーザに検索され易い傾向にあるかといった情報をユーザに提供することができる。
また、受付部135は、所定のユーザから任意のキーワードの入力を受け付けた場合に、当該任意のキーワードとの関連度が所定の閾値を超える複数のキーワードを抽出し、当該任意のキーワードと抽出した複数のキーワードとを含むキーワードリストを生成する。分類部136は、受付部135によって生成されたキーワードリストに含まれる各々のキーワードを分類する。
このように、実施形態に係る分類装置100は、ユーザから受け付けたキーワードに基づいてキーワードリストを生成し、生成したキーワードリストに含まれるキーワードを分類する処理を行ってもよい。これにより、分類装置100は、ユーザにキーワードリストを作成する手間を掛けさせず、キーワードと関連するキーワード群に関する分類結果をユーザに提供することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した分類装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、特許請求の範囲に記載した「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 分類システム
10 ユーザ端末
100 分類装置
110 通信部
120 記憶部
121 関連度情報記憶部
122 特徴情報記憶部
123 分類情報記憶部
130 制御部
131 取得部
132 算出部
133 抽出部
134 生成部
135 受付部
136 分類部

Claims (9)

  1. 任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する抽出部と、
    前記抽出部によって抽出された複数の第2クエリに基づいて、前記第1クエリを特徴付ける特徴情報を生成する生成部と、
    前記生成部によって生成された特徴情報に基づいて、前記第1クエリに対応するキーワードを分類する分類部と、
    を備え
    前記生成部は、
    前記複数の第2クエリの各々を構成する要素と、当該要素の出現回数とに基づいて、当該複数の第2クエリと関連する前記第1クエリの特徴情報を生成する、
    ことを特徴とする分類装置。
  2. 前記生成部は、
    前記第1クエリの特徴情報として、前記複数の第2クエリの各々を構成する要素を次元とし、当該要素の出現回数を各々の次元の次元数とするベクトルを生成し、
    前記分類部は、
    前記生成部によって生成されたベクトルの類似度に基づいて、前記キーワードを分類する、
    ことを特徴とする請求項に記載の分類装置。
  3. 任意のクエリのうち、互いに異なる二つのクエリのいずれかを入力したユーザの数と、当該二つのクエリを両方とも入力したユーザの数と、に少なくとも基づいて、任意のクエリ同士の関連度を算出する算出部、
    をさらに備え、
    前記抽出部は、
    前記算出部によって算出された関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する、
    ことを特徴とする請求項1又は2に記載の分類装置。
  4. 前記算出部は、
    所定期間のうちに前記互いに異なる二つのクエリを両方とも入力したユーザの数に基づいて、前記関連度を算出する、
    ことを特徴とする請求項に記載の分類装置。
  5. 所定のユーザから任意のキーワードを受け付ける受付部、
    をさらに備え、
    前記分類部は、
    前記受付部によって受け付けられたキーワードに対応する特徴情報に基づいて、当該キーワードを分類する、
    ことを特徴とする請求項1~のいずれか一つに記載の分類装置。
  6. 前記受付部は、
    任意の複数のキーワードを含むキーワードリストを受け付け、
    前記分類部は、
    前記受付部によって受け付けられたキーワードリストに含まれる各々のキーワードの特徴情報に基づいて、当該キーワードリストに含まれる各々のキーワードを分類する、
    ことを特徴とする請求項に記載の分類装置。
  7. 前記受付部は、
    前記所定のユーザから任意のキーワードの入力を受け付けた場合に、当該任意のキーワードとの関連度が所定の閾値を超える複数のキーワードを抽出し、当該任意のキーワードと抽出した複数のキーワードとを含むキーワードリストを生成し、
    前記分類部は、
    前記受付部によって生成されたキーワードリストに含まれる各々のキーワードを分類する、
    ことを特徴とする請求項に記載の分類装置。
  8. コンピュータが実行する分類方法であって、
    任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する抽出工程と、
    前記抽出工程によって抽出された複数の第2クエリに基づいて、前記第1クエリを特徴付ける特徴情報を生成する生成工程と、
    前記生成工程によって生成された特徴情報に基づいて、前記第1クエリに対応するキーワードを分類する分類工程と、
    を含み、
    前記生成工程は、
    前記複数の第2クエリの各々を構成する要素と、当該要素の出現回数とに基づいて、当該複数の第2クエリと関連する前記第1クエリの特徴情報を生成する、
    ことを特徴とする分類方法。
  9. 任意のクエリ同士の関連度に基づいて、第1クエリと関連する複数の第2クエリを抽出する抽出手順と、
    前記抽出手順によって抽出された複数の第2クエリに基づいて、前記第1クエリを特徴付ける特徴情報を生成する生成手順と、
    前記生成手順によって生成された特徴情報に基づいて、前記第1クエリに対応するキーワードを分類する分類手順と、
    をコンピュータに実行させ
    前記生成手順は、
    前記複数の第2クエリの各々を構成する要素と、当該要素の出現回数とに基づいて、当該複数の第2クエリと関連する前記第1クエリの特徴情報を生成する、
    ことを特徴とする分類プログラム。
JP2017177328A 2017-09-15 2017-09-15 分類装置、分類方法及び分類プログラム Active JP7067884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017177328A JP7067884B2 (ja) 2017-09-15 2017-09-15 分類装置、分類方法及び分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017177328A JP7067884B2 (ja) 2017-09-15 2017-09-15 分類装置、分類方法及び分類プログラム

Publications (2)

Publication Number Publication Date
JP2019053519A JP2019053519A (ja) 2019-04-04
JP7067884B2 true JP7067884B2 (ja) 2022-05-16

Family

ID=66014891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017177328A Active JP7067884B2 (ja) 2017-09-15 2017-09-15 分類装置、分類方法及び分類プログラム

Country Status (1)

Country Link
JP (1) JP7067884B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7127080B2 (ja) * 2020-03-19 2022-08-29 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP6948425B2 (ja) 2020-03-19 2021-10-13 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP7079867B1 (ja) 2021-03-19 2022-06-02 ヤフー株式会社 生成装置、生成方法及び生成プログラム
CN115402057B (zh) * 2022-10-31 2023-03-24 长城汽车股份有限公司 一种空调调节方法、服务器、终端及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110208730A1 (en) 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
US20160188619A1 (en) 2014-12-30 2016-06-30 Yahoo! Inc. Method and system for enhanced query term suggestion

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727614B1 (en) * 2014-03-17 2017-08-08 Amazon Technologies, Inc. Identifying query fingerprints

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110208730A1 (en) 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
US20160188619A1 (en) 2014-12-30 2016-06-30 Yahoo! Inc. Method and system for enhanced query term suggestion

Also Published As

Publication number Publication date
JP2019053519A (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
JP7067884B2 (ja) 分類装置、分類方法及び分類プログラム
CN107862022B (zh) 文化资源推荐***
WO2020029412A1 (zh) 标签推荐方法、装置、计算机设备及计算机可读存储介质
JP2013517563A (ja) ユーザ通信の解析システムおよび方法
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
US20130179418A1 (en) Search ranking features
US20220358552A1 (en) Methods and systems for hair-service based digital image searching and ranking
KR101811211B1 (ko) 빅데이터 기반의 사용성 테스트 방법 및 장치
JP6568284B1 (ja) 提供装置、提供方法及び提供プログラム
WO2023206960A1 (zh) 基于内容与协同过滤的产品推荐方法、装置及计算机设备
JP2021149681A (ja) 判定装置、判定方法及び判定プログラム
JP7088644B2 (ja) 提供装置、提供方法及び提供プログラム
JP6985181B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20160055238A1 (en) Document analysis apparatus and document analysis program
JP4128033B2 (ja) プロファイルデータ検索装置及びプログラム
JP7088656B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2017004260A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7249222B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP7044821B2 (ja) 情報処理システム、および情報処理方法
JP2012113348A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP6948425B2 (ja) 判定装置、判定方法及び判定プログラム
Das Business intelligence through opinion mining
Al-Khiza'ay et al. PeRView: A framework for personalized review selection using micro-reviews

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211228

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211228

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220117

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220428

R150 Certificate of patent or registration of utility model

Ref document number: 7067884

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350