JP5295295B2 - Analysis apparatus and method - Google Patents

Analysis apparatus and method Download PDF

Info

Publication number
JP5295295B2
JP5295295B2 JP2011055989A JP2011055989A JP5295295B2 JP 5295295 B2 JP5295295 B2 JP 5295295B2 JP 2011055989 A JP2011055989 A JP 2011055989A JP 2011055989 A JP2011055989 A JP 2011055989A JP 5295295 B2 JP5295295 B2 JP 5295295B2
Authority
JP
Japan
Prior art keywords
query
content
morphemes
morpheme
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011055989A
Other languages
Japanese (ja)
Other versions
JP2012194612A (en
Inventor
和也 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011055989A priority Critical patent/JP5295295B2/en
Publication of JP2012194612A publication Critical patent/JP2012194612A/en
Application granted granted Critical
Publication of JP5295295B2 publication Critical patent/JP5295295B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、投稿されたコンテンツから注目度の高い話題を解析する解析装置及び方法に関する。 The present invention relates to analysis apparatus and how to analyze the high-profile topics from posted content.

近年、ユーザから現在の状況や雑記などを記載した短い文章の投稿を受け付け他のユーザに閲覧・返信させることで、ユーザ間でコミュニケーションを図るTWITTER(登録商標)などを代表とするミニブログサービスが頻繁に利用されている。   In recent years, a miniblog service typified by TWITTER (registered trademark), which communicates between users by accepting posts of short sentences describing the current situation and miscellaneous notes from users and allowing other users to browse and reply. It is used frequently.

例えば、TWITTERは、ユーザがつぶやいた独り言の文字列(以下、「コンテンツ」とする)を通信ネットワークを介して受信して公衆に閲覧可能にするものであるが、所定のユーザのコンテンツを更新のつど閲覧したり(フォロー)、あるユーザのコンテンツに対して他のユーザがそれを引用して自らのコンテンツとしたり(リツイート)、所定のユーザのコンテンツに自らのコメントを追加して投稿したり(クオートツイート)することもできる(非特許文献1)。
このように、TWITTERを代表とするミニブログでは、様々な形態での応答が発展することにより、あたかも大勢で会話しているかのような感覚を与えることができる。
For example, TWITTER receives a monologue character string (hereinafter referred to as “content”) tweeted by a user through a communication network, and can be viewed by the public. Browse each time (Follow), or quote other users' content as their own content (Retweet), add their own comments to a given user's content (Post) Quote tweet) (Non-Patent Document 1).
In this way, in a miniblog represented by TWITTER, the response in various forms develops, so that it is possible to give a feeling as if there are many conversations.

ツイッター完全活用術、日本、アスキー・メディアワークス、2010年2月26日、8〜9頁Twitter full use technique, Japan, ASCII Media Works, February 26, 2010, 8-9 pages

このようなミニブログの中には、多くのユーザにより投稿・閲覧される話題(テーマ)が存在する。このような注目度の高い話題は、他のユーザも閲覧することを望むものであり、このような注目度の高い話題を多数の投稿の中から適切に取り出すことのできる方法が求められる。   In such a miniblog, there are topics (themes) posted and viewed by many users. Such a topic with a high degree of attention is desired to be browsed by other users, and a method that can appropriately extract such a topic with a high degree of attention from a large number of posts is required.

しかしながら、ミニブログ上のコミュニケーションはユーザによって作られるものであり、投稿されたコンテンツはユーザの話し言葉に近く、同一の話題について投稿したコンテンツであってもユーザによって表現が異なる場合がある。   However, communication on the miniblog is created by the user, and the posted content is close to the user's spoken language, and even the content posted on the same topic may be expressed differently depending on the user.

そこで、表現の異なるコンテンツについて、投稿されたコンテンツを人間が確認し、同一の話題に関するコンテンツであるか否かを特定することで、ユーザに注目されている話題を抽出することが考えられる。しかしながら、ミニブログサービス内で投稿されるコンテンツは膨大な量であり、人間系で逐一確認することは現実的ではなく、ユーザに注目されている話題を自動的に抽出可能とする方法が求められる。   Therefore, it is conceivable to extract a topic that is attracting attention by the user by checking the posted content for content with different expressions and specifying whether or not the content is related to the same topic. However, the amount of content posted in the miniblog service is enormous, and it is not realistic to check it one by one in the human system, and there is a need for a method that can automatically extract topics that are attracting attention from users. .

ここで、投稿されたコンテンツを形態素解析し、形態素の出現頻度をカウントすることで、ユーザに注目されている話題(形態素)を自動的に抽出する方法が考えられる。しかしながら、コンテンツの形態素の出現頻度を単にカウントしただけでは、話し言葉に近いものも含めて、コンテンツを構成する文章を解析する限り、単純な助詞や慣用される語尾などの出現頻度が高くなってしまい、注目度の高い話題(テーマ)の抽出には、更なる精度が求められる。   Here, a method of automatically extracting a topic (morpheme) attracting attention by the user by performing morphological analysis on the posted content and counting the appearance frequency of the morpheme can be considered. However, simply counting the frequency of appearance of content morphemes will increase the frequency of appearance of simple particles and commonly used endings as long as the sentences that make up the content, including those that are close to spoken language, are analyzed. In order to extract a topic (theme) with a high degree of attention, further accuracy is required.

本発明は、このような課題に鑑みてなされたものであり、投稿されたコンテンツから注目度の高い話題を正確かつ自動的に抽出することのできる解析装置及び方法を提供することを目的とする。 The present invention, such has been made in view of the problems, aims to provide an analysis apparatus and method to enable you to a high-profile topics from posted content extracted accurately and automatically And

(1)投稿されたコンテンツから注目度の高い話題を解析する解析装置であって、検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するクエリ解析手段と、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ抽出された前記形態素に基づいて前記投稿されたコンテンツを記憶したデータベースを検索し、前記クエリに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるマッピング手段と、前記データベースを参照し、前記マッピング手段により前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記コンテンツの数に基づいて、当該形態素の注目度を算出するスコア算出手段と、を備える解析装置。 (1) A analysis device you analyze high-profile topics from posted content, morphological analysis multiple queries stored in search logs, plural constituting each of the plurality of queries, respectively and query analyzing means for extracting morphemes, for each of the plurality of queries, search the database that stores the content that is the post on the basis of the morphemes extracted respectively by the query analyzing unit, included in the query and mapping means for associating a morphological for each of the content, before referring to Kide database, based on the number of prior Kiko content including the morphemes associated with each of the content by the mapping means, those a score calculating means for calculating a saliency of the morphological, analysis device Ru comprising a.

(1)の解析装置によれば、マッピング手段は、検索ログに記憶されたクエリを形態素解析した結果得られた形態素に基づいて投稿されたコンテンツのそれぞれを検索する。そして、スコア算出手段は、特定した形態素を含むコンテンツの数(例えば、当該形態素を含む複数のコンテンツの注目度をまとめることで)、当該形態素の注目度を算出する。
これにより、投稿されたコンテンツをクエリの形態素(話題)に基づいて正確かつ自動的にまとめることができる。
According to the analysis device (1), the mapping means retrieves the respective content posted on the basis of the query stored in the search log morphemes obtained as a result of morphological analysis. Then, the score calculation unit, the number of contents including the identified morphological (e.g., by summarizing the attention of a plurality of contents including the morpheme), and calculates the attention level of those said morphemes.
Thereby, the posted content can be accurately and automatically collected based on the morpheme (topic) of the query.

(2)前記クエリ解析手段は、前記検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のクエリの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結して様々な長さからなるクエリ形態素をそれぞれ生成し、前記マッピング手段は、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ生成された前記クエリ形態素に基づいて前記データベースを検索し、前記様々な長さからなるクエリ形態素のうち前記コンテンツに含まれる最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付け、前記スコア算出手段は、前記クエリ形態素の注目度を算出する、(1)に記載の解析装置。 (2) The query analysis unit morphologically analyzes a plurality of queries stored in the search log, extracts an array of a plurality of morphemes constituting each of the plurality of queries, and each of the plurality of queries Each of the morphemes included in each of the arrays is reconnected in the order of the arrays to generate query morphemes having various lengths, and the mapping unit performs the query analysis unit for each of the plurality of queries. by searching pre Kide database based on the query morphemes generated respectively, associating to each of the content the longest query morphemes included in the content of the query morphemes consisting of the varying lengths, the score calculating unit calculates the degree of attention before Symbol query morpheme analysis apparatus according to (1).

(2)の解析装置によれば、クエリ解析手段は、クエリを構成する複数の形態素を当該形態素の配列の順序で再連結して様々な長さからなるクエリ形態素を生成するとともに、マッピング手段は、コンテンツのそれぞれについて、様々な長さからなるクエリ形態素のうち当該コンテンツに含まれる最も長いクエリ形態素を特定する。そして、スコア算出手段は、特定したクエリ形態素を含むコンテンツの数(例えば、当該クエリ形態素を含む複数のコンテンツの注目度をまとめることで)、当該クエリ形態素の注目度を算出する。
このように、投稿されたコンテンツをまとめるクエリ形態素として、コンテンツに含まれるクエリ形態素のうち最も長いクエリ形態素を用いることで、意味のない語句(助詞や慣用される語尾など)に基づいてコンテンツをまとめることを防止することができ、注目度の高い話題(クエリ形態素)を正確かつ自動的に抽出することができる。
According to the analysis device (2), the query analyzing means, a plurality of morphemes constituting the query and generates queries morphemes consisting of varying lengths and religated in the order of sequence of the morphological, mapping means Specifies the longest query morpheme included in the content among query morphemes of various lengths for each content. Then, the score calculation unit, the number of content including specified query morphemes (e.g., by summarizing the attention of a plurality of contents including the query morphemes), and calculates the attention level of those said query morphemes.
In this way, by using the longest query morpheme among the query morphemes included in the content as the query morpheme for grouping the posted content, the content is grouped based on meaningless phrases (particles, commonly used endings, etc.) it can be prevented, attention high degree of topics (the query morphemes) can be extracted accurately and automatically.

(3)前記投稿されたコンテンツのそれぞれについて、テキストコンテンツを形態素解析し、当該テキストコンテンツの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のテキストコンテンツの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結し様々な長さからなるコンテンツ形態素をそれぞれ生成するコンテンツ解析手段、を備え、前記マッピング手段は、前記クエリ形態素と前記コンテンツ形態素との完全一致検索により最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付ける、(2)に記載の解析装置。 (3) For each of the posted contents, morphological analysis of the text content is performed, and an array of a plurality of morphemes that constitute each of the text contents is extracted, and each of the plurality of text contents is Content analysis means for re-connecting the morphemes contained in the array in the order of the array to generate content morphemes of various lengths, and the mapping means is a perfect match between the query morpheme and the content morpheme associating the longest query morpheme for each of the content by the search, analysis apparatus according to (2).

(3)の解析装置によれば、投稿されたコンテンツをクエリと同様にコンテンツ形態素に解析しておき、クエリ形態素に基づく検索をクエリ形態素とコンテンツ形態素との完全一致検索により行う。その結果、部分一致検索による検索よりも好適な場合があり、このような場合には最適な検索を行うことができる。 According to the analysis device (3), previously analyzes the posted content as with queries content morphemes, perform a search based on the query morphemes by exact match search query morphemes and content morphemes. As a result, there are cases where it is more suitable than a search by partial match search. In such a case, an optimal search can be performed.

(4)前記クエリ解析手段により生成された複数の前記クエリ形態素は、所定の文字列順序で並べられ、前記マッピング手段は、前記所定の文字列順序に従い、前記クエリ形態素に基づく検索を行う、(2)又は(3)に記載の解析装置。 (4) The plurality of query morphemes generated by the query analysis unit are arranged in a predetermined character string order, and the mapping unit performs a search based on the query morpheme according to the predetermined character string order. analysis device according to 2) or (3).

(4)の解析装置によれば、様々な長さからなるクエリ形態素を所定の順序(例えば、日本語文字列照合順番)で並べるとともに、この所定の順序に従い、クエリ形態素に基づく検索を行う。これにより、不要な検索を省略することができ、クエリ形態素に基づく検索を最適化することができる。 According to the analysis device (4), the query morphemes predetermined sequence consisting of varying lengths (e.g., Japanese string matching order) with aligned in accordance with the predetermined order, carries out a search based on a query morphemes . Thereby, unnecessary searches can be omitted, and searches based on query morphemes can be optimized.

(5)ユーザ端末から検索用のクエリの入力を受け付けることを契機として、当該クエリに関連する形態素の前記注目度が所定以上であることを条件に、前記投稿されたコンテンツから当該形態素を含むコンテンツを提案するサジェスト手段、を備える(1)から(4)のいずれかに記載の解析装置。 (5) Content that includes the morpheme from the posted content on the condition that the degree of attention of the morpheme related to the query is greater than or equal to a predetermined time when receiving an input of a search query from the user terminal analysis device according to any one of the suggestions means proposed, from the provided (1) (4).

(4)の解析装置によれば、ユーザ端末から注目度の高い話題(形態素クエリ)に関連するクエリを受け付けた場合には、この話題を扱うコンテンツをユーザ端末に提案することができる。 According to the analysis device (4), when receiving the related queries to the user terminal or al attention high degree of topic (morphemes query) is to propose a content to deal with the topic of this to the user terminal it can.

(6)コンピュータが実行する、投稿されたコンテンツから注目度の高い話題を解析する方法であって、検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するステップと、前記複数のクエリ毎に、抽出された前記形態素に基づいて前記投稿されたコンテンツを記憶したデータベースを検索し、前記クエリに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるステップと、前記データベースを参照し、前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記コンテンツの数に基づいて、当該形態素の注目度を算出するステップと、を含む方法。 (6) A method executed by a computer to analyze a topic having a high degree of attention from posted content, and a plurality of queries stored in a search log are analyzed by morphological analysis, and each of the plurality of queries is configured. extracting a plurality of morphemes, for each of the plurality of queries, based on the extracted morphemes searching database storing the content that is the post, respectively morphemes included in the query of the content a method comprising the steps, which refers to the previous Kide database, based on the number of prior Kiko content including the morphemes associated with each of the contents, thereby calculating the target degree of those said morphemes associating with respect, Including methods.

(6)の方法によれば、(1)の解析装置と同様の効果を奏する。 According to the method of (6), the same effect as analysis device (1).

本発明によれば、投稿されたコンテンツから注目度の高い話題を正確かつ自動的に抽出することができる。 According to the present invention, it is possible to accurately and automatically extract a topic with a high degree of attention from posted content .

第1実施形態のミニブログ解析装置の機能構成を示す図である。It is a figure which shows the function structure of the miniblog analysis apparatus of 1st Embodiment. クエリ形態素データベースを示す図である。It is a figure which shows a query morpheme database. コンテンツ形態素データベースを示す図である。It is a figure which shows a content morpheme database. マッピング手段によるマッピング例を示す図である。It is a figure which shows the example of mapping by the mapping means. クエリ形態素データベースに記憶されるクエリ形態素の順序を示す図である。It is a figure which shows the order of the query morpheme memorize | stored in a query morpheme database. マッピングデータベースを示す図である。It is a figure which shows a mapping database. スコア管理データベースを示す図である。It is a figure which shows a score management database. スコア算出処理を示すフローチャートである。It is a flowchart which shows a score calculation process. クエリ形態素生成処理を示すフローチャートである。It is a flowchart which shows a query morpheme generation process. マッピング処理を示すフローチャートである。It is a flowchart which shows a mapping process. サジェスト処理を示すフローチャートである。It is a flowchart which shows a suggestion process. 第2実施形態のミニブログ解析装置の機能構成を示す図である。It is a figure which shows the function structure of the miniblog analysis apparatus of 2nd Embodiment.

以下、本発明のミニブログ解析装置1の実施形態について図面を参照して説明する。本発明のミニブログ解析装置1は、ミニブログサービスで投稿された個々のコンテンツと検索に用いられたクエリとを結びつけることで、ミニブログサービス内における注目度の高い話題を正確かつ自動的に抽出する。   Hereinafter, an embodiment of a miniblog analysis apparatus 1 of the present invention will be described with reference to the drawings. The miniblog analysis apparatus 1 according to the present invention accurately and automatically extracts high-profile topics in the miniblog service by linking individual content posted in the miniblog service and the query used for the search. To do.

[第1実施形態]
初めに、図1〜図11を参照して、第1実施形態のミニブログ解析装置1について説明する。
[First Embodiment]
First, the miniblog analysis apparatus 1 according to the first embodiment will be described with reference to FIGS.

[ミニブログ解析装置1の構成]
図1を参照して、本発明のミニブログ解析装置1の構成について説明する。ミニブログ解析装置1は、検索管理サーバ100、ミニブログ管理サーバ110及びユーザ端末120と通信可能に接続され、クエリ解析部10と、コンテンツ解析部20と、マッピング部30と、スコア算出部40と、サジェスト部50と、を含んで構成される。
[Configuration of Mini Blog Analysis Device 1]
With reference to FIG. 1, the structure of the miniblog analysis apparatus 1 of this invention is demonstrated. The miniblog analysis device 1 is communicably connected to the search management server 100, the miniblog management server 110, and the user terminal 120, and includes a query analysis unit 10, a content analysis unit 20, a mapping unit 30, and a score calculation unit 40. And a suggestion unit 50.

ここで、検索管理サーバ100は、検索に用いられたクエリを管理する検索ログを備え、ミニブログ管理サーバ110は、ミニブログ内の個々のコンテンツを管理するミニブログデータベースを備える。本発明のミニブログ解析装置1は、検索管理サーバ100の検索ログ及びミニブログ管理サーバ110のミニブログデータベースに適宜アクセスし、ミニブログサービスで投稿された個々のコンテンツとクエリとを結びつける。なお、検索ログ及びミニブログデータベースに本発明のミニブログ解析装置1がアクセス可能であればよく、検索ログ及びミニブログデータベースを本発明のミニブログ解析装置1自身が有することとしてもよい。   Here, the search management server 100 includes a search log for managing a query used for the search, and the miniblog management server 110 includes a miniblog database for managing individual contents in the miniblog. The miniblog analysis apparatus 1 of the present invention appropriately accesses the search log of the search management server 100 and the miniblog database of the miniblog management server 110, and links individual content posted by the miniblog service and the query. Note that the search log and miniblog database need only be accessible by the miniblog analysis apparatus 1 of the present invention, and the search log and miniblog database may be included in the miniblog analysis apparatus 1 of the present invention itself.

<クエリ解析部10>
クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索ログに含まれるクエリを解析するため、クエリ解析手段11と、クエリ形態素データベース12と、を含む。
<Query analysis unit 10>
The query analysis unit 10 includes a query analysis unit 11 and a query morpheme database 12 in order to access a search log of the search management server 100 and analyze a query included in the search log.

クエリ解析手段11は、検索ログに記憶される複数のクエリを形態素解析し、クエリを構成する複数の形態素の配列を抽出する。また、クエリ解析手段11は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるクエリ形態素を生成する。
なお、クエリ解析手段11は、検索ログに記憶される複数のクエリの各々について、クエリ形態素を生成する。ここで、「複数のクエリ」とは、検索ログに記憶される全てのクエリであってもよく、また、検索ログに記憶される一部のクエリであってもよい。一部のクエリは、例えば、検索数に基づいて決定することができ、一例としては、検索数の多い方から上位100位までのクエリを一部のクエリとすることができる。検索ログの中には、タイプミスなどによる無意味なクエリも含まれるため、このような検索数の多いクエリのみを対象とすることで好適な場合がある。
The query analysis unit 11 performs a morphological analysis on a plurality of queries stored in the search log, and extracts an array of a plurality of morphemes constituting the query. The query analysis unit 11 generates query morphemes having various lengths by reconnecting the morphemes included in the extracted morpheme array in the order of the array.
The query analysis unit 11 generates a query morpheme for each of a plurality of queries stored in the search log. Here, the “plurality of queries” may be all queries stored in the search log, or may be partial queries stored in the search log. Some queries can be determined based on, for example, the number of searches. As an example, queries from the largest number of searches to the top 100 can be set as some queries. Since the search log includes meaningless queries due to typographical errors and the like, it may be preferable to target only such queries with a large number of searches.

クエリ形態素データベース12は、図2に示すように、クエリ解析手段11が生成したクエリ形態素を元のクエリ及び当該クエリを識別するクエリIDに対応付けて記憶する。   As shown in FIG. 2, the query morpheme database 12 stores the query morpheme generated by the query analysis unit 11 in association with the original query and the query ID for identifying the query.

ここで、図2を参照して、クエリ「審美歯科医院」から生成されるクエリ形態素について説明する。なお、以下では、「審美歯科医院」が「審美」「歯科」「医院」の形態素からなるものとして説明する。   Here, referring to FIG. 2, a query morpheme generated from the query “esthetic dental clinic” will be described. In the following description, it is assumed that “aesthetic dental clinic” is composed of morphemes of “esthetic”, “dental”, and “clinic”.

初めに、クエリ解析手段11は、クエリ「審美歯科医院」を形態素解析し、「審美」「歯科」「医院」の形態素の配列を抽出する。続いて、クエリ解析手段11は、抽出した形態素の配列に含まれる形態素「審美」「歯科」「医院」をこの配列の順序で再連結する。ここで、抽出した形態素の配列の順序は、「1:審美」「2:歯科」「3:医院」であるため、クエリ解析手段11は、「1」「1+2」「1+2+3」「2」「2+3」「3」からなるクエリ形態素を生成する(「1+3」は、配列の順序ではないため生成されない)。これにより、クエリ「審美歯科医院」から様々な長さからなるクエリ形態素(「審美」「審美歯科」「審美歯科医院」「歯科」「歯科医院」「医院」)が生成される。   First, the query analysis means 11 performs a morphological analysis on the query “esthetic dental clinic” and extracts an array of morphemes of “esthetic”, “dental”, and “clinic”. Subsequently, the query analysis unit 11 reconnects the morphemes “esthetic”, “dental”, and “clinic” included in the extracted morpheme array in the order of this array. Here, since the sequence of the extracted morpheme sequences is “1: aesthetic”, “2: dentistry”, “3: clinic”, the query analysis unit 11 performs “1” “1 + 2” “1 + 2 + 3” “2” “ A query morpheme composed of “2 + 3” and “3” is generated (“1 + 3” is not generated because it is not an array order). As a result, query morphemes (“esthetic”, “esthetic dentistry”, “esthetic dental clinic”, “dental”, “dental clinic”, “clinic clinic”) of various lengths are generated from the query “esthetic dental clinic”.

なお、生成されたクエリ形態素は、クエリ形態素データベース12に記憶されるが、図2に示すように、生成されたクエリ形態素は、個別IDが対応付けられた上でクエリ形態素データベース12に記憶される。このとき、個別IDは、生成されたクエリ形態素の冒頭の形態素を識別可能に対応付けるために用いられる。例えば、図2では、「1:審美」からなるクエリ形態素(「審美」「審美歯科」「審美歯科医院」)に「a1」「a2」「a3」といった「a」を有する個別IDが付され、「2:歯科」からなるクエリ形態素(「歯科」「歯科医院」)に「b1」「b2」といった「b」を有する個別IDが付され、「3:医院」からなるクエリ形態素(「医院」)に「c1」といった「c」を有する個別IDが付されている。なお、個別IDにより冒頭の形態素が同一であるとされた複数のクエリ形態素は、後述する所定の順序でクエリ形態素データベース12に記憶される。   The generated query morpheme is stored in the query morpheme database 12. However, as shown in FIG. 2, the generated query morpheme is stored in the query morpheme database 12 with an individual ID associated therewith. . At this time, the individual ID is used to identifiably associate the first morpheme of the generated query morpheme. For example, in FIG. 2, an individual ID having “a” such as “a1”, “a2”, and “a3” is attached to a query morpheme (“esthetic”, “esthetic dentistry”, and “esthetic dental clinic”) that includes “1: aesthetic”. , “2: Dental” is a query morpheme (“dental” “dental clinic”) with an individual ID having “b” such as “b1” and “b2”, and a query morpheme consisting of “3: clinic” (“clinic” )) Is assigned an individual ID having “c” such as “c1”. A plurality of query morphemes whose initial morphemes are the same by the individual ID are stored in the query morpheme database 12 in a predetermined order to be described later.

このように、生成されたクエリ形態素の冒頭の形態素毎にクエリ形態をグループ化することで、ミニブログ内のコンテンツとの対応付け時の検索処理を最適化することができる。すなわち、あるクエリ形態素に基づく検索でヒットしなかった場合には、冒頭の形態素を同一とするグループ内の他のクエリ形態素に基づく検索もヒットすることがなく、無駄な検索処理を省略することができる。   In this way, by grouping the query forms for each morpheme at the beginning of the generated query morpheme, it is possible to optimize the search process when associating with the content in the miniblog. That is, if a search based on a certain query morpheme does not hit, a search based on another query morpheme in the group having the same initial morpheme will not be hit, and unnecessary search processing may be omitted. it can.

<コンテンツ解析部20>
コンテンツ解析部20は、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログデータベースに含まれる個々のコンテンツを解析するため、コンテンツ解析手段21と、コンテンツ形態素データベース22と、を含む。
<Content analysis unit 20>
The content analysis unit 20 includes a content analysis unit 21 and a content morpheme database 22 for accessing the miniblog database of the miniblog management server 110 and analyzing individual contents included in the miniblog database.

コンテンツ解析手段21は、ミニブログデータベースに記憶されるミニブログ内の複数のコンテンツ(テキストコンテンツ)を形態素解析し、コンテンツを構成する複数の形態素の配列を、複数のコンテンツの各々について抽出する。また、コンテンツ解析手段21は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるコンテンツ形態素を、複数のコンテンツの各々について生成する。ここで、コンテンツ解析手段21は、クエリ解析手段11と同様の方法でコンテンツの形態素解析及び再連結をし、コンテンツ形態素を生成する。   The content analysis means 21 performs a morphological analysis on a plurality of contents (text contents) in the miniblog stored in the miniblog database, and extracts an array of a plurality of morphemes constituting the contents for each of the plurality of contents. In addition, the content analysis unit 21 reconnects the morphemes included in the extracted morpheme array in the order of the array to generate content morphemes having various lengths for each of the plurality of contents. Here, the content analysis unit 21 performs content morpheme analysis and reconnection by the same method as the query analysis unit 11 to generate a content morpheme.

コンテンツ形態素データベース22は、図3に示すように、コンテンツ解析手段21が生成したコンテンツ形態素を元のコンテンツ及び当該コンテンツを識別するコンテンツIDに対応付けて記憶する。このとき、コンテンツ形態素データベース22は、コンテンツ形態素の冒頭の形態素を識別可能に対応付けた個別IDによりグループ化した上で後述する所定の順序でコンテンツ形態素を記憶する。
また、コンテンツ形態素データベース22は、コンテンツに対応付けて注目度を記憶する。ここで、注目度は、ミニブログ内における当該コンテンツの注目度であり、注目度が高いほどミニブログ内において多くのユーザが閲覧又は多くのユーザが当該コンテンツに対して投稿(返信)していることを意味する。なお、注目度は、ミニブログデータベースに記憶されていることとしてもよく、ミニブログデータベース内のコンテンツの閲覧数やコンテンツに対する投稿(返信)数などに基づいて任意に算出することとしてもよい。
As shown in FIG. 3, the content morpheme database 22 stores the content morpheme generated by the content analysis unit 21 in association with the original content and the content ID for identifying the content. At this time, the content morpheme database 22 stores the content morphemes in a predetermined order, which will be described later, after grouping the initial morphemes of the content morphemes by individual IDs associated with each other in an identifiable manner.
The content morpheme database 22 stores the degree of attention in association with the content. Here, the attention level is the attention level of the content in the miniblog, and the higher the attention level, the more users view or post (reply) to the content in the miniblog. Means that. Note that the degree of attention may be stored in the miniblog database, or may be arbitrarily calculated based on the number of contents viewed or the number of posts (replies) to the contents in the miniblog database.

<マッピング部30>
マッピング部30は、ミニブログサービスで投稿された個々のコンテンツとクエリとを対応付けるために、マッピング手段31と、マッピングデータベース32と、を含む。
<Mapping unit 30>
The mapping unit 30 includes a mapping unit 31 and a mapping database 32 for associating individual content posted by the miniblog service with a query.

マッピング手段31は、複数のクエリ毎に、クエリ解析部10により生成されたクエリ形態素に基づいて、コンテンツ解析部20により生成されたコンテンツ形態素を検索し、様々な長さからなるクエリ形態素のうちミニブログ内のコンテンツに含まれる最も長いクエリ形態素をミニブログ内のコンテンツのそれぞれに対して対応付ける。このとき、本実施形態では、マッピング手段31は、クエリ形態素とコンテンツ形態素との完全一致検索により、ミニブログ内のコンテンツに含まれる最も長いクエリ形態素を特定する。   The mapping unit 31 searches the content morpheme generated by the content analysis unit 20 based on the query morpheme generated by the query analysis unit 10 for each of a plurality of queries, and selects the mini morpheme from the query morphemes having various lengths. The longest query morpheme included in the content in the blog is associated with each content in the miniblog. At this time, in this embodiment, the mapping means 31 specifies the longest query morpheme included in the content in the miniblog by performing a complete match search between the query morpheme and the content morpheme.

ここで、図4を参照して、本実施形態のマッピング手段31による対応付け(マッピング)の具体例について説明する。図4では、コンテンツ「タレントの○○花子が、審美歯科の先生と結婚!!」とクエリ「審美歯科医院」とを対応付けている。   Here, with reference to FIG. 4, a specific example of association (mapping) by the mapping unit 31 of the present embodiment will be described. In FIG. 4, the content “Hanako of the talent is married to an esthetic dental teacher!” And the query “esthetic dental clinic” are associated with each other.

初めに、マッピング手段31は、クエリ形態素「審美」に基づいてコンテンツ形態素の検索を行う。その結果、クエリ形態素「審美」と一致する個別ID「cc1」のコンテンツ形態素がマッピングされる。
ここで、コンテンツ解析部20により生成されたコンテンツ形態素は、個別IDによりグループ化されているため、マッピング手段31は、不要な検索を行う必要がない。個別ID「aa1〜15」のグループを参照して具体的に説明する。マッピング手段31は、初めに、個別ID「aa1」のコンテンツ形態素「タレント」とクエリ形態素「審美」とが一致するか判定する。このとき、一致しないと判定した場合には、同一グループの個別ID「aa2〜15」に対する検索も一致することがないため、マッピング手段31は、個別ID「aa2〜15」のコンテンツ形態素に対する検索を行わない。
First, the mapping unit 31 searches for a content morpheme based on the query morpheme “Aesthetics”. As a result, the content morpheme with the individual ID “cc1” that matches the query morpheme “esthetic” is mapped.
Here, since the content morphemes generated by the content analysis unit 20 are grouped by individual ID, the mapping unit 31 does not need to perform an unnecessary search. This will be specifically described with reference to a group of individual IDs “aa1 to 15”. The mapping unit 31 first determines whether the content morpheme “talent” of the individual ID “aa1” matches the query morpheme “esthetic”. At this time, if it is determined that they do not match, the search for the individual IDs “aa2 to 15” of the same group will not match, so the mapping unit 31 searches for the content morpheme of the individual ID “aa2 to 15”. Not performed.

クエリ形態素「審美」に基づく検索を終えると、続いて、マッピング手段31は、クエリ形態素「審美歯科」に基づいてコンテンツ形態素の検索を行う。その結果、クエリ形態素「審美歯科」と一致する個別ID「CC2」のコンテンツ形態素がマッピングされる。
ここで、クエリ解析部10により生成されたクエリ形態素も、個別IDによりグループ化されているため、マッピング手段31は、不要な検索を行う必要がない。すなわち、クエリ形態素「審美歯科」と同一グループであって、より短いクエリ形態素「審美」に基づく検索でヒットしなかったコンテンツ形態素(個別ID「aa1〜15」)は、より長いクエリ形態素「審美歯科」でヒットする可能性がないため、マッピング手段31は、検索を行う必要がない。
また、本実施形態では、完全一致検索によりクエリ形態素に基づく検索を行うため、マッピング手段31は、不要な検索を行う必要がない。すなわち、クエリ形態素「審美歯科」と同一グループであって、より短いクエリ形態素「審美」と完全一致したコンテンツ形態素(個別ID「cc1」)は、より長いクエリ「審美歯科」でヒットする必要がないため、マッピング手段31は、検索を行う必要がない。
When the search based on the query morpheme “esthetic” is finished, the mapping unit 31 subsequently searches the content morpheme based on the query morpheme “esthetic dentistry”. As a result, the content morpheme with the individual ID “CC2” that matches the query morpheme “esthetic dentistry” is mapped.
Here, since the query morphemes generated by the query analysis unit 10 are also grouped by individual ID, the mapping unit 31 does not need to perform an unnecessary search. That is, a content morpheme (individual ID “aa1 to 15”) that is the same group as the query morpheme “esthetic dentistry” and has not been hit in the search based on the shorter query morpheme “esthetic” is the longer query morpheme “esthetic dentistry”. The mapping unit 31 does not need to perform a search because there is no possibility of a hit with “”.
Moreover, in this embodiment, since the search based on a query morpheme is performed by exact match search, the mapping means 31 does not need to perform an unnecessary search. That is, a content morpheme (individual ID “cc1”) that is the same group as the query morpheme “esthetic dentistry” and completely matches the shorter query morpheme “esthetic” does not need to be hit by the longer query “esthetic dentistry”. Therefore, the mapping unit 31 does not need to perform a search.

全てのクエリ形態素に基づく完全一致検索を終了すると、マッピング手段31は、コンテンツ形態素と一致したクエリ形態素のうち最も長いクエリ形態素を、検索を行ったコンテンツと対応付ける。図4では、最も長いクエリ形態素が「審美歯科」であるため、マッピング手段31は、コンテンツ「タレントの○○花子が、審美歯科の先生と結婚!!」にクエリ形態素「審美歯科」を対応付けている。
なお、「最も長い」とは、再連結した形態素の数が多いことを意味することとしてもよく、また、最も長い文字列を意味することとしてもよい。
When the complete match search based on all the query morphemes is completed, the mapping unit 31 associates the longest query morpheme among the query morphemes that match the content morpheme with the searched content. In FIG. 4, since the longest query morpheme is “esthetic dentistry”, the mapping means 31 associates the query morpheme “esthetic dentistry” with the content “talent XX Hanako married an esthetic dental teacher!”. ing.
“Longest” may mean that the number of reconnected morphemes is large, or may mean the longest character string.

ここで、説明を容易にするため、図4では、1のクエリと1のコンテンツとの対応付けを例にとって説明していたが、本実施形態では、複数のクエリと1のコンテンツとの対応付けを繰り返すことによりミニブログ内の個々のコンテンツとクエリとの対応付けを行う(図10参照)。
このとき、マッピング手段31による不要な検索を防止するため、クエリ形態素データベース12には、複数のクエリのクエリ形態素が所定の順序で記憶される。複数のクエリのクエリ形態素を所定の順序で記憶するクエリ形態素データベース12を図5に示す。図5では、クエリ形態素データベース12には、クエリID「A01」の「審美歯科医院」とクエリID「13」の「審美眼」とクエリID「A26」の「歯科衛生士」とを含む複数のクエリが所定の順序で記憶されている。このように、マッピング手段31は、クエリ形態素データベース12に記憶された順序でクエリ形態素に基づく検索を行うため、上述のように不要な検索を行う必要がない。
なお、所定の順序については、管理者が任意に設定することができ、一例としては、日本語文字列照合順番(所謂、辞書順)などを用いることができる。
Here, for ease of explanation, FIG. 4 illustrates an example of the association between one query and one content, but in the present embodiment, the association between a plurality of queries and one content. By repeating the above, each content in the miniblog is associated with the query (see FIG. 10).
At this time, in order to prevent an unnecessary search by the mapping unit 31, the query morpheme database 12 stores query morphemes of a plurality of queries in a predetermined order. A query morpheme database 12 that stores query morphemes of a plurality of queries in a predetermined order is shown in FIG. In FIG. 5, the query morpheme database 12 includes a plurality of “esthetic dental clinics” with a query ID “A01”, “esthetic eyes” with a query ID “13”, and “dental hygienists” with a query ID “A26”. Queries are stored in a predetermined order. Thus, since the mapping means 31 performs the search based on the query morphemes in the order stored in the query morpheme database 12, it is not necessary to perform an unnecessary search as described above.
The predetermined order can be arbitrarily set by the administrator. As an example, a Japanese character string collation order (so-called dictionary order) can be used.

図1に戻り、マッピングデータベース32は、マッピング手段31によるマッピングの結果を記憶する。図6にマッピングデータベース32の一例を示す。図6を参照して、マッピングデータベース32は、クエリ形態素とコンテンツとの対応付けの結果を記憶する。
これにより、話し言葉などのようにユーザによって表現の異なるミニブログ内のコンテンツを、検索に用いるクエリの形態素(話題)で対応付けることができる。このとき、クエリは検索に用いるために入力された文字列であり、また、ミニブログ内のコンテンツをまとめるクエリ形態素として最も長いクエリ形態素を用いることとしている。そのため、意味のない語句(助詞や慣用される語尾など)に基づいてコンテンツをまとめることを防止することができる。
Returning to FIG. 1, the mapping database 32 stores the result of mapping by the mapping means 31. FIG. 6 shows an example of the mapping database 32. Referring to FIG. 6, mapping database 32 stores the result of associating query morphemes with content.
As a result, the contents in the miniblog, which are expressed differently depending on the user such as spoken language, can be associated with the morpheme (topic) of the query used for the search. At this time, the query is a character string input for use in the search, and the longest query morpheme is used as a query morpheme for collecting the contents in the miniblog. Therefore, it is possible to prevent contents from being grouped based on meaningless phrases (such as particles and commonly used endings).

<スコア算出部40>
スコア算出部40は、ミニブログ内のコンテンツをまとめたクエリ形態素(話題)のうち、ミニブログ内において注目度の高いクエリ形態素抽出するため、スコア算出手段41と、スコア管理データベース42と、を含む。
<Score calculation unit 40>
The score calculation unit 40 includes a score calculation unit 41 and a score management database 42 for extracting a query morpheme having a high degree of attention in the miniblog from among query morphemes (topics) in which contents in the miniblog are collected. .

スコア算出手段41は、マッピング部30でクエリ形態素に対応付けられたコンテンツの数に基づいて、ミニブログ内における当該クエリ形態素の注目度を算出する。具体的には、スコア算出手段41は、クエリ形態素に対応付けられたコンテンツそれぞれの注目度(ミニブログデータベースから算出される(図3参照))を加算することで、クエリ形態素の注目度を算出する。   The score calculation unit 41 calculates the degree of attention of the query morpheme in the miniblog based on the number of contents associated with the query morpheme by the mapping unit 30. Specifically, the score calculation means 41 calculates the attention level of the query morpheme by adding the attention level of each content associated with the query morpheme (calculated from the miniblog database (see FIG. 3)). To do.

スコア管理データベース42は、図7に示すように、クエリ形態素毎にスコア算出手段41が算出した注目度を記憶する。   As shown in FIG. 7, the score management database 42 stores the attention degree calculated by the score calculation unit 41 for each query morpheme.

<サジェスト部50>
サジェスト部50は、ユーザ端末120から検索用のクエリの入力を受け付けた場合に、ミニブログ内で注目度の高い話題を扱うコンテンツを提案するため、クエリ受付手段51と、サジェスト手段52と、を含む。
<Suggest 50>
When the suggestion unit 50 receives an input of a search query from the user terminal 120, the suggestion unit 50 proposes a query handling unit 51 and a suggestion unit 52 in order to propose content that deals with a topic of high interest in the miniblog. Including.

クエリ受付手段51は、ユーザ端末120から検索用のクエリの入力を受け付ける。また、サジェスト手段52は、クエリ受付手段51がユーザ端末120から受け付けたクエリに関連するクエリ形態素の注目度が所定以上であることを条件に、当該クエリ形態素に対応付けられたミニブログ内のコンテンツをユーザ端末120に提案する。
ここで、ユーザ端末120から受け付けたクエリに関連するクエリ形態素については任意に設定することができ、ユーザ端末120から受け付けたクエリに含まれる形態素(再連結された形態素を含む)を、関連するクエリ形態素としてもよく、また、ユーザ端末120から受け付けたクエリに近似する文字列からなるクエリ形態素を、関連するクエリ形態素としてもよい。なお、文字列同士の近似については、従来周知の方法で判別することができる。
The query receiving unit 51 receives an input of a search query from the user terminal 120. In addition, the suggestion unit 52 is the content in the miniblog associated with the query morpheme on condition that the query morpheme related to the query received by the query reception unit 51 from the user terminal 120 has a degree of attention or more. To the user terminal 120.
Here, the query morpheme related to the query received from the user terminal 120 can be arbitrarily set, and the morpheme (including the reconnected morpheme) included in the query received from the user terminal 120 is related to the query. A morpheme may be used, and a query morpheme including a character string approximate to a query received from the user terminal 120 may be used as a related query morpheme. The approximation between character strings can be determined by a conventionally known method.

[ミニブログ解析装置1の構成]
以上説明したミニブログ解析装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、ミニブログ解析装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[Configuration of Mini Blog Analysis Device 1]
The hardware of the miniblog analysis apparatus 1 described above can be configured by one or a plurality of general computers. For example, a general computer includes a central processing unit (CPU) as a control unit, and a memory (RAM, ROM), a hard disk (HDD), and an optical disk (CD, DVD, etc.) as a storage unit, and a network communication device. Various wired and wireless LAN devices as display devices, for example, various displays such as liquid crystal displays and plasma displays, and as input devices, for example, keyboards and pointing devices (mouse, tracking ball, etc.) Are connected by a bus line. In such a general computer, the CPU controls the miniblog analysis device 1 in an integrated manner, reads and executes various programs as appropriate, and cooperates with the hardware described above, thereby providing various functions according to the present invention. Is realized.

[ミニブログ解析装置1の処理]
続いて、図8〜図11を参照して、ミニブログ解析装置1の処理の流れについて説明する。
[Processing of miniblog analysis device 1]
Subsequently, a processing flow of the miniblog analysis apparatus 1 will be described with reference to FIGS.

[スコア算出処理]
図8を参照して、ミニブログ解析装置1のスコア算出処理について説明する。
初めに、クエリ解析部10は、図9で説明するクエリ形態素生成処理を行う(S1)。この処理では、クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索用のクエリ毎にクエリ形態素を生成する。
[Score calculation processing]
With reference to FIG. 8, the score calculation process of the miniblog analysis apparatus 1 will be described.
First, the query analysis unit 10 performs a query morpheme generation process described in FIG. 9 (S1). In this process, the query analysis unit 10 accesses the search log of the search management server 100 and generates a query morpheme for each search query.

続いて、コンテンツ解析部20及びマッピング部30は、図10で説明するマッピング処理を行う(S2)。この処理では、コンテンツ解析部20がミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログ内の1つのコンテンツ毎にコンテンツ形態素を生成するとともに、マッピング部30がクエリ形態素とミニブログ内のコンテンツとの対応付けを行う。   Subsequently, the content analysis unit 20 and the mapping unit 30 perform the mapping process described in FIG. 10 (S2). In this process, the content analysis unit 20 accesses the miniblog database of the miniblog management server 110 to generate a content morpheme for each piece of content in the miniblog, and the mapping unit 30 creates a query morpheme and content in the miniblog. Is associated.

続いて、スコア算出部40は、S2でクエリ形態素に対応付けられたコンテンツの数に基づいて、ミニブログ内におけるクエリ形態素の注目度を算出し(S3)、処理を終了する。例えば、スコア算出部40は、S2でクエリ形態素に対応付けられたコンテンツそれぞれの注目度を加算することで、クエリ形態素の注目度を算出する。   Subsequently, the score calculation unit 40 calculates the attention level of the query morpheme in the miniblog based on the number of contents associated with the query morpheme in S2 (S3), and ends the process. For example, the score calculation unit 40 calculates the attention level of the query morpheme by adding the attention level of each content associated with the query morpheme in S2.

[クエリ形態素生成処理]
次に、図9を参照して、クエリ形態素生成処理の詳細について説明する。
初めに、クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索ログから1つのクエリを抽出する(S11)。続いて、クエリ解析部10は、抽出したクエリを形態素解析し、クエリを構成する形態素の配列を抽出する(S12)。続いて、クエリ解析部10は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるクエリ形態素を生成し(S13)、クエリ形態素データベース12に記憶する(S14)。
[Query morpheme generation process]
Next, details of the query morpheme generation process will be described with reference to FIG.
First, the query analysis unit 10 accesses the search log of the search management server 100 and extracts one query from the search log (S11). Subsequently, the query analysis unit 10 performs morphological analysis on the extracted query, and extracts an array of morphemes constituting the query (S12). Subsequently, the query analysis unit 10 generates a query morpheme having various lengths by re-linking the morphemes included in the extracted morpheme array in the order of the array (S13), and stores them in the query morpheme database 12. (S14).

その後、クエリ解析部10は、対象となる全てのクエリに対してクエリ形態素の生成が終了したか否かを判定し(S15)、全てのクエリに対するクエリ形態素の生成が終了するまで、S11〜S14の処理を繰り返す。なお、対象となるクエリとは、検索ログに記憶された全てのクエリであってもよく、また、検索ログに記憶されたクエリのうちの検索数の多い所定の順位までのクエリであってもよい。   Thereafter, the query analysis unit 10 determines whether or not the generation of query morphemes has been completed for all the queries to be processed (S15), and S11 to S14 until the generation of query morphemes for all the queries is completed. Repeat the process. The target query may be all queries stored in the search log, or may be queries up to a predetermined rank with a large number of searches among the queries stored in the search log. Good.

[マッピング処理]
次に、図10を参照して、マッピング処理の詳細について説明する。
初めに、コンテンツ解析部20は、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログデータベースから1つのコンテンツを抽出する(S21)。続いて、コンテンツ解析部20は、抽出したコンテンツを形態素解析し、コンテンツを構成する形態素の配列を抽出する(S22)。続いて、コンテンツ解析部20は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるコンテンツ形態素を生成し(S23)、コンテンツ形態素データベース22に記憶する(S24)。
[Mapping process]
Next, details of the mapping process will be described with reference to FIG.
First, the content analysis unit 20 accesses the miniblog database of the miniblog management server 110 and extracts one content from the miniblog database (S21). Subsequently, the content analysis unit 20 performs morphological analysis on the extracted content, and extracts an array of morphemes constituting the content (S22). Subsequently, the content analysis unit 20 reconnects the morphemes included in the extracted morpheme array in the order of the array to generate content morphemes having various lengths (S23), and stores them in the content morpheme database 22. (S24).

続いて、マッピング部30は、S1で生成したクエリ形態素に基づいて、S23で生成したコンテンツ形態素を検索し(S25)、クエリ形態素とコンテンツ形態素とが一致するか否かを判定する(S26)。このとき、クエリ形態素と一致するコンテンツ形態素がある場合には、一致したクエリ形態素(クエリ毎に最も長いクエリ形態素のみ)とコンテンツとを対応付けてマッピングデータベース32に記憶する(S27)。一致しない場合又はS27でマッピングデータベース32に記憶した後、マッピング部30は、検索を行っていないクエリ形態素があるか否かを判定する(S28)。このとき、未だ検索を行っていないクエリ形態素がある場合には、マッピング部30は、S25〜S27の処理を繰り返す。   Subsequently, the mapping unit 30 searches the content morpheme generated in S23 based on the query morpheme generated in S1 (S25), and determines whether the query morpheme and the content morpheme match (S26). At this time, if there is a content morpheme that matches the query morpheme, the matched query morpheme (only the longest query morpheme for each query) and the content are associated with each other and stored in the mapping database 32 (S27). If they do not match or are stored in the mapping database 32 in S27, the mapping unit 30 determines whether there is a query morpheme that has not been searched (S28). At this time, if there is a query morpheme that has not been searched yet, the mapping unit 30 repeats the processes of S25 to S27.

他方、全てのクエリ形態素について検索が終了した場合には、マッピング部30は、他のコンテンツがあるか否かを判定する(S29)。このとき、他のコンテンツがある場合には、コンテンツ解析部20及びマッピング部30は、当該コンテンツに対して、S21〜S28の処理を繰り返す。他方、全てのコンテンツに対して終了した場合には、マッピング処理を終了する。   On the other hand, when the search is completed for all the query morphemes, the mapping unit 30 determines whether there is other content (S29). At this time, if there is other content, the content analysis unit 20 and the mapping unit 30 repeat the processes of S21 to S28 for the content. On the other hand, when the process is completed for all contents, the mapping process is terminated.

[サジェスト処理]
次に、図11を参照して、ミニブログ解析装置1のサジェスト処理について説明する。
初めに、サジェスト部50は、ユーザ端末120から検索に用いるクエリの入力を受け付ける(S51)。続いて、サジェスト部50は、受け付けたクエリに関連するクエリ形態素を特定するとともに(S52)、当該クエリ形態素のミニブログ内の注目度をスコア管理データベース42から取得し、当該注目度が所定以上であるか否かを判定する(S53)。このとき、注目度が所定以上である場合には、サジェスト部50は、クエリ形態素に対応するコンテンツをスコア管理データベース42から取得し、ユーザ端末120に対して提案し(S54)、サジェスト処理を終了する。他方、S53で注目度が所定以上でない場合には、サジェスト部50は、サジェスト処理を終了する。
[Suggest processing]
Next, referring to FIG. 11, a suggestion process of the miniblog analyzing apparatus 1 will be described.
First, the suggestion unit 50 receives an input of a query used for a search from the user terminal 120 (S51). Subsequently, the suggestion unit 50 specifies a query morpheme related to the received query (S52), acquires the attention level in the miniblog of the query morpheme from the score management database 42, and the attention level is equal to or higher than a predetermined level. It is determined whether or not there is (S53). At this time, when the degree of attention is greater than or equal to the predetermined level, the suggestion unit 50 acquires content corresponding to the query morpheme from the score management database 42 and proposes it to the user terminal 120 (S54), and ends the suggestion process. To do. On the other hand, if the attention level is not equal to or greater than the predetermined value in S53, the suggestion unit 50 ends the suggestion process.

以上、本発明のミニブログ解析装置1について説明した。本発明のミニブログ解析装置1では、ミニブログ内のコンテンツをクエリ形態素(話題)に基づいてまとめるとともに、クエリ形態素毎に算出した注目度が所定以上であるコンテンツをユーザ端末120に対して提案するため、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することができる。   The miniblog analysis apparatus 1 according to the present invention has been described above. In the miniblog analysis apparatus 1 of the present invention, the contents in the miniblog are grouped based on query morphemes (topics), and contents with a degree of attention calculated for each query morpheme greater than or equal to a predetermined value are proposed to the user terminal 120. Therefore, it is possible to accurately and automatically extract a topic with a high degree of attention in the miniblog.

[第2実施形態]
続いて、図12を参照して、第2実施形態のミニブログ解析装置1Aについて説明する。第2実施形態のミニブログ解析装置1は、上述の第1実施形態のミニブログ解析装置1と多くの点で重複するため、重複する部分は同一の符号を付すとともに説明を省力し、相違する部分を中心に説明する。
[Second Embodiment]
Next, a miniblog analysis apparatus 1A according to the second embodiment will be described with reference to FIG. Since the miniblog analysis apparatus 1 of the second embodiment overlaps in many respects with the miniblog analysis apparatus 1 of the first embodiment described above, the overlapping portions are denoted by the same reference numerals, and the description is saved and is different. The explanation will focus on the part.

第1実施形態のミニブログ解析装置1では、クエリ及びコンテンツの双方の形態素(クエリ形態素及びコンテンツ形態素)を生成し、生成したクエリ形態素とコンテンツ形態素との完全一致検索により、ミニブログ内のコンテンツとクエリとを対応付けていた。これに対して、第2実施形態のミニブログ解析装置1Aでは、コンテンツ形態素を生成することなく、クエリ形態素に基づいてコンテンツに対する部分一致検索、すなわち、コンテンツ内にクエリ形態素が含まれるか否かを検索することで、ミニブログ内のコンテンツとクエリとを対応付ける。   The miniblog analysis apparatus 1 of the first embodiment generates morphemes of both a query and content (query morphemes and content morphemes), and performs a complete match search between the generated query morphemes and content morphemes. Corresponding to the query. On the other hand, in the miniblog analysis apparatus 1A of the second embodiment, partial match search for the content based on the query morpheme without generating the content morpheme, that is, whether or not the query morpheme is included in the content. By searching, the contents in the miniblog are associated with the query.

図12を参照して、第2実施形態のミニブログ解析装置1Aは、第1実施形態のミニブログ解析装置1が備えていたコンテンツ解析部20を備えず、マッピング部30に代えてマッピング部30Aを備える。
マッピング部30Aは、クエリ形態素に基づいてコンテンツに対する部分一致検索ため、マッピング手段31Aと、マッピングデータベース32と、を含む。
Referring to FIG. 12, the miniblog analysis device 1A of the second embodiment does not include the content analysis unit 20 included in the miniblog analysis device 1 of the first embodiment, and instead of the mapping unit 30, the mapping unit 30A. Is provided.
The mapping unit 30A includes a mapping unit 31A and a mapping database 32 for partial match search for content based on a query morpheme.

マッピング手段31Aは、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、クエリ解析部10で生成された様々な長さからなるクエリ形態素に基づいてミニブログ内のコンテンツを検索し、複数のクエリ毎に当該コンテンツに含まれるクエリ形態素のうち最も長いクエリ形態素を特定する。そして、マッピング手段31Aは、特定したクエリ形態素とコンテンツとを対応付けてマッピングデータベース32に記憶する。このとき、マッピング手段31Aは、当該コンテンツのミニブログ内の注目度をミニブログ管理サーバ110のミニブログデータベースから取得し、マッピングデータベース32に併せて記憶しておくことが好ましい。   The mapping unit 31A accesses the miniblog database of the miniblog management server 110, searches the content in the miniblog based on the query morphemes having various lengths generated by the query analysis unit 10, and each of the plurality of queries. The longest query morpheme among the query morphemes included in the content is specified. Then, the mapping unit 31A stores the identified query morpheme and content in the mapping database 32 in association with each other. At this time, it is preferable that the mapping unit 31 </ b> A obtains the attention level in the miniblog of the content from the miniblog database of the miniblog management server 110 and stores it together with the mapping database 32.

このようなミニブログ解析装置1Aでも、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することができる。
なお、ミニブログ解析装置1Aでは、クエリ形態素を生成しコンテンツ形態素を生成しないこととしているが、コンテンツ形態素を生成しクエリ形態素を生成しないこととしてもよい。ただし、ミニブログ内のコンテンツは、検索ログに記憶されるクエリよりも文字列が長く、生成されるコンテンツ形態素がクエリ形態素よりも多くなるため、第2実施形態のミニブログ解析装置1Aのようにクエリ形態素を生成するほうが好ましい。
Even with such a miniblog analyzing apparatus 1A, it is possible to accurately and automatically extract a topic with a high degree of attention in the miniblog.
In the miniblog analyzing apparatus 1A, the query morpheme is generated and the content morpheme is not generated. However, the content morpheme may be generated and the query morpheme may not be generated. However, the content in the miniblog has a longer character string than the query stored in the search log, and the generated content morpheme is larger than the query morpheme. Therefore, like the miniblog analysis apparatus 1A of the second embodiment, It is preferable to generate a query morpheme.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

1,1A ミニブログ解析装置
11 クエリ解析手段
12 クエリ形態素データベース
21 コンテンツ解析手段
22 コンテンツ形態素データベース
31 マッピング手段
32 マッピングデータベース
41 スコア算出手段
42 スコア管理データベース
51 検索クエリ受付手段
52 サジェスト手段
100 検索管理サーバ
110 ミニブログ管理サーバ
120 ユーザ端末
DESCRIPTION OF SYMBOLS 1,1A Miniblog analysis apparatus 11 Query analysis means 12 Query morpheme database 21 Content analysis means 22 Content morpheme database 31 Mapping means 32 Mapping database 41 Score calculation means 42 Score management database 51 Search query reception means 52 Suggestion means 100 Search management server 110 Miniblog management server 120 User terminal

Claims (6)

投稿されたコンテンツから注目度の高い話題を解析する解析装置であって、
検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するクエリ解析手段と、
前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ抽出された前記形態素に基づいて前記投稿されたコンテンツを記憶したデータベースを検索し、前記クエリに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるマッピング手段と、
記データベースを参照し、前記マッピング手段により前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記コンテンツの数に基づいて、当該形態素の注目度を算出するスコア算出手段と、
を備える解析装置。
An analysis apparatus that to analyze the high-profile topic from posted content,
A morphological analysis of a plurality of queries stored in a search log, and a query analysis means for extracting a plurality of morphemes constituting each of the plurality of queries,
For each of the plurality of queries, search the database that stores the content that is the post on the basis of the morphemes extracted respectively by the query analyzing unit, the morphemes included in the query for each of the content Mapping means to associate;
Before referring to Kide database, based on the number of prior Kiko content including the morphemes associated with each of the content by the mapping means, and the score calculating means for calculating a degree of attention those said morphemes,
Analysis device Ru equipped with.
前記クエリ解析手段は、前記検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のクエリの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結して様々な長さからなるクエリ形態素をそれぞれ生成し、
前記マッピング手段は、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ生成された前記クエリ形態素に基づいて前記データベースを検索し、前記様々な長さからなるクエリ形態素のうち前記コンテンツに含まれる最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付け、
前記スコア算出手段は、前記クエリ形態素の注目度を算出する、
請求項1に記載の解析装置。
The query analysis means morphologically analyzes a plurality of queries stored in the search log, extracts an array of a plurality of morphemes that constitute each of the plurality of queries, and each of the plurality of queries Re-concatenate the morphemes contained in the array in the order of the arrays to generate query morphemes of various lengths, respectively.
It said mapping means, for each of the plurality of queries, search the previous Kide database based on the query morphemes respectively generated by the query analyzing unit, included in the content of the query morphemes consisting of the varying lengths Mapping the longest query morpheme to each of said content,
The score calculating unit calculates the degree of attention before Symbol query morphemes,
Analysis device according to claim 1.
前記投稿されたコンテンツのそれぞれについて、テキストコンテンツを形態素解析し、当該テキストコンテンツの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のテキストコンテンツの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結し様々な長さからなるコンテンツ形態素をそれぞれ生成するコンテンツ解析手段、を備え、
前記マッピング手段は、前記クエリ形態素と前記コンテンツ形態素との完全一致検索により最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付ける、
請求項2に記載の解析装置。
For each of the posted contents, morphological analysis of the text content is performed, and an array of a plurality of morphemes constituting each of the text contents is extracted, and each of the plurality of text contents is included in the array. Content analysis means for re-linking the morphemes to be generated in the order of arrangement and generating content morphemes of various lengths, respectively,
The mapping means associates the longest query morpheme with each of the contents by an exact match search of the query morpheme and the content morpheme,
Analysis device according to claim 2.
前記クエリ解析手段により生成された複数の前記クエリ形態素は、所定の文字列順序で並べられ、
前記マッピング手段は、前記所定の文字列順序に従い、前記クエリ形態素に基づく検索を行う、
請求項2又は3に記載の解析装置。
The plurality of query morphemes generated by the query analysis means are arranged in a predetermined character string order,
The mapping means performs a search based on the query morpheme according to the predetermined character string order.
Analysis device according to claim 2 or 3.
ユーザ端末から検索用のクエリの入力を受け付けることを契機として、当該クエリに関連する形態素の前記注目度が所定以上であることを条件に、前記投稿されたコンテンツから当該形態素を含むコンテンツを提案するサジェスト手段、
を備える請求項1から4のいずれかに記載の解析装置。
In response to receiving an input of a search query from a user terminal, a content including the morpheme is proposed from the posted content on the condition that the attention degree of the morpheme related to the query is not less than a predetermined level. Suggestion means,
Analysis device according to any one of claims 1 to 4, comprising a.
コンピュータが実行する、投稿されたコンテンツから注目度の高い話題を解析する方法であって、
検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するステップと、
前記複数のクエリ毎に、抽出された前記形態素に基づいて前記投稿されたコンテンツを記憶したデータベースを検索し、前記クエリに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるステップと、
記データベースを参照し、前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記コンテンツの数に基づいて、当該形態素の注目度を算出するステップと、
を含む方法。
A computer-implemented method of analyzing high-profile topics from posted content ,
Morphological analysis of a plurality of queries stored in the search log, and extracting a plurality of morphemes constituting each of the plurality of queries;
A step of for each of the plurality of queries, search the database that stores the content that is the post based on the extracted morphemes associates morphemes included in the query for each of the content,
Before referring to Kide database, based on the number of prior Kiko content including the morphemes associated with each of the content, a step of calculating the saliency of those said morphemes,
Including methods.
JP2011055989A 2011-03-14 2011-03-14 Analysis apparatus and method Active JP5295295B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011055989A JP5295295B2 (en) 2011-03-14 2011-03-14 Analysis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011055989A JP5295295B2 (en) 2011-03-14 2011-03-14 Analysis apparatus and method

Publications (2)

Publication Number Publication Date
JP2012194612A JP2012194612A (en) 2012-10-11
JP5295295B2 true JP5295295B2 (en) 2013-09-18

Family

ID=47086487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011055989A Active JP5295295B2 (en) 2011-03-14 2011-03-14 Analysis apparatus and method

Country Status (1)

Country Link
JP (1) JP5295295B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6279354B2 (en) * 2014-03-04 2018-02-14 Nttコムオンライン・マーケティング・ソリューション株式会社 Topic identification device and topic identification method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101583951B (en) * 2007-01-18 2012-02-15 富士通株式会社 keyword management system, and keyword management method
JP4969554B2 (en) * 2008-11-14 2012-07-04 ヤフー株式会社 Document search server and method using topic graph

Also Published As

Publication number Publication date
JP2012194612A (en) 2012-10-11

Similar Documents

Publication Publication Date Title
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
US8515969B2 (en) Splitting a character string into keyword strings
US9058393B1 (en) Tools for appraising a domain name using keyword monetary value data
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US8706728B2 (en) Calculating reliability scores from word splitting
US10810374B2 (en) Matching a query to a set of sentences using a multidimensional relevancy determination
US9916299B2 (en) Data sorting for language processing such as POS tagging
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
WO2015175931A1 (en) Language modeling for conversational understanding domains using semantic web resources
KR20160026892A (en) Non-factoid question-and-answer system and method
US20180032607A1 (en) Platform support clusters from computer application metadata
JP2011526383A (en) Proposal of resource locator from input string
JP2017509049A (en) Coherent question answers in search results
WO2008022581A1 (en) Method and device for obtaining the new words and input method system
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
US10553203B2 (en) Training data optimization for voice enablement of applications
KR102271361B1 (en) Device for automatic question answering
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US8909558B1 (en) Appraising a domain name using keyword monetary value data
WO2022134355A1 (en) Keyword prompt-based search method and apparatus, and electronic device and storage medium
JPWO2020026366A1 (en) Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
WO2020052060A1 (en) Method and apparatus for generating correction statement
JP5295295B2 (en) Analysis apparatus and method
CN109960752A (en) Querying method, device, computer equipment and storage medium in application program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130611

R150 Certificate of patent or registration of utility model

Ref document number: 5295295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250