JP2013235516A - Retrieval keyword presentation device, method, and program - Google Patents

Retrieval keyword presentation device, method, and program Download PDF

Info

Publication number
JP2013235516A
JP2013235516A JP2012108850A JP2012108850A JP2013235516A JP 2013235516 A JP2013235516 A JP 2013235516A JP 2012108850 A JP2012108850 A JP 2012108850A JP 2012108850 A JP2012108850 A JP 2012108850A JP 2013235516 A JP2013235516 A JP 2013235516A
Authority
JP
Japan
Prior art keywords
mesh
user
geographic
frequency
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012108850A
Other languages
Japanese (ja)
Other versions
JP5815467B2 (en
Inventor
Daisuke Sato
大祐 佐藤
Naoki Fujita
尚樹 藤田
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012108850A priority Critical patent/JP5815467B2/en
Publication of JP2013235516A publication Critical patent/JP2013235516A/en
Application granted granted Critical
Publication of JP5815467B2 publication Critical patent/JP5815467B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To present a keyword relating to an object region and characteristic for each user on the basis of position history information of the user.SOLUTION: A retrieval keyword presentation device according to the present invention analyzes a document set, converts geographic information in a document into mesh, stores unique representations in the document in a geographic mesh/unique representation frequency DB with their associated with the mesh, acquires position information where a user has been in the past for every user, and stores the frequency of position information in a user/geographic mesh frequency DB with its associated with the mesh. When a user ID and a retrieval object geographic range are input from the user, the retrieval keyword presentation device acquires a geographic mesh number and frequency information from the user/geographic mesh frequency DB on the basis of the user ID, acquires unique representations and the frequency information contained in the geographic mesh from the geographic mesh/unique representation frequency DB on the basis of the geographic mesh number, and outputs a unique representation characteristic for the user in each geographic mesh as a keyword.

Description

本発明は、検索キーワード提示装置及び方法及びプログラムに係り、特に、検索者が地理的範囲を地図の表示範囲や緯度経度情報を入力して検索を行うことができる文書検索サービスにおいて、その条件下で特徴的なキーワードを検索前に表示させることで検索者の検索を支援する機能を有する検索キーワード提示装置及び方法及びプログラムに関する。   The present invention relates to a search keyword presenting apparatus, method, and program, and in particular, in a document search service in which a searcher can perform a search by inputting a map display range or latitude / longitude information as a geographical range, under the conditions The present invention relates to a search keyword presentation apparatus, method, and program having a function of supporting a searcher's search by displaying characteristic keywords before search.

インターネット上の文書を検索する検索エンジンなどでは、現在どのようなキーワードでの検索が増加しているか解析を行い、増加しているキーワードを提示することで、検索者の検索を支援している(例えば、非特許文献1参照)。このような時間的に特徴的なキーワードを抽出するためには、検索対象文書の投稿時刻情報とその中に含まれるキーワードのデータや、検索エンジンの検索ログデータ(検索時刻と投入キーワード)を任意の単位(例として1日単位や1時間単位)で解析し、出現回数が急増した特徴的なキーワードを検出する。特徴的であるかは標準偏差やポアソン確率を用いることで判定可能である。例えば、管理図による手法では過去数日間(任意の期間)の移動平均値に対して3σ以上(σは標準偏差)上昇している場合に異常値と判定しており、その場合に特徴的であると判定することができる。検索対象文書のデータを使用する際には、形態素を連結させた連結候補を作成し、辞書の対情報と照合し、一致した対情報の固有表現状態を結合して置き換え候補を作成し、置き換え候補の形態素要素の重複を除き、固有表現付き形態素列中の形態素の固有表現識別子を抽出する技術(例えば、特許文献1参照)を用いれば文書内の固有表現のみを抽出することができるので、固有表現の組み合わせのデータとなり、上記検索ログデータと同様に特徴的なキーワードを抽出可能である。   Search engines that search documents on the Internet analyze what keywords are used to increase the search, and present search keywords to help searchers search ( For example, refer nonpatent literature 1). In order to extract such time-characteristic keywords, the posting time information of the search target document and the keyword data included in it, and the search log data of the search engine (search time and input keyword) are arbitrary. And a characteristic keyword whose number of appearances has increased rapidly. Whether it is characteristic or not can be determined by using standard deviation or Poisson probability. For example, in the method using the control chart, an abnormal value is determined when the moving average value has increased by 3σ or more (σ is a standard deviation) over the past several days (arbitrary period). It can be determined that there is. When using the data of the search target document, create a concatenation candidate that concatenates morphemes, collate with the pair information in the dictionary, create a replacement candidate by combining the specific expression states of the matched pair information, and replace Since it is possible to extract only a specific expression in a document by using a technique (for example, see Patent Document 1) that extracts a unique expression identifier of a morpheme in a morpheme string with a specific expression, excluding duplication of candidate morpheme elements, It becomes data of a combination of specific expressions, and characteristic keywords can be extracted in the same manner as the search log data.

また、文書内のテキストを解析して地名情報を特定する手法がある(例えば、非特許文献2参照)。この結果を用いることで各文書がどの地域に関係しているかを解析することが可能である。これを用いることで、予め用意しておいたキーワード集合がどの地域に関係付けられた文書で出現しているか解析でき、特定の地域で推薦するキーワードを抽出することが可能と考えられる。具体的な手法としては、地域を東西・南北それぞれ200mや緯度経度で8秒毎などの固定の値で区切り(メッシュと呼ぶ)、メッシュ毎に関連する文書集合中の各キーワードの頻度を分析する。複数のメッシュを含むある地域において、あるキーワードの頻度が全体の頻度分布中で特徴的に高い場合、そのキーワードは当該地域での推薦すべきキーワードであると判定できる。特徴的であるかは前記と同様に全メッシュにおける平均出現頻度に対して当該メッシュでの出現頻度が3σ(σは標準偏差)以上高い場合に特徴的と判断しても良いし、ポアソン確率を用いることで判定可能である。   In addition, there is a technique for identifying place name information by analyzing text in a document (see, for example, Non-Patent Document 2). By using this result, it is possible to analyze which region each document relates to. By using this, it is possible to analyze in which document a keyword set prepared in advance appears in a document related to it, and it is considered possible to extract a recommended keyword in a specific region. A specific method is to divide the region by fixed values such as 200m each in east / west / north / south and every 8 seconds in latitude / longitude (called mesh), and analyze the frequency of each keyword in the document set related to each mesh. . In a certain area including a plurality of meshes, if the frequency of a certain keyword is characteristically high in the overall frequency distribution, it can be determined that the keyword is a keyword to be recommended in the area. Whether or not it is characteristic may be judged as characteristic when the appearance frequency in the mesh is higher than the average appearance frequency in all meshes by 3σ (σ is the standard deviation) or more, as described above. It can be determined by using it.

地理的には緯度経度を8000ミリ秒毎に区切り、メッシュのデータとしては検索対象文書中で地理と時間が対応する文書に含まれるキーワードとその頻度情報が格納される。   Geographically, the latitude and longitude are divided every 8000 milliseconds, and the mesh data stores keywords and frequency information included in a document corresponding to geography and time in the search target document.

各メッシュ(複数選択可)で特徴的なキーワードを取得するためには、メッシュに含まれる全キーワードそれぞれに対して、ポアソン確率を計算することで可能である。ポアソン確率は下記の式で計算可能であり、その確率が高いキーワードが特徴的であると言える。   In order to acquire a characteristic keyword in each mesh (multiple selection is possible), Poisson probability can be calculated for each of all the keywords included in the mesh. The Poisson probability can be calculated by the following formula, and it can be said that a keyword having a high probability is characteristic.

Figure 2013235516
上記の式中に用いられている各変数は下記の通りである。
Figure 2013235516
Each variable used in the above formula is as follows.

・n : 全検索対象文書内の全キーワードの出現頻度
・s : 全検索対象文書内での当該キーワードの出現頻度
・k : 当該メッシュ内の全キーワードの出現頻度の合計
・r : 当該メッシュ内での当該キーワードの出現頻度
ただし、当該機能での計算においてn , sは事前に設定しておく。
・ N: Frequency of occurrence of all keywords in all search target documents ・ s: Frequency of occurrence of relevant keywords in all search target documents ・ k: Total appearance frequency of all keywords in the relevant mesh ・ r: Within the relevant mesh Appearance frequency of the keyword
However, n and s are set in advance in the calculation of the function.

特開2007-323271号公報JP 2007-323271 A

Google急上昇ワード http://www.***.co.jp/m/trendsGoogle soaring word http://www.***.com/m/trends 平野 徹,他:地理的距離と有名度を用いた地名の曖昧性解消 情報処理学会全国大会2008.Toru Hirano, et al .: Disambiguation of place names using geographical distance and famousity IPSJ National Convention 2008.

検索ユーザによって、検索対象地域に関して特徴的と感じるキーワードは異なる。しかし従来法では、日本全国の地域に比べてその土地に特徴的なキーワードを提示するため、ユーザによる違いに対応することはできなかった。   Depending on the search user, keywords that are characteristic of the search target area are different. However, the conventional method presents a keyword that is characteristic of the land compared to the entire region of Japan, so it could not cope with the differences between users.

例えば、北海道のある地域でラーメン店が大変有名だった場合、従来法では、そのラーメン店の店名をその地域に特徴的なキーワードとして提示することができる。しかし、そのラーメン店が、東京にも支店を持っている場合、東京に住んでいる検索ユーザにとって、そのラーメン店は特徴的なキーワードではないにもかかわらず、ユーザにキーワードを提示してしまう。   For example, if a ramen shop is very famous in a certain area in Hokkaido, the conventional method can present the name of the ramen shop as a keyword characteristic of the area. However, if the ramen store has a branch office in Tokyo, the search user who lives in Tokyo presents the keyword to the user even though the ramen store is not a characteristic keyword.

また、例えば日本全国に展開しているチェーン店の店名は、従来法ではその土地に特徴的でないとされ提示されにくい。しかし、そのチェーン店がチェーン展開していない地域に住んでいる検索ユーザにとって、そのチェーン店の店舗名は、提示されるべきキーワードであるといえる。   In addition, for example, the names of chain stores that are developed all over Japan are not characteristic of the land in the conventional method and are difficult to present. However, for a search user living in an area where the chain store is not chained, the store name of the chain store is a keyword to be presented.

本発明は、上記の点に鑑みなされたもので、ユーザの位置履歴情報をもとに、各ユーザにとって特徴的な、対象地域に関するキーワードを提示することが可能な検索キーワード提示装置及び方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points. A search keyword presenting apparatus, method, and program capable of presenting a keyword related to a target area, which is characteristic for each user, based on the user's position history information. The purpose is to provide.

本発明は、上記の課題を解決するため、本発明(請求項1)は、ユーザから入力された検索対象地理範囲に含まれる地域において該ユーザに特徴的なキーワードを提示する検索キーワード提示装置であって、
文書集合中の各文書から固有表現、地名表現、地理情報を抽出し、該地理情報をメッシュ番号に変換し、該メッシュ番号毎に、各固有表現の数を合計して地理メッシュ・固有表現頻度DBに格納する地理メッシュ・固有表現頻度DB作成手段と、
ユーザが過去に存在していた位置情報をユーザIDと対応付けて保持する位置履歴DBと、
前記位置履歴DBの位置情報を、メッシュ番号に変換し、前記ユーザID毎に地理メッシュ番号と該位置情報の頻度を求め、ユーザ地理メッシュ頻度DBに格納するユーザ・地理メッシュ頻度DB作成手段と、
ユーザからユーザIDと検索対象地理範囲が入力されると、該ユーザIDに基づいて前記ユーザ・地理メッシュ頻度DBから該地理メッシュ番号と頻度情報を取得し、該地理メッシュ番号に基づいて前記地理メッシュ・固有表現頻度DBから該地理メッシュに含まれる固有表現と頻度情報を取得し、各地理メッシュにおいて該ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と、を有する。
In order to solve the above-mentioned problems, the present invention (Claim 1) is a search keyword presentation device for presenting a keyword characteristic to a user in an area included in a search target geographical area input by the user. There,
A unique expression, place name expression, and geographic information are extracted from each document in the document set, the geographic information is converted into a mesh number, and the number of each unique expression is summed for each mesh number to obtain a geographic mesh / specific expression frequency. Geographic mesh / specific expression frequency DB creation means for storing in DB,
A location history DB that stores location information that the user has existed in the past in association with the user ID;
User / geographic mesh frequency DB creating means for converting the position information of the position history DB into a mesh number, obtaining a geographical mesh number for each user ID and the frequency of the position information, and storing in the user geographic mesh frequency DB;
When a user ID and a search target geographic area are input from a user, the geographic mesh number and frequency information are acquired from the user / geographic mesh frequency DB based on the user ID, and the geographic mesh is based on the geographic mesh number. A keyword extraction unit that acquires the unique expression and frequency information included in the geographic mesh from the unique expression frequency DB and extracts a keyword characteristic for the user in each geographic mesh.

また、本発明(請求項2)は、前記キーワード抽出手段において、
前記地理メッシュに含まれる全固有表現のそれぞれに対して、ポアソン確率を求め、該ポアソン確率の高い上位N件の固有表現をキーワードとして出力する手段を含む。
Further, the present invention (Claim 2) provides the keyword extracting means,
Means for obtaining a Poisson probability for each of the unique expressions included in the geographic mesh and outputting the top N unique expressions having a high Poisson probability as keywords.

上記のように、本発明によれば、検索ユーザ毎に、ユーザが普段いる地域と比較して、検索対象地域に特徴的なキーワードを提示することが可能となる。これにより、ユーザが普段見慣れているキーワードの提示を防ぎ、また全国に広く分布しているが、ユーザにとっては普段見慣れていないようなキーワードを提示することができる。   As described above, according to the present invention, it is possible to present, for each search user, a keyword that is characteristic of the search target area as compared to the area where the user is usually present. Thereby, it is possible to prevent the keyword that the user is normally familiar with, and to present a keyword that is widely distributed throughout the country but is not familiar to the user.

本発明の一実施の形態における検索キーワード提示装置の構成図である。It is a block diagram of the search keyword presentation apparatus in one embodiment of this invention. 本発明の一実施の形態における地理メッシュ・固有表現頻度DBの例である。It is an example of geographic mesh and specific expression frequency DB in one embodiment of this invention. 本発明の一実施の形態における位置履歴DBの例である。It is an example of position history DB in one embodiment of the present invention. 本発明の一実施の形態におけるユーザ・地理メッシュ頻度DBの例である。It is an example of user and the geographic mesh frequency DB in one embodiment of this invention. 本発明の一実施の形態におけるユーザ・地理メッシュ頻度DB作成部のフローチャートである。It is a flowchart of the user and geographic mesh frequency DB creation part in one embodiment of this invention. 本発明の一実施の形態におけるキーワード抽出部のフローチャートである。It is a flowchart of the keyword extraction part in one embodiment of this invention.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本発明の一実施の形態における検索キーワード提示装置の構成を示す。   FIG. 1 shows the configuration of a search keyword presentation device in an embodiment of the present invention.

同図に示す検索キーワード提示装置は、位置履歴DB1、ユーザ・地理メッシュ頻度DB2、検索対象文書群DB3、地理メッシュ・固有表現頻度DB4、ユーザ地理メッシュDB作成部10、地理メッシュ固有表現頻度DB作成部20、キーワード抽出部30を有する。   The search keyword presenting device shown in FIG. 1 includes a position history DB1, a user / geographic mesh frequency DB2, a search target document group DB3, a geomesh / inherent expression frequency DB4, a user geomesh mesh DB creation unit 10, and a geomesh mesh specific expression frequency DB. Section 20 and keyword extraction section 30.

最初に、前処理として、ユーザ・地理メッシュDB作成部10がユーザ・地理メッシュ頻度DB2を作成し、地理メッシュ・固有表現頻度DB作成部20が地理メッシュ・固有表現頻度DB4を作成する。   First, as preprocessing, the user / geographic mesh DB creation unit 10 creates the user / geographic mesh frequency DB 2, and the geographic mesh / specific expression frequency DB creation unit 20 creates the geographic mesh / specific expression frequency DB 4.

地理メッシュ・固有表現頻度DB作成部20は、検索対象文書群DB3から検索対象文書を読み込んで解析し、各メッシュに格納するデータを抽出・計算し、地理メッシュ・固有表現頻度DB4に格納する。当該処理は従来技術と同様である。   The geographic mesh / specific expression frequency DB creation unit 20 reads and analyzes a search target document from the search target document group DB 3, extracts / calculates data to be stored in each mesh, and stores the data in the geographic mesh / specific expression frequency DB 4. This process is the same as in the prior art.

ユーザ・地理メッシュDB作成部10は、GPSやWifi(登録商標)情報などからユーザの普段いる地域とその頻度をユーザ・地理メッシュ頻度DB2に格納する。本実施の形態では、GPSやWifi(登録商標)情報の代わりに、検索システムにおける、地域情報を検索した際の操作履歴(位置履歴DB1)を用いるものとする。   The user / geographic mesh DB creation unit 10 stores the user's usual area and its frequency in the user / geographic mesh frequency DB 2 from GPS, Wifi (registered trademark) information, and the like. In this embodiment, instead of GPS and Wifi (registered trademark) information, an operation history (location history DB1) when searching for regional information in the search system is used.

キーワード抽出部30は、前処理で作成してあるユーザ・地理メッシュDB2と地理メッシュ・固有表現頻度DB4を用いて、検索者が指定した地理的範囲に応じて、地理的範囲に関連したユーザにとって特徴的なキーワードを出力する。   The keyword extraction unit 30 uses the user / geographic mesh DB 2 and the geographic mesh / specific expression frequency DB 4 created in the pre-processing, according to the geographical range specified by the searcher, for the user related to the geographical range. Output characteristic keywords.

以下に、前処理とキーワード抽出処理について詳細に説明する。   Hereinafter, the preprocessing and the keyword extraction processing will be described in detail.

<前処理>
前処理として、地理メッシュ・固有表現頻度DB2及びユーザ地理メッシュDB4を作成する。以下、それぞれのDB作成部について説明を記述する。
<Pretreatment>
As preprocessing, a geographic mesh / specific expression frequency DB2 and a user geographic mesh DB4 are created. Hereinafter, description will be given for each DB creation unit.

地理メッシュ・固有表現頻度DB作成部20は、検索対象文書群DB3の文書集合中の各文書からDB作成に必要な情報を抽出する。   The geographic mesh / specific expression frequency DB creation unit 20 extracts information necessary for DB creation from each document in the document set of the search target document group DB3.

まず、文書中の固有表現を抽出する。固有表現の抽出などには、前述の特許文献1等で示される従来の手法を用いることができる。   First, a specific expression in a document is extracted. The conventional method shown in the above-mentioned Patent Document 1 can be used for extraction of the proper expression.

次に、文書中に記述された地名と思われる表現を抽出する。地名は必ずしも完全な住所でなくとも、断片的な地名(例えば「浜松」など)でも構わない。これには前述の非特許文献2等で示される従来の手法を用いることができる。   Next, an expression that seems to be a place name described in the document is extracted. The place name is not necessarily a complete address, but may be a fragmentary place name (for example, “Hamamatsu”). For this, the conventional method shown in the above-mentioned Non-Patent Document 2 or the like can be used.

次に、抽出した地名表現から緯度経度情報を抽出する。単純には地名とその領域が記された辞書を用意しておき、文書中に表れる地名をパターンマッチする方法を使うことができる。   Next, latitude and longitude information is extracted from the extracted place name expression. You can simply prepare a dictionary with place names and their areas, and use the pattern matching method for place names appearing in the document.

次に、地理情報の緯度及び経度それぞれを8000ミリ秒単位など任意の単位で集約して番号を決定する。例えば日本の西端、南端をそれぞれ0番として、8000ミリ秒単位で1番、2番と番号を決定し、各緯度及び経度を番号に変換する。このように固定の値で区切った地理情報を地理メッシュと呼び、変換された経度番号、緯度番号を合わせて地理メッシュ番号とする。   Next, the numbers are determined by aggregating the latitude and longitude of the geographic information in arbitrary units such as 8000 milliseconds. For example, the west end and the south end of Japan are each set to 0, numbers 1 and 2 are determined in units of 8000 milliseconds, and each latitude and longitude are converted into numbers. Geographic information divided by fixed values in this way is called a geographic mesh, and the converted longitude number and latitude number are combined into a geographic mesh number.

地理メッシュ番号例: 5350-6000 (緯度番号-経度番号)
地理メッシュ番号毎に、各固有表現の数を合計して、地理メッシュ・固有表現頻度DB4に格納する。地理メッシュ・固有表現頻度DB4の例を図2に示す。
Geographic mesh number example: 5350-6000 (Latitude number-Longitude number)
For each geographic mesh number, the number of each unique expression is totaled and stored in the geographic mesh / specific expression frequency DB 4. An example of the geographic mesh / specific expression frequency DB 4 is shown in FIG.

次に、ユーザ・地理メッシュ頻度DB作成部10の処理について説明する。   Next, processing of the user / geographic mesh frequency DB creation unit 10 will be described.

ユーザ・地理メッシュ頻度DB作成部10は、ユーザIDと紐づいた位置情報を保持する位置履歴DB1を用いて、ユーザ・地理メッシュDB2を作成する。位置履歴DB1における位置情報は、GPS情報やWifi(登録商標)の位置情報などから取得することが可能である。また、システム利用した際の検索地理範囲の履歴を代用することも可能である。図3に位置履歴DB1の例を示す。位置履歴DB1は、ユーザIDと位置履歴(緯度・経度)を保持する。   The user / geographic mesh frequency DB creation unit 10 creates the user / geographic mesh DB 2 using the position history DB 1 that holds position information associated with the user ID. The position information in the position history DB 1 can be acquired from GPS information, Wifi (registered trademark) position information, or the like. It is also possible to substitute the history of the search geo area when the system is used. FIG. 3 shows an example of the position history DB1. The position history DB 1 holds a user ID and a position history (latitude / longitude).

ユーザ・地理メッシュ頻度DB作成部10は、位置履歴DB1中の位置情報を、地理メッシュ・固有表現頻度DB4と同様に地理メッシュ番号に変換する。ユーザID毎に地理メッシュ番号と頻度を求め、ユーザID毎に1レコードに格納する。図4にユーザ地理メッシュ頻度DB2の例を示す。   The user / geographic mesh frequency DB creation unit 10 converts the position information in the position history DB 1 into a geographic mesh number in the same manner as the geographic mesh / specific expression frequency DB 4. The geographic mesh number and frequency are obtained for each user ID, and stored in one record for each user ID. FIG. 4 shows an example of the user geographic mesh frequency DB2.

図5は、本発明の一実施の形態におけるユーザ・地理メッシュ頻度DB作成部のフローチャートである。   FIG. 5 is a flowchart of the user / geographic mesh frequency DB creation unit according to the embodiment of the present invention.

ステップ101) ユーザ・地理メッシュ頻度DB作成部10は、位置履歴DB1に含まれるユーザIDをキーとして、位置履歴DB1より位置情報を取得する。   Step 101) The user / geographic mesh frequency DB creation unit 10 acquires position information from the position history DB 1 using the user ID included in the position history DB 1 as a key.

ステップ102) 取得した位置情報を地理・メッシュに変換する。   Step 102) The acquired position information is converted into geography / mesh.

ステップ103) 地理メッシュ毎に位置情報の頻度をカウントする。   Step 103) The frequency of location information is counted for each geographic mesh.

ステップ104) ユーザIDとユーザIDに紐付く全ての地位メッシュとその頻度をユーザ・地理メッシュ頻度DB2に格納する。   Step 104) The user ID and all the status meshes associated with the user ID and their frequencies are stored in the user / geographic mesh frequency DB2.

ステップ015) 一履歴DB1の全てのユーザについて処理が終了すれば当該処理を終了し、未処理のユーザがある場合はステップ101に移行する。   Step 015) If the process is completed for all the users in one history DB 1, the process is terminated. If there is an unprocessed user, the process proceeds to Step 101.

<キーワード抽出処理>
次に、キーワード抽出部30の処理について説明する。
<Keyword extraction process>
Next, the process of the keyword extraction unit 30 will be described.

キーワード抽出部30は、検索者のユーザIDと、検索者が指定した検索対象地理範囲(例ではメッシュID)を入力として、検索対象地理範囲に含まれる地域で、検索者にとって特徴的なキーワードを出力する。   The keyword extraction unit 30 receives a searcher's user ID and a search target geographical area (mesh ID in the example) designated by the searcher as an input, and selects a keyword characteristic for the searcher in an area included in the search target geographical area. Output.

図6は、本発明の一実施の形態におけるキーワード抽出部のフローチャートである。   FIG. 6 is a flowchart of the keyword extraction unit in one embodiment of the present invention.

ステップ201) キーワード抽出部30は、ユーザID及び検索対象地理範囲(地理メッシュ番号)を取得する。   Step 201) The keyword extraction unit 30 acquires a user ID and a search target geographical range (geographic mesh number).

ステップ202) 入力として受け取ったユーザIDをキーに、ユーザ・地理メッシュ頻度DB2より、地理メッシュ番号とその頻度情報を取得する。   Step 202) Using the user ID received as an input as a key, the geographic mesh number and its frequency information are acquired from the user / geographic mesh frequency DB2.

ステップ203) 次に、取得した地理メッシュ番号をキーとして、地理メッシュ・固有表現頻度DB4より、地理メッシュに含まれる固有表現とその頻度情報を取得する。   Step 203) Next, the unique representation and its frequency information included in the geographic mesh are acquired from the geographic mesh / specific representation frequency DB 4 using the acquired geographic mesh number as a key.

ステップ204) 全ての地理メッシュ番号について上記の処理が終了した場合はステップ205に移行し、全ての地理メッシュ番号に対する処理が終わっていなければステップ203に戻る。   Step 204) If the above process is completed for all geographic mesh numbers, the process proceeds to step 205. If the process for all geographic mesh numbers is not completed, the process returns to step 203.

ステップ205) 入力及び2つのDBから取得した情報を用いて、各地理メッシュにおいてユーザにとって特徴的なキーワードを取得する。特徴的なキーワードを取得するために、地理メッシュに含まれる全キーワードそれぞれに対して、ポアソン確率を計算することで可能である。ポアソン確率は、下記の式で計算可能であり、その確率が高いキーワードが特徴的であると言える。   Step 205) Using the input and the information obtained from the two DBs, obtain a keyword characteristic for the user in each geographic mesh. In order to obtain characteristic keywords, Poisson probabilities can be calculated for all keywords included in the geographic mesh. The Poisson probability can be calculated by the following formula, and it can be said that a keyword having a high probability is characteristic.

Figure 2013235516
ここで、式中に用いられている各変数は下記の通りである。
Figure 2013235516
Here, each variable used in the formula is as follows.

・i :取得した地理メッシュ集合に含まれる地理メッシュ;
・ni :地理メッシュiに含まれる全キーワードの頻度;
・si :地理メッシュiに含まれる当該キーワードの頻度;
・fi :地理メッシュiの頻度;
・k :検索対象地理メッシュ内の全キーワードの出現頻度の合計;
・r :当該メッシュ内での当該キーワードの出現頻度;
検索対象地理メッシュ内の全てのキーワードについてポアソン確率を計算したのち、ポアソン確率が高い上位の語を出力する。
I: Geographic mesh included in the acquired geographic mesh set;
N i : frequency of all keywords included in geographic mesh i;
S i : frequency of the keyword included in the geographic mesh i;
F i : frequency of geographic mesh i;
K: total appearance frequency of all keywords in the search target geographic mesh;
R: Frequency of occurrence of the keyword in the mesh;
After calculating the Poisson probabilities for all the keywords in the search target geography mesh, the top words with high Poisson probabilities are output.

上記の処理により、普段からユーザが見慣れているキーワードの提示を防ぎ、自分にとっては珍しいキーワードであれば、周辺地域に広く分布しているものも提示できる。   By the above processing, it is possible to prevent the keyword that the user is familiar with from being presented normally, and it is also possible to present a keyword that is widely distributed in the surrounding area if it is an unusual keyword for the user.

なお、図1に示す検索キーワード提示装置の上記の動作をプログラムとして構築し、検索キーワード提示装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The above operation of the search keyword presenting apparatus shown in FIG. 1 can be constructed as a program and installed in a computer used as the search keyword presenting apparatus for execution, or distributed via a network.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

1 位置履歴DB
2 ユーザ・地理メッシュ頻度DB
3 検索対象文書群DB
4 地理メッシュ・固有表現頻度DB
10 ユーザ・地理メッシュDB作成部
20 地理メッシュ・固有表現頻度DB作成部
30 キーワード抽出部
1 Location history DB
2 User / Geographic mesh frequency DB
3 Search target document group DB
4 Geographic mesh / specific expression frequency DB
10 User / geographic mesh DB creation unit 20 Geographic mesh / specific expression frequency DB creation unit 30 Keyword extraction unit

Claims (7)

ユーザから入力された検索対象地理範囲に含まれる地域において該ユーザに特徴的なキーワードを提示する検索キーワード提示装置であって、
文書集合中の各文書から固有表現、地名表現、地理情報を抽出し、該地理情報をメッシュ番号に変換し、該メッシュ番号毎に、各固有表現の数を合計して地理メッシュ・固有表現頻度DBに格納する地理メッシュ・固有表現頻度DB作成手段と、
ユーザが過去に存在していた位置情報をユーザIDと対応付けて保持する位置履歴DBと、
前記位置履歴DBの位置情報を、メッシュ番号に変換し、前記ユーザID毎に地理メッシュ番号と該位置情報の頻度を求め、ユーザ地理メッシュ頻度DBに格納するユーザ・地理メッシュ頻度DB作成手段と、
ユーザからユーザIDと検索対象地理範囲が入力されると、該ユーザIDに基づいて前記ユーザ・地理メッシュ頻度DBから該地理メッシュ番号と頻度情報を取得し、該地理メッシュ番号に基づいて前記地理メッシュ・固有表現頻度DBから該地理メッシュに含まれる固有表現と頻度情報を取得し、各地理メッシュにおいて該ユーザにとって特徴的なキーワードを抽出するキーワード抽出手段と、
を有することを特徴とする検索キーワード提示装置。
A search keyword presentation device for presenting a keyword characteristic to a user in an area included in a search target geographical area input by the user,
A unique expression, place name expression, and geographic information are extracted from each document in the document set, the geographic information is converted into a mesh number, and the number of each unique expression is summed for each mesh number to obtain a geographic mesh / specific expression frequency. Geographic mesh / specific expression frequency DB creation means for storing in DB,
A location history DB that stores location information that the user has existed in the past in association with the user ID;
User / geographic mesh frequency DB creating means for converting the position information of the position history DB into a mesh number, obtaining a geographical mesh number for each user ID and the frequency of the position information, and storing in the user geographic mesh frequency DB;
When a user ID and a search target geographic area are input from a user, the geographic mesh number and frequency information are acquired from the user / geographic mesh frequency DB based on the user ID, and the geographic mesh is based on the geographic mesh number. A keyword extraction means for acquiring the unique expression and frequency information included in the geographic mesh from the unique expression frequency DB and extracting a keyword characteristic for the user in each geographic mesh;
A search keyword presentation device characterized by comprising:
前記キーワード抽出手段は、
前記地理メッシュに含まれる全固有表現のそれぞれに対して、ポアソン確率を求め、該ポアソン確率の高い上位N件の固有表現をキーワードとして出力する手段を含む
請求項1記載の検索キーワード提示装置。
The keyword extracting means includes
The search keyword presentation device according to claim 1, further comprising means for obtaining a Poisson probability for each of all the unique expressions included in the geographic mesh and outputting the top N unique expressions having a high Poisson probability as keywords.
ユーザから入力された検索対象地理範囲に含まれる地域において該ユーザに特徴的なキーワードを提示する検索キーワード提示方法であって、
地理メッシュ・固有表現頻度DB作成手段が、文書集合を解析し、文書内の地理情報をメッシュに変換し、該文書内の固有表現をメッシュに対応付けて地理メッシュ・固有表現頻度DBに格納する地理メッシュ・固有表現頻度DB作成ステップと、
ユーザ・地理メッシュDB作成手段が、ユーザ毎に、該ユーザが過去に存在していた位置情報を取得して、メッシュに対応付けて位置情報の頻度をユーザ・地理メッシュ頻度DBに格納するユーザ・地理メッシュDB作成ステップと、
キーワード抽出手段が、ユーザからユーザIDと検索対象地理範囲が入力されると、該ユーザIDに基づいて前記ユーザ・地理メッシュ頻度DBから該地理メッシュ番号と頻度情報を取得し、該地理メッシュ番号に基づいて前記地理メッシュ・固有表現頻度DBから該地理メッシュに含まれる固有表現と頻度情報を取得し、各地理メッシュにおいて該ユーザにとって特徴的な固有表現を抽出するキーワード抽出ステップと、
を行うことを特徴とする検索キーワード提示方法。
A search keyword presenting method for presenting a keyword characteristic to the user in an area included in the search target geographical range input by the user,
The geographic mesh / specific expression frequency DB creation means analyzes the document set, converts the geographic information in the document into a mesh, associates the specific expression in the document with the mesh, and stores it in the geographic mesh / specific expression frequency DB. Geographic mesh / specific expression frequency DB creation step,
The user / geographic mesh DB creation means acquires, for each user, position information that the user has existed in the past, and stores the frequency of the position information in the user / geographic mesh frequency DB in association with the mesh. Geographic mesh DB creation step,
When a user ID and a search target geographic range are input from a user, the keyword extraction means acquires the geographic mesh number and frequency information from the user / geographic mesh frequency DB based on the user ID, and stores the geographic mesh number in the geographic mesh number. A keyword extraction step of acquiring a specific expression and frequency information included in the geographical mesh from the geographical mesh / specific expression frequency DB based on the geographical mesh and extracting a characteristic specific expression for the user in each geographical mesh;
The search keyword presentation method characterized by performing.
前記キーワード抽出ステップにおいて、
前記地理メッシュに含まれる全固有表現のそれぞれに対して、ポアソン確率を求め、該ポアソン確率の高い上位N件の固有表現をキーワードとして出力する
請求項3記載の検索キーワード提示方法。
In the keyword extraction step,
4. The search keyword presenting method according to claim 3, wherein a Poisson probability is obtained for each of all the unique expressions included in the geographic mesh, and the top N unique expressions having a high Poisson probability are output as keywords.
前記地理メッシュ・固有表現頻度DB作成ステップにおいて、
前記文書集合中の各文書から固有表現、地名表現、地理情報を抽出し、該地理情報をメッシュ番号に変換し、該メッシュ番号毎に、各固有表現の数を合計して前記地理メッシュ・固有表現頻度DBに格納する
請求項3記載の検索キーワード提示方法。
In the geographic mesh / specific expression frequency DB creation step,
A unique expression, a place name expression, and geographic information are extracted from each document in the document set, the geographic information is converted into a mesh number, and the number of each unique expression is summed for each mesh number. The search keyword presentation method according to claim 3, which is stored in the expression frequency DB.
前記ユーザ・地理メッシュ頻度DB作成ステップにおいて、
前記位置履歴DBの位置情報を、メッシュ番号に変換し、前記ユーザID毎に地理メッシュ番号と該位置情報の頻度を求め、前記ユーザ地理メッシュ頻度DBに格納する
請求項3記載の検索キーワード提示方法。
In the user / geographic mesh frequency DB creation step,
The search keyword presenting method according to claim 3, wherein the position information in the position history DB is converted into a mesh number, a geographic mesh number and a frequency of the position information are obtained for each user ID, and stored in the user geographic mesh frequency DB. .
コンピュータを、
請求項1または2に記載の検索キーワード提示装置の各手段として機能させるための検索キーワード提示プログラム。
Computer
The search keyword presentation program for functioning as each means of the search keyword presentation apparatus of Claim 1 or 2.
JP2012108850A 2012-05-10 2012-05-10 Search keyword presentation device, method, and program Expired - Fee Related JP5815467B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012108850A JP5815467B2 (en) 2012-05-10 2012-05-10 Search keyword presentation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012108850A JP5815467B2 (en) 2012-05-10 2012-05-10 Search keyword presentation device, method, and program

Publications (2)

Publication Number Publication Date
JP2013235516A true JP2013235516A (en) 2013-11-21
JP5815467B2 JP5815467B2 (en) 2015-11-17

Family

ID=49761572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012108850A Expired - Fee Related JP5815467B2 (en) 2012-05-10 2012-05-10 Search keyword presentation device, method, and program

Country Status (1)

Country Link
JP (1) JP5815467B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044512A (en) * 2001-07-27 2003-02-14 Dainippon Printing Co Ltd Server for searching activity area and server for recomending information
JP2003216613A (en) * 2002-01-17 2003-07-31 Fujitsu Ltd Method and apparatus for providing area information
US20040078750A1 (en) * 2002-08-05 2004-04-22 Metacarta, Inc. Desktop client interaction with a geographical text search system
US20110071881A1 (en) * 2009-09-18 2011-03-24 Microsoft Corporation Mining life pattern based on location history
US8041730B1 (en) * 2006-10-24 2011-10-18 Google Inc. Using geographic data to identify correlated geographic synonyms
JP2011221665A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> User attribute analyzing device, method and program
JP2012089019A (en) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Document retrieval keyword presentation apparatus and document retrieval keyword presentation program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044512A (en) * 2001-07-27 2003-02-14 Dainippon Printing Co Ltd Server for searching activity area and server for recomending information
JP2003216613A (en) * 2002-01-17 2003-07-31 Fujitsu Ltd Method and apparatus for providing area information
US20040078750A1 (en) * 2002-08-05 2004-04-22 Metacarta, Inc. Desktop client interaction with a geographical text search system
US8041730B1 (en) * 2006-10-24 2011-10-18 Google Inc. Using geographic data to identify correlated geographic synonyms
US20110071881A1 (en) * 2009-09-18 2011-03-24 Microsoft Corporation Mining life pattern based on location history
JP2011221665A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> User attribute analyzing device, method and program
JP2012089019A (en) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Document retrieval keyword presentation apparatus and document retrieval keyword presentation program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
小池 義昌 他: "地域情報の発見を支援する時空間マップ型Web技術", NTT技術ジャーナル, vol. 24, no. 5, JPN6015027217, 1 May 2012 (2012-05-01), JP, pages 24 - 28, ISSN: 0003155502 *
藤田 尚樹 他: "地域特有の話題発見につながるスマートフォン向け検索サービス:発見探地図エリアダス", DEIM2012 第4回データ工学と情報マネジメントに関するフォーラム 論文集, vol. Vol.2012,No.F8-2, JPN6015027216, 5 March 2012 (2012-03-05), JP, pages 1 - 8, ISSN: 0003111710 *
西崎 剛司 他: "地域限定性を考慮した情報推薦における語句抽出の傾向とノイズの徐庶", DEIM2011 第3回データ工学と情報マネージメントに関するフォーラム 論文集, vol. Vol.2011,No.B1-6, JPN6015027218, 27 July 2011 (2011-07-27), JP, pages 1 - 8, ISSN: 0003155503 *

Also Published As

Publication number Publication date
JP5815467B2 (en) 2015-11-17

Similar Documents

Publication Publication Date Title
Venerandi et al. Measuring urban deprivation from user generated content
US10755178B2 (en) System and method for determining credibility of information based on many remarks on a network, and non-transitory computer readable storage medium having stored thereon computer program therefor
JP6411800B2 (en) Information management apparatus, information management system, and information management program
CN102779114A (en) Unstructured data support generated by utilizing automatic rules
Glomb et al. Popularity of the cult of Asclepius in the times of the Antonine Plague: Temporal modeling of epigraphic evidence
Ljubešić et al. TweetGeo-a tool for collecting, processing and analysing geo-encoded linguistic data
EP2973063A1 (en) Method, apparatus, and computer-readable medium for contextual data mining
CN104166659A (en) Method and system for map data duplication judgment
JP5639549B2 (en) Information retrieval apparatus, method, and program
CN110209780A (en) A kind of question template generation method, device, server and storage medium
AU2018273369A1 (en) Automated classification of network-accessible content
CN109241395B (en) Keyword analysis-based test question network duplicate elimination and retrieval method
JP5815467B2 (en) Search keyword presentation device, method, and program
JP5604406B2 (en) Information retrieval apparatus, method, and program
JP5798081B2 (en) Information retrieval apparatus, method, and program
JP5801243B2 (en) Feature keyword recommendation device, method and program
JP2013045435A (en) Keyword related place name extraction device, method and program
JP5090490B2 (en) Representative notation extraction apparatus, method and program
JP5155351B2 (en) Map data processing apparatus and method
JP5792871B1 (en) Representative spot output method, representative spot output device, and representative spot output program
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity
Gray et al. Advances in crowdsourcing: Surveys, social media and geospatial analysis: Towards a big data toolkit
JP2006195535A (en) Information extractor, information extraction method, and information extraction program
JP5806971B2 (en) Region estimation apparatus, method, and program
JPWO2014207912A1 (en) Information providing apparatus, information providing method, and information providing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150924

R150 Certificate of patent or registration of utility model

Ref document number: 5815467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees