JP5416723B2 - Document search apparatus, document search method, and document search program - Google Patents

Document search apparatus, document search method, and document search program Download PDF

Info

Publication number
JP5416723B2
JP5416723B2 JP2011013073A JP2011013073A JP5416723B2 JP 5416723 B2 JP5416723 B2 JP 5416723B2 JP 2011013073 A JP2011013073 A JP 2011013073A JP 2011013073 A JP2011013073 A JP 2011013073A JP 5416723 B2 JP5416723 B2 JP 5416723B2
Authority
JP
Japan
Prior art keywords
range
geographical
score
document
mesh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011013073A
Other languages
Japanese (ja)
Other versions
JP2012155468A (en
Inventor
宜仁 安田
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011013073A priority Critical patent/JP5416723B2/en
Publication of JP2012155468A publication Critical patent/JP2012155468A/en
Application granted granted Critical
Publication of JP5416723B2 publication Critical patent/JP5416723B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書の集合からユーザ入力の検索キーワード(検索語)とユーザが関心を持つ地理的範囲の双方に関連する電子文書を検索する技術に関する。   The present invention relates to a technique for searching an electronic document related to both a search keyword (search term) input by a user and a geographical range in which a user is interested from a set of electronic documents.

近年、インターネットの普及によって、インターネット上の膨大な電子文書(Webページ、以下文書と省略する。)の集合から、ユーザが必要とする情報を含む文書を的確に検索する検索エンジンの重要性が高まっている。   In recent years, with the spread of the Internet, the importance of search engines that accurately search documents including information required by users from a large collection of electronic documents (Web pages, hereinafter abbreviated as documents) on the Internet has increased. ing.

この文書検索の利用方法としては、検索キーワードに併せて興味対象の地理的範囲を検索条件として検索エンジンに与えることにより、検索キーワードおよび地理的範囲の位置情報と関連する情報の文書を検索することが少なくない。この地理的情報検索を提供する検索エンジンとしては、例えば特許文献1の検索装置が知られている。   As a method of using this document search, a document of information related to the search keyword and the position information of the geographical range is searched by giving the search engine a geographical range of interest as a search condition in addition to the search keyword. There are many. As a search engine that provides this geographical information search, for example, a search device of Patent Document 1 is known.

このような地理情報検索は、検索キーワードと興味対象の地理的範囲の双方に関連する文書が存在する場合には効果的であるものの、場所によってはその場所に言及した文書が極めて少ないため、検索結果としての関連文書が存在しない場合がある。そこで、ユーザは、より多くの文書に該当するように検索キーワードを変更するか、あるいは地理的範囲を変更して検索を試行する。特に探したい情報の検索キーワードが決まっている場合には地理的範囲を変更することとなる。   Such a geographic information search is effective when there are documents related to both the search keyword and the geographical range of interest, but depending on the location, there are very few documents that mention that location. The resulting related document may not exist. Therefore, the user changes the search keyword so as to correspond to a larger number of documents, or changes the geographical range to try the search. In particular, when a search keyword for information to be searched is determined, the geographical range is changed.

特開2009−134463JP 2009-134463 A

平野徹,松尾義博,菊井玄一郎 ”地理的距離と有名度を用いた地名の曖昧性解消” 情報処理学会全国大会講演論文集,2008Toru Hirano, Yoshihiro Matsuo, Genichiro Kikui “Resolving ambiguity of place names using geographical distance and famousness” Proceedings of IPSJ National Convention, 2008 ”街区レベル位置参照情報” 「online」、国土交通省、「平成23年1月13日検索」、インターネット<URL:http:nlftp.go.jp/isj/>“Block level location reference information” “online”, Ministry of Land, Infrastructure, Transport and Tourism, “January 13, 2011 search”, Internet <URL: http: nlftp.go.jp/isj/> 安田宜仁,戸田浩之 ”検索位置のごく周辺を対象とした地理情報検索”,人工知能学会論文誌,23巻5号C(2008年)Yoshihito Yasuda, Hiroyuki Toda "Retrieval of Geographical Information Targeting the Very Near Search Location", Journal of the Japanese Society for Artificial Intelligence, Vol. 23, No. 5 (2008)

しかしながら、従来の地理情報検索だけを用いる場合、検索キーワードと地理的範囲の双方を指定しないといけいない。地理的範囲は地理情報検索の実装方法によって様々ではあるが、例えば特許文献1では数キロメートルの範囲を想定してある。   However, if only the conventional geographic information search is used, both the search keyword and the geographical range must be specified. The geographical range varies depending on the implementation method of the geographic information search. For example, Patent Document 1 assumes a range of several kilometers.

もし、関心のあるキーワードだけが決まっていて、その検索キーワードに関連している情報がどの地理的範囲であれば得られるか分からない場合、ユーザは地理的範囲を逐一選択し直しながら、検索の試行を繰り返す必要があり、これではユーザの検索効率が悪化するおそれがある。このため、少ない検索の試行で所望の情報を得られるような検索キーワードと検索対象の地理的範囲との対を把握できるような方法が求められている。   If only the keyword of interest is determined and you do not know which geographic area provides information related to the search keyword, the user can re-select the geographic area It is necessary to repeat the trial, and this may reduce the search efficiency of the user. For this reason, there is a demand for a method capable of grasping a pair of a search keyword and a geographical range to be searched so that desired information can be obtained with a small number of search trials.

本発明は、このような従来技術の問題点を解決するためになされたものであり、ユーザに検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供することを解決課題としている。   The present invention has been made to solve such problems of the prior art, and provides an information search service that allows a user to easily grasp the relationship between a document group that matches a search keyword and a geographical range. Providing is a solution issue.

そこで、本発明は、地理的情報検索にあたってユーザ端末から入力された検索キーワードと併せてユーザ端末に表示された地図画面の表示範囲を利用する。すなわち、ユーザ端末から入力された検索キーワードに関連する各文書の集合に応じた地理範囲の集合を求める。この地理的範囲に基づき地図画面の表示範囲を区分した各メッシュのスコアを算出し、算出されたスコアを地図画面の表示範囲に反映させ、検索キーワードに関連する文書の地理的分布をユーザに提示する。   Therefore, the present invention uses the display range of the map screen displayed on the user terminal together with the search keyword input from the user terminal in the geographical information search. That is, a set of geographic ranges corresponding to a set of documents related to the search keyword input from the user terminal is obtained. Based on this geographical range, the score of each mesh that divides the display range of the map screen is calculated, the calculated score is reflected in the display range of the map screen, and the geographical distribution of documents related to the search keyword is presented to the user To do.

本発明の一態様は、ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置であって、前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定手段と、前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出手段と、前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画手段と、を備える。   One aspect of the present invention is an apparatus for searching for an electronic document related to a search keyword input to a user terminal and a range of a map screen displayed on the terminal, from each electronic document related to the search keyword Geographic range specifying means for extracting a geographical expression, specifying a geographical range indicated by each extracted geographical expression, and a score of a mesh obtained by dividing the map range in arbitrary units, and the geographical range including the mesh Score calculating means for calculating according to the size of the image, and image drawing means for drawing an image reflecting the score of each mesh in the range of the map screen and presenting it to the user.

本発明の他の態様は、ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置の文書検索方法であって、前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定ステップと、前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出ステップと、前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画ステップと、を有する。   Another aspect of the present invention is a document search method for a device that searches for an electronic document related to a search keyword input to a user terminal and a range of a map screen displayed on the terminal, and relates to the search keyword Extracting a geographical expression from each electronic document, specifying a geographical area indicated by each extracted geographical expression, and obtaining a score of a mesh obtained by dividing the map area in arbitrary units. A score calculating step for calculating according to the size of the geographic range to be included; and an image drawing step for drawing an image reflecting the score of each mesh in the range of the map screen and presenting the image to the user.

なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。   In addition, this invention is good also as an aspect of the program which makes a computer function as said apparatus. This program can be provided through a network or a recording medium.

本発明によれば、検索キーワードに関連する文書の地理的分布がユーザに提示されるため、検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供でき、ユーザ所望の情報に到達する試行回数を削減することができる。   According to the present invention, since the geographical distribution of documents related to the search keyword is presented to the user, an information search service that can easily grasp the relationship between the document group matching the search keyword and the geographical range is provided. It is possible to reduce the number of attempts to reach the information desired by the user.

本発明の実施形態に係る文書検索装置の構成図。1 is a configuration diagram of a document search apparatus according to an embodiment of the present invention. 同 処理フロー図。FIG. 同 地理範囲特定部の処理フロー図。The processing flow figure of the same geographical area specific part. 同 メッシュ地理スコア算出部の処理フロー図。The processing flow figure of the same mesh geographic score calculation part.

≪装置構成例≫
図1に基づき本発明の実施形態に係る文書検索装置の構成例を説明する。この装置1は、ユーザ端末2に情報検索サービスを提供し、ユーザ端末2とインターネット経由でデータ通信が可能に接続されている。
≪Example of device configuration≫
A configuration example of a document search apparatus according to an embodiment of the present invention will be described based on FIG. The device 1 provides an information search service to the user terminal 2 and is connected to the user terminal 2 so that data communication is possible via the Internet.

このユーザ端末2は、ユーザが前記装置1にアクセスして情報検索サービスを利用するための端末であればよく、例えばパーソナルコンピュータ(PC)や携帯電話などが該当する。この情報検索サービスのうち地理的情報検索の利用にあたってユーザは、ユーザ端末2に入力された検索キーワードと併せてユーザが興味を有するエリアの範囲を送信する。ここでは一例としてユーザ端末2の画面表示部(例えば液晶パネル)に現在表示されている地図画面(地図画像)の表示範囲を検索キーワードと併せて送信し、検索を命令するものとする。この表示範囲は、ユーザ端末2の画面表示部に表示された地図画面の四方の座標あるいは対角2点の座標とする。   The user terminal 2 may be a terminal for a user to access the device 1 and use an information search service, and corresponds to a personal computer (PC), a mobile phone, or the like. In using the geographical information search in the information search service, the user transmits an area range in which the user is interested together with the search keyword input to the user terminal 2. Here, as an example, the display range of the map screen (map image) currently displayed on the screen display unit (for example, liquid crystal panel) of the user terminal 2 is transmitted together with the search keyword, and the search is instructed. This display range is the coordinates of four directions or the coordinates of two diagonal points of the map screen displayed on the screen display unit of the user terminal 2.

前記装置1は、事前に「WWW(World Wide Web)」から収集された検索対象の文書集合を対象に処理を行う。この対象を文書集合Sとする。また、前記装置1は、地理的情報検索にあたって日本地図あるいは世界地図の全体を緯度経度それぞれ決められた度数で区切った矩形(以下、メッシュと呼ぶ。)を単位として取り扱う。そして、前記地図画面の表示範囲のメッシュ毎に検索キーワードとマッチする文書群との関連性を示し、ユーザに提示する。ただし、ユーザ端末2から前記地図画面の範囲の送信がなければ、通常のキーワード検索が行われる。   The apparatus 1 performs processing on a document set to be searched that has been collected in advance from “WWW (World Wide Web)”. This object is a document set S. Further, the device 1 handles a rectangle (hereinafter referred to as a mesh) obtained by dividing the entire map of Japan or the world map by a frequency determined in accordance with latitude and longitude when searching for geographical information. Then, for each mesh in the display range of the map screen, the relevance with the document group matching the search keyword is shown and presented to the user. However, if there is no transmission of the range of the map screen from the user terminal 2, a normal keyword search is performed.

具体的には、前記装置1は、検索エンジンのサーバにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信デバイスなどを備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記装置1は、送受信部3.文書検索部4.転置インデックスDB5.地理範囲特定部6.文書内正規住所DB7.正規住所−地理範囲DB8.メッシュ地理スコア算出部9.地図重畳画像描画部10を実装する。この送受信部3は、前記通信デバイスを通じてユーザ端末2から検索キーワードと前記地図画面の表示範囲とを受信する。ここで受信した検索キーワードを文書検索部4に送る一方、前記地図画面の表示範囲を前記スコア算出部9および前記描画部10に送る。   Specifically, the device 1 is configured by a search engine server, and includes hardware resources of a normal computer such as a CPU, a memory (RAM), a hard disk drive device, a communication device, and the like. As a result of the cooperation between the hardware resource and the software resource (OS. Application, etc.), the apparatus 1 receives the transmission / reception unit 3. Document search unit 4. Inverted index DB5. 5. Geographic range identification unit Regular address DB in document7. Regular address-geographic range DB8. 8. Mesh geographic score calculation unit The map superimposed image drawing unit 10 is implemented. The transmission / reception unit 3 receives the search keyword and the display range of the map screen from the user terminal 2 through the communication device. The search keyword received here is sent to the document search unit 4, while the display range of the map screen is sent to the score calculation unit 9 and the drawing unit 10.

前記各DB5.7.8は、メモリ(RAM)あるいはハードディスクドライブ装置などの記憶装置に構築されているものとする。ここで前記DB5には文書集合Sの転置インデックス(文書番号.単語.位置情報など)が格納されている。   Each DB 5.7.8 is constructed in a storage device such as a memory (RAM) or a hard disk drive device. Here, the transposition index (document number, word, position information, etc.) of the document set S is stored in the DB 5.

前記DB7には、文書集合Sの各文書中に出現しうる地名と想定される表現(地名表現)の正規住所を格納している。ここでは事前に文書集合Sの各文書中に出現する各表現のうち地名を記述していると想定される地名表現を抽出し、抽出された地名表現を住所化して文書毎に地名表現と正規住所とがペアに格納されているものとする。この手法としては、例えば非特許文献1などで示される従来手法を用いることができ、文書中の地名と想定される表現は必ずしも正規の住所表現でなくともよく、断片的な地名(例えば「浜松」など)でもよい。   The DB 7 stores a regular address of an expression (place name expression) assumed to be a place name that can appear in each document of the document set S. Here, a place name expression assumed to describe a place name is extracted from each expression appearing in each document of the document set S in advance, and the extracted place name expression is converted into an address, and the place name expression and the regularity for each document are extracted. Assume that addresses are stored in pairs. As this method, for example, a conventional method shown in Non-Patent Document 1 or the like can be used, and an expression assumed as a place name in a document does not necessarily have to be a regular address expression. Etc.).

前記DB8には、各地名の正規の住所表現に対応する最小外接矩形(その地名を含む最も小さな矩形、MBR)の位置情報が格納されている。格納される情報としては、MBRの両端座標が好ましい。表1は、前記DB8の格納データ例を示している。ここでは一例として「東京都千代田区大手町二丁目」を含む最小外接矩形の対角線の座標と、「東京都千代田区大手町」を含む最小外接矩形の対角線の座標とが示されている。   The DB 8 stores position information of a minimum circumscribed rectangle (smallest rectangle including the place name, MBR) corresponding to the regular address expression of each place name. As the information to be stored, both end coordinates of MBR are preferable. Table 1 shows an example of data stored in the DB8. Here, as an example, the coordinates of the diagonal of the smallest circumscribed rectangle including “Otemachi 2-chome, Chiyoda-ku, Tokyo” and the coordinates of the diagonal of the smallest circumscribed rectangle including “Otemachi, Chiyoda-ku, Tokyo” are shown.

Figure 0005416723
Figure 0005416723

このような前記DB8の格納データは、事前に人手により作成してもよく、あるいは非特許文献2に示すように、地名とその代表点を保持するような地名辞書から各地名に対応する矩形を近似的に得ることも可能である。この場合には非特許文献3の「3−1 事前処理」で示された方法などを用いてもよい。   Such stored data in the DB 8 may be created manually in advance, or, as shown in Non-Patent Document 2, a rectangle corresponding to each place name is obtained from a place name dictionary that holds place names and their representative points. It is also possible to obtain approximately. In this case, the method shown in “3-1 Pre-processing” of Non-Patent Document 3 may be used.

文書検索部4は、通常の検索エンジンのキーワードマッチングを担当し、送受信部3から送られた検索キーワードを入力とし、前記DB5を参照して検索キーワードを含む文書群、即ち検索キーワードに関連する文書群の各文書番号を文書集合Sから収集する。ここで収集された文書番号は地理範囲特定部6に送られる。   The document search unit 4 is responsible for keyword matching of a normal search engine, receives the search keyword sent from the transmission / reception unit 3, and refers to the DB 5 as a document group including the search keyword, that is, a document related to the search keyword. Each document number of the group is collected from the document set S. The document numbers collected here are sent to the geographic area specifying unit 6.

地理範囲特定部6は、文書検索部4から送られた文書群の文書番号を入力とし、該各文書に含まれる地名表現を抽出し、抽出された各地名表現の示す地理範囲を特定する。すなわち、地理範囲特定部6は、前記DB7を参照して入力された文書番号を持つ各文書の地理的表現が示す正規住所を抽出し、前記DB8を参照して抽出された各正規住所に対応する地理範囲を特定する。ここで特定された地理範囲群は前記スコア算出部9に送られる。   The geographic range specifying unit 6 receives the document number of the document group sent from the document search unit 4, extracts the place name expression included in each document, and specifies the geographic range indicated by the extracted local name expression. That is, the geographic range specifying unit 6 extracts the regular address indicated by the geographical representation of each document having the document number input with reference to the DB 7 and corresponds to each regular address extracted with reference to the DB 8 Identify the geographic area you want. The geographical range group specified here is sent to the score calculation unit 9.

前記スコア算出部9には、地理範囲特定部6から送られた地理範囲集合と、送受信部3から送られた前記地図画面の表示範囲とが入力される。ここでは前記スコア算出部9は、前記地図画面の表示範囲を区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出する。算出された各メッシュのスコアは、前記描画部10に送られる。   The score calculation unit 9 receives the geographic range set sent from the geographic range specifying unit 6 and the display range of the map screen sent from the transmission / reception unit 3. Here, the score calculation unit 9 calculates the score of the mesh that divides the display range of the map screen according to the size of the geographical range that includes the mesh. The calculated score of each mesh is sent to the drawing unit 10.

前記描画部10は、前記スコア算出部9で算出された各メッシュのスコアと、送受信部3から送られた前記地図画面の表示範囲とが入力される。ここでは前記地図画面の表示範囲に各メッシュのスコアを反映させるために該表示範囲と重ね合わせる画像を描画し、送受信部3に送る。描画する画像は、前記地図画面の表示範囲でメッシュ群のスコアの大小を表示するものとする。   The drawing unit 10 receives the score of each mesh calculated by the score calculation unit 9 and the display range of the map screen sent from the transmission / reception unit 3. Here, in order to reflect the score of each mesh in the display range of the map screen, an image to be superimposed on the display range is drawn and sent to the transmission / reception unit 3. The drawn image displays the score of the mesh group within the display range of the map screen.

そして、送受信部3は、前記描画部10から出力された画像をユーザ端末2に送信し、前記画面表示部に表示させる。これにより検索キーワードに関連する文書の地理的な分布をユーザに提示でき、ユーザは所望の情報に到達する試行回数を削減することができる。   And the transmission / reception part 3 transmits the image output from the said drawing part 10 to the user terminal 2, and displays it on the said screen display part. As a result, the geographical distribution of documents related to the search keyword can be presented to the user, and the user can reduce the number of attempts to reach the desired information.

≪具体的な処理内容≫
以下、図2に基づき前記装置1の具体的な処理内容を説明する。ここでは前記各DB5.7.8には既に必要なデータがすべて格納されているものとする。また、ユーザ端末2からは検索キーワードおよび前記地図画面の表示範囲(四方の座標あるいは対角2点の座標)が送信され、送受信部3に受信されているものとする。
≪Specific processing contents≫
Hereinafter, specific processing contents of the apparatus 1 will be described with reference to FIG. Here, it is assumed that all necessary data has already been stored in each DB 5.7.8. Further, it is assumed that the search keyword and the display range of the map screen (four-way coordinates or two diagonal coordinates) are transmitted from the user terminal 2 and received by the transmission / reception unit 3.

S01:処理が開始されると文書検索部4は、通常の検索エンジンと同様に送受信部3から送られた検索キーワードに基づき前記DB5の転置インデックスを検索して検索キーワードに関連する文書群の各文書番号を取得する。ここでは転置インデックスを用いた一般的な文書検索の手法を用いることができる。   S01: When the processing is started, the document search unit 4 searches the transposed index of the DB 5 based on the search keyword sent from the transmission / reception unit 3 in the same manner as a normal search engine, and each document group related to the search keyword. Get the document number. Here, a general document search method using an inverted index can be used.

S02.S03:地理範囲特定部6は、S01で得られた文書番号を持つ各文書、即ち検索キーワードに関連する各文書内に含まれる地名表現を特定する(S02)。ここで特定された地名表現に対応する地理範囲を抽出する(S03)。この地理範囲は矩形を示し、対角の座標によって表現されているものとする。   S02. S03: The geographic range specifying unit 6 specifies a place name expression included in each document having the document number obtained in S01, that is, each document related to the search keyword (S02). A geographic range corresponding to the place name expression specified here is extracted (S03). This geographical range indicates a rectangle and is expressed by diagonal coordinates.

図3に基づきS02.S03の処理内容を説明すれば、地理範囲特定部6は処理が開始されると結果格納集合Kを初期化し(S11)、つぎにS01で検索された文書番号順に次の処理を繰り返して行う(S12.S12a)。すなわち、文書番号をキーに前記DB7の格納データを探索し、該文書中に出現する地名表現の正規住所を取得する(S13)。ここで取得された正規住所をキーに前記DB8の格納データを探索し、該正規住所に対応する地理範囲、即ち矩形の対角座標を取得し、結果格納集合Kに追加する(S14)。   Based on FIG. Explaining the processing contents of S03, the geographic area specifying unit 6 initializes the result storage set K when the processing is started (S11), and then repeats the following processing in the order of the document numbers searched in S01 ( S12. S12a). That is, the stored data in the DB 7 is searched using the document number as a key, and the regular address of the place name expression appearing in the document is acquired (S13). The storage data in the DB 8 is searched using the acquired regular address as a key, and the geographical range corresponding to the regular address, that is, the diagonal coordinates of the rectangle is acquired and added to the result storage set K (S14).

この処理をすべての文書番号順に繰り返した(S12.S12a)後に結果格納集合Kを前記スコア算出部9に出力し(S15)、処理を終了する。なお、結果格納集合Kはメモリ(RAM)やハードディスクドライブ装置などに記憶されているものとする。   After repeating this process in the order of all document numbers (S12.S12a), the result storage set K is output to the score calculation unit 9 (S15), and the process is terminated. It is assumed that the result storage set K is stored in a memory (RAM) or a hard disk drive device.

S04:前記スコア算出部9は、送受信部3から送られた前記地図画面の表示範囲をメッシュ化し、各メッシュのスコアを算出する。すなわち、前記スコア算出部9は、前述のように日本地図あるいは世界地図の全体を緯度経度それぞれ決められた度数で区切った矩形単位のメッシュとして取り扱う。このメッシュの大きさは文書集合Sや地図の性質などに応じて任意に設定できるものとする。ここでは概ね500m四方の矩形図形を想定している。   S04: The score calculation unit 9 meshes the display range of the map screen sent from the transmission / reception unit 3, and calculates the score of each mesh. That is, the score calculation unit 9 treats the whole of the Japan map or the world map as a mesh in a rectangular unit that is divided by the degrees determined by latitude and longitude as described above. The size of the mesh can be arbitrarily set according to the document set S, the nature of the map, and the like. Here, a rectangular figure approximately 500 m square is assumed.

各メッシュのスコア算出には、検索キーワードに関連する文書に含まれる地理範囲を反映させるため、S15で出力された結果格納集合Kを利用する。したがって、算出されるスコアは、検索キーワードにマッチする文書の地理範囲とメッシュとの関連度を示している。図4に基づきスコア算出の処理内容を説明すれば、前記スコア算出部9は、処理が開始されると前記地図画面の表示範囲内に含まれる各メッシュiについて次の処理を繰り返す(S21.S21a)。   In calculating the score of each mesh, the result storage set K output in S15 is used to reflect the geographical range included in the document related to the search keyword. Therefore, the calculated score indicates the degree of association between the geographical range of the document matching the search keyword and the mesh. If the processing content of score calculation is demonstrated based on FIG. 4, the said score calculation part 9 will repeat the following process about each mesh i contained in the display range of the said map screen, if a process is started (S21.S21a). ).

まず、処理対象のメッシュiのスコアSiを「Si=0」の初期値とする(S22)。つぎに結果格納集合K中、メッシュiの位置に対応する地理範囲、即ちメッシュiを包含する地理範囲を探索し、探索された地理範囲毎にS24の処理を繰り返す(S23.S23a)。S24では、「メッシュiを包含する地理範囲の値N=1/地理範囲の広さ(面積)」を算出し、算出結果をSiに加算する。ここで「N=地理的範囲の広さ(面積)の逆数」とするのは、メッシュiを包含する地理的範囲の広さ(面積)に反比例させてスコアSiを算出するためである。例えばメッシュiが「東京都千代田区大手町二丁目」の矩形であれば、地理範囲「東京都千代田区大手町」は該メッシュi以外も包含するため、地理的範囲「東京都千代田区大手町二丁目」とスコアSiに与える影響を等価とする必要は無い。この場合には地理範囲「東京都千代田区大手町」の値Nを、地理的範囲「東京都千代田区大手町二丁目」の値Nよりも小さくし、文書の地理的表現と前記地図画面の表示範囲との関連性を正確に把握する。   First, the score Si of the mesh i to be processed is set as an initial value of “Si = 0” (S22). Next, in the result storage set K, a geographic range corresponding to the position of the mesh i, that is, a geographic range including the mesh i is searched, and the process of S24 is repeated for each searched geographic range (S23.S23a). In S24, “the value of the geographic range including the mesh i N = 1 / the width (area) of the geographic range” is calculated, and the calculation result is added to Si. Here, “N = reciprocal of the area (area) of the geographical range” is to calculate the score Si in inverse proportion to the area (area) of the geographical range including the mesh i. For example, if the mesh i is a rectangle of “Otemachi 2-chome, Chiyoda-ku, Tokyo”, the geographical range “Otemachi, Chiyoda-ku, Tokyo” includes other than the mesh i, so the geographical range “Otemachi, Chiyoda-ku, Tokyo” It is not necessary to equalize the effect on the score “Si”. In this case, the value N of the geographical range “Otemachi, Chiyoda-ku, Tokyo” is made smaller than the value N of the geographical range “Otemachi 2-chome, Chiyoda-ku, Tokyo”, and the geographical representation of the document and the map screen Accurately understand the relationship with the display range.

このようにメッシュiを包含する地理範囲毎に値NをスコアSiに順次加算していくことにより(S23.S23a)、処理対象のメッシュiのスコアSiが算出される。したがって、メッシュ毎にS22〜S24の処理を繰り返すことで(S21.S21a)、前記地図画面の表示範囲に含まれる全メッシュのスコアが算出され、これをもって処理を終了する。なお、S22.S24のステップについては、非特許文献3の「4−1 ノイズとなる地名の除去」に示すように、文書内の地理範囲を事前にクラスタリングし、ノイズと想定される地理範囲を除去する方法も利用することもできる。   Thus, by sequentially adding the value N to the score Si for each geographic range including the mesh i (S23.S23a), the score Si of the mesh i to be processed is calculated. Therefore, by repeating the processing of S22 to S24 for each mesh (S21.S21a), the scores of all the meshes included in the display range of the map screen are calculated, and the processing is terminated. S22. As for the step of S24, as shown in “4-1 Removal of Place Names as Noise” in Non-Patent Document 3, a method of clustering geographical ranges in a document in advance and removing a geographical range assumed to be noise is also available. It can also be used.

S05:前記描画部10は、S04で算出された各メッシュiのスコアSiに基づき送受信部3から送られた前記地図画面の表示範囲に重ね合わせる画像を描画する。ここで描画する画像は、前記地図画面の表示範囲でメッシュi群のスコアS1の大小を表せればよく、例えばスコアSiの大小に応じた棒グラフや色の選択を用いることができる。   S05: The drawing unit 10 draws an image to be superimposed on the display range of the map screen sent from the transmission / reception unit 3 based on the score Si of each mesh i calculated in S04. The image drawn here only needs to represent the magnitude of the score S1 of the mesh i group in the display range of the map screen. For example, a bar graph or color selection corresponding to the magnitude of the score Si can be used.

ここで色の選択による描画を一例に説明すれば、前記地図画面の表示範囲内のすべてのメッシュの領域をスコアSiに応じた色をもって塗りつぶす。このとき色の選択方法は、例えばスコアを概ね「1,000〜1,600」の間になるように正規化し、その値を色温度とみなして対応する色を出力する方法などを用いることが可能である。このように前記地図画面の表示範囲内におけるすべてのメッシュの領域について、何らかの色で塗りつぶした画像を作成し、作成した画像を送受信部3に送る。   Here, if drawing by color selection is described as an example, all mesh areas in the display range of the map screen are filled with a color corresponding to the score Si. At this time, the color selection method may be, for example, a method of normalizing the score to be between “1,000 to 1,600”, and regarding the value as a color temperature and outputting a corresponding color. Is possible. In this way, an image filled with a certain color is created for all mesh areas in the display range of the map screen, and the created image is sent to the transmission / reception unit 3.

送受信部3は、前記描画部10から送られた画像をユーザ端末2に送信し、ユーザ端末2の画面表示部に表示させる。ここで画面表示部に表示される色領域は、各メッシュiのスコアSiを示しているため、ユーザに検索キーワードに関連する文書の地理的な分布が提示される。これによりユーザ端末2に表示された地図画面内の各領域について、検索キーワードにマッチする文書群と該各領域との関連性とを示すことができる。このとき色領域をユーザがクリックすれば、該領域の地理的範囲に関連する検索キーワードを含む文書の一覧表示に画面が切り替わる。   The transmission / reception unit 3 transmits the image sent from the drawing unit 10 to the user terminal 2 and causes the screen display unit of the user terminal 2 to display the image. Here, since the color area displayed on the screen display section indicates the score Si of each mesh i, the geographical distribution of the document related to the search keyword is presented to the user. As a result, for each area in the map screen displayed on the user terminal 2, it is possible to show the document group that matches the search keyword and the relevance between the areas. If the user clicks on the color area at this time, the screen is switched to a list display of documents including a search keyword related to the geographical range of the area.

このように検索キーワードおよび特定の地理範囲と関連性を持つ文書を検索するにあたって、検索キーワードに関連する文書の地理的な分布が画面上に表示されるため、ユーザに検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供できる。この結果、従来の方法によれば検索キーワードと地理範囲の双方の条件を満たす文書を探すためには、様々な地理的範囲の指定を試行しなければならなかったものの、前記装置1によればユーザはその試行回数を削減でき、検索効率の向上に貢献することができる。   In this way, when searching for documents related to the search keyword and a specific geographic range, the geographical distribution of the documents related to the search keyword is displayed on the screen, so the document group that matches the search keyword to the user Can provide an information search service that can easily grasp the relationship between and the geographical range. As a result, according to the conventional method, in order to search for a document satisfying both the search keyword and the geographical range, it is necessary to try to specify various geographical ranges. The user can reduce the number of trials and can contribute to improvement of search efficiency.

なお、本発明は上記実施形態に限定されるものではなく、各請求項に記載された範囲内で各種の変形が可能である。例えばユーザ端末2の記憶装置(ハードディスクドライブ装置やメモリカードなど)に過去に表示した地図画面の範囲を記憶し、該記憶装置の記憶データを検索に用いることもできる。この場合には該記憶データを読み込んで検索キーワードと併せて前記装置1に送信して検索を命令すればよい。   In addition, this invention is not limited to the said embodiment, A various deformation | transformation is possible within the range described in each claim. For example, the range of the map screen displayed in the past can be stored in the storage device (hard disk drive device, memory card, etc.) of the user terminal 2, and the storage data of the storage device can be used for the search. In this case, the stored data may be read and transmitted to the device 1 together with the search keyword to instruct a search.

≪プログラムなど≫
本発明は、前記装置1の各部3〜10の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、S01〜S05.S11〜S15.S21〜S24の一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention can also be configured as a document search program that causes a computer to function as some or all of the units 3 to 10 of the apparatus 1. According to this program, S01 to S05. S11-S15. It is possible to cause the computer to execute part or all of S21 to S24.

前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, or BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.

1…文書検索装置
2…ユーザ端末
3…送受信部
4…文書検索部
5…転置インデックスDB
6…地理範囲特定部(地理範囲特定手段)
7…文書内正規住所DB(第1のデータベース)
8…正規住所−地理範囲DB(第2のデータベース)
9…メッシュ地理スコア算出部(スコア算出手段)
10…地図重畳画像描画部(画像描画手段)
DESCRIPTION OF SYMBOLS 1 ... Document search device 2 ... User terminal 3 ... Transmission / reception part 4 ... Document search part 5 ... Inverted index DB
6 ... Geographic range identification part (geographic range identification means)
7 ... Regular address DB in document (first database)
8 ... Regular address-geographic range DB (second database)
9: Mesh geographic score calculation unit (score calculation means)
10: Map superimposed image drawing unit (image drawing means)

Claims (9)

ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置であって、
前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定手段と、
前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出手段と、
前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画手段と、
を備えることを特徴とする文書検索装置。
An apparatus for searching an electronic document related to a search keyword input to a user terminal and a range of a map screen displayed on the terminal,
A geographical range specifying means for extracting a geographical expression from each electronic document related to the search keyword, and specifying a geographical range indicated by each extracted geographical expression;
Score calculating means for calculating a score of a mesh obtained by dividing the range of the map by an arbitrary unit according to the size of the geographical range including the mesh;
An image rendering means for rendering an image reflecting the score of each mesh in the range of the map screen, and presenting the image to a user;
A document search apparatus comprising:
検索対象の各電子文書に出現しうる地名表現の正規住所を格納する第1のデータベースと、正規住所に対応する地理範囲の位置情報を格納する第2のデータベースとをさらに備え、
地理範囲特定手段は、第1のデータベースを参照して検索キーワードに関連する各電子文書の地理的表現の示す正規住所を抽出し、
第2のデータベースを参照して抽出された正規住所に応じた最小の地理範囲を特定することを特徴とする請求項1記載の文書検索装置。
A first database that stores a regular address of a place name expression that can appear in each electronic document to be searched; and a second database that stores location information of a geographic range corresponding to the regular address;
The geographical range specifying means refers to the first database, extracts a regular address indicated by a geographical expression of each electronic document related to the search keyword,
2. The document search apparatus according to claim 1, wherein the minimum geographic range corresponding to the legitimate address extracted with reference to the second database is specified.
スコア算出手段は、前記メッシュを包含する前記地理範囲の広さに反比例させて前記スコアを算出する
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。
The document search apparatus according to claim 1, wherein the score calculation unit calculates the score in inverse proportion to the size of the geographic range including the mesh.
画像描画手段は、前記メッシュ群のスコアの大小を表す画像を描画することを特徴とする請求項1〜3のいずれか1項に記載の文書検索装置。   The document search apparatus according to claim 1, wherein the image drawing unit draws an image representing the magnitude of the score of the mesh group. ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置の文書検索方法であって、
前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定ステップと、
前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出ステップと、
前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画ステップと、
を有することを特徴とする文書検索方法。
A document search method of an apparatus for searching an electronic document related to a search keyword input to a user terminal and a range of a map screen displayed on the terminal,
A geographical range specifying step of extracting a geographical expression from each electronic document related to the search keyword and specifying a geographical range indicated by each extracted geographical expression;
A score calculation step of calculating a score of a mesh obtained by dividing the range of the map by an arbitrary unit according to the size of the geographical range including the mesh;
An image drawing step of drawing an image reflecting the score of each mesh in the range of the map screen and presenting it to the user;
A document search method characterized by comprising:
地理範囲特定ステップは、検索対象の各電子文書に出現しうる地名表現の正規住所を格納する第1のデータベースを参照して、検索キーワードに関連する各電子文書の地理的表現の示す正規住所を抽出するステップと、
正規住所に対応する地理範囲の位置情報を格納する第2のデータベースを参照して、前記抽出された正規住所に応じた最小の地理範囲を特定するステップと、
を有することを特徴とする請求項5記載の文書検索方法。
The geographic range specifying step refers to the first database that stores the regular addresses of the place name expressions that can appear in each electronic document to be searched, and determines the regular addresses indicated by the geographical expressions of each electronic document related to the search keyword. Extracting, and
Identifying a minimum geographic range according to the extracted regular address with reference to a second database storing location information of the geographic range corresponding to the regular address;
The document retrieval method according to claim 5, further comprising:
スコア算出ステップは、前記メッシュを包含する前記地理範囲の広さに反比例させて前記スコアを算出する
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索方法。
The document search method according to any one of claims 5 and 6, wherein the score calculation step calculates the score in inverse proportion to the size of the geographic range including the mesh.
画像描写ステップは、前記メッシュ群のスコアの大小を表す画像を描写することを特徴とする請求項5〜7のいずれか1項に記載の文書検索方法The document search method according to claim 5, wherein the image drawing step draws an image representing the magnitude of the score of the mesh group. 請求項1〜4のいずれか1項に記載の文書検索装置の各手段としてコンピュータを機能させるための文書検索プログラム。   A document search program for causing a computer to function as each means of the document search device according to claim 1.
JP2011013073A 2011-01-25 2011-01-25 Document search apparatus, document search method, and document search program Active JP5416723B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011013073A JP5416723B2 (en) 2011-01-25 2011-01-25 Document search apparatus, document search method, and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011013073A JP5416723B2 (en) 2011-01-25 2011-01-25 Document search apparatus, document search method, and document search program

Publications (2)

Publication Number Publication Date
JP2012155468A JP2012155468A (en) 2012-08-16
JP5416723B2 true JP5416723B2 (en) 2014-02-12

Family

ID=46837151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011013073A Active JP5416723B2 (en) 2011-01-25 2011-01-25 Document search apparatus, document search method, and document search program

Country Status (1)

Country Link
JP (1) JP5416723B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5913058B2 (en) * 2012-11-12 2016-04-27 日本電信電話株式会社 Subjective area estimation apparatus, method and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041752A (en) * 2000-07-19 2002-02-08 Itochu Techno-Science Corp Method for generating detailed statistic data
JP4498892B2 (en) * 2004-11-10 2010-07-07 株式会社デンソーアイティーラボラトリ Information browsing apparatus and information browsing method
JP2007249322A (en) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp Document visualization device and document visualization program
JP5087377B2 (en) * 2007-11-29 2012-12-05 日本電信電話株式会社 SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
JP4920718B2 (en) * 2009-04-27 2012-04-18 ヤフー株式会社 Advertisement display system and advertisement display method

Also Published As

Publication number Publication date
JP2012155468A (en) 2012-08-16

Similar Documents

Publication Publication Date Title
KR102137767B1 (en) Dynamic language model
Alarabi et al. TAREEG: a MapReduce-based web service for extracting spatial data from OpenStreetMap
JP5957048B2 (en) Teacher data generation method, generation system, and generation program for eliminating ambiguity
US20130268626A1 (en) Providing geocoded targeted web content
US20100042616A1 (en) Systems and methods for selecting and presenting representative content of a user
US20170235726A1 (en) Information identification and extraction
JP3802813B2 (en) Web page search method, web page search device, program, and recording medium
CN105874452B (en) Marking points of interest from social feeds
CN105187237A (en) Method and device for searching associated user identifications
US9846751B2 (en) Takepart action platform for websites
CN111460327A (en) Interest area searching method and device, storage medium and computer equipment
JP2009145549A (en) System, method and program for providing advertising information
Hunter et al. Understanding spatial data usability
JP5351123B2 (en) Document search keyword presentation device and document search keyword presentation program
TWI696925B (en) Drop-down prompt method and device
JP2012059182A (en) Retrieval query recommendation method, retrieval query recommendation device, retrieval query recommendation program
JP5416723B2 (en) Document search apparatus, document search method, and document search program
US20150227583A1 (en) Managing search results
US10095751B2 (en) Blended polygon search
US9092409B2 (en) Smart scoring and filtering of user-annotated geocoded datasets
JP2009037502A (en) Information processor
JP2013045182A (en) Information retrieval apparatus, method, and program
JP6079207B2 (en) Keyword presentation program, keyword presentation method, and keyword presentation apparatus
JPWO2013046413A1 (en) Search method and information management apparatus
US8005845B2 (en) System and method for automatically ranking lines of text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131115

R150 Certificate of patent or registration of utility model

Ref document number: 5416723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350