JP2015222515A - Reference spot output method, reference spot output device, and reference spot output program - Google Patents

Reference spot output method, reference spot output device, and reference spot output program Download PDF

Info

Publication number
JP2015222515A
JP2015222515A JP2014106781A JP2014106781A JP2015222515A JP 2015222515 A JP2015222515 A JP 2015222515A JP 2014106781 A JP2014106781 A JP 2014106781A JP 2014106781 A JP2014106781 A JP 2014106781A JP 2015222515 A JP2015222515 A JP 2015222515A
Authority
JP
Japan
Prior art keywords
spot
representative
document
score
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014106781A
Other languages
Japanese (ja)
Other versions
JP5792871B1 (en
Inventor
伸章 廣嶋
Nobuaki Hiroshima
伸章 廣嶋
西岡 秀一
Shuichi Nishioka
秀一 西岡
義昌 小池
Yoshimasa Koike
義昌 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014106781A priority Critical patent/JP5792871B1/en
Application granted granted Critical
Publication of JP5792871B1 publication Critical patent/JP5792871B1/en
Publication of JP2015222515A publication Critical patent/JP2015222515A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To search for a reference spot corresponding to a keyword.SOLUTION: A reference spot output device comprises: document acquisition means for acquiring S1 plural documents related to a keyword; spot inclusion number calculation means for calculating S2 an inclusion number of a name of each spot included in each document, and creating spot inclusion number data in which an identifier of the document, an identifier of the spot, and the inclusion number of the name of the spot included in the document are associated with each other; reference score calculation means for calculating S4 a reference score of each spot, by referring to the spot inclusion number data; and reference spot output means for outputting S6 the identifier of the spot having the high reference score, as a reference spot. The reference score calculation means calculates the reference score of each spot so that the reference score of the spot being an object of comparison becomes higher in each document.

Description

本発明は、キーワードに対応する代表的なスポットを検索する代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラムに関する。   The present invention relates to a representative spot output method, a representative spot output device, and a representative spot output program for searching for a representative spot corresponding to a keyword.

一般的に店舗などのスポットを検索する際、検索サイトを利用する方法が知られている。ユーザは、検索サイトにおいて、地域とキーワードを入力することにより、所定の地域における所定のキーワードに関連するスポットを検索することができる。   In general, when searching for a spot such as a store, a method of using a search site is known. The user can search for a spot related to a predetermined keyword in a predetermined region by inputting the region and the keyword on the search site.

この検索サイトにおいて、評判に基づいて店舗を検索する方法や、文書頻度に基づいて店舗を検索する方法が知られている。評判に基づいて店舗を検索する方法としては、グルメサイトのように、人手で付与された評価を元に各店舗のスコアを算出し、算出したスコアを元に店舗をランキングして出力する方法が考えられる。また特許文献1に示されるように、評判情報を機械的に抽出した結果を元に、店舗を出力する方法もある。文書頻度に基づいて店舗を検索する方法としては、地域とキーワードに関連する文書のうち、スポット名が出現する文書数を算出し、文書数の多い店舗をランキングして出力する方法が考えられる。   In this search site, a method for searching for a store based on reputation and a method for searching for a store based on document frequency are known. As a method of searching for stores based on reputation, the method of calculating the score of each store based on the evaluation given manually, like a gourmet site, ranking the store based on the calculated score and outputting it Conceivable. Moreover, as shown in Patent Document 1, there is also a method of outputting a store based on the result of mechanically extracting reputation information. As a method for searching for a store based on the document frequency, a method of calculating the number of documents in which spot names appear among the documents related to the region and the keyword, ranking the stores with a large number of documents, and outputting them is considered.

特許第5297309号公報Japanese Patent No. 5297309

しかしながら、従来の検索方法においては、地域とキーワードに対し、それに関連する代表的なスポットを知ることはできない。   However, in the conventional search method, it is not possible to know representative spots related to regions and keywords.

例えば、宇都宮に出張に出る場合、宇都宮では餃子が名物であることを知っていても、宇都宮の餃子を食べたいと考え、店舗を検索する場合を想定する。宇都宮で餃子を提供する店舗は多数あるところ、最初に宇都宮で餃子を食べるには、評判が良い店や店舗数の多い店ではなく、代表的なスポットを選択して、その代表的なスポットに足を運びたいユーザもいる。しかしながら、一般的な検索サイトでは、代表的なスポットを検索することができないため、ユーザは、適切な情報が得られず、どの店舗に足を運ぶべきかを決定できない場合がある。   For example, when going on a business trip to Utsunomiya, suppose that Utsunomiya knows that dumplings are a specialty but wants to eat Utsunomiya dumplings and searches for stores. There are many shops that provide dumplings in Utsunomiya. To eat dumplings in Utsunomiya first, select a representative spot rather than a reputable shop or a shop with many shops, and make it a representative spot. Some users want to go there. However, since a general search site cannot search for a representative spot, the user cannot obtain appropriate information and may not be able to determine which store to go to.

例えば、評判に基づいて店舗を検索する方法においては、評判の良いスポットを選択することしかできず、評判のよいスポットが必ずしもその地域を代表するスポットであるとは限らない問題がある。例えば、ある地域において、味付けや麺の太さに特徴があるラーメンが名物である場合であっても、その地域で評判の良い店舗のラーメンが、その特徴を持っていない場合も考えられる。従って、評判の良いスポットが、代表的なスポットであるとは限らない。   For example, in the method of searching for a store based on reputation, there is a problem that only a spot with a good reputation can be selected, and a spot with a good reputation is not necessarily a spot that represents the area. For example, in a certain region, even if ramen that is characterized by seasoning and noodle thickness is a specialty, there may be cases where ramen from a store that has a good reputation in that region does not have that feature. Therefore, a reputable spot is not necessarily a representative spot.

また文書頻度に基づいて店舗を検索する方法においては、よく話題にされるスポットの文書頻度が高くなるため、チェーン店のようなスポットが地域に関係なく選択されてしまう問題がある。   Further, in the method of searching for a store based on the document frequency, there is a problem that a spot such as a chain store is selected regardless of the area because the document frequency of the spot that is often talked about becomes high.

従って本発明の目的は、キーワードに対応する代表的なスポットを検索する代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラムを提供することである。   Accordingly, an object of the present invention is to provide a representative spot output method, a representative spot output device, and a representative spot output program for searching for a representative spot corresponding to a keyword.

上記課題を解決するために、本発明の第1の特徴は、代表スポット出力装置が、キーワードに対応する代表的なスポットを検索する代表スポット出力方法に関する。本発明の第1の特徴に係る代表スポット出力装置は、代表スポット出力装置が、前記キーワードに関連する複数の文書を取得するステップと、代表スポット出力装置が、各文書において含まれる各スポットの名称の包含数をカウントして、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたスポット包含数データを生成するステップと、代表スポット出力装置が、前記スポット包含数データを参照して、各スポットの代表スコアを算出するステップと、代表スポット出力装置が、前記代表スコアの高いスポットの識別子を、代表的なスポットとして出力するステップと、を備える。代表スコアを算出するステップは、2以上のスポット名が含まれる文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する。   In order to solve the above problem, a first feature of the present invention relates to a representative spot output method in which a representative spot output device searches for a representative spot corresponding to a keyword. In the representative spot output device according to the first aspect of the present invention, the representative spot output device obtains a plurality of documents related to the keyword, and the representative spot output device includes names of spots included in each document. A step of generating spot inclusion number data in which the document identifier, the spot identifier, and the number of inclusions of the name of the spot included in the document are associated, and the representative spot output device includes: A step of calculating a representative score of each spot with reference to the spot inclusion number data, and a step of a representative spot output device outputting an identifier of a spot having a high representative score as a representative spot. In the step of calculating the representative score, in a document including two or more spot names, the representative score of each spot is calculated so that the representative score of the spot with a small number of inclusions becomes high.

代表スコアを算出するステップは、各文書に含まれる各スポット名の種別数をカウントし、2以上のスポット名が含まれる文書かつ前記種別数の少ない文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出しても良い。   The step of calculating a representative score is to count the number of types of each spot name included in each document, and in a document including two or more spot names and a document with a small number of types, the representative score of the spot with a small inclusion number The representative score of each spot may be calculated so that becomes higher.

文書がタイトルおよび本文を含む場合、前記代表スコアを算出するステップは、タイトルに含まれるスポットの名称の代表スコアより、本文に含まれるスポットの名称の代表スコアが高くなるように、各スポットの代表スコアを算出してもよい。   When the document includes a title and a text, the step of calculating the representative score includes a representative score of each spot so that the representative score of the spot name included in the text is higher than the representative score of the spot name included in the title. A score may be calculated.

本発明の第2の特徴は、キーワードに対応する代表的なスポットを検索する代表スポット出力装置に関する。本発明の第2の特徴に係る代表スポット出力装置は、キーワードに関連する複数の文書を取得する文書取得手段と、各文書において含まれる各スポットの名称の包含数をカウントして、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたスポット包含数データを生成するスポット包含数算出手段と、スポット包含数データを参照して、各スポットの代表スコアを算出する代表スコア算出手段と、代表スコアの高いスポットの識別子を、代表的なスポットとして出力する代表スポット出力手段と、を備える。代表スコア算出手段は、2以上のスポット名が含まれる文書において、包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する。   A second feature of the present invention relates to a representative spot output device that searches for representative spots corresponding to keywords. A representative spot output device according to a second aspect of the present invention includes a document acquisition unit that acquires a plurality of documents related to a keyword, and counts the number of inclusions of the names of the spots included in each document. A spot inclusion number calculating means for generating spot inclusion number data in which the spot identifier is associated with the number of inclusions of the spot name included in the document, and the spot inclusion number data is referred to by referring to the spot inclusion number data. Representative score calculating means for calculating a score, and representative spot output means for outputting an identifier of a spot with a high representative score as a representative spot. The representative score calculation means calculates the representative score of each spot so that the representative score of a spot with a small number of inclusions is high in a document including two or more spot names.

代表スコア算出手段は、各文書に含まれるスポット名の種別数をカウントし、2以上のスポット名が含まれる文書かつ種別数の少ない文書において、包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出しても良い。   The representative score calculating means counts the number of types of spot names included in each document so that the representative score of a spot with a small inclusion number is high in a document including two or more spot names and a document with a small number of types. The representative score of each spot may be calculated.

文書がタイトルおよび本文を含む場合、代表スコア算出手段は、タイトルに含まれるスポットの名称の代表スコアより、本文に含まれるスポットの名称の代表スコアが高くなるように、各スポットの代表スコアを算出しても良い。   When the document includes the title and the text, the representative score calculation means calculates the representative score of each spot so that the representative score of the spot name included in the text is higher than the representative score of the spot name included in the title. You may do it.

本発明の第3の特徴は、コンピュータに本発明の第1の特徴に記載のステップを実行させるための代表スポット出力プログラムに関する。   A third feature of the present invention relates to a representative spot output program for causing a computer to execute the steps described in the first feature of the present invention.

本発明によれば、キーワードに対応する代表的なスポットを検索する代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラムを提供することができる。   According to the present invention, it is possible to provide a representative spot output method, a representative spot output device, and a representative spot output program for searching for a representative spot corresponding to a keyword.

本発明の実施の形態に係る代表スポット出力方法を説明するフローチャートである。It is a flowchart explaining the representative spot output method which concerns on embodiment of this invention. 本発明の実施の形態に係る代表スポット出力装置のハードウェアおよび機能ブロックを説明する図である。It is a figure explaining the hardware and functional block of a representative spot output device concerning an embodiment of the invention. 文書群データの一例を説明する図である。It is a figure explaining an example of document group data. スポット名データの一例を説明する図である。It is a figure explaining an example of spot name data. スポット包含数データの一例を説明する図である。It is a figure explaining an example of spot inclusion number data. 代表スコアデータの一例を説明する図である。It is a figure explaining an example of representative score data.

次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。   Next, embodiments of the present invention will be described with reference to the drawings. In the following description of the drawings, the same or similar parts are denoted by the same or similar reference numerals.

(実施の形態)
本発明の実施の形態に係る代表スポット出力装置1は、地域およびキーワードに関連する文書から、その地域およびキーワードに対応する代表的なスポットを検索する。ここで「代表的なスポット」とは、この地域で、このキーワードといえば、地元の人がすぐに連想するようなスポットであって、地域およびキーワードに関連する発祥の元となった権威と呼ばれうるものである。このスポットは、典型的には店舗であると考えられるが、店舗に限るものではない。
(Embodiment)
The representative spot output device 1 according to the embodiment of the present invention searches a representative spot corresponding to a region and a keyword from documents related to the region and the keyword. Here, the “representative spot” in this area refers to this keyword as a spot that local people immediately associate with, and is called the authority that originated the origin related to the area and keyword. It can be. This spot is typically considered a store, but is not limited to a store.

図1を参照して、代表スポット出力装置1による代表スポット出力方法を説明する。   With reference to FIG. 1, the representative spot output method by the representative spot output apparatus 1 is demonstrated.

まずステップS1において、地域およびキーワードに関連する複数の文書を含む文書群を取得する。取得した文書群の各文書について、ステップS2およびステップS3を実行する。   First, in step S1, a document group including a plurality of documents related to a region and a keyword is acquired. Steps S2 and S3 are executed for each document in the acquired document group.

ステップS2において代表スポット出力装置1は、文書の文字列において含まれる各スポットの名称の包含数をカウントして、出力する。ここでは、文書の文字中に、あるスポットの名称が3回登場する場合、この文書およびこのスポットに対する包含数は「3」となる。ステップS3において代表スポット出力装置1は、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたレコードを、スポット包含数データ24に挿入して、スポット包含数データ24を更新する。   In step S2, the representative spot output device 1 counts and outputs the number of inclusions of the names of the spots included in the character string of the document. Here, when the name of a spot appears three times in the text of the document, the number of inclusions for this document and this spot is “3”. In step S <b> 3, the representative spot output device 1 inserts a record in which the document identifier, the spot identifier, and the inclusion number of the name of the spot included in the document are associated with each other in the spot inclusion number data 24. The inclusion number data 24 is updated.

ステップS1で取得した各文書について、ステップS2およびステップS3の処理が終了すると、ステップS2でカウントされた各スポットについて、ステップS4およびステップS5の処理を実行する。ステップS4において代表スポット出力装置1は、あるスポットについて代表スコアを算出し、スポットの識別子と算出した代表スコアとを対応付けたレコードを、代表スコアデータ25に挿入して、代表スコアデータ25を更新する。   When the processing of step S2 and step S3 is completed for each document acquired in step S1, the processing of step S4 and step S5 is executed for each spot counted in step S2. In step S4, the representative spot output device 1 calculates a representative score for a certain spot, inserts a record in which the identifier of the spot is associated with the calculated representative score into the representative score data 25, and updates the representative score data 25. To do.

ステップS2でカウントされた各スポットについてステップS4およびステップS5の処理が終了すると、ステップS6に進む。ステップS6において代表スポット出力装置1は、代表スコアデータ25を参照して、代表スコアの高いスポットを代表スコアとして出力する。   When the processing of step S4 and step S5 is completed for each spot counted in step S2, the process proceeds to step S6. In step S6, the representative spot output device 1 refers to the representative score data 25 and outputs a spot with a high representative score as a representative score.

(代表スコア出力装置)
図1を参照して、本発明の実施の形態に係る代表スポット出力装置1を説明する。代表スポット出力装置1は、処理装置10、記憶装置20、入力装置30および出力装置40を備える一般的なコンピュータにおいて実現される。一般的なコンピュータが所定の処理を実行するための代表スポット出力プログラムを実行することにより、図2に示す各機能が実現される。
(Representative score output device)
A representative spot output apparatus 1 according to an embodiment of the present invention will be described with reference to FIG. The representative spot output device 1 is realized by a general computer including the processing device 10, the storage device 20, the input device 30, and the output device 40. Each function shown in FIG. 2 is realized by a typical computer executing a representative spot output program for executing a predetermined process.

入力装置30は、キーボード、マウスなどであって、処理装置10に地域やキーワードを入力する。出力装置40は、ディスプレイなどであって、処理装置10によって算出された代表スポットを表示する。入力装置30および出力装置40は、通信ネットワークおよびこの通信ネットワークに接続するコンピュータを介して情報を入出力する、入力装置および出力装置であっても良いし、他の情報処理システムであっても良い。   The input device 30 is a keyboard, a mouse, or the like, and inputs a region and a keyword to the processing device 10. The output device 40 is a display or the like, and displays the representative spot calculated by the processing device 10. The input device 30 and the output device 40 may be an input device and an output device that input and output information via a communication network and a computer connected to the communication network, or may be another information processing system. .

処理装置10は、記憶装置20に記憶されたデータを読み出したり、作業データを記憶装置20に記憶したりして、入力装置30から入力された地域やキーワードに従って代表スコアを算出して、代表スポットを出力装置40に出力する。記憶装置20は、ROM、RAM、ハードディスクなどのデータを記憶する媒体である。   The processing device 10 reads the data stored in the storage device 20 or stores the work data in the storage device 20, calculates the representative score according to the region or keyword input from the input device 30, and displays the representative spot Is output to the output device 40. The storage device 20 is a medium that stores data such as a ROM, a RAM, and a hard disk.

記憶装置20は、検索インデックスデータ21、文書群データ22、スポット名データ23、スポット包含数データ24および代表スコアデータ25を記憶する。文書群データ22、スポット包含数データ24および代表スコアデータ25は、処理装置10の処理により記憶されるデータである。   The storage device 20 stores search index data 21, document group data 22, spot name data 23, spot inclusion number data 24, and representative score data 25. The document group data 22, the spot inclusion number data 24, and the representative score data 25 are data stored by the processing of the processing device 10.

文書取得手段11は、地域やキーワードに関連する複数の文書を取得し、文書群データ22として記憶装置20に記憶する。ここで地域やキーワードは、入力装置30からユーザの操作によって入力されても良いし、他のシステム等から入力されても良い。文書取得手段11は、検索インデックスデータ21を参照して、地域やキーワードに対するインデックスを取得し、取得したインデックスを用いて、ウェブや文書データベースなどから、インデックスに対応する複数の文書を取得する。検索インデックスデータ21は、入力装置30から入力される地域やキーワードと、これらに対する検索インデックスとを対応づけたデータである。   The document acquisition unit 11 acquires a plurality of documents related to a region and a keyword and stores them in the storage device 20 as document group data 22. Here, the region and the keyword may be input from the input device 30 by a user operation, or may be input from another system or the like. The document acquisition unit 11 refers to the search index data 21, acquires an index for a region or a keyword, and acquires a plurality of documents corresponding to the index from the web, a document database, or the like using the acquired index. The search index data 21 is data in which regions and keywords input from the input device 30 are associated with search indexes corresponding to these.

文書の取得方法としては、キーワードと地域とをクエリとして文書を検索する。キーワードと地域をクエリとして文書を検索する方法として、文書中に含まれる地域表現の広さを考慮して地名にスコアを付与し、検索結果に反映させる方法が考えられる(安田宜仁,戸田浩之、検索位置のごく周辺を対象とした地理情報検索、人工知能学会論文誌、Vol.23,No.5、pp.364−373、2008)。また文書の取得方法はこれに限るものではなく、インデックスを用いることなく、文書本文にキーワードと地名を表す文字列が含まれる文書を取得する方法が考えられる。また地域の指定方法として、「横浜」などのように文字列をクエリとして指定しても良い。   As a document acquisition method, a document is searched using a keyword and a region as a query. As a method of searching a document using keywords and regions as a query, a method of assigning a score to a place name in consideration of the area expression included in the document and reflecting it in the search result can be considered (Yoshihito Yasuda, Hiroyuki Toda, Geographic information search for the very vicinity of the search position, Journal of the Japanese Society for Artificial Intelligence, Vol.23, No.5, pp.364-373, 2008). Further, the document acquisition method is not limited to this, and a method of acquiring a document in which a character string representing a keyword and a place name is included in the document body without using an index is conceivable. In addition, as a method for specifying an area, a character string such as “Yokohama” may be specified as a query.

このように文書取得手段11によって取得された文書の文書群データ22の一例を図3に示す。文書群データ22の各文書は、入力装置30から入力された地域に関連する文書である。文書群データ22は、文書の識別子、タイトルおよび本文を対応づけたデータである。この文書群のタイトルおよび本文には、スポットの名称「AAA」、「BBB」、「CCC」、「DDD」および「EEE」の、5種別のスポットの名称が含まれる。   An example of the document group data 22 of the document acquired by the document acquisition unit 11 is shown in FIG. Each document in the document group data 22 is a document related to an area input from the input device 30. The document group data 22 is data in which a document identifier, title, and text are associated with each other. The title and text of this document group include five types of spot names: spot names “AAA”, “BBB”, “CCC”, “DDD”, and “EEE”.

スポット包含数算出手段12は、各文書において含まれる各スポットの名称の包含数をカウントして、スポット包含数データ24を生成する。スポット包含数データ24は、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたデータである。   The spot inclusion number calculation unit 12 counts the number of inclusions of the names of the spots included in each document, and generates spot inclusion number data 24. The spot inclusion number data 24 is data in which the document identifier, the spot identifier, and the inclusion number of the spot name included in the document are associated with each other.

スポット包含数算出手段12は、スポット名データ23を参照して、各文書のタイトルおよび文書におけるスポットの名称をカウントする。スポット名データ23は、例えば図4に示すように、スポットの識別子と、スポットの名称とを対応づけたデータである。スポット包含数算出手段12は、文書のタイトルおよび本文を結合した文字列の中にスポット名データ23中のスポットの名称を表す文字列が含まれている場合、そのスポットの名称を抽出し、抽出した文字列の包含数を算出する。   The spot inclusion number calculating means 12 refers to the spot name data 23 and counts the title of each document and the name of the spot in the document. The spot name data 23 is data in which a spot identifier is associated with a spot name, for example, as shown in FIG. When the character string representing the spot name in the spot name data 23 is included in the character string obtained by combining the document title and the text, the spot inclusion number calculating unit 12 extracts the name of the spot and extracts the spot name. The number of included character strings is calculated.

ここで、図3に示す文書の識別子D4の文書について、各スポットの名称の包含数をカウントする処理を説明する。文書の識別子D4の文書のタイトルと本文を連結した文字列は、「DDD DDDのラーメンはAAAのラーメンとCCCのラーメンを足して2で割ったような味でした。」となる。この文字列から、スポット名データ23のスポットの名称を表す文字列を抽出すると、「DDD」「DDD」「AAA」「CCC」が抽出される。抽出した文字列における各スポット名称の包含数を算出すると、スポットの識別子P1の「AAA」の包含数が「1」、スポットの識別子P3の「CCC」の包含数が「1」、スポットの識別子P4の「DDD」の包含数が「2」となる。各文書について、同様に各スポットの包含数を算出する。   Here, a process of counting the number of inclusions of the names of the spots for the document with the document identifier D4 shown in FIG. 3 will be described. The character string obtained by concatenating the document title and the body of the document identifier D4 is “The DDD DDD ramen has a flavor that is the sum of the AAA ramen and the CCC ramen divided by two”. When a character string representing the spot name in the spot name data 23 is extracted from this character string, “DDD”, “DDD”, “AAA”, and “CCC” are extracted. When the inclusion number of each spot name in the extracted character string is calculated, the inclusion number of “AAA” in the spot identifier P1 is “1”, the inclusion number of “CCC” in the spot identifier P3 is “1”, and the spot identifier The inclusion number of “DDD” in P4 is “2”. For each document, the inclusion number of each spot is calculated in the same manner.

各スポットの包含数を算出すると、図5に示すスポット包含数データ24が生成される。スポット包含数データ24は、文書の識別子と、スポットの識別子と、この文書において含まれるこのスポットの名称の包含数を対応づける。   When the inclusion number of each spot is calculated, spot inclusion number data 24 shown in FIG. 5 is generated. The spot inclusion number data 24 associates the identifier of the document, the identifier of the spot, and the inclusion number of the name of the spot included in the document.

ここでスポット包含数算出手段12の処理はこれに限らない。例えば、スポット名データ23において、スポットの名称を形態素列として格納し、文書を形態素解析した結果の形態素列の中にスポット名を表す形態素列が含まれる場合に、スポット包含数算出手段12は、スポットの名称が含まれていると判定しても良い。また、スポットの名称の表記だけでなく、品詞も一致する場合に、スポット包含数算出手段12は、スポットの名称が含まれていると判定しても良い。   Here, the processing of the spot inclusion number calculating means 12 is not limited to this. For example, in the spot name data 23, when the spot name is stored as a morpheme string, and the morpheme string representing the spot name is included in the morpheme string obtained as a result of the morphological analysis of the document, the spot inclusion number calculating unit 12 It may be determined that the name of the spot is included. Further, when not only the description of the spot name but also the part of speech match, the spot inclusion number calculating means 12 may determine that the spot name is included.

代表スコア算出手段13は、スポット包含数データ24を参照して、各スポットの代表スコアを算出する。ここで代表スコア算出手段13は、各文書において比較の対象とされるスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する。また代表スコア算出手段13は、2以上のスポット名が含まれる文書において、包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する。また代表スコア算出手段13は、各文書に含まれるスポット名の種別数をカウントし、2以上のスポット名が含まれる文書かつ種別数の少ない文書において、包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する。   The representative score calculation means 13 refers to the spot inclusion number data 24 and calculates a representative score for each spot. Here, the representative score calculation means 13 calculates the representative score of each spot so that the representative score of the spot to be compared in each document becomes high. Further, the representative score calculation means 13 calculates the representative score of each spot so that the representative score of a spot with a small number of inclusions becomes high in a document including two or more spot names. The representative score calculation means 13 counts the number of types of spot names included in each document, and the representative score of a spot with a small number of inclusions increases in a document including two or more spot names and a document with a small number of types. Thus, the representative score of each spot is calculated.

本発明の実施の形態において「代表的なスポット」は、その地域のほかのスポットと比較されやすいこと、比較される場合に文書の中でそのスポットはあまり多く言及されないこと、比較される場合に文書の中であまり多くのスポットは言及されないことに着目する。すなわち、一つの文書において、複数のスポットの名称が含まれる場合、そのいずれかは、代表的なスポットの可能性がある。また、一つの文書において、複数のスポットの名称の種別が含まれ、かつ、包含数の少ないスポットは、比較の対象とされるスポットと考えられ代表的なスポットの可能性がある。さらに、一つの文書において複数のスポットの名称が含まれ、なおかつ各スポットの種別数が少ない場合、そのいずれかのスポットは、代表的なスポットの可能性がある。   In the embodiment of the present invention, a “representative spot” is easy to be compared with other spots in the region, and when compared, the spot is not often mentioned in the document. Note that not many spots are mentioned in the document. That is, if a document includes names of a plurality of spots, any of them may be a representative spot. Further, in a single document, a spot including a plurality of spot name types and a small number of inclusions is considered as a spot to be compared and may be a representative spot. Furthermore, when the name of a plurality of spots is included in one document and the number of types of each spot is small, any one of the spots may be a representative spot.

この前提で例えば、下記の式(1)により、所定のスポットの代表スコアを算出することができる。

Figure 2015222515
Under this assumption, for example, the representative score of a predetermined spot can be calculated by the following equation (1).
Figure 2015222515

なお、この式(1)による代表スコアの算出する方法はこれに限らない。複数のスポットが含まれる文書における各スポットの包含数と種別数を用いて、ほかのスポットと多く比較されているほどスコアが高くなるように算出されるものであれば、これに限るものではない。   Note that the method for calculating the representative score according to the equation (1) is not limited to this. If the number of inclusions and the number of types of each spot in a document including a plurality of spots are used so that the score is higher as compared with other spots, the present invention is not limited to this. .

式(1)による代表スコアを算出する一例を説明する。ここでは、文書に対する重みは一定とし、α(r)=1とする。例として、スポットの識別子P1の「AAA」に関して代表スコアを算出する。
・r=1のとき、δ(r,x)=1、c(r,x)=4、Σc(r,y)=4あるから、Σ内の値は0
・r=2のとき、δ(r,x)=0であるので、Σ内の値は0
・r=3のとき、δ(r,x)=1、n(r)=5、c(r,x)=1、Σc(r,y)=1+1+1+1+1=5であるので、Σ内の値は、1×1×(5−1)/5/5=0.16
・r=4のとき、δ(r,x)=1、n(r)=3、c(r,x)=1、Σc(r,y)=1+1+2=4であるので、Σ内の値は、1×1×(4−1)/3/4=0.25
・r=5のとき、δ(r,x)=0であるので、Σ内の値は0
以上より、S(P1)=0+0+0.16+0.25+0=0.41となる。
An example of calculating the representative score according to Expression (1) will be described. Here, the weight for the document is constant, and α (r) = 1. As an example, a representative score is calculated for “AAA” of the spot identifier P1.
When r = 1, δ (r, x) = 1, c (r, x) = 4, and Σ y c (r, y) = 4, so the value in Σ is 0
When r = 2, δ (r, x) = 0, so the value in Σ is 0
When r = 3, δ (r, x) = 1, n (r) = 5, c (r, x) = 1, Σ y c (r, y) = 1 + 1 + 1 + 1 + 1 = 5, so The value of 1 × 1 × (5-1) /5/5=0.16
When r = 4, δ (r, x) = 1, n (r) = 3, c (r, x) = 1, and Σ y c (r, y) = 1 + 1 + 2 = 4. The value of 1 × 1 × (4-1) /3/4=0.25
When r = 5, δ (r, x) = 0, so the value in Σ is 0
From the above, S (P1) = 0 + 0 + 0.16 + 0.25 + 0 = 0.41.

代表スコア算出手段13は、他のスポットの識別子P2ないしP5についても同様に算出する。これにより代表スコア算出手段13は、図6に示すように、スポットの識別子と、そのスポットの代表スコアとを対応づけた代表スコアデータ25を出力し、記憶装置20に記憶する。   The representative score calculation means 13 similarly calculates the identifiers P2 to P5 of other spots. As a result, the representative score calculation means 13 outputs the representative score data 25 in which the identifier of the spot and the representative score of the spot are associated with each other, as shown in FIG.

代表スポット出力手段14は、代表スコアの高いスポットの識別子を、代表的なスポットとして出力する。本発明の実施の形態においては、代表スコアの最も高いスポットが、代表的なスポットとなるが、代表的なスポットの決定方法はこれに限らない。例えば、代表スコアの高い上位N件までを代表的なスポットとして決定しても良いし、代表スコアの高い上位X%までを代表的なスポットとして決定しても良い。図6に示す例では、スポットの識別子P3の代表スコアが0.74であるので、スポットの識別子P3のスポット「CCC」が代表的なスポットとなる。   The representative spot output unit 14 outputs an identifier of a spot having a high representative score as a representative spot. In the embodiment of the present invention, the spot with the highest representative score is a representative spot, but the method for determining a representative spot is not limited to this. For example, up to the top N cases with high representative scores may be determined as representative spots, or up to the top X% with high representative scores may be determined as representative spots. In the example shown in FIG. 6, since the representative score of the spot identifier P3 is 0.74, the spot “CCC” of the spot identifier P3 is a representative spot.

また本発明の実施の形態において、スポットの識別子P1とP3とは、ともに包含数「3」である。しかしながらスポットの識別子P3は、多くの文書でほかのスポットとより比較されているので、スポットの識別子P3は、代表スコアが高く算出され、スポットの識別子P1と比べて代表的なスポットになりうる。   In the embodiment of the present invention, the spot identifiers P1 and P3 are both the inclusion number “3”. However, since the spot identifier P3 is compared with other spots in many documents, the spot identifier P3 is calculated to have a high representative score, and can be a representative spot as compared to the spot identifier P1.

このように本発明の実施の形態に係る代表スポット出力装置1は、地域およびキーワードに対し、それに関連する代表的なスポットを出力することができる。   As described above, the representative spot output device 1 according to the embodiment of the present invention can output representative spots related to regions and keywords.

なお、代表スポット出力装置における処理の順序はこれに限るものではない。例えば、本発明の実施の形態においては、検索インデックスを使って文書を抽出した後、スポットの包含数を算出したが、予め各文書に対して、スポットの包含数を算出しても良い。この場合、スポットの識別子とスポットの包含数を、メタデータとして各文書に対応づけて検索インデックスデータ21等に格納し、スポット包含数算出手段12が、各文書に対応づけられたスポットの識別子とスポットの包含数から、スポット包含数データ24を生成しても良い。   The order of processing in the representative spot output device is not limited to this. For example, in the embodiment of the present invention, the number of spot inclusions is calculated after extracting a document using a search index, but the number of spot inclusions may be calculated in advance for each document. In this case, the spot identifier and the spot inclusion number are associated with each document as metadata and stored in the search index data 21 or the like, and the spot inclusion number calculating means 12 includes the spot identifier associated with each document and The spot inclusion number data 24 may be generated from the spot inclusion number.

(変形例)
本発明の実施の形態においては、文書のタイトルと本文で包含されるスポットの名称に同じ比重をかけて算出したが、これに限られない。代表的なスポットが比較対象として記載される場合、本文において、タイトルに登場するスポットの名称と比較されることが一般的である。従って、タイトルに含まれるスポットについて、代表スコアが低くなり、タイトルに含まれず、本文にのみ含まれるスポットについて、代表スコアが高くなるように、代表スコアを算出しても良い。
(Modification)
In the embodiment of the present invention, the calculation is performed by applying the same specific gravity to the title of the document and the name of the spot included in the text, but the present invention is not limited to this. When a representative spot is described as a comparison target, it is generally compared with the name of the spot appearing in the title in the text. Therefore, the representative score may be calculated so that the representative score is low for the spots included in the title, and the representative score is high for the spots that are not included in the title and are included only in the text.

すなわち、文書がタイトルおよび本文を含む場合、代表スコア算出手段13は、タイトルに含まれるスポットの名称の代表スコアより、本文に含まれるスポットの名称の代表スコアが高くなるように、各スポットの代表スコアを算出する。   That is, when the document includes a title and a text, the representative score calculation means 13 represents the representative of each spot so that the representative score of the spot name included in the text is higher than the representative score of the spot name included in the title. Calculate the score.

このような変形例に係る代表スポット算出装置は、より適切に比較対象を特定として、代表的なスポットを出力することができる。   The representative spot calculation device according to such a modification can output a representative spot by specifying the comparison target more appropriately.

(その他の実施の形態)
上記のように、本発明の実施の形態とその変形例によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
(Other embodiments)
As described above, the embodiments of the present invention and the modifications thereof have been described. However, it should not be understood that the descriptions and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples, and operational techniques will be apparent to those skilled in the art.

例えば、本発明の実施の形態に記載した代表スポット出力装置1は、図2に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。また、既存の情報処理システム上に実現されても良い。   For example, the representative spot output device 1 described in the embodiment of the present invention may be configured on one piece of hardware as shown in FIG. 2, or on a plurality of pieces of hardware according to the function and the number of processes. It may be configured. Moreover, you may implement | achieve on the existing information processing system.

本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。   It goes without saying that the present invention includes various embodiments not described herein. Therefore, the technical scope of the present invention is defined only by the invention specifying matters according to the scope of claims reasonable from the above description.

1 代表スポット出力装置
10 処理装置
11 文書取得手段
12 スポット包含数算出手段
13 代表スコア算出手段
14 代表スポット出力手段
20 記憶装置
21 検索インデックスデータ
22 文書群データ
23 スポット名データ
24 スポット包含数データ
25 代表スコアデータ
DESCRIPTION OF SYMBOLS 1 Representative spot output device 10 Processing apparatus 11 Document acquisition means 12 Spot inclusion number calculation means 13 Representative score calculation means 14 Representative spot output means 20 Storage device 21 Search index data 22 Document group data 23 Spot name data 24 Spot inclusion number data 25 Representative Score data

Claims (7)

代表スポット出力装置が、キーワードに対応する代表的なスポットを検索する代表スポット出力方法であって、
代表スポット出力装置が、前記キーワードに関連する複数の文書を取得するステップと、
前記代表スポット出力装置が、各文書において含まれる各スポットの名称の包含数をカウントして、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたスポット包含数データを生成するステップと、
前記代表スポット出力装置が、前記スポット包含数データを参照して、各スポットの代表スコアを算出するステップと、
前記代表スポット出力装置が、前記代表スコアの高いスポットの識別子を、代表的なスポットとして出力するステップと、を備え、
前記代表スコアを算出するステップは、2以上のスポット名が含まれる文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする代表スポット出力方法。
The representative spot output device is a representative spot output method for searching for a representative spot corresponding to a keyword,
A representative spot output device acquires a plurality of documents related to the keyword;
The representative spot output device counts the inclusion number of each spot name included in each document, and associates the document identifier, the spot identifier, and the inclusion number of the spot name included in the document. Generating spot inclusion number data;
The representative spot output device refers to the spot inclusion number data and calculates a representative score of each spot;
The representative spot output device outputs an identifier of a spot having a high representative score as a representative spot, and
The step of calculating the representative score calculates the representative score of each spot so that the representative score of the spot with a small number of inclusions is high in a document including two or more spot names. output method.
前記代表スコアを算出するステップは、各文書に含まれる各スポット名の種別数をカウントし、2以上のスポット名が含まれる文書かつ前記種別数の少ない文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする請求項1に記載の代表スポット出力方法。
The step of calculating the representative score counts the number of types of each spot name included in each document, and represents a representative of the spot with a small inclusion number in a document including two or more spot names and a document with a small number of types. The representative spot output method according to claim 1, wherein the representative score of each spot is calculated so that the score becomes high.
前記文書がタイトルおよび本文を含む場合、前記代表スコアを算出するステップは、タイトルに含まれるスポットの名称の代表スコアより、本文に含まれるスポットの名称の代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする請求項1または2に記載の代表スポット出力方法。
When the document includes a title and a text, the step of calculating the representative score is performed so that the representative score of the spot name included in the text is higher than the representative score of the spot name included in the title. 3. A representative spot output method according to claim 1, wherein a representative score is calculated.
キーワードに対応する代表的なスポットを検索する代表スポット出力装置であって、
前記キーワードに関連する複数の文書を取得する文書取得手段と、
各文書において含まれる各スポットの名称の包含数をカウントして、文書の識別子と、スポットの識別子と、当該文書において含まれる当該スポットの名称の包含数を対応づけたスポット包含数データを生成するスポット包含数算出手段と、
前記スポット包含数データを参照して、各スポットの代表スコアを算出する代表スコア算出手段と、
前記代表スコアの高いスポットの識別子を、代表的なスポットとして出力する代表スポット出力手段と、を備え、
前記代表スコア算出手段は、2以上のスポット名が含まれる文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする代表スポット出力装置。
A representative spot output device for searching a representative spot corresponding to a keyword,
Document acquisition means for acquiring a plurality of documents related to the keyword;
The number of inclusions of each spot name included in each document is counted, and spot inclusion number data in which the document identifier, the spot identifier, and the number of inclusions of the spot name included in the document are associated with each other is generated. A spot inclusion number calculating means;
A representative score calculating means for calculating a representative score of each spot with reference to the spot inclusion number data;
Representative spot output means for outputting an identifier of a spot with a high representative score as a representative spot,
The representative score calculating unit calculates a representative score of each spot so that a representative score of a spot with a small number of inclusions is high in a document including two or more spot names. .
前記代表スコア算出手段は、各文書に含まれるスポット名の種別数をカウントし、2以上のスポット名が含まれる文書かつ前記種別数の少ない文書において、前記包含数の少ないスポットの代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする請求項4に記載の代表スポット出力装置。
The representative score calculation means counts the number of types of spot names included in each document, and in a document including two or more spot names and a document with a small number of types, a representative score of a spot with a small inclusion number is high. The representative spot output device according to claim 4, wherein a representative score of each spot is calculated.
前記文書がタイトルおよび本文を含む場合、前記代表スコア算出手段は、タイトルに含まれるスポットの名称の代表スコアより、本文に含まれるスポットの名称の代表スコアが高くなるように、各スポットの代表スコアを算出する
ことを特徴とする請求項4または5に記載の代表スポット出力装置。
When the document includes a title and a text, the representative score calculation means determines the representative score of each spot so that the representative score of the spot name included in the text is higher than the representative score of the spot name included in the title. The representative spot output device according to claim 4 or 5, wherein:
コンピュータに、請求項1ないし請求項3のいずれか1項に記載のステップを実行させるための代表スポット出力プログラム。   A representative spot output program for causing a computer to execute the steps according to any one of claims 1 to 3.
JP2014106781A 2014-05-23 2014-05-23 Representative spot output method, representative spot output device, and representative spot output program Active JP5792871B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014106781A JP5792871B1 (en) 2014-05-23 2014-05-23 Representative spot output method, representative spot output device, and representative spot output program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014106781A JP5792871B1 (en) 2014-05-23 2014-05-23 Representative spot output method, representative spot output device, and representative spot output program

Publications (2)

Publication Number Publication Date
JP5792871B1 JP5792871B1 (en) 2015-10-14
JP2015222515A true JP2015222515A (en) 2015-12-10

Family

ID=54330125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014106781A Active JP5792871B1 (en) 2014-05-23 2014-05-23 Representative spot output method, representative spot output device, and representative spot output program

Country Status (1)

Country Link
JP (1) JP5792871B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018056299A1 (en) * 2016-09-26 2018-03-29 日本電気株式会社 Information collection system, information collection method, and recording medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1830281A1 (en) * 2004-11-05 2007-09-05 Intellectual Property Bank Corp. Keyword extracting device
JP2006331117A (en) * 2005-05-26 2006-12-07 Ricoh Co Ltd Document retrieval system, document retrieval apparatus, document retrieval method and document retrieval program
JP5302614B2 (en) * 2008-10-09 2013-10-02 株式会社インテック Facility related information search database formation method and facility related information search system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018056299A1 (en) * 2016-09-26 2018-03-29 日本電気株式会社 Information collection system, information collection method, and recording medium
JPWO2018056299A1 (en) * 2016-09-26 2019-07-04 日本電気株式会社 INFORMATION COLLECTION SYSTEM, INFORMATION COLLECTION METHOD, AND PROGRAM
US11308091B2 (en) 2016-09-26 2022-04-19 Nec Corporation Information collection system, information collection method, and recording medium

Also Published As

Publication number Publication date
JP5792871B1 (en) 2015-10-14

Similar Documents

Publication Publication Date Title
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
JP6728178B2 (en) Method and apparatus for processing search data
JP4636473B2 (en) LINK INFORMATION EXTRACTION DEVICE, LINK INFORMATION EXTRACTION METHOD, AND PROGRAM
JP6662689B2 (en) Word judgment device
JP2015203961A (en) document extraction system
JP5345987B2 (en) Document search apparatus, document search method, and document search program
JP5792871B1 (en) Representative spot output method, representative spot output device, and representative spot output program
JP2011100208A (en) Action estimation device, action estimation method, and action estimation program
JP2010272075A (en) Emotional information extraction device, emotion retrieval device, method thereof, and program
JP6163143B2 (en) Information providing apparatus, information providing method, and information providing program
JP6509590B2 (en) User&#39;s emotion analysis device and program for goods
JP2010123036A (en) Document retrieval device, document retrieval method and document retrieval program
JP2014174781A (en) Item recommendation system, method, and program
JP6488399B2 (en) Information presentation system and information presentation method
JP6008067B2 (en) Text processing system, text processing method, and text processing program
JP5127553B2 (en) Information processing apparatus, information processing method, program, and recording medium
JP5826148B2 (en) Drawing management server and drawing management system using the same
JP5977199B2 (en) Local association word extraction device, regional association word extraction method, and regional association word extraction program
JP5544003B2 (en) Information search device, information search system, and information search method
JP5277090B2 (en) Link creation support device, link creation support method, and program
JP2016192067A (en) Searcher device
JP2013125429A (en) Analysis object determination device
JP5583107B2 (en) Keyword place name pair extraction apparatus, method, and program
JP2013242620A (en) Device, method and program for retrieving neighboring information
JP2012022443A (en) Apparatus, method and program for searching document

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150806

R150 Certificate of patent or registration of utility model

Ref document number: 5792871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150