JP5836892B2 - Apparatus, program, and method for tagging identification name of geographical feature to event location - Google Patents
Apparatus, program, and method for tagging identification name of geographical feature to event location Download PDFInfo
- Publication number
- JP5836892B2 JP5836892B2 JP2012144888A JP2012144888A JP5836892B2 JP 5836892 B2 JP5836892 B2 JP 5836892B2 JP 2012144888 A JP2012144888 A JP 2012144888A JP 2012144888 A JP2012144888 A JP 2012144888A JP 5836892 B2 JP5836892 B2 JP 5836892B2
- Authority
- JP
- Japan
- Prior art keywords
- comment
- feature
- event position
- event
- tagging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000001514 detection method Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、位置情報にキーワードをタグ付けする技術に関する。 The present invention relates to a technique for tagging position information with a keyword.
近年、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。これらコメント文章は、単に発信するだけでなく、共通の話題に対して議論し合うこともできることに特徴がある。これは、多数のユーザと話題を共有しているという感覚が得られる。例えばtwitterによれば、投稿者は、固有のハッシュタグを含むコメント文章を発信し、閲覧者は、このハッシュタグを含むコメント文章全体を閲覧することができる。また、ある地域でお祭りのような地域イベントが開催されている場合、そのお祭りに紐付けられたハッシュタグを用いてコメント文章を発信することができる。一方で、閲覧者は、このハッシュタグを用いて閲覧することによって、そのお祭りに関するtweets全体を閲覧することができる。 In recent years, comment texts from an unspecified number of third parties have become active over sites such as blogs (Web log) and mini blogs (for example, twitter (registered trademark)) via the Internet. Has been sent to. These comment sentences are characterized not only by sending them but also by discussing common topics. This gives the feeling that the topic is shared with many users. For example, according to twitter, a contributor sends a comment sentence including a unique hash tag, and a viewer can browse the entire comment sentence including the hash tag. In addition, when a local event such as a festival is held in a certain area, a comment sentence can be transmitted using a hashtag linked to the festival. On the other hand, the viewer can browse the entire tweets about the festival by browsing using this hashtag.
これに対し、例えばtwitterにおけるジオタグ付きtweetsを用いて、地域イベントを発見することができる技術がある(例えば非特許文献1参照)。ジオタグ付きtweetsとは、GPS(Global Positioning System)機能を用いて、現在位置情報がコメント文章(つぶやき)に自動的に付加されたものをいう。この技術によれば、多くの人々の活動が活発となるお祭りのような地域イベントについて、普段と異なる特別な動向が見られる地域を検知することができる。 On the other hand, for example, there is a technology that can discover a local event using tweets with geotags in twitter (see, for example, Non-Patent Document 1). The geo-tagged tweets means that current position information is automatically added to a comment sentence (tweet) using a GPS (Global Positioning System) function. According to this technology, it is possible to detect a region where a special trend different from usual is observed for a local event such as a festival where many people are active.
しかしながら、非特許文献1に記載の技術によれば、イベント位置を検出できるものの、そのイベントの内容までは検出することができない。即ち、イベント名や、カテゴリ(スポーツ、花火、事故など)、その詳細内容(イベント関連Web情報など)を検出することはできない。特にジオタグ付きtweetsの場合、その位置情報のみがコメント文章に付加されているだけであって、そのイベントの内容まで特定するものではない。結果的に、イベントに基づくコメント文章は、ハッシュタグによって収集する必要がある。但し、ハッシュタグによって収集したコメント文章は、その地域に滞在しないユーザの端末からも投稿することができ、その地域に実際に滞在するユーザの端末から投稿されたコメント文章とは、その性質が異なってくる。また、コメント文章に付加された位置情報は、比較的分散しており、そのイベント位置を明確に特定できるものでもない。本来、イベント位置周辺の地理的な特徴物を知ることができることが好ましい。
However, according to the technique described in
そこで、本発明によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法を提供することを目的とする。 Therefore, according to the present invention, there is provided an apparatus, a program, and a method for tagging an identification name of a geographical feature to an event position where a special trend different from usual is seen based on a large number of comment sentences. With the goal.
本発明によれば、不特定多数の第三者から投稿された投稿時刻及び位置情報を含むコメント文章を蓄積したコメント文章蓄積部を備え、イベント位置に地理的な特徴物名称を対応付けるタグ付け装置であって、
地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶手段と、
コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出するイベント位置検出手段と、
イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第1のコメントキーワード抽出手段と、
イベント位置毎に、特徴物記憶手段を用いて地理的な特徴物の識別名称を検索する特徴物名称検索手段と、
コメント文章蓄積部から、検索された特徴物の識別名称を含むコメント文章を検索する特徴物コメント検索手段と、
特徴物毎に、特徴物コメント検索手段によって検索されたコメント文章の群から単語を抽出し、特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する特徴物検出手段と、
イベント位置毎に、第1のコメントキーワードと、特徴物検出手段によって検出された1つ以上の特徴物の識別名称とを、タグとして対応付けるタグ付け手段と
を有することを特徴とする。
According to the present invention, there is provided a tagging device that includes a comment text accumulating unit that accumulates comment text including posting time and position information posted from an unspecified number of third parties, and associates geographical feature names with event positions. Because
A feature storage means for storing the identification name of a geographical feature and its position in advance,
Event position detection means for detecting an event position where a predetermined number or more of comment sentences are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from the group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is one or more first ratios that are equal to or higher than a predetermined ratio or a predetermined number. First comment keyword extraction means for extracting comment keywords;
For each event position, a feature name search unit that searches for an identification name of a geographical feature using a feature storage unit;
Feature comment search means for searching for a comment sentence including the identification name of the searched feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched by the feature comment search means, and for each feature, the appearance frequency that matches the first comment keyword is counted, and the appearance frequency is equal to or higher than a predetermined ratio or A feature detection means for detecting one or more features exceeding a predetermined number;
For each event position, there is provided tagging means for associating the first comment keyword and the identification names of one or more feature objects detected by the feature object detection means as tags.
本発明のタグ付け装置における他の実施形態によれば、
イベント位置毎に、特徴物コメント検索手段によって検索されたコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる更なる1つ以上の第2のコメントキーワードを抽出する第2のコメントキーワード抽出手段を更に有し、
タグ付け手段は、イベント位置毎に、第2のコメントキーワードをタグとして更に対応付けることも好ましい。
According to another embodiment of the tagging device of the present invention,
For each event position, a word is extracted from a group of comment sentences searched by the feature object comment search means, the appearance frequency is counted for each word, and the appearance frequency is a predetermined ratio or a predetermined number or more. A second comment keyword extracting means for extracting the second comment keyword as described above;
The tagging means preferably further associates the second comment keyword as a tag for each event position.
本発明のタグ付け装置における他の実施形態によれば、特徴物コメント検索手段は、コメント文章蓄積部から、特徴物の識別名称及び第1のコメントキーワードの両方を含むコメント文章を検索することも好ましい。 According to another embodiment of the tagging apparatus of the present invention, the feature comment search means may search the comment text including both the identification name of the feature and the first comment keyword from the comment text storage unit. preferable.
本発明のタグ付け装置における他の実施形態によれば、
第1のコメントキーワード抽出手段によって、出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を削除するべくイベント位置検出手段へ要求し、
イベント位置検出手段は、第1のコメントキーワード抽出手段から、当該イベント位置の削除の要求を受けた際、当該イベント位置を除外して絞り込むことも好ましい。
According to another embodiment of the tagging device of the present invention,
When the first comment keyword extraction means does not have any word whose appearance frequency is equal to or higher than a predetermined threshold, a request is made to the event position detection means to delete the event position,
The event position detecting means preferably excludes the event position and narrows down when receiving a request to delete the event position from the first comment keyword extracting means.
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、
イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込み、
及び/又は
所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことも好ましい。
According to another embodiment of the tagging device of the present invention, the event position detection means includes:
For each event position, if the number of users who posted these comment texts is less than or equal to the predetermined percentage value with respect to the total number of comment texts, exclude the event positions and narrow down,
It is also preferable to narrow down by excluding comment sentences in which a sentence claimed by the contributor is not described from a large number of comment sentences posted in a predetermined time period.
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、イベント位置を検出することも好ましい。 According to another embodiment of the tagging device of the present invention, the event position detecting means detects an event position using a DBSCAN (Density-Based Spatial Clustering) algorithm with position information included in the comment text as an element. It is also preferable.
本発明のタグ付け装置における他の実施形態によれば、タグ付け手段によって記憶されたイベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべき第1のコメントキーワード、第2のコメントキーワード及び特徴物の識別名称とを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することも好ましい。 According to another embodiment of the tagging device of the present invention, the map information indicating the event position stored by the tagging means, the first comment keyword to be described in the part of the event position on the map, the first It is also preferable to further include a map information transmission means for transmitting the comment keyword of 2 and the identification name of the feature object to a user-operable terminal.
本発明のタグ付け装置における他の実施形態によれば、第1のコメントキーワード抽出手段及び第2のコメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、コメントキーワードとして抽出することも好ましい。 According to another embodiment of the tagging apparatus of the present invention, the first comment keyword extracting means and the second comment keyword extracting means extract words from a plurality of comment sentences by morphological analysis, and also use TF-IDF ( It is also preferable to extract a characteristic word as a comment keyword based on Term Frequency-Inverse Document Frequency.
本発明のタグ付け装置における他の実施形態によれば、
コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
ブログサーバ又は掲示板サイトサーバから、コメント文章を蓄積するコメント文章蓄積手段を更に有することも好ましい。
According to another embodiment of the tagging device of the present invention,
The comment text is obtained from the blog (Web log) server or the bulletin board site server.
It is also preferable to further include comment text storage means for storing comment text from the blog server or bulletin board site server.
本発明のタグ付け装置における他の実施形態によれば、
ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
第1のコメントキーワード抽出手段及び第2のコメントキーワード抽出手段は、ハッシュタグを、コメントキーワードとして抽出することも好ましい。
According to another embodiment of the tagging device of the present invention,
The blog server is a Twitter (registered trademark) server of a mini blog server,
It is also preferable that the first comment keyword extracting unit and the second comment keyword extracting unit extract the hash tag as a comment keyword.
本発明によれば、不特定多数の第三者から投稿された投稿時刻及び位置情報を含むコメント文章を蓄積したコメント文章蓄積部を備え、イベント位置に地理的な特徴物名称を対応付ける装置に搭載されたコンピュータを機能させるタグ付けプログラムであって、
地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶手段と、
コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出するイベント位置検出手段と、
イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第1のコメントキーワード抽出手段と、
イベント位置毎に、特徴物記憶手段を用いて地理的な特徴物の識別名称を検索する特徴物名称検索手段と、
コメント文章蓄積部から、検索された特徴物の識別名称を含むコメント文章を検索する特徴物コメント検索手段と、
特徴物毎に、特徴物コメント検索手段によって検索されたコメント文章の群から単語を抽出し、特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する特徴物検出手段と、
イベント位置毎に、第1のコメントキーワードと、特徴物検出手段によって検出された1つ以上の特徴物の識別名称とを、タグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, it is provided with a comment text storage unit that stores comment text including post time and position information posted from an unspecified number of third parties, and is mounted on a device that associates geographical feature names with event positions. A tagging program that allows a computer to function,
A feature storage means for storing the identification name of a geographical feature and its position in advance,
Event position detection means for detecting an event position where a predetermined number or more of comment sentences are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from the group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is one or more first ratios that are equal to or higher than a predetermined ratio or a predetermined number. First comment keyword extraction means for extracting comment keywords;
For each event position, a feature name search unit that searches for an identification name of a geographical feature using a feature storage unit;
Feature comment search means for searching for a comment sentence including the identification name of the searched feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched by the feature comment search means, and for each feature, the appearance frequency that matches the first comment keyword is counted, and the appearance frequency is equal to or higher than a predetermined ratio or A feature detection means for detecting one or more features exceeding a predetermined number;
For each event position, the computer is caused to function as tagging means for associating the first comment keyword and the identification names of one or more feature objects detected by the feature object detection means as tags.
本発明によれば、不特定多数の第三者から投稿された投稿時刻及び位置情報を含むコメント文章を蓄積したコメント文章蓄積部を備えた装置における、イベント位置に地理的な特徴物名称を対応付ける方法であって、
装置は、地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶部を有し、
装置は、
コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する第1のステップと、
イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第2のステップと、
イベント位置毎に、特徴物記憶部を用いて地理的な特徴物の識別名称を検索する第3のステップと、
コメント文章蓄積部から、検索された特徴物の識別名称を含むコメント文章を検索する第4のステップと、
特徴物毎に、第4のステップによって検索されたコメント文章の群から単語を抽出し、特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する第5のステップと、
イベント位置毎に、第1のコメントキーワードと、第5のステップによって検出された1つ以上の特徴物の識別名称とを、タグとして対応付ける第6のステップと
を実行することを特徴とする。
According to the present invention, a geographical feature name is associated with an event position in an apparatus including a comment text storage unit that stores comment text including post time and position information posted from an unspecified number of third parties. A method,
The apparatus has a feature storage unit that stores in advance the identification names of geographical features and their positions in association with each other.
The device
A first step of detecting an event position where a predetermined number or more of comment sentences are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from the group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is one or more first ratios that are equal to or higher than a predetermined ratio or a predetermined number. A second step of extracting comment keywords;
A third step of searching for an identification name of a geographical feature using a feature storage unit for each event position;
A fourth step of searching for a comment sentence including an identification name of the searched feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched in the fourth step , and for each feature, the appearance frequency that matches the first comment keyword is counted. A fifth step of detecting one or more features that are greater than or equal to a number;
A sixth step of associating, as a tag, the first comment keyword and the identification names of one or more features detected in the fifth step for each event position;
It is characterized by performing .
本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、地理的な特徴物の識別名称をタグ付けすることができる。 According to the tagging apparatus, program, and method of the present invention, it is possible to tag an identification name of a geographical feature to an event position where a special trend different from usual is seen based on a large number of comment sentences. .
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明におけるシステム構成図である。 FIG. 1 is a system configuration diagram according to the present invention.
図1によれば、不特定多数の第三者から投稿されたコメント文章を公開するブログ(Web log)サーバ(又は掲示板サイトサーバ)2が、インターネットに接続されている。ブログサーバ2は、例えばtwitterサーバのようなミニブログサーバである。
According to FIG. 1, a blog (Web log) server (or bulletin board site server) 2 that publishes comment text posted by an unspecified number of third parties is connected to the Internet. The
ここで、図1によれば、特定の地域範囲で、地域イベントが開催されているとする。地域イベントとは、普段と異なる特別な動向が見られる地域、即ち、お祭りのようにその日時間帯だけ人が集中するような地域であるとする。このイベント位置には多数のユーザが滞在しており、各ユーザは、自ら所持する端末3を用いて、ミニブログサーバ2へコメント文章を投稿することができる。端末3は、ユーザと共に移動可能なものであって、携帯電話機やスマートフォンのような携帯端末である。
Here, according to FIG. 1, it is assumed that a regional event is held in a specific region. A regional event is a region where a special trend different from usual is observed, that is, a region where people are concentrated only during the day and time like a festival. Many users are staying at this event position, and each user can post a comment text to the
また、図1によれば、本発明を構成するタグ付けサーバ(装置)1が、インターネットに更に接続されている。タグ付けサーバ1は、ミニブログサーバ2から多数のコメント文章を収集する。勿論、ミニブログサーバ2と通信することは必須の構成要素ではなく、タグ付け装置(サーバ)1が、多数のコメント文章を予め蓄積したものであってもよい。そして、タグ付けサーバ1は、これらコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けする。また、他のユーザは、自ら所持する端末4を用いて、タグ付けサーバ1へアクセスし、イベント位置とそのキーワードとを紐付けて閲覧することができる。
Moreover, according to FIG. 1, the tagging server (apparatus) 1 which comprises this invention is further connected to the internet. The tagging
更に、図1によれば、ローカルサーチサーバ5、インターネットに接続されていてもよい。ローカルサーチサーバ5、位置情報(緯度・経度)を検索キーとして、その位置周辺の複数のランドマーク名(地理的な特徴物の識別名称)を出力することができる。 Further, according to FIG. 1, the local search server 5 may be connected to the Internet. The local search server 5 can output a plurality of landmark names (identification names of geographical features) around the position using the position information (latitude / longitude) as a search key.
図2は、本発明におけるタグ付けサーバの機能構成図である。 FIG. 2 is a functional configuration diagram of the tagging server in the present invention.
図2によれば、タグ付けサーバ1は、インターネットに接続された通信インタフェース部を有すると共に、コメント文章蓄積部10と、イベント位置検出部11と、第1のコメントキーワード抽出部12と、特徴物記憶部13と、特徴物名称検索部14と、特徴物コメント検索部15と、特徴物検出部16と、第2のコメントキーワード抽出部17と、タグ付け部18と、イベント位置記憶部19と、地図情報送信部1Aとを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
According to FIG. 2, the tagging
[コメント文章蓄積部10]
コメント文章蓄積部10は、ミニブログサーバ(例えばtwitterサーバ)2から、コメント文章を収集し且つ蓄積する。ここで、コメント文章蓄積部10は、イベント位置検出部11に対しては、投稿時刻及び位置情報を含むコメント文章を収集する。また、コメント文章蓄積部10は、特徴物コメント検索部15に対しては、キーワードとなる特徴物名称を含むコメント文章を収集する。
[Comment sentence storage unit 10]
The comment
位置情報を含むコメント文章は、ジオタグ付きtweetsであり、ユーザid(user_id)、発信時間(created_at)、位置情報(loc_lat、 loc_lng)(緯度・経度情報)、テキスト(texts)を含む。ここで、コメント文章蓄積部10は、所定時間帯に投稿されたコメント文章のみを収集することも好ましい。地域イベントは、一定の時間帯でのみ開催されるものであるからである。勿論、コメント文章蓄積部10は、多数のコメント文章を予め蓄積したものであってもよい。
The comment text including the location information is a tweet with geotag, and includes user id (user_id), transmission time (created_at), location information (loc_lat, loc_lng) (latitude / longitude information), and text (texts). Here, it is also preferable that the comment
コメント文章内における位置情報は、例えば以下のように表される。
「I'm at (場所名) http://t.co/BNw9NbL2」
「@XXX http://t.co/3acyFI3K」
「(場所名)にタッチ! http://t.co/4a7dabK」
The position information in the comment text is expressed as follows, for example.
"I'm at (place name) http://t.co/BNw9NbL2"
“@XXX http://t.co/3acyFI3K”
"Touch (location name)! Http://t.co/4a7dabK"
また、コメント文章蓄積部10は、例えばtwitterサーバに対して、StreamingAPIを用いることも好ましい。twitterのAPIは基本的にpull型であるのに対し、StreamingAPIは、クライアントが、twitterサーバへ接続を開き、リクエストを送信した後、切断されるまで接続を維持することできる。その間、サーバは、レスポンス(投稿されたコメント文章)をリアルタイムに、クライアント(タグ付けサーバ1)へ送信し続けることができる。また、StreamingAPIによれば、位置情報を含むコメント文章のみや、特定キーワードを含むコメント文章のみを収集するよう設定することもできる。
Moreover, it is also preferable that the comment
そして、コメント文章蓄積部10によって収集された位置情報を含むコメント文章は、イベント位置検出部11へ出力される。また、検索キーとなる特徴物名称を含むコメント文章は、特徴物コメント検索部15へ出力される。
Then, the comment text including the position information collected by the comment
例えばtwitterサーバよれば、以下のように指定したキーワードを含むコメント文章(tweets)を検索することができる。例えば、キーワード"東京都庁 "が含まれるtweetsを検索する場合、以下のURL(Uniform Resource Locator)を指定する。
http://search.twitter.com/search.atom?phrase="東京都庁"
For example, according to the twitter server, it is possible to search for comment sentences (tweets) including keywords specified as follows. For example, when searching for tweets containing the keyword “Tokyo Metropolitan Government”, the following URL (Uniform Resource Locator) is specified.
http://search.twitter.com/search.atom?phrase="Tokyo Metropolitan Government "
また、例えばtwitterによれば、ハッシュタグ(#)が付加されたコメント文章tweetsのみを収集することもできる。twitterの場合、ハッシュタグを用いることで、話題を共通化することできる。例えば、ハッシュタグ"#osc11tk"が付加されたtweetを検索する場合、以下のURLを指定する。
http://search.twitter.com/search.atom?q=%23osc11tk
また、日付を指定することによって、最大1週間分のtweetsを検索することもできる
For example, according to twitter, it is also possible to collect only comment text tweets with a hash tag (#) added. In the case of twitter, the topic can be made common by using a hash tag. For example, when searching for a tweet to which the hash tag “# osc11tk” is added, the following URL is specified.
http://search.twitter.com/search.atom?q=%23osc11tk
You can also search for tweets for up to one week by specifying the date.
[イベント位置検出部11]
イベント位置検出部11は、所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する。
[Event position detection unit 11]
The event
図3は、イベント検出部の処理を表す説明図である。 FIG. 3 is an explanatory diagram illustrating processing of the event detection unit.
(S111)イベント位置候補の検出(位置情報のクラスタリング)
イベントが開催されている地域では、投稿数が集中していると想定する。そこで、最初に、イベント位置検出部11は、コメント文章に付加された緯度経度情報を平面上にプロットし、その位置をクラスタリングすることによって、コメント文章が集中するイベント位置(密集地)を検出する。このクラスタリングには、例えばDBSCAN(Density-Based Spatial Clustering)を用いることができる。k-meansによれば、クラスタ数kを事前に与える必要があるのに対し、DBSCANによれば、クラスタ数を事前に与えことなく、比較的に直感的なクラスタを抽出できる。
(S111) Event position candidate detection (position information clustering)
Assume that the number of posts is concentrated in the area where the event is held. Therefore, first, the event
DBSCANは、超球状ではない任意形状のクラスタの抽出を目的としたクラスタリング方法であって、2つの点における直接密度到達可能(directly density-rechable)を導出するものである。あるseed点から、直接密度到達可能な関係を推移的に辿って、到達可能な極大集合を1つのクラスタとして抽出する。 DBSCAN is a clustering method for extracting clusters having an arbitrary shape that is not hyperspherical, and derives directly density-rechable at two points. From a certain seed point, the density reachable relationship is directly traced, and the reachable maximal set is extracted as one cluster.
DBSCANによれば、Eps(epsilon、距離)及びMinPts(minimum points、最低ポイント)の2つのパラメータを用いる。例えばEps=0.0005及びMinPts=10を事前に与えるものであってもよい。また、これらパラメータを、測位の所定時間周期や最終的な住所居所推定の結果によって変更するものであってもよい。 According to DBSCAN, two parameters are used: Eps (epsilon, distance) and MinPts (minimum points). For example, Eps = 0.0005 and MinPts = 10 may be given in advance. Further, these parameters may be changed according to a predetermined time period of positioning or a result of final address location estimation.
(S112)日常的に所定数以上の投稿数がある位置情報の除外
次に、イベント位置検出部11は、S111におけるイベント位置の候補の中から、日常的に、所定数以上の投稿数がある位置情報の除外して絞り込む。常に投稿数が多い場所として、例えば「駅」がある。駅のような場所は、普段と異なる特別な動向が見られるイベント位置ではない。そのために、日常的に投稿数が多い位置は、イベント位置候補からために、除外する。
(S112) Exclusion of position information having a predetermined number of postings on a daily basis Next, the event
(S113)所定割合以下のユーザ数しか存在しないイベント位置の除外
イベント位置検出部11は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込む。このようなイベント位置では、同一ユーザが多数回、コメント文章を投稿しており、多数のユーザが集まるイベント位置ではないことが多い。そこで、このようなイベント位置の候補は除外する。例えば、その地域における投稿数の半分より少ない場合(10個のコメント文章が投稿された地域について、そのユーザ数が4人以下である場合)、このイベント位置を候補から除外する。
(S113) Exclusion of event positions where only the number of users equal to or less than a predetermined ratio is present The event
(S114)投稿者自身が主張する文章が記述されていないコメント文章の除外
イベント位置検出部11は、所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外する。例えば、「I'm at (場所)」や「(場所)にタッチ!」など、位置情報登録サイト特有の言い回しのみで構成される場合が多い。このため、このような言い回しのコメント文章のみで、且つ、投稿者自身が主張する文章が記述されていないコメント文章を、除外する。このようなコメント文章は、その地域イベントを特定するに適したキーワードが含まれていないためである。
(S114) Exclusion of comment text in which the sentence claimed by the poster itself is not described The event
図3によれば、×のコメント文章は、投稿者自身が主張する文章が記述されておらず、S113によって除外される。
(コメント文章1)○ 着いた。さっきの学生さん達は、A大でした。@都庁西新宿ビル http://t.co/3acyFI3K
(コメント文章2)○ OSC 2011 Tokyo/Fall にやってまいりました #osc11tk (@ 都庁
西新宿ビル w/ 3 others) http://t.co/BNw9NbL2
(コメント文章3)× I'm at 都庁西新宿ビル 28階http://t.co/v66BR2Iv
(コメント文章4)○ ついた (@都庁西新宿ビル w/ 4 others) http://t.co/RZkmuSG8'
(コメント文章5)× I'm at 都庁西新宿ビル w/ @hirokazu_nishi http://t.co/HdCZoVD4'
(コメント文章6)○ #osc11tkに参加。いやぁしかし、広いキャンパスだなぁ。(@都庁西新宿ビル w/ 7 others) http://t.co/V1YAzqZg
(コメント文章7)× I'm at 都庁西新宿ビル w/ @minky0 http://t.co/5aYa34CN
(コメント文章8)× I'm at 都庁西新宿ビル D2-1-1、 C市) w/ 10 others http://t.co/Uxcc0IrB
According to FIG. 3, the comment text of “x” does not describe the text claimed by the contributor himself, and is excluded by S113.
(Comment text 1) ○ I arrived. The previous students were A size. @Tokyo Metropolitan Nishishinjuku Building http://t.co/3acyFI3K
(Comment 2) ○ I went to OSC 2011 Tokyo / Fall # osc11tk (@ Tokyo Metropolitan Government Nishi-Shinjuku Building w / 3 others) http://t.co/BNw9NbL2
(Comment Sentence 3) × I'm at Tochō Nishi-Shinjuku Building, 28th floor http://t.co/v66BR2Iv
(Comment text 4) ○ Tsuita (@ Tosei Nishishinjuku Building w / 4 others) http://t.co/RZkmuSG8 '
(Comment Sentence 5) x I'm at Toshin Nishishinjuku Building w / @hirokazu_nishi http://t.co/HdCZoVD4 '
(Comment 6) ○ Participated in # osc11tk. No, but it's a large campus. (@Tokyo Metropolitan Nishi Shinjuku Building w / 7 others) http://t.co/V1YAzqZg
(Comment text 7) x I'm at Tokyo Metropolitan Government Nishi-Shinjuku Building w / @ minky0 http://t.co/5aYa34CN
(Comment Sentence 8) x I'm at Tokyo Metropolitan Government Nishi-Shinjuku Building D2-1-1, City C) w / 10 others http://t.co/Uxcc0IrB
また、イベント位置検出部11は、第1のコメントキーワード抽出部12から、イベント位置の削除の要求を受けた場合、そのイベント位置を除外する。
Further, when the event
図4は、第1のコメントキーワード抽出部の処理を表す説明図である。 FIG. 4 is an explanatory diagram illustrating processing of the first comment keyword extraction unit.
[第1のコメントキーワード抽出部12]
第1のコメントキーワード抽出部12は、イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となる1つ以上の第1のコメントキーワードを抽出する。抽出された第1のコメントキーワードは、タグ付け部18へ出力される。
[First comment keyword extraction unit 12]
For each event position, the first comment
第1のコメントキーワード抽出部12は、最初に、複数のコメント文章から形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
The first comment
ここで、形態素解析には、例えばオープンソースの形態素解析エンジン「MeCab」を用いることができる。このエンジンによれば、階層化された品詞体系を有し、形態素の品詞も解析することができる。形態素毎に、「名詞」「固有名詞」「組織」「地域」「一般」・・・等の品詞も出力される。但し、ここで、第1のコメントキーワードからは、地名や住所を除外することが好ましい。地名自体は、そのイベントの内容を表さないからである。 Here, for example, an open source morphological analysis engine “MeCab” can be used for the morphological analysis. This engine has a hierarchical part-of-speech system and can also analyze morpheme part-of-speech. For each morpheme, parts of speech such as “noun”, “proprietary noun”, “organization”, “region”, “general”, etc. are also output. However, it is preferable to exclude the place name and address from the first comment keyword. This is because the place name itself does not represent the contents of the event.
次に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的なキーワードを、コメントキーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文書をベクトル空間で表し、文書とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。 Next, a characteristic keyword is extracted as a comment keyword by TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF is a technique that weights each word, expresses a document from a query in a vector space, and ranks the documents based on the similarity between the query and the query. The higher the ranked value, the more important keywords are recognized.
また、第1のコメントキーワード抽出部12は、例えばtwitterサーバから収集したコメント文章については、ハッシュタグ(#)を、コメントキーワードとして更に抽出することも好ましい。ハッシュタグは、共通の話題についてコメント文章同士を紐付けるものである。
In addition, it is preferable that the first comment
更に、第1のコメントキーワード抽出部12は、出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置の削除を、イベント位置検出部11へ要求することも好ましい。これによって、イベント位置検出部11は、所定閾値以上の出現頻度のキーワードが検出されないそのイベント位置を除外して絞り込む。イベント位置である場合、そのイベントの内容に応じて、一定以上の出現頻度のキーワードが必ず検出されると考えられる。即ち、そのキーワードは、そのイベントの内容を表すに適切なものである場合が多い。一方で、一定以上の出現頻度のキーワードが検出されないということは、特定のイベントが開催されていないか、様々な話題で盛り上がっている地域と考えられる。従って、そのようなイベント位置の候補は、除外する。
Further, the first comment
図4によれば、「OSC2012」「A大学」「#osc11th」のキーワードは、所定閾値以上の出現頻度であるために、タグ付け部18へ出力される。また、「呑み会」「洋服」「学生」のキーワードは、所定閾値以上の出現頻度でないために、削除される。
According to FIG. 4, the keywords “OSC2012”, “University A”, and “# osc11th” are output to the
図5は、特徴物名称検索部、特徴物コメント検索部、特徴物検索部及び第2のコメントキーワード抽出部の処理を表す説明図である。 FIG. 5 is an explanatory diagram illustrating processing of a feature name search unit, a feature comment search unit, a feature search unit, and a second comment keyword extraction unit.
[特徴物記憶部13]
特徴物記憶部13は、地理的な特徴物の識別名称と、その位置(緯度・経度)とを対応付けて予め記憶している。地理的な特徴物とは、例えば「ランドマーク」のようなものである。尚、特徴物記憶部13は、一般的な検索エンジンサーバにおけるローカルサーチ機能であってもよい。図1によれば、この機能をローカルサーチサーバ5によって実現される。これは、位置情報(緯度・経度)を、ローカルサーチサーバ5におけるローカルサーチAPIに入力することによって、その位置周辺の複数のランドマーク名を取得することができる。
[Characteristic storage unit 13]
The
[特徴物名称検索部14]
特徴物名称検索部14は、イベント位置毎に、特徴物記憶部13を用いて地理的な特徴物の識別名称を検索する。
図5によれば、例えば東京都庁付近の緯度経度情報を入力することによって、以下のようなランドマーク名を得ることができる。
「パークタワー」「東京都庁」・・・
[Feature name search unit 14]
The feature
According to FIG. 5, for example, the following landmark names can be obtained by inputting latitude and longitude information near the Tokyo Metropolitan Government Office.
"Park Tower""Tokyo Metropolitan Government" ...
[特徴物コメント検索部15]
特徴物コメント検索部15は、コメント文章蓄積部10から、検索された特徴物の識別名称を含むコメント文章を検索する。即ち、特徴物の識別名称毎に、コメント文章が収集される。
図5によれば、ランドマーク名「パークタワー」「東京都庁」毎に、例えば以下のようなコメント文章が収集される。
[パークタワー]
「パークタワーの近くをA大学の学生が多く通っている。」
「おいしいケーキ屋が、パークタワーの中にある」
「OSC2012は、パークタワーであってるの?」
「パークタワーでのプレゼン、失敗したなあ〜」
・・・・・
[東京都庁]
「東京都庁では、OSC2012が開催かあ?オープンソースカンファレンス、
行ってみるか〜?これはA大学の開催?」
「A大学の学生は、東京都庁へ集合!OSC2012」
「#osc11k 東京都庁のOSC2012のオープンソースカンファレンスに参加します」
「東京都庁の食堂、安くておいしい」
・・・・・
[・・・・]
・・・・・
[Feature comment search unit 15]
The feature object
According to FIG. 5, for example, the following comment sentences are collected for each of the landmark names “Park Tower” and “Tokyo Metropolitan Government”.
[Park Tower]
“Many students from University A are near the Park Tower.”
"A delicious cake shop is in the park tower"
“Is OSC2012 a park tower?”
“Presentation at Park Tower failed!”
...
[Tokyo Metropolitan Government Office]
“The Tokyo Metropolitan Government Office is hosting OSC2012? Open Source Conference,
Do you want to go? Is this held by University A? "
“University A students gather at the Tokyo Metropolitan Government Office! OSC2012”
“# Osc11k will participate in the Tokyo Metropolitan Government's OSC2012 open source conference”
“Tokyo cafeteria, cheap and delicious”
...
[...]
...
また、特徴物コメント検索部15は、コメント文章蓄積部10から、特徴物の識別名称及び第1のコメントキーワードの両方を含むコメント文章を検索することも好ましい。これによって、単にランドマーク名を含むコメント文章を検索するよりも、第1のコメントキーワードに応じたコメン文章に更に絞り込むことができる。
The feature
[特徴物検出部16]
特徴物検出部16は、特徴物毎に、特徴物コメント検索部15によって検索されたコメント文章の群から単語を抽出する。特徴物検出部16も、第1のコメントキーワード抽出部12と同様に、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDFによって特徴的単語を、コメントキーワードとして抽出する。
[Feature object detection unit 16]
The
次に、特徴物検出部16は、特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数する。
図5によれば、ランドマーク名「パークタワー」「東京都庁」毎に、例えば以下のように出現頻度が計数される。
[パークタワー]:第1のコメントキーワードの出現頻度=2回
A大学:1回
OSC2012:1回
#osc11k:0回
[東京都庁]:第1のコメントキーワードの出現頻度=6回
A大学:2回
OSC2012:3回
#osc11k:1回
Next, the
According to FIG. 5, the appearance frequency is counted for each of the landmark names “Park Tower” and “Tokyo Metropolitan Government”, for example, as follows.
[Park Tower]: Appearance frequency of the first comment keyword = 2 times University A: 1 time
OSC2012: Once
# osc11k: 0 times [Tokyo Metropolitan Government]: Frequency of appearance of the first comment keyword = 6 times University A: 2 times
OSC2012: 3 times
# osc11k: Once
次に、特徴物検出部16は、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する。
所定割合とは、例えば特徴物コメント検索部15によって検索された、当該特徴物の識別名称を含むコメント文章の数の中で、第1のコメントキーワードが含まれているコメント文章の数の割合であってもよい。
所定数とは、例えば特徴物コメント検索部15によって検索された、当該特徴物の識別名称を含むコメント文章の数の中で、第1のコメントキーワードの数であってもよい。
図5によれば、例えば所定数=5回とした場合、[東京都庁](=6回)は、所定数以上であるために、特徴物として検出される。一方で、[パークタワー](=2回)は、所定数よりも少ないために、特徴物として検出されない。
Next, the feature
The predetermined ratio is, for example, a ratio of the number of comment sentences including the first comment keyword in the number of comment sentences including the identification name of the characteristic object searched by the characteristic object
The predetermined number may be, for example, the number of the first comment keywords in the number of comment sentences including the identification name of the characteristic object searched by the characteristic object
According to FIG. 5, for example, when the predetermined number = 5 times, [Tokyo Metropolitan Government] (= 6 times) is equal to or more than the predetermined number, and is thus detected as a feature. On the other hand, since [Park Tower] (= 2 times) is less than the predetermined number, it is not detected as a feature.
[第2のコメントキーワード抽出部17]
第2のコメントキーワード抽出部17は、イベント位置毎に、特徴物コメント検索部15によって検索されたコメント文章の群から単語を抽出する。第2のコメントキーワード抽出部17も、第1のコメントキーワード抽出部12と同様に、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDFによって特徴的単語を、コメントキーワードとして抽出する。
[Second comment keyword extraction unit 17]
The second comment
次に、第2のコメントキーワード抽出部17は、単語毎に出現頻度を計数する。
図5によれば、単語毎に、例えば以下のように出現頻度が計数される。尚、ここでは、検索キーとなった地理的な特徴物の識別名称と、第1のコメントキーワードとは、除かれている。
[東京都庁]
食堂:1回
オープンカンファレンス:2回
Next, the second comment
According to FIG. 5, the appearance frequency is counted for each word as follows, for example. Here, the identification name of the geographical feature serving as the search key and the first comment keyword are excluded.
[Tokyo Metropolitan Government Office]
Cafeteria: 1 time Open conference: 2 times
次に、第2のコメントキーワード抽出部17は、出現頻度が所定割合以上又は所定数以上となる更なる1つ以上の第2のコメントキーワードを抽出する。
図5によれば、例えば所定数=2回とした場合、「オープンカンファレンス」が、第2のコメントキーワードとして抽出される。
Next, the second comment
According to FIG. 5, for example, when the predetermined number = 2, “open conference” is extracted as the second comment keyword.
図6は、タグ付け部及びイベント位置記憶部の処理を表す説明図である。 FIG. 6 is an explanatory diagram illustrating processing of the tagging unit and the event position storage unit.
[タグ付け部18]
タグ付け部18は、イベント位置毎に、第1のコメントキーワード抽出部12によって抽出された1つ以上の第1のコメントキーワードと、特徴物検出部16によって検出された1つ以上の特徴物の識別名称とを、タグとして対応付ける。また、タグ付け部18は、第2のコメントキーワード抽出部17によって抽出された第2のコメントキーワードも、タグとして対応付けることも好ましい。そして、イベント位置(緯度経度情報)+キーワード(第1のコメントキーワード+地理的な特徴物の識別名称+第2のコメントキーワード)は、イベント位置記憶部19へ出力される。
[Tagging unit 18]
The tagging
[イベント位置記憶部19]
イベント位置記憶部19は、イベント位置(緯度経度情報)に、キーワード(第1のコメントキーワード+地理的な特徴物の識別名称+第2のコメントキーワード)を対応付けて記憶する。
[Event position storage unit 19]
The event
[地図情報送信部1A]
地図情報送信部1Aは、地図情報と、その地図に含まれるイベント位置に描画されるキーワードとを、ユーザ操作可能な端末3へ送信する。
[
The map
図7は、本発明における地図上のイベント位置にキーワードを表示した画面図である。 FIG. 7 is a screen diagram in which keywords are displayed at event positions on a map according to the present invention.
図7によれば、地図上のイベント位置に、特徴的なコメントキーワードが表示されている。ここでは、第1のコメントキーワードとして、都庁西新宿のイベント位置に、「#osc11tk」「OSC2011」「A大学」が表示される。また、第2のコメントキーワードとして、同じ位置に、「東京都庁」「オープンソースカンファレンス」が表示される。閲覧者は、この地図を見ることによって、都庁西新宿の位置に、コメントキーワードに基づくイベントが開催されており、そのイベントがどの場所で開催されているかを、直感的に認識することができる。 According to FIG. 7, characteristic comment keywords are displayed at event positions on the map. Here, “# osc11tk”, “OSC2011”, and “University A” are displayed as the first comment keyword at the event location in the Tokyo Metropolitan Government Office Nishi-Shinjuku. In addition, “Tokyo Metropolitan Government” and “Open Source Conference” are displayed at the same position as the second comment keyword. By viewing this map, the viewer can intuitively recognize where an event based on the comment keyword is held at the location of the Tokyo Metropolitan Government Office Nishi-Shinjuku, and where the event is held.
本発明のように、ジオタグ付きのコメント文章から抽出した第1のコメントキーワードに対して、更にランドマーク名で検索したコメント文章から抽出した第2のコメントキーワードを用いることとしたのは、以下のような理由がある。例えばtwitterの場合、ジオタグ付きコメント文章は、全体の0.5%程度(日本の2010年統計)しか存在しない。一方で、そのイベント位置から投稿されているにも拘わらず、位置情報が付加されていないコメント文章も数多く存在する。そこで、そのイベント位置周辺のランドマーク名を含むコメント文章を更に検索することとしている。 As in the present invention, the second comment keyword extracted from the comment text searched by the landmark name is used for the first comment keyword extracted from the comment text with the geotag. There is a reason. For example, in the case of twitter, there are only about 0.5% of geotagged comment text (2010 statistics in Japan). On the other hand, there are many comment sentences to which position information is not added despite being posted from the event position. Therefore, the comment text including the landmark name around the event position is further searched.
以上、詳細に説明したように、本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、地理的な特徴物の識別名称をタグ付けすることができる。 As described above in detail, according to the tagging device, the program, and the method of the present invention, based on a large number of comment texts, an event position where a special trend different from usual is seen can be detected. Identification names can be tagged.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 タグ付けサーバ
10 コメント文章蓄積部
11 イベント位置検出部
12 第1のコメントキーワード抽出部
13 特徴物記憶部
14 特徴物名称検索部
15 特徴物コメント検索部
16 特徴物検出部
17 第2のコメントキーワード抽出部
18 タグ付け部
19 イベント位置記憶部
1A 地図情報送信部
2 ミニブログサーバ
3 投稿者用端末
4 閲覧者用端末
5 ローカルサーチサーバ
DESCRIPTION OF
Claims (12)
地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶手段と、
前記コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出するイベント位置検出手段と、
前記イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第1のコメントキーワード抽出手段と、
前記イベント位置毎に、前記特徴物記憶手段を用いて地理的な特徴物の識別名称を検索する特徴物名称検索手段と、
前記コメント文章蓄積部から、検索された前記特徴物の識別名称を含むコメント文章を検索する特徴物コメント検索手段と、
前記特徴物毎に、前記特徴物コメント検索手段によって検索されたコメント文章の群から単語を抽出し、前記特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する特徴物検出手段と、
前記イベント位置毎に、第1のコメントキーワードと、前記特徴物検出手段によって検出された1つ以上の特徴物の識別名称とを、タグとして対応付けるタグ付け手段と
を有することを特徴とするタグ付け装置。 A tagging device that includes a comment text storage unit that stores comment text including post time and position information posted from an unspecified number of third parties, and associates geographical feature names with event positions,
A feature storage means for storing the identification name of a geographical feature and its position in advance,
Event position detection means for detecting an event position where a predetermined number of comment sentences or more are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from a group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is equal to or higher than a predetermined ratio or a predetermined number or more. First comment keyword extraction means for extracting the comment keywords of
For each event position, feature name search means for searching for an identification name of a geographical feature using the feature storage means;
Feature comment search means for searching for a comment sentence including the identification name of the searched feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched by the feature comment search means, and for each feature, the appearance frequency that matches the first comment keyword is counted, and the appearance frequency is predetermined. A feature detection means for detecting one or more features that are greater than or equal to a percentage or greater than a predetermined number;
Tagging means comprising tagging means for associating, as a tag, a first comment keyword and identification names of one or more feature objects detected by the feature object detection means for each event position apparatus.
前記タグ付け手段は、前記イベント位置毎に、第2のコメントキーワードをタグとして更に対応付ける
ことを特徴とする請求項1に記載のタグ付け装置。 For each event position, a word is extracted from the group of comment sentences searched by the feature comment search means, the appearance frequency is counted for each word, and the appearance frequency is a predetermined ratio or more or a predetermined number or more. A second comment keyword extracting means for extracting one or more second comment keywords;
The tagging apparatus according to claim 1, wherein the tagging unit further associates a second comment keyword as a tag for each event position.
前記イベント位置検出手段は、第1のコメントキーワード抽出手段から、当該イベント位置の削除の要求を受けた際、当該イベント位置を除外して絞り込むことを特徴とする請求項1から3のいずれか1項に記載のタグ付け装置。 If there is no word whose appearance frequency is equal to or higher than a predetermined threshold by the first comment keyword extraction means, a request is made to the event position detection means to delete the event position,
4. The event position detection unit, when receiving a request for deletion of the event position from the first comment keyword extraction unit, excludes the event position and narrows down the event position detection unit. The tagging device according to item.
前記イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込み、
及び/又は
所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込む
ことを特徴とする請求項1から4のいずれか1項に記載のタグ付け装置。 The event position detecting means includes
For each event position, if the number of users who posted these comment sentences is less than or equal to a predetermined ratio value with respect to the total number of comment sentences, narrow down by excluding the event position,
And / or narrowing down by excluding a comment sentence in which a sentence claimed by a contributor is not described from a large number of comment sentences posted in a predetermined time period. The tagging apparatus according to item 1.
ことを特徴とする請求項1から7のいずれか1項に記載のタグ付け装置。 The first comment keyword extraction means and the second comment keyword extraction means extract words from a plurality of comment sentences by morphological analysis, and at the same time, TF-IDF (Term Frequency-Inverse Document Frequency: word appearance frequency-reverse appearance frequency) The tagging apparatus according to claim 1, wherein a characteristic word is extracted as the comment keyword.
前記ブログサーバ又は掲示板サイトサーバから、コメント文章を蓄積するコメント文章蓄積手段を更に有することを特徴とする請求項1から8のいずれか1項に記載のタグ付け装置。 The comment text is obtained from a blog (Web log) server or a bulletin board site server,
9. The tagging apparatus according to claim 1, further comprising comment text storage means for storing comment text from the blog server or bulletin board site server.
第1のコメントキーワード抽出手段及び第2のコメントキーワード抽出手段は、ハッシュタグを、前記コメントキーワードとして抽出する
ことを特徴とする請求項9に記載のタグ付け装置。 The blog server is a mini blog server twitter (registered trademark) server,
The tagging apparatus according to claim 9, wherein the first comment keyword extraction unit and the second comment keyword extraction unit extract a hash tag as the comment keyword.
地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶手段と、
前記コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出するイベント位置検出手段と、
前記イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第1のコメントキーワード抽出手段と、
前記イベント位置毎に、前記特徴物記憶手段を用いて地理的な特徴物の識別名称を検索する特徴物名称検索手段と、
前記コメント文章蓄積部から、検索された前記特徴物の識別名称を含むコメント文章を検索する特徴物コメント検索手段と、
前記特徴物毎に、前記特徴物コメント検索手段によって検索されたコメント文章の群から単語を抽出し、前記特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する特徴物検出手段と、
前記イベント位置毎に、第1のコメントキーワードと、前記特徴物検出手段によって検出された1つ以上の特徴物の識別名称とを、タグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とするタグ付けプログラム。 A comment text storage unit that stores comment texts including post times and location information posted by an unspecified number of third parties, and functions a computer mounted on a device that associates geographical feature names with event positions A tagging program,
A feature storage means for storing the identification name of a geographical feature and its position in advance,
Event position detection means for detecting an event position where a predetermined number of comment sentences or more are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from a group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is equal to or higher than a predetermined ratio or a predetermined number or more. First comment keyword extraction means for extracting the comment keywords of
For each event position, feature name search means for searching for an identification name of a geographical feature using the feature storage means;
Feature comment search means for searching for a comment sentence including the identification name of the searched feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched by the feature comment search means, and for each feature, the appearance frequency that matches the first comment keyword is counted, and the appearance frequency is predetermined. A feature detection means for detecting one or more features that are greater than or equal to a percentage or greater than a predetermined number;
A computer is caused to function as a tagging unit that associates, as a tag, the first comment keyword and the identification name of one or more feature objects detected by the feature object detection unit for each event position. Tagging program.
前記装置は、地理的な特徴物の識別名称と、その位置とを対応付けて予め記憶した特徴物記憶部を有し、
前記装置は、
前記コメント文章蓄積部から、所定時間帯に投稿された多数のコメント文章について、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する第1のステップと、
前記イベント位置毎に、当該イベント位置に含まれるコメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の第1のコメントキーワードを抽出する第2のステップと、
前記イベント位置毎に、前記特徴物記憶部を用いて地理的な特徴物の識別名称を検索する第3のステップと、
前記コメント文章蓄積部から、検索された前記特徴物の識別名称を含むコメント文章を検索する第4のステップと、
前記特徴物毎に、第4のステップによって検索されたコメント文章の群から単語を抽出し、前記特徴物毎に、第1のコメントキーワードと一致する出現頻度を計数し、出現頻度が所定割合以上又は所定数以上となる1つ以上の特徴物を検出する第5のステップと、
前記イベント位置毎に、第1のコメントキーワードと、第5のステップによって検出された1つ以上の特徴物の識別名称とを、タグとして対応付ける第6のステップと
を実行することを特徴とする装置のタグ付け方法。 A method of associating a geographical feature name with an event position in an apparatus having a comment text storage unit that stores comment text including post time and position information posted from an unspecified number of third parties,
The device includes a feature storage unit that stores in advance the identification name of a geographical feature and its position in association with each other.
The device is
A first step of detecting an event position where a predetermined number or more of comment sentences are concentrated in a predetermined position range for a large number of comment sentences posted in a predetermined time period from the comment sentence storage unit;
For each event position, a word is extracted from a group of comment sentences included in the event position, the appearance frequency is counted for each word, and the appearance frequency is equal to or higher than a predetermined ratio or a predetermined number or more. A second step of extracting comment keywords for
A third step of searching for an identification name of a geographical feature using the feature storage unit for each event position;
A fourth step of searching for a comment sentence including the searched identification name of the feature from the comment sentence storage unit;
For each feature, a word is extracted from the group of comment sentences searched in the fourth step , and for each feature, the appearance frequency that matches the first comment keyword is counted. Or a fifth step of detecting one or more features that are greater than or equal to a predetermined number;
A sixth step of associating, as a tag, a first comment keyword and an identification name of one or more features detected in the fifth step for each event position;
A method for tagging a device, characterized in that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012144888A JP5836892B2 (en) | 2012-06-28 | 2012-06-28 | Apparatus, program, and method for tagging identification name of geographical feature to event location |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012144888A JP5836892B2 (en) | 2012-06-28 | 2012-06-28 | Apparatus, program, and method for tagging identification name of geographical feature to event location |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014010513A JP2014010513A (en) | 2014-01-20 |
JP5836892B2 true JP5836892B2 (en) | 2015-12-24 |
Family
ID=50107210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012144888A Active JP5836892B2 (en) | 2012-06-28 | 2012-06-28 | Apparatus, program, and method for tagging identification name of geographical feature to event location |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5836892B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6371587B2 (en) * | 2014-05-26 | 2018-08-08 | 株式会社Nttドコモ | Presentation system, presentation device, and presentation program |
JP6411800B2 (en) * | 2014-07-17 | 2018-10-24 | 株式会社Nttドコモ | Information management apparatus, information management system, and information management program |
JP6528532B2 (en) * | 2015-05-12 | 2019-06-12 | 富士通株式会社 | Disaster detection program, disaster detection device and disaster detection method |
JP7229761B2 (en) | 2018-07-06 | 2023-02-28 | 株式会社日立システムズ | Information processing device, inspection evaluation system and inspection evaluation method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4496900B2 (en) * | 2004-09-10 | 2010-07-07 | 日本電信電話株式会社 | Event information extraction apparatus and program |
JP2007213431A (en) * | 2006-02-10 | 2007-08-23 | Yafoo Japan Corp | Information providing system |
JP5294581B2 (en) * | 2007-02-27 | 2013-09-18 | ヤフー株式会社 | How to correct position data |
JP5556100B2 (en) * | 2009-09-17 | 2014-07-23 | 富士通株式会社 | Information providing apparatus, information providing method, and computer program |
US9008693B2 (en) * | 2010-09-24 | 2015-04-14 | Nokia Corporation | Method and apparatus for information aggregation around locations |
-
2012
- 2012-06-28 JP JP2012144888A patent/JP5836892B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014010513A (en) | 2014-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10223465B2 (en) | Customizable, real time intelligence channel | |
US11153253B2 (en) | System and method for determining and delivering breaking news utilizing social media | |
JP5725619B2 (en) | Apparatus, program, and method for tagging position information with keywords based on a large number of comment sentences | |
KR101667232B1 (en) | Semantic based searching apparatus and semantic based searching method and server for providing semantic based metadata and method for operating thereof | |
US20150112963A1 (en) | Time and location based information search and discovery | |
US10176265B2 (en) | Awareness engine | |
CN106796590B (en) | Exposing live events in search results | |
JP5836892B2 (en) | Apparatus, program, and method for tagging identification name of geographical feature to event location | |
KR102195686B1 (en) | Apparatus and method of recommending items based on areas | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Zhu et al. | Finding top-k similar users based on trajectory-pattern model for personalized service recommendation | |
KR20110050823A (en) | Apparatus and method for establishing search database for knowledge node coupling structure | |
JP2014052809A (en) | Information classification program and information processor | |
US10095751B2 (en) | Blended polygon search | |
Hannay et al. | GeoIntelligence: Data mining locational social media content for profiling and information gathering | |
JP5836902B2 (en) | Event comment text detection device, program and method for detecting only comment text related to an event | |
KR20110039120A (en) | Content recommendation list providing system based on location or social relationship | |
Viana et al. | Mobile photo recommendation and logbook generation using context-tagged images | |
US10185746B2 (en) | Interpreting user queries based on device orientation | |
JP2015099265A (en) | Map information presentation device, user terminal, and map information presentation method | |
KR102279125B1 (en) | Terminal and apparatus for providing recommendation information based on preference filter | |
US20220261448A1 (en) | Information recommendation device, information recommendation system, information recommendation method and information recommendation program | |
GENTILE | Using Flickr geotags to find similar tourism destinations | |
KR20200125372A (en) | Method and apparatus for managing attribute language | |
JP5613700B2 (en) | Document collection apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5836892 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |