JP5725619B2 - 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 - Google Patents
多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP5725619B2 JP5725619B2 JP2011286637A JP2011286637A JP5725619B2 JP 5725619 B2 JP5725619 B2 JP 5725619B2 JP 2011286637 A JP2011286637 A JP 2011286637A JP 2011286637 A JP2011286637 A JP 2011286637A JP 5725619 B2 JP5725619 B2 JP 5725619B2
- Authority
- JP
- Japan
- Prior art keywords
- comment
- event position
- tagging
- sentences
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
を有することを特徴とする。
コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
ブログサーバ又は掲示板サイトサーバから、コメント文章を収集するコメント文章収集手段を更に有することも好ましい。
ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
コメントキーワード抽出手段は、ハッシュタグを、コメントキーワードとして抽出することも好ましい。
ハッシュタグを含むコメント文章を、twitter(登録商標)サーバを用いて更に検索するコメントキーワード再検索手段を更に有し、
コメントキーワード再検索手段によって取得されたコメント文章を、コメント文章収集手段によって取得されたものとする
ことも好ましい。
ブログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集するコメント文章収集手段と、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とする。
ブログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集する第1のステップと、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出する第2のステップと、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する第3のステップと、
イベント位置毎に、コメントキーワードをタグとして対応付ける第4のステップと
を有することを特徴とする。
コメント文章収集部111は、ミニブログサーバ(例えばtwitterサーバ)2から、投稿時刻及び位置情報を含むコメント文章を収集する。これらコメント文章は、ジオタグ付きtweetsであり、ユーザid(user_id)、発信時間(created_at)、位置情報(loc_lat, loc_lng)(緯度・経度情報)、テキスト(texts)を含む。ここで、コメント文章収集部111は、所定時間帯に投稿されたコメント文章のみを収集することも好ましい。地域イベントは、一定の時間帯でのみ開催されるものであるからである。勿論、コメント文章収集部111に代えて、多数のコメント文章を予め蓄積したコメント文章蓄積部であってもよい。
「I'm at (場所名) http://t.co/BNw9NbL2」
「@XXX http://t.co/3acyFI3K」
「(場所名)にタッチ! http://t.co/4a7dabK」
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する。
イベントが開催されている地域では、投稿数が集中していると想定する。そこで、最初に、イベント位置検出部112は、コメント文章に付加された緯度経度情報を平面上にプロットし、その位置をクラスタリングすることによって、コメント文章が集中するイベント位置(密集地)を検出する。このクラスタリングには、例えばDBSCAN(Density-Based Spatial Clustering)を用いることができる。k-meansによれば、クラスタ数kを事前に与える必要があるのに対し、DBSCANによれば、クラスタ数を事前に与えことなく、比較的に直感的なクラスタを抽出できる。
次に、イベント位置検出部112は、S31におけるイベント位置の候補の中から、日常的に、所定数以上の投稿数がある位置情報の除外して絞り込む。常に投稿数が多い場所として、例えば「駅」がある。駅のような場所は、普段と異なる特別な動向が見られるイベント位置ではない。そのために、日常的に投稿数が多い位置は、イベント位置候補からために、除外する。
イベント位置検出部112は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込む。このようなイベント位置では、同一ユーザが多数回、コメント文章を投稿しており、多数のユーザが集まるイベント位置ではないことが多い。そこで、このようなイベント位置の候補は除外する。例えば、その地域における投稿数の半分より少ない場合(10個のコメント文章が投稿された地域について、そのユーザ数が4人以下である場合)、このイベント位置を候補から除外する。
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外する。例えば、「I'm at (場所)」や「(場所)にタッチ!」など、位置情報登録サイト特有の言い回しのみで構成される場合が多い。このため、このような言い回しのコメント文章のみで、且つ、投稿者自身が主張する文章が記述されていないコメント文章を、除外する。このようなコメント文章は、その地域イベントを特定するに適したキーワードが含まれていないためである。
(コメント文章1)○ 着いた。さっきの学生さん達は、A大でした。@都庁西新宿ビル http://t.co/3acyFI3K
(コメント文章2)○ OSC 2011 Tokyo/Fall にやってまいりました #osc11tk (@ 都庁 西新宿ビル w/ 3 others) http://t.co/BNw9NbL2
(コメント文章3)× I'm at 都庁西新宿ビル 28階http://t.co/v66BR2Iv
(コメント文章4)○ ついた (@都庁西新宿ビル w/ 4 others) http://t.co/RZkmuSG8',
(コメント文章5)× I'm at 都庁西新宿ビル w/ @hirokazu_nishi http://t.co/HdCZoVD4',
(コメント文章6)○ #osc11tkに参加。いやぁしかし、広いキャンパスだなぁ。(@都庁西新宿ビル w/ 7 others) http://t.co/V1YAzqZg
(コメント文章7)× I'm at 都庁西新宿ビル w/ @minky0 http://t.co/5aYa34CN
(コメント文章8)× I'm at 都庁西新宿ビル D2-1-1, C市) w/ 10 others http://t.co/Uxcc0IrB
イベント位置検出部112は、イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込む。イベント位置である場合、そのイベントの内容に応じて、一定以上の出現頻度のキーワードが必ず検出されると考えられる。即ち、そのキーワードは、そのイベントの内容を表すに適切なものである場合が多い。一方で、一定以上の出現頻度のキーワードが検出されないということは、特定のイベントが開催されていないと考えられる。従って、そのようなイベント位置の候補は、除外する。
コメントキーワード抽出部113は、イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する。抽出されたコメントキーワードは、タグ付け部114へ出力される。
タグ付け部114は、イベント位置毎に、コメントキーワードをタグとして対応付ける。そして、イベント位置(緯度経度情報)+コメントキーワードは、イベント位置記憶部115へ出力される。
イベント位置記憶部115は、イベント位置(緯度経度情報)+コメントキーワードを記憶する。
地図情報送信部116は、地図情報と、その地図に含まれるイベント位置に描画されるコメントキーワードとを、ユーザ操作可能な端末3へ送信する。
コメントキーワード再検索部117は、コメントキーワード抽出部113から出力されたコメントキーワードをキーとして、twitter(登録商標)サーバを用いて更に検索する。コメントキーワードは、例えばハッシュタグ(#)やイベント固有名詞を含み、これらを含むコメント文章を再検索する。
Tokyo/Fall"が含まれるtweetsを検索する場合、以下のURL(Uniform Resource Locator)を指定する。
http://search.twitter.com/search.atom?phrase="OSC2011 Tokyo/Fall"
http://search.twitter.com/search.atom?q=%23osc11tk
また、日付を指定することによって、最大1週間分のtweetsを検索することもできる。
Tokyo/Fall(学会)」とカテゴリも加えて記述する。このような記述を実現するためには、イベント毎に、予め準備しておいたイベント関連語リストを作成しておく必要がある。イベント関連語リストには、例えば「OSC -> 学会」が記憶されており、「OSC」を含むことよって、カテゴリ「学会」が検索される。このように、コメントキーワードに加えて、カテゴリも付加することによって、閲覧者に、更に直感的に理解させることができる。
10 通信インタフェース部
111 コメント文章収集部
112 イベント位置検出部
113 コメントキーワード抽出部
114 タグ付け部
115 イベント位置記憶部
116 地図情報送信部
117 コメントキーワード再検索部
2 ミニブログサーバ
3 投稿者用端末
4 閲覧者用端末
Claims (12)
- 不特定多数の第三者から投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を蓄積したタグ付け装置であって、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
前記イベント位置毎に、前記コメントキーワードをタグとして対応付けるタグ付け手段と
を有することを特徴とするタグ付け装置。 - 前記イベント位置検出手段は、前記イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1に記載のタグ付け装置。
- 前記イベント位置検出手段は、所定時間帯に投稿された多数のコメント文章の中で、位置情報を含むコメント文章のみを抽出し、且つ、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことを特徴とする請求項1又は2に記載のタグ付け装置。
- 前記イベント位置検出手段は、前記イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1から3のいずれか1項に記載のタグ付け装置。
- 前記イベント位置検出手段は、前記コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、前記イベント位置を検出することを特徴とする請求項1から4のいずれか1項に記載のタグ付け装置。
- 前記タグ付け手段によって記憶された前記イベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべき前記コメントキーワードとを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することを特徴とする請求項1から5のいずれか1項に記載のタグ付け装置。
- 前記コメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、前記コメントキーワードとして抽出する
ことを特徴とする請求項1から6のいずれか1項に記載のタグ付け装置。 - 前記コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
前記ブログサーバ又は掲示板サイトサーバから、コメント文章を収集するコメント文章収集手段を更に有することを特徴とする請求項1から7のいずれか1項に記載のタグ付け装置。 - 前記ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
前記コメントキーワード抽出手段は、ハッシュタグを、前記コメントキーワードとして抽出する
ことを特徴とする請求項8に記載のタグ付け装置。 - 前記ハッシュタグを含むコメント文章を、前記twitter(登録商標)サーバを用いて更に検索するコメントキーワード再検索手段を更に有し、
前記コメントキーワード再検索手段によって取得されたコメント文章を、前記コメント文章収集手段によって取得されたものとする
ことを特徴とする請求項9に記載のタグ付け装置。 - 装置に搭載されたコンピュータを機能させるタグ付けプログラムであって、
ブログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集するコメント文章収集手段と、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
前記イベント位置毎に、前記コメントキーワードをタグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とするタグ付けプログラム。 - 装置のタグ付け方法であって、
ブログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集する第1のステップと、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出する第2のステップと、
前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する第3のステップと、
前記イベント位置毎に、前記コメントキーワードをタグとして対応付ける第4のステップと
を有することを特徴とするタグ付け方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286637A JP5725619B2 (ja) | 2011-12-27 | 2011-12-27 | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286637A JP5725619B2 (ja) | 2011-12-27 | 2011-12-27 | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134738A JP2013134738A (ja) | 2013-07-08 |
JP5725619B2 true JP5725619B2 (ja) | 2015-05-27 |
Family
ID=48911355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286637A Active JP5725619B2 (ja) | 2011-12-27 | 2011-12-27 | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5725619B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6369108B2 (ja) * | 2014-04-18 | 2018-08-08 | 富士通株式会社 | イベント発生場所推定方法、イベント発生場所推定プログラムおよびイベント発生場所推定装置 |
JP6497657B2 (ja) * | 2014-08-20 | 2019-04-10 | Kddi株式会社 | 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法 |
US20160110381A1 (en) * | 2014-10-17 | 2016-04-21 | Fuji Xerox Co., Ltd. | Methods and systems for social media-based profiling of entity location by associating entities and venues with geo-tagged short electronic messages |
CN106934005A (zh) * | 2017-03-07 | 2017-07-07 | 重庆邮电大学 | 一种基于密度的文本聚类方法 |
JP6624174B2 (ja) * | 2017-08-10 | 2019-12-25 | 株式会社ニコン | 情報処理装置 |
CN108153856B (zh) * | 2017-12-22 | 2022-09-06 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110750646B (zh) * | 2019-10-16 | 2022-12-06 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5390840B2 (ja) * | 2008-11-27 | 2014-01-15 | 株式会社日立製作所 | 情報分析装置 |
JP2011103101A (ja) * | 2009-11-12 | 2011-05-26 | Shunsuke Tajiri | 情報提供装置および情報提供方法 |
-
2011
- 2011-12-27 JP JP2011286637A patent/JP5725619B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013134738A (ja) | 2013-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11870864B2 (en) | System and method for automatic storyline construction based on determined breaking news | |
Xu et al. | Crowdsourcing based description of urban emergency events using social media big data | |
US11153253B2 (en) | System and method for determining and delivering breaking news utilizing social media | |
JP5725619B2 (ja) | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 | |
US10223465B2 (en) | Customizable, real time intelligence channel | |
US8805823B2 (en) | Content processing systems and methods | |
Xu et al. | Building the multi-modal storytelling of urban emergency events based on crowdsensing of social media analytics | |
US10176265B2 (en) | Awareness engine | |
Crestani et al. | Mobile information retrieval | |
JP6130270B2 (ja) | メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法 | |
Troudi et al. | A new mashup based method for event detection from social media | |
JP5836892B2 (ja) | イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法 | |
Pereira et al. | The role of context in transport prediction | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
JP6147629B2 (ja) | ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法 | |
Devkota et al. | Utilizing user generated contents to describe tourism areas of interest | |
US10922359B2 (en) | Computerized system and method for extracting entity information from text communications and displaying content based therefrom | |
KR102195686B1 (ko) | 지역 기반 아이템 추천 장치 및 방법 | |
JP2014052809A (ja) | 情報分類プログラム及び情報処理装置 | |
Xu et al. | Crowd sensing of urban emergency events based on social media big data | |
JP5836902B2 (ja) | イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法 | |
JP6152333B2 (ja) | メディアコンテンツに対応する要約語を明示する装置、サーバ、プログラム及び方法 | |
KR20110039120A (ko) | 장소 또는 사회 관계 기반의 컨텐츠 추천 리스트 제공 시스템 | |
KR102279125B1 (ko) | 취향필터에 기반한 추천 정보 제공 단말 및 장치 | |
Sueda et al. | Social life logging: can we describe our own personal experience by using collective intelligence? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5725619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |