JP5731940B2 - テキスト位置判定装置及びテキスト位置判定方法 - Google Patents
テキスト位置判定装置及びテキスト位置判定方法 Download PDFInfo
- Publication number
- JP5731940B2 JP5731940B2 JP2011214949A JP2011214949A JP5731940B2 JP 5731940 B2 JP5731940 B2 JP 5731940B2 JP 2011214949 A JP2011214949 A JP 2011214949A JP 2011214949 A JP2011214949 A JP 2011214949A JP 5731940 B2 JP5731940 B2 JP 5731940B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- position information
- indicating
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 238000000354 decomposition reaction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000001932 seasonal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1に本実施形態に係るテキスト位置判定装置10を示す。テキスト位置判定装置10は、テキストに係る位置情報を判定する装置である。より具体的には、テキスト位置判定装置10は、テキストに含まれるワード(単語)に関連がある位置を判定して、ワードに位置情報を付与して位置情報に応じた集約を行う。テキスト位置判定装置10の解析対象となるテキストは、例えば、インターネット上の日記、掲示板、ブログ、マイクロブログ及びSNS等のサービスにおいて、様々なユーザによって作成、投稿されたテキストである。
スコア=(Wt/Wa)×log(Wa/At+1)
また、上記の例ではテキストの数を用いてTF値を算出したが、テキストの数の代わりに、当該テキストを投稿したユーザの数を用いてもよい。テキストを投稿したユーザは、テキストに付与されたメタデータにより特定できる。ユーザの数によりTF値を算出することで、特定のユーザが同一のワードについて複数回投稿した際にも、その影響を排除することができる。次に、集計部19は、急上昇度スコアを算出する。急上昇度スコアは、以下の式によって算出することとしてもよい。
急上昇度スコア=(直近24時間のスコア)−(直近48時間のスコア)
ここで、a,bはそれぞれ単語を示し、D(a,b)は単語aと単語bとの間のダイス係数、C(a,b)は単語aと単語bとの間のコサイン距離、freq(a)は単語aの出現頻度(全てのテキスト数に対する単語aが登場するテキストの割合)、freq(a,b)は単語aと単語bとの共起頻度(全てのテキスト数に対する単語aと単語bとが両方登場するテキストの割合)である。なお、全てのテキストは、情報収集部13によって取得されたテキストの総数を用いてもよいし、エリア毎のテキストの総数を用いてもよい。ダイス係数又はコサイン距離が予め設定した閾値(例えば、0.5以上)である場合、同じグループ(一つのトピック)にまとめる。
テキスト位置判定装置10では、情報収集部13によって解析対象となる一つ以上のテキストが取得される(S01、取得ステップ)。続いて、取得されたテキストにURLが含まれているか判断されて、URLが含まれていた場合はリンク先のデータ(テキスト)が取得される(S02、取得ステップ)。リンク先のテキストは、S01で取得されたテキストと合わせて扱われてもよいし、後述するS07の地名の絞り込みの処理のみに用いられてもよい。取得されたテキストは、情報収集部13からワード分解部14に出力される。
Claims (12)
- 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、
前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備え、
前記取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出手段は、前記取得手段によって取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、テキスト位置判定装置。 - 前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とする請求項1に記載のテキスト位置判定装置。
- 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、
前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備え、
前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とするテキスト位置判定装置。 - 前記位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、POIを示す単語とエリア情報と前記位置情報とを対応付けて記憶し、
前記位置単語抽出手段は、前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に前記位置情報記憶手段に対応付けられている前記エリア情報を特定し、前記分解された単語と特定されたエリア情報に対応付けられているPOIを示す単語とを比較して、それらが一致したPOIを示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出されたPOIを示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該POIを示す単語に対応付けて記憶されている前記位置情報を付与する、
請求項1〜3のいずれか一項に記載のテキスト位置判定装置。 - 前記テキストにはメタデータが付与されており、
前記位置単語抽出手段は、前記取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、
請求項1〜4のいずれか一項に記載のテキスト位置判定装置。 - 前記テキストには時刻が対応付けられており、
前記集計手段は、前記テキストに対応付けられた時刻に応じて集計を行う、
請求項1〜5のいずれか一項に記載のテキスト位置判定装置。 - 前記集計手段は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、前記第1の期間に係る集計結果の値から前記第2の期間に係る集計結果の値を減じた値を集計結果とする請求項6に記載のテキスト位置判定装置。
- 前記集計手段は、複数の前記単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算する請求項1〜7の何れか一項に記載のテキスト位置判定装置。
- 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備え、
前記取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出手段は、前記取得手段によって取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、テキスト位置判定装置。 - 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備え、
前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とするテキスト位置判定装置。 - 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、
テキストを取得する取得ステップと、
前記取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、
前記単語分解ステップにおいて分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、
前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与ステップと、
前記位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、
前記集計ステップにおける集計結果を出力する出力ステップと、
を含み、
前記取得ステップにおいて、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出ステップにおいて、前記取得ステップにおいて取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与ステップにおいて、前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、テキスト位置判定方法。 - 位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、
テキストを取得する取得ステップと、
前記取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、
前記単語分解ステップにおいて分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、
前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与ステップと、
前記位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、
前記集計ステップにおける集計結果を出力する出力ステップと、
を含み、
前記集計ステップにおいて、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とするテキスト位置判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011214949A JP5731940B2 (ja) | 2011-09-29 | 2011-09-29 | テキスト位置判定装置及びテキスト位置判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011214949A JP5731940B2 (ja) | 2011-09-29 | 2011-09-29 | テキスト位置判定装置及びテキスト位置判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013077045A JP2013077045A (ja) | 2013-04-25 |
JP5731940B2 true JP5731940B2 (ja) | 2015-06-10 |
Family
ID=48480487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011214949A Active JP5731940B2 (ja) | 2011-09-29 | 2011-09-29 | テキスト位置判定装置及びテキスト位置判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5731940B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6177030B2 (ja) | 2013-07-04 | 2017-08-09 | クラリオン株式会社 | Poi情報提供システム、poi情報提供装置、poi情報提供方法、及びプログラム |
JP6059683B2 (ja) * | 2014-05-28 | 2017-01-11 | 日本電信電話株式会社 | ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム |
JP6497657B2 (ja) * | 2014-08-20 | 2019-04-10 | Kddi株式会社 | 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法 |
JP6487204B2 (ja) * | 2014-12-25 | 2019-03-20 | Kddi株式会社 | コメント文章から人の心理状態に影響した場所を検知するプログラム、装置及び方法 |
JP6880859B2 (ja) * | 2017-03-14 | 2021-06-02 | 富士通株式会社 | 位置情報出力プログラム、位置情報出力方法および情報処理装置 |
JP7510933B2 (ja) | 2019-07-12 | 2024-07-04 | 株式会社Nttドコモ | 検索装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4135110B2 (ja) * | 2005-03-15 | 2008-08-20 | ソニー株式会社 | 地点検索装置、検索方法 |
JP2006285855A (ja) * | 2005-04-04 | 2006-10-19 | Ntt Docomo Inc | 検索サーバ |
JP2007058804A (ja) * | 2005-08-26 | 2007-03-08 | Hitachi Ltd | コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム |
JP2009015181A (ja) * | 2007-07-09 | 2009-01-22 | Hitachi Software Eng Co Ltd | 3次元形状形状データ入力方法 |
JP5223293B2 (ja) * | 2007-10-25 | 2013-06-26 | 沖電気工業株式会社 | 位置表現抽出装置、方法及びプログラム |
JP5224453B2 (ja) * | 2008-07-18 | 2013-07-03 | Kddi株式会社 | 地理的特徴情報抽出方法およびシステム |
JP5886558B2 (ja) * | 2011-07-29 | 2016-03-16 | 株式会社ゼンリン | 電子書籍表示装置 |
-
2011
- 2011-09-29 JP JP2011214949A patent/JP5731940B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013077045A (ja) | 2013-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5731940B2 (ja) | テキスト位置判定装置及びテキスト位置判定方法 | |
Jackoway et al. | Identification of live news events using Twitter | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
Hahmann et al. | Twitter location (sometimes) matters: Exploring the relationship between georeferenced tweet content and nearby feature classes | |
US9690804B2 (en) | Information processing device, information processing method, information processing program, and recording medium | |
Rosa et al. | Event detection system based on user behavior changes in online social networks: Case of the covid-19 pandemic | |
US11216499B2 (en) | Information retrieval apparatus, information retrieval system, and information retrieval method | |
JP6411800B2 (ja) | 情報管理装置、情報管理システム、及び情報管理プログラム | |
US8965867B2 (en) | Measuring and altering topic influence on edited and unedited media | |
KR101429397B1 (ko) | 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템 | |
Gonzalez et al. | Tweolocator: a non-intrusive geographical locator system for twitter | |
Grover et al. | Prediction model for influenza epidemic based on Twitter data | |
Barbaresi | Collection and indexing of tweets with a geographical focus | |
Nguyen et al. | Evaluating marijuana-related tweets on Twitter | |
Jain | Real-time social network data mining for predicting the path for a disaster | |
Chan et al. | Leveraging Twitter to detect event names associated with a place | |
Cheke et al. | Understanding the impact of geographical distance on online discussions | |
Lampos | Detecting events and patterns in large-scale user generated textual streams with statistical learning methods | |
JP2017091436A (ja) | 特徴語選択装置 | |
JP2020129239A (ja) | 投稿分析システム、投稿分析装置および投稿分析方法 | |
Arianto et al. | Mining Unstructured Data in Social Media for Natural Disaster Management in Indonesia | |
JP5836902B2 (ja) | イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法 | |
JP2017215803A (ja) | 特徴語抽出装置 | |
CN112597772A (zh) | 一种热点信息确定方法、计算机设备以及装置 | |
JP2014229231A (ja) | 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5731940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |