JP2013045415A - 話題語獲得装置、方法、及びプログラム - Google Patents

話題語獲得装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013045415A
JP2013045415A JP2011184971A JP2011184971A JP2013045415A JP 2013045415 A JP2013045415 A JP 2013045415A JP 2011184971 A JP2011184971 A JP 2011184971A JP 2011184971 A JP2011184971 A JP 2011184971A JP 2013045415 A JP2013045415 A JP 2013045415A
Authority
JP
Japan
Prior art keywords
topic word
document
target
word candidate
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011184971A
Other languages
English (en)
Other versions
JP5361090B2 (ja
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Yoshihito Yasuda
宜仁 安田
Norifumi Katabuchi
典史 片渕
Yoshimasa Koike
義昌 小池
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011184971A priority Critical patent/JP5361090B2/ja
Publication of JP2013045415A publication Critical patent/JP2013045415A/ja
Application granted granted Critical
Publication of JP5361090B2 publication Critical patent/JP5361090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象に関連する話題語を適切に獲得する。
【解決手段】対象抽出部11で、文書群から対象を抽出し、話題語候補抽出部12で、対象を含む文書各々から話題語候補を抽出し、話題語候補集計部13で、各文書を文書の出所に基づいて文書ドメインに分類し、話題語候補を含む文書が分類された文書ドメインの数で表される文書ドメイン頻度、話題語候補を含む文書の数で表される文書頻度を集計して、話題語候補データベース17に格納する。文書を検索するために対象が入力されると、話題語候補取得部14で、話題語候補データベース17を参照して、入力された対象に該当する話題語候補を取得し、話題語候補選択部15で、文書ドメイン頻度が高いほど高くなるスコアSを話題語候補毎に求め、スコアSが閾値S以上である話題語候補を選択する。
【選択図】図1

Description

本発明は、話題語獲得装置、方法、及びプログラムに係り、特に、着目している製品、イベント、場所、日時等の対象に関連する話題語を獲得する話題語獲得装置、方法、及びプログラムに関する。
着目している製品、イベント、場所、日時等の対象について文書を検索する際には、その対象に関連する話題を表す話題語が提示できれば便利である。例えば、あるキーワードを入力として文書を検索する場合には、検索結果と共にキーワードに関する話題語が提示されれば、その話題語に基づいて検索結果の概要を把握したり、話題語を選択することによって検索結果の絞り込みを行ったりすることが可能となる。また、地図上のある場所について文書を検索する場合には、指定した場所に関連する話題語が提示されれば、その場所に関連する名所や名物などを知ることが可能となる。
このような対象に関連する話題語の抽出に関する研究としては、主題語から話題語を抽出する研究が行われている(例えば、非特許文献1参照)。非特許文献1の手法では、主題語を含む文書のうち主題語と話題語とを共に含む文書の占める割合の値、及び話題語を含む文書のうち主題語と話題語とを共に含む文書の占める割合の値を求め、2つの値を乗じた値をスコアとして、スコアの高い語を話題語として獲得している。この手法において、主題語を対象に置き換えることで、対象に関連する話題語を獲得することができると考えられる。
野田武史、大島裕明、小山聡、田島敬史、田中克己、「主題語からの話題語自動抽出とこれに基づくWeb情報検索」、情報処理学会研究報告2006−DSB−140、pp.305−311(2006).
しかしながら、非特許文献1の方法では、主題語と話題語とが含まれる文書の数(文書頻度)を用いているため、文書頻度は高いが、文書の出所に偏りがあるような場合でも、高スコアとなって、適切でない話題語が獲得される可能性がある。例えば、対象として場所を考えた場合に、特定の個人や企業が特定の話題語について複数の文書で言及しており、それらの文書に共通する定型文の中に住所などの対象を示す記述が含まれていた場合には、その話題語がそれほど対象に関連しないにも関わらず、対象と話題語とを共に含む文書の頻度が高くなり、結果としてスコアが高くなってしまう、という問題があった。
本発明は上記の問題点に鑑みてなされたものであって、対象に関連する話題語を適切に獲得することができる話題語獲得装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の話題語獲得装置は、文書を検索する際の対象を文書群から複数抽出する対象抽出手段と、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出する話題語候補抽出手段と、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する集計手段と、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する獲得手段と、を含んで構成されている。
本発明の話題語獲得装置によれば、対象抽出手段が、文書を検索する際の対象を文書群から複数抽出し、話題語候補抽出手段が、対象抽出手段により抽出された対象を含む文書各々から、対象に関連する話題語の候補である話題語候補を複数抽出する。そして、集計手段が、対象抽出手段により抽出された対象を含む文書各々を、その文書の出所に基づいて複数の文書ドメインに分類し、話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する。次に、獲得手段が、話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する。
このように、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、この文書ドメインの数が多い話題語候補を話題語として獲得するため、文書ドメインの数が少なくなる特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる。
また、前記文書の出所を、該文書のインターネットドメイン、該文書が存在するサイト、該文書の著者の少なくとも一つとすることができる。これらの情報は、文書の出所を表すものとして有用である。
また、前記対象は、製品名、イベント名、場所、または日時とすることができる。
また、前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得することができる。これにより、より適切に話題語を獲得することができる。
また、本発明の話題語獲得方法は、対象抽出手段と、話題語候補抽出手段と、集計手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、前記対象抽出手段は、文書を検索する際の対象を文書群から複数抽出し、前記話題語候補抽出手段は、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出し、前記集計手段は、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、前記獲得手段は、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する方法である。
また、本発明の話題語獲得方法において、前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得することができる。
また、本発明の話題語獲得プログラムは、コンピュータを、上記の話題語獲得装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の話題語獲得装置、方法、及びプログラムによれば、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、この文書ドメインの数が多い話題語候補を話題語として獲得するため、文書ドメインの数が少なくなる特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる、という効果が得られる。
本実施の形態の話題語獲得装置の機能的構成を示すブロック図である。 対象抽出部で抽出された対象の一例を示す図である。 話題語候補抽出部で抽出された話題語候補の一例を示す図である。 文書ドメインの一例を説明するための図である。 文書ドメインの他の例を説明するための図である。 話題語候補集計部による集計結果の一例を示す図である。 本実施の形態の話題語獲得装置における話題語獲得処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本実施の形態に係る話題語獲得装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する話題語獲得処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、対象抽出部11と、話題語候補抽出部12と、話題語候補集計部13と、話題語候補取得部14と、話題語候補選択部15と、対象関連性判定部16と、話題語候補データベース17とを含んだ構成で表すことができる。なお、話題語候補取得部14、話題語候補選択部15及び対象関連性判定部16が、本発明の獲得手段の一例である。
対象抽出部11は、入力された文書群に含まれている対象を、その対象が含まれる文書の情報を識別するための文書番号と共に抽出する。ここでは、文書群に含まれる地名を変換することによって得られる緯度及び経度を場所に関する対象として抽出することとする。対象の抽出方法はこれに限定されるものではなく、製品名などを対象として抽出してもよいし、地名をそのまま場所に関する対象として抽出してもよい。また、「20XX年1月20日」などの表現を日時に関する対象として抽出してもよいし、「今日」などの相対的な日時を表す表現を絶対的な日時に変換したものを日時に関する対象として抽出してもよい。抽出された対象の例を、図2に示す。同図において、対象の欄に記述された(X,Y)の値はそれぞれ緯度及び経度を表す。また、文書番号は、抽出された対象が含まれる文書の文書番号である。
話題語候補抽出部12は、文書群に含まれる話題語候補を抽出する。ここでは、対象抽出部11により抽出された対象を含む各文書に対して、固有表現抽出を行った結果得られる固有表現を話題語候補として抽出することとする。話題語候補の抽出方法はこれに限定されるものではなく、形態素解析を行って得られた単語のうち、品詞が名詞である単語を話題語候補とて抽出してもよいし、品詞によらず全ての単語を話題語候補として抽出してもよい。抽出された話題語候補の例を、図3に示す。同図の例では、対象(35.26,139.38)を含む文書番号1の文書からは、話題語候補「AAA」、「BBB」及び「CCC」が抽出されたことを表している。また、話題語候補「AAA」は、文書番号1の文書及び文書番号2の文書から抽出されたことを表している。
話題語候補集計部13は、抽出した話題語候補毎に、文書ドメイン頻度、文書頻度、対象毎の文書頻度を求め、話題語候補データベース17に格納する。
文書ドメイン頻度とは、文書の出所に基づいて複数の文書ドメインに文書を分類した場合において、話題語候補が含まれる文書が分類された文書ドメインの数をいう。ここでは、文書の出所として、その文書のURLに含まれるホスト名及びドメイン名を用いる場合について説明する。例えば、図4に示すように、文書番号1の文書のURLから、その文書のホスト名及びドメイン名は「www.example1.com」であることが分かるため、文書番号1の文書を、文書ドメイン「example1」に分類する。同様に、文書番号2の文書のURLのホスト名及びドメイン名は「www.example2.com」であるので、文書番号2の文書を、文書ドメイン「example2」に分類する。また、文書番号3の文書は、文書番号1の文書とホスト名及びドメイン名が同じ「www.example1.com」であるので、文書番号1と同じ文書ドメイン「example1」に分類する。URLのドメイン名は、主に企業名や団体名を表しており、文書の出所を表すものとして用いることができる。
また、文書の出所として、文書の著者を用いることもできる。例えば、図5に示すように、ブログにおいて同一の著者によって投稿された文書は同一の文書ドメインの文書であるとみなして、ブログのURLに含まれるユーザ名を用いて、各文書を文書ドメインに分類してもよい。また、同一の著者によって投稿された文書における単語の頻度の分布をベクトルで表現し、そのベクトルに基づいて各文書に対してクラスタリングを行ってクラスタを生成し、各文書が含まれるクラスタが同一のものは同一の文書ドメインに分類するようにしてもよい。
また、文書頻度とは、話題語候補が含まれる文書の数である。また、対象毎の文書頻度とは、話題語候補と対象とを共に含む文書の数である。話題語候補集計部13による集計結果の一例を、図6に示す。同図の例では、話題語候補「AAA」は、対象(35.26,139.38)、(35.36,140.06)・・・各々を含む文書から抽出された話題語候補であり、「AAA」を含む文書が分類された文書ドメインの数(文書ドメイン頻度)が”27”、文書群の中で「AAA」を含む文書の数(文書頻度)が”35”、「AAA」と対象(35.26,139.38)とを共に含む文書の数(対象毎の文書頻度)が”8”、「AAA」と対象(35.36,140.06)とを共に含む文書の数が”2”・・・であることを表している。
話題語候補取得部14は、話題語候補データベース17を参照して、入力された対象に該当する話題語候補を取得する。ここでは、対象として場所を表す緯度及び経度が入力として与えられた場合について説明する。入力される対象はこれに限定されるものではなく、製品名、場所を表す緯度及び経度の範囲、日時、日時の範囲等た対象として入力されてもよい。以下では、対象として場所を表す緯度及び経度として(35.26,139.38)が入力された場合を例に説明する。図3に示した話題語候補のうち、「AAA」、「BBB」及び「CCC」が入力された対象と一致する対象を保持しているため、これらの話題語候補を取得する。話題語候補の取得の方法はこれに限定されるものではなく、入力に範囲が与えられた場合には、入力された対象の範囲に包含される対象を保持している話題語候補を取得するようにしてもよい。
話題語候補選択部15は、話題語候補の文書ドメイン頻度に基づいて、話題語候補としての妥当性を判定し、妥当と判定された話題語候補を選択する。話題語候補の文書ドメイン頻度が高いほど、その話題語候補を含む文書の出所が特定の企業等に偏ることなく存在していることを示している。そこで、文書ドメイン頻度が高いほど高くなるスコアを算出して、このスコアに基づいて、適切な話題語候補を選択する。例えば、話題語候補毎に、下記(1)式に示すスコアSを求める。
Figure 2013045415
ここで、fは話題語候補tの文書ドメイン頻度、nは話題語候補tの文書頻度、nは文書群に含まれる全文書の数である。このスコアSが閾値S(例えば、S=100)以上であるか否かを判定し、スコアSがS以上である話題語候補を選択する。話題語候補の選択の方法は、文書ドメイン頻度を用いるものであればこれに限定されるものではない。例えば、閾値Sに異なる値を利用したり、文書頻度と文書ドメイン頻度との比率を利用したり、文書頻度と文書ドメイン頻度との差を利用したり、文書ドメイン頻度が一定の値以下であるかどうかを利用したりしてもよい。
対象関連性判定部16は、選択された話題語候補が対象と関連しているか否かを判定し、関連していると判定された話題語候補を話題語として獲得する。ここでは、全文書数をn、話題語候補tを含む文書の数(話題語候補tの文書頻度)をn、与えられた対象を含む文書の数をk、与えられた対象に関連する話題語候補を含む文書の数(対象毎の文書頻度)をrとし、n、n及びkの値から推定可能な与えられた対象に関連する話題語候補を含む文書の数の平均値λ=nk/nを求める。そして、λとrとを比較して、与えられた対象に関連する話題語候補を含む文書の数がr以上であることがどの程度起こりうることであるかを表す確率を、ポアソン分布にしたがって下記(2)式により算出する。
Figure 2013045415
この確率が低い場合には、推定されたλより与えられた対象に関連する話題語候補を含む文書の実際の数rが多い可能性が高いことを示しており、話題語候補と対象との関連性が高いといえる。従って、上記の確率値の低い(起こることが珍しい)話題語候補を話題語として獲得する。
話題語候補と対象との関連性の判定方法はこれに限定されるものではなく、対象を含むかどうかという事象と関連語候補を含むかどうかという事象との関連の強さをカイ2乗検定やフィッシャーの正確確率検定を用いて判定するようにしてもよい。
次に、本実施の形態の話題語獲得装置10の作用について説明する。文書群が入力されると、話題語獲得装置10において、図7に示す話題語獲得処理ルーチンが実行される。
ステップ100で、入力された文書群に含まれている対象を、その対象が含まれる文書の情報を識別するための文書番号と共に抽出する。文書群に含まれる地名を変換することによって得られる緯度及び経度を場所に関する対象として抽出した場合、例えば、図2に示すような対象が抽出される。
次に、ステップ102で、上記ステップ100で抽出された対象を含む各文書に対して、固有表現抽出を行った結果得られる固有表現を話題語候補として抽出する。例えば、図3に示すような話題語候補が抽出される。
次に、ステップ104で、各文書を文書の出所に基づいて文書ドメインに分類し、上記ステップ102で抽出した話題語候補毎に、文書ドメイン頻度、文書頻度、対象毎の文書頻度を集計して、例えば、図6に示すような集計結果を話題語候補データベース17に格納する。
次に、ステップ106で、ユーザにより文書を検索するために入力された対象を受け付け、次に、ステップ108で、話題語候補データベース17を参照して、入力された対象に該当する話題語候補を取得する。対象として場所を表す緯度及び経度として(35.26,139.38)が入力された場合には、図3に示した話題語候補のうち、「AAA」、「BBB」及び「CCC」が取得される。
次に、ステップ110で、上記ステップ108で取得した話題語候補毎に、例えば(1)式に示すような、文書ドメイン頻度が高いほど高くなるスコアSを求める。図6の例を用いると、話題語候補「AAA」について、文書ドメイン頻度f=27、文書頻度n=35である。全文書数n=10000とすると、話題語候補「AAA」のスコアSは”152.68”と算出される。話題語候補「BBB」及び「CCC」についても同様にスコアSを算出すると、それぞれ43.78、172.92となる。閾値S=100とすると、スコアSがS以上である話題語候補「AAA」及び「CCC」が選択される。
次に、ステップ112で、上記ステップ110で選択された話題語候補が、上記ステップ106で入力された対象と関連しているか否かを、例えば(2)式に示すポアソン分布にしたがった確率が所定値以下か否かにより判定し、確率が所定値以下の話題語候補を話題語として獲得して出力し、処理を終了する。全文書数n=10000、与えられた対象を含む文書の数k=500として、図6の例を用いると、話題語候補「AAA」については、n=35、r=8であるため、λ=1.75となり、確率は0.174となる。話題語候補「CCC」についても同様にして、確率は0.296となる。確率が0.2以下のものを話題語として獲得することにすると、最終的に獲得される話題語は「AAA」となる。
以上説明したように、本実施の形態の話題語獲得装置によれば、文書の出所に基づいて複数の文書ドメインに文書を分類し、話題語候補毎に話題語候補が含まれる文書が分類された文書ドメインの数を表す文書ドメイン頻度を集計し、この文書ドメイン頻度を用いて話題語候補を選択するため、特定の個人や企業が多く言及しているような話題語候補を除去することができ、対象に関連する話題語を適切に獲得することができる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の話題語獲得装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 話題語獲得装置
11 対象抽出部
12 話題語候補抽出部
13 話題語候補集計部
14 話題語候補取得部
15 話題語候補選択部
16 対象関連性判定部
17 話題語候補データベース

Claims (7)

  1. 文書を検索する際の対象を文書群から複数抽出する対象抽出手段と、
    前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出する話題語候補抽出手段と、
    前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する集計手段と、
    前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する獲得手段と、
    を含む話題語獲得装置。
  2. 前記文書の出所を、該文書のインターネットドメイン、該文書が存在するサイト、該文書の著者の少なくとも一つとした請求項1記載の話題語獲得装置。
  3. 前記対象は、製品名、イベント名、場所、または日時である請求項1または請求項2記載の話題語獲得装置。
  4. 前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項1〜請求項3のいずれか1項記載の話題語獲得装置。
  5. 対象抽出手段と、話題語候補抽出手段と、集計手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
    前記対象抽出手段は、文書を検索する際の対象を文書群から複数抽出し、
    前記話題語候補抽出手段は、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出し、
    前記集計手段は、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、
    前記獲得手段は、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する
    話題語獲得方法。
  6. 前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項5記載の話題語獲得方法。
  7. コンピュータを、請求項1〜請求項4のいずれか1項記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。
JP2011184971A 2011-08-26 2011-08-26 話題語獲得装置、方法、及びプログラム Active JP5361090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011184971A JP5361090B2 (ja) 2011-08-26 2011-08-26 話題語獲得装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011184971A JP5361090B2 (ja) 2011-08-26 2011-08-26 話題語獲得装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013045415A true JP2013045415A (ja) 2013-03-04
JP5361090B2 JP5361090B2 (ja) 2013-12-04

Family

ID=48009243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011184971A Active JP5361090B2 (ja) 2011-08-26 2011-08-26 話題語獲得装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5361090B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016134124A (ja) * 2015-01-22 2016-07-25 パナソニックIpマネジメント株式会社 タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法
JP2017059184A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 検索装置、検索方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122478B (zh) * 2017-05-03 2020-05-08 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP2003271669A (ja) * 2002-03-15 2003-09-26 Fujitsu Ltd 話題抽出装置
JP2007272917A (ja) * 2007-05-14 2007-10-18 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP2003271669A (ja) * 2002-03-15 2003-09-26 Fujitsu Ltd 話題抽出装置
JP2007272917A (ja) * 2007-05-14 2007-10-18 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016134124A (ja) * 2015-01-22 2016-07-25 パナソニックIpマネジメント株式会社 タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法
JP2017059184A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 検索装置、検索方法、及びプログラム

Also Published As

Publication number Publication date
JP5361090B2 (ja) 2013-12-04

Similar Documents

Publication Publication Date Title
US9305083B2 (en) Author disambiguation
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
WO2017097231A1 (zh) 话题处理方法及装置
US9256649B2 (en) Method and system of filtering and recommending documents
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
EP3028180A1 (en) Method for systematic mass normalization of titles
Costa et al. Defining semantic meta-hashtags for twitter classification
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
JP2014197300A (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
JP6047365B2 (ja) 検索装置、検索プログラムおよび検索方法
CN104615723B (zh) 查询词权重值的确定方法和装置
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
Peng et al. Trending sentiment-topic detection on twitter
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
US20210117448A1 (en) Iterative sampling based dataset clustering
JP6070951B2 (ja) 評価の分析を支援する装置及び方法
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
US9201971B1 (en) Generating and using socially-curated brains
Azpiazu et al. Is readability a valuable signal for hashtag recommendations?
KR20140146439A (ko) 특허 키워드 분석에 기반한 부상 기술 예측 장치 및 방법
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
KR101389449B1 (ko) 자료 분석 장치 및 방법
JP2015203960A (ja) 部分情報抽出システム
JP5824430B2 (ja) スパム特徴算出装置、スパム特徴算出方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5361090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350