JP2013045415A - 話題語獲得装置、方法、及びプログラム - Google Patents
話題語獲得装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013045415A JP2013045415A JP2011184971A JP2011184971A JP2013045415A JP 2013045415 A JP2013045415 A JP 2013045415A JP 2011184971 A JP2011184971 A JP 2011184971A JP 2011184971 A JP2011184971 A JP 2011184971A JP 2013045415 A JP2013045415 A JP 2013045415A
- Authority
- JP
- Japan
- Prior art keywords
- topic word
- document
- target
- word candidate
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】対象抽出部11で、文書群から対象を抽出し、話題語候補抽出部12で、対象を含む文書各々から話題語候補を抽出し、話題語候補集計部13で、各文書を文書の出所に基づいて文書ドメインに分類し、話題語候補を含む文書が分類された文書ドメインの数で表される文書ドメイン頻度、話題語候補を含む文書の数で表される文書頻度を集計して、話題語候補データベース17に格納する。文書を検索するために対象が入力されると、話題語候補取得部14で、話題語候補データベース17を参照して、入力された対象に該当する話題語候補を取得し、話題語候補選択部15で、文書ドメイン頻度が高いほど高くなるスコアSを話題語候補毎に求め、スコアSが閾値S0以上である話題語候補を選択する。
【選択図】図1
Description
11 対象抽出部
12 話題語候補抽出部
13 話題語候補集計部
14 話題語候補取得部
15 話題語候補選択部
16 対象関連性判定部
17 話題語候補データベース
Claims (7)
- 文書を検索する際の対象を文書群から複数抽出する対象抽出手段と、
前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出する話題語候補抽出手段と、
前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計する集計手段と、
前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する獲得手段と、
を含む話題語獲得装置。 - 前記文書の出所を、該文書のインターネットドメイン、該文書が存在するサイト、該文書の著者の少なくとも一つとした請求項1記載の話題語獲得装置。
- 前記対象は、製品名、イベント名、場所、または日時である請求項1または請求項2記載の話題語獲得装置。
- 前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項1〜請求項3のいずれか1項記載の話題語獲得装置。
- 対象抽出手段と、話題語候補抽出手段と、集計手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
前記対象抽出手段は、文書を検索する際の対象を文書群から複数抽出し、
前記話題語候補抽出手段は、前記対象抽出手段により抽出された対象を含む文書各々から、前記対象に関連する話題語の候補である話題語候補を複数抽出し、
前記集計手段は、前記対象抽出手段により抽出された対象を含む文書各々を、該文書の出所に基づいて複数の文書ドメインに分類し、前記話題語候補抽出手段により抽出された話題語候補各々が含まれる文書が分類された文書ドメインの数を話題語候補毎に集計し、
前記獲得手段は、前記話題語候補抽出手段により抽出された複数の話題語候補から、入力された対象に関連する話題語候補を取得し、取得した話題語候補について、前記集計手段により集計された文書ドメインの数が多いほど高くなるスコアを算出し、算出されたスコアが予め定めた閾値以上の話題語候補を話題語として獲得する
話題語獲得方法。 - 前記獲得手段は、前記スコアが予め定めた閾値以上の話題語候補であって、かつ該話題語候補が含まれる文書の数、前記入力された対象が含まれる文書の数、及び該話題語候補と前記入力された対象とを含む文書の数に基づいて、前記入力された対象との関連が高いと判定された話題語候補を話題語として獲得する請求項5記載の話題語獲得方法。
- コンピュータを、請求項1〜請求項4のいずれか1項記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184971A JP5361090B2 (ja) | 2011-08-26 | 2011-08-26 | 話題語獲得装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184971A JP5361090B2 (ja) | 2011-08-26 | 2011-08-26 | 話題語獲得装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013045415A true JP2013045415A (ja) | 2013-03-04 |
JP5361090B2 JP5361090B2 (ja) | 2013-12-04 |
Family
ID=48009243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011184971A Active JP5361090B2 (ja) | 2011-08-26 | 2011-08-26 | 話題語獲得装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5361090B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016134124A (ja) * | 2015-01-22 | 2016-07-25 | パナソニックIpマネジメント株式会社 | タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法 |
JP2017059184A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 検索装置、検索方法、及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122478B (zh) * | 2017-05-03 | 2020-05-08 | 成都云数未来信息科学有限公司 | 一种基于关键词提取热点话题的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2003271669A (ja) * | 2002-03-15 | 2003-09-26 | Fujitsu Ltd | 話題抽出装置 |
JP2007272917A (ja) * | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
-
2011
- 2011-08-26 JP JP2011184971A patent/JP5361090B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2003271669A (ja) * | 2002-03-15 | 2003-09-26 | Fujitsu Ltd | 話題抽出装置 |
JP2007272917A (ja) * | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016134124A (ja) * | 2015-01-22 | 2016-07-25 | パナソニックIpマネジメント株式会社 | タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法 |
JP2017059184A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 検索装置、検索方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5361090B2 (ja) | 2013-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9305083B2 (en) | Author disambiguation | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
EP3028180A1 (en) | Method for systematic mass normalization of titles | |
Costa et al. | Defining semantic meta-hashtags for twitter classification | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
JP2014197300A (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
JP6047365B2 (ja) | 検索装置、検索プログラムおよび検索方法 | |
CN104615723B (zh) | 查询词权重值的确定方法和装置 | |
JP5361090B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
Peng et al. | Trending sentiment-topic detection on twitter | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
JP6070951B2 (ja) | 評価の分析を支援する装置及び方法 | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
US9201971B1 (en) | Generating and using socially-curated brains | |
Azpiazu et al. | Is readability a valuable signal for hashtag recommendations? | |
KR20140146439A (ko) | 특허 키워드 분석에 기반한 부상 기술 예측 장치 및 방법 | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
KR101389449B1 (ko) | 자료 분석 장치 및 방법 | |
JP2015203960A (ja) | 部分情報抽出システム | |
JP5824430B2 (ja) | スパム特徴算出装置、スパム特徴算出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5361090 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |