JP5411802B2 - 代表語抽出装置、代表語抽出方法および代表語抽出プログラム - Google Patents
代表語抽出装置、代表語抽出方法および代表語抽出プログラム Download PDFInfo
- Publication number
- JP5411802B2 JP5411802B2 JP2010114051A JP2010114051A JP5411802B2 JP 5411802 B2 JP5411802 B2 JP 5411802B2 JP 2010114051 A JP2010114051 A JP 2010114051A JP 2010114051 A JP2010114051 A JP 2010114051A JP 5411802 B2 JP5411802 B2 JP 5411802B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- group
- document
- representative
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1a 閲覧履歴取得部
1b 内部情報処理部
2 ウェブサーバ群
3 通信網
10 代表語抽出装置
11 前処理部
12 基準語DB
13 基準語取得部
14 基準文書特定部
15 単語群抽出部
16 指標算出部
17 指標補正部
Claims (6)
- 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、
前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、
前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する、前記代表語を抽出する際のランク付けにかかる指標を算出する指標算出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における当該単語の出現文書数と前記対象文書群における当該単語の出現文書数とを算出し、算出した2つの出現文書数の比を前記指標算出手段によって算出された指標に乗算することにより当該指標を補正する指標補正手段と
を備えたことを特徴とする代表語抽出装置。 - 前記指標算出手段によって算出される指標は、共起頻度又はjaccard係数であることを特徴とする請求項1に記載の代表語抽出装置。
- 前記文書群は、ユーザが所定の期間に渡って時系列に沿ってウェブ上で閲覧したウェブページに含まれる複数の文書であることを特徴とする請求項1又は2に記載の代表語抽出装置。
- 前記文書群は、時系列の情報を有さない複数の文書であることを特徴とする請求項1又は2に記載の代表語抽出装置。
- 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、
前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、
前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する、前記代表語を抽出する際のランク付けにかかる指標を算出する指標算出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における当該単語の出現文書数と前記対象文書群における当該単語の出現文書数とを算出し、算出した2つの出現文書数の比を前記指標算出ステップによって算出された指標に乗算することにより当該指標を補正する指標補正ステップと
を代表語抽出装置が実行することを特徴とする代表語抽出方法。 - コンピュータを請求項1〜4のいずれか一つに記載の代表語抽出装置として機能させることを特徴とする代表語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114051A JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114051A JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242975A JP2011242975A (ja) | 2011-12-01 |
JP5411802B2 true JP5411802B2 (ja) | 2014-02-12 |
Family
ID=45409562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010114051A Expired - Fee Related JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5411802B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
US20220374950A1 (en) * | 2019-10-15 | 2022-11-24 | Nec Corporation | Consideration calculation device, control method, and non-transitory storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101069177A (zh) * | 2004-11-05 | 2007-11-07 | 株式会社Ipb | 关键字抽取装置 |
-
2010
- 2010-05-18 JP JP2010114051A patent/JP5411802B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011242975A (ja) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kotov et al. | Modeling and analysis of cross-session search tasks | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
US8108405B2 (en) | Refining a search space in response to user input | |
Ooi et al. | A survey of query expansion, query suggestion and query refinement techniques | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
US9785704B2 (en) | Extracting query dimensions from search results | |
US20130024448A1 (en) | Ranking search results using feature score distributions | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Makvana et al. | A novel approach to personalize web search through user profiling and query reformulation | |
Fejer et al. | Automatic Arabic text summarization using clustering and keyphrase extraction | |
US20170124194A1 (en) | Query Generation System for an Information Retrieval System | |
Grahl et al. | Conceptual Clustering of Social Bookmarking Sites. | |
JP4819628B2 (ja) | ドキュメントデータを検索する方法、サーバ、およびプログラム | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5474455B2 (ja) | 文書群処理装置、文書群処理方法および文書群処理プログラム | |
JP6196200B2 (ja) | ラベル抽出装置、ラベル抽出方法およびプログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5461344B2 (ja) | データ分類装置、データ分類方法およびデータ分類プログラム | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP2014517390A (ja) | 通信ネットワークを通じたビデオ・コンテンツ検索のための支援 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5411802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |