JP2010015202A - 情報収集方法、装置及びプログラム - Google Patents
情報収集方法、装置及びプログラム Download PDFInfo
- Publication number
- JP2010015202A JP2010015202A JP2008171883A JP2008171883A JP2010015202A JP 2010015202 A JP2010015202 A JP 2010015202A JP 2008171883 A JP2008171883 A JP 2008171883A JP 2008171883 A JP2008171883 A JP 2008171883A JP 2010015202 A JP2010015202 A JP 2010015202A
- Authority
- JP
- Japan
- Prior art keywords
- information
- attribute
- tag
- item
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000004891 communication Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000003287 optical effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報収集装置1は、通信ネットワークNを介してアクセス可能なWeb文書から、Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段12と、抽出した表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段13と、を備える。
【選択図】図2
Description
[online]、[平成20年6月18日検索]、インターネット〈URL:http://kakaku.com/pc/desktop−pc/〉
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。
[情報収集装置と関連要素の全体構成]
[情報収集装置の機能構成]
[各種データベースと関連要素の構成]
[情報収集装置のハードウェア構成図]
情報収集装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
[Webサーバ装置のハードウェア構成]
[本発明の実施形態に係るフローチャート]
(1)表形式又はデータベース形式の情報が、<Select>タグによりプルダウンリストを形成している場合、例えば<Select>タグのname属性の値を項目であると推定し、同<Select>タグの要素内容に列記された<Option>タグの要素内容を当該項目に関する属性及び属性値であると推定することが可能である。例えば、
<select name=”ノートPC”>
<option>CPU xxx 1.5GHz</option>
<option>CPU yyy 2.0GHz</option>
</select>
上記において、項目「ノートPC」、属性「CPU」の属性値「CPU xxx」と推定することができる。また、属性「CPU」に続く属性は「クロック」と推定し、属性「クロック」の属性値「1.5GHz」と推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU yyy」、属性「クロック」の属性値「2.0GHz」と推定することができる。
(2)表形式又はデータベース形式の情報が、XMLインスタンスの場合、階層構造を成している上位のタグ要素名を「項目」と推定し、その一つ下位のタグ要素名を「属性」と推定し、当該「属性」を示すタグ要素名の属性又は要素内容を「属性値」と推定することが可能である。例えば、
<ノートパソコン>
<CPU type=”CPU zzz”>
<クロック>1.1GHz</クロック>
</CPU>
<CPU type=”CPU ppp”>
<クロック>3.2GHz</クロック>
</CPU>
</ノートパソコン>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
(3)表形式又はデータベース形式の情報がテーブルタグによって構成されている場合、例えば、表のタイトルを「項目」と推定し、1行目にある要素の列を各「属性」と推定し、2行目以降にある要素を同列の属性に対応する「属性値」と推定することが考えられる。例えば、
<table>
<caption>ノートパソコン</caption>
<tr>
<td>CPU</td>
<td>クロック</td>
</tr>
<tr>
<td>CPU zzz</td>
<td>1.1GHz</td>
</tr>
<tr>
<td>CPU ppp</td>
<td>3.2GHz</td>
</tr>
</table>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
2 Webサーバ装置
11 Web文書蓄積手段
12 情報群抽出手段
13 属性関係抽出手段
14 属性辞書
15 Web文書DB
16 情報群記憶部
17 属性関係DB
Claims (7)
- 情報収集装置が、通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶するステップと、を少なくとも実行することを特徴とする情報収集方法。 - 前記抽出するステップは、前記表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出する請求項1に記載の方法。
- 前記抽出するステップは、前記表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出する請求項1または請求項2に記載の方法。
- 前記抽出するステップは、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出する請求項1から請求項3のいずれかに記載の方法。
- 前記表形式あるいはデータベース形式の情報を抽出する際に基づく前記タグが、プルダウンリストを形成するHTMLタグ、XML文書に含まれるタグ又はHTMLのテーブルタグである請求項1から請求項4のいずれかに記載の方法。
- 請求項1から請求項5のいずれかに記載の方法をコンピュータに実行させることを特徴としたプログラム。
- 通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて記憶手段に記憶する属性関係抽出手段と、を備えたことを特徴とする情報収集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008171883A JP5108660B2 (ja) | 2008-06-30 | 2008-06-30 | 情報収集方法、装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008171883A JP5108660B2 (ja) | 2008-06-30 | 2008-06-30 | 情報収集方法、装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010015202A true JP2010015202A (ja) | 2010-01-21 |
JP5108660B2 JP5108660B2 (ja) | 2012-12-26 |
Family
ID=41701290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008171883A Active JP5108660B2 (ja) | 2008-06-30 | 2008-06-30 | 情報収集方法、装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5108660B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016081526A (ja) * | 2014-10-10 | 2016-05-16 | 富士通株式会社 | テーブル再構成装置と方法 |
JP2018180874A (ja) * | 2017-04-12 | 2018-11-15 | 富士通株式会社 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325284A (ja) * | 2000-05-12 | 2001-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 |
JP2003281160A (ja) * | 2002-03-25 | 2003-10-03 | Ntt Comware Corp | メタデータ作成システム、メタデータ作成方法、メタデータ作成プログラムおよび記録媒体 |
JP2005141296A (ja) * | 2003-11-04 | 2005-06-02 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2005326970A (ja) * | 2004-05-12 | 2005-11-24 | Mitsubishi Electric Corp | 構造化文書曖昧検索装置及びそのプログラム |
-
2008
- 2008-06-30 JP JP2008171883A patent/JP5108660B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325284A (ja) * | 2000-05-12 | 2001-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 |
JP2003281160A (ja) * | 2002-03-25 | 2003-10-03 | Ntt Comware Corp | メタデータ作成システム、メタデータ作成方法、メタデータ作成プログラムおよび記録媒体 |
JP2005141296A (ja) * | 2003-11-04 | 2005-06-02 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
JP2005326970A (ja) * | 2004-05-12 | 2005-11-24 | Mitsubishi Electric Corp | 構造化文書曖昧検索装置及びそのプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016081526A (ja) * | 2014-10-10 | 2016-05-16 | 富士通株式会社 | テーブル再構成装置と方法 |
JP2018180874A (ja) * | 2017-04-12 | 2018-11-15 | 富士通株式会社 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5108660B2 (ja) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
KR101523450B1 (ko) | 관련어 등록 장치, 관련어 등록 방법, 기록 매체 및, 관련어 등록 시스템 | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP5296014B2 (ja) | 検索装置、方法及びプログラム | |
JP4542993B2 (ja) | 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2007193697A (ja) | 情報収集装置,情報収集方法およびプログラム | |
JP5108660B2 (ja) | 情報収集方法、装置及びプログラム | |
JP4920642B2 (ja) | Web検索支援方法、装置及びプログラム | |
JP2008102773A (ja) | データを共通のフォーマットに変換する方法 | |
JP2011191980A (ja) | レシピ提供システム及び方法 | |
JP2009265770A (ja) | 重要文提示システム | |
JP5379627B2 (ja) | 検索制御装置、検索制御方法、及びプログラム | |
JP6173990B2 (ja) | 検索支援装置、方法およびプログラム | |
CN102521288A (zh) | 一种互联网Web服务信息获取方法 | |
US20090216756A1 (en) | Recording medium carrying data search program, data search apparatus, and data search method | |
JP5564442B2 (ja) | 文章検索装置 | |
JP5187187B2 (ja) | 体験情報検索システム | |
JP2011022809A (ja) | 重要語抽出方法、装置、プログラム、記録媒体 | |
JP2012027525A (ja) | ファイル格納補助システムと方法およびプログラム | |
JP7046592B2 (ja) | 検索支援システム、検索支援方法、及び検索支援プログラム | |
JP2007087241A (ja) | 多言語複層サイト作成システムおよび多言語複層サイト作成プログラム | |
JP5769648B2 (ja) | 関連語取得装置及び関連語取得方法 | |
US10783199B2 (en) | Web site presentation method, non-transitory computer-readable recording medium, and web site presentation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120424 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120723 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121005 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5108660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |