JP4923413B2 - 情報抽出プロブラム及び方法 - Google Patents
情報抽出プロブラム及び方法 Download PDFInfo
- Publication number
- JP4923413B2 JP4923413B2 JP2005053696A JP2005053696A JP4923413B2 JP 4923413 B2 JP4923413 B2 JP 4923413B2 JP 2005053696 A JP2005053696 A JP 2005053696A JP 2005053696 A JP2005053696 A JP 2005053696A JP 4923413 B2 JP4923413 B2 JP 4923413B2
- Authority
- JP
- Japan
- Prior art keywords
- path
- text content
- array
- expression
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]
と表現する。同様に、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対して、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]
と表現する。以下同様にまとめたのが図6の配列表現である。
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]・・・・・・・・・・・・・・・・・・※1
として取り出す。この次数の*は、同じパターンを抜き出すことを意味し、任意の次数が入る。
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・・・※2
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・・・※3
を取り出す。上段はaタグ(※3のテキストコンテンツからのリンク先を示すアンカータグ)で、下段はそのテキストコンテンツ(テキスト本体)である。
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
にあるcharsetから取り出す。なお、このようなタグがない場合、ブラウザなどで行っているコード判定技術を使ってコードを判定して値を取り出す。
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・上述※3
が格納される。<item_link>には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」のaタグ(アンカータグ)に対応するパス自動取出部13で取り出されたパス表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・上述※2
が格納される。<item_date>には、時間表現に合致したテキスト「2月2日」に対応するパス自動取出部13で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]・・・・・・・・・・・・・・・・上述※1
が格納される。
コンピュータを、
正規表現を持つパターンフォーマットを記憶する記憶部、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部、
として機能させることを特徴とする情報抽出プログラム。(1)
(付記2)コンピュータを、
前記HTMLページ内のテキストコンテンツのパスを配列表現に変換する配列変換部、
前記配列表現から、前記パターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部、
として更に機能させ、
前記抽出ルール生成部を、前記パス取出部で取り出したテキストコンテンツとパスから
抽出ルールを生成するように機能させることを特徴とする付記1記載の情報抽出プログラム。(2)
(付記3)コンピュータを、
前記抽出ルールにあるパスに従って、前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部、
前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部、
として更に機能させ、
前記フォーマット変換部を、所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換するように機能させることを特徴とする付記2記載の情報抽出プログラム。(3)
(付記4)コンピュータを、
ユーザがGUIツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部として更に機能させることを特徴とする付記1、2または3記載の情報抽出プログラム。(4)
(付記5)前記パターンフォーマットは、時間表現または/かつ金額表現であることを特徴とする付記1、2、3または4記載の情報抽出プログラム。
(付記6)前記所定のフォーマットはRSS形式または/かつCSV形式であることを特徴とする付記1、2、3、4または5記載の情報抽出プログラム。
(付記7)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出方法において、
前記HTMLページから正規表現を持つパターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成するステップと、
前記抽出ルールから所定のフォーマットに変換するステップと、
を有することを特徴とする情報抽出方法。(5)
(付記8)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出装置において、
正規表現を持つパターンフォーマットを記憶する記憶部と、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部と、
を有することを特徴とする情報抽出装置。
11 全自動指定部
12 ツリー配列変換部
13 パス自動取出部
14 抽出ルール生成部
15 対応表作成部
16 コンテンツ抽出部
17 フォーマット変換部
18 パターン指定部
19 パス半自動取出部
21 HTMLページ
22 RSS/CSV出力
23 パターンフォーマット
24 テンプレート
Claims (3)
- コンピュータにHTMLページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出プログラムであって、
コンピュータに、
時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換させ、
前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成させる、
ための情報抽出プログラム。 - コンピュータがHTMLページからテキストコンテンツを抽出するための抽出ルールを生成する情報抽出方法であって、
コンピュータが、
時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換し、
前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する、
ことを特徴とする情報抽出方法。 - コンピュータにHTMLページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出装置であって、
時間表現に関する正規表現を持つパターンフォーマットを記憶する記憶部と、
前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換する変換部と、
前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する生成部と、
を有することを特徴とする情報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005053696A JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005053696A JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006236262A JP2006236262A (ja) | 2006-09-07 |
JP4923413B2 true JP4923413B2 (ja) | 2012-04-25 |
Family
ID=37043802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005053696A Expired - Fee Related JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4923413B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101583951B (zh) | 2007-01-18 | 2012-02-15 | 富士通株式会社 | 关键字管理***和关键字管理方法 |
JP2011248485A (ja) * | 2010-05-25 | 2011-12-08 | Jr Shikoku Communication Ware Co Ltd | グループウェアシステムおよびプログラム |
JPWO2022029863A1 (ja) * | 2020-08-04 | 2022-02-10 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3724878B2 (ja) * | 1996-06-28 | 2005-12-07 | 株式会社日立製作所 | キーワード抽出ルール生成方法 |
JP2002189740A (ja) * | 2000-12-19 | 2002-07-05 | Appresso:Kk | データ変換システム |
JP2002312379A (ja) * | 2001-04-09 | 2002-10-25 | Mitsubishi Electric Corp | 情報抽出方法および情報抽出装置 |
JP4251804B2 (ja) * | 2001-12-04 | 2009-04-08 | 富士通株式会社 | 情報表示方法、情報表示プログラム及び情報表示装置 |
JP4231298B2 (ja) * | 2003-01-14 | 2009-02-25 | 日本電信電話株式会社 | 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム |
JP2004318809A (ja) * | 2003-02-24 | 2004-11-11 | Fuji Xerox Co Ltd | 情報抽出規則生成装置および方法 |
-
2005
- 2005-02-28 JP JP2005053696A patent/JP4923413B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006236262A (ja) | 2006-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9323731B1 (en) | Data extraction using templates | |
US10719898B2 (en) | Systems and methods for analyzing documents | |
CN103620539B (zh) | 对话线程的概述 | |
US6920608B1 (en) | Chart view for reusable data markup language | |
US8042052B2 (en) | System for displaying and managing information on webpage using indicator | |
US11106906B2 (en) | Systems and methods for information extraction from text documents with spatial context | |
US20130006986A1 (en) | Automatic Classification of Electronic Content Into Projects | |
US20080282139A1 (en) | Tree view for reusable data markup language | |
CN103425714A (zh) | 一种搜索方法和*** | |
CN110738037A (zh) | 用于自动生成电子表格的方法、装置、设备及存储介质 | |
CN101763343A (zh) | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 | |
JPWO2005098663A1 (ja) | 情報管理装置 | |
Leidner | Towards a reference corpus for automatic toponym resolution evaluation | |
JP4923413B2 (ja) | 情報抽出プロブラム及び方法 | |
CN101206668A (zh) | 一种网站内容组件生成方法、解析方法及装置 | |
Papanikolaou et al. | Protest event analysis: A longitudinal analysis for Greece | |
KR100522186B1 (ko) | 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치 | |
Fafalios et al. | A workflow model for holistic data management and semantic interoperability in quantitative archival research | |
Stinson et al. | Encoding medieval music notation for research | |
Ganapathy et al. | Easy urls in the content management system with crawlers for added security | |
US20100138735A1 (en) | Document processing device | |
US20090259995A1 (en) | Apparatus and Method for Standardizing Textual Elements of an Unstructured Text | |
Tzanis et al. | Graphie: A network-based visual interface for the UK's primary legislation | |
KR20020061443A (ko) | 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템 | |
Nockels et al. | The implications of handwritten text recognition for accessing the past at scale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111102 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120123 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |