JP4923413B2

JP4923413B2 - 情報抽出プロブラム及び方法

Info

Publication number: JP4923413B2
Application number: JP2005053696A
Authority: JP
Inventors: 寛治内野; 俊王
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-02-28
Filing date: 2005-02-28
Publication date: 2012-04-25
Anticipated expiration: 2025-02-28
Also published as: JP2006236262A

Description

ＨＴＭＬ文書から情報を抽出する分野に関する。

Ｗｅｂ上のＨＴＭＬページの活用は、キーワード検索やページ分類に関する報告が多い。また、Ｗｅｂ上の情報発信はデザインを重視したＨＴＭＬが主流であり、広告など雑多な情報が含まれるＷｅｂページからメインとなるコンテンツを正確に取り出してマイニングなどの再利用を行う場合、ページ毎に人手でタグを解析しなければならず、非常に手間がかかる作業であった。また、ページ毎に抽出ルールを作成する方法もあるが、それも正規表現のルール作成のための知識に精通した一部の技術者のみが可能であり、一般のユーザが任意のページから有益な情報を持つコンテンツを容易に取り出して活用することはできなかった。

ＨＴＭＬページから重要な部分を特定し、特定した部分を任意のフォーマットで出力する技術として、以下のものがある。特開２００２−３２８９１６公報には、ＨＴＭＬページの＜ｂｏｄｙ＞＜ｆｏｎｔ＞などのタグを、タグの出現パターンやタグに挟まれたコンテンツの内容によって＜ｍｕｓｉｃ＞＜ｓｅｃｔｉｏｎ＞などの意味のあるＸＭＬタグに変換するコンバータに関する技術が開示されている。また、特開２００２−３１２３７９公報には、Ｗｅｂ上のＨＴＭＬページを収集して決められたカテゴリに自動的に分類してＨＴＭＬページに係る特定の指定部分の文字列を抽出して、検索や情報抽出の精度を上げる技術が開示されている。また、特開２００２−３４２３１０公報には、複数のＨＴＭＬページに含まれる表やリスト部分をユーザが指定して取り出して、取り出した複数の表やリスト情報を一つのＸＭＬや表にまとめて表示したり、グラフに加工したりする技術が開示されている。
特開２００２−３２８９１６公報特開２００２−３１２３７９公報特開２００２−３４２３１０公報

以上の点に鑑みて、本願発明は、タグの解析や抽出ルールの作成をしないでも、一般のユーザが有益な情報を持つコンテンツを容易に取り出して活用することができるプログラムまたは方法を提供することを目的とする。

本願第１の発明は、正規表現を持つパターンフォーマットを記憶する記憶部と、前記ＨＴＭＬページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、前記抽出ルールから所定のフォーマットに変換するフォーマット変換部を有することを特徴とする。

本願第２の発明は、更に、前記ＨＴＭＬページ内のテキストコンテンツのパスを配列表現に変換する配列変換部と、前記配列表現からパターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部とを有し、前記抽出ルール生成部が前記パス取出部で取り出したテキストコンテンツとパスから抽出ルールを生成することを特徴とする。

本願第３の発明は、更に、前記抽出ルールにあるパスに従って前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部と、前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部とを有し、前記フォーマット変換部が所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換することを特徴とする。

本願第４の発明は、更に、ユーザがＧＵＩツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部を有することを特徴とする。

本願第５の発明は、前記パターンフォーマットが時間表現または／かつ金額表現であることを特徴とする。

本願第６の発明は、前記所定のフォーマットがＲＳＳ形式または／かつＣＳＶ形式であることを特徴とする。

本願発明を実施すると、Ｗｅｂページから有益な情報であるテキストコンテンツを自動的に抽出することができる。また、抽出した情報が適切でない場合でも、ユーザが明にテキストコンテンツを指定することで似たような情報を半自動的に抽出することができる。

即ち、ユーザは、Ｗｅｂページから有益な情報であるテキストコンテンツを容易に抽出して再利用することができる。抽出された情報は、任意の汎用性の高いフォーマットによって出力できるので、それらの情報を集めてマイニングに活用したり、Ｗｅｂサービスの入力として利用したりすることができる。

例えば、ニュース、Ｗｈａｔ’ｓｎｅｗ、障害情報などユーザへの告知が主目的なＷｅｂページから対応情報を自動的に取り出し、ＲＳＳ形式に変換し配信することができる。また、複数の商品を紹介するＷｅｂページから値段やメーカ名などの情報を抽出しＣＳＶなどの形式に変換することができるので、この結果を利用して商品情報の横断検索を実施することができる。また、パソコン向けのＷｅｂページから項目などの有益な情報を抽出してＲＳＳ形式に変換したり、携帯用のページ自体もＲＳＳ形式に変換することで、携帯電話など画面サイズが限られたモバイル端末上でパソコン用のページ、携帯用のページの要約情報をシームレスに参照することができる。

図１は、本願発明の実施例の構成図であり、情報抽出部１と、ＨＴＭＬページ２１と、ＲＳＳ／ＣＳＶ出力２２と、パターンフォーマット２３と、テンプレート２４から構成される。情報抽出部１は、全自動指定部１１と、ツリー配列変換部１２と、パス自動取出部１３と、抽出ルール生成部１４と、対応表作成部１５と、コンテンツ抽出部１６と、フォーマット変換部１７と、パターン指定部１８と、パス半自動取出部１９から構成される。

全自動指定部１１は、後述する抽出ルールを自動的に生成するのか、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するのかを、ユーザに指定させる処理部である。

ツリー配列変換部１２は、ＨＴＭＬページ２１の各テキストコンテンツのパスをＤＯＭツリーに変換し配列表現に変換して、ＨＴＭＬページ２１中のすべてのテキストコンテンツとそのパスの配列表現を取り出す処理部である。ＨＴＭＬページ２１は、情報を抽出する元となるＨＴＭＬページであり、ＤＯＭ（Document Object Model）ツリーは、ＨＴＭＬページを解析して得られた、階層構造を有するパスを表現するツリーである。図２はその例で、右側がＨＴＭＬページで、左側がそれに対応するＤＯＭツリーである。なお、ＨＴＭＬページからＤＯＭツリーへの変換に関する技術については、特願２００４−２７２４７１を参照のこと。

ＨＴＭＬページから配列表現への変換を、図３のＨＴＭＬページのテキストコンテンツに基づいて説明する。図４は、このＨＴＭＬページのタグ構造を示したものである。このＨＴＭＬページをＤＯＭツリーに変換した後（図５）、ＤＯＭツリーの先頭にあるｈｔｍｌタグから、ｂｏｄｙタグ、ｔａｂｌｅタグ、ｔｒタグ、ｔｄタグ、ａタグをキーにして、各タグの階層の深さを数えながらＤＯＭツリー内を検索する。そして、テキストコンテンツを特定し、ＨＴＭＬページ中のタグを次のような配列で表現する。

テキストコンテンツ「２月２日」に対して、ｈｔｍｌタグをＨＴＭＬ［０］と、ｂｏｄｙタグをＢＯＤＹ［０］と、ｔａｂｌｅタグをＴＡＢＬＥ［０］と、ｔｒタグをＴＲ［０］と、ｔｄタグをＴＤ［０］として、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]
と表現する。同様に、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対して、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]
と表現する。以下同様にまとめたのが図６の配列表現である。

パス自動取出部１３は、パスの配列表現から、すべてのテキストコンテンツに対して、パターンフォーマット２３（図７）中の時間表現や金額表現等に関するパターンとすべて照会して、パターンが一致したテキストコンテンツと、そのテキストコンテンツに対応するパスの配列表現を取り出す処理部である。このとき、テキストコンテンツが時間表現や金額表現しか持たなければ、配列表現の階層を上がるか下がるかして一番近いテキストを有するテキストコンテンツを見つけ出す。なお、テキストコンテンツにはパターンマッチングの対象となった時間表現や金額表現も含んでいても良い。

パターンフォーマット２３とは、時間表現や金額表現等、一定のフォーマット（ｍｍ月ｍｍ日、ｘｘｘｘｘ円等）を持つ情報について正規表現を用いて表現したものである（図７）。ＨＴＭＬページの更新が繁雑であれば更新日時がそのＨＴＭＬページに書かれ、項目の繰り返しパターンも多いため、これらの時間表現が有益な情報源であると考えられる。また、ＨＴＭＬページの内容が経済に関する場合など、商品価格や株価や円為替レートなどがテキストコンテンツに金額表現として含まれることも多いため、これらの金額表現も有益な情報源であると考えられる。

パス自動取出部１３のパターンマッチングについて図６を用いて説明する。テキスト「２月２日」と「２月１日」は、パターンフォーマット２３中の時間表現「？？月？？日」に合致するので、テキストコンテンツとそのパスの配列表現を取り出す。このとき、パスの共通部分は、
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]・・・・・・・・・・・・・・・・・・※１
として取り出す。この次数の＊は、同じパターンを抜き出すことを意味し、任意の次数が入る。

そして、この「２月２日」と「２月１日」は時間表現しかないので、配列表現の階層を下がって、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」と「ＬＳＩの包装に関するエンボステープを植物系へと全面変更」と、そのパスの配列表現
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・・・※２
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・・・※３
を取り出す。上段はａタグ（※３のテキストコンテンツからのリンク先を示すアンカータグ）で、下段はそのテキストコンテンツ（テキスト本体）である。

抽出ルール生成部１４は、パス自動取出部１３またはパス半自動取出部１９で取り出したテキストコンテンツとパスの配列表現から抽出ルールを生成する処理部である。抽出ルールとは、ＨＴＭＬページからテキストコンテンツを抽出するためのルールである。図８は抽出ルールの例であり、［Ｅｎｃｏｄｉｎｇ］、［Ｐａｔｈｓ］、［ＤａｔａＦｏｒｍａｔ］から構成される。

［Ｅｎｃｏｄｉｎｇ］は、対象となるＨＴＭＬページのキャラクタコードを表し、ＨＴＭＬページのメタタグ
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
にあるｃｈａｒｓｅｔから取り出す。なお、このようなタグがない場合、ブラウザなどで行っているコード判定技術を使ってコードを判定して値を取り出す。

［Ｐａｔｈｓ］は、パス種別とパスの配列表現を表す。パス種別は、＜ｉｔｅｍ＿ｎａｍｅ＞、＜ｉｔｅｍ＿ｌｉｎｋ＞、＜ｉｔｅｍ＿ｄａｔｅ＞、＜ｃｈａｎｎｅｌ＿ｄａｔｅ＞、＜ｓｕｂｊｅｃｔ＿ｎａｍｅ＞がある。

＜ｉｔｅｍ＿ｎａｍｅ＞は、パス自動取出部１３またはパス半自動取出部１９で取り出したパスの配列表現であり、上記※３のテキストコンテンツに対応する。＜ｉｔｅｍ＿ｌｉｎｋ＞は、取り出したパスの配列表現に対応するテキストコンテンツのａタグ（アンカータグ）の配列表現であり、上記※２に対応する。但し、テキストコンテンツにａタグが無ければ、本項目はない。＜ｉｔｅｍ＿ｄａｔｅ＞は、取り出したパスの配列表現に対応するテキストコンテンツが作成された月日を表している時間表現の配列表現であり、上記※１に対応する。但し、時間表現がなければ、本項目はない。

＜ｃｈａｎｎｅｌ＿ｄａｔｅ＞は、ＨＴＭＬページの作成された日時情報を表すテキストコンテンツの配列表現であり、ＨＴＭＬページから探す。但し、日時情報が得られなければ、本項目は無い。＜ｓｕｂｊｅｃｔ＿ｎａｍｅ＞は、取り出したパスの配列表現よりも一つ上位の項目の配列表現を表し、見出しに相当する。但し、ページによっては本項目は無い。

［ＤａｔａＦｏｒｍａｔ］は、パスの配列表現に対応するテキストコンテンツのフォーマットを表し、Ｃｈａｎｎｅｌ＿Ｄａｔｅ＿ＦｏｒｍａｔとＩｔｅｍ＿Ｄａｔｅ＿Ｆｏｒｍａｔから構成される。Ｃｈａｎｎｅｌ＿Ｄａｔｅ＿Ｆｏｒｍａｔは、［Ｐａｔｈｓ］の＜ｃｈａｎｎｅｌ＿ｄａｔｅ＞の日時情報のフォーマットを表す予め用意されたフォーマットである。Ｉｔｅｍ＿Ｄａｔｅ＿Ｆｏｒｍａｔは、＜ｉｔｅｍ＿ｄａｔｅ＞の月日を表す予め用意されたフォーマットである。

［Ｐａｔｈｓ］の作成について図８を用いて説明する。＜ｉｔｅｍ＿ｎａｍｅ＞には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対応するパス自動取出部１３で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・上述※３
が格納される。＜ｉｔｅｍ＿ｌｉｎｋ＞には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」のａタグ（アンカータグ）に対応するパス自動取出部１３で取り出されたパス表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・上述※２
が格納される。＜ｉｔｅｍ＿ｄａｔｅ＞には、時間表現に合致したテキスト「２月２日」に対応するパス自動取出部１３で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]・・・・・・・・・・・・・・・・上述※１
が格納される。

対応表作成部１５は、ＨＴＭＬページ２１と抽出ルールに従って、パスの配列表現とテキストコンテンツとの対応表を作成する処理部である。図９はその例であり、抽出ルールのパスの配列表現と、その配列表現に対応するＨＴＭＬページ２１中のテキストコンテンツとを対応させる。ｉｔｅｍ＿ｄａｔｅの日付表現は、［ＤａｔａＦｏｒｍａｔ］に書かれたフォーマットを適用した日付とする。

コンテンツ抽出部１６は、対応表からテキストコンテンツを抽出して、中間フォーマットを作成する処理部である。ｉｔｅｍ＿ｄａｔｅの日付表現は、正規化（ｙｙｙｙ／ｍｍ／ｄｄ）して表現する。また、どちらかが省略された表現の場合（例えば年）、他方の情報で補う。図１０では、対応表におけるｉｔｅｍ＿ｄａｔｅが２月１日であり年が省略されているが、ＷＥＢサーバやシステムから得られる日時情報から２００５／０２／０１と補完している。

フォーマット変換部１７は、所定のテンプレート２４を使って、中間ファーマットを指定されたフォーマット（本願発明の出力）に変換する処理部である。指定されたフォーマットは、例えば、ＲＳＳ（Rich Site Summary）形式、ＣＳＶ形式が挙げられる。

図１１は、テンンプレート２４の例としてＲＳＳテンプレートを取り上げたものである。テンプレート中の「＃＃ＩＴＥＭ−ＬＩＮＫ＃＃」は＜ｉｔｅｍ＿ｌｉｎｋ＞に、「＃＃ＩＴＥＭ−ＮＡＭＥ＃＃」は＜ｉｔｅｍ＿ｎａｍｅ＞に、「＃＃ＩＴＥＭ−ＤＡＴＥ＃＃」は＜ｉｔｅｍ＿ｄａｔｅ＞にそれぞれ対応する。［ＲＥＰＥＡＴ］で括られた部分は中間ファイルに対応する項目の分だけ繰り返し適用される意味である。

図１２は、図１１のＲＳＳテンプレートを使用して、指定されたＲＳＳフォーマットに変換した例である。

パターン指定部１８は、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するために、ユーザが後述するマーキングツールの画面上で指定したテキストコンテンツを指定する処理部である。この処理は、作成された中間フォーマットのサイズが極端に小さい場合（１ＫＢから２ＫＢ程度）や、作成された中間フォーマットや最終的に出力されるＲＳＳに意図したコンテンツが含まれていないとユーザが判断した場合にも行われる。なお、抽出するためのテキストコンテンツは複数指定できる。

パス半自動取出部１９は、パターン指定部１８でユーザが指定したテキストコンテンツと同じパターンをＤＯＭツリー全体から探して、パターンが一致したテキストコンテンツとそのパスの配列表現を取り出す処理部である。なお、ツリー配列変換部１２が、ＨＴＭＬページ２１をＤＯＭツリーに変換し、配列表現にしている。

図１３はマーキングツールの画面の例であり、ユーザは抽出したいパターンを持つテキストコンテンツを指定する。ここでは、テキストコンテンツ「ロープウェイ、２５事業所で改善点関東管区で調査（１１：０２）」が指定されたので、同じ時間表現？？：？？を持つテキストコンテンツを抽出して、そのテキストコンテンツとそのパスを取り出す。

なお、図１３の中央やや上にあるＳｅｌｅｃｔ＿Ｄｉｇボックスにおいて、抽出するパス種別を指定して抽出を絞り込むことができ、その結果を抽出ルールに反映する。Ｓｅｌｅｃｔ＿Ｄｉｇボックスの「Ｉｔｅｍ」の「ＴｉｔｌｅａｎｄＬｉｎｋ」を選択するとパス種別ｉｔｅｍ＿ｎａｍｅとｉｔｅｍ＿ｌｉｎｋを指定することになり、「Ｉｔｅｍ」の「Ｄａｔｅ」を選択するとパス種別ｉｔｅｍ＿ｄａｔｅを指定することができる。

ＲＳＳ／ＣＳＶ出力２２は、フォーマット変換部１７から最終的に得られたＲＳＳ形式またはＣＳＶ形式の処理結果である。

次に、フローチャートを用いて処理の流れを説明する（図１４）。まず、全自動指定部１１は、抽出ルールを自動的に生成するのか、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するのかを、ユーザに指定させる（Ｓ１）。

抽出ルールを自動的に生成する場合、ツリー配列変換部１２は、ＨＴＭＬページ２１の各テキストコンテンツのパスをＤＯＭツリーに変換し配列表現に変換して、ＨＴＭＬページ２１中のすべてのテキストコンテンツとそのパスの配列表現を取り出す（Ｓ２）。

そして、パス自動取出部１３は、パスの配列表現（図６）から、すべてのテキストコンテンツに対して、パターンフォーマット２３（図７）中の時間表現や金額表現等に関するパターンとすべて照会して、パターンが一致したテキストコンテンツと、そのテキストコンテンツに対応するパスの配列表現を取り出す（Ｓ３）。

一方、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成する場合、パターン指定部１８は、ユーザがマーキングツールの画面上で抽出したいパターンを持つテキストコンテンツを指定させる（Ｓ４）。

そして、パス半自動取出部１９は、ユーザが指定したテキストコンテンツと同じパターンをＤＯＭツリー全体から探して、パターンが一致したテキストコンテンツとそのパスの配列表現を取り出す（Ｓ５）。

次に、抽出ルール生成部１４は、取り出したテキストコンテンツとパスの配列表現から抽出ルール（図８）を生成する（Ｓ６）。

そして、対応表作成部１５は、ＨＴＭＬページ２１と抽出ルールに従って、パスの配列表現とテキストコンテンツとの対応表（図９）を作成する（Ｓ７）。

そして、コンテンツ抽出部１６は、作成した対応表からテキストコンテンツを抽出して、中間フォーマット（図１０）を作成する（Ｓ８）。

そして、フォーマット変換部１７は、所定のテンプレート２４を使って中間ファーマットを指定されたフォーマットに変換する（Ｓ９）。

そして、ユーザが、意図したテキストコンテンツを抽出できたか判断し、意図したテキストコンテンツを抽出できていないと判断した場合、Ｓ４からやり直す（Ｓ１０）。

（付記１）ＨＴＭＬページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出プログラムにおいて、
コンピュータを、
正規表現を持つパターンフォーマットを記憶する記憶部、
前記ＨＴＭＬページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部、
として機能させることを特徴とする情報抽出プログラム。（１）
（付記２）コンピュータを、
前記ＨＴＭＬページ内のテキストコンテンツのパスを配列表現に変換する配列変換部、
前記配列表現から、前記パターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部、
として更に機能させ、
前記抽出ルール生成部を、前記パス取出部で取り出したテキストコンテンツとパスから
抽出ルールを生成するように機能させることを特徴とする付記１記載の情報抽出プログラム。（２）
（付記３）コンピュータを、
前記抽出ルールにあるパスに従って、前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部、
前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部、
として更に機能させ、
前記フォーマット変換部を、所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換するように機能させることを特徴とする付記２記載の情報抽出プログラム。（３）
（付記４）コンピュータを、
ユーザがＧＵＩツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部として更に機能させることを特徴とする付記１、２または３記載の情報抽出プログラム。（４）
（付記５）前記パターンフォーマットは、時間表現または／かつ金額表現であることを特徴とする付記１、２、３または４記載の情報抽出プログラム。
（付記６）前記所定のフォーマットはＲＳＳ形式または／かつＣＳＶ形式であることを特徴とする付記１、２、３、４または５記載の情報抽出プログラム。
（付記７）ＨＴＭＬページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出方法において、
前記ＨＴＭＬページから正規表現を持つパターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成するステップと、
前記抽出ルールから所定のフォーマットに変換するステップと、
を有することを特徴とする情報抽出方法。（５）
（付記８）ＨＴＭＬページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出装置において、
正規表現を持つパターンフォーマットを記憶する記憶部と、
前記ＨＴＭＬページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部と、
を有することを特徴とする情報抽出装置。

構成図ＤＯＭツリーとＨＴＭＬページの例ＨＴＭＬページＨＴＭＬページ構造図ＤＯＭツリーパターンマッチングパターンフォーマット抽出ルール対応表中間フォーマットＲＳＳ用のテンプレート出力結果であるＲＳＳの例マーキングツールフローチャート

符号の説明

１情報抽出部
１１全自動指定部
１２ツリー配列変換部
１３パス自動取出部
１４抽出ルール生成部
１５対応表作成部
１６コンテンツ抽出部
１７フォーマット変換部
１８パターン指定部
１９パス半自動取出部
２１ＨＴＭＬページ
２２ＲＳＳ／ＣＳＶ出力
２３パターンフォーマット
２４テンプレート

Claims

コンピュータにＨＴＭＬページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出プログラムであって、
コンピュータに、
時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
前記ＨＴＭＬページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換させ、
前記ＨＴＭＬページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、ａタグを有する配列表現をリンク先を示すパス種別と、ａタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成させる、
ための情報抽出プログラム。
コンピュータがＨＴＭＬページからテキストコンテンツを抽出するための抽出ルールを生成する情報抽出方法であって、
コンピュータが、
時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
前記ＨＴＭＬページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換し、
前記ＨＴＭＬページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、ａタグを有する配列表現をリンク先を示すパス種別と、ａタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する、
ことを特徴とする情報抽出方法。
コンピュータにＨＴＭＬページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出装置であって、
時間表現に関する正規表現を持つパターンフォーマットを記憶する記憶部と、
前記ＨＴＭＬページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換する変換部と、
前記ＨＴＭＬページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、ａタグを有する配列表現をリンク先を示すパス種別と、ａタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する生成部と、
を有することを特徴とする情報抽出装置。