JP4923413B2 - 情報抽出プロブラム及び方法 - Google Patents

情報抽出プロブラム及び方法 Download PDF

Info

Publication number
JP4923413B2
JP4923413B2 JP2005053696A JP2005053696A JP4923413B2 JP 4923413 B2 JP4923413 B2 JP 4923413B2 JP 2005053696 A JP2005053696 A JP 2005053696A JP 2005053696 A JP2005053696 A JP 2005053696A JP 4923413 B2 JP4923413 B2 JP 4923413B2
Authority
JP
Japan
Prior art keywords
path
text content
array
expression
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005053696A
Other languages
English (en)
Other versions
JP2006236262A (ja
Inventor
寛治 内野
俊 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005053696A priority Critical patent/JP4923413B2/ja
Publication of JP2006236262A publication Critical patent/JP2006236262A/ja
Application granted granted Critical
Publication of JP4923413B2 publication Critical patent/JP4923413B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

HTML文書から情報を抽出する分野に関する。
Web上のHTMLページの活用は、キーワード検索やページ分類に関する報告が多い。また、Web上の情報発信はデザインを重視したHTMLが主流であり、広告など雑多な情報が含まれるWebページからメインとなるコンテンツを正確に取り出してマイニングなどの再利用を行う場合、ページ毎に人手でタグを解析しなければならず、非常に手間がかかる作業であった。また、ページ毎に抽出ルールを作成する方法もあるが、それも正規表現のルール作成のための知識に精通した一部の技術者のみが可能であり、一般のユーザが任意のページから有益な情報を持つコンテンツを容易に取り出して活用することはできなかった。
HTMLページから重要な部分を特定し、特定した部分を任意のフォーマットで出力する技術として、以下のものがある。特開2002−328916公報には、HTMLページの<body><font>などのタグを、タグの出現パターンやタグに挟まれたコンテンツの内容によって<music><section>などの意味のあるXMLタグに変換するコンバータに関する技術が開示されている。また、特開2002−312379公報には、Web上のHTMLページを収集して決められたカテゴリに自動的に分類してHTMLページに係る特定の指定部分の文字列を抽出して、検索や情報抽出の精度を上げる技術が開示されている。また、特開2002−342310公報には、複数のHTMLページに含まれる表やリスト部分をユーザが指定して取り出して、取り出した複数の表やリスト情報を一つのXMLや表にまとめて表示したり、グラフに加工したりする技術が開示されている。
特開2002−328916公報 特開2002−312379公報 特開2002−342310公報
以上の点に鑑みて、本願発明は、タグの解析や抽出ルールの作成をしないでも、一般のユーザが有益な情報を持つコンテンツを容易に取り出して活用することができるプログラムまたは方法を提供することを目的とする。
本願第1の発明は、正規表現を持つパターンフォーマットを記憶する記憶部と、前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、前記抽出ルールから所定のフォーマットに変換するフォーマット変換部を有することを特徴とする。
本願第2の発明は、更に、前記HTMLページ内のテキストコンテンツのパスを配列表現に変換する配列変換部と、前記配列表現からパターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部とを有し、前記抽出ルール生成部が前記パス取出部で取り出したテキストコンテンツとパスから抽出ルールを生成することを特徴とする。
本願第3の発明は、更に、前記抽出ルールにあるパスに従って前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部と、前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部とを有し、前記フォーマット変換部が所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換することを特徴とする。
本願第4の発明は、更に、ユーザがGUIツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部を有することを特徴とする。
本願第5の発明は、前記パターンフォーマットが時間表現または/かつ金額表現であることを特徴とする。
本願第6の発明は、前記所定のフォーマットがRSS形式または/かつCSV形式であることを特徴とする。
本願発明を実施すると、Webページから有益な情報であるテキストコンテンツを自動的に抽出することができる。また、抽出した情報が適切でない場合でも、ユーザが明にテキストコンテンツを指定することで似たような情報を半自動的に抽出することができる。
即ち、ユーザは、Webページから有益な情報であるテキストコンテンツを容易に抽出して再利用することができる。抽出された情報は、任意の汎用性の高いフォーマットによって出力できるので、それらの情報を集めてマイニングに活用したり、Webサービスの入力として利用したりすることができる。
例えば、ニュース、What’s new、障害情報などユーザへの告知が主目的なWebページから対応情報を自動的に取り出し、RSS形式に変換し配信することができる。また、複数の商品を紹介するWebページから値段やメーカ名などの情報を抽出しCSVなどの形式に変換することができるので、この結果を利用して商品情報の横断検索を実施することができる。また、パソコン向けのWebページから項目などの有益な情報を抽出してRSS形式に変換したり、携帯用のページ自体もRSS形式に変換することで、携帯電話など画面サイズが限られたモバイル端末上でパソコン用のページ、携帯用のページの要約情報をシームレスに参照することができる。
図1は、本願発明の実施例の構成図であり、情報抽出部1と、HTMLページ21と、RSS/CSV出力22と、パターンフォーマット23と、テンプレート24から構成される。情報抽出部1は、全自動指定部11と、ツリー配列変換部12と、パス自動取出部13と、抽出ルール生成部14と、対応表作成部15と、コンテンツ抽出部16と、フォーマット変換部17と、パターン指定部18と、パス半自動取出部19から構成される。
全自動指定部11は、後述する抽出ルールを自動的に生成するのか、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するのかを、ユーザに指定させる処理部である。
ツリー配列変換部12は、HTMLページ21の各テキストコンテンツのパスをDOMツリーに変換し配列表現に変換して、HTMLページ21中のすべてのテキストコンテンツとそのパスの配列表現を取り出す処理部である。HTMLページ21は、情報を抽出する元となるHTMLページであり、DOM(Document Object Model)ツリーは、HTMLページを解析して得られた、階層構造を有するパスを表現するツリーである。図2はその例で、右側がHTMLページで、左側がそれに対応するDOMツリーである。なお、HTMLページからDOMツリーへの変換に関する技術については、特願2004−272471を参照のこと。
HTMLページから配列表現への変換を、図3のHTMLページのテキストコンテンツに基づいて説明する。図4は、このHTMLページのタグ構造を示したものである。このHTMLページをDOMツリーに変換した後(図5)、DOMツリーの先頭にあるhtmlタグから、bodyタグ、tableタグ、trタグ、tdタグ、aタグをキーにして、各タグの階層の深さを数えながらDOMツリー内を検索する。そして、テキストコンテンツを特定し、HTMLページ中のタグを次のような配列で表現する。
テキストコンテンツ「2月2日」に対して、htmlタグをHTML[0]と、bodyタグをBODY[0]と、tableタグをTABLE[0]と、trタグをTR[0]と、tdタグをTD[0]として、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]
と表現する。同様に、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対して、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]
と表現する。以下同様にまとめたのが図6の配列表現である。
パス自動取出部13は、パスの配列表現から、すべてのテキストコンテンツに対して、パターンフォーマット23(図7)中の時間表現や金額表現等に関するパターンとすべて照会して、パターンが一致したテキストコンテンツと、そのテキストコンテンツに対応するパスの配列表現を取り出す処理部である。このとき、テキストコンテンツが時間表現や金額表現しか持たなければ、配列表現の階層を上がるか下がるかして一番近いテキストを有するテキストコンテンツを見つけ出す。なお、テキストコンテンツにはパターンマッチングの対象となった時間表現や金額表現も含んでいても良い。
パターンフォーマット23とは、時間表現や金額表現等、一定のフォーマット(mm月mm日、xxxxx円等)を持つ情報について正規表現を用いて表現したものである(図7)。HTMLページの更新が繁雑であれば更新日時がそのHTMLページに書かれ、項目の繰り返しパターンも多いため、これらの時間表現が有益な情報源であると考えられる。また、HTMLページの内容が経済に関する場合など、商品価格や株価や円為替レートなどがテキストコンテンツに金額表現として含まれることも多いため、これらの金額表現も有益な情報源であると考えられる。
パス自動取出部13のパターンマッチングについて図6を用いて説明する。テキスト「2月2日」と「2月1日」は、パターンフォーマット23中の時間表現「??月??日」に合致するので、テキストコンテンツとそのパスの配列表現を取り出す。このとき、パスの共通部分は、
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]・・・・・・・・・・・・・・・・・・※1
として取り出す。この次数の*は、同じパターンを抜き出すことを意味し、任意の次数が入る。
そして、この「2月2日」と「2月1日」は時間表現しかないので、配列表現の階層を下がって、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」と「LSIの包装に関するエンボステープを植物系へと全面変更」と、そのパスの配列表現
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・・・※2
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・・・※3
を取り出す。上段はaタグ(※3のテキストコンテンツからのリンク先を示すアンカータグ)で、下段はそのテキストコンテンツ(テキスト本体)である。
抽出ルール生成部14は、パス自動取出部13またはパス半自動取出部19で取り出したテキストコンテンツとパスの配列表現から抽出ルールを生成する処理部である。抽出ルールとは、HTMLページからテキストコンテンツを抽出するためのルールである。図8は抽出ルールの例であり、[Encoding]、[Paths]、[Data Format]から構成される。
[Encoding]は、対象となるHTMLページのキャラクタコードを表し、HTMLページのメタタグ
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
にあるcharsetから取り出す。なお、このようなタグがない場合、ブラウザなどで行っているコード判定技術を使ってコードを判定して値を取り出す。
[Paths]は、パス種別とパスの配列表現を表す。パス種別は、<item_name>、<item_link>、<item_date>、<channel_date>、<subject_name>がある。
<item_name>は、パス自動取出部13またはパス半自動取出部19で取り出したパスの配列表現であり、上記※3のテキストコンテンツに対応する。<item_link>は、取り出したパスの配列表現に対応するテキストコンテンツのaタグ(アンカータグ)の配列表現であり、上記※2に対応する。但し、テキストコンテンツにaタグが無ければ、本項目はない。<item_date>は、取り出したパスの配列表現に対応するテキストコンテンツが作成された月日を表している時間表現の配列表現であり、上記※1に対応する。但し、時間表現がなければ、本項目はない。
<channel_date>は、HTMLページの作成された日時情報を表すテキストコンテンツの配列表現であり、HTMLページから探す。但し、日時情報が得られなければ、本項目は無い。<subject_name>は、取り出したパスの配列表現よりも一つ上位の項目の配列表現を表し、見出しに相当する。但し、ページによっては本項目は無い。
[Data Format]は、パスの配列表現に対応するテキストコンテンツのフォーマットを表し、Channel_Date_FormatとItem_Date_Formatから構成される。Channel_Date_Formatは、[Paths]の<channel_date>の日時情報のフォーマットを表す予め用意されたフォーマットである。Item_Date_Formatは、<item_date>の月日を表す予め用意されたフォーマットである。
[Paths]の作成について図8を用いて説明する。<item_name>には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対応するパス自動取出部13で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・上述※3
が格納される。<item_link>には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」のaタグ(アンカータグ)に対応するパス自動取出部13で取り出されたパス表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・上述※2
が格納される。<item_date>には、時間表現に合致したテキスト「2月2日」に対応するパス自動取出部13で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]・・・・・・・・・・・・・・・・上述※1
が格納される。
対応表作成部15は、HTMLページ21と抽出ルールに従って、パスの配列表現とテキストコンテンツとの対応表を作成する処理部である。図9はその例であり、抽出ルールのパスの配列表現と、その配列表現に対応するHTMLページ21中のテキストコンテンツとを対応させる。item_dateの日付表現は、[Data Format]に書かれたフォーマットを適用した日付とする。
コンテンツ抽出部16は、対応表からテキストコンテンツを抽出して、中間フォーマットを作成する処理部である。item_dateの日付表現は、正規化(yyyy/mm/dd)して表現する。また、どちらかが省略された表現の場合(例えば年)、他方の情報で補う。図10では、対応表におけるitem_dateが2月1日であり年が省略されているが、WEBサーバやシステムから得られる日時情報から2005/02/01と補完している。
フォーマット変換部17は、所定のテンプレート24を使って、中間ファーマットを指定されたフォーマット(本願発明の出力)に変換する処理部である。指定されたフォーマットは、例えば、RSS(Rich Site Summary)形式、CSV形式が挙げられる。
図11は、テンンプレート24の例としてRSSテンプレートを取り上げたものである。テンプレート中の「##ITEM−LINK##」は<item_link>に、「##ITEM−NAME##」は<item_name>に、「##ITEM−DATE##」は<item_date>にそれぞれ対応する。[REPEAT]で括られた部分は中間ファイルに対応する項目の分だけ繰り返し適用される意味である。
図12は、図11のRSSテンプレートを使用して、指定されたRSSフォーマットに変換した例である。
パターン指定部18は、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するために、ユーザが後述するマーキングツールの画面上で指定したテキストコンテンツを指定する処理部である。この処理は、作成された中間フォーマットのサイズが極端に小さい場合(1KBから2KB程度)や、作成された中間フォーマットや最終的に出力されるRSSに意図したコンテンツが含まれていないとユーザが判断した場合にも行われる。なお、抽出するためのテキストコンテンツは複数指定できる。
パス半自動取出部19は、パターン指定部18でユーザが指定したテキストコンテンツと同じパターンをDOMツリー全体から探して、パターンが一致したテキストコンテンツとそのパスの配列表現を取り出す処理部である。なお、ツリー配列変換部12が、HTMLページ21をDOMツリーに変換し、配列表現にしている。
図13はマーキングツールの画面の例であり、ユーザは抽出したいパターンを持つテキストコンテンツを指定する。ここでは、テキストコンテンツ「ロープウェイ、25事業所で改善点 関東管区で調査(11:02)」が指定されたので、同じ時間表現??:??を持つテキストコンテンツを抽出して、そのテキストコンテンツとそのパスを取り出す。
なお、図13の中央やや上にあるSelect_Digボックスにおいて、抽出するパス種別を指定して抽出を絞り込むことができ、その結果を抽出ルールに反映する。Select_Digボックスの「Item」の「Title and Link」を選択するとパス種別item_nameとitem_linkを指定することになり、「Item」の「Date」を選択するとパス種別item_dateを指定することができる。
RSS/CSV出力22は、フォーマット変換部17から最終的に得られたRSS形式またはCSV形式の処理結果である。
次に、フローチャートを用いて処理の流れを説明する(図14)。まず、全自動指定部11は、抽出ルールを自動的に生成するのか、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成するのかを、ユーザに指定させる(S1)。
抽出ルールを自動的に生成する場合、ツリー配列変換部12は、HTMLページ21の各テキストコンテンツのパスをDOMツリーに変換し配列表現に変換して、HTMLページ21中のすべてのテキストコンテンツとそのパスの配列表現を取り出す(S2)。
そして、パス自動取出部13は、パスの配列表現(図)から、すべてのテキストコンテンツに対して、パターンフォーマット23(図7)中の時間表現や金額表現等に関するパターンとすべて照会して、パターンが一致したテキストコンテンツと、そのテキストコンテンツに対応するパスの配列表現を取り出す(S3)。
一方、抽出したいテキストコンテンツをユーザに指定させて半自動的に抽出ルールを生成する場合、パターン指定部18は、ユーザがマーキングツールの画面上で抽出したいパターンを持つテキストコンテンツを指定させる(S4)。
そして、パス半自動取出部19は、ユーザが指定したテキストコンテンツと同じパターンをDOMツリー全体から探して、パターンが一致したテキストコンテンツとそのパスの配列表現を取り出す(S5)。
次に、抽出ルール生成部14は、取り出したテキストコンテンツとパスの配列表現から抽出ルール(図)を生成する(S6)。
そして、対応表作成部15は、HTMLページ21と抽出ルールに従って、パスの配列表現とテキストコンテンツとの対応表(図)を作成する(S7)。
そして、コンテンツ抽出部16は、作成した対応表からテキストコンテンツを抽出して、中間フォーマット(図1)を作成する(S8)。
そして、フォーマット変換部17は、所定のテンプレート24を使って中間ファーマットを指定されたフォーマットに変換する(S9)。
そして、ユーザが、意図したテキストコンテンツを抽出できたか判断し、意図したテキストコンテンツを抽出できていないと判断した場合、S4からやり直す(S10)。
(付記1)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出プログラムにおいて、
コンピュータを、
正規表現を持つパターンフォーマットを記憶する記憶部、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部、
として機能させることを特徴とする情報抽出プログラム。(1)
(付記2)コンピュータを、
前記HTMLページ内のテキストコンテンツのパスを配列表現に変換する配列変換部、
前記配列表現から、前記パターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部、
として更に機能させ、
前記抽出ルール生成部を、前記パス取出部で取り出したテキストコンテンツとパスから
抽出ルールを生成するように機能させることを特徴とする付記1記載の情報抽出プログラム。(2)
(付記3)コンピュータを、
前記抽出ルールにあるパスに従って、前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部、
前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部、
として更に機能させ、
前記フォーマット変換部を、所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換するように機能させることを特徴とする付記2記載の情報抽出プログラム。(3)
(付記4)コンピュータを、
ユーザがGUIツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部として更に機能させることを特徴とする付記1、2または3記載の情報抽出プログラム。(4)
(付記5)前記パターンフォーマットは、時間表現または/かつ金額表現であることを特徴とする付記1、2、3または4記載の情報抽出プログラム。
(付記6)前記所定のフォーマットはRSS形式または/かつCSV形式であることを特徴とする付記1、2、3、4または5記載の情報抽出プログラム。
(付記7)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出方法において、
前記HTMLページから正規表現を持つパターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成するステップと、
前記抽出ルールから所定のフォーマットに変換するステップと、
を有することを特徴とする情報抽出方法。(5)
(付記8)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出装置において、
正規表現を持つパターンフォーマットを記憶する記憶部と、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部と、
を有することを特徴とする情報抽出装置。
構成図 DOMツリーとHTMLページの例 HTMLページ HTMLページ構造図 DOMツリー パターンマッチング パターンフォーマット 抽出ルール 対応表 中間フォーマット RSS用のテンプレート 出力結果であるRSSの例 マーキングツール フローチャート
符号の説明
1 情報抽出部
11 全自動指定部
12 ツリー配列変換部
13 パス自動取出部
14 抽出ルール生成部
15 対応表作成部
16 コンテンツ抽出部
17 フォーマット変換部
18 パターン指定部
19 パス半自動取出部
21 HTMLページ
22 RSS/CSV出力
23 パターンフォーマット
24 テンプレート

Claims (3)

  1. コンピュータにHTMLページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出プログラムであって、
    コンピュータに、
    時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
    前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換させ、
    前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成させる
    ための情報抽出プログラム。
  2. コンピュータがHTMLページからテキストコンテンツを抽出するための抽出ルールを生成する情報抽出方法であって、
    コンピュータが、
    時間表現に関する正規表現を持つパターンフォーマットを記憶部に記憶させ、
    前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換し、
    前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する
    ことを特徴とする情報抽出方法。
  3. コンピュータにHTMLページからテキストコンテンツを抽出するための抽出ルールを生成させるための情報抽出装置であって、
    時間表現に関する正規表現を持つパターンフォーマットを記憶する記憶部と、
    前記HTMLページ内のテキストコンテンツについて該テキストコンテンツのタグの構造をパスの配列表現に変換する変換部と、
    前記HTMLページで用いられるキャラクタコードを取得し、前記記憶部のパターンフォーマットを参照して、前記変換したパスの配列表現から時間表現が合致するパスの配列表現を取り出して、取り出したパスの配列表現のうち同じパターンを抜き出すタグ位置に任意の次数を付与し、該取り出したパスの配列表現の下位階層のうち、aタグを有する配列表現をリンク先を示すパス種別と、aタグを有しない配列表現を該テキストコンテンツからのテキストコンテンツを示すパス種別として抽出ルールを生成する生成部と、
    を有することを特徴とする情報抽出装置。
JP2005053696A 2005-02-28 2005-02-28 情報抽出プロブラム及び方法 Expired - Fee Related JP4923413B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005053696A JP4923413B2 (ja) 2005-02-28 2005-02-28 情報抽出プロブラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005053696A JP4923413B2 (ja) 2005-02-28 2005-02-28 情報抽出プロブラム及び方法

Publications (2)

Publication Number Publication Date
JP2006236262A JP2006236262A (ja) 2006-09-07
JP4923413B2 true JP4923413B2 (ja) 2012-04-25

Family

ID=37043802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005053696A Expired - Fee Related JP4923413B2 (ja) 2005-02-28 2005-02-28 情報抽出プロブラム及び方法

Country Status (1)

Country Link
JP (1) JP4923413B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101583951B (zh) 2007-01-18 2012-02-15 富士通株式会社 关键字管理***和关键字管理方法
JP2011248485A (ja) * 2010-05-25 2011-12-08 Jr Shikoku Communication Ware Co Ltd グループウェアシステムおよびプログラム
JPWO2022029863A1 (ja) * 2020-08-04 2022-02-10

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724878B2 (ja) * 1996-06-28 2005-12-07 株式会社日立製作所 キーワード抽出ルール生成方法
JP2002189740A (ja) * 2000-12-19 2002-07-05 Appresso:Kk データ変換システム
JP2002312379A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 情報抽出方法および情報抽出装置
JP4251804B2 (ja) * 2001-12-04 2009-04-08 富士通株式会社 情報表示方法、情報表示プログラム及び情報表示装置
JP4231298B2 (ja) * 2003-01-14 2009-02-25 日本電信電話株式会社 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
JP2004318809A (ja) * 2003-02-24 2004-11-11 Fuji Xerox Co Ltd 情報抽出規則生成装置および方法

Also Published As

Publication number Publication date
JP2006236262A (ja) 2006-09-07

Similar Documents

Publication Publication Date Title
US9323731B1 (en) Data extraction using templates
US10719898B2 (en) Systems and methods for analyzing documents
CN103620539B (zh) 对话线程的概述
US6920608B1 (en) Chart view for reusable data markup language
US8042052B2 (en) System for displaying and managing information on webpage using indicator
US11106906B2 (en) Systems and methods for information extraction from text documents with spatial context
US20130006986A1 (en) Automatic Classification of Electronic Content Into Projects
US20080282139A1 (en) Tree view for reusable data markup language
CN103425714A (zh) 一种搜索方法和***
CN110738037A (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
CN101763343A (zh) 一种支持格式比对和剽窃检查的文档编辑器原理与方法
JPWO2005098663A1 (ja) 情報管理装置
Leidner Towards a reference corpus for automatic toponym resolution evaluation
JP4923413B2 (ja) 情報抽出プロブラム及び方法
CN101206668A (zh) 一种网站内容组件生成方法、解析方法及装置
Papanikolaou et al. Protest event analysis: A longitudinal analysis for Greece
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
Fafalios et al. A workflow model for holistic data management and semantic interoperability in quantitative archival research
Stinson et al. Encoding medieval music notation for research
Ganapathy et al. Easy urls in the content management system with crawlers for added security
US20100138735A1 (en) Document processing device
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
Tzanis et al. Graphie: A network-based visual interface for the UK's primary legislation
KR20020061443A (ko) 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템
Nockels et al. The implications of handwritten text recognition for accessing the past at scale

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120123

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees