JP5153516B2 - 抽出装置、抽出システム、抽出方法およびプログラム - Google Patents

抽出装置、抽出システム、抽出方法およびプログラム Download PDF

Info

Publication number
JP5153516B2
JP5153516B2 JP2008215478A JP2008215478A JP5153516B2 JP 5153516 B2 JP5153516 B2 JP 5153516B2 JP 2008215478 A JP2008215478 A JP 2008215478A JP 2008215478 A JP2008215478 A JP 2008215478A JP 5153516 B2 JP5153516 B2 JP 5153516B2
Authority
JP
Japan
Prior art keywords
extraction
rule
content
request
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008215478A
Other languages
English (en)
Other versions
JP2010049638A (ja
Inventor
雄介 中野
庸次 山登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008215478A priority Critical patent/JP5153516B2/ja
Publication of JP2010049638A publication Critical patent/JP2010049638A/ja
Application granted granted Critical
Publication of JP5153516B2 publication Critical patent/JP5153516B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、抽出装置、抽出システム、抽出方法およびプログラムに関する。特に、本発明は、Webアプリケーションが生成するHTMLドキュメントから特定部分を抽出する抽出装置、抽出システム、抽出方法およびプログラムに関する。
近年、Webサービスの必要性が高まっている。Webサービスとは様々なサービスを実現するために、部品としても用いられているサービスコンポーネントのことであり、主に、B2Bの分野で用いられてきた。加えて近年、ユビキタス分野においてもこれらを用いる動きがあり、B2CやC2CにおいてもWebサービスが活躍しつつある。しかし、現段階では利用可能なWebサービス数は少なく、様々なサービスを提供するには至っていない。そこで、Webサービス数を増やし、それらを組み合わせることで様々なサービスを実現できる環境を作る必要がある。
既存のWebアプリケーションをWebサービスとして利用するというアイディアがある。これにより、豊富なWebサービスが利用可能となる。これを利用するラッパ(wrapper)がある。ラッパはWebサービスのインターフェイスとWebアプリケーションのインターフェイスを持つ。ラッパはラッパのWebサービス側にきたリクエストをWebアプリケーションのリクエストに変換し、これをWebアプリケーションに送信する。その後、返ってきたHTMLドキュメントから特定部分を抽出し、これをSOAP(Simple Object Access Protocol)に変換し、リクエストの送信者に返す。このとき、Webアプリケーション毎にプロトコル変換のためのコンフィグファイルが必要となる、例えば、ホテル検索Webアプリケーションをホテル検索Webサービスとするためのラッパを実現する場合は、ホテル検索Webアプリケーション用のコンフィグファイルが必要となる。
コンフィグファイルには、SOAPのリクエストからWebアプリケーションのリクエストに変換するためのルールと、Webアプリケーションが返すHTMLドキュメントから特定の部分を抽出し、抽出結果をSOAPに変換するためのルールとが主に含まれる。このようなルールを用いてSOAPとWebアプリケーションのプロトコルとを相互変換するための技術として特許文献1、特許文献2がある。
特開2007−241417号公報 特開2008−003848号公報
しかし、もし、Webアプリケーションが返すHTMLドキュメントが変化すると、予め作られたコンフィグファイルでは正しい部分を抽出できなくなり、WebアプリケーションをWebサービスとして利用できなくなる。また、これを解消するためにはコンフィグファイルの手直しする必要があるため、多大な労力を必要とする。
Webアプリケーションが返すHTMLドキュメントが変化した場合に、簡便に、正しい部分を抽出し、WebアプリケーションをWebサービスとして利用できるようにすることを目的とする。
上述した課題を解決するために、本発明の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成機構は、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出し、前記ルール生成機構は、前記ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、前記ルールによる抽出機構から前記コンテンツを受信するコンテンツ受信部と、コンテンツ受信部によって受信された前記コンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、前記ルール保持部からルールを読み込み、前記ルールによる所定の抽出結果の雛形と、前記特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、前記類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、前記抽出結果選択部によって選択された前記最適な抽出結果を抽出するための新たな前記ルールを生成するルール生成部と、前記ルール生成部によって生成された新たな前記ルールを前記ルールによる抽出機構とルール保持機構に送信することによって前記ルールを更新するルール更新部とを有することを特徴とする。
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置において、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記ルール保持機構から前記ルールを取得し、前記ルールの更新と配信とを行うルール保持部と、前記リクエスト送信・結果受信装置から前記抽出要求を受信するリクエスト受信部と、前記リクエスト受信部によって受信された前記抽出要求を、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ要求に変換するリクエスト組立部と、前記リクエスト組立部によって変換された前記コンテンツ要求を前記コンテンツ提供装置に送信するリクエスト送信部と、前記コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ保持部によって受信された前記コンテンツから特定部分を抽出するルールによる抽出部と、前記ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、特定部分の抽出が失敗していないと前記抽出失敗検出部によって判断された場合に、前記ルールによる抽出部による前記抽出結果を前記リクエスト送信・結果受信装置に返信する抽出結果送信部と、特定部分の抽出が失敗していると前記抽出失敗検出部によって判断された場合に、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信するコンテンツ送信部とを有し、前記ルールによる抽出部は、前記コンテンツ送信部によって送信された前記コンテンツに基づいて前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出する抽出装置であって、前記ルールによる抽出部は、特定部分を抽出した場合に、前記抽出結果を前記抽出失敗検出部に送信し、前記抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、前記抽出結果を前記抽出結果送信部に送信し、前記抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、新たな前記ルールに従って特定部分を再抽出し、前記抽出失敗検出部は、前記ルールによる抽出部から前記抽出結果を受信した場合に、前記ルール保持部からルールを取得し、前記ルールによる所定の抽出結果の雛形と前記抽出結果との類似度を算出することによって、前記類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、前記抽出が成功した旨の検出結果を前記ルールによる抽出部に返信し、前記類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、前記ルールを再生成するために前記コンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果を前記ルールによる抽出部に送信し、前記コンテンツ送信部は、前記コンテンツ送信依頼を受信したときに、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信することを特徴とする。
上述した課題を解決するために、本発明の他の一態様は、コンテンツの特定部分を抽出する抽出システムであって、コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、前記抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、前記抽出要求に係るコンテンツを要求するコンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置とを備え、前記抽出装置は、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを有し、前記ルールによる抽出機構は、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成機構は、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置よるコンテンツ内の特定部分を抽出する抽出方法であって、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップとを有し、前記ルールによる抽出ステップは、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成ステップは、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出ステップは、前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置のコンピュータに、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップとを実行させるプログラムであって、前記ルールによる抽出ステップは、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成ステップは、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出ステップは、前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。
本発明によれば、Webアプリケーションが返すHTMLドキュメントが変化し、正しい部分の抽出ができなくなった場合に、新たなルールが自動生成されるため労力を掛けずに、継続してWebアプリケーションをWebサービスとして利用し続けることができる。換言すれば、Webアプリケーションが返すHTMLドキュメントが変化したことをラッパが検知し、自動的に新たなHTMLドキュメントに対応するコンフィグファイルを再生成するため、ラッパがWebアプリケーション側の変更に対応するようになる。つまり、ラッパがWebアプリケーション側の変更に自動的に追従するようになる。従って、ラッパのメンテナンスコストを削減することができる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できる。
以下、本発明の実施形態について図面を参照して詳細に説明する。図1は、本発明の実施形態に係る抽出システム1の構成図である。抽出システム1は、図1に示すように、
リクエスト送信・結果受信装置10、抽出装置20およびコンテンツ提供装置30から構成される。
コンテンツ提供装置30は、例えば、Webアプリケーションを実装したサーバである。コンテンツ提供装置30は、例えば、HTTPリクエストを受信し、HTMLドキュメントを送信する。換言すれば、コンテンツ提供装置30は、コンテンツを要求するコンテンツ要求(以下、「コンテンツリクエスト」という)に応じて、保持しているコンテンツを送信する。
リクエスト送信・結果受信装置10は、例えば、Webサービスのクライアント(端末)である。具体的には、リクエスト送信・結果受信装置10は、マッシュアップ(MushUp)アプリケーションなどを実装したクライアントである。リクエスト送信・結果受信装置10は、Webサービスに対してリクエストを送信し、当該リクエストに対するレスポンスを受信する。具体的には、リクエスト送信・結果受信装置10は、コンテンツ内の特定部分の抽出を要求する抽出要求(以下、単に「リクエスト」という)を送信し、当該抽出要求に対する抽出結果を受信する。
抽出装置20は、例えば、サーバである。抽出装置20は、リクエスト送信・結果受信装置10からSOAPなどでリクエスト(抽出要求)を受信する。リクエストを受信した抽出装置20は、当該リクエストに対するコンテンツを取得するために、HTTPリクエストなどのコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に対して送信し、当該コンテンツリクエストに対するHTMLドキュメントなどのコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信した抽出装置20は、当該コンテンツの特定部分を抽出し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に対してSOAPなどで送信(返信)する。
図2は、図1に示す抽出装置20の構成を説明するための図である。抽出装置20は、図2に示すように、ルール保持機構200、ルールによる抽出機構210およびルール生成機構220から構成される。
ルール保持機構200は、リクエスト送信・結果受信装置10からのリクエスト(抽出要求)に応えるための種々のルールを保持するディレクトリである。具体的には、ルール保持機構200は、抽出装置20が受信したSOAPなどのリクエストをコンテンツ提供装置30へのコンテンツリクエスト(コンテンツ要求)に変換するためのルール、抽出装置20が受け取ったHTMLドキュメントなどのコンテンツから特定部分を抽出し、SOAPなどの形に変換するためのルールなどを保持する。
ルールによる抽出機構210は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。ルールによる抽出機構210は、リクエストを受信した場合、リクエストの内容からどのルールを読み込むべきであるかを判断する。ルールによる抽出機構210は、読み込むべきルールを読み込んだ後、当該ルールに従って、リクエスト送信・結果受信装置10から受信したリクエストからコンテンツ提供装置30に送信するコンテンツリクエスト(コンテンツ要求)を組み立てる。
ルールによる抽出機構210は、組み立てたコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に送信する。ルールによる抽出機構210は、当該コンテンツリクエストに対するコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信したルールによる抽出機構210は、読み込んだルールに従って、当該コンテンツから特定部分を抽出し、SOAPなどの形に変換し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に返信する。ルールによる抽出機構210は、コンテンツからの特定部分の抽出に失敗した場合、ルール生成機構220に対し、抽出対象のHTMLドキュメントなどのコンテンツ(本発明のコンテンツ送信依頼に相当する)を送信し、新たなルールをルール生成機構220から取得し、新たなルールに従って、当該コンテンツから特定部分を再抽出する。
ルール生成機構220は、ルールによる抽出機構210が特定部分の抽出に失敗した場合、抽出対象のコンテンツをルールによる抽出機構210から取得し、当該コンテンツと当該ルールから新たなルールを生成する。新たなルールを生成したルール生成機構220は、生成した新たなルールをルールによる抽出機構210とルール保持機構200とに送信することによってルールの更新を行う。
図3は、図2に示すルールによる抽出機構210の構成図である。ルールによる抽出機構210は、図3に示すように、ルール保持部211、リクエスト受信部212、リクエスト組立部213、リクエスト送信部214、コンテンツ保持部215、ルールによる抽出部216、抽出失敗検出部217、抽出結果送信部218およびコンテンツ送信部219から構成される。
ルール保持部211は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部211は、ルールの更新と配信とを行う。
リクエスト受信部212は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。リクエスト受信部212は、リクエスト送信・結果受信装置10から受信したリクエストをリクエスト組立部213に送信する。
リクエスト組立部213は、リクエスト受信部212からリクエスト(抽出要求)を受信する。リクエスト組立部213は、リクエスト受信部212から受信したリクエストから、コンテンツ提供装置30に送信するコンテンツ要求に変換するためのルールをルール保持部211から取得する(読み込む)。リクエスト組立部213は、リクエスト受信部212から受信したリクエストを、ルール保持部211から取得したルールに従って、コンテンツリクエスト(コンテンツ要求)に変換する。リクエスト組立部213は、コンテンツリクエストをリクエスト送信部214に送信する。
リクエスト送信部214は、リクエスト組立部213からコンテンツリクエスト(コンテンツ要求)を受信し、コンテンツ提供装置30に送信する。
コンテンツ保持部215は、コンテンツ提供装置30からコンテンツリクエスト(コンテンツ要求)に対応するコンテンツを受信する。コンテンツ保持部215は、受信したコンテンツを保持し、ルールによる抽出部216にコンテンツを送信する。また、コンテンツ保持部215は、コンテンツ送信部219の要求に従い、自身が保持するコンテンツを提供(送信)する。
ルールによる抽出部216は、コンテンツ保持部215からコンテンツを受信する。ルールによる抽出部216は、コンテンツ保持部215から受信したコンテンツから、特定部分を抽出するためのルールをルール保持部211から取得する(読み込む)。ルールによる抽出部216は、ルール保持部211から取得したルールに従って、コンテンツ保持部215から受信したコンテンツから特定部分を抽出する。当該変換は、例えば、HTMLドキュメントをXSL変換するようなもので、このときにルールとしてXSLファイルを用いるとよい。ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する。
ルールによる抽出部216は、特定部分を抽出した場合に、特定部分を正しく抽出できたか否かを判断する。具体的には、ルールによる抽出部216は、特定部分を抽出した場合に、抽出結果を抽出失敗検出部217に送信し、抽出失敗検出部217から、抽出が成功した旨の検出結果を受信した場合に、特定部分を正しく抽出できたと判断し、抽出失敗検出部217から、再抽出が必要である旨の検出結果を受信した場合には、特定部分を正しく抽出できなかったと判断する。
ルールによる抽出部216は、特定部分を正しく抽出できたと判断した場合、つまり、抽出失敗検出部217から抽出が成功した旨の検出結果を受信した場合、抽出結果を抽出結果送信部218に送信する。
一方、ルールによる抽出部216は、特定部分を正しく抽出できなかったと判断した場合、つまり、抽出失敗検出部217から再抽出が必要である旨の検出結果を受信した場合、ルール保持部211から新たなルールを再度取得し、再度取得したルールに従って特定部分を再抽出し、再抽出による抽出結果を抽出結果送信部218に送信する。
抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信する。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルールによる抽出部216が特定部分を正しく抽出できたか否か、つまり、ルールによる抽出部216が特定部分の抽出に失敗したか否かを判断する。
より詳細には、抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルール保持部211からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、実際に抽出された部分とを比較し、類似度が閾値以上であるか否かを判断する。換言すれば、抽出失敗検出部217は、ルールによる所定の抽出結果の雛形と抽出結果との類似度を算出し、類似度が閾値以上であるか否かを判断する。
抽出失敗検出部217は、類似度が閾値以上であると判断した場合、特定部分の抽出が失敗していないと判断し、抽出が成功した旨の検出結果をルールによる抽出部216に送信(返信)する。
一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合、特定部分の抽出が失敗したと判断し、コンテンツ送信部219にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。なお、コンテンツ送信依頼は、ルールを再生成するために、ルール生成機構220にコンテンツを送信すべき依頼である。
抽出結果送信部218は、ルールによる抽出部216が特定部分を正しく抽出できた場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗していないと抽出失敗検出部217によって判断された場合、ルールによる抽出部216から抽出結果を受信し、リクエスト送信・結果受信装置10に送信(返信)する。抽出結果送信部218は、抽出結果を、例えばSOAPなどの形でWebサービスのレスポンスとして送信する。
コンテンツ送信部219は、ルールによる抽出部216が特定部分を正しく抽出できなかった場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗したと抽出失敗検出部217によって判断された場合、抽出失敗検出部217からコンテンツ送信依頼を受信する。抽出失敗検出部217からコンテンツ送信依頼を受信したコンテンツ送信部219は、コンテンツ保持部215からコンテンツを取得し、ルール生成機構220に送信する。これによって、ルールが再生成される。
図4は、図2に示すルール生成機構220の構成図である。ルール生成機構220は、図4に示すように、ルール保持部221、コンテンツ受信部222、特定部分自動抽出部223、抽出結果選択部224、ルール生成部225およびルール更新部226から構成される。
ルール保持部221は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部221は、ルールの配信を行う。
コンテンツ受信部222は、ルールによる抽出機構210からコンテンツを受信する。コンテンツ受信部222は、ルールによる抽出機構210から受信したコンテンツを特定部分自動抽出部223に送信する。
特定部分自動抽出部223は、コンテンツ受信部222からコンテンツを受信する。特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツの特定部分の候補を自動抽出する。具体的には、特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。特定部分自動抽出部223は、例えば、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、自動抽出した複数の抽出結果候補を抽出結果選択部224へ送信する。
抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信する。抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、当該複数の抽出結果候補から一の抽出結果候補を最適な抽出結果として選択する。具体的には、抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、ルール保持部221からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、各抽出結果候補とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する。換言すれば、抽出結果選択部224は、ルールによる所定の抽出結果の雛形と各抽出結果候補との類似度をそれぞれ算出し、類似度が最大の一の抽出結果候補を最適な抽出結果として選択する。抽出結果選択部224は、最適な抽出結果をルール生成部225に送信する。なお、最適な抽出結果とは、複数の抽出結果候補のうち正しい抽出結果である可能性が最も高く、新たなルールを生成に最適な抽出結果をいう。
ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信する。ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信した場合、最適な抽出結果を抽出するための新たなルールを生成する。換言すれば、ルール生成部225は、最適な抽出結果と同一の部分を抽出するための新たなルールを生成する。ルール生成部225は、生成した新たなルールをルール更新部226に送信する。
ルール更新部226は、ルール生成部225から新たなルールを受信する。ルール更新部226は、ルール生成部225から受信した新たなルールをルールによる抽出機構210とルール保持機構200とに送信する。これによって、ルールが更新される。
図5は、抽出装置20の動作を示すシーケンス図である。なお、図5は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルールによる抽出機構210は、予め、ルール保持機構200からルールを読み込む(S10)。ルール生成機構220は、予め、ルール保持機構200からルールを読み込む(S11)。
リクエスト送信・結果受信装置10は、ルールによる抽出機構210にリクエスト(抽出要求)を送信する(S12)。ルールによる抽出機構210は、リクエスト(抽出要求)をコンテンツリクエスト(コンテンツ要求)に変換し、コンテンツ提供装置30に送信する(S13)。
コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをルールによる抽出機構210に返信する(S14)。ルールによる抽出機構210は、ルールに従って、受信したコンテンツから特定部分を抽出する。ルールによる抽出機構210は、特定部分の抽出に失敗したと判断する。ルールによる抽出機構210は、ルールの再生成のために、コンテンツをルール生成機構220に送信する(S15)。
ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルールによる抽出機構210およびルール保持機構200に送信することによってルールを更新する(S16)。
ルールによる抽出機構210は、新たなルールに従って、コンテンツの特定部分を再抽出する。ルールによる抽出機構210は、再抽出の結果をリクエスト送信・結果受信装置10に返信する(S17)。
図6、7は、ルールによる抽出機構210の動作を示すシーケンス図である。なお、図6は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルール保持部211は、ルール保持機構200から予めルールを読み込む(S20)。
リクエスト送信・結果受信装置10は、リクエスト受信部212にリクエスト(抽出要求)を送信する(S21)。リクエスト受信部212は、受信したリクエストをリクエスト組立部213に送信する(S22)。リクエスト組立部213は、ルール保持部211からルールを読み込む(S23)。
リクエスト組立部213は、読み込んだルールに従って、受信したリクエスト(抽出要求)から、コンテンツを取得するためのコンテンツリクエスト(コンテンツ要求)を組み立てる。リクエスト組立部213は、組み立てたコンテンツリクエストをリクエスト送信部214に送信する(S24)。リクエスト送信部214は、受信したコンテンツリクエストをコンテンツ提供装置30に送信する(S25)。
コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをコンテンツ保持部215に送信する(S26)。コンテンツ保持部215は、受信したコンテンツを保持し、コンテンツをルールによる抽出部216に送信する(S27)。ルールによる抽出部216は、コンテンツから特定部分を抽出するためのルールをルール保持部211から読み込む(S28)。ルールによる抽出部216は、ルールに従って、コンテンツから特定部分を抽出する。
ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する(S29)。抽出失敗検出部217は、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断するために、ルール保持部211からルールを読み込む(S30)。
抽出失敗検出部217は、ルールに従って、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断する。ここでは、抽出失敗検出部217は、正しく抽出できていない、つまり、抽出失敗と判断する。抽出失敗検出部217は、ルールの再生成が必要であるため、コンテンツ送信部219にコンテンツ送信依頼を送信する(S31)。コンテンツ送信部219は、コンテンツ保持部215からコンテンツを読み込む(S32)。コンテンツ送信部219は、読み込んだコンテンツをルール生成機構220に送信する(S33)。
ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルール保持部211およびルール保持機構200に送信することでルールを更新する(S34)。
抽出失敗検出部217は、ルールの更新によって再抽出が必要である旨(ルールが更新された旨)の検出結果をルールによる抽出部216に送信する(S35)。再抽出が必要である旨の検出結果を受信したルールによる抽出部216は、ルールを再読み込みする(S36)。ルールによる抽出部216は、再度、読み込んだルールに従って、コンテンツから特定部分を再抽出する。ルールによる抽出部216は、再抽出結果を抽出結果送信部218に送信する(S37)。抽出結果送信部218は、抽出結果をリクエスト送信・結果受信装置10に送信する(S38)。
図8は、ルール生成機構220の動作を示すシーケンス図である。ルール保持部221は、ルール保持機構200から予めルールを読み込む(S40)。
ルールによる抽出機構210は、特定部分の抽出に失敗した場合、コンテンツをコンテンツ受信部222に送信する(S41)。コンテンツ受信部222は、受信したコンテンツを特定部分自動抽出部223に送信する(S42)。
特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。例えば、特定部分自動抽出部223は、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、複数の抽出結果候補から最適な抽出結果を選択するために、複数の抽出結果候補を抽出結果選択部224に送信する(S43)。
抽出結果選択部224は、ルール保持部221からルールを読み込む(S44)。抽出結果選択部224は、抽出結果候補の各候補とルールのお手本とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する(図8において「正しい抽出結果選択」と記載)。抽出結果選択部224は、最適な抽出結果(図8において、単に「抽出結果」と記載)をルール生成部225に送信する(S45)。
ルール生成部225は、受信した最適な抽出結果を抽出するための新たなルールを生成する。ルール生成部225は、生成したルールをルール更新部226に送信する(S46)。ルール更新部226は、受信したルールをルール保持機構200およびルールによる抽出機構210に送信することでルールを更新する(S47)。
図9は、抽出失敗検出部217の動作を示すフローチャートである。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を取得する(ステップS100)。抽出失敗検出部217は、ルール保持部211からルールを読み込む(ステップS110)。抽出失敗検出部217は、抽出結果とルール中の抽出するべきお手本との類似度を算出する(ステップS120)。抽出失敗検出部217は、算出した類似度が閾値以上であるか否かを判断する(ステップS130)。
抽出失敗検出部217は、類似度が閾値以上であると判断した場合(ステップS130:Yes)、抽出成功と判断し、ルールによる抽出部216に「抽出成功」と送信する(S140)。つまり、抽出失敗検出部217は、抽出が成功した旨の検出結果をルールによる抽出部216に送信する。
一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合(ステップS130:No)、抽出失敗と判断し、ルール生成のためにコンテンツ送信部219にコンテンツ送信依頼を送信する(S150)。なお、抽出失敗検出部217は、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。
図10は、抽出結果選択部224の動作を示すフローチャートである。抽出結果選択部224は自動抽出結果である複数の抽出結果候補を取得する(ステップS200)。抽出結果選択部224は、ルール保持部221からルールを読み込む(ステップS210)。抽出結果選択部224は、各抽出結果候補とルール中の抽出すべきお手本との類似度を算出する(ステップS220)。抽出結果選択部224は、算出した類似度が閾値以上の抽出結果候補があるか否かを判断する(ステップS230)。
抽出結果選択部224は、類似度が閾値以上の抽出結果候補があると判断した場合(ステップS230:Yes)、ルール生成のために類似度が高い抽出結果(具体的には最適な抽出結果)をルール生成部225に送信する(S240)。
一方、抽出結果選択部224は、類似度が閾値以上の抽出結果候補がないと判断した場合(ステップS230:No)、ルールの再生成に失敗したと判断し、ルールの再生成と再抽出をあきらめる(ステップS250)。
以上、本発明によれば、ラッパがWebアプリケーション側の変更に自動的に追従することで、ラッパのメンテナンスコストを削減することができるようになる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できるようになる。
なお、抽出装置20の各処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、抽出装置20に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明の実施形態に係る抽出システム1の構成図である。 図1に示す抽出装置20の構成を説明するための図である。 図2に示すルールによる抽出機構210の構成図である。 図2に示すルール生成機構220の構成図である。 抽出装置20の動作を示すシーケンス図である。 ルールによる抽出機構210の動作を示すシーケンス図である。 ルールによる抽出機構210の動作を示すシーケンス図である。 ルール生成機構220の動作を示すシーケンス図である。 抽出失敗検出部217の動作を示すフローチャートである。 抽出結果選択部224の動作を示すフローチャートである。
符号の説明
1 抽出システム 10 リクエスト送信・結果受信装置 20 抽出装置 30 コンテンツ提供装置 200 ルール保持機構 210 ルールによる抽出機構 211 ルール保持部 212 リクエスト受信部 213 リクエスト組立部 214 リクエスト送信部 215 コンテンツ保持部 216 ルールによる抽出部 217 抽出失敗検出部 218 コンテンツ送信部 219 抽出結果送信部 220 ルール生成機構 221 ルール保持部 222 コンテンツ受信部 223 特定部分自動抽出部 224 抽出結果選択部 225 ルール生成部 226 ルール更新部

Claims (6)

  1. コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、
    前記抽出要求に応えるためのルールを保持するルール保持機構と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
    前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
    を備え、
    前記ルールによる抽出機構は、
    前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
    前記ルール生成機構は、
    前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
    前記ルールによる抽出機構は、
    前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出装置。
  2. コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、
    前記抽出要求に応えるためのルールを保持するルール保持機構と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
    前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
    を備え、
    前記ルールによる抽出機構は、
    前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出し、
    前記ルール生成機構は、
    前記ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、
    前記ルールによる抽出機構から前記コンテンツを受信するコンテンツ受信部と、
    コンテンツ受信部によって受信された前記コンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、
    前記ルール保持部からルールを読み込み、前記ルールによる所定の抽出結果の雛形と、前記特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、前記類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、
    前記抽出結果選択部によって選択された前記最適な抽出結果を抽出するための新たな前記ルールを生成するルール生成部と、
    前記ルール生成部によって生成された新たな前記ルールを前記ルールによる抽出機構とルール保持機構に送信することによって前記ルールを更新するルール更新部と
    を有することを特徴とする抽出装置。
  3. コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置において、
    前記抽出要求に応えるためのルールを保持するルール保持機構と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
    前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
    を備え、
    前記ルールによる抽出機構は、
    前記ルール保持機構から前記ルールを取得し、前記ルールの更新と配信とを行うルール保持部と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信するリクエスト受信部と、
    前記リクエスト受信部によって受信された前記抽出要求を、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ要求に変換するリクエスト組立部と、
    前記リクエスト組立部によって変換された前記コンテンツ要求を前記コンテンツ提供装置に送信するリクエスト送信部と、
    前記コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、
    前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ保持部によって受信された前記コンテンツから特定部分を抽出するルールによる抽出部と、
    前記ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、
    特定部分の抽出が失敗していないと前記抽出失敗検出部によって判断された場合に、前記ルールによる抽出部による前記抽出結果を前記リクエスト送信・結果受信装置に返信する抽出結果送信部と、
    特定部分の抽出が失敗していると前記抽出失敗検出部によって判断された場合に、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信するコンテンツ送信部と
    を有し、
    前記ルールによる抽出部は、
    前記コンテンツ送信部によって送信された前記コンテンツに基づいて前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出する抽出装置であって、
    前記ルールによる抽出部は、
    特定部分を抽出した場合に、前記抽出結果を前記抽出失敗検出部に送信し、前記抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、前記抽出結果を前記抽出結果送信部に送信し、前記抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、新たな前記ルールに従って特定部分を再抽出し、
    前記抽出失敗検出部は、
    前記ルールによる抽出部から前記抽出結果を受信した場合に、前記ルール保持部からルールを取得し、前記ルールによる所定の抽出結果の雛形と前記抽出結果との類似度を算出することによって、前記類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、前記抽出が成功した旨の検出結果を前記ルールによる抽出部に返信し、前記類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、前記ルールを再生成するために前記コンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果を前記ルールによる抽出部に送信し、
    前記コンテンツ送信部は、
    前記コンテンツ送信依頼を受信したときに、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信することを特徴とする抽出装置。
  4. コンテンツの特定部分を抽出する抽出システムであって、
    コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、
    コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、前記抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、前記抽出要求に係るコンテンツを要求するコンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置と
    を備え、
    前記抽出装置は、
    前記抽出要求に応えるためのルールを保持するルール保持機構と、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
    前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
    を有し、
    前記ルールによる抽出機構は、
    前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
    前記ルール生成機構は、
    前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
    前記ルールによる抽出機構は、
    前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出システム。
  5. コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置よるコンテンツ内の特定部分を抽出する抽出方法であって、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
    前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
    を有し、
    前記ルールによる抽出ステップは、
    前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
    前記ルール生成ステップは、
    前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
    前記ルールによる抽出ステップは、
    前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出方法。
  6. コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置のコンピュータに、
    前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
    前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
    を実行させ、
    前記ルールによる抽出ステップは、
    前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
    前記ルール生成ステップは、
    前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
    前記ルールによる抽出ステップは、
    前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とするプログラム。
JP2008215478A 2008-08-25 2008-08-25 抽出装置、抽出システム、抽出方法およびプログラム Expired - Fee Related JP5153516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008215478A JP5153516B2 (ja) 2008-08-25 2008-08-25 抽出装置、抽出システム、抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008215478A JP5153516B2 (ja) 2008-08-25 2008-08-25 抽出装置、抽出システム、抽出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010049638A JP2010049638A (ja) 2010-03-04
JP5153516B2 true JP5153516B2 (ja) 2013-02-27

Family

ID=42066641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008215478A Expired - Fee Related JP5153516B2 (ja) 2008-08-25 2008-08-25 抽出装置、抽出システム、抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5153516B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2978379B1 (fr) * 2011-07-29 2014-03-14 Saint Gobain Vitrage lumineux de vehicule, fabrication

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189740A (ja) * 2000-12-19 2002-07-05 Appresso:Kk データ変換システム
JP2008003848A (ja) * 2006-06-22 2008-01-10 Nippon Telegr & Teleph Corp <Ntt> 半構造化データ構造化システム、装置、および方法

Also Published As

Publication number Publication date
JP2010049638A (ja) 2010-03-04

Similar Documents

Publication Publication Date Title
CN101390080B (zh) 基于查询部分来供应高速缓存的查询结果
CN101405723B (zh) 初始动态呈现控件数据估计
KR100623482B1 (ko) 세션 이동 방법
US9648119B2 (en) Methods and devices for exchanging data
CN102567485B (zh) 用于内容检索的提供商专用解析
CN102833293A (zh) P2sp网络中资源下载的方法及客户端
CN101669113A (zh) 从表单和表元数据中导出web服务接口的方法
CN109753586A (zh) 一种视频推荐方法及设备
JP5488349B2 (ja) 中継装置、中継方法及び中継プログラム
KR20100087561A (ko) 컨텐츠 태그를 이용한 컨텐츠 관리 방법 및 그 장치
JP5153516B2 (ja) 抽出装置、抽出システム、抽出方法およびプログラム
US20120166732A1 (en) Content caching device, content caching method, and computer readable medium
JP2005196676A (ja) サービス生成方法、サービス生成システムおよびプログラム
CN101527725A (zh) 信息提供服务器、程序、信息提供方法以及信息提供***
CN110866196A (zh) 一种打印机网络信息采集方法、装置及电子设备
JP6620558B2 (ja) 情報処理装置及び情報処理プログラム
JP2019061408A (ja) 情報処理装置及び情報処理プログラム
CN111125142B (zh) 一种数据更新方法及***
JP2007265356A (ja) 通信プロトコルを用いた相互接続方法および装置
CN110505277B (zh) 一种数据缓存方法、装置及客户端
CN111614750A (zh) 一种数据更新方法、***、设备及存储介质
CN101917476A (zh) 超文本传输协议消息处理方法及其客户端***
KR102493026B1 (ko) 심리스 서비스를 제공하는 서버, 사용자 단말 및 미디어 재생 장치
KR101363164B1 (ko) 변조된 url을 사용하는 미디어 콘텐츠 공유 방법 및 장치
JP6834743B2 (ja) 更新処理プログラム、更新処理装置、及び更新処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100526

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5153516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees