WO2007029348A1

WO2007029348A1 - データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム

Info

Publication number: WO2007029348A1
Application number: PCT/JP2005/019775
Authority: WO
Inventors: Kengo Nakajima
Original assignee: Community Engine Inc.
Priority date: 2005-09-06
Filing date: 2005-10-27
Publication date: 2007-03-15
Also published as: US20120323882A1; US20090106396A1; US8700702B2; JPWO2007029348A1; US8321198B2

Abstract

　本発明は、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページから所定のデータを抽出することができる。これにより、データを抽出するまでに必要とする処理を分散させ、各装置にかかる負担を少なくすることができる。そして、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていなかった新たなデータを見つけ出すことができる。

Description

明細書

データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム

技術分野

[0001] 本発明は、ウェブ上のウェブページ力所定のデータを抽出するデータ抽出システムに関するものである。また、このデータ抽出システムに利用される端末装置及びサーバ装置に関するものであり、その端末装置のプログラム及びサーバ装置のプロダラムに関するものである。

背景技術

[0002] 従来、形態素解析によってテキストデータを解析し、数値データを名詞等の品詞と関連付けて抽出する情報抽出装置が開発されている (例えば、特許文献 1参照)。この装置は、テキストデータを 1文ずつ切り出し、数値を有する文を抽出する。そして、文中の係り受けを判断し、数値と関連する語句を抽出するものである。

[0003] 特許文献 1 :特開 2005— 149359号公報

発明の開示

[0004] し力しながら、特許文献 1に記載されて、る情報抽出装置は、得られたテキストデータの形態素解析、語句の抽出、語句の蓄積、語句の表示といった処理全てを単一の装置で行うため、装置に負担力 Sかかってしまうという問題点を有している。

[0005] また、近年のネットワーク技術の発達にともない、さまざまなウェブサイトが構築されているが、そのようなウェブサイトのウェブページを形態素解析するシステムは存在して、な力つた。特許文献 1に記載された装置のような単一の装置でウェブページを解祈しょうとすると膨大なデータ量をこなす必要があり、現実的ではない。また、ウェブ上の音声や画像を解析する場合にも、同様に単一の装置で行うのは無理である。

[0006] そこで、本発明は、上記実情に鑑み、語句をはじめとする所定のデータを抽出するまでに必要とする処理を分散させ、各装置に力かる負担を少なくすることができるデータ抽出システムを提供することを目的とする。また、このデータ抽出システムに利用される端末装置及びサーバ装置、そして、端末装置のプログラム及びサーバ装置のプログラムを提供することを目的とする。

[0007] 本発明のデータ抽出システムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムであって、複数の端末と、前記端末に接続されたサーバとを有し、前記サーバは、前記端末で抽出された前記所定のデータを蓄積するデータ蓄積手段と、抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデータである力否力を照合する照合手段とを有し、前記端末は、前記ウェブから前記ゥエブページを探索する探索手段と、前記ウェブページから前記所定のデータを抽出する抽出手段と、前記照合手段で前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記サーバから受信し、該所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする。

[0008] 本発明のデータ抽出システムによれば、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページ力も抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページ力所定のデータを抽出することができる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブべージ力従来ウェブページには形成されていなかった新たなデータを見つけ出すことがでさる。

[0009] 本発明のデータ抽出システムにおいて、前記所定のデータは、所定の形態素の品詞の組み合わせを有する語句であり、前記サーバは、前記語句を抽出するための前記形態素の品詞の組み合わせを蓄積する品詞蓄積手段を有し、前記端末は、前記探索手段で探索された前記ウェブページ中のテキストデータを形態素解析する形態素解析手段を有し、前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み合わせを予め前記サーバから受信し、前記抽出手段によって、前記サーバから受信した前記形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせ力なる語句を前記形態素解析手段で形態素解析したテキストデータから抽出し、前記サーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記語句を前記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴とする。これにより、端末でウエッブページ中のテキストデータを形態素解析し、サーバの品詞蓄積手段に蓄積されている形態素の品詞の組み合わせ力なる語句を抽出することができ、サーバの照合手段でその語句がデータ蓄積手段で蓄積されて、るか否かを判断することができる。したがって、端末とサーバとで語句抽出に係る各処理を分散させることができる。そのため、ウェブ上の膨大なデータ量のウェブページを形態素解析することも可能となる。

[0010] 本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末全てに、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信することを特徴とする。これにより、端末で抽出された新しい語句を全ての端末で共有することができる。また、 1つの端末がウェブ上にあるテキストデータをすベて見る必要がなくなり、各端末で分担して語句を抽出することができるため、端末にか力る負担をさらに少なくすることができる。

[0011] 本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段によって前記語句を抽出した前記端末に、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信し、前記語句を受信した端末は、該語句を他の端末に送信することを特徴とする。これにより、抽出された新しい語句を全ての端末で共有できる。そして、複数の端末 2間で表示する語句を送受信可能とすることで、サーバは、全ての端末に語句を送受信することがなくなる。また、語句を受信した端末 2がサーバ 3に接続されている全ての端末 2に送信することもない。すなわち、語句の送信をサーバ 3に接続さている端末 2で分散させることができ、端末 2やサーバ 3に力かる負担をより少なくすることができる。

[0012] 本発明のデータ抽出システムにおいて、前記品詞蓄積手段は、前記端末で入力された新たな形態素の品詞の組み合わせを蓄積することを特徴とする。これにより、利用者が求める形態素の品詞の組み合わせを抽出することができる。

[0013] 本発明のデータ抽出システムにおいて、前記サーバは、前記抽出手段で抽出された前記語句のうち、所定の条件を満たす語句に限って前記端末に送信することを特徴とする。これにより、所定の条件を満たす語句のみが表示され、ノイズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。 [0014] 本発明のデータ抽出システムにおいて、前記端末は、所定の条件を満たすウェブページのみを受信することを特徴とする。これにより、端末に表示される語句からノィズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。

[0015] 本発明のデータ抽出システムにおいて、前記サーバは、前記端末が要求する形態素の品詞の組み合わせを該端末に送信することを特徴とする。これにより、利用者が興味のある形態素の品詞の組み合わせ力もなる語句のみを抽出することができる。そして、利用者にとって利用しやすいシステムとなる。

[0016] 本発明のデータ抽出システムにおいて、前記端末の前記出力手段は、前記表示画面に表示された前記語句が選択されることによって、前記語句が抽出された前記ゥブページを前記ウェブ力受信し、前記ウェブページを該端末の表示画面に表示することを特徴とする。これにより、本システムで抽出された語句がどのように使用されている力を見ることができる。すなわち、利用者が表示された語句を新たな語句として利用しやすくなる。

[0017] 本発明のデータ抽出システムにおいて、前記サーバは、複数の前記端末で前記表示画面に表示された前記語句が選択された回数を集計し、該回数に基づいた表示を前記語句と関連付けて前記端末の前記表示画面に表示させるように前記端末に送信することを特徴とする。これにより、利用者がどのような語句を注目しているかを知ることができる。

[0018] 本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前記ウェブページ力画像を抽出する画像抽出手段を有し、前記サーバは、抽出された前記画像を受信し、前記画像を蓄積する画像蓄積手段を有し、前記照合手段によつて、抽出された前記画像が前記画像蓄積手段に蓄積されている力否力を照合し、前記端末は、前記照合手段で前記画像蓄積手段に蓄積されて!、な!、とされた前記画像に対応する情報を前記サーノから受信し、前記出力手段によって、該画像に対応する情報を前記表示画面に表示することを特徴とする。これにより、ウェブ上のゥェブページの画像もテキストデータ中の語句とともに同様に抽出することができる。すなわち、新規に構築されたり、更新されたりしたウェブ上のウェブページ力も従来にはゥエブページには形成されていな力つた新たな画像を見つけ出すことができる。

[0019] 本発明のデータ抽出システムにおいて、前記端末は、前記画像抽出手段で抽出された前記画像のサイズを小さくするとともに減色することによって所定バイトに圧縮する画像圧縮手段を有し、前記サーバは、前記画像圧縮手段で圧縮された前記画像を受信し、前記画像蓄積手段によって、圧縮された前記画像を蓄積し、前記照合手段によって、圧縮された前記画像のビット列に基づいて、当該画像が前記画像蓄積手段に蓄積されている画像である力否力を照合することを特徴とする。これにより、画像のサイズを小さくすることが可能となり、画像の容量が減少する。したがって、サーバの照合手段は、画像蓄積部に蓄積されている画像と端末で抽出して圧縮された画像とを早く大量に照合することができる。したがって、ウェブページ力抽出される膨大なデータ量を早く大量に処理することが可能となる。

[0020] 本発明のデータ抽出システムにおいて、前記端末は、前記探索手段で探索した前記ウェブページから音声を抽出する音声抽出手段を有し、前記サーバは、抽出された前記音声を受信し、前記音声を蓄積する音声蓄積手段を有し、前記照合手段によつて、抽出された前記音声が前記音声蓄積手段に蓄積されている力否力を照合し、前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前記音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を対応する情報を出力することを特徴とする。これにより、ウェブ上のウェブページの音声もテキストデータ中の語句とともに同様に抽出することができる。すなわち、新規に構築されたり、更新されたりしたウェブ上のウェブページ力従来にはウェブページには形成されていな力つた新たな音声を見つけ出すことができる。

[0021] 本発明のデータ抽出システムにおいて、前記端末は、前記音声抽出手段で抽出された前記音声を時間軸の方向に圧縮する音声圧縮手段を有し、前記サーバは、前記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄積手段によって、圧縮された前記音声を蓄積し、前記照合手段によって、圧縮された前記音声のビット列に基づいて、当該音声が前記音声蓄積手段に蓄積されている音声である力否かを照合することを特徴とする。これにより、音声のサイズを小さくすることが可能となり、音声の容量が減少する。したがって、サーバの照合手段は、画像蓄積部に蓄積されている音声と端末で抽出して圧縮された音声とを早く大量に照合することができる。したがって、ウェブページ力抽出される膨大なデータ量を早く大量に処理することが可能となる。

[0022] 本発明のデータ抽出システムにおいて、前記所定のデータは、画像であることを特徴とする。また、本発明のデータ抽出システムにおいて、前記所定のデータは、音声であることを特徴とする。これにより、画像と音声も語句と同様に抽出することができる

[0023] 本発明の端末装置は、ウェブ上のウェブページ力所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置であって、前記ウェブから前記ウェブページを探索する探索手段と、前記ウェブページから前記所定のデータを抽出する抽出手段と、前記抽出手段によって抽出された前記所定のデータを前記サーバに送信するデータ送信手段と、前記データ送信手段で送信した前記所定のデータが前記サーバのデータ蓄積手段に蓄積された所定のデータである力否かが照合され、前記データ蓄積手段に蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信手段と、前記データ受信手段で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする。

[0024] 本発明の端末装置によれば、ウェブページの探索と、データの抽出とを行う。すなわち、語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができる。

[0025] 本発明の端末装置のプログラムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置のプログラムであって、前記ウェブから前記ウェブページを探索する探索処理と、前記ウェブべ一ジから前記所定のデータを抽出する抽出処理と、前記抽出処理によって抽出された前記所定のデータを前記サーバに送信するデータ送信処理と、前記データ送信処理で送信した前記所定のデータが前記サーバのデータ蓄積処理によって蓄積された所定のデータであるか否かが照合され、前記データ蓄積処理によって蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信処理と、前記データ受信処理で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力処理とを有することを特徴とする。

[0026] 本発明の端末装置のプログラムによれば、端末装置でウェブページの探索と、データの抽出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができるプログラムを提供できる。

[0027] 本発明のサーバ装置は、ウェブ上のウェブページ力所定のデータを抽出するデータ抽出システムに利用されるサーバ装置であって、前記ウェブから前記ウェブべ一ジを探索し、前記所定のデータを前記ウェブページ力抽出する複数の端末と接続され、前記端末で抽出された前記所定のデータを前記端末力受信するデータ受信手段と、前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手段と、前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に蓄積されている語句である力否力を照合する照合手段と、前記照合手段によって前記データ蓄積手段に蓄積されて、な、とされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信手段とを有することを特徴とする。

[0028] 本発明のサーバ装置によれば、抽出されたデータの照合と、データの蓄積とを行う。すなわち、語句抽出に係る各処理を接続された端末とで分散させることができ、処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができる。

[0029] 本発明のサーバ装置のプログラムは、ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムに利用されるサーバ装置のプログラムであって、前記サーバ装置は、前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページ力抽出する複数の端末と接続され、当該プログラムは、前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信処理と、前記データ受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、前記データ受信処理で受信した前記所定のデータが前記データ蓄積処理によって蓄積された語句であるか否力を照合する照合処理と、前記照合処理によって前記データ蓄積処理によって蓄積されて、な、とされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信処理とを有することを特徴とする。

[0030] 本発明のサーバ装置のプログラムによれば、サーバ装置で抽出されたデータの照合と、データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサーバ装置での処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理解析ができるプログラムを提供できる。

[0031] 本発明のデータ抽出システムは、端末でウェブ上のウェブページを探索し、所定のデータをそのウェブページから抽出する。そして、抽出されたデータをサーバで照合するとともに、そのデータの蓄積を行う。すなわち、端末とサーバとでデータの抽出に係る処理を分散させてウェブ上のウェブページ力所定のデータを抽出することができる。これにより、新規に構築されたり、更新されたりしたウェブ上のウェブページから従来にはウェブページには形成されていな力つた新たなデータを見つけ出すことができる。

[0032] 本発明の端末装置は、ウェブページの探索と、データの抽出とを行う。すなわち、語句抽出に係る各処理を接続されたサーバとで分散させることができ、処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができる。

[0033] 本発明の端末装置のプログラムは、端末装置でウェブページの探索と、データの抽出といった処理を実行させ、端末装置に接続されたサーバのデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装する端末装置での処理にか力る負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができるプログラムを提供できる。

[0034] 本発明のサーバ装置は、抽出されたデータの照合と、データの蓄積とを行う。すなわち、語句抽出に係る各処理を接続された端末とで分散させることができ、処理にか力る負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができる。

[0035] 本発明のサーバ装置のプログラムは、サーバ装置で抽出されたデータの照合と、データの蓄積といった処理を実行させ、サーバ装置に接続された端末のデータ抽出に係る各処理の分散が可能となる。すなわち、このプログラムを実装するサーバ装置での処理に力かる負担が少なくなる。したがって、ウェブページの膨大なデータ量を解析することも可能となり、迅速な処理ができるプログラムを提供できる。

図面の簡単な説明

[0036] [図 1]実施の形態 1で説明するデータ抽出システムのネットワーク構成図である。

[図 2]実施の形態 1で説明するデータ抽出システムの端末の構成を示したブロック図である。

[図 3]実施の形態 1で説明するデータ抽出システムのサーバの構成を示したブロック図である。

[図 4]実施の形態 1で説明する表示画面の一例を示した図である。

[図 5]実施の形態 1で説明するデータ抽出システムのテキストデータカゝら語句を抽出するまでの処理を示したフロー図である。

[図 6]実施の形態 1で説明するデータ抽出システムのサーバの照合部で語句を照合するまでの処理を示したフロー図である。

[図 7]実施の形態 2で説明するデータ抽出システムの端末の構成を示したブロック図である。

[図 8]実施の形態 2で説明するデータ抽出システムのネットワーク構成図である。

[図 9]実施の形態 3で説明するデータ抽出システムのサーバの構成を示したブロック図である。

[図 10]実施の形態 4で説明するデータ抽出システムの端末の構成を示したブロック図である。

[図 11]実施の形態 5で説明するデータ抽出システムの端末の構成を示したブロック図である。

[図 12]実施の形態 5で説明するデータ抽出システムのサーバの構成を示したブロック図である。

[図 13]実施の形態 6で説明するデータ抽出システムの端末の構成を示したブロック図である。

[図 14]実施の形態 6で説明するデータ抽出システムのサーバの構成を示したブロック図である。

発明を実施するための最良の形態

[0037] 以下、本発明について図面を参照しながら詳細に説明する。なお、本発明においては以下の記述に限定されるものではなぐ本発明の要旨を逸脱しない範囲において適宜変更可能である。

[0038] [実施の形態 1]

本発明のデータ抽出システムの構成例として、図 1乃至図 4を用いて説明する。実施の形態 1で説明する本発明のデータ抽出システムは、図 1のように、パーソナルコンピュータ等の端末装置である端末 2が複数と、この複数の端末 2にネットワーク 1を介して接続されて、るサーバ装置であるサーバ 3と、複数の端末 2及びサーバ 3とネットワーク 1を介して接続されているウェブサーノとを有している。これらの端末 2、サーバ 3及びウェブサーノは、相互に通信可能となっている。

[0039] 図 2は、本発明のデータ抽出システムの構成を示したブロック図である。端末 2は、インターフェース 20、探索部 21、形態素解析部 22、抽出部 23、出力部 24、入力部

25とを有して!/ヽる。

[0040] インターフェース 20は、端末 2をネットワーク 1に接続している。このネットワーク 1に接続されたインターフェース 20を介して、端末 2は、語句、品詞、テキストデータ、画像、音声等の情報をサーバ 3やウェブサーバ 4と送受信する。

[0041] 探索部 21は、ネットワークに接続されたウェブサーノのウェブページを探索する探索手段であり、インターフェース 20を介して、ウェブサーバ 4からウェブページを受信する。この探索部 21は、受信したゥヱブページ中のテキストデータを形態素解析部 22に送る。また、後述するように、出力部 24によって表示画面に表示された語句を入力部 25によって選択することで、選択した語句が抽出されたテキストデータを含むウェブページをウェブサーバ 4から受信し、表示画面に表示させる。この探索部 21は、端末 2が接続されているウェブサーバ 4から自動的にウェブページを探索する。

[0042] 形態素解析部 22は、テキストデータを形態素に分解し、その形態素の品詞を解析する形態素解析を行う形態素解析手段である。形態素解析部 22は、探索部 21で受信したウェブページ中のテキストデータを、所有している辞書に基づいて形態素解析を行う。形態素解析部 22が使用する辞書は、形態素解析用の辞書であればよぐゥヱブ上から受信するものであっても、ディスク状媒体から直接端末 2に導入するものであってもよい。

[0043] 抽出部 23は、形態素解析部 22で解析した形態素の品詞を利用して、形態素が所定の品詞の糸且み合わせとなつてヽる語句を抽出する抽出手段である。この抽出部は、サーバ 3の品詞蓄積部 31から形態素の品詞の組み合わせを受信し、形態素解析部 22で形態素解析したテキストデータ力この受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせとなる語句を抽出する。抽出部 23は、抽出された語句をデータ送信手段として機能するインターフェース 20を介してサーバ 3に送信する。また抽出部 23は、抽出時に、辞書にはないような未知語を含む語句は抽出しな、と!/、うことも可能である。

[0044] 語句は、 1つ又は複数の形態素力もなるデータである。例えば、「図形認識-ユーロン」 t 、う語句は、「図形」と「認識」と「ニューロン」 t 、う 3つの形態素力も構成される。また、「画面」という語句は、「画面」という 1つの形態素力も構成される。

[0045] そして、形態素は、名詞、形容詞、助詞や動詞といった品詞によって分類される。

例えば上述の例では、「図形」、「認識」、「ニューロン」及び「画面」は全て名詞である。このように、形態素解析部 22では、搭載されている辞書に基づいてテキストデータを形態素に分解し、その形態素の品詞を解析している。また、辞書にはないものに関しては、未知の語である未知語となる。

[0046] この形態素の品詞が解析された後、抽出部 23では、 1つの語句を形成する形態素の品詞が所定の組み合わせになって!/、るか否かを判断し、所定の組み合わせになつているものを語句のデータとして抽出する。例えば、形態素の品詞の組み合わせとして 3つの名詞が並んだものを抽出するようにサーバ 3から「名詞」 +「名詞」 +「名詞」を受信した場合、上述の例である「図形認識ニューロン」が形態素解析したテキストデータに含まれていると、この「図形認識-ユーロン」が抽出される。この品詞の組み合わせは、特に限定するものではなぐ例えば、「名詞」 +「助詞の「の」」 +「名詞」といつた品詞の中で特定の文字であってもよい。また、「未知語」のみであってもよい。

[0047] 出力部 24は、サーバ 3の照合部 33で語句蓄積部 32に蓄積されていないと判断され、データ受信手段として機能するインターフェース 20を介して受信した語句を図示されていない表示画面に表示させる出力手段である。この出力部 24によって表示される語句は、新たに語句蓄積部 32に蓄積される語句である。出力部 24によって語句を表示する表示画面は、表示された語句を選択するように入力部 25によって入力すると、その語句が抽出されたテキストデータを含むウェブページを表示することができる。

[0048] 入力部 25は、出力部 24によって表示画面に表示された語句を選択することができる。また、入力部 25は、サーバ 3の品詞蓄積部 31に蓄積する形態素の品詞の組み合わせを入力することができる。また、端末 2及びサーバ 3に所定の処理を行わせるように操作することもできる。例えば、サーバ 3の品詞蓄積部 31や語句蓄積部 32に蓄積されている形態素の品詞の組み合わせや語句を端末 2の表示画面に表示させるようなコマンドを人力することちでさる。

[0049] この端末 2は、図示されていない CPU (Central Processing Unit)の制御のもとに、所定のプログラムを実行することにより、上述した探索部 21、形態素解析部 22、抽出部 23、出力部 24、入力部 25、探索条件記憶部 26をはじめとする各部材の機能を実現する。

[0050] サーバ 3は、図 3のように、インターフェース 30と、品詞蓄積部 31と、語句蓄積部 32 と、照合部 33と、回数計測部 35とを有している。

[0051] インターフェース 30は、サーバ 3をネットワークに接続して!/、る。ネットワーク 1に接続されたインターフェース 30を介して、語句、品詞、画像、音声等の情報を端末 2やウェブサーバ 4と送受信する。

[0052] 品詞蓄積部 31は、端末 2の抽出部 23で語句を抽出するために、形態素の品詞の組み合わせを蓄積する品詞蓄積手段である。この品詞蓄積部 31は、例えば、「名詞

」+「名詞」 +「名詞」といったように、品詞の組み合わせを蓄積している。品詞蓄積部 31は、品詞送信手段となるインターフェース 30を介して、蓄積している形態素の品詞の組み合わせを端末 2に送信する。この品詞蓄積部 31への形態素の品詞の組み合わせは、端末 2の入力部 25から入力されたものを蓄積することもできる。このとき、品詞の組み合わせのリストが予め形成され、そのリストに表示された形態素の品詞の組み合わせ力選択するように入力部 25から入力して、品詞蓄積部 31に蓄積してもよい。これにより、利用者が求める形態素の品詞の組み合わせを抽出することができる。

[0053] 語句蓄積部 32は、端末 2の抽出部 23で抽出された語句を蓄積するデータ蓄積手段である。この語句蓄積部 32は、抽出部 23が抽出した語句をデータ受信手段であるインターフェース 30を介して受信する。そして、語句蓄積部 32は、照合部 33で蓄積されて!、る語句の中に受信した語句がな、とされた場合、その語句を蓄積する。

[0054] また、語句蓄積部 32には、蓄積する語句が抽出されたテキストデータを含むウェブページの URL (Uniform Resource Locator)をその語句と関連付けて蓄積されている。この URLは、端末 2の出力部 24によって表示画面に表示させるために照合部 33が送信する語句とともに端末 2に送信してもよいが、端末 2の表示画面での入力部 25による選択に応じて、端末 2に送信されてもよい。

[0055] さらに、語句蓄積部 32は、回数計測部 35で計測された端末 2の入力部 25で語句が選択された回数を語句に関連付けて蓄積されている。この回数は、端末 2の表示画面に表示される語句と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。

[0056] またさらに、この語句蓄積部 32に蓄積されている語句等は、端末 2の入力部 25によって入力される操作に応じてその返答を端末 2に送信することができる。例えば、語句蓄積部 32は、蓄積されて!、る語句の履歴を見せるように端末 2の入力部 25から入力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもできる。選択された回数の多、順に語句を並べて端末 2の表示画面に表示させるようにすることちでさる。

[0057] 照合部 33は、端末 2の抽出部 23で抽出された語句を受信し、その語句が語句蓄積部 31にある力否力を照合する照合手段である。照合の結果、照合部 33が語句蓄積部 32に蓄積されていないとした場合、その語句を語句蓄積部 32に蓄積させるとともに、その語句をデータ送信手段となるインターフェース 30を介して端末 2に送信する。

[0058] 回数計測部 35は、端末 2の表示画面に表示された語句を入力部 25で選択された回数を計測する。その回数は、語句蓄積部 32に蓄積される語句と関連付けて蓄積する。この回数計測部 35は、サーバ 3に接続されている全ての端末 2で選択された回数が計測できる。この回数計測部 35は、インターフェース 30を介して計測した回数を、端末 2の表示画面に語句に関連付けて表示されるように端末 2に送信する。

[0059] このサーバ 3は、図示されていない CPUの制御のもとに、所定のプログラムを実行することにより、上述した品詞蓄積部 31、語句蓄積部 32、照合部 33、照合条件記憶部 34、回数計測部 35をはじめとする各部材の機能を実現する。

[0060] ウェブサーバ 4は、図 1のように、インターフェースを有し、ネットワーク 1を介して端末 2及びサーバ 3と接続され、ウェブページ等の情報を送受信することができる。そして、ウェブサーバ 4は、テキストデータ、画像、音声等を含むウェブページが記憶され、探索部 21がこのウェブページを探索し、端末 2がこのウェブページを受信する。

[0061] このように構成されるデータ抽出システムの動作にっヽて図 4乃至図 6を用いて説明する。まず、端末 2による語句の抽出について説明する。これは、端末 2が 1つのテキストデータの受信毎に行われるものであり、テキストデータを受信するたびに繰り返される。

[0062] まず、端末 2の探索部 21がウェブページを探索する。そして、探索の結果、探索部

21は、テキストデータを含むウェブページを受信する。

[0063] テキストデータを含むウェブページを受信すると、図 4のような処理が行われる。端末 2の形態素解析部 22は、ステップ S41のように受信したウェブページのテキストデータを形態素解析する。この形態素解析によってテキストデータ中の形態素の品詞を解析する。

[0064] そして、抽出部 23は、テキストデータ力所定の形態素の品詞の組み合わせとなる語句を抽出するために、ステップ S42のように、サーバ 3の品詞蓄積部 31から蓄積されて、る形態素の品詞の組み合わせを受信する。 [0065] 抽出部 23は、ステップ S43のように、サーバ 3の品詞蓄積部 31から受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせ力なる語句が受信したテキストデータにある力否かを確認する。抽出部 23は、その結果、一致する形態素の品詞の組み合わせ力なる語句がない場合、この処理を終了する。

[0066] ステップ S43において、一致する形態素の品詞の組み合わせ力もなる語句がある場合、抽出部 23は、ステップ S44のように、該当する語句を抽出する。このとき、抽出部 23は、その語句が抽出されたテキストデータを含むウェブページの受信先である URLを抽出した語句に関連付ける。

[0067] そして、抽出部 23は、インターフェース 20を介して、ステップ S45のように、抽出する語句をサーバ 3に送信する。そして、抽出部 23は、ステップ S46のように、形態素解析されたテキストデータの中に、サーノ 3の品詞蓄積部 31から受信した形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせからなる他の語句があるか否かを確認する。

[0068] ステップ S46において、一致する形態素の品詞の組み合わせ力もなる他の語句がある場合、抽出部 23は、ステップ S44に移行し、形態素解析されたテキストデータから語句が抽出できなくなるまで繰り返す。一方、ステップ S46において、一致する形態素解析の品詞の組み合わせ力もなる他の語句がな、場合、この処理を終了する。このとき、抽出部 23は、語句とともに、その語句に関連付けられた URLをサーバ 3に送信する。

[0069] このようにして、探索部 21が自動的に探索し、ウェブサーバ 4から受信したテキストデータを含むウェブページ力所定の形態素の品詞の組み合わせ力なる語句を抽出することができる。

[0070] 次に、端末 2の抽出部 23で抽出された語句の照合、及び、サーバ 3に接続されている端末 2への送信について説明する。これは、サーバ 3が 1つの語句を受信することで行われるものであり、語句の受信毎に繰り返される。

[0071] まず、サーバ 3は、ステップ S51のように、送信された語句を照合部 33に送る。そして、照合部 33は、ステップ S52のように、受信した語句が語句蓄積部 32にあるか否力を照合する。その結果、受信した語句が語句蓄積部 32にある場合、照合部 33は、ステップ S53のように、照合した語句を消去し、この処理を終了する。

[0072] ステップ S52において、受信した語句が語句蓄積部 32にない場合、照合部 33は、ステップ S54のように、照合した語句を語句蓄積部 32に蓄積させる。このとき、照合部 33は、語句と関連付けられ、端末 2から受信したその語句が抽出されたテキストデータを含むウェブページの URLも蓄積させる。

[0073] そして、照合部 33は、ステップ S55のように、インターフェース 30を介して、照合した語句を端末 2の出力部 24によって表示画面に表示させるように接続されている全ての端末 2に送信させる。

[0074] 図 6は、受信した語句を表示する表示画面の一例を示す図である。サーバ 3からィンターフェース 30を介して語句を受信した端末 2は、その語句を出力部 24によって表示画面上の表示領域 240に表示させる。このとき、出力部 24は、受信した順に上力も語句が並ぶように、語句表示欄 242に表示する。このように、語句蓄積部 32に蓄積されていない語句が端末 2の出力部 24に表示されることになる。すなわち、新しい語句が表示されることになる。表示する語句が多くなつた場合、語句表示欄 242の側端部分にスクロールバー等を設け、語句表示欄 242をスクロールさせるように語句を表示させてもよい。また、新しい語句が表示されるたびに、上力も順に語句を消去するようにしてちょい。

[0075] この語句表示欄 242に表示された語句は、入力部 25によって選択することができる。出力部 24は、入力部 25で語句が選択されるように入力された情報を探索部 21に送る。そして、探索部 21は、インターフェース 20を介してサーノ 3の語句蓄積部 32に選択された語句と関連付けて蓄積されている語句が抽出されたテキストデータを含むウェブページの URLを受信する。そして、探索部 21は、受信した URLに基づいてウェブサーバ 4を探索し、該当する URLのウェブページを受信する。受信したウェブページは、出力部 24に送られ、新たな画面で表示される。これにより、本システムで抽出された語句がどのように使用されているかを見ることができる。すなわち、利用者が表示された語句を新たな語句として利用しやすくなる。

[0076] 入力部 25によって語句を選択した場合、語句が選択された情報は、サーバ 3に送信される。サーバ 3には複数の端末 2が接続されており、回数計測部 35は、各端末 2 力受信した語句の選択の情報に基づ、て、全体での語句の選択回数を計測する。そして、回数計測部 35は、その語句に関連付けて選択された回数を語句蓄積部 32 に随時蓄積させる。

[0077] また、語句が選択された回数は、語句と関連付けられ、インターフェース 30を介して端末 2に送信される。送信された回数は、出力部 24に渡され、関連付けられた語句に対応するように表示画面に表示される。例えば、図 5のように、関連付けられた語句の横に、例えば星印を付して語句が選択された回数を表示させる。また、回数を数字で記載してもよい。さらには、数字や印で直接回数での表示でなくても、例えば、回数に基づいて選択された頻度を例えばゲージの長さや星の数で示すような印を表示させてもよい。これにより、利用者がどのような語句を注目しているかを知ることができる。

[0078] さらに、サーバ 3の品詞蓄積部 31から端末 2の抽出部 23に送信される形態素の品詞の組み合わせは、端末 2を利用する利用者が要求する形態素の品詞の組み合わせであってもよい。すなわち、端末 2を利用する利用者が、サーバ 3の品詞蓄積部 31 に蓄積されている形態素の品詞の組み合わせの中から入力部 25を介して所望する形態素の品詞の組み合わせを要求する。そして、サーバ 3は、端末 2が要求する形態素の品詞の組み合わせを端末 2に送信する。この場合、端末 2に送信される語句は、形態素の品詞の組み合わせを要求した端末 2のみに送信されるほうがより好ましい。これにより、利用者が興味のある形態素の品詞の組み合わせ力なる語句のみを抽出することができる。そして、利用者にとって利用しやすいシステムとなる。

[0079] このように、本発明のデータ抽出システムは、端末 2とサーバ 3とでデータとして語句の抽出に係る各処理を分散させることができる。そして、各装置に力かる負担を少なくすることができる。例えば、サーバ 3に接続する端末 2が多くなつても、サーバ 3にか力る負担は少ない。

[0080] このサーバ 3には端末 2の探索部 21が備えられていてもよい。この場合、端末 2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブべージを探索するという処理を端末 2とサーバ 3とでさらに分散させることができる。探索されたウェブページは、インターフェース 30を介して端末 2に送信されてもよいが、サーバ 3に形態素解析部 22及び抽出部 23を備え、サーバ 3が探索したウェブページ力も語句を抽出しても良い。この場合の形態素解析部 22及び抽出部 23は、上述した端末 2に備えられているものと略同じである。サーバ 3の探索部 21で探索されたゥエブページは、端末 2と同様に、サーバ 3の形態素解析部 22で形態素解析される。そして、同じサーバ 3内にある品詞蓄積部 31に蓄積されている形態素の品詞の組み合わせを受け取り、サーバ 3の抽出部 23が端末 2の抽出部 23と同様にこの形態素の品詞の組み合わせに基づいて語句を抽出する。抽出された語句は、サーバ 3の照合部 33に送られ、照合される。これにより、サーバ 3でも、端末 2と同様に語句を抽出することがでさる。

[0081] また、実施の形態 1で説明したように、端末 2で抽出した語句をサーノ 3で照合し、その結果をサーバ 3に接続されている端末 2に送信することで、端末 2で抽出された新しい語句を全ての端末 2で共有することができる。この場合、 1つの端末 2がウェブサーバ 4にあるテキストデータをウェブページをすベて見る必要がなくなり、各端末 2 で分担して語句を抽出することができるため、端末 2にかかる負担をさらに少なくすることができる。

[0082] [実施の形態 2]

実施の形態 2で説明するデータ抽出システムは、各端末 2にサーバ 3で照合した語句を、各端末 2同士で送受信することができる送受信部 29を備えた端末 2を使用するシステムであり、このデータ抽出システムについて、図 3乃至図 8を利用して説明する。なお、実施の形態 1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。

[0083] 送受信部 29は、図 7のように、インターフェース 20を介して受信した語句が出力部 24に送られるときに、インターフェース 20を介してその語句を受け取る。そして、送受信部 29は、受け取った語句をサーバ 3に接続されている他の端末 2の出力部 24によつて表示画面に表示させるように送信する。

[0084] この送受信部 29を有する端末 2をサーバ 3に複数接続させることで、実施の形態 2 で説明するデータ抽出システムが構築される。図 8のように、実施の形態 2で説明するデータ抽出システムは、サーバ 3に送受信部 29を備えた端末 2a、 2bが接続されている。

[0085] 実施の形態 1で説明したように、端末 2aが抽出した語句をサーバ 3で照合する。そして、サーバ 3は、語句蓄積部 32にない語句であるとされた場合、その語句の抽出を行った端末 2aのみに送信する。

[0086] インターフェース 20を介して受信した語句は、出力部 24と送受信部 29とに送られる。その語句は、出力部 24によって表示画面に表示されるとともに、送受信部 29から再びインターフェース 20を介してサーバ 3に接続されている他の端末 2bの出力部 24 によって表示画面に表示させるように送信される。

[0087] 端末 2aから受信した語句は、端末 2bの出力部 24に送られ、端末 2bの表示画面に表示される。このとき、サーバ 3に接続されている端末 2a及び端末 2b以外の端末のうち、語句が送信されていない端末がある場合、端末 2bは、受信した語句をその端末 2に送信するために、送受信部 29に送り、上述と同様に各端末 2に送信する。このとき、語句蓄積部 32に、語句に関連付けて蓄積される語句が選択された回数も同様に、各端末 2に送信される。このように、語句や語句が選択された回数等を各端末 2間で共有するように、例えば端末 2同士をピアツーピア接続してもよい。例えば、端末 2 bは、ピアツーピア接続して、る他の端末 2が語句を受信して、な、ことを認識した場合、その端末 2との通信路を確立し語句を送信する。これにより、ピアツーピア接続された端末 2同士で語句や語句が選択された回数等の情報を共有することができる。

[0088] このように、抽出された新、語句を全ての端末で共有できる。そして、複数の端末 2間で表示する語句を送受信可能とすることで、サーバ 3は、全ての端末 2に語句を送受信することがなくなる。また、語句を受信した端末 2がサーバ 3に接続されている全ての端末 2に送信することもない。すなわち、語句をサーバ 3に接続さている端末 2 で分散させることができ、端末 2やサーバ 3にかかる負担をより少なくすることができる。また、端末 2やサーバ 3での処理が軽減されるため、語句の送受信を高速化することちでさる。

[0089] [実施の形態 3]

実施の形態 3で説明するデータ抽出システムは、サーバ 3が所定の条件を満たす語句に限って端末 2に送信するものである。すなわち、図 9のように、実施の形態 1で説明したサーバ 3に照合条件記憶部 34を備えたものである。

[0090] 照合条件記憶部 34は、照合部 33が語句を照合する条件を記憶して、る。照合条件記憶部 34は、語句の照合毎に記憶した照合条件を照合部 33に送る。照合条件を受け取った照合部 34は、この照合条件に基づいて語句の照合を行う。また、この照合条件は、端末 2の入力部 25による入力で適宜変更することができる。

[0091] 照合条件記憶部 34に記憶される照合条件としては、各端末で抽出された語句が所定の回数以上送信された場合、その語句を端末 2に送信するといつた例が挙げられる。この場合、語句蓄積部 32には、語句とともに、語句に関連付けてサーバ 3に送信された回数も蓄積させる。そして、照合部 33は、語句蓄積部 32に送信されてきた語句があるか否かではなぐサーバ 3に何回送信されてきた力を照合し、所定の回数以上となった語句のみを端末 2の出力部 24によって表示画面に表示させるように送信する。

[0092] 例えば、「図形認識-ユーロン」を誤って「図形認識-ョーロン」と記載された語句を有するテキストデータがあった場合、誤って記載された「図形認識-ョーロン」が「図形認識-ユーロン」と区別され判断されてしまう。実際には、正しい記載の「図形認識ニューロン」の方が多く使用され、誤った記載の「図形認識ニョーロン」は、使用される回数が限られている。ここで、所定の回数以上サーバ 3に送信された語句に限って端末 2に送信することで、このような誤った記載の「図形認識ニョーロン」が端末 2の表示画面に表示されなくなる。すなわち、所定の条件を満たす語句のみが表示され、ノィズである誤った記載の語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。

[0093] このとき、語句蓄積部 32には、蓄積される語句に関連づけて蓄積されるテキストデータを含むウェブページの URLを利用して、同じ URLを有するテキストデータ力抽出された語句は送信されてきた回数を加算されないようにすることもできる。これにより、同じテキストデータ力語句が抽出されることがなぐより的確な語句抽出が可能となる。

[0094] [実施の形態 4]

実施の形態 4で説明するデータ抽出システムは、端末 2が所定の条件を満たすテキストデータに限って受信するものである。すなわち、図 10のように、実施の形態 1で説明した端末 2に探索条件記憶部 26を備えたものである。

[0095] 探索条件記憶部 26は、探索部 21によるテキストデータを含むウェブページの探索の条件を記憶している。探索条件記憶部 26は、探索部 21がウェブサーバ 4の探索を行う前に探索条件を探索部 21に送る。探索条件を受け取った探索部 21は、探索条件に基づいてテキストデータを含むウェブページの探索を行う。また、この探索条件は、端末 2の入力部 25による入力で適宜変更することができる。

[0096] 探索条件記憶部 26に記憶される探索条件としては、所定の URLを有するウェブべージは受信しないといった例が挙げられる。この場合、探索条件記憶部 26には、所定の URLが記憶されており、この探索条件とともにこの URLが探索部 21に送られる。そして、探索部 21は、受け取った探索条件と所定の URLに基づいてウェブページの探索を行う。このとき、探索部 21は、ウェブサーバ 4のウェブページの URLと探索条件記憶部 26から受け取った URLとを比較しながらテキストデータを含むウェブべージを探索する。

[0097] そして、探索部 21がこの探索条件に基づいてウェブページを探索することで、探索部 21は、ウェブサーノのウェブページの URLと探索条件記憶部 26から受け取った URLとが一致しないウェブページのみを受信し、一致するウェブページは、受信しなくなる。すなわち、ウェブサーノのウェブページの URLと探索条件記憶部 26から受け取った URLとが一致するウェブページを排除することができる。

[0098] 端末 2の出力部 24によって表示画面に表示される語句を無意味な語句や文字列で溢れさせる等といった目的のために、一般に利用されない語句や文字列を単に並ベただけの悪意あるウェブページが存在することも考えられる。例えば「図形認識- ユーロン」と、つた語句に似せて、「図形認識-ョーロン」や「図形認識-ヤーロン」等といった無意味な語句を並べて形成されたテキストデータを含むウェブページがゥェブサーバ 4に作成される可能性がある。このようなウェブページを受信すると、このような無意味な語句まで抽出され、出力部 24によって表示画面に表示される。そして、この語句を入力部 25で選択しても、無意味な語句が単に並んだウェブページを出力部 24によって表示画面に表示することになり、語句の意味や活用方法などを知ることができない。このような場合、受信するウェブページの URLを記憶させ、その URLと一致する URLを有するウェブページは受信しな、ようにすることで、上述のような悪意あるウェブページがあっても、無意味な語句を表示させることがない。また、無意味な語句を表示させることがないため、その無意味な語句を入力部 25で選択することもなくなり、無意味な語句が単に並ぶウェブページを表示画面に表示させることもなくなる。すなわち、端末 2の出力部 24によって表示画面に表示される語句力ノイズとなる語句を表示させ難くすることができる。したがって、より的確な語句抽出が可能となる。なお、所定の URLを有するウェブページのみを受信することも可能である。

[0099] また、別の探索条件として、サーバ 3の語句蓄積部 32に蓄積された語句と関連付けて蓄積される語句が抽出されたテキストデータを含むウェブページの URLを利用することもできる。この場合、上述のように、語句蓄積部 32に蓄積された URLと一致する URLを有するウェブページを受信しないようにすることもできる。これにより、各端末 2で重複して語句を抽出することが避けられ、端末 2にかかる負担をより少なくすることができる。

[0100] またさらに、語句蓄積部 32に蓄積された語句と関連付けて蓄積される語句が抽出されたテキストデータを含むウェブページの URLを利用して、語句蓄積部 32に蓄積される URLのウェブページの更新状況を監視し、更新されたウェブページのみを受信することも可能である。これにより、更新されたウェブページを効率的に受信することができ、端末 2にかかる負担をより少なくすることができる。

[0101] また、ウェブサーノは、ウェブページの更新時に、例えばビング (ping)等を利用して、その更新した旨の通知を所定のサーバ等に発信させることができる。これを利用し、サーバ 3は、ビング等を利用して通知される更新の情報を取得できるようにするようにしてもよい。そして、この通知を受信した端末 2の探索部 21がウェブページの探索を行ってもよい。これにより、ウェブページの更新の情報が低コストで即座に把握できる。また、例えば所定の時間毎にビング等でウェブページの更新した旨の通知を提供するサーバ等からその通知を取り出すようにしてもょ、。

[0102] 実施の形態 1乃至実施の形態 4で説明したように、データ抽出システムによって、円滑に語句を抽出することができる。実施の形態 1乃至実施の形態 4で説明したデータ抽出システムは、それぞれ独立したものに限られず、例えば、実施の形態 1と実施の形態 4とを組み合わせる、実施の形態 2と実施の形態 3とを組み合わせるように適宜組み合わせることも可能である。

[0103] 本発明のデータ抽出システムにおいて、端末 2の形態素解析部 22は、探索部 21 で探索されたウェブページのみを形態素解析するに限られない。例えば、形態素解析部 22を有する端末 2の入力部 25から入力されたテキストデータを形態素解析することも可能である。これにより、例えば、端末 2の入力部 25を介して、サーバ 3の品詞蓄積部 31に入力する際に、語句の品詞がわ力もない場合であっても、端末 2の形態素解析部 22を利用して、利用者がある語句を入力して形態素解析することで、この語句の形態素の品詞の組み合わせを知ることができる。そして、この形態素の品詞の組み合わせを品詞蓄積部 31に蓄積させようとすることも可能である。これにより、より便利になる。

[0104] また、本発明のデータ抽出システムにおいて、ウェブサーバ 4からウェブサーバ 4のウェブページの閲覧回数を取得し、この閲覧回数に基づいて受信するウェブページの優先順位を決めることも可能である。

[0105] さらに、サーバ 3の語句蓄積部 32には、蓄積される語句に関連付けて、語句を照合部 33で照合した日時も蓄積することができる。これにより、例えば、入力部 25での入力によって、語句蓄積部 32に蓄積された語句を時間軸に沿って並べることができる。すなわち、語句の出現時刻を時間軸で表した表を形成することも可能である。

[0106] [実施の形態 5]

本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出するためだけのものではない。例えば、データとして画像も実施の形態 1乃至 4に説明したのと同様に抽出することもできる。実施の形態 5で説明する画像を抽出するデータ抽出システムについて図面を参照しながら説明する。

[0107] 実施の形態 5で説明するデータ抽出システムは、実施の形態 1と同様に端末 2とサーバ 3とを有している。端末 2には、図 11のように、実施の形態 1の抽出部 23の代わりに、画像を抽出する抽出手段として画像抽出部 50と、画像抽出部 50によって抽出した画像を圧縮する画像圧縮手段として画像圧縮部 52を備えている。そして、サーバ 3には、図 12のように、実施の形態 1の語句蓄積部 32の代わりに、画像を蓄積するデータ蓄積手段として画像蓄積部 51を備えたものである。なお、実施の形態 1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。

[0108] 画像抽出部 50は、探索部 21で探索したウェブサーバ 4中のウェブページ力も画像のデータを抽出する。この画像抽出部 50は、抽出された語句をデータ送信手段として機能するインターフェース 20を介してサーバ 3に送信する際に、画像を圧縮するために画像圧縮部 52に画像を渡す。このとき、抽出する画像は、静止画及び動画であつてもよく、ウェブページ中に画像として表示されるものであればどのような拡張子を有するファイルであってもよ、。

[0109] 画像圧縮部 52は、画像を所定のノ《イトに圧縮する。この画像圧縮部 52は、例えば図 13のような画像を画像抽出部 50から受け取ると、その画像の大きさを例えば 8 X 8 ピクセルまで縮小する。そして、その画像を例えば 256色に減色する。これにより、 1 ピクセル力ビットの 256階調となり、 8 X 8ピクセルの画像は 64バイトとなる。このように画像圧縮部 52は、画像抽出部 50から受け取った画像を所定のサイズに小さくするとともに減色することによって所定のバイトに圧縮する。これにより、画像のバイト数が減少する。したがって、サーバ 3に送信する際にネットワーク 1にかかる負担が軽減される。このように画像を圧縮した画像圧縮部 52は、インターフェース 20を介して圧縮した画像をサーバ 3に送信する。この画像圧縮部 52は、下記で説明するサーバ 3 の照合部 33での画像の照合で圧縮した画像を使用しな、場合は、備えられて、なくてもよい。その場合、画像抽出部 50で抽出された画像は、そのままインターフェース 20を介してサーバ 3に送信される。

[0110] 画像蓄積部 51は、端末 2の画像抽出部 50で抽出され、画像圧縮部 52で圧縮された画像を蓄積する。さら〖こ、画像蓄積部 51は、照合部 33で形成されたその画像に対応する文字や画像等の情報を、その画像と対応させて蓄積する。この画像蓄積部 51 は、インターフェース 30を介して画像圧縮部 52で圧縮された画像を受信する。そして、画像蓄積部 51は、照合部 33で蓄積されている画像の中に受信した画像が無いとされた場合、その画像を蓄積する。このとき、画像圧縮部 52で圧縮される前の容量の大きい画像を端末 2から受信し、圧縮した画像に対応させるように画像蓄積部 51 に蓄積してもよい。

[0111] また、画像蓄積部 51には、蓄積する画像が抽出されたウェブページの URLをその画像と関連付けて蓄積されている。この URLは、端末 2の出力部 24によって表示画面に表示させるために、照合部 33が送信する画像に対応する情報とともに端末 2〖こ送信してもよいが、表示画面に表示された画像に対応する情報を入力部 25によって選択することで、端末 2に送信されてもよい。

[0112] さらに、画像蓄積部 51は、回数計測部 35で計測された端末 2の入力部 25で画像が選択された回数を画像に関連付けて蓄積されている。この回数は、端末 2の表示画面に表示される画像に対応する情報と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。

[0113] またさらに、この画像蓄積部 51に蓄積されている画像等は、端末 2の入力部 25によって入力される操作に応じてその返答を端末 2に送信することができる。例えば、画像蓄積部 51は、蓄積されて!、る画像の履歴を見せるように端末 2の入力部 25から入力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもできる。選択された回数の多、順に画像に対応する情報を並べて端末 2の表示画面に表示させるよう〖こすることちでさる。

[0114] このように構成される実施の形態 5で説明するデータ抽出システムは、まず、端末 2 の探索部 21がウェブページを探索し、画像を含むウェブページを受信する。

[0115] 端末 2は、画像を含むウェブページを受信すると、そのウェブページを画像抽出部 50に渡し、ウェブページ中の画像が抽出される。このとき、実施の形態 1と同様に、画像抽出部 50は、その画像が抽出されたウェブページの受信先である URLを抽出した画像に関連付ける。画像抽出部 51は、抽出した画像を画像圧縮部 52に渡し、画像を所定のバイトに圧縮する。そして、画像圧縮部 52は、インターフェース 20を介して圧縮した画像をサーバ 3に送信する。このとき、画像抽出部 50は、画像とともに、その画像に関連付けられた URLをサーバ 3に送信する。ウェブページ中に画像が複数ある場合、これを繰り返す。そして探索部 21は、ウェブページ中に抽出する画像が存在しなくなった場合、新たなウェブページをウェブサーバ 4から探索する。 [0116] サーバ 3は、接続されている端末 2から画像圧縮部 52で圧縮された画像を受信すると、実施の形態 1の語句と同様に処理する。サーバ 3は、受信した画像を照合部 33 に送る。そして、照合部は、受信した画像が画像蓄積部 51にあるか否かを照合する

[0117] 画像蓄積部 51に蓄積されている画像は、端末 2の画像圧縮部 52で所定のバイトに圧縮された画像である。また、照合部 33に送られてきた画像も、所定の端末 2の画像圧縮部 52で所定のバイトに圧縮された画像である。例えば、 256色の 8 X 8ピクセルに圧縮されている場合、照合部は、 1ピクセル毎の色を比較し、照合部 33に送られてきた画像と画像蓄積部 51に蓄積されて、る画像とを照合する。この照合部 33での照合の方法は、特に限定されるものではなぐ圧縮の方法や圧縮率などにより適宜変更することができる。

[0118] 照合部 33での照合の結果、サーノ 3が受信した画像が画像蓄積部 51にある場合、照合部 33は、照合した画像を消去する。一方、サーバ 3が受信した画像が画像蓄積部 51にない場合、照合部 33は、照合した画像に対応する文字や画像などの情報を形成し、照合した画像とともに画像蓄積部 51に蓄積させる。このとき、照合部 33は、画像と関連付けられ、端末 2から受信したその画像が抽出されたウェブページの U も蓄積させる。

[0119] そして、照合部 33は、インターフェース 30を介して、照合した画像に対応する情報を端末 2の出力部 24によって表示画面に表示させるように接続されている全ての端末 2に送信させる。

[0120] この表示画面に表示される画像に対応する情報を入力部 25で選択するように入力することで、端末 2は、表示画面に表示された情報に対応する画像の URLをサーバ 3の画像蓄積部 51から受信する。そして、探索部 21は、受信した URLを基にウェブページを探索する。このとき、探索部 21は、実施の形態 1で抽出した語句を有するゥエブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ゥエブページ中の画像を受信し、出力部 24によってその画像を表示画面に表示させてちょい。

[0121] このように、実施の形態 5で説明したデータ抽出システムは、データとして実施の形態 1の語句に代わって画像を抽出することができる。これにより、例えば新規に構築されたり、更新されたりしたウェブ上のウェブページ力従来には、ウェブページには無力つた新たな画像を見つけ出すことができる。

[0122] また、抽出される画像を圧縮することで、画像の容量が小さくなり、サーバ 3の照合部 33は、画像蓄積部 51に蓄積されている画像と端末で抽出して圧縮された画像とを早く大量に照合することができる。したがって、ウェブページ力抽出される膨大なデータ量を早く大量に処理することが可能となる。

[0123] 照合部 33で形成される画像に対応する情報は、特に限定するものではなぐ端末 2 の表示画面に出力部 24によって表示するように出力されるものであればどのようなものであってもよい。例えば、圧縮された画像のファイル名や圧縮された画像に関連付けて蓄積されて、る URLの一部等であってもよぐ照合部 33で照合した圧縮された画像をそのまま表示させてもょ、。

[0124] 画像蓄積部 51を有するサーバ 3には、実施の形態 1と同様に、端末 2の探索部 21 が備えられていてもよい。この場合、端末 2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブページを探索するという処理を端末 2とサーバ 3とでさらに分散させることができる。探索されたウェブページは、インターフエ一ス 30を介して端末 2に送信されてもよいが、サーバ 3に抽出部 23を備え、サーバ 3内が探索したウェブページ力端末 2の抽出部 23と同様に画像を抽出しても良い。

[0125] 実施の形態 5で説明したデータ抽出システムは、実施の形態 1乃至 4と組み合わせ、語句と画像との両方を抽出するものであってもよい。この場合、実施の形態 1乃至 4 で説明したデータ抽出システムに、画像抽出部 50、画像圧縮部 52、画像蓄積部 51 を新たに、備え付け、上述のように画像の抽出も行えるようにすることで、ウェブべ一ジ中の語句及び画像を抽出することができる。

[0126] [実施の形態 6]

本発明のデータ抽出システムは、上述のようにウェブページの語句のみを抽出するためだけのものではない。例えば、データとして音声も実施の形態 1乃至 4に説明したのと同様に抽出することもできる。実施の形態 6で説明する音声を抽出するデータ抽出システムについて図面を参照しながら説明する。 [0127] 実施の形態 6で説明するデータ抽出システムは、実施の形態 1と同様に端末 2とサーバ 3とを有している。端末 2には、図 13のように、実施の形態 1の抽出部 23の代わりに、音声を抽出する抽出手段として音声抽出部 60と、音声抽出部 60によって抽出した音声を圧縮する音声圧縮手段として音声圧縮部 62を備えている。そして、サーバ 3には、図 14のように、実施の形態 1の語句蓄積部 32の代わりに、音声を蓄積するデータ蓄積手段として音声蓄積部 61を備えたものである。なお、実施の形態 1で説明したデータ抽出システムと重複するものについては同じ番号を付して説明を省略する。

[0128] 音声抽出部 60は、探索部 21で探索したウェブサーバ 4中のウェブページ力も音声のデータを抽出する。この音声抽出部 60は、抽出された語句をデータ送信手段として機能するインターフェース 20を介してサーバ 3に送信する際に、音声を圧縮するために音声圧縮部 62に音声を渡す。このとき、抽出する音声は、ウェブページ中に音声として表示されるものであればどのような拡張子を有するファイルであってもよい。

[0129] 音声圧縮部 62は、音声を所定のバイトに圧縮する。この音声圧縮部 62は、例えば音声を音声抽出部 60から受け取ると、その音声を例えば音声ファイルに含まれるサンプリング情報を間引くようにサンプリングし、時間方向に圧縮することで、 64サンプル程度に圧縮する。これにより、照合部 33で比較するビット列が少なくなり、サーバ 3 に送信する際にネットワーク 1にかかる負担が軽減される。このように音声を圧縮した音声圧縮部 62は、インターフェース 20を介して圧縮した音声をサーバ 3に送信する。この音声圧縮部 62は、下記で説明するサーバ 3の照合部 33での音声の照合で圧縮した音声を使用しない場合は、備えられていなくてもよい。その場合、音声抽出部 60で抽出された音声は、そのままインターフェース 20を介してサーバ 3に送信される

[0130] 音声蓄積部 61は、端末 2の音声抽出部 60で抽出され、音声圧縮部 62で圧縮された音声を蓄積する。さらに、音声蓄積部 61は、照合部 33で形成されたその音声に対応する文字や画像等の情報を、その音声と対応させて蓄積する。この音声蓄積部 61 は、インターフェース 30を介して音声圧縮部 62で圧縮された音声を受信する。そして、音声蓄積部 61は、照合部 33で蓄積されている音声の中に受信した音声が無いとされた場合、その音声を蓄積する。このとき、音声圧縮部 62で圧縮される前の容量の大きい音声を端末 2から受信し、圧縮した音声に対応させるように音声蓄積部 61 に蓄積してもよい。

[0131] また、音声蓄積部 61には、蓄積する音声が抽出されたウェブページの URLをその音声と関連付けて蓄積されている。この URLは、端末 2の出力部 24によって表示画面に表示させるために、照合部 33が送信する音声に対応する情報とともに端末 2に送信してもよいが、表示画面に表示された音声に対応する情報を入力部 25によって選択することで、端末 2に送信されてもよい。

[0132] さらに、音声蓄積部 61は、回数計測部 35で計測された端末 2の入力部 25で音声が選択された回数を音声に関連付けて蓄積されている。この回数は、端末 2の表示画面に表示される音声に対応する情報と関連付けて表示させるために、回数計測部 35によって端末 2に送信される。

[0133] またさらに、この音声蓄積部 61に蓄積されている音声等は、端末 2の入力部 25によって入力される操作に応じてその返答を端末 2に送信することができる。例えば、音声蓄積部 61は、蓄積されて!、る音声の履歴を見せるように端末 2の入力部 25から入力された場合、その履歴を端末 2に送信し、端末 2の表示画面に表示させることもできる。選択された回数の多い順に音声に対応する情報を並べて端末 2の表示画面に表示させるよう〖こすることちでさる。

[0134] このように構成される実施の形態 5で説明するデータ抽出システムは、まず、端末 2 の探索部 21がウェブページを探索し、音声を含むウェブページを受信する。

[0135] 端末 2は、音声を含むウェブページを受信すると、そのウェブページを音声抽出部 60に渡し、ウェブページ中の音声が抽出される。このとき、実施の形態 1と同様に、音声抽出部 60は、その音声が抽出されたウェブページの受信先である URLを抽出した音声に関連付ける。音声抽出部 61は、抽出した音声を音声圧縮部 62に渡し、音声を圧縮する。そして、音声圧縮部 62は、インターフェース 20を介して圧縮した音声をサーバ 3に送信する。このとき、音声抽出部 60は、音声とともに、その音声に関連付けられた URLをサーバ 3に送信する。ウェブページ中に音声が複数ある場合、これを繰り返す。そして探索部 21は、ウェブページ中に抽出する音声が存在しなくなつた場合、新たなウェブページをウェブサーバ 4から探索する。

[0136] サーバ 3は、接続されている端末 2から音声圧縮部 62で圧縮された音声を受信すると、実施の形態 1の語句と同様に処理する。サーバ 3は、受信した音声を照合部 33 に送る。そして、照合部は、受信した音声が音声蓄積部 51にある力否力を照合する

[0137] 音声蓄積部 61に蓄積されている音声は、端末 2の音声圧縮部 62で圧縮された音声である。また、照合部 33に送られてきた音声も、所定の端末 2の音声圧縮部 62で圧縮された音声である。例えば、 64サンプル程度にまで音声が圧縮されている場合、その圧縮によってできるビット列を比較し、照合部 33に送られてきた音声と音声蓄積部 61に蓄積されている音声とを照合する。この照合部 33での照合の方法は、特に限定するものではなぐ圧縮の方法などにより適宜変更することができる。

[0138] 照合部 33での照合の結果、サーバ 3が受信した音声が音声蓄積部 61にある場合、照合部 33は、照合した音声を消去する。一方、サーバ 3が受信した音声が音声蓄積部 61にない場合、照合部 33は、照合した音声に対応する文字や画像等の情報を形成し、照合した音声とともに音声蓄積部 61に蓄積させる。また、照合部 33は、音声と関連付けられ、端末 2から受信したその音声が抽出されたウェブページの URLも蓄積させる。

[0139] そして、照合部 33は、インターフェース 30を介して、照合した音声に対応する情報を端末 2の出力部 24によって表示画面に表示させるように接続されている全ての端末 2に送信させる。

[0140] 照合部 33で照合した音声とこの音声に対応する情報を受信した端末は、音声に対応する情報を出力部 24に渡す。音声に対応する情報を受け取った出力部 24は、その情報を表示画面に表示させる。これにより、データとして実施の形態 1の語句に代わって音声を抽出することができる。これにより、例えば新規に構築されたり、更新されたりしたウェブ上のウェブページから従来には、ウェブページには無かった新たな音声を見つけ出すことができる。

[0141] この表示画面に表示される音声に対応する情報を入力部 25で選択するように入力することで、端末 2は、表示画面に表示された情報に対応する音声の URLをサーバ 3の音声蓄積部 61から受信する。そして、探索部 21は、受信した URLを基にウェブページを探索する。このとき、探索部 21は、実施の形態 1で抽出した語句を有するゥエブページを表示させたように、単にウェブページを表示させるようにしてもよいが、ゥエブページ中の音声を受信し、出力部 24によってその音声をスピーカ等で出力してちょい。

[0142] また、抽出される音声を圧縮することで、音声の容量力、さくなり、サーバの照合部 33は、音声蓄積部 61に蓄積されている音声と端末で抽出して圧縮された音声とを早く大量に照合することができる。したがって、ウェブページ力抽出される膨大なデ一タ量を早く大量に処理することが可能となる。

[0143] 照合部 33で形成される音声に対応する情報は、特に限定するものではなぐ端末 2 の表示画面に出力部 24によって表示するように出力されるものであればどのようなものであってもよい。例えば、圧縮された音声のファイル名や圧縮された音声に関連付けて蓄積されて、る URLの一部等であってもよ、。

[0144] 音声蓄積部 61を有するサーバ 3には、実施の形態 1と同様に、端末 2の探索部 21 が備えられていてもよい。この場合、端末 2とともに、ウェブページを同様に探索することができる。これにより、膨大な量のウェブページを探索するという処理を端末 2とサーバ 3とでさらに分散させることができる。探索されたウェブページは、インターフエ一ス 30を介して端末 2に送信されてもよいが、サーバ 3に抽出部 23を備え、サーバ 3内が探索したウェブページ力端末 2の抽出部 23と同様に音声を抽出しても良い。

[0145] 実施の形態 6で説明したデータ抽出システムは、実施の形態 1乃至 5と組み合わせ、語句と音声や語句と画像と音声とを抽出するものであってもよい。この場合、実施の形態 1乃至 5で説明したデータ抽出システムに、音声抽出部 60、音声圧縮部 62、音声蓄積部 61を新たに、備え付け、上述のように音声の抽出も行えるようにすることで、ウェブページ中の語句と音声や語句と画像と音声を抽出することができる。

Claims

請求の範囲

[1] ウェブ上のウェブページから所定のデータを抽出するデータ抽出システムであって複数の端末と、

前記端末に接続されたサーバとを有し、

前記サーバは、

前記端末で抽出された前記所定のデータを蓄積するデータ蓄積手段と、抽出された前記所定のデータが前記データ蓄積手段に蓄積されているデータである力否力を照合する照合手段とを有し、

肯己端末は、

前記ゥブから前記ゥブページを探索する探索手段と、

前記ウェブページから前記所定のデータを抽出する抽出手段と、

前記照合手段で前記データ蓄積手段に蓄積されて!、な!、とされた前記所定のデータ又は該所定のデータに対応する情報を前記サーバから受信し、該所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とするデータ抽出システム。

[2] 前記所定のデータは、所定の形態素の品詞の組み合わせを有する語句であり、前記サーバは、

前記語句を抽出するための前記形態素の品詞の組み合わせを蓄積する品詞蓄積手段を有し、

肯己端末は、

前記探索手段で探索された前記ウェブページ中のテキストデータを形態素解析する形態素解析手段を有し、

前記品詞蓄積手段に蓄積されている前記形態素の品詞の組み合わせを予め前記サーバから受信し、

前記抽出手段によって、前記サーバから受信した前記形態素の品詞の組み合わせと一致する形態素の品詞の組み合わせ力なる語句を前記形態素解析手段で形態素解析したテキストデータ力抽出し、前記サーバの照合手段で前記データ蓄積手段に蓄積されていないとされた前記語句を前記サーバから受信し、該語句を出力手段で表示画面に表示することを特徴とする請求項 1記載のデータ抽出システム。

[3] 前記サーバは、複数の前記端末全てに、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信することを特徴とする請求項 2記載のデータ抽出システム。

[4] 前記サーバは、前記抽出手段によって前記語句を抽出した前記端末に、前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記語句を送信し、前記語句を受信した端末は、該語句を他の端末に送信することを特徴とする請求項 2記載のデータ抽出システム。

[5] 前記品詞蓄積手段は、前記端末で入力された新たな形態素の品詞の組み合わせを蓄積することを特徴とする請求項 2記載のデータ抽出システム。

[6] 前記サーバは、前記抽出手段で抽出された前記語句のうち、所定の条件を満たす語句に限って前記端末に送信することを特徴とする請求項 2記載のデータ抽出システム。

[7] 前記端末は、所定の条件を満たすウェブページのみを受信することを特徴とする請求項 2記載のデータ抽出システム。

[8] 前記サーバは、前記端末が要求する形態素の品詞の組み合わせを該端末に送信することを特徴とする請求項 2記載のデータ抽出システム。

[9] 前記端末の前記出力手段は、前記表示画面に表示された前記語句が選択されることによって、前記語句が抽出された前記ウェブページを前記ウェブ力受信し、前記ウェブページを該端末の表示画面に表示することを特徴とする請求項 2記載のデータ抽出システム。

[10] 前記サーバは、複数の前記端末で前記表示画面に表示された前記語句が選択された回数を集計し、該回数に基づ!、た表示を前記語句と関連付けて前記端末の前記表示画面に表示させるように前記端末に送信することを特徴とする請求項 2記載のデータ抽出システム。

[11] 前記端末は、前記探索手段で探索した前記ウェブページから画像を抽出する画像抽出手段を有し、

前記サーバは、抽出された前記画像を受信し、前記画像を蓄積する画像蓄積手段を有し、前記照合手段によって、抽出された前記画像が前記画像蓄積手段に蓄積されているか否かを照合し、

前記端末は、前記照合手段で前記画像蓄積手段に蓄積されて!、な!、とされた前記画像に対応する情報を前記サーバから受信し、前記出力手段によって、該画像に対応する情報を前記表示画面に表示することを特徴とする請求項 2記載のデータ抽出システム。

[12] 前記端末は、前記画像抽出手段で抽出された前記画像のサイズを小さくするとともに減色することによって所定バイトに圧縮する画像圧縮手段を有し、

前記サーバは、前記画像圧縮手段で圧縮された前記画像を受信し、前記画像蓄積手段によって、圧縮された前記画像を蓄積し、前記照合手段によって、圧縮された前記画像のビット列に基づいて、当該画像が前記画像蓄積手段に蓄積されている画像であるか否かを照合することを特徴とする請求項 11記載のデータ抽出システム。

[13] 前記端末は、前記探索手段で探索した前記ウェブページ力音声を抽出する音声抽出手段を有し、

前記サーバは、抽出された前記音声を受信し、前記音声を蓄積する音声蓄積手段を有し、前記照合手段によって、抽出された前記音声が前記音声蓄積手段に蓄積されているか否かを照合し、

前記端末は、前記照合手段で前記音声蓄積手段に蓄積されていないとされた前記音声に対応する情報を前記サーバから受信し、前記出力手段によって、該音声を対応する情報を出力することを特徴とする請求項 2記載のデータ抽出システム。

[14] 前記端末は、前記音声抽出手段で抽出された前記音声を時間軸の方向に圧縮する音声圧縮手段を有し、

前記サーバは、前記音声圧縮手段で圧縮された前記音声を受信し、前記音声蓄積手段によって、圧縮された前記音声を蓄積し、前記照合手段によって、圧縮された前記音声のビット列に基づいて、当該音声が前記音声蓄積手段に蓄積されている音声であるか否かを照合することを特徴とする請求項 13記載のデータ抽出システム。

[15] 前記所定のデータは、画像であることを特徴とする請求項 1記載のデータ抽出システム。

[16] 前記所定のデータは、音声であることを特徴とする請求項 1記載のデータ抽出システム。

[17] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置であって、

前記ゥブから前記ゥブページを探索する探索手段と、

前記抽出手段によって抽出された前記所定のデータを前記サーバに送信するデータ送信手段と、

前記データ送信手段で送信した前記所定のデータが前記サーバのデータ蓄積手段に蓄積された所定のデータである力否かが照合され、前記データ蓄積手段に蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信手段と、

前記データ受信手段で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力手段とを有することを特徴とする端末装置。

[18] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用され、サーバに接続された端末装置のプログラムであって、

前記ゥブから前記ゥブページを探索する探索処理と、

前記ゥブページ力前記所定のデータを抽出する抽出処理と、

前記抽出処理によって抽出された前記所定のデータを前記サーバに送信するデータ送信処理と、

前記データ送信処理で送信した前記所定のデータが前記サーバのデータ蓄積処理によって蓄積された所定のデータである力否かが照合され、前記データ蓄積処理によって蓄積されていないとされた所定のデータ又は該所定のデータに対応する情報を前記サーバから受信するデータ受信処理と、

前記データ受信処理で受信した前記所定のデータ又は該所定のデータに対応する情報を出力する出力処理とを有することを特徴とする端末装置のプログラム。

[19] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用されるサーバ装置であって、

前記ウェブから前記ウェブページを探索し、前記所定のデータを前記ウェブページから抽出する複数の端末と接続され、

前記端末で抽出された前記所定のデータを前記端末から受信するデータ受信手段と、

前記データ受信手段で受信した前記所定のデータを蓄積するデータ蓄積手段と、前記データ受信手段で受信した前記所定のデータが前記データ蓄積手段に蓄積されて、る語句である力否力を照合する照合手段と、

前記照合手段によって前記データ蓄積手段に蓄積されていないとされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信手段とを有することを特徴とするサーバ装置。

[20] ウェブ上のウェブページ力も所定のデータを抽出するデータ抽出システムに利用されるサーバ装置のプログラムであって、

前記サーバ装置は、

当該プログラムは、

前記端末で抽出された前記所定のデータを前記端末力受信するデータ受信処理と、

前記データ受信処理で受信した前記所定のデータを蓄積するデータ蓄積処理と、前記データ受信処理で受信した前記所定のデータが前記データ蓄積処理によつて蓄積された語句である力否力を照合する照合処理と、

前記照合処理によって前記データ蓄積処理によって蓄積されて、な、とされた前記所定のデータ又は該所定のデータに対応する情報を前記端末に出力させるように送信するデータ送信処理とを有することを特徴とするサーバ装置のプログラム。