JP2007128370A - 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム - Google Patents

文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム Download PDF

Info

Publication number
JP2007128370A
JP2007128370A JP2005321592A JP2005321592A JP2007128370A JP 2007128370 A JP2007128370 A JP 2007128370A JP 2005321592 A JP2005321592 A JP 2005321592A JP 2005321592 A JP2005321592 A JP 2005321592A JP 2007128370 A JP2007128370 A JP 2007128370A
Authority
JP
Japan
Prior art keywords
text data
document management
keyword
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005321592A
Other languages
English (en)
Inventor
Masami Matsuyama
雅美 松山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005321592A priority Critical patent/JP2007128370A/ja
Publication of JP2007128370A publication Critical patent/JP2007128370A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化し、これを複数の利用者により効率的に共有することができる文書管理システム等を提供すること
【解決手段】文書管理サーバー40は、データ変換手段43を備え、複写装置20により紙媒体の複写が行われたときに複写装置20が生成した画像データを取得してこれをテキストデータに変換する。キーワード抽出手段44がテキストデータからキーワードを抽出し、データベースアクセス手段45がテキストデータとキーワードを対応付けて文書情報データベース50に登録する。
【選択図】図1

Description

本発明は、紙媒体に記録された情報を電子データ化して管理および利用する技術に関し、特に情報の電子化のための作業量を軽減することができる文書管理方法等に関する。
紙資料はそれを入手した者が原本を保管し、必要に応じて複写機などで複写したコピーを関係者に配布して利用していた。この場合、原本を所持している者と仕事上で交流がなければ、紙資料の存在を知ることができず、有益な情報があるにも関わらず、それを利用することができないという問題点があった。
このような、紙資料の不便さを解消するための技術として、たとえば、複写機等を用いた文書管理システムが特許文献1に記載されている。この文書管理システムでは、印刷するデータにこのデータを特定する付加情報を加えて電子化データとして保管し、付加情報に基づいて文書データを検索する。
特開2004−112567
しかし、上記の従来の文書管理システムでは、電子化データは画像データであるから、付加情報により電子化データと画像データを関連付けることはできるものの、電子データをテキストとして検索することはできない。
そのため、テキスト検索を行う場合には、たとえば、スキャナーなどの装置を使って紙資料の内容を画像データ化し、このデータをOCRソフトに取り込んでテキストデータに変換し、テキストデータに適当なインデックスを付けてデータベースに登録するといった複雑な手順を踏まなければならなかった。
そこで、本発明は、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化し、これを複数の利用者により効率的に共有することができる文書管理システム等を提供することをその目的とする。
本発明の、文書管理サーバーは、データ変換手段を備え、複写装置により紙媒体の複写が行われたときに複写装置が取得した画像データを取得してこれをテキストデータに変換する。キーワード抽出手段がテキストデータからキーワードを抽出し、データベース登録手段がテキストデータとキーワードを対応付けて文書情報データベースに登録する。ここで、「紙媒体」とは、紙に限らず、合成樹脂製のフィルム等その表面に文字や図形を人間が肉眼で認識できるように記録する一切の記録媒体を言う(請求項1ないし請求項5)。
上記文書管理サーバーによれば、画像データの取得は、利用者が紙媒体の複写を複写装置を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出は、データ変換手段とキーワード抽出手段により自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベース登録手段により自動的に文書情報データベースに登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
上記文書管理サーバーにおいて、利用者端末から受信した検索キーワードをキーとして文書情報データベースを検索し、検索キーワードと一致するキーワードを含むテキストデータを取得しこのテキストデータを利用者端末に送信するデータベース検索手段を備えるようにしてもよい(請求項2)。
このようにすれば、文書情報データベースに登録されているキーワードを用いて検索することができるから、テキストデータ全体を検索する場合に比べ、検索を高速に行うことができる。
上記文書管理サーバーにおいて、データベース検索手段は、検索キーワードを含むテキストデータのタイトル一覧を取得してこれを利用者端末に送信し、タイトル一覧から利用者端末が選択したタイトルに対応するテキストデータを利用者端末に送信するようにしてもよい(請求項3)。
このようにすれば、利用者端末と文書管理サーバーとの間で送受信されるデータの量を削減することができる。
上記文書管理サーバーにおいて、データベース登録手段は、複写を行った利用者を特定する複写者IDをテキストデータと対応付けて文書情報データベースに登録し、文書管理サーバーは、複写者IDと検索キーワードを送信した利用者を特定する利用者IDとが一致するテキストデータのキーワードから頻出キーワードを抽出し、この頻出キーワードに関連する語句を含み、かつ、複写者IDが利用者IDと異なるテキストデータを利用者端末に送信するようにしてもよい(請求項4)。
このようにすれば、検索キーワードを送信した利用者以外の利用者が過去に複写を行った紙媒体に記録された情報から、検索キーワードを送信した利用者が興味を持つ可能性が高い情報を選択することができる。
上記文書管理サーバーにおいて、文書情報データベースには、複写機を使用する事業者以外の者から提供された外部テキストデータも登録されていて、データベース検索手段は、外部テキストデータも検索対象に含めるようにしてもよい(請求項5)。
このようにすれば、より広い範囲の情報を検索し利用者に提供することができる。
本発明の文書管理システムは、複写装置と文書管理サーバーと文書情報データベースとにより構成される。
複写装置は、画像データ取得手段と画像データ送信手段を備え、複写の対象となった紙媒体から画像データを取得して文書管理サーバーに送信する
文書管理サーバーは、データ変換手段を備え、複写装置から受信した画像データをテキストデータに変換する。キーワード抽出手段がテキストデータからキーワードを抽出し、データベース登録手段がテキストデータとキーワードを対応付けて文書情報データベースに登録する。(請求項6ないし請求項10)。
上記文書管理システムによれば、画像データの取得は、利用者が紙媒体の複写を複写装置を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出は、データ変換手段とキーワード抽出手段により自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベース登録手段により自動的に文書情報データベースに登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
上記文書管理システムにおいて、文書情報データベースに登録されたテキストデータを利用する利用者が操作する利用者端末を備え、利用者端末は、文書情報データベースに登録されたテキストデータを検索するための検索キーワードを文書管理サーバーに送信する検索キーワード送信手段を備え、文書管理サーバーは、利用者端末から受信した検索キーワードをキーとして文書情報データベースを検索し、検索キーワードと一致するキーワードを含むテキストデータを取得しこのテキストデータを利用者端末に送信するデータベース検索手段を備えるようにしてもよい(請求項7)。
このようにすれば、文書情報データベースに登録されているキーワードを用いて検索することができるから、テキストデータ全体を検索する場合に比べ、検索を高速に行うことができる。
上記文書管理システムにおいて、データベースアクセス手段は、検索キーワードを含むテキストデータのタイトル一覧を取得してこれを利用者端末に送信し、タイトル一覧から利用者端末が選択したタイトルに対応するテキストデータを利用者端末に送信するようにしてもよい(請求項8)。
このようにすれば、利用者端末と文書管理サーバーとの間で送受信されるデータの量を削減することができる。
上記文書管理システムにおいて、画像データ送信手段は、複写を行った利用者を特定する複写者IDを文書管理サーバーに送信し、検索キーワード送信手段は、検索キーワードを指定した利用者を特定する利用者IDを文書管理サーバーに送信し、文書管理サーバーは、複写者IDと利用者IDとが一致するテキストデータのキーワードから頻出キーワードを抽出し、この頻出キーワードに関連する語句を含み、かつ、複写者IDが利用者IDと異なるテキストデータを利用者端末に送信する頻出キーワード抽出手段を備えるようにしてもよい(請求項9)。
このようにすれば、検索キーワードを送信した利用者以外の利用者が過去に複写を行った紙媒体に記録された情報から、検索キーワードを送信した利用者が興味を持つ可能性が高い情報を選択することができる。
上記文書管理システムにおいて、文書情報データベースには、複写機を使用する事業者以外の者から提供された外部テキストデータも登録されており、データベース検索手段は、外部テキストデータも検索対象に含め、タイトル一覧には、外部テキストデータのタイトルも含まれるようにしてもよい(請求項10)。
このようにすれば、より広い範囲の情報を検索し利用者に提供することができる。
本発明の文書管理方法は、紙媒体に記録された情報の複写を行った複写装置から情報を画像として電子データ化した画像データを受信し、画像データからテキストを抽出し画像データをテキストデータに変換するデータ変換工程と、テキストデータからキーワードを抽出するキーワード抽出工程と、テキストデータとキーワードを対応付けて文書情報データベースに登録するデータベース登録工程と、情報を利用する利用者が操作する利用者端末から受信した検索キーワードをキーとして文書情報データベースを検索し、検索キーワードと一致するキーワードを含むテキストデータを取得しこのテキストデータを利用者端末に送信するデータベース検索工程とを備える(請求項11)。
上記文書管理方法によれば、画像データの取得は、利用者が紙媒体の複写を複写装置を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出は、データ変換工程とキーワード抽出工程で自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベース登録工程で自動的に文書情報データベースに登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
さらに、データベース検索工程では、文書情報データベースに登録されているキーワードを用いて検索することができるから、テキストデータ全体を検索する場合に比べ、検索を高速に行うことができる。
本発明の文書管理プログラムは、コンピュータに、紙媒体に記録された情報の複写を行った複写装置から情報を画像として電子データ化した画像データを受信し、画像データからテキストを抽出し画像データをテキストデータに変換するデータ変換機能と、テキストデータからキーワードを抽出するキーワード抽出機能と、テキストデータとキーワードを対応付けて文書情報データベースに登録するデータベース登録機能と、情報を利用する利用者が操作する利用者端末から受信した検索キーワードをキーとして文書情報データベースを検索し、検索キーワードと一致するキーワードを含むテキストデータを取得しこのテキストデータを利用者端末に送信するデータベース検索機能とを実行させる(請求項12)。
上記文書管理プログラムによれば、画像データの取得は、利用者が紙媒体の複写を複写装置を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出は、データ変換機能とキーワード抽出機能により自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベース登録機能により自動的に文書情報データベースに登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
さらに、データベース検索機能は、文書情報データベースに登録されているキーワードを用いて検索することができるから、テキストデータ全体を検索する場合に比べ、検索を高速に行うことができる。
本発明によれば、画像データの取得は、利用者が紙媒体の複写を複写装置を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出も自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベース自動的に文書情報データベースに登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
以下、図を参照しながら本発明の第1の実施形態である文書管理システム10の構成と動作について説明する。
図1は、文書管理システム10の構成を示すブロック図である。
文書管理システム10は、ユーザー企業1に設置された複写機20と利用者端末30および文書管理サービス事業者2に設置された文書管理サーバー40と文書情報データベース(DB)50と事業者情報DB51と利用者情報DB52を備えている。文書管理サービス事業者2は、文書管理サービスの提供者であり、ユーザー企業1は、文書管理サービス事業者2と利用契約を結んだサービスの利用者である。
複写機(複写装置)20は、たとえば、PPC式複写機、ファクシミリ送受信機、プリンタ機能とコピー機能を備えた複合機能プリンタ、ハンディースキャナーなどの紙媒体に記録された情報を電子的な画像データとして取得する機能と、通信機能とを備えた機器である。複写機20は、図1には1台だけを図示しているが複数台設置されていてもよい。
利用者端末30は、ユーザー企業1に所属する利用者が文書管理システム10を利用するために用いる端末装置で、たとえばパーソナルコンピューターや携帯電話機などの通信機能を備えインターネット3に接続可能な情報端末装置である。利用者端末30も、複数台設置されていてもよい。
複写機20と利用者端末30は、それぞれ、ユーザーLAN(Local Area Network)4とインターネット3を介して、文書管理サーバー40との間で通信をすることができる。
文書管理サーバー40は、たとえば通信機能とデータベースアクセス機能を備えたサーバコンピュータであり、文書データをOCR(Optical Character Recognition)機能などを利用してテキストデータ化する機能と、テキスト化されたデータを分析しこのデータから主なキーワードを抽出する機能を備える。また、文書管理サーバー40は、利用者端末30からの要求に応じて、後述の文書情報DB50を検索し、タイトル一覧等の情報を利用者端末30に送信する機能も備えている。
文書情報DB50は、文書管理サーバー40によりテキスト化されたデータを蓄積するデータベース、事業者情報DB51は、文書管理サービスを使用するユーザー企業に関する情報を蓄積するデータベース、利用者情報DB52は、ユーザー企業に属し文書管理サービスを利用する利用者に関する情報を蓄積するデータベースである。これらのデータベースの詳細は、後述する。
図2は、複写機20の構成を示す機能ブロック図である。
制御手段21は、たとえば、図示しないCPUがオペレーティングシステムやデバイスドライバを実行することにより実現され、複写機20の各部の動作を制御する。
複写手段(画像データ取得手段)22は、たとえば、紙媒体を透過した光をフォトダイオード等の撮像素子により電気信号に変換し、この信号をビットマップ等の電子的な画像データに変換する。データ取得手段22は、取得した画像データを記憶手段25に一時的に格納する。
入力手段23は、たとえば、タッチパネルにより構成され、利用者はこれを用いて利用者IDを入力する。
通信手段(画像データ送信手段)24は、たとえばIEEE(Institute of Electrical and Electronic Engineers)802.3の通信方式をサポートするLANアダプタであり、ユーザーLAN3とインターネット3を介してデータ取得手段22が取得した画像データを文書管理サーバー40に送信する。
記憶手段25は、たとえばハードディスク装置により構成され、ユーザー企業1を特定する情報である事業者ID25aと複写機20を特定する情報である機器ID25bがあらかじめ格納されている。
図3は、利用者端末30の構成を示す機能ブロック図である。
制御手段31は、たとえば、図示しないCPUがオペレーティングシステムやデバイスドライバを実行することにより実現され、利用者端末30の各部の動作を制御する。
入力手段32は、たとえばキーボードにより構成され、利用者が利用者ID等の情報を入力するために使用する。
出力手段33は、たとえば液晶ディスプレイ装置により構成され、文書管理サーバ40から送信されたデータ等を利用者が視認できるように表示する。
データベースアクセス手段(検索キーワード送信手段)34は、たとえばCPUにより実行されるデータベースアクセス用のクライアントソフトウェアにより実現される。データベースアクセス手段34は、通信手段35を介して、たとえばSQLにより文書情報DB50に問い合わせ(クエリー)を発行し、検索等を行う。
データベースアクセス手段34の別の実現方法としては、たとえばCPUにより実行され、文書管理サーバー40で実行されるWebアプリケーションソフトウェアと連携して動作するWebブラウザにより実現することもできる。この場合、データベース操作機能はWebアプリケーションが担い、データベースアクセス手段34は、利用者が検索キーワードを入力したり、検索結果を確認したりするためのユーザーインターフェイスとして機能する。
通信手段35は、たとえばIEEE802.3の通信方式をサポートするLANアダプタであり、ユーザーLAN3とインターネット3を介して文書管理サーバー40との間で情報の送受信を行う。
記憶手段36は、たとえばハードディスク装置により構成され、利用者端末が設置されている事業者を特定する情報である事業者ID36aがあらかじめ記憶されている。なお、事業者ID36aは、記憶手段36aには記憶しておかず、利用者が文書管理システム10を利用する都度入力するようにしてもよい。
図4は、文書管理サーバー40の構成を示す機能ブロック図である。
制御手段41は、たとえば、図示しないCPUがオペレーティングシステムやデバイスドライバを実行することにより実現され、文書管理サーバー40の各部の動作を制御する。
入力手段42は、たとえばキーボードにより構成され、文書管理サーバー40の管理者が、管理上必要なコマンド等を入力するために使用する。
データ変換手段43は、たとえばOCRソフトウェアをCPUが実行することにより実現される。データ変換手段43は、複写機20から受信し記憶手段44に格納されている画像データ47aを読み出して画像から文字を抽出し、たとえばユニコードで表現されたテキストデータに変換する。データ変換手段43は、生成したテキストデータを記憶手段47に格納する。
キーワード抽出手段44は、記憶手段47からテキストデータを読み出して、このデータからキーワードを抽出し、記憶手段47に格納する。
データベースアクセス手段(データベース登録手段、データベース検索手段)45は、たとえば、CPUにより実行されるデータベース操作ソフトウェアにより実現され、たとえばSQLを用いて文書情報DB50、事業者情報DB51、利用者情報52に対してデータの登録、問い合わせの発行等を行う。また、利用者端末30のデータベースアクセス手段34が、データベース操作機能を持たない場合には、Webアプリケーションとして構成し、利用者端末30に検索キーワード等を入力するユーザーインターフェイスを提供する。
データベースアクセス手段45は、記憶手段47からテキストデータ、キーワードを読み出し、これらのデータを通信手段46を介して送信し文書情報DB50に登録する。
通信手段46は、たとえばIEEE802.3の通信方式をサポートするLANアダプタであり、事業者LAN4とインターネット3を介して複写機20および利用者端末30との間で情報の送受信を行う。通信手段46は、また、事業者LAN40を介して文書情報DB50、事業者情報DB51、利用者情報DB52と通信を行う。
図5は、文書管理サービス事業者2に設置されている各データベースのデータ構造を示す図である。
図5(a)を参照すると、事業者情報DB51には、事業者ID51aに関連付けて、事業者名51b、住所51c、電話番号51dが登録されている。これらのデータは、事業者がサービスに加入した際に、文書管理サービス事業者2によって登録される。
事業者ID51aは、文書サービスシステム10を利用する事業者を特定する情報で、サービスへの加入時に文書管理サービス事業者により利用事業者に交付さる。
事業者名51bは、事業者ID51aに対応する事業者の名称を示す文字列である。
住所51cは、事業者ID51aに対応する事業者の住所を示す文字列である。
住所51dは、事業者ID51aに対応する事業者の電話番号を示す文字列である。
図5(b)を参照すると、利用者情報DB52には、利用者ID52aに関連付けて、事業者ID52bと氏名52cが登録されている。これらのデータは、事業者がサービスに加入した際に、または新たな利用者の追加があった際に、文書管理サービス事業者2によって登録される。
利用者ID52aは、利用者個人を特定するための情報で、事業者がサービスへ加入した際に文書管理サービス事業者により利用者一人一人に交付される。
事業者ID52bは、利用者ID52aに対応する利用者が属する事業者の事業者IDである。
氏名52cは、利用者ID52aに対応する利用者の氏名を示す文字列である。
図5(c)を参照すると、文書情報DB50には、文書ID50aに関連付けて、事業者ID50b、利用者ID50c、機器ID50d、テキスト50e、複数のキーワード50gが登録されている。これらのデータは、文書管理サーバー40からテキストデータとそれに付随するデータを受信した際に、1レコードずつ追加される。
文書ID50aは、文書管理サーバー40から受信したテキストデータを特定するための情報で、たとえば受信順に付された通し番号である。
事業者ID50bは、文書ID50aに対応するテキストデータを送信した機器が設置されている事業者の事業者ID(複写者ID)である。
利用者ID50cは、文書ID50aに対応するテキストデータの抽出元となった紙文書の複写を行った利用者の利用者IDである。
機器ID50dは、文書ID50aに対応するテキストデータを抽出元となった画像データを取得した機器を特定するための情報であり、たとえば、機器の製造時に付与された製造番号である。
タイトル50eは、文書ID50aに対応するテキストデータのタイトルを示す文字列である。
テキスト50fは、文書ID50aに対応するテキストデータの内容である文字列である。
キーワード50gは、文書ID50aに対応するテキストデータから文書管理サーバー40が抽出したキーワードを示す文字列である。
次に、文書管理システム10の動作について説明する。
図6は、文書管理システム10のデータ登録動作を示すシーケンス図である。
利用者が複写機20に利用者IDを入力して紙資料の複写をする。利用者IDは、制御手段21によって記憶手段25に格納される。複写が行われたときに、複写機20のデータ取得手段22は、複写の対象となった紙資料に記録されたデータを画像データとして取得し(S101)、この画像データを記憶手段25に格納する。複写機20の通信手段24は、記憶手段25から画像データ、利用者ID、あらかじめ格納されている事業者ID23aと機器ID23b(以下、これら4個のデータを「登録データ」を呼ぶ)を読み出して、インターネット3を介して文書管理サーバー40に送信する(S102)。文書管理サーバー40は、登録データを通信手段46で受信し、記憶手段47に格納する。このとき、文書管理サーバー40の制御部41は、受信したテキストデータに対応する文書IDを生成し記憶手段47に格納する。
文書管理サーバー40のデータ変換手段43は、記憶手段47から画像データを読み出して、たとえばユニコード表現されたテキストデータに変換し(S103)、後続の処理のために記憶手段47に格納する。この変換処理は、OCRソフトウェア等に用いられている公知の方法で行うことができる。
文書管理サーバー40のキーワード抽出手段44は、記憶手段47からテキストデータを読み出して、このデータからキーワードを抽出し(S104)、記憶手段47に格納する。このステップで、キーワード抽出手段44が、たとえば、テキストデータの最初の何文字かをテキストデータのタイトルとして抽出するようにしてもよい。
データベースアクセス手段45は、文書ID、事業者ID、利用者ID、機器ID、タイトル、テキストデータ、キーワードを記憶手段47から読み出し、通信手段46を介して文書情報DB50に送信し、登録する(S105)。
図7は、文書情報DB50にデータが蓄積された後、利用者が検索を行う場合の文書管理システム10の動作を示すシーケンス図である。
利用者端末30のデータベースアクセス手段34は、入力手段32を介して利用者により入力された検索キーワードを取得する(S111)。データベースアクセス手段34は、記憶手段36にあらかじめ記憶されている事業者ID36aを読み出し、検索キーワードとともに通信手段35を介して、文書管理サーバー40に送信する(S112)。
文書管理サーバー40は、文書情報データベースを検索し、受信したキーワードと事業者IDの両方を含むレコードのタイトル一覧を取得し(S113)、これを通信手段34を介して利用者端末30に送信する(S114)。
タイトル一覧を通信手段35により受信した利用者端末30は、これを出力手段33に表示し利用者に提示する。データベースアクセス手段34は、入力手段32を介して利用者により入力された選択タイトルを取得する(S115)。データベースアクセス手段34は、通信手段35を介して選択タイトルを文書管理サーバー40に送信する(S116)。
文書管理サーバー40のデータベースアクセス手段45は、選択タイトルを検索キーとして文書情報DB50を検索し、選択タイトルと対応するテキストデータを取得し(S117)、利用者端末30に送信する(S118)。
図8は、文書情報データベース50に情報が蓄積された後、利用者が興味を持つと思われるデータを自動的に選択して利用者に提示する場合の文書管理システム10の動作を示すシーケンス図である。
利用者端末30のデータベースアクセス手段34は、記憶手段36にあらかじめ格納されている事業者ID36aと、入力手段32により利用者が入力した利用者IDを取得する(S121)。データベースアクセス手段34は、これら2個のデータを通信手段35を介して文書管理サーバー40に送信する(S122)。
文書管理サーバー40のデータベースアクセス手段45は、利用者IDと事業者IDを検索キーとして文書情報データベース50を検索し、利用者IDのフィールドが検索キーと一致するレコードに含まれるキーワードの集合を取得する(S123)
頻出キーワード抽出手段48は、S123で取得したキーワードの集合から頻出キーワードを抽出する。これは、たとえば、あらかじめ定めた閾値よりも出現回数の多いものを頻出キーワードと判定することにより行う(S124)。
データベースアクセス手段45は、頻出キーワードと関連するキーワードを含み、かつ、利用者IDのフィールドが利用者端末から受信したものと一致せず、事業者IDのフィールドが利用者端末から受信したものと一致するレコードのタイトルの一覧を取得する(S125)。ここで、頻出キーワードと関連するキーワードの判定は、たとえば、文書管理サーバー40または文書情報DB50のいずれかにシソーラス(類義語辞書)をそなえ、このシソーラスで頻出キーワードと関連語とされている語を「関連するキーワード」と判定することができる。データベースアクセス手段45は、タイトル一覧を利用者端末30に送信する(S126)。
タイトル一覧を通信手段35により受信した利用者端末30は、これを出力手段33に表示し利用者に提示する。データベースアクセス手段34は、入力手段32を介して利用者により入力された選択タイトルを取得する(S127)。データベースアクセス手段34は、通信手段35を介して選択タイトルを文書管理サーバー40に送信する(S128)。
文書管理サーバー40のデータベースアクセス手段45は、選択タイトルを検索キーとして文書情報DB50を検索し、選択タイトルと対応するテキストデータを取得し(S129)、利用者端末30に送信する(S130)。
文書管理システム10によれば、画像データの取得は、利用者が紙媒体の複写を複写機20を利用して行った際に自動的に行われる。また、画像データのテキストデータへの変換とテキストデータからのキーワードの抽出は、データ変換手段43とキーワード抽出手段44により自動的に行われる。
そのため、利用者に煩雑な操作を強いることなく紙媒体に記録された情報をテキストデータ化することができる。
また、テキストデータとキーワードはデータベースアクセス手段により自動的に文書情報DB50に登録されるから、テキストデータを複数の利用者により効率的に共有することができる。
文書管理システム10によれば、データベースアクセス手段45は、文書情報DB50に登録されているキーワードを用いて検索することができるから、テキストデータ全体を検索する場合に比べ、検索を高速に行うことができる。
文書管理システム10によれば、データベースアクセス手段45は、テキストデータを送信する前にタイトル一覧を利用者端末30に送信し、利用者端末30により選択されたテキストデータを送信するから利用者端末30と文書管理サーバー40との間で送受信されるデータの量を削減することができる。
文書管理システム10によれば、頻出キーワード抽出手段48が、検索キーワードを送信した利用者が過去に複写をした紙媒体から取得したテキストデータから頻出キーワードを抽出する。データベースアクセス手段45は、頻出キーワードに関連のある語をキーワードとして含むテキストデータの一覧を利用者端末10に送信する。
そのため、検索キーワードを送信した利用者は、他の利用者が過去に複写を行った紙媒体に記録された情報から、自分が興味を持つ情報を選択し、取得することができる。利用者はキーワードと自己の利用者IDを送信するだけでよいから、利用者がテキストデータの取得元となった紙資料の存在を知らない場合でも、その資料に記録された情報を取得することができる。
次に、図を参照しながら本発明の第2の実施形態である文書管理システム11の構成と動作について説明する。文書管理システム11は、その構成の多くが文書管理システム10と共通するので、文書管理システム10と異なる点を中心に説明する。
図9は、文書管理システム11の構成を示すブロック図である。
文書管理システム11は、図1の文書管理システム1の構成要素に加えて、コンテンツ提供サービス事業者6に設置されたコンテンツ配信サーバー60とコンテンツDB61とを備えている。コンテンツ配信サーバー60とコンテンツDB61は、コンテンツ事業者LAN7を介してインターネット3に接続されている。
コンテンツ配信サーバー60は、通信機能とデータベースアクセス機能とを備えたサーバコンピュータで、インターネット3を介して他の機器から送信された配信要求に応じて、コンテンツDB61に登録されている文書等の電子的データ(以下、コンテンツと言う)を要求元の機器に送信する。
コンテンツDB61は、配信用のコンテンツを格納したデータベースである。図11(a)に、コンテンツDB61のデータ構造の一例を示す。
コンテンツDB61には、コンテンツID61aに関連付けて、タイトル61b、日付61c、テキスト61d、キーワード61eが登録されている。
コンテンツID61aは、登録されているコンテンツを特定する情報であり、たとえば、データの取得順に付された通し番号である。
タイトル61bは、コンテンツのタイトルを示す文字列である。
日付61cは、コンテンツが作成された年月日を示す文字列である。
テキスト61dは、コンテンツの内容である文字列である。
キーワード61eは、テキスト61dに含まれるキーワードである。キーワードは複数登録することができる。
図10は、図9の文書管理サーバー40aの構成を示す機能ブロック図である。
文書管理サーバー40aは、図4に示した文書管理サーバー40の各構成要素に加えて課金処理手段49と課金処理DB62を備えている。
課金処理手段49は、コンテンツ配信サーバーから取得して利用者端末30に配信したコンテンツについての課金処理を実行する。
図11(b)に、課金処理DB62のデータ構造の一例を示す。
課金処理DB62には、コンテンツID62aに関連付けて、事業者ID62b、利用回数62c、単価62d、利用額62eが登録されている。
コンテンツID62aは、配信したコンテンツを特定する情報で、図11(a)のコンテンツID61aに対応する。
事業者ID62bは、コンテンツの配信を受けた事業者を特定する情報で、図5(a)の事業者ID51aに対応する。
利用回数62cは、コンテンツID62aに対応するコンテンツが事業者ID62bに対応する事業者に配信された回数を示す数値である。
単価62dは、コンテンツ毎にあらかじめ定められた配信1回あたりの利用料金である。
利用額62eは、コンテンツ毎に集計された利用料金で、利用回数62cと単価62dを乗じて得られた数値である。
複写機20と利用者端末30の構成は、図2および図3に示した文書管理システム10の場合と同様であるから説明を省略する。文書情報DB50、事業者DB51、利用者情報DB52のデータ構造もそれぞれ図5(c)、(a)、(b)に示したものと同様であるから説明を省略する。
図12は、文書管理システム11の動作を示すシーケンス図である。文書情報DB50には、図6に示したものと同様の手順でテキストデータ等が蓄積されているという前提で説明する。
利用者端末30のデータベースアクセス手段34は、入力手段32を介して利用者により入力された検索キーワードを取得する(S141)。データベースアクセス手段34は、記憶手段36にあらかじめ記憶されている事業者ID36aを読み出し、検索キーワードとともに通信手段35を介して、文書管理サーバー40に送信する(S142)。これを受信した文書管理サーバー40の通信手段46は、検索キーワードをコンテンツ配信サーバー60に転送する(S143)。
コンテンツ配信サーバー60は、受信した検索キーワードをキーとしてコンテンツDB61を検索し、検索キーワードと一致するキーワードを含むコンテンツのタイトル一覧を取得し(S144)、これを文書管理サーバー40に送信する(S145)。
文書管理サーバー40のデータベースアクセス手段45は、図7のS113に示したものと同様の手順で文書情報DB60を検索し、検索キーワードと一致するキーワードを含むテキストデータのタイトル一覧を取得する(S146)。データベースアクセス手段45は、このタイトル一覧とコンテンツ配信サーバー60から受信したタイトル一覧を通信手段46を介して利用者端末30に送信する(S147)。
タイトル一覧を通信手段35により受信した利用者端末30は、これを出力手段33に表示し利用者に提示する。データベースアクセス手段34は、入力手段32を介して利用者により入力されたコンテンツまたはテキストデータの選択タイトルを取得する(S148)。ここでは、選択タイトルとしてコンテンツDBに格納されているコンテンツのタイトルが選択されてものとして説明する。利用者端末30のデータベースアクセス手段34は、通信手段35を介して選択タイトルを文書管理サーバー40に送信する(S149)。これを受信したコンテンツ配信サーバー40の通信手段45は、選択タイトルをコンテンツ配信サーバー60に転送する(S150)。
コンテンツ配信サーバー60は、選択タイトルを検索キーとしてコンテンツDB61を検索し、選択タイトルと対応するコンテンツを取得し(S151)、これを文書管理サーバー40に送信する(S152)。
文書管理サーバー40のデータベースアクセス手段45は、受信したコンテンツを文書情報DBに登録し(S153)、通信手段46は、利用者端末30に送信する(S154)。
課金処理手段49は、課金DB62の送信したコンテンツに対応するレコードの利用回数62cに1を加算するとともに更新後の利用回数62cと単価62dを乗じて得られた数値で利用額62eを更新する(S155)。
文書管理システム11によれば、データベースアクセス手段45が、コンテンツDB61に登録されているコンテンツも検索するから、利用者は、ユーザー企業1の社内で収集された情報だけでなく、コンテンツ提供サービス事業者6から提供された情報も利用することができる。
本発明の第1の実施形態である文書管理システムの全体図である。 図1の複写機の機能ブロック図である。 図1の利用者端末の機能ブロック図である。 図1の文書管理サーバーの機能ブロック図である。 図5(a)は、事業者情報DBのデータ構造を示す図である。図5(b)は、利用者情報DBのデータ構造を示す図である。図5(c)は、文書情報DBのデータ構造を示す図である。 図1の文書管理システムのデータ登録動作を示すシーケンス図である。 図1の文書管理システムのデータ検索動作を示すシーケンス図である。 図1の文書管理システムのデータ検索動作を示すシーケンス図である。 本発明の第2の実施形態である文書管理システムの全体図である。 図9の文書管理サーバーの機能ブロック図である。 図11(a)は、コンテンツDBのデータ構造を示す図である。図5(b)は、課金DBのデータ構造を示す図である。 図9の文書管理システムのデータ検索動作を示すシーケンス図である。
符号の説明
10、11 文書管理システム
20 複写機(複写装置)
21 制御手段
22 複写手段(画像データ取得手段)
23 入力手段
24 通信手段(画像データ送信手段)
25 記憶手段
30 利用者端末
31 制御手段
32 入力手段
33 出力手段
34 データベースアクセス手段(検索キーワード送信手段)
35 通信手段
36 記憶手段
40、40a 文書管理サーバー
41 制御手段
42 入力手段
43 データ変換手段
44 キーワード抽出手段
45 データベースアクセス手段(データベース登録手段、データベース検索手段)
46 通信手段
47 頻出キーワード抽出手段
50 文書情報DB
51 コンテンツDB

Claims (12)

  1. 紙媒体に記録された情報を管理する文書管理サーバーにおいて、
    前記紙媒体に記録された情報の複写を行った複写装置から前記情報を画像として電子データ化した画像データを受信し、前記画像データからテキストを抽出し前記画像データをテキストデータに変換するデータ変換手段と、
    前記テキストデータからキーワードを抽出するキーワード抽出手段と、
    前記テキストデータと前記キーワードを対応付けて文書情報データベースに登録するデータベース登録手段とを備えたことを特徴とした文書管理サーバー。
  2. 利用者端末から受信した検索キーワードをキーとして前記文書情報データベースを検索し、前記検索キーワードと一致するキーワードを含む前記テキストデータを取得しこのテキストデータを前記利用者端末に送信するデータベース検索手段を備えたことを特徴とした請求項1に記載の文書管理サーバー。
  3. 前記データベース検索手段は、前記検索キーワードを含む前記テキストデータのタイトル一覧を取得してこれを前記利用者端末に送信し、前記タイトル一覧から前記利用者端末が選択したタイトルに対応する前記テキストデータを前記利用者端末に送信することを特徴とした請求項2に記載の文書管理サーバー。
  4. 前記データベース登録手段は、前記複写を行った利用者を特定する複写者IDを前記テキストデータと対応付けて前記文書情報データベースに登録し、
    前記複写者IDと前記検索キーワードを送信した前記利用者を特定する利用者IDとが一致する前記テキストデータの前記キーワードから頻出キーワードを抽出し、この頻出キーワードに関連する語句を含み、かつ、前記複写者IDが前記利用者IDと異なるテキストデータを前記利用者端末に送信する頻出キーワード抽出手段を備えたことを特徴とした請求項2または請求項3に記載の文書管理サーバー。
  5. 前記文書情報データベースには、前記複写機を使用する事業者以外の者から提供された外部テキストデータも登録されていて、前記データベース検索手段は、前記外部テキストデータも検索対象に含めることを特徴とした請求項2ないし請求項4のいずれかひとつに記載の文書管理サーバー。
  6. 紙媒体に記録された情報の複写を行う複写装置と、前記情報を管理する文書管理サーバーと、電子データ化された前記情報を格納する文書情報データベースを備えた文書管理システムにおいて、
    前記複写装置は、
    前記複写を行う際に前記情報を画像データとして取得する画像データ取得手段と、
    前記画像データを前記文書管理サーバーへ送信する画像データ送信手段とを備え、
    前記文書管理サーバーは、
    前記複写装置から受信した前記画像データからテキストを抽出し前記画像データをテキストデータに変換するデータ変換手段と、
    前記テキストデータからキーワードを抽出するキーワード抽出手段と、
    前記テキストデータと前記キーワードを前記文書情報データベースに登録するデータベース登録手段とを備えたことを特徴とした文書管理システム。
  7. 前記文書情報データベースに登録されたテキストデータを利用する利用者が操作する利用者端末を備え、
    前記利用者端末は、
    前記文書情報データベースに登録された前記テキストデータを検索するための検索キーワードを前記文書管理サーバーに送信する検索キーワード送信手段を備え、
    前記文書管理サーバーは、
    前記利用者端末から受信した前記検索キーワードをキーとして前記文書情報データベースを検索し、前記検索キーワードと一致するキーワードを含む前記テキストデータを取得しこのテキストデータを前記利用者端末に送信するデータベース検索手段を備えたことを特徴とした請求項6に記載の文書管理システム。
  8. 前記データベースアクセス手段は、前記検索キーワードを含むテキストデータのタイトル一覧を取得してこれを前記利用者端末に送信し、前記タイトル一覧から前記利用者端末が選択したタイトルに対応する前記テキストデータを前記利用者端末に送信することを特徴とした請求項7に記載の文書管理システム。
  9. 前記画像データ送信手段は、前記複写を行った前記利用者を特定する複写者IDを前記文書管理サーバーに送信し、
    前記検索キーワード送信手段は、前記検索キーワードを指定した前記利用者を特定する利用者IDを前記文書管理サーバーに送信し、
    前記文書管理サーバーは、
    前記複写者IDと前記利用者IDとが一致する前記テキストデータの前記キーワードから頻出キーワードを抽出し、この頻出キーワードに関連する語句を含み、かつ、前記複写者IDが前記利用者IDと異なるテキストデータを前記利用者端末に送信する頻出キーワード抽出手段を備えたことを特徴とした請求項7または請求項8に記載の文書管理システム。
  10. 前記文書情報データベースには、前記複写機を使用する事業者以外の者から提供された外部テキストデータも登録されており、
    前記データベース検索手段は、前記外部テキストデータも検索対象に含め、前記タイトル一覧には、前記外部テキストデータのタイトルも含まれることを特徴とした請求項7ないし請求項9のいずれかひとつに記載の文書管理システム。
  11. 紙媒体に記録された情報を管理する方法において、
    前記紙媒体に記録された情報の複写を行った複写装置から前記情報を画像として電子データ化した画像データを受信し、前記画像データからテキストを抽出し前記画像データをテキストデータに変換するデータ変換工程と、
    前記テキストデータからキーワードを抽出するキーワード抽出工程と、
    前記テキストデータと前記キーワードを対応付けて文書情報データベースに登録するデータベース登録工程と、
    前記情報を利用する利用者が操作する利用者端末から受信した検索キーワードをキーとして前記文書情報データベースを検索し、前記検索キーワードと一致するキーワードを含む前記テキストデータを取得しこのテキストデータを前記利用者端末に送信するデータベース検索工程とを備えたことを特徴とした文書管理方法。
  12. 紙媒体に記録された情報を管理するプログラムにおいて、
    コンピュータに、
    前記紙媒体に記録された情報の複写を行った複写装置から前記情報を画像として電子データ化した画像データを受信し、前記画像データからテキストを抽出し前記画像データをテキストデータに変換するデータ変換機能と、
    前記テキストデータからキーワードを抽出するキーワード抽出機能と、
    前記テキストデータと前記キーワードを対応付けて文書情報データベースに登録するデータベース登録機能と、
    前記情報を利用する利用者が操作する利用者端末から受信した検索キーワードをキーとして前記文書情報データベースを検索し、前記検索キーワードと一致するキーワードを含む前記テキストデータを取得しこのテキストデータを前記利用者端末に送信するデータベース検索機能とを実行させることを特徴とした文書管理プログラム。
JP2005321592A 2005-11-04 2005-11-04 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム Pending JP2007128370A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005321592A JP2007128370A (ja) 2005-11-04 2005-11-04 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005321592A JP2007128370A (ja) 2005-11-04 2005-11-04 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム

Publications (1)

Publication Number Publication Date
JP2007128370A true JP2007128370A (ja) 2007-05-24

Family

ID=38150964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005321592A Pending JP2007128370A (ja) 2005-11-04 2005-11-04 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム

Country Status (1)

Country Link
JP (1) JP2007128370A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011526397A (ja) * 2008-06-27 2011-10-06 キイ・インコーポレイテッド ソーシャルモバイルサーチ
US8612889B2 (en) 2010-11-11 2013-12-17 Canon Kabushiki Kaisha Information processing device, method for controlling screen display and storage medium
US8711410B2 (en) 2010-08-06 2014-04-29 Canon Kabushiki Kaisha Image forming apparatus, information processing method, and storage medium for generating screen information
JP2016532190A (ja) * 2013-07-22 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 文書フォーマット変換装置及び方法
US9864480B2 (en) 2011-09-01 2018-01-09 Canon Kabushiki Kaisha Image forming apparatus, control method therefor, and storage medium storing control program therefor

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011526397A (ja) * 2008-06-27 2011-10-06 キイ・インコーポレイテッド ソーシャルモバイルサーチ
US9152711B2 (en) 2008-06-27 2015-10-06 Kii Corporation Social mobile search
US8711410B2 (en) 2010-08-06 2014-04-29 Canon Kabushiki Kaisha Image forming apparatus, information processing method, and storage medium for generating screen information
US8612889B2 (en) 2010-11-11 2013-12-17 Canon Kabushiki Kaisha Information processing device, method for controlling screen display and storage medium
US9864480B2 (en) 2011-09-01 2018-01-09 Canon Kabushiki Kaisha Image forming apparatus, control method therefor, and storage medium storing control program therefor
JP2016532190A (ja) * 2013-07-22 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 文書フォーマット変換装置及び方法

Similar Documents

Publication Publication Date Title
JP3571515B2 (ja) 知識収集・格納・検索プログラムを記憶したコンピュータ読み取り可能な記憶媒体
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US7949206B2 (en) Scanned image management device
US8310711B2 (en) Output device and its control method for managing and reusing a job history
US20100079781A1 (en) Document processing system and control method thereof, program, and storage medium
CN100545846C (zh) 文档搜索设备和方法
US8370384B2 (en) Information processing apparatus, file management method, program, and storage medium
JP5167662B2 (ja) ワークフロー管理システム
US8078584B2 (en) Document retrieving system, document retrieving apparatus, method, program and storage medium therefor
JP2006285526A (ja) 画像データに応じた情報検索
CN101211361B (zh) 信息处理装置、信息处理***和信息处理方法
JP2007128370A (ja) 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム
US8032524B2 (en) Content management system and content management method
JP5127272B2 (ja) ワークフロー管理システム
JP5592747B2 (ja) ファイル検索装置およびファイル検索プログラム
JP2019023793A (ja) 仕訳情報処理装置、仕訳情報処理方法、およびプログラム
JP2011138340A (ja) サーバ装置、サーバ装置のログ監査方法およびプログラム
JP2021144565A (ja) 情報処理装置及び情報処理プログラム
CN101226529A (zh) 信息处理装置、信息处理***、和信息处理方法
JP4979786B2 (ja) 検索連動スタンプサービス提供装置
JP2005032129A (ja) ドキュメント履歴解析装置、ドキュメント履歴解析システム、ドキュメント履歴解析方法およびプログラム
JP7418238B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5485831B2 (ja) 検索用索引自動生成装置を有するファイル検索システム
JP2010273088A (ja) 紙文書来歴管理システム
JP2009239420A (ja) 画像生成装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100223