JP5345049B2 - SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM - Google Patents
SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM Download PDFInfo
- Publication number
- JP5345049B2 JP5345049B2 JP2009294579A JP2009294579A JP5345049B2 JP 5345049 B2 JP5345049 B2 JP 5345049B2 JP 2009294579 A JP2009294579 A JP 2009294579A JP 2009294579 A JP2009294579 A JP 2009294579A JP 5345049 B2 JP5345049 B2 JP 5345049B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- image
- page
- text
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims abstract description 76
- 238000009826 distribution Methods 0.000 claims description 78
- 238000003860 storage Methods 0.000 claims description 63
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000012790 confirmation Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 238000003384 imaging method Methods 0.000 claims description 8
- 230000001413 cellular effect Effects 0.000 abstract description 5
- 238000013500 data storage Methods 0.000 description 22
- 239000004973 liquid crystal related substance Substances 0.000 description 21
- AHVPOAOWHRMOBY-UHFFFAOYSA-N 2-(diethylamino)-1-[6,7-dimethoxy-1-[1-(6-methoxynaphthalen-2-yl)ethyl]-3,4-dihydro-1h-isoquinolin-2-yl]ethanone Chemical compound C1=C(OC)C=CC2=CC(C(C)C3C4=CC(OC)=C(OC)C=C4CCN3C(=O)CN(CC)CC)=CC=C21 AHVPOAOWHRMOBY-UHFFFAOYSA-N 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、携帯端末からのドキュメント検索要求に応じてドキュメントの検索を行い、この検索結果を携帯端末に配信する検索サーバ及びその制御方法、並びにこの検索サーバを備える検索システムに関するものである。 The present invention relates to a search server that searches for a document in response to a document search request from a mobile terminal and distributes the search result to the mobile terminal, a control method therefor, and a search system including the search server.
昨今の携帯電話機の技術向上により、パーソナルコンピュータ(以下、PCという)で作成されたドキュメント(文書作成ソフト、表計算ソフト、プレゼンテーションソフトなどのアプリケーションソフトウェアで作成された文書ファイル)を携帯電話機で閲覧することができる。このため、近年では、社内で作成された文書ファイルを携帯電話機に配信することにより、社内の文書ファイルを社外でも閲覧できるようにするドキュメント閲覧システムが知られている。 Due to recent improvements in mobile phone technology, documents (document files created using application software such as document creation software, spreadsheet software, and presentation software) created on a personal computer (hereinafter referred to as a PC) are viewed on the mobile phone. be able to. For this reason, in recent years, document browsing systems are known in which a document file created in-house is distributed to a mobile phone so that the document file in the company can be browsed outside the company.
携帯電話機から社内に設置されたドキュメント配信サーバに対して文書ファイルの検索要求がなされると、ドキュメント配信サーバは、所定のファイル格納部から検索要求に対応する文書ファイルを検索し、この検索結果を携帯電話機に配信する。携帯電話機は、ドキュメント配信サーバから受信した検索結果をディスプレイに表示する。これにより、ディスプレイに表示された検索結果の中から、所望の文書ファイルを選択してその内容を閲覧することができる。このような携帯電話機で表示される検索結果としては、ユーザが文書ファイルの内容を容易に判別することができるように、文書ファイルから生成されたサムネイル画像が良く用いられている。 When a search request for a document file is made from a mobile phone to a document distribution server installed in the company, the document distribution server searches a document file corresponding to the search request from a predetermined file storage unit, and the search result is displayed. Deliver to mobile phones. The mobile phone displays the search result received from the document distribution server on the display. Thereby, it is possible to select a desired document file from the search results displayed on the display and browse the contents. As a search result displayed on such a mobile phone, a thumbnail image generated from the document file is often used so that the user can easily determine the contents of the document file.
ところで、携帯電話機のディスプレイのサイズはPCに比べて小さいため、このディスプレイに表示されるサムネイル画像のサイズも小さくなり、文書ファイルの内容を把握し難い。その結果、文書ファイルの内容を一度表示しないと所望の文書ファイルであるか否かの判断が容易につかないという問題がある。さらに、携帯電話機は、PCと比較して処理速度やサーバとの通信速度が遅くなるため、文書ファイルの内容表示に時間が掛かるという問題もある。このため、ディスプレイに表示されたサムネイル画像の一覧から所望の文書ファイルを容易に見出すことができるように、様々な工夫がなされている。 By the way, since the size of the display of the mobile phone is smaller than that of the PC, the size of the thumbnail image displayed on the display is also small, and it is difficult to grasp the contents of the document file. As a result, there is a problem that it is not easy to determine whether or not the document file is a desired document file once the contents of the document file are not displayed. Furthermore, since the processing speed of the mobile phone and the communication speed with the server are slower than those of the PC, there is a problem that it takes time to display the contents of the document file. For this reason, various ideas have been made so that a desired document file can be easily found from the list of thumbnail images displayed on the display.
特許文献1では、文書ファイルのサムネイル画像同士の類似度を比較して、この類似度が高い場合には、サムネイル画像同士で差異の高い領域を切り出して表示している。こうすれば、類似するサムネイル画像が大量にある場合でもこれらの区別を容易に行うことができる。
In
特許文献2では、検索された文書ファイルから、例えば先頭ページや色数が多いページなどの代表ページを選択し、この代表ページから形成されたサムネイル画像を検索結果として表示している。こうすれば、代表ページのサムネイル画像を手掛かりとして、文書ファイルの内容を容易に把握することができる。
In
特許文献1では、類似度が高いサムネイル画像同士で差異の高い領域を切り出して表示するので、他の文書ファイルと比較してその一部だけが更新されているような文書ファイルの内容把握には有効である。しかし、差異の高い領域しか表示しないため、文書ファイルの全体像が把握し難いという欠点がある。また、差異の高い領域がテキスト領域であった場合、携帯電話機の小さいディスプレイではテキストの内容を把握し難く、結局、文書ファイルの内容を表示する必要性が生じる。
In
また、特許文献2では、写真、グラフィック(図形、線画、表)などが含まれているページが代表ページとして選択された場合には、文書ファイルの内容を容易に判別することができる。しかし、文書ファイルが、写真やグラフィック等を含まないテキスト文書ファイルである場合、この文書ファイルのいずれかのテキストページが代表ページとしてサムネイル画像化される。このような場合も、携帯電話機のディスプレイでは、サムネイル画像のテキストの内容を把握し難く、特許文献1と同様に文書ファイルの内容を表示する必要性が生じる。
Further, in
本発明は上記問題を解決するためのものであり、文書ファイルの検索を行った際に、検索された文書ファイルの内容を容易に判別可能な検索結果が得られる検索サーバ及びその制御方法、並びに検索システムを提供することを目的とする。 The present invention is to solve the above-mentioned problem, and when searching for a document file, a search server that can obtain a search result that can easily determine the contents of the searched document file, a control method thereof, and The purpose is to provide a search system.
上記目的を達成するため、本発明の検索サーバは、携帯端末から、ドキュメントの検索要求を受け付ける受付手段と、前記受付手段が受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、当該検索要求に対応する前記ドキュメントを取得するドキュメント取得手段と、前記ドキュメント取得手段が取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成手段と、前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出手段と、前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定手段と、前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出手段と、前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出手段と、前記ページ画像抽出手段が抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成手段と、前記テキスト抽出手段が抽出した抽出テキスト、及び前記サムネイル画像生成手段が生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信手段と、を備えることを特徴とする。 In order to achieve the above object, a search server of the present invention includes: a receiving unit that receives a document search request from a portable terminal; and a document storage unit that stores a plurality of documents based on the search request received by the receiving unit. A document acquisition unit that acquires the document corresponding to the search request, a document image generation unit that generates a document image including a plurality of page images by imaging the document acquired by the document acquisition unit for each page; Feature amount extraction means for extracting a feature amount indicating the type, number, and size of an object included in each page image from each page image of the document image, and based on the extraction result of the feature amount, the document image Is a text document that contains no non-text objects A determination means for determining whether or not the document image is a document image, and a text for extracting a predetermined number of characters from the first page of the original document when the determination means determines that the document image is the text document image Extracting means and page image extracting means for extracting the most characteristic page image from the document image based on the extraction result of the feature amount when the determining means determines that the document image is not the text document image A thumbnail image generation unit that generates a thumbnail image from the page image extracted by the page image extraction unit, an extracted text extracted by the text extraction unit, and the thumbnail image generated by the thumbnail image generation unit As a search result of the search request A distribution means for distributing to the portable terminal Motomemoto, characterized in that it comprises a.
前記抽出テキスト及び前記サムネイル画像を、それぞれ元の前記ドキュメントと関連付けて格納する格納手段と、前記受付手段が前記検索要求を受け付けたときに、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されているか否かを確認する確認手段と、前記確認手段の確認結果に基づき、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されている場合、当該ドキュメントに対応する前記抽出テキストまたは前記サムネイル画像を前記格納手段から読み出す読出手段とを備え、前記配信手段は、前記読出手段が読み出した前記抽出テキストまたは前記サムネイル画像を前記携帯端末へ配信することが好ましい。 A storage unit that stores the extracted text and the thumbnail image in association with the original document, and the document corresponding to the search request is stored in the storage unit when the receiving unit receives the search request. Confirmation means for confirming whether or not the document has been stored in the storage means based on the confirmation result of the confirmation means, the extracted text corresponding to the document or the document It is preferable that a reading unit that reads a thumbnail image from the storage unit is provided, and the distribution unit distributes the extracted text or the thumbnail image read by the reading unit to the portable terminal.
前記ページ画像抽出手段は、前記ドキュメント画像から、前記最も特徴的なページ画像の他に、先頭ページ画像を抽出するとともに、前記サムネイル画像生成手段は、前記ページ画像抽出手段が抽出した前記最も特徴的なページ画像と前記先頭ページ画像とを結合した結合ページ画像のサムネイル画像を生成することが好ましい。 The page image extraction unit extracts a top page image from the document image in addition to the most characteristic page image, and the thumbnail image generation unit extracts the most characteristic image extracted by the page image extraction unit. It is preferable to generate a thumbnail image of a combined page image obtained by combining a simple page image and the first page image.
前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。また、前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、予め決められた種類のオブジェクトを最も多く含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。 It is preferable that the page image extraction unit extracts, as the most characteristic page image, a page image including the most objects other than text among the page images of the document image. Further, it is preferable that the page image extracting means extracts, as the most characteristic page image, a page image including the largest number of predetermined types of objects among the page images of the document image.
前記ページ画像抽出手段は、前記ドキュメント画像の各ページ画像の中で、テキスト以外のオブジェクトであってかつ最もサイズの大きいオブジェクトを含むページ画像を、前記最も特徴的なページ画像として抽出することが好ましい。また、前記テキスト以外のオブジェクトは、写真、図形、線画、表であることが好ましい。 Preferably, the page image extraction means extracts, as the most characteristic page image, a page image including an object other than text and having the largest size among the page images of the document image. . Moreover, it is preferable that objects other than the said text are a photograph, a figure, a line drawing, and a table | surface.
また、本発明の検索システムは、請求項1ないし7いずれか1項記載の検索サーバと、ネットワークを介して前記検索サーバと接続され、前記検索サーバに対してドキュメントの検索要求を行うとともに、前記検索要求に応答して前記検索サーバから配信される前記検索結果を受信して表示部に表示する携帯端末と、を備えることを特徴とする。
The search system of the present invention is connected to the search server according to any one of
前記携帯端末には、前記表示部に表示された前記検索結果の中から任意の前記抽出テキストまたは前記サムネイル画像を選択するための選択手段と、前記選択手段によって選択された前記抽出テキストまたは前記サムネイル画像に対応するドキュメントの配信要求を、前記検索サーバへ送信する配信要求送信手段とが設けられており、前記検索サーバの前記受付手段は、前記携帯端末からの前記配信要求を受け付けるとともに、前記配信手段は、前記受付手段が受け付けた前記配信要求に対応する前記ドキュメント画像を、当該配信要求の要求元の前記携帯端末へ配信することが好ましい。 The portable terminal includes a selection unit for selecting any of the extracted text or the thumbnail image from the search results displayed on the display unit, and the extracted text or the thumbnail selected by the selection unit. A distribution request transmission unit configured to transmit a distribution request for a document corresponding to an image to the search server, and the reception unit of the search server receives the distribution request from the portable terminal and the distribution Preferably, the means distributes the document image corresponding to the distribution request received by the receiving means to the portable terminal that is the request source of the distribution request.
また、本発明の検索サーバの制御方法は、携帯端末から、ドキュメントの検索要求を受け付ける受付ステップと、前記受付ステップで受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、前記検索要求に対応する前記ドキュメントを取得するドキュメント取得ステップと、前記ドキュメント取得ステップで取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成ステップと、前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出ステップと、前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定ステップと、前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出ステップと、前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出ステップと、前記ページ画像抽出ステップで抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成ステップと、前記テキスト抽出ステップで抽出した抽出テキスト、及び前記サムネイル画像生成ステップで生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信ステップと、を有することを特徴とする。 The search server control method of the present invention includes a reception step of receiving a document search request from a portable terminal, and a document storage unit that stores a plurality of the documents based on the search request received in the reception step. A document acquisition step for acquiring the document corresponding to the search request, a document image generation step for generating a document image composed of a plurality of page images by imaging the document acquired in the document acquisition step for each page, and the document Based on the feature amount extraction step for extracting the feature amount indicating the type, number, and size of the object included in each page image from each page image of the image, and the document image, Contains non-text objects A determination step for determining whether or not there is a text document image, and if the determination step determines that the document image is the text document image, a predetermined number of characters are extracted from the first page of the original document And extracting the most characteristic page image from the document image based on the extraction result of the feature amount when the document image is determined not to be the text document image in the determination step and the determination step. An extraction step; a thumbnail image generation step for generating a thumbnail image from the page image extracted in the page image extraction step; an extracted text extracted in the text extraction step; and the thumbnail generated in the thumbnail image generation step. Images, and having a a distribution step of distributing to the requesting said mobile terminal of said search request as a search result document.
本発明の検索サーバ及びその制御方法、並びに検索システムは、携帯端末からの検索要求に対応するドキュメントを画像化して、このドキュメント画像がテキストドキュメント画像である場合には元のドキュメントの先頭ページからテキストを抽出し、テキストドキュメント画像でない場合にはドキュメント画像の中で最も特徴的なページ画像を基にサムネイル画像を生成して、これらをドキュメントの検索結果として携帯端末に配信するようにしたので、ドキュメント画像がテキストドキュメント画像であった場合でも、その内容を示すテキストを、ユーザが判別可能な大きさで携帯端末に表示させることができる。その結果、ユーザは、ドキュメントの種類に関らず、その内容を容易に把握することができる。 The search server, the control method thereof, and the search system according to the present invention image a document corresponding to a search request from a mobile terminal, and when the document image is a text document image, the text is started from the first page of the original document. If it is not a text document image, thumbnail images are generated based on the most characteristic page image in the document image, and these are distributed to mobile devices as document search results. Even when the image is a text document image, the text indicating the content can be displayed on the portable terminal in a size that can be identified by the user. As a result, the user can easily grasp the contents regardless of the type of the document.
抽出テキスト及びサムネイル画像を、それぞれ元のドキュメントと関連付けて格納するようにしたので、一度取得したドキュメントについては、抽出テキストの抽出及びサムネイル画像の生成を再度行う必要がなくなる。その結果、携帯端末に迅速に検索結果を配信することができる。 Since the extracted text and the thumbnail image are stored in association with the original document, it is not necessary to extract the extracted text and generate the thumbnail image again for the document once acquired. As a result, the search result can be quickly distributed to the mobile terminal.
図1に示すように、本発明の検索システムに相当するドキュメント閲覧システム10は、ドキュメント配信サーバ(検索サーバ)11と、携帯電話機(携帯端末)12と、ファイルサーバ(ドキュメント格納部)13とで構成されている。
As shown in FIG. 1, a
携帯電話機12は、基地局14と無線通信し、基地局14を介してインターネット15にアクセスすることにより、インターネット15を介してドキュメント配信サーバ11と接続される。これにより、ドキュメント配信サーバ11と携帯電話機12とは、インターネット15を介して相互に通信を行うことができる。
The
ファイルサーバ13は、企業のネットワーク内に配置されたサーバであり、この企業内で各種アプリケーションソフトを用いて作成された種々の文書ファイル(ドキュメント)17を保管する。このファイルサーバ13は、企業のネットワークを介してドキュメント配信サーバ11と接続される。これにより、ドキュメント配信サーバ11とファイルサーバ13とは、企業のネットワークを介して相互に通信を行うことができる。
The
ドキュメント配信サーバ11は、携帯電話機12から、任意の検索キーを含む文書ファイル17の検索要求を受け付けた際に、この検索キーを含む全文書ファイル17をファイルサーバ13から取得して検索結果を作成し、この検索結果を携帯電話機12に配信する。また、ドキュメント配信サーバ11は、携帯電話機12から、検索結果に含まれる文書ファイル17の配信の要求を受け付けたときは、その文書ファイル17を画像化した文書画像18を携帯電話機12に配信する。
When the
携帯電話機12には、各種の情報を表示するための液晶ディスプレイ20と、各種の操作指示を入力するための操作部(選択手段)21とが設けられている。携帯電話機12は、操作部21を介して入力されたユーザからの指示に応じてドキュメント配信サーバ11にアクセスし、ドキュメント配信サーバ11から取得した情報を液晶ディスプレイ20に出力する。
The
ドキュメント配信サーバ11には、CPU22と、メモリ23と、HDD24と、ネットワークI/F(受付手段、ドキュメント取得手段、配信手段)25と、画像生成部26と、特徴量抽出部27と、テキスト文書判定部28と、ページ画像抽出部29と、サムネイル画像生成部30と、テキスト抽出部31と、検索結果DB(格納手段)32とが設けられている。また、これらの各部は、バス33を介して互いに接続されている。
The
CPU22は、ドキュメント配信サーバ11の各部を統括的に制御する。メモリ23は、CPU22が制御を行う過程で生じた種々のデータを一時的に格納する。HDD24には、ドキュメント配信サーバ11を制御するための各種のプログラムやデータが格納されている。CPU22は、これらのプログラムやデータをHDD24から読み出してメモリ23に展開し、これを逐次処理することによってドキュメント配信サーバ11の制御を行う。
The
メモリ23には、ドキュメント配信サーバ11が携帯電話機12から検索要求を受け付けた時に、文書ファイル格納部35、文書画像格納部36、及び検索結果表示用データ格納部(以下、単に表示用データ格納部という)37が構築される。文書ファイル格納部35には、ファイルサーバ13から取得した文書ファイル17が格納される。文書画像格納部36には、文書ファイル格納部35に格納された文書ファイル17を画像化した文書画像18が格納される。表示用データ格納部37には、検索要求元の携帯電話機12に配信する検索結果の表示用データが格納される。
When the
また、メモリ23には、文書画像対応テーブル39と検索結果対応テーブル40とが格納されている。文書画像対応テーブル39は、文書ファイル格納部35内の文書ファイル17と、文書画像格納部36内の文書画像18との対応関係を示す。検索結果対応テーブル40は、文書画像格納部36内の文書画像18と、表示用データ格納部37内の表示用データとの対応関係を示す。
Further, the
ネットワークI/F25は、インターネット15や社内のネットワークを介して、携帯電話機12、ファイルサーバ13のそれぞれと各種データの遣り取りを行う。ネットワークI/F25が携帯電話機12から受信するデータは、文書ファイル17の検索要求や配信要求であり、逆に、ネットワークI/F25が携帯電話機12へ送信するデータは、文書ファイル17の検索結果や文書画像18である。
The network I /
また、ネットワークI/F25がファイルサーバ13へ送信するデータは、携帯電話機12から受け付けた検索要求に基づいて生成された文書ファイル17の検索要求(以下、サーバ検索要求という)と、文書ファイル17の配信要求(以下、サーバ配信要求という)である。また、ネットワークI/F25がファイルサーバ13から受信するデータは、サーバ検索要求に対応した文書ファイル17の検索結果(以下、サーバ検索結果という)と、サーバ配信要求に対応した文書ファイル17である。
Data transmitted from the network I /
画像生成部26は、文書ファイル格納部35に格納された文書ファイル17を読み出し、この文書ファイル17を、仮想プリンタドライバにより仮想印刷することにより、文書ファイル17をページ毎に画像化して、複数のページ画像からなる文書画像18を生成する。各ページ画像は、携帯電話機12で標準的な大きさの液晶ディスプレイ20の解像度にあわせて生成される。なお、文書ファイル17をページ毎に画像化する方法は、仮想印刷に限定されるものではなく、公知の各種方法を用いてよい。画像生成部26が生成した文書画像18は、文書画像格納部36に格納される。
The
特徴量抽出部27は、文書画像格納部36に格納された文書画像18を読み出し、この文書画像18をページ画像毎に解析して、各ページ画像から特徴量を抽出する。この特徴量は、各ページ画像にそれぞれ含まれるオブジェクト(例えば、テキスト、写真、グラフィックなどの表示対象)の種類、数、大きさ、位置等を示すものである。
The feature amount extraction unit 27 reads the
テキスト文書判定部28は、文書画像18のページ画像毎に求められた特徴量に基づき、文書画像18が、テキスト以外のオブジェクトを含まないテキスト文書ファイルの文書画像(以下、テキスト文書画像という)であるか否かを判定する。
The text
ページ画像抽出部29は、テキスト文書画像以外の文書画像18から、先頭ページのページ画像(以下、先頭ページ画像という)と、各ページ画像の中で最も特徴的なページ画像(以下、代表ページ画像という)とを抽出する。代表ページ画像は、ページ画像毎に求められた特徴量に基づき決定される。
The page image extraction unit 29 selects the page image of the first page (hereinafter referred to as the first page image) from the
具体的に、ページ画像抽出部29は、テキスト以外の写真等のオブジェクトを最も多く含むページ画像を代表ページとして決定する。なお、オブジェクトを最も多く含むページ画像が複数ある場合は、よりサイズの大きいオブジェクトを含むページ画像を代表ページとして決定する。また、ページ画像抽出部29は、先頭ページ画像を代表ページ画像として決定した場合、先頭ページ画像のみを抽出する。 Specifically, the page image extraction unit 29 determines a page image including the most objects such as photographs other than text as a representative page. When there are a plurality of page images including the largest number of objects, a page image including a larger object is determined as the representative page. Further, the page image extraction unit 29 extracts only the first page image when the first page image is determined as the representative page image.
サムネイル画像生成部30は、ページ画像抽出部29により抽出された先頭ページ画像と代表ページ画像とを結合して結合ページ画像を生成して、この結合ページ画像からサムネイル画像42を生成する。なお、代表ページとして先頭ページ画像のみが抽出された場合、この先頭ページ画像から直接サムネイル画像42が生成される。このサムネイル画像42は、検索結果の表示用データとして、表示用データ格納部37に格納される。
The thumbnail image generation unit 30 combines the first page image extracted by the page image extraction unit 29 and the representative page image to generate a combined page image, and generates a
テキスト抽出部31は、テキスト文書画像であると判定された文書画像18の元の文書ファイル17を文書ファイル格納部35から検索して、この文書ファイル17の先頭ページから所定文字数のテキスト(以下、抽出テキストという)43を抽出する。抽出テキスト43は、検索結果の表示用データとして、表示用データ格納部37に格納される。先頭ページは文書ファイル17の表紙となるため、抽出テキスト43には文書ファイル17のタイトルが含まれることが多い。
The
検索結果保管DB32は、メモリ23に一時的に格納されている、文書ファイル格納部35内の文書ファイル17と、表示用データ格納部37内のサムネイル画像42や抽出テキスト43とを互いに関連付けて格納する。
The search
図2に示すように、文書画像対応テーブル39は、文書IDと、文書ファイル17のファイル名と、文書画像18のファイル名と、ページ画像のファイル名とを関連付けて記憶している。文書IDは、各文書ファイル17を一意に識別するために付された識別情報であり、文書ファイル17がファイルサーバ13に保管される際に、ファイルサーバ13によって文書ファイル17に付される。ページ画像のファイル名は、例えば、文書ファイル17のファイル名にページに対応した通し番号を付したものである。
As shown in FIG. 2, the document image correspondence table 39 stores the document ID, the file name of the
図3に示すように、検索結果対応テーブル40は、文書IDと、サムネイル画像42のファイル名または抽出テキスト43のファイル名とを関連付けて記憶している。これにより、検索結果対応テーブル40を参照することで、サムネイル画像42または抽出テキスト43に対応する文書IDを識別することができる。さらに、この文書IDと文書画像対応テーブル39に基づき、サムネイル画像42または抽出テキスト43に対応する文書画像18を識別することができる。
As shown in FIG. 3, the search result correspondence table 40 stores the document ID and the file name of the
次に、図4を用いて、特徴量抽出部27による特徴量抽出処理について説明する。ここでは、文書画像18の第P(Pは1以上の自然数)ページ目及び第(P+1)ページ目のページ画像18aからそれぞれ特徴量を抽出する場合を例に挙げて説明を行う。
Next, the feature amount extraction processing by the feature amount extraction unit 27 will be described with reference to FIG. Here, description will be made by taking as an example a case in which feature amounts are extracted from the
特徴量抽出部27は、文書画像格納部36から各ページ画像18aをそれぞれ読み出し、各ページ画像18aを、オブジェクトの種類毎に矩形ブロックに分割する。オブジェクトの種類は、上述したように、テキスト、写真、グラフィック(図形、線画、表など)等である。
The feature amount extraction unit 27 reads each
具体的に、特徴量抽出部27は、各ページ画像18aを白黒に2値化し、黒画素輪郭で囲まれる画素塊を抽出する。次いで、特徴量抽出部27は、抽出した黒画素塊の大きさを評価し、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡を行う。そして、この白画素塊に対する大きさ評価、その内部の黒画素塊の輪郭追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡を行う。なお、画素塊の大きさは、例えば画素塊の面積によって評価される。
Specifically, the feature amount extraction unit 27 binarizes each
特徴量抽出部27は、上述のようにして得られた画素塊に外接する矩形ブロックを生成し、矩形ブロックの大きさ及び形状に基づき、矩形ブロックの種類を判定する。例えば、縦横比が1に近く、大きさが一定の範囲の矩形ブロックを、文字に相当する文字ブロックとする。そして、近接する文字ブロックが規則正しく整列しているときに、これら文字ブロックを纏めた新たな矩形ブロックを生成し、この矩形ブロックをテキスト領域矩形ブロックとする。 The feature amount extraction unit 27 generates a rectangular block circumscribing the pixel block obtained as described above, and determines the type of the rectangular block based on the size and shape of the rectangular block. For example, a rectangular block having an aspect ratio close to 1 and a fixed size is set as a character block corresponding to a character. When adjacent character blocks are regularly arranged, a new rectangular block in which these character blocks are collected is generated, and this rectangular block is set as a text area rectangular block.
また、特徴量抽出部27は、扁平な画素塊、あるいは一定大きさ以上で、かつ四角形の白画素塊に外接する矩形ブロックが重ならないで並んでいる黒画素塊をグラフィック領域矩形ブロック、それ以外の不定形の画素塊を写真領域矩形ブロックとする。 Further, the feature amount extraction unit 27 converts a black pixel block that is a flat pixel block or a rectangular block that is not less than a certain size and that is not overlapped with a rectangular white pixel block into a graphic area rectangular block. The irregular pixel block is defined as a photographic area rectangular block.
このようにして、特徴量抽出部27は、第Pページ目のページ画像18aをB1〜B5の5つの矩形ブロックに分割する。また、第(P+1)ページのページ画像18aについては、1つの矩形ブロックB1が生成される。次いで、特徴量抽出部27は、上述のようにして生成された各矩形ブロックのそれぞれについて、その種類等を示すブロック情報45(図5参照)をページ画像18a毎に生成する。
In this way, the feature amount extraction unit 27 divides the
図5に示すように、各矩形ブロックB1〜B5のブロック情報45には、矩形ブロックの種類、位置のX座標及びY座標、幅W、高さH等が含まれる。矩形ブロックの種類には、上述のテキスト領域矩形ブロックを示す「テキスト」、グラフィック領域矩形ブロックを示す「グラフィック」、写真領域矩形ブロックを示す「写真」のいずれかが入力される。
As shown in FIG. 5, the
X座標、Y座標は、各ページ画像18aの任意の点(例えば左上隅)を原点としたときの、各矩形ブロックB1〜B5の原点(例えば左上隅)のX座標、Y座標である。また、幅W、高さHは、各矩形ブロックB1〜B5のX方向の幅、Y方向の幅であり、例えば画素数などで表される。
The X and Y coordinates are the X and Y coordinates of the origin (for example, the upper left corner) of each of the rectangular blocks B1 to B5 when the arbitrary point (for example, the upper left corner) of each
特徴量抽出部27は、文書画像18の全ページ画像18aについて、その特徴量としてブロック情報45を求める。各ページ画像18aのブロック情報45を参照することで、各ページ画像18aに含まれるオブジェクトの種類、数、位置、大きさを判別することができる。
The feature amount extraction unit 27 obtains
図6に示すように、検索結果保管DB32には、文書ファイル格納部47と、表示用データ格納部48とが構築されるとともに、DB情報テーブル49が格納されている。文書ファイル格納部47には、メモリ23の文書ファイル格納部35に一時的に格納された文書ファイル17が格納される。表示用データ格納部48には、表示用データ格納部37に一時的に格納されたサムネイル画像42や抽出テキスト43が格納される。
As shown in FIG. 6, in the search
DB情報テーブル49は、文書IDと、文書ファイル格納部47内の文書ファイル17のファイル名と、表示用データ格納部48内のサムネイル画像42または抽出テキスト43のファイル名とを関連付けて記憶している。これにより、DB情報テーブル49を参照することで、ファイルサーバ13から既に取得済みの文書ファイル17、及びこの文書ファイル17に対応するサムネイル画像42または抽出テキスト43を容易に判別することができる。
The DB information table 49 stores the document ID, the file name of the
図7に示すように、CPU22は、HDD24から読み出したプログラムを逐次実行することで、送受信制御部51、確認制御部52、文書ファイル取得制御部53、メモリアクセス部54、DBアクセス部(読出手段)55として機能する。
As shown in FIG. 7, the
送受信制御部51は、ネットワークI/F25を制御して、携帯電話機12やファイルサーバ13との間での各種データの遣り取りを行う。このデータの遣り取りは、大別して4段階に分けられる。第1段階において、送受信制御部51は、携帯電話機12からの文書ファイル17の検索要求を受け付けたときに、ファイルサーバ13に対してサーバ検索要求を送信する。また、送受信制御部51は、サーバ検索要求に応答してファイルサーバ13から送信されたサーバ検索結果を確認制御部52に送る。
The transmission / reception control unit 51 controls the network I /
第2段階において、送受信制御部51は、ファイルサーバ13から文書ファイル17を取得する取得指令を受け付けた時に、ファイルサーバ13に対して文書ファイル17のサーバ配信要求を送信する。また、送受信制御部51は、サーバ配信要求に応じてファイルサーバ13から送信された文書ファイル17をメモリアクセス部54に送る。
In the second stage, the transmission / reception control unit 51 transmits a server distribution request for the
第3段階において、送受信制御部51は、携帯電話機12からの検索要求に対応する検索結果として、表示用データ格納部37内のサムネイル画像42や抽出テキスト43を携帯電話機12に送信する。また、第4段階において、送受信制御部51は、携帯電話機12から文書ファイル17の配信要求を受け付けたときに、この配信要求に対応する文書画像18を携帯電話機12に送信する。
In the third stage, the transmission / reception control unit 51 transmits the
確認制御部52は、送受信制御部51から取得したサーバ検索結果に基づき、検索結果保管DB32のDB情報テーブル49を参照して、ファイルサーバ13で検索された文書ファイル17が、既に文書ファイル格納部47に格納されているか否かを確認する。
The confirmation control unit 52 refers to the DB information table 49 of the search
文書ファイル取得制御部53は、ファイルサーバ13から文書ファイル17を取得する取得指令を、送受信制御部51に対して行う。この際に、文書ファイル取得制御部53は、確認制御部52の確認結果に基づき、既に取得済みの文書ファイル17をファイルサーバ13から取得しないように指令を行う。
The document file acquisition control unit 53 issues an acquisition command for acquiring the
メモリアクセス部54は、メモリ13へのデータ(文書ファイル17、文書画像18、サムネイル画像42、抽出テキスト43)の格納やメモリ13からのデータの読み出し、並びに、文書画像対応テーブル39や検索結果対応テーブル40の更新を行う。
The memory access unit 54 stores data (
DBアクセス部55は、検索結果保管DB32へのデータ(文書ファイル17、サムネイル画像42、抽出テキスト43)の格納や、検索結果保管DB32からのデータの読み出し、並びにDB情報テーブル49の更新を行う。データの登録やテーブルの更新は、新たなサムネイル画像42または抽出テキスト43が表示用データ格納部37に格納される度に実行される。また、データやテーブルの読み出しは、確認制御部52が、文書ファイル格納部47に格納済みの文書ファイル17が有りと判定する度に実行される。
The DB access unit 55 stores data (
図8に示すように、携帯電話機12は、液晶ディスプレイ20及び操作部21の他に、CPU57と、メモリ58と、液晶ドライバ59と、無線通信部(配信要求送信手段)60とを備えている。これらの各部は、バス61を介して互いに接続されている。メモリ58には、携帯電話機12を制御するための各種のプログラムやデータ、及び文書ファイル17の検索及び閲覧に用いられるブラウザソフトなどを記憶したROM領域と、制御の過程で生じた種々のデータを一時的に記憶するRAM領域とが設けられている。
As shown in FIG. 8, the
CPU57は、メモリ58から各種のプログラムを読み出し、これを逐次処理することによって携帯電話機12の各部を統括的に制御する。無線通信部60は、基地局14及びインターネット15を介して、ドキュメント配信サーバ11との間で各種データの遣り取りを行う。
The
液晶ドライバ59は、CPU57からの制御信号に応じて種々の画像データをメモリ58から読み出し、その画像データをアナログのコンポジット信号に変換して液晶ディスプレイ20に出力する。液晶ディスプレイ20には、ブラウザソフトを起動したときに表示される文書ファイル17の検索画面、ドキュメント配信サーバ11から配信されるサムネイル画像42や抽出テキスト43などの検索結果を表示する検索結果一覧画面、及び文書画像18などが表示される。
The
CPU57には、操作部21が接続されている。これにより、ユーザからの操作指示が操作部21を介してCPU57に入力される。CPU57は、液晶ディスプレイ20に文書ファイル17の検索画面が表示されているときに、操作部21から検索キーが入力されると、この検索キーを含む文書ファイル17の検索要求を生成し、この検索要求を無線通信部60に送る。また、CPU57は、液晶ディスプレイ20に文書ファイル17の検索結果一覧画面(図15参照)が表示されているときに、操作部21で任意のサムネイル画像42または抽出テキスト43が選択されると、このサムネイル画像42または抽出テキスト43に対応する文書ファイル17の配信要求を生成し、この配信要求を無線通信部60に送る。
The
図9に示すように、ファイルサーバ13は、CPU63と、メモリ64と、ネットワークI/F65と、HDD66とを備えている。また、これらの各部は、バス67を介して互いに接続されている。
As shown in FIG. 9, the
CPU63は、ファイルサーバ13の各部を統括的に制御する。メモリ64は、CPU63が制御を行う過程で生じた種々のデータを一時的に記憶する。HDD66には、ファイルサーバ13を制御するための各種のプログラムやデータの他に、複数の文書ファイル17が格納されている。CPU63は、これらのプログラムやデータをHDD66から読み出してメモリ64に展開し、これを逐次処理することによってファイルサーバ13の制御を行う。
The
ネットワークI/F65は、社内のネットワークを介して、ドキュメント配信サーバ11と各種データの遣り取りを行う。
The network I /
CPU63は、HDD66から読み出したプログラムを逐次実行することで、検索部69、文書ファイル読出部70として機能する。検索部69は、ネットワークI/F65を介してドキュメント配信サーバ11からサーバ検索要求を受信したときに、このサーバ検索要求に対応する文書ファイル17をHDD66内から検索し、この検索結果をサーバ検索結果として、ネットワークI/F65に送信する。
The
文書ファイル読出部70は、ネットワークI/F65を介してドキュメント配信サーバ11から文書ファイル17のサーバ配信要求を受信したときに、このサーバ配信要求に対応する文書ファイル17をHDD66から読み出して、ネットワークI/F65に送信する。
When the document file reading unit 70 receives a server distribution request for the
次に、図10を用いて、ドキュメント配信サーバ11が、携帯電話機12からの検索要求に対応する文書ファイル17をファイルサーバ13から取得する処理について説明する。ドキュメント配信サーバ11の送受信制御部51は、携帯電話機12からの検索要求をネットワークI/F25で受け付けた時に、この検索要求に基づき、ネットワークI/F25にサーバ検索要求を送る。このサーバ検索要求は、ネットワークI/F25を介して、ファイルサーバ13のネットワークI/F65へ送信される。
Next, a process in which the
ファイルサーバ13の検索部69は、ネットワークI/F65がサーバ検索要求を受けたときに作動し、このサーバ検索要求に含まれる検索キーを含む文書ファイル17をHDD66内から検索する。そして、検索部69は、検索した文書ファイル17のファイル名及び文書IDの一覧を生成し、この一覧をサーバ検索結果として、ネットワークI/F65に送る。このサーバ検索結果は、ネットワークI/F65を介して、ドキュメント配信サーバ11のネットワークI/F25に送信される。
The search unit 69 of the
ドキュメント配信サーバ11の送受信制御部51は、ネットワークI/F25で受信したサーバ検索結果を確認制御部52に送る。確認制御部52は、検索結果保管DB32のDB情報テーブル49を参照して、サーバ検索結果に含まれるファイル名及び文書IDに一致する文書ファイル17が文書ファイル格納部47に格納されているか否かを確認する。次いで、確認制御部52は、この確認結果をDBアクセス部55と文書ファイル取得制御部53にそれぞれ送信する。
The transmission / reception control unit 51 of the
DBアクセス部55は、文書ファイル格納部47に格納されている文書ファイル17がサーバ検索結果に含まれている場合、この文書ファイル17を文書ファイル格納部47から読み出してメモリアクセス部54に送る。この文書ファイル17は、メモリアクセス部54によりメモリ23の文書ファイル格納部35に格納される。
When the
また、文書ファイル取得制御部53は、上述の確認結果に基づき、文書ファイル格納部47に格納されている文書ファイル17を除いた文書ファイル17の取得指令を、送受信制御部51に対して発する。この取得指令を受けて、送受信制御部51は、対応する文書ファイル17のファイル名及び文書IDを含むサーバ配信要求を生成して、ネットワークI/F25に送る。このサーバ配信要求は、ネットワークI/F25を介してネットワークI/F65へ送信される。
Further, the document file acquisition control unit 53 issues an acquisition command for the
ファイルサーバ13の文書ファイル読出部70は、ネットワークI/F65がサーバ配信要求を受けたときに作動し、このサーバ配信要求に対応する全文書ファイル17をHDD66から読み出して、ネットワークI/F65に送る。文書ファイル17は、ネットワークI/F65を介してネットワークI/F25に送信される。
The document file reading unit 70 of the
ドキュメント配信サーバ11の送受信制御部51は、ネットワークI/F25で受信した文書ファイル17をメモリアクセス部54に送る。メモリアクセス部54は、文書ファイル17をメモリ23の文書ファイル格納部35に格納する。以上でファイルサーバ13からの文書ファイル17の取得が完了する。
The transmission / reception control unit 51 of the
次に、図11に示すフローチャートを用いて、携帯電話機12で文書ファイル17を検索及び閲覧する際の処理の流れについて説明を行う。携帯電話機12の操作部21を操作して、ブラウザソフトを起動した後、液晶ディスプレイ20に表示される検索画面に検索キーを入力する。CPU57は、入力された検索キーを含む検索要求を生成し、この検索要求を無線通信部60に送る。この検索要求は、無線通信部60から基地局14及びインターネット15を経由して、ドキュメント配信サーバ11のネットワークI/F25で受信される。
Next, the flow of processing when searching and browsing the
ドキュメント配信サーバ11は、上述の図10で説明した文書ファイル17の取得処理を実行する。これにより、メモリ23の文書ファイル格納部35には、検索要求に対応する文書ファイル17が格納される。この文書ファイル17の取得処理後、CPU22は、画像生成部26に対して画像化指令を発する。
The
画像生成部26は、CPU22の画像化指令を受けて、メモリアクセス部54を介して文書ファイル格納部35から文書ファイル17を順次読み出すとともに、文書ファイル17を順次仮想印刷して、文書画像18を順次生成する。
In response to the imaging instruction from the
メモリアクセス部54は、画像生成部26にて新たな文書画像18が生成される度に、この文書画像18をメモリ23の文書画像格納部36に格納する。また、これと同時に、メモリアクセス部54は、文書画像18のファイル名、及び元の文書ファイル17のファイル名と文書IDを文書画像対応テーブル39に記憶させる。
The memory access unit 54 stores the
全ての文書ファイル17についての文書画像18の生成が完了した後、個々の文書画像18から、検索結果として携帯電話機12に表示させるサムネイル画像42または抽出テキスト43(以下、適宜、両者をまとめて表示用データという)を生成する。
After the generation of the
最初に、CPU22のメモリアクセス部54は、文書画像格納部36から1つの文書画像18を読み出す。次いで、DBアクセス部55は、検索結果保管DB32内のDB情報テーブル49を参照して、読み出された文書画像18について既に表示用データが作成されているか否かを確認する。
First, the memory access unit 54 of the
既に表示用データが作成されている場合、DBアクセス部55は、検索結果保管DB32から対応する表示用データ及びその文書IDを読み出すとともに、メモリアクセス部54は、この表示用データをメモリ23の表示用データ格納部37に格納する。また、メモリアクセス部54は、表示用データのファイル名及び文書IDを検索結果対応テーブル40に記憶させる。これにより、一度作成した表示用データを再度作成する必要がなくなるので、検索結果を迅速に携帯電話機12に配信することができる。
If display data has already been created, the DB access unit 55 reads the corresponding display data and its document ID from the search
一方、図12に示すように、表示用データが作成されていない場合、CPU22は、特徴量抽出部27に対して特徴量抽出指令を発する。この特徴量抽出指令を受けて、特徴量抽出部27は、上述の図4及び図5を用いて説明したように、文書画像18の全ページ画像18aについて、それぞれ特徴量としてブロック情報45を求める。特徴量抽出部27は、求めたブロック情報45をテキスト文書判定部28に送る。次いで、CPU22は、テキスト文書判定部28に対して判定指令を発する。
On the other hand, as shown in FIG. 12, when display data is not created, the
テキスト文書判定部28は、CPU22からの判定指令を受けて、各ページ画像18aのブロック情報45に基づき、各ページ画像18aに含まれるオブジェクトの種類、数、位置、大きさを判別することにより、文書画像18がテキスト文書画像であるか否かを判定する。テキスト文書判定部28は、判定結果をCPU22に送る。この判定結果に基づき、CPU22は、文書画像18がテキスト文書画像ではない場合、ページ画像抽出部29に対して画像抽出指令を発する。
The text
図13に示すように、ページ画像抽出部29は、CPU22からの画像抽出指令を受けて、上述のページ画像18a毎のブロック情報45に基づき、文書画像18の各ページ画像18aの中から写真やグラフィック等のオブジェクトを最も多く含むページ画像18aを代表ページ画像18a−Dとして決定する。なお、代表ページ画像18a−Dは、先頭ページ画像18a−S以外で決定されたものとして説明を行う。
As illustrated in FIG. 13, the page image extraction unit 29 receives an image extraction command from the
次いで、ページ画像抽出部29は、文書画像18から、先頭ページ画像18a−Sと、代表ページ画像18a−Dとをそれぞれ抽出して、サムネイル画像生成部30に送る。そして、CPU22は、サムネイル画像生成部30に対してサムネイル画像生成指令を発する。
Next, the page image extraction unit 29 extracts the
サムネイル画像生成部30は、CPU22からのサムネイル画像生成指令を受けて、先頭ページ画像18a−Sと代表ページ画像18a−Dとを結合して結合ページ画像72を生成し、この結合ページ画像72からサムネイル画像42を生成する。サムネイル画像42は、メモリアクセス部54により、メモリ23内の表示用データ格納部37に格納される。また、この時にメモリアクセス部54は、サムネイル画像42のファイル名、及び元の文書画像18に対応する文書IDを検索結果対応テーブル40に記憶させる。
In response to a thumbnail image generation command from the
次いで、メモリアクセス部54は、表示用データ格納部37に新たに記憶されたサムネイル画像42を読み出す。また、メモリアクセス部54は、検索結果対応テーブル40及び文書画像対応テーブル39を参照して、サムネイル画像42に対応する元の文書ファイル17を検索し、この文書ファイル17を文書ファイル格納部35から読み出す。
Next, the memory access unit 54 reads the
メモリ23から読み出されたサムネイル画像42及び文書ファイル17は、DBアクセス部55により、検索結果保管DB32の文書ファイル格納部47、表示用データ格納部48にそれぞれ格納される。また、DBアクセス部55は、サムネイル画像42のファイル名、文書ファイル17のファイル名、及び文書IDをDB情報テーブル49に記憶させる。これにより、サムネイル画像42と元の文書ファイル17が互いに関連付けられる。
The
一方、図12に戻って、CPU22は、テキスト文書判定部28からの判定結果に基づき、文書画像18がテキスト文書画像である場合、テキスト抽出部31に対してテキスト抽出指令を発する。このテキスト抽出指令を受けて、テキスト抽出部31は、文書画像対応テーブル39を参照して、文書画像18の元の文書ファイル17を検索し、この文書ファイル17を文書ファイル格納部35から読み出す。
On the other hand, returning to FIG. 12, based on the determination result from the text
次いで、図14に示すように、テキスト抽出部31は、文書ファイル17の先頭ページから、抽出テキスト43を抽出してメモリアクセス部54に送る。メモリアクセス部54は、抽出テキスト43を表示用データ格納部37に格納するとともに、そのファイル名と元の文書ファイル17の文書IDを検索結果対応テーブル40に記憶させる。
Next, as shown in FIG. 14, the
次いで、メモリアクセス部54は、表示用データ格納部37に新たに記憶された抽出テキスト43と、この抽出テキスト43に対応する元の文書ファイル17をメモリ23からそれぞれ読み出して、DBアクセス部55に送る。DBアクセス部55は、文書ファイル17及び抽出テキスト43を検索結果保管DB32の文書ファイル格納部47、表示用データ格納部48にそれぞれ格納する。また、DBアクセス部55は、抽出テキスト43のファイル名、文書ファイル17のファイル名、及び文書IDをDB情報テーブル49に記憶させる。これにより、抽出テキスト43と元の文書ファイル17が互いに関連付けられる。
Next, the memory access unit 54 reads the extracted
以下同様にして、全ての文書画像18について、特徴量の抽出、テキスト文書画像であるか否かの判定、サムネイル画像42または抽出テキスト43のいずれかの表示用データの格納が繰り返し実行される。
Similarly, for all the
図11に戻って、全ての文書画像18についての表示用データが表示用データ格納部37に格納された後、メモリアクセス部54は、表示用データ格納部37内の各表示用データを読み出し、これらを検索結果として送受信制御部51に送る。なお、この際に、各表示用データには元の文書ファイル17の文書IDが付される。
Returning to FIG. 11, after the display data for all the
送受信制御部51は、検索要求元の携帯電話機12を宛先として、検索結果をネットワークI/F25に送る。検索結果は、ネットワークI/F25等を介して、携帯電話機12の無線通信部60で受信された後、メモリ58に一旦記憶される。
The transmission / reception control unit 51 sends the search result to the network I /
携帯電話機12のCPU57は、液晶ドライバ59に対して表示指令を発する。この表示指令を受けて、液晶ドライバ59は、メモリ58内の検索結果を読み出し、この検索結果に含まれる全表示用データを配列した検索結果一覧画面74(図15参照)を、液晶ディスプレイ20に表示する。
The
図15に示すように、検索結果一覧画面74には、ドキュメント配信サーバ11によって検索されたサムネイル画像42や抽出テキスト43が一覧表示される。サムネイル画像42は、文書画像18中でも最も特徴的な代表ページ画像18a−Dに基に生成されているので、このサムネイル画像42に含まれる写真やグラフィック等に基づき、元の文書ファイル17の内容を容易に把握することができる。
As shown in FIG. 15, the search result list screen 74 displays a list of
抽出テキスト43は、携帯電話機12のメモリ58等に格納されている標準サイズのフォントを用いて表示される。これにより、抽出テキスト43は、ユーザが判別可能な大きさで液晶ディスプレイ20に表示される。上述したように、抽出テキスト43は、文書ファイル17の先頭ページから抽出されているため、文書ファイル17のタイトルを示すことが多い。その結果、抽出テキスト43の内容に基づき、文書ファイル17の内容を容易に把握することができる。
The extracted
一方、図16に示す比較例において、テキスト文書画像の任意のページ画像から生成されたサムネイル画像76を液晶ディスプレイ20に表示した場合、このサムネイル画像76中のテキストは、サムネイル画像76のサイズに合わせて縮小されてしまうので、テキストの内容を把握することが困難となる。このような比較例に対して、本発明では、文書画像18がテキスト文書画像の場合には、サムネイル画像の代わりに、元の文書ファイル17から抽出したテキストを表示するので、文書ファイル17の種類に関らずその内容を容易に把握することができる。
On the other hand, in the comparative example shown in FIG. 16, when a thumbnail image 76 generated from an arbitrary page image of the text document image is displayed on the
図11に戻って、携帯電話機12の操作部21で、検索結果一覧画面74の中から任意のサムネイル画像42または抽出テキスト43を選択する選択操作がなされると、CPU57は、選択されたサムネイル画像42または抽出テキスト43に対応する文書ファイル17の配信要求を生成する。この配信要求には、サムネイル画像42または抽出テキスト43のファイル名、及びこれらに付された文書IDが含まれる。CPU57は、文書ファイル17の配信要求を無線通信部60に送る。この検索要求は、無線通信部60等を介して、ドキュメント配信サーバ11のネットワークI/F25で受信される。
Returning to FIG. 11, when a selection operation for selecting an
ドキュメント配信サーバ11のCPU22は、ネットワークI/F25で受信した配信要求に含まれるファイル名及び文書IDに基づき、メモリ23の文書画像対応テーブル39を参照して、配信要求に対応する文書画像18を文書画像格納部36内から検索する。CPU22が検索した文書画像18は、上述の検索結果と同様にして携帯電話機12に送られ、そのメモリ58に一時的に記憶される。
The
携帯電話機12のCPU57は、メモリ58内の文書画像18を読み出し、液晶ドライバ59に送るとともに、この液晶ドライバ59に対して表示指令を発する。この表示指令を受けて、液晶ドライバ59は、文書画像18を液晶ディスプレイ20に表示する。以下、携帯電話機12の操作部21で、サムネイル画像42または抽出テキスト43の選択操作がなされる度に、同様の処理が繰り返し実行される。
The
上記実施形態では、ページ画像抽出部29が、文書画像18の中から、テキスト以外のオブジェクトを最も多く含むページ画像18aを代表ページ画像18a−Dとして抽出しているが、例えば、予め決められた種類のオブジェクト(具体的には写真など)を最も多く含むページ画像18aを、代表ページ画像18a−Dとして抽出してもよい。また、テキスト以外のオブジェクトの中で最もサイズの大きいオブジェクトを含むページ画像18aを、代表ページ画像18a−Dとして抽出してもよい。これら代表ページ画像18a−Dについても、ページ画像18a毎のブロック情報45から容易に判別可能である。
In the above embodiment, the page image extraction unit 29 extracts the
また、特徴量抽出部27による特量抽出時に、ページ画像18a内の色数を求めて、最も色数が多くなるページ画像18aを代表ページ画像18a−Dとして抽出してもよい。
Further, when the feature amount extraction unit 27 extracts the feature amount, the number of colors in the
上記実施形態では、ドキュメント配信サーバ11が携帯電話機12からの文書ファイル17の配信要求に応答して、これに対応する文書画像18を携帯電話機12に送信しているが、文書画像18のページ画像18a毎に携帯電話機12に送信してもよい。この場合は、携帯電話機12の操作部21でページ切替操作がなされるたびに、逐次新しいページ画像18aを携帯電話機12に送る。
In the above embodiment, the
上記実施形態では、テキスト抽出部31が文書ファイル17の先頭ページから抽出テキスト43を抽出しているが、先頭ページ以外からもテキストの抽出を行ってもよい。
In the above embodiment, the
上記実施形態では、ファイルサーバ13がドキュメント配信サーバ11と別体に設けられているが、ドキュメント配信サーバ11内に文書ファイル17を保管するデータベースを設けてもよい。
In the above embodiment, the
上記実施形態では、携帯電話機12を用いてドキュメント配信サーバ11との間でデータの遣り取りを行う場合について説明したが、携帯電話機12の代わりにPDAやノートパソコン等の各種携帯端末を用いる場合にも本発明を適用することができる。
In the above-described embodiment, the case where data is exchanged with the
10 ドキュメント閲覧システム
11 ドキュメント配信サーバ
12 携帯電話機
13 ファイルサーバ
17 文書ファイル
18 文書画像
20 液晶ディスプレイ
22,57,63 CPU
23 メモリ
26 画像生成部
27 特徴量抽出部
28 テキスト文書判定部
29 ページ画像抽出部
30 サムネイル画像生成部
31 テキスト抽出部
32 検索結果保管DB
42 サムネイル画像
43 抽出テキスト
DESCRIPTION OF
23
42
Claims (10)
前記受付手段が受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、当該検索要求に対応する前記ドキュメントを取得するドキュメント取得手段と、
前記ドキュメント取得手段が取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成手段と、
前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出手段と、
前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定手段と、
前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出手段と、
前記判定手段が前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出手段と、
前記ページ画像抽出手段が抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成手段と、
前記テキスト抽出手段が抽出した抽出テキスト、及び前記サムネイル画像生成手段が生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信手段と、
を備えることを特徴とする検索サーバ。 A receiving means for receiving a document search request from a mobile terminal;
Document acquisition means for acquiring the document corresponding to the search request from a document storage unit storing a plurality of the documents based on the search request received by the reception means;
A document image generating unit that images the document acquired by the document acquiring unit for each page and generates a document image including a plurality of page images;
Feature amount extraction means for extracting feature amounts indicating the type, number, and size of objects included in each page image from each page image of the document image;
Determination means for determining whether the document image is a text document image that does not include an object other than text based on the extraction result of the feature amount;
A text extraction means for extracting a predetermined number of characters from the first page of the original document when the determination means determines that the document image is the text document image;
A page image extracting unit for extracting a most characteristic page image from the document image based on the extraction result of the feature amount when the determining unit determines that the document image is not the text document image;
Thumbnail image generating means for generating a thumbnail image from the page image extracted by the page image extracting means;
Distribution means for distributing the extracted text extracted by the text extraction means and the thumbnail image generated by the thumbnail image generation means to the portable terminal that is the request source of the search request as a document search result;
A search server comprising:
前記受付手段が前記検索要求を受け付けたときに、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されているか否かを確認する確認手段と、
前記確認手段の確認結果に基づき、前記検索要求に対応する前記ドキュメントが前記格納手段に格納されている場合、当該ドキュメントに対応する前記抽出テキストまたは前記サムネイル画像を前記格納手段から読み出す読出手段とを備え、
前記配信手段は、前記読出手段が読み出した前記抽出テキストまたは前記サムネイル画像を前記携帯端末へ配信することを特徴とする請求項1記載の検索サーバ。 Storage means for storing the extracted text and the thumbnail image in association with the original document;
Confirmation means for confirming whether or not the document corresponding to the search request is stored in the storage means when the reception means accepts the search request;
Reading means for reading out the extracted text or the thumbnail image corresponding to the document from the storage means when the document corresponding to the search request is stored in the storage means based on the confirmation result of the confirmation means; Prepared,
The search server according to claim 1, wherein the distribution unit distributes the extracted text or the thumbnail image read by the reading unit to the portable terminal.
前記サムネイル画像生成手段は、前記ページ画像抽出手段が抽出した前記最も特徴的なページ画像と前記先頭ページ画像とを結合した結合ページ画像のサムネイル画像を生成することを特徴とする請求項1または2記載の検索サーバ。 The page image extraction means extracts a top page image from the document image in addition to the most characteristic page image,
3. The thumbnail image generating unit generates a thumbnail image of a combined page image obtained by combining the most characteristic page image extracted by the page image extracting unit and the first page image. The listed search server.
ネットワークを介して前記検索サーバと接続され、前記検索サーバに対してドキュメントの検索要求を行うとともに、前記検索要求に応答して前記検索サーバから配信される前記検索結果を受信して表示部に表示する携帯端末と、
を備えることを特徴とする検索システム。 A search server according to any one of claims 1 to 7,
Connected to the search server via a network, makes a document search request to the search server, receives the search result distributed from the search server in response to the search request, and displays it on the display unit Mobile devices that
A search system comprising:
前記検索サーバの前記受付手段は、前記携帯端末からの前記配信要求を受け付けるとともに、前記配信手段は、前記受付手段が受け付けた前記配信要求に対応する前記ドキュメント画像を、当該配信要求の要求元の前記携帯端末へ配信することを特徴とする請求項8記載の検索システム。 The portable terminal includes a selection unit for selecting any of the extracted text or the thumbnail image from the search results displayed on the display unit, and the extracted text or the thumbnail selected by the selection unit. A distribution request transmission unit configured to transmit a distribution request for a document corresponding to an image to the search server;
The accepting means of the search server accepts the delivery request from the mobile terminal, and the delivery means displays the document image corresponding to the delivery request accepted by the accepting means as a request source of the delivery request. The search system according to claim 8, wherein the search system is distributed to the mobile terminal.
前記受付ステップで受け付けた前記検索要求に基づき、前記ドキュメントを複数格納するドキュメント格納部から、前記検索要求に対応する前記ドキュメントを取得するドキュメント取得ステップと、
前記ドキュメント取得ステップで取得したドキュメントをページ毎に画像化して、複数のページ画像からなるドキュメント画像を生成するドキュメント画像生成ステップと、
前記ドキュメント画像の各ページ画像から、当該各ページ画像に含まれるオブジェクトの種類、数、及び大きさを示す特徴量を抽出する特徴量抽出ステップと、
前記特徴量の抽出結果に基づき、前記ドキュメント画像が、テキスト以外のオブジェクトを含まないテキストドキュメント画像であるか否かを判定する判定ステップと、
前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像であると判定した場合、元のドキュメントの先頭ページから、所定の文字数のテキストを抽出するテキスト抽出ステップと、
前記判定ステップで前記ドキュメント画像を前記テキストドキュメント画像でないと判定した場合、前記特徴量の抽出結果に基づき、当該ドキュメント画像の中から最も特徴的なページ画像を抽出するページ画像抽出ステップと、
前記ページ画像抽出ステップで抽出した前記ページ画像からサムネイル画像を生成するサムネイル画像生成ステップと、
前記テキスト抽出ステップで抽出した抽出テキスト、及び前記サムネイル画像生成ステップで生成した前記サムネイル画像を、ドキュメントの検索結果として前記検索要求の要求元の前記携帯端末へ配信する配信ステップと、
を有することを特徴とする検索サーバの制御方法。 A reception step for receiving a document search request from a mobile terminal;
A document acquisition step of acquiring the document corresponding to the search request from a document storage unit storing a plurality of the documents based on the search request received in the reception step;
A document image generation step for generating a document image including a plurality of page images by imaging the document acquired in the document acquisition step for each page;
A feature amount extraction step for extracting a feature amount indicating the type, number, and size of an object included in each page image from each page image of the document image;
A determination step of determining whether or not the document image is a text document image that does not include an object other than text, based on the extraction result of the feature amount;
If it is determined that the document image is the text document image in the determination step, a text extraction step of extracting a predetermined number of characters from the first page of the original document;
A page image extraction step of extracting the most characteristic page image from the document image based on the extraction result of the feature amount when it is determined that the document image is not the text document image in the determination step;
A thumbnail image generation step for generating a thumbnail image from the page image extracted in the page image extraction step;
A distribution step of distributing the extracted text extracted in the text extraction step and the thumbnail image generated in the thumbnail image generation step to the mobile terminal requesting the search request as a document search result;
A method for controlling a search server, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009294579A JP5345049B2 (en) | 2009-12-25 | 2009-12-25 | SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009294579A JP5345049B2 (en) | 2009-12-25 | 2009-12-25 | SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011134208A JP2011134208A (en) | 2011-07-07 |
JP5345049B2 true JP5345049B2 (en) | 2013-11-20 |
Family
ID=44346843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009294579A Expired - Fee Related JP5345049B2 (en) | 2009-12-25 | 2009-12-25 | SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5345049B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4254224A1 (en) | 2022-03-29 | 2023-10-04 | FUJIFILM Business Innovation Corp. | Information processing system and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2667352B2 (en) * | 1993-04-05 | 1997-10-27 | インターナショナル・ビジネス・マシーンズ・コーポレイション | Data retrieval apparatus and method |
JP2002041576A (en) * | 2000-07-31 | 2002-02-08 | Fuji Photo Film Co Ltd | Contents managing server, server system, and operation control method therefor |
JP2004110385A (en) * | 2002-09-18 | 2004-04-08 | Ricoh Co Ltd | Document displaying method, document display device, and program |
JP4906044B2 (en) * | 2005-09-28 | 2012-03-28 | キヤノン株式会社 | Information retrieval apparatus, control method therefor, computer program, and storage medium |
JP2009245061A (en) * | 2008-03-31 | 2009-10-22 | Mars Flag Corp | Retrieval server and computer program |
-
2009
- 2009-12-25 JP JP2009294579A patent/JP5345049B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4254224A1 (en) | 2022-03-29 | 2023-10-04 | FUJIFILM Business Innovation Corp. | Information processing system and program |
Also Published As
Publication number | Publication date |
---|---|
JP2011134208A (en) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8497883B2 (en) | Information display device | |
US8892990B2 (en) | Automatic creation of a table and query tools | |
US20180107876A1 (en) | Method and system for providing augmented reality contents by using user editing image | |
CN101751667B (en) | Image processing apparatus and image processing method | |
WO2007004519A1 (en) | Search system and search method | |
JP2007256529A (en) | Document image display device, information processor, document image display method, information processing method, document image display program, recording medium, and data structure | |
JP2007049388A (en) | Image processing apparatus and control method thereof, and program | |
KR20060083102A (en) | Image file management system having location information and method thereof, mobile terminal apparatus | |
JP2011138315A (en) | Image output device, system, method, and program | |
JP5598196B2 (en) | Information display device, information display system, information display method and program | |
JP5278921B2 (en) | Scan management system, scan management apparatus, control method thereof, and program | |
US9485387B2 (en) | Icon arrangement drawing creation system | |
EP2317424A1 (en) | Information display device | |
JP2010049158A (en) | Image processing device | |
CN111767488A (en) | Article display method, electronic device and storage medium | |
US20080231869A1 (en) | Method and apparatus for displaying document image, and computer program product | |
JP5355345B2 (en) | Document browsing system and control method thereof | |
US8839151B2 (en) | Device and program for transmitting/playing image folder based on an album setting folder file | |
JP5345049B2 (en) | SEARCH SERVER, ITS CONTROL METHOD, AND SEARCH SYSTEM | |
JP2002236682A (en) | Database system | |
JP2014211747A (en) | Image processing apparatus, terminal device, and information processing method and program | |
JP6330488B2 (en) | Information processing apparatus, recording system, and program | |
JP5205821B2 (en) | Document processing method, document processing program, and document processing apparatus | |
JP5223328B2 (en) | Information management apparatus, information management method, and program thereof | |
JP2006215619A (en) | Document creation support system, program and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130717 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130813 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5345049 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |