JP2006146627A - 文書情報検索システム - Google Patents
文書情報検索システム Download PDFInfo
- Publication number
- JP2006146627A JP2006146627A JP2004336856A JP2004336856A JP2006146627A JP 2006146627 A JP2006146627 A JP 2006146627A JP 2004336856 A JP2004336856 A JP 2004336856A JP 2004336856 A JP2004336856 A JP 2004336856A JP 2006146627 A JP2006146627 A JP 2006146627A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- character string
- character
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
【解決手段】文書登録装置10は、入力した文書データを解析装置42で文書の構成要素(ページ、見出し、文、行、単語など)に分解し、構成要素に関連した関連情報を登録する。携帯端末装置300は、文書選択装置で選択した文書を撮影装置23で撮影する。文字認識装置24は、撮影した画像から注目単語とその周辺の複数の単語を認識する。サーバ装置320は、記憶装置44のデータを記憶装置32にコピーし、位置検索装置34は、携帯端末装置300が出力する注目単語と注目単語の周辺の単語から文書中の位置を特定し、情報検索装置31は、注目単語に対応する関連情報の検索を行い、得られた情報を表示装置22に表示する。
【選択図】図1
Description
従来、カメラを搭載した携帯電話等の携帯端末で撮影した画像に含まれる文字列の文字を認識して、その認識結果である文字テキストを翻訳する技術が種々提案されている。例えば、特開平09−138802号公報(特許文献2)には、携帯端末内部に文字認識機能と翻訳機能を持ち、これらの機能を利用して、カメラで撮影した画像内の文字列を認識、翻訳処理する翻訳システムが開示されている。
また、特許文献2では、文書中の特定の場所を撮影し、文字認識により撮影した画像中の文字イメージを単語または文を含む文字列に変換して出力することにより、出力された単語または文を翻訳する翻訳システムが開示されている。認識範囲を文とした場合、撮影する範囲が広くなりカメラの解像度を高くするか、複数撮影した画像から文字列を認識し、細分化された文字列を再構築して文を再生する必要があった。また単語を翻訳する場合、文書中の単語の位置で訳が異なる場合があった。
また、本発明の別の目的は、文書毎に文書の構造を定義した文書ファイルから文書の特徴を抽出することにより文字認識のパラメータを作成し、検索対象の文書に合わせて文字認識のパラメータを設定することにより、文字認識率を向上させることが可能な文書情報検索システムを提供することにある。
文書の構成要素に関連する情報を対応付けた関連情報を作成する文書情報登録部と、文字列の位置情報を作成する座標登録部と前記関連情報と前記位置情報を保持する記憶装置とを備えるものである。また、文書選択部を設けることにより、文書毎に記憶装置に登録された関連情報と、位置情報を選択して検索部により情報を検索できるように文書を示す情報をも保持する。
文書情報120を、図8を用いて説明する。図8において、文書情報120は、文書データ203−1〜aから構成され、文書データ203−1〜aは、文書毎の文書番号200とタイトル201、ページ数202から構成する。文書番号200は、登録された文書毎に自動的に設定する番号であり、タイトル201は、文書の表題であり、ページ数202は、文書を構成する総ページ数を示す。
本実施形態では、列番号272、274を文字列中の左からの文字数としたが、図28で算出した文字の始点の座標を利用することも可能である。
図1と図4の各ブロックの対応を説明する。入力装置45は,キーボード700,マウス701に対応する。表示装置40は,ディスプレイ703に対応する。通信装置320は,通信回路705に対応する。記憶装置44は,データメモリ801に対応する。文書選択装置21および文字認識装置24は,文書登録プログラム810に対応する。
CPU704で実行される文書登録プログラム810は、登録者が操作する画面をディスプレイ703に表示し、キーボード700およびマウス701を操作し入力操作を受け付ける。ボタンは、マウス701を利用して選択することができる。入力フィールドは、キーボード700を操作し文字を入力することができる。
リンク確認画面660は、設定したリンク先URL223に対応した画像などを表示画面662に表示する。リンク先URL223が誤った場合は、リンク先フィールド661に修正したリンク先URL223を記入し、更新ボタン663を選択することによりリンク先フィールド621に反映する。
図15において、最初にサーバ装置320は、文書登録装置10から文書情報120、文書属性情報121、単語照合辞書122、行リンク情報124、単語リンク情報125、文字情報126を取得する(355)。この処理は文書登録時に一度だけ実行すればよい。
本発明の実施形態では、文書に関連する情報としてURLを想定したが、URLの他に、直接文字、音、画像といった情報を直接送ることももちろん可能である。
実施例では、電子ファイルから入力したが例えば既に印刷した文書をOCRを利用して文字および文字位置を取得することも可能である。
30 通信装置、31 情報検索装置、32 記憶装置、33 通信装置、34 位置検索装置、36 ネットワーク、
41 文書入力装置、42 解析装置、43 登録装置、44 記憶装置、45 入力装置、46 通信装置、
300 サーバ装置、320 携帯端末装置。
Claims (14)
- 文書の一部である画像に含まれる注目文字列と該注目文字列の周辺の文字列を用いて情報検索を行うための情報検索システムであって、
該情報検索の対象である文書を記述した文書ファイルを入力し、文書中の文字列を抽出する文字列抽出手段と、前記文字列の前記文書中の位置を示す位置情報を登録する位置登録手段と、前記文字列に関連した情報を示す関連情報を登録する情報登録手段と、前記位置情報と前記関連情報を記憶する記憶手段とを備える文書登録装置と、
該文書登録装置と接続され、前記記憶手段とデータを共有する第2の記憶手段と、端末から入力される注目文字列及びその周辺文字列の情報に基づいて前記関連情報から前記注目文字列を含む前記構成要素に関連した情報を検索する情報検索手段と、前記検索手段に検索した情報を出力する出力手段を備える文書情報検索装置とを有することを特徴とする文書情報検索システム。 - 請求項1記載の文書情報検索システムにおいて、前記文字列抽出手段は、文書の文書構造を記述した文書ファイルを入力し、文書構造を解析し、ページ構造、文字幅、文字間隔、始点座標、などのパラメータを抽出するパラメータ抽出手段と、前記パラメータから文字ごとに文字の始点座標を算出する座標算出手段と、前記始点座標からベースラインが同一の始点座標を持つ文字を文字列として出力することを特徴とする文書情報検索システム。
- 請求項2記載の文書情報検索システムにおいて、前記文字列抽出手段は、前記行の文字列を形態素に分割する形態素解析手段を設け、前記形態素を文字列を出力することを特徴とする文書情報検索システム。
- 請求項3記載の文書情報検索システムにおいて、前記形態素解析手段は、前記形態素から不要な形態素を除去した形態素を文字列を出力することを特徴とする文書情報検索システム。
- 請求項3記載の文書情報検索システムにおいて、前記文字列抽出手段は、前記形態素を構成する文字列を分割、または隣り合う形態素を構成する文字列を合成した文字列を出力することを特徴とする文書情報検索システム。
- 請求項2記載の文書情報検索システムにおいて、前記パラメータ抽出手段は、書体、字体、文字サイズのパラメータを抽出し、前記パラメータから見出しを抽出する見出し抽出手段と、前記行の文字列中の句点を判別し、文を抽出する文抽出手段を設け、前記見出しおよび前記文を文字列とし、前記位置登録手段は、前記文字列の前記文書中の位置を登録し、前記情報登録手段は、前記文字列に関連する情報を登録することを特徴とする文書情報検索システム。
- 請求項1記載の文書情報検索システムにおいて、前記文書登録装置は、前記文書ファイルから行間隔および文字方向、または文字間隔を抽出する属性設定手段を設け、前記属性情報を、前記情報検索の際の文字列認識のための文字行切り出しにおいて参照するために前記記憶手段に記憶することを特徴とする文書情報検索システム。
- 請求項1記載の文書情報検索システムにおいて、前記文書登録装置は、前記文書ファイルから前記文書ファイルで使用されている文字コードを抽出する属性設定手段を設け、前記属性情報を、前記情報検索の際の文字列認識のための文字認識において参照するために前記記憶手段に記憶するとともに、前記識別手段は、前記属性情報の前記文字コードに含まれている文字コードのみを出力することを特徴とする文書情報検索システム。
- 請求項3記載の文書情報検索システムにおいて、前記文書登録装置は、全ての登録される前記文字列を使って単語照合辞書を作成する照合辞書作成手段を設け、前記記憶手段は前記単語照合辞書を記憶することを特徴とする文書情報検索システム。
- 請求項9記載の文書情報検索システムにおいて、特定の文字列で作成した第1の単語照合辞書を備え、前記照合辞書作成手段は、登録する文書から抽出した前記文字列と、第1の単語照合辞書に登録されている文字列との差分の文字列から第2の単語照合辞書を作成し、前記単語照合手段は、第1の単語照合辞書を利用する第1の単語照合手段と、第2の単語照合辞書を利用する第2の単語照合手段からなり、前記第1の単語照合手段にて前記第1の単語照合辞書に登録した文字列が検索されない場合、前記第2の単語照合手段にて前記第2の単語照合辞書を利用して文字列を出力することを特徴とする文書情報検索システム。
- 請求項1記載の文書情報検索システムにおいて、登録した文書毎に前記記憶手段に記憶した前記関連情報、前記位置情報、前記属性情報、前記単語照合辞書を選択する文書選択手段を設けることを特徴とする文書情報検索システム。
- 請求項2記載の文書情報検索システムにおいて、前記関連情報は、文書中の構成要素が含む文字が少ない順に、前記構成要素を行単位に展開して前記記憶手段に登録し、前記情報検索手段は、行単位に前記注目文字列を含む行の前記関連情報を検索することを特徴とする文書情報検索システム。
- 文書の一部に含まれる注目文字列と該注目文字列の周辺の文字列を用いて情報検索を行う情報検索システムのための文書登録装置であって、
該情報検索の対象である文書を記述した文書ファイルを入力し、文書中の文字列を抽出する文字列抽出手段と、前記文字列の前記文書中の位置を示す位置情報を登録する位置登録手段と、前記文字列に関連した情報を示す関連情報を登録する情報登録手段と、前記位置情報と前記関連情報を記憶する記憶手段とを備えることを特徴とする文書登録装置。 - 文書の一部に含まれる注目文字列と該注目文字列の周辺の文字列を用いて情報検索を行う情報検索システムのための文書登録方法であって、
入力部における、
該情報検索の対象である文書を記述した文書ファイルの入力を受ける文書ファイル入力ステップと、
処理部における、
該文書中の文字列を抽出する文字列抽出ステップと、
前記文字列の前記文書中の位置を示す位置情報を登録する位置登録ステップと、
前記文字列に関連した情報を示す関連情報を記憶装置に登録する情報登録ステップとを有することを特徴とする文書登録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004336856A JP4576211B2 (ja) | 2004-11-22 | 2004-11-22 | 文書情報検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004336856A JP4576211B2 (ja) | 2004-11-22 | 2004-11-22 | 文書情報検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146627A true JP2006146627A (ja) | 2006-06-08 |
JP4576211B2 JP4576211B2 (ja) | 2010-11-04 |
Family
ID=36626224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004336856A Expired - Fee Related JP4576211B2 (ja) | 2004-11-22 | 2004-11-22 | 文書情報検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4576211B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011054148A (ja) * | 2009-08-04 | 2011-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
JP2011129070A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
KR101076339B1 (ko) | 2007-11-21 | 2011-10-26 | 케이디디아이 가부시키가이샤 | 정보 검색장치 및 컴퓨터 프로그램 |
KR101117171B1 (ko) * | 2008-10-22 | 2012-03-07 | 엔에이치엔(주) | 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
JP2014016879A (ja) * | 2012-07-10 | 2014-01-30 | Fuji Xerox Co Ltd | 文書処理装置及びプログラム |
JP2016505970A (ja) * | 2012-12-18 | 2016-02-25 | トムソン・ロイターズ・グローバル・リソーシズ | インテリジェントな研究プラットフォームのためのモバイル対応システムおよびプロセス |
JP2017204270A (ja) * | 2016-05-10 | 2017-11-16 | 凸版印刷株式会社 | 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム |
JP2019508761A (ja) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | デジタル文書のインテリジェントな特定および提示 |
US10521474B2 (en) | 2014-04-30 | 2019-12-31 | Samsung Electronics Co., Ltd. | Apparatus and method for web page access |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004157929A (ja) * | 2002-11-08 | 2004-06-03 | Minoru Torii | 紙媒体と連携した情報提供システム、紙媒体と連携した情報提供のビジネス方法、及び、紙媒体と連携した情報提供システム用プログラム |
JP2004318766A (ja) * | 2003-02-26 | 2004-11-11 | Ricoh Co Ltd | 情報検索装置及びプログラム並びに記憶媒体 |
-
2004
- 2004-11-22 JP JP2004336856A patent/JP4576211B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004157929A (ja) * | 2002-11-08 | 2004-06-03 | Minoru Torii | 紙媒体と連携した情報提供システム、紙媒体と連携した情報提供のビジネス方法、及び、紙媒体と連携した情報提供システム用プログラム |
JP2004318766A (ja) * | 2003-02-26 | 2004-11-11 | Ricoh Co Ltd | 情報検索装置及びプログラム並びに記憶媒体 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101076339B1 (ko) | 2007-11-21 | 2011-10-26 | 케이디디아이 가부시키가이샤 | 정보 검색장치 및 컴퓨터 프로그램 |
US8135692B2 (en) | 2007-11-21 | 2012-03-13 | Kddi Corporation | Information retrieval apparatus and computer program |
KR101117171B1 (ko) * | 2008-10-22 | 2012-03-07 | 엔에이치엔(주) | 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
JP2011054148A (ja) * | 2009-08-04 | 2011-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
JP2011129070A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
JP2014016879A (ja) * | 2012-07-10 | 2014-01-30 | Fuji Xerox Co Ltd | 文書処理装置及びプログラム |
JP2016505970A (ja) * | 2012-12-18 | 2016-02-25 | トムソン・ロイターズ・グローバル・リソーシズ | インテリジェントな研究プラットフォームのためのモバイル対応システムおよびプロセス |
US10521474B2 (en) | 2014-04-30 | 2019-12-31 | Samsung Electronics Co., Ltd. | Apparatus and method for web page access |
JP2019508761A (ja) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | デジタル文書のインテリジェントな特定および提示 |
JP2017204270A (ja) * | 2016-05-10 | 2017-11-16 | 凸版印刷株式会社 | 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム |
JP7019963B2 (ja) | 2016-05-10 | 2022-02-16 | 凸版印刷株式会社 | 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4576211B2 (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
US7349577B2 (en) | Image processing method and image processing system | |
JP5511450B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US20050278624A1 (en) | Image processing apparatus, control method therefor, and program | |
US20040213458A1 (en) | Image processing method and system | |
JP4227432B2 (ja) | 画像処理方法 | |
JP4576211B2 (ja) | 文書情報検索システム | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP4338189B2 (ja) | 画像処理システム及び画像処理方法 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP4597644B2 (ja) | 文字認識装置、プログラムおよび記録媒体 | |
JP2008028716A (ja) | 画像処理方法及び装置 | |
JP2010211470A (ja) | 文書データ生成装置と文書データ生成方法 | |
JP2007011683A (ja) | 文書管理支援装置 | |
JP2004348467A (ja) | 画像検索装置及びその制御方法、プログラム | |
JP2006053622A (ja) | 文書リンク情報取得システム | |
JP2005149210A (ja) | 画像処理装置及びその制御方法、プログラム | |
JP2006134042A (ja) | 画像処理システム | |
JP2009205209A (ja) | 文書画像処理装置、及び文書画像処理プログラム | |
JP2003173421A (ja) | 文字認識結果補正装置 | |
JP2009110204A (ja) | 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム | |
JP2005208872A (ja) | 画像処理システム | |
JP2006092226A (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
JP2006146486A (ja) | 画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060509 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100817 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100823 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |