JP2011054148A - 検索装置及び方法及びプログラム - Google Patents

検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP2011054148A
JP2011054148A JP2009289788A JP2009289788A JP2011054148A JP 2011054148 A JP2011054148 A JP 2011054148A JP 2009289788 A JP2009289788 A JP 2009289788A JP 2009289788 A JP2009289788 A JP 2009289788A JP 2011054148 A JP2011054148 A JP 2011054148A
Authority
JP
Japan
Prior art keywords
document
search
character
character string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009289788A
Other languages
English (en)
Other versions
JP5384315B2 (ja
Inventor
Akihiro Miyata
章裕 宮田
Takashi Fujimura
考 藤村
Toshiko Shiobara
寿子 塩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009289788A priority Critical patent/JP5384315B2/ja
Publication of JP2011054148A publication Critical patent/JP2011054148A/ja
Application granted granted Critical
Publication of JP5384315B2 publication Critical patent/JP5384315B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 インデックスの識別能力低下、及び検索ロバスト性低下という問題を解決する。
【解決手段】 本発明は、インデックス作成対象のドキュメントの入力を受け付け、ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなる文字ブロックを抽出し、文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力する。また、あるドキュメント内の一部領域を検索クエリとして受け付け、検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出し、クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する。
【選択図】 図1

Description

本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。
特に、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装及び方法及びプログラムに関する。
ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。
例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切抜きの続きを読みたいことがある。この場合、当該切抜きがどの雑誌の一部であったか一意に特定できる必要がある。
上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。
そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析してインデックスを作成する必要がある。
例えば、日本語の場合は形態素解析等の技術を用いて、ドキュメント内の文書を単語単位に分割した後、単語をインデックスのキーとし、該単語を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該単語が登場する位置をインデックスの値とする方式が挙げられる。
また、N文字(あるいはN単語)の連なりをインデックスのキーとし、その文字(あるいは単語)の連なりを含むドキュメント名、あるいは、ドキュメント名及びドキュメント中においてその文字(あるいは単語)の連なりが登場する位置をインデックスの値とする方式(文字のN-gram方式、単語のN-gram方式)もある。N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてNの値を変動させる方式も実施されている(例えば、非特許文献1参照)。
「Unicodeを用いたN-gram索引の一実現方式とその評価」情報処理学会研究会報告、2000-NL-136-17,pp.135-142.
しかしながら、上記従来の方式はどちらも、(1)インデックス識別能力低下、(2)検索ロバスト性低下の問題がある。
(1)インデックス識別能力低下の問題:
上記従来の技術では、分析対象のドキュメント数が増えるほど、インデックスのキーと値が1対1に定まらないケースが多く発生するという、インデックス識別能力低下の問題を抱えている。
例えば、「情報」といった一般的な単語がインデックスのキーとなっている場合、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。
N-gram法を用いると問題は多少改善するが、完全には解決しない。文章とは単語がランダムに並んでいるのではなく、文章として意味を成すように並んでいる。このため、意味を成すような文字(あるいは単語)の連なりは多くのドキュメントに含まれる傾向がある。例えば、2単語の連なりをインデックスのキーとする場合、「情報+ラクダ」のような意味不明な連なりを含むドキュメントは滅多に存在しないが、「情報+検索」、「情報+処理」といった連なりを含むドキュメントは無数に存在する。つまり「情報+検索」、「情報+処理」等の、意味を成すような文字・単語の連なりから成るキーには、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。
これらの現象は、ある文字列を含むドキュメント名等を網羅的に取得する検索要求に応えるシステムを構築する場合には問題にならない。しかし、技術分野や背景技術の欄で述べたとおり、特定ドキュメントの特定位置を唯一の検索結果として取得する検索要求に応えるシステムを構築する場合には大きな問題になる。
(2)検索ロバスト性低下の問題:
前述の単語のN-gramの場合、Nの値を大きくすれば、インデックスのキーと値が1対1に定まらないケースは減少する。例えば、「情報+検索」(N=2),「日本語+情報+検索」(N=3),「次世代+日本語+情報+検索」(N=4)とNを大きくするほど、インデックスのキーと値が1対1に定まりやすくなる。
しかし、インデックスのキーをクエリとして検索する状況において、上記のようにインデックスのキーの文字数を多くする等して情報量を増やす場合、クエリに一定確率でノイズが含まれると正しい検索結果が得られないという、検索ロバスト性低下の問題が発生する。
例えば、紙に書かれた文字列をOCRで光学文字認識を行い、該文字列をクエリとする場合、あるいは専用ディスプレイにタッチペンで書いた文字を手書き文字認識して該文字列をクエリとする場合、文字認識処理の過程で読み取りエラー(誤認識)が発生することがある。この場合、「情報検索」と書かれた短い文字列をスキャンするよりも、「次世代日本語情報検索」と書かれた長い文字列を読み込む方が読み込みエラーが発生する可能性が高く、読み込みエラーによるクエリでは正しい検索結果が得られない。
本発明は、上記の点に鑑みなされたもので、インデックスの識別能力低下、及び検索ロバスト性低下という問題を解決し、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができ、また、クエリにノイズが含まれる場合においても、精度を低下させずに、検索要求に応じることができる検索装置及び方法及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段10と、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段11と、
文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段13に出力するインデックス出力手段12と、を有する。
また、本発明(請求項2)は、請求項1の検索装置において、
文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別手段を更に有する。
また、本発明(請求項3)は、請求項1の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
また、本発明(請求項4)は、請求項1の検索装置において、
ドキュメントに存在する複数の文字ブロックを含む範囲をリージョンとして同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補リージョン群を検索結果として特定する検索手段を更に有する。
また、本発明(請求項5)は、ドキュメント内の特定位置に関連付けられたコンテンツが検索結果候補である場合に、
同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する。
また、本発明(請求項6)は、請求項2の検索装置において、
特定文字列を、光学文字認識装置が利用する認識辞書記憶手段を参照して取得する。
また、本発明(請求項7)は、請求項2の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
また、本発明(請求項8)は、請求項2の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
また、本発明(請求項9)は、請求項1の検索装置において、
あるドキュメント内の一部領域を検索クエリとして受け付ける入力手段と、
検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、を更に有し、
検索手段は、
クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する。
また、本発明(請求項10)は、請求項9の検索装置において、
クエリ入力手段は、
あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む。
また、本発明(請求項11)は、請求項9の検索装置において、
検索結果であるドキュメント及び該ドキュメント内における位置に関連付けられたコンテンツを、検索結果と併せて、あるいは、単独で出力する手段を更に有する。
また、本発明(請求項12)は、請求項2の検索装置において、
クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別手段を更に有する。
また、本発明(請求項13)は、請求項12の検索装置において、
光学文字認識装置が利用する認識辞書に登録されている1文字以上の文字列を特定文字列とする。
また、本発明(請求項14)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
また、本発明(請求項15)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
また、本発明(請求項16)は、請求項12の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
図2は、本発明の原理を説明するための図である。
本発明(請求項17)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う装置における検索方法であって、
ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップ(ステップ1)と、
文字ブロック抽出手段が、ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップ(ステップ2)と、
インデックス出力手段が、文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップ(ステップ3)と、を行う。
また、本発明(請求項18)は、請求項17の検索方法において、
入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付ける入力ステップと、
クエリ文字ブロック抽出手段が、検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
検索手段が、クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。
また、本発明(請求項19)は、請求項17の検索方法において、
文字ブロック選別手段が、文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別ステップを更に行う。
また、本発明(請求項20)は、請求項19の検索方法において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
また、本発明(請求項21)は、請求項18の検索方法において、
クエリ文字ブロック選別手段が、クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別ステップを更に行う。
本発明(請求項22)は、請求項1乃至16のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるための検索プログラムである。
上記のように本発明によれば、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができる。例えば、手元に書籍の一部を切り抜きしかない場合でも、その切り抜きがどの書籍のどの部分であったか突き止めることができる。
また、クエリにノイズが含まれる場合においても、精度を大幅に低下させずに上記検索要求に応じることができる。
例えば、ドキュメントの一部を写真撮影して光学文字認識処理を行ったような、ノイズが混じりやすいデータをクエリとしても精度が大幅に低下することがない。
また、特定文字列を含む部分のみを文字ブロックとして利用することで、検索の網羅性を大幅に低減させることなく、インデックスサイズを減らすことができる。この際、特定文字列を光学文字認識装置が内部に保有している辞書に登録されている文字列のみとすれば、さらに、光学文字認識処理の誤認識の影響を低減できる。さらに、「▼」のような通常の文章中に頻出しない(所定の回数以上出現しない)シンプルな文字を特定文字列とし、かつ、ドキュメント中のインデックス作成箇所に付与すれば、光学文字認識処理の誤認識の影響を軽減でき、かつ、クライアント部を利用するユーザに対してインデックス作成箇所の目印になる。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の第1の実施の形態におけるインデックス作成装置の構成図である。 本発明の第1の実施の形態における読み込まれたPDFファイル(書名:begetable、ファイル名:vegetable3.pdf、ページ:3ページ目)の例である。 本発明の第1の実施の形態におけるインデックスを作成する処理のフローチャートである。 本発明の第1の実施の形態における入力されたドキュメントの各ページのリストのデータ構造例である。 本発明の第1の実施の形態における文字ブロックの例である。 本発明の第1の実施の形態における文字ブロック抽出ルールの例である。 本発明の第1の実施の形態における文字ブロック抽出部の処理結果である。 本発明の第2の実施の形態におけるシステム構成図である。 本発明の第2の実施の形態における紙媒体(書名:vegetable、ページ:3ページ目)の例である。 本発明の第2の実施の形態におけるインデックス作成処理のフローチャートである。 本発明の第2の実施の形態におけるリスト化されたテキストファイルの例である。 本発明の第2の実施の形態における文字ブロック抽出の例である。 本発明の第2の実施の形態における文字ブロック抽出ルールの例である。 本発明の第2の実施の形態における文字ブロック抽出部の処理結果である。 本発明の第2の実施の形態におけるコンテンツDBの例である。 本発明の第2の実施の形態におけるクライアント部からサーバ部へ問い合わせる作業のフローチャートである。 本発明の第2の実施の形態における画像ファイルの例である。 本発明の第2の実施の形態における画像ファイルから抽出されたテキストデータの例である。 本発明の第2の実施の形態における抽出された文字ブロックの例である。 本発明の第2の実施の形態における文字ブロック抽出ルールの例である。 本発明の第2の実施の形態における文字ブロック抽出部の処理結果である。 本発明の第2の実施の形態における問い合わせ結果である。 本発明の第2の実施の形態におけるコンテンツDBへの問い合わせ結果である。 本発明の第2の実施の形態における重複数集計後のコンテンツDBへの問い合わせ結果である。 本発明の第2の実施の形態におけるコンテンツ表示部のコンテンツ表示手段の例である。 本発明の第3の実施の形態におけるシステム構成図である。 本発明の第3の実施の形態におけるリージョンDBの例である。 本発明の第3の実施の形態におけるコンテンツDBの例である。 本発明の第3の実施の形態におけるテキストファイル抽出(誤認識)の例である。 本発明の第3の実施の形態における文字ブロック抽出部の処理結果である。 本発明の第3の実施の形態におけるインデックスDBへの問い合わせ結果である。 本発明の第3の実施の形態におけるコンテンツDBへの問い合わせ結果である。 本発明の第3の実施の形態における重複数集計後のコンテンツDB問い合わせ結果である。 本発明の第4の実施の形態におけるインデックス作成装置の構成図である。 本発明の第4の実施の形態における読み取られたPDFファイル(書名:yokohama、ファイル名:yokohama2.pdf、ページ:2ページ目)の例である。 本発明の第4の実施の形態における処理のフローチャートである。 本発明の第4の実施の形態における入力されたページのリストである。 本発明の第4の実施の形態における抽出された文字ブロックの例である。 本発明の第4の実施の形態における文字ブロック抽出ルールの例である。 本発明の第4の実施の形態における文字ブロック抽出部の処理結果である。 本発明の第4の実施の形態における文字ブロック選別部の処理結果である。 本発明の第5の実施の形態におけるシステム構成図である。 本発明の第5の実施の形態における光学文字認識装置内の文字列辞書の例である。 本発明の第5の実施の形態における紙媒体(書名:yokohama、ページ:2ページ目)の例である。 本発明の第5の実施の形態におけるサーバ部でインデックスを作成する処理のフローチャートである。 本発明の第5の実施の形態における文字ブロック選別部の処理結果である。 本発明の第5の実施の形態における紙媒体(書名:yokohama、ページ:2ページ目)の例である。 本発明の第6の実施の形態におけるドキュメント内にQRコードが存在する例である。 本発明の第7の実施の形態におけるインデックス作成装置の構成図である。 本発明の第7の実施の形態におけるドキュメントの例である。 本発明の第7の実施の形態における処理のフローチャートである。 本発明の第7の実施の形態におけるドキュメントリストのデータ構造である。 本発明の第7の実施の形態における文字列分割(文字の2-gram方式)の例である。 本発明の第7の実施の形態における基本文字列抽出部の処理結果である。 本発明の第7の実施の形態における周辺文字列抽出部の文字列の抽出例である。 本発明の第7の実施の形態における周辺文字列抽出部の処理結果である。 本発明の第8の実施の形態における検索システムの構成図である。 本発明の第8の実施の形態におけるドキュメントの例である。 本発明の第8の実施の形態におけるサーバ側の処理のフローチャートである。 本発明の第8の実施の形態におけるテキストをデータ構造でリスト化した例である。 本発明の第8の実施の形態における文字の2-gram方式で文字列分割した例である。 本発明の第8の実施の形態における基本文字列抽出部の処理結果である。 本発明の第8の実施の形態における周辺文字列の抽出例である。 本発明の第8の実施の形態における周辺文字列抽出部の処理結果である。 本発明の第8の実施の形態におけるコンテンツDBのデータ構造である。 本発明の第8の実施の形態におけるクライアント部からサーバ部に問い合わせる処理のフローチャートである。 本発明の第8の実施の形態におけるドキュメントページの例である。 本発明の第8の実施の形態における作成された画像ファイルの例である。 本発明の第8の実施の形態における画像ファイルから抽出されたテキストデータの例である。 本発明の第8の実施の形態におけるテキストデータの例である。 本発明の第8の実施の形態における文字の2-gram方式で基本文字列を抽出する例である。 本発明の第8の実施の形態における基本文字列抽出部で抽出した基本文字列の例である。 本発明の第8の実施の形態における周辺文字列の抽出方法の例である。 本発明の第8の実施の形態における基本文字列と周辺文字列が関連付けられたデータの例である。 本発明の第8の実施の形態における問い合わせ結果の例(その1)である。 本発明の第8の実施の形態における問い合わせ結果の例(その2)である。 本発明の第8の実施の形態における問い合わせ結果の例(その3)である。 本発明の第8の実施の形態における表示データ例の例である。 本発明の第9の実施の形態における領域抽出例である。 本発明の第9の実施の形態において抽出された基本文字列と周辺文字列の組である。 本発明の第9の実施の形態における誤認識データが含まれる問い合わせ結果の例である。 本発明の第9の実施の形態における処理のフローチャートである。 本発明の第9の実施の形態における問い合わせ結果の例である。 本発明の第9の実施の形態における変換された問い合わせ結果の例である。
以下、図面と共に本発明の実施の形態を説明する。
なお、特に図示しないが、以下の各実施の形態における検索装置やシステムを構成する各構成要素は、それぞれ、入力されたデータ及び処理結果を格納するメモリを有するものとする。
[第1の実施の形態]
本実施の形態では、検索装置に含まれる検索を実行するためのインデックスを作成する部分(インデックス作成装置)にのみ言及する。
図3は、本発明の第1の実施の形態におけるインデックス作成装置の構成を示す。
同図に示すインデックス作成装置は、ドキュメント入力部10、文字ブロック抽出部11、インデックス出力部12、インデックスDB13から構成される。
入力されるドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図4に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。図4は、PDFファイル(書名:vegetable、ファイル名:vegetable3.pdf、ページ:3ページ目)の例である。
なお、図4は文章のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。
また、文字ブロック抽出部11は、入力されたドキュメントから抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。
図5は、本発明の第1の実施の形態におけるインデックスを作成する処理のフローチャートである。当該処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ110、120)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ130)、検索を実行するためのインデックスを出力する出力ステップ(ステップ140)に大別される。
ステップ110) ドキュメント入力部10は、インデックス作成対象(分析対象)となるドキュメント群を受け付ける。
ステップ120) ドキュメント入力部10は、入力された各ページのリストを図6に示すデータ構造で文字ブロック抽出部11のメモリ(図示せず)に格納する。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に表す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用してもかまわない。
ステップ130) 文字ブロック抽出部11は、入力された各ドキュメントの各ページ内から文字ブロックを抽出する。詳しくは、ドキュメント入力部10から渡され、メモリ(図示せず)に格納されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部14のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と当該ページにおける各文字ブロックの出現位置を関連付けてインデックス出力部12に渡す。
ここで「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図7のように、規定の形状を十字型として抽出する。
また、文字ブロック抽出ルール記憶部14に格納されている文字ブロック抽出ルールとは、ページからどのように文字ブロックを抽出するか規定するルールである。ここでは、図8のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十字型文字ブロックの上端の文字の行、列の粒度で表現することとする。
図9は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果である。
同図では、文字ブロック抽出部11の処理結果を示しており、このデータがインデックス出力部12に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
ステップ140) インデックス出力部12は、検索を実行するためのインデックスをインデックスDB13に出力する。詳しくは、文字ブロック抽出部11から渡された各文字ブロックを図9のデータ構造でインデックスDB13に格納する。これにより、文字ブロックを問い合わせキーとしてファイル名及び出現位置を問い合わせ結果として返すインデックスDB13を実現する。
上記のように、文字をブロック単位で扱うことにより、ドキュメント内の各位置に固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。
[第2の実施の形態]
本実施の形態では、サーバ部とクライアント部を設け、サーバ部においてインデックスを作成し、クライアント部からサーバ部にインデックスを問い合わせ表示する例を説明する。
図10は、本発明の第2の実施の形態におけるシステム構成を示す。
同図に示すシステムは、大きく分けてサーバ部300、クライアント部400、外部装置からなる。
サーバ部300は、データ入力部310、文字ブロック抽出部320、インデックス出力部330、インデックスDB340,コンテンツDB350,サーバ側データ送受信部360、DB問い合わせ部370、文字ブロック抽出ルール記憶部321からなる。
クライアント部400は、クライアント側デバイス410、クライアント側データ送受信部420を有し、クライアント側デバイス410は、ドキュメント撮影部511、コンテンツ表示部412を有する。
外部装置としては、ドキュメント群200を読み取るドキュメント読み取り装置100と、光学文字認識装置101が設けられる。
ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ゛201の例を図11に示す。
ドキュメント読み取り装置100は、サーバ部300のデータ入力部310に接続されている。光学文字認識装置101は、サーバ部300のデータ送受信部360に接続されている。
本実施の形態では、
(1)サーバ部300においてインデックスを作成する作業;
(2)クライアント部400からサーバ部300に問い合わせる作業;
を行う。
(1)サーバ部300においてインデックスを作成する作業:
当該処理は、前述の第1の実施の形態におけるインデックス作成装置に相当する。図12は、本発明の第2の実施の形態におけるインデックス作成処理のフローチャートである。
以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ210,220)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ230)、検索を実行するためのインデックスを出力する出力ステップ(ステップ240)を行う。
ステップ210) サーバ部300のデータ入力部310は、ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置100で読み取り、データ入力部310に渡す。
ここで、ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されたものとする。
ステップ220) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図13に示すデータ構造でリスト化して、サーバ部300の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
ステップ230) サーバ部300の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、インデックス出力部330に渡す。
ここで、「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図14のように規定の形状を箱型として抽出する。
また、文字ブロック抽出ルール記憶部321に格納されている「文字ブロック抽出ルール」とは、ドキュメントからどのような文字ブロックを抽出するかを規定するルールである。ここでは、図15のように、左上隅から右下隅方向へ2文字ずつずらしながら抽出することとする。
また、「文字ブロックの出現位置」とは、文字ブロックがドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、箱型文字ブロックの上左端の文字の行、列の粒度で表現することとする。
図16は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果を示す。
同図では、文字ブロック抽出部320で上記の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。なお、ここでは、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
ステップ240) インデックス出力部330は、文字ブロック抽出部320から渡された各文字ブロックを、図16のデータ構造でインデックスDB340に格納する。これにより、検索時には文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。
なお、サーバ部300のコンテンツDB350には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB340に格納するための格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ部300上のデータ格納領域にコンテンツの実体を格納し、図17に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。
(2)クライアント部400からサーバ部300に問い合わせる作業:
図18は、本発明の第2の実施の形態におけるクライアント部からサーバ部へ問い合わせる作業のフローチャートである。
以下では、インデックス作成対象となるページの一部を入力する入力ステップ(ステップ310,320)、入力されたページの一部から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ330)、インデックスDB340に問い合わせを行い、入力されたページの一部に関連付けられているコンテンツを特定する問い合わせステップ(ステップ340,350,360)、問い合わせた結果得られたコンテンツをクライアント部400で表示する出力ステップ(ステップ370)を行う。
ステップ310) クライアント部400のクライアント側デバイス410では、ドキュメント撮影部411において、ドキュメントページ201の全体、または、一部を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部420に渡す。クライアント側データ送受信部420は、ドキュメント撮影部411から渡された画像ファイルをネットワークを通じてサーバ部300のデータ送受信部360に渡す。
ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。ここでは、図11に示すページの一部分が撮影され、図19に示す画像ファイルが作成されたとする。
ステップ320) サーバ側データ送受信部360は、光学文字認識装置101を利用して、クライアント側データ送受信部420から渡された画像ファイルから図20に示すテキストデータを抽出し、文字ブロック抽出部320に渡す。なお、光学文字認識装置101は、一般的なOCR、ソフトウェア等であり、文字が撮影された画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。
ステップ330) 文字ブロック抽出部320は、サーバ側データ送受信部360から渡されたテキストデータを読み込み、該テキストデータから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、DB問い合わせ370に渡す。
ここで、「文字ブロック」は、ステップ220と同じく箱型の形状で図21のように抽出する。
また、「文字ブロック抽出ルール」は、図22のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
図23は、文字ブロック抽出部320の処理を行った結果を示しており、このデータがDB問い合わせ部370に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
ステップ340) DB問い合わせ部370は、図23のリストを用いてインデックスDB340に問い合わせを行う。
まず、DB問い合わせ部370は、図23の各文字ブロックに対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図24に示す形式で取得する。
ステップ350) 次に、DB問い合わせ部370がコンテンツDB350に対して図24の問い合わせ結果を用いて問い合わせを行う。前述の通り、コンテンツDB350には図17に示す構造でデータが格納されている。DB問い合わせ部370は、図24の各ファイル名と各出現位置の組(例えば、「vegetable3.txt」と「1行」・「3列」)を用いて、コンテンツDB350に該ファイル名と該出現位置に対応するコンテンツ・コンテンツタイプを問い合わせ、問い合わせ結果を図25に示す形式で取得し、コンテンツ・コンテンツタイプの重複数を集計して図26に示す形式に変換する。
ステップ360) DB問い合わせ部370は、上述の問い合わせ結果の中で、一定条件を満たすものを検索結果としてサーバ側データ送受信部360に渡す。本実施の形態においては、最も重複数の多いもの(図26では「tomato_1.mp4」・「ムービーファイル」)を検索結果としてサーバ側データ送受信部360に渡すこととする。
サーバ側データ送受信部360は、DB問い合わせ部370から渡された検索結果をネットワークを通じてクライアント側データ送受信部420に渡す。
ステップ370) クライアント側データ送受信部420は、サーバ側データ送受信部360から渡された検索結果をコンテンツ表示部412に渡す。
コンテンツ表示部412は、クライアント側データ送受信部420から渡された検索結果を、コンテンツ表示部412内部で予め設定されたコンテンツ表示手段(図27)を用いて表示する。なお、コンテンツ表示手段として、図27に示すように、テキストファイルについてはコンテンツ表示手段としてテキストビューアを用い、サウンドファイルにはサウントプレイヤを用い、ムービーファイルについてはムービープレイヤを用いるように設定されている。
[第3の実施の形態]
前述の第2の実施の形態のステップ310において、撮影条件が悪く(光量不足、手振れ等)ドキュメント撮影部411が撮影した画像の品質が悪い場合に、ステップ320で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識精度は100%ではないため、撮影画像の品質が良い場合でも一定確率で文字の誤認識が発生する。
本実施の形態では、上記のように光学文字認識装置101において正しく文字認識が行われない場合について述べる。
図28は、本発明の第3の実施の形態におけるシステム構成図である。同図に示すシステムには、サーバ部300にリージョンDB380が追加されている。なお、処理フローは第2の実施の形態と同様である。
まず、事前の準備として各書籍内に複数文字ブロックを含む任意の範囲を持つリージョンを定義する。ここでは、第2の実施の形態と同様に各書籍の各ページをテキストファイルに変換し、図29のように各テキストファイル内に10行程度の範囲を持つリージョンを定義し、リージョンDB380に格納する。リージョンの範囲は、「リージョン1」と「リージョン2」のように排他になるよう定義してもよいし、「リージョン3」と「リージョン4」のように一部重複して定義してもよい。
次に、図30のように各リージョンにコンテンツを関連付けてコンテンツDB350に格納する。コンテンツは、「cucumber.txt」のように同一コンテンツが複数のリージョンに関連付けられていてもよい。また、「tomato_1.mp4」と「tomato_2.mp4」のように異なるコンテンツが同一リージョンに関連付けられていてもよい。
例えば、ステップ310〜320において、ドキュメント撮影部411が図19と同じ領域を撮影したが、画像品質が悪いため、光学文字認識装置101は図20のように抽出すべきところ、図31のように抽出したとする。同図において、下線部分は誤認識文字を示す。この状況でステップ320の文字ブロック抽出部320の処理を行うと、図32のようなリストが得られる。同図において、下線部分は誤認識文字を示す。
次に、図32のリストを利用してステップ350と同様の処理(インデックスDB問い合わせ)を行うと、DB問い合わせ部370は、問い合わせ結果を図33で示す形式で取得する。同図において、「該当なし」とは該当する文字ブロックがインデックスDB340に含まれていないことを示す。
ここで、DB問い合わせ部370は、図33のリスト(但し、ファイル名が「該当なし」のものは除く)を用いてリージョンDB380に問い合わせ、各ブロックと該ブロックが出現するリージョンの関係情報を図34の形式で取得し、これをリージョンごとに出現回数をカウントして図35の形式に変換する。同図において出現回数が最多のリージョンを、クライアント部400が撮影した範囲に含まれているリージョンであると特定する。ここでは、「リージョン5」が該当する。
最後に、DB問い合わせ部370は、「リージョン5」に関連付けられたコンテンツ、コンテンツタイプをコンテンツDB350に問い合わせ、以降ステップ370と同様の処理を行うと、コンテンツ表示部412にて正しいコンテンツ(cucumber.txt)が表示される。
このように、内部に複数の文字ブロックを含む範囲を1つのリージョンとし、撮影画像から抽出した文字ブロック群が最も多く出現するリージョンを特定して該リージョンに関連付けられたコンテンツを検索結果とする方式により、光学文字認識の精度が悪く文字ブロックに誤認識文字が混じっている場合においても正しく検索結果を求めることができる。
[第4の実施の形態]
本実施の形態では、第1の実施の形態よりもインデックスサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させないように、インデックスを作成する処理について説明する。
ここでは、1つ以上の文字からなる特定文字列を含む文字ブロックのみを用いてインデックスを作成する。以下詳細な手順を示す。
図36は、本発明の第4の実施の形態におけるインデックス作成装置の構成を示す。
同図に示すインデックス作成装置は、ドキュメント入力部40、文字ブロック抽出部41、文字ブロック選別部42、インデックス出力部43、インデックスDB44、文字ブロック抽出ルール記憶部45、外部装置の特定文字列DB46から構成される。
入力されるドキュメント群の各ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図37に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。
なお、図37は、文書のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。
また、文字ブロック抽出部41、文字ブロック選別部42は、抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。
外部装置である特定文字列DB46には、事前に1つ以上の文字からなる特定文字列が1つ以上登録されているものとする。検索可能領域の網羅性を大幅に低減させないためには、ドキュメント中の各領域に満遍なく出現する文字列が登録されていることが望ましく、日本語ドキュメントの場合は「の」、「は」、「が」、「。」、「、」等の助詞や句読点がこれにあたる。以降、本実施の形態では、「の」の1語が特定文字列DB46に登録されているものとして説明を行うが、その他の文字が特定文字列DB46に登録されていても構わない。
図38は、本発明の第4の実施の形態における処理のフローチャートである。
本実施の形態における処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ410,420)、各ドキュメントの各ページから特定文字列を含む文字ブロックを抽出する文字ブロック抽出ステップ(ステップ430)、検索を実行するためのインデックスを出力する出力ステップ(ステップ440)に分けられる。
ステップ410) ドキュメント入力部40は、分析対象の各ドキュメントの各ページの入力を受け付ける。
ステップ420) ドキュメント入力部40は、入力された各ページのリストを図39に示すデータ構造で文字ブロック抽出部41に渡す。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
ステップ430) 文字ブロック抽出部41は、ドキュメント入力部40から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部45のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元のページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選択部42に渡す。
ここで「文字ブロック」とは、ステップ130と同じく、十字型の形状で図40のように抽出する。
また、文字ブロック抽出ルール記憶部45に格納されているルールは図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十文字型文字ブロックの上端の文字の行、列の粒度で表現することとする。
図42は、本発明の第4の実施の形態における文字ブロック抽出部の処理結果を示す。同図では、文字ブロック抽出部41でステップ430の処理を行った結果を示しており、このデータが文字ブロック選別部42に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
ステップ440) 文字ブロック選別部42は、文字ブロック抽出部41から渡された各文字ブロックについて、特定文字列DB46に問い合わせを行い、特定文字列DB46に登録されている語(本実施の形態では「の」)を含む文字ブロックのみを選別する。
図43は、本発明の第4の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部42でステップ440の処理を行った結果を示しており、このデータがインデックス出力部43に渡される。
ステップ450) インデックス出力部43は、文字ブロック選別部42から渡された各文字ブロックを、図43のデータ構造でインデックスDB44に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB44を実現する。
上記のように、「の」のような網羅的に出現する文字列を含む文字ブロックのみを用いてインデックスを作成することで、インデックスのサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させずにインデックスを作成できる。
[第5の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ光学文字認識処理の誤認識の影響を軽減できるように、インデックスを作成する方法について言及する。
ここでは、文字ブロックが、光学文字認識装置101が内部に保有している文字列辞書に登録されている文字列を含む場合のみ、該文字ブロックを用いてインデックスを作成する。以下、詳細な手順を示す。
図44は、本発明の第5の実施の形態における検索システムの構成を示す。
同図に示すシステムにおいて、第2の実施の形態と同様の構成要素には同一符号を付し、その説明を省略する。
なお、クライアント部400、外部装置(特定文字列DB103以外)の構成・動作は第2の実施の形態と同様であるので、以降の説明では詳細を省略する。
サーバ部500は、図10の構成に文字ブロック選別部510を付加した構成である。
クライアント部600は、第2の実施の形態と同様である。
外部装置は、第2の実施の形態に加え、特定文字列DB103がある。特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列を含む文字ブロックのみを利用することが望ましい。一般に、OCRソフトウェア等の光学文字認識装置101は内部に文字列辞書を保有しており、当該文字列辞書に登録されている語はそうでない語よりも精度良く認識できる。そこで、本実施の形態では、光学文字認識装置101が内部に図45のような文字列辞書を保有しており、当該辞書と同一内容が指示文字列DB103にも登録されているものとする。
ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置101に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ201の例を図46に示す。
ドキュメント読み取り装置101は、サーバ部500のデータ入力部510に接続されている。光学文字認識装置101は、サーバ側データ送受信部360に接続されている。
本実施の形態では、
(1)サーバ部500においてインデックスを作成する作業;
(2)クライアント部400からサーバ部500に問い合わせる作業;
を行う。
(1)サーバ部500においてインデックスを作成する作業:
図47は、本発明の第5の実施の形態におけるサーバ部でインデックスを作成する処理のフローチャートである。以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ510,520)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ530)、特定文字列DBに登録されている語を含む文字ブロックを選択する文字ブロック選別ステップ(ステップ540)、検索を実行するためのインデックを出力する出力ステップ(ステップ550)を行う。
ステップ510) ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置101で読み取り、データ入力部310に渡す。ここで、ドキュメント読み取り装置101は、紙媒体に印刷されたテキストを読み取ってPDFファイルに変換する一般装置であり、OCR機能付スキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままPDFファイルに変換されるものとする。
ステップ520) データ入力部510は、ドキュメント読み取り装置101から渡されたPDFファイル群を読み込み、図39に示すデータ構造でリスト化して、サーバ部500の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
ステップ530) サーバ部500の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選別部510に渡す。
ここで「文字ブロック」は、ステップ130と同様に十字型の形状で図40のように抽出する。
また、「文字ブロック抽出ルール」は、図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
図42に文字ブロック抽出部320の処理結果を示す。同図では、文字ブロック抽出部320でステップ530の処理を行った結果を示しており、このデータが文字ブロック選別部510に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
ステップ540) 文字ブロック選別部510は、文字ブロック抽出部320から渡された各文字ブロックについて、特定文字列DB103に問い合わせを行い、特定文字列DB103に登録されている語を含む文字ブロックのみを選別する。
図48は、本発明の第5の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部510でステップ540の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。
ステップ550) インデックス出力部330は、文字ブロック選別部510から渡された各文字ブロックを、図48のデータ構造でインデックスDB54に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。
なお、サーバ部500のコンテンツDB350及び、(2)クライアント部400からサーバ部500に問い合わせる作業は、第2の実施の形態と同様であるので、その説明を省略する。
[第6の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ、光学文字認識処理の誤認識の影響を軽減し、かつ、ドキュメント中のどの位置にインデックスが作成されているかクライアント部を利用するユーザに分かりやすいように、ドキュメント及びインデックスを作成する方法について説明する。
具体的には、第5の実施の形態において、特定文字列DB103及びドキュメントを以下のように変更する。
特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列のみを含む文字ブロックのみを利用することが望ましい。一般に、OCR、ソフトウェア等の光学文字認識装置は、「▼(逆三角形)」のようなシンプルな形状であり、かつ類似する文字が少ない文字ほど精度良く認識できる。ここでは、特定文字列DB103に「▼」が登録されているとする。なお、本実施の形態では、「▼」のみが登録されているとして以降の説明を行うが、「■」、「●」等の文字が登録されていてもよい。また、所定の出現頻度以下(例えば文書中の出現頻度が2回以下)文字を特定文字列としてもよい。
ドキュメントは図49に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とし、特定文字列をインデックスを作成したい書籍位置に記載して作成する。もしくは、既存のドキュメント中の各書籍位置に初めから記載されていた文字を特定文字列とみなしてもよい。ここでは、特定文字列として、「▼」を用いる。この文字は通常の文章中に頻出する文字ではないので、クライアント部400を利用するユーザに対して、インデックス作成箇所の目印になる。また、図50のように、ドキュメント内に複数のQRコード(二次元コード)が存在する場合と比べ、1文字で表現できる「▼」は、ドキュメント内で占有する面積が少なくて済む。なお、本実施の形態では、「▼」のみを特定文字列とするが、「■」「●」等を特定文字列としてもよい。
以降の処理は、第5の実施の形態と同様であるので、その説明を省略する。
[第7の実施の形態]
本実施の形態では、検索装置に含まれる、検索を実行するためのインデックスを作成する部分(インデックス作成装置)についてのみ言及する。
図51は、本発明の第7の実施の形態におけるインデックス作成装置の構成を示す。同図に示すインデックス作成装置は、ドキュメント入力部1010、基本文字列抽出部1011、周辺文字列抽出部1012、インデックス出力部1013、インデックスDB1014から構成される。
ドキュメントは、図52に示すように、複数のページからなり、各ページに複数行の文字列を含み、異なる閲覧環境(OS,PDF閲覧ソフト等)においても文章の改行位置が変化しない電子ファイル(PDFファイル等)とする。なお、図52は文章のみからなるドキュメントの例であるが、ドキュメントには図や表などの文字以外の情報が含まれていてもよい。
また、基本文字列抽出部1011と周辺文字列抽出部1012は抽出した文字列を格納するメモリ(図示せず)を有するものとする。
以下に、本実施の形態における処理フローを示す。
図53は、本発明の第7の実施の形態における処理のフローチャートである。
ステップ1001) ドキュメント入力部1010は、分析対象のドキュメント群の入力を受け付ける。
ステップ1002) ドキュメント入力部1010は、該ドキュメント群に含まれるドキュメントのリストを図54に示すデータ構造で基本文字列抽出部1011に渡す。リスト内の各要素は、各ドキュメントを一意に示すものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ドキュメントを一意に識別できる情報であれば他の情報を利用しても構わない。
ステップ1003) 基本文字列抽出部1011は、ドキュメント入力部1010から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部1012に渡す。ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図55のように、文字の2−gram方式で分割を行うものとする。また、「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。
図56は、本発明の第7の実施の形態における基本文字列抽出部の処理結果を示す。同図では、基本文字列抽出部1011でステップ1003の処理を行った結果を示しており、このデータが周辺文字列抽出部1012に渡される。
ステップ1004) 周辺文字列抽出部1012は、基本文字列抽出部1011から渡された各基本文字列をメモリ(図示せず)に格納し、当該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けてメモリ(図示せず)に格納し、インデックス出力部1013に渡す。ここでは、図57に示すように、各基本文字列の1文字目の上・左、下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。
図58は、本発明の第1の実施の形態における周辺文字列抽出部の処理結果を示す。同図では、周辺文字列抽出部1012でステップ1004の処理を行った結果を示しており、このデータがインデックス出力部1013に渡される。
ステップ1005) インデックス出力部1013は、周辺文字列抽出部1012から渡された各基本文字列と周辺文字列が関連付けられたものを、図58のデータ構造でインデックスDB1014に格納する。これにより、基本文字列及び周辺文字列の組み合わせを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB1014を実現する。
上記のように、ドキュメントのインデックスを作成する際に、文字・単語の前後の連なりだけでなく、ユーザがドキュメントを閲覧する際のドキュメント(印刷物、PDFファイル等)における文字の位置関係に着目し、基本文字列とその周辺文字列を関連付けてインデックスのキーとすることにより、各ドキュメントに固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。
[第8の実施の形態]
図59は、本発明の第8の実施の形態における検索システムの構成図である。
同図に示すシステムは、大きく分けてサーバ部1、クライアント部3、外部装置からなる。
サーバ部1は、データ入力部20、基本文字列抽出部21、周辺文字列抽出部22、インデックス出力部23、インデックスDB24,コンテンツDB25,サーバ側データ送受信部26、DB問い合わせ部27からなる。
クライアント部3は、クライアント側デバイス30、クライアント側デバイス30を構成するドキュメント撮影部31、クライアント側デバイス30を構成するコンテンツ表示部32、クライアント側データ送受信部33からなる。
外部装置は、ドキュメント読み取り装置100、光学文字認識装置101からなる。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200、クライアント部3に入力されるドキュメントページ201の例を図60に示す。ドキュメントは、同図に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とする。
ドキュメント読み取り装置100は、サーバ部1のデータ入力部20に接続されている。光学文字認識装置101はサーバ側データ送受信部26に接続されている。
本実施の形態では、
(1)サーバ部1においてインデックスを作成する作業;
(2)クライアント部3からサーバ部1に問い合わせる作業;
を行う。
(1)サーバ部1においてインデックスを作成する作業:
当該処理は、前述の第7の実施の形態におけるインデックス作成装置に相当する。
図61は、本発明の第8の実施の形態におけるサーバ側の処理のフローチャートである。
ステップ2001) ドキュメント群200は、図60のように、複数のページからなり、各ページに複数行の文字列を含む紙媒体の書籍群とする。各書籍には、それぞれを一意に識別できる書名が付いているものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報として書名を用いているが、書籍のISBN等、ドキュメントを一意に識別できる情報であれば他の情報を利用してもよい。
ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、ドキュメント中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されるものとする。
ステップ2002) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図62に示すデータ構造でリスト化して、サーバ1の基本文字列抽出部21に渡す。
ステップ2003) サーバ1の基本文字列抽出部21は、データ入力部20から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのテキストファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部22に渡す。
ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図63のように文字の2-gram方式で分割を行うものとする。
「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。
図64に示すのは、基本文字列抽出部21にて上記の処理を行った結果であり、このデータが周辺文字列抽出部22に渡される。
ステップ2004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された基本文字列(図64)について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、インデックス出力部23に渡す。ここでは、図65に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。
図66は、本発明の第8の実施の形態における周辺文字列抽出部の処理結果を示す。同図に示すデータがインデックス出力部23に渡される。
ステップ2005) インデックス出力部23は、周辺文字列抽出部22から渡された各基本文字列と周辺文字列が関連付けられたものを、図66のデータ構造でインデックスDB24に格納する。
なお、サーバ1のコンテンツDB25には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB25に格納するために格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ1上のデータ格納領域にコンテンツの実体を格納し、図67に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。
(2)クライアント部3からサーバ部1に問い合わせる作業:
図68は、本発明の第8の実施の形態におけるクライアント部からサーバ部に問い合わせる処理のフローチャートである。
ステップ3001) ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。クライアント側デバイス30は、ドキュメント撮影部31、コンテンツ表示部32からなる。
ドキュメント撮影部31は、ドキュメントページ201の全体、または一部分を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部33に渡す。ここでは、図69に示すドキュメントページの一部分が撮影され、図70に示す画像ファイルが作成されたとする。
クライアント側データ送受信部33は、ドキュメント撮影部31から渡された画像ファイルをネットワークを通じてサーバ部1のデータ送受信部26に渡す。
ステップ3002) サーバ側データ送受信部26は、光学文字認識装置101を利用して、クライアント側データ送受信部33から渡された画像ファイルから図71に示すテキストデータを抽出し、基本文字列抽出部21に渡す。なお、光学文字認識装置101は、一般的なOCRソフトウェア等であり、文字が撮影されたが画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。
ステップ3003) 基本文字列抽出部21は、サーバ側データ送受信部26から渡されたテキストデータを読み込み、テキストデータにおける最初の行、最後の行、最初の列、最後の列を除く部分(図72の点線で囲まれた部分)から、図73のように文字の2-gram方式で分割を行う方式で基本文字列を抽出し、図74に示すデータ構造で周辺文字列抽出部22に渡す。
ステップ3004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された各基本文字列について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、DB問い合わせ部27に渡す。ここでは、図75に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。
ステップ3005) DB問い合わせ部27は、図76に示すような周辺文字列抽出部22から渡された基本文字列と周辺文字列が関連付けられたデータを用いて、インデックスDB24及びコンテンツDB25に問い合わせを行う。
まず、DB問い合わせ部27がインデックスDB24に対して問い合わせを行う。前述のとおり、インデックスDB24には、図66に示す構造でデータが格納されている。
DB問い合わせ部27は、図76の基本文字列と各周辺文字列の組(例:「北東」と「名」「ツ」「ば」)を用いて、インデックスDB24に該基本文字列と該周辺文字列の組に対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図77で示す形式で取得する。
ステップ3006) 次に、DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図77)を用いて問い合わせを行う。前述のとおり、コンテンツDB25には、図67に示すデータ構造でデータが格納されている。DB問い合わせ部27は、図77の各ファイル名と各出現位置の組(例:「Germany_1.txt」と「1ページ2行7列目」)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツタイプを問い合わせ、問い合わせ結果を図78に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複を削除して図79に示す形式に変換する。
ステップ3007) DB問い合わせ部27は、上述の問い合わせ結果(図79)をサーバ側データ送受信部26に渡す。
サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(コンテンツとコンテンツタイプ)(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。
ステップ3008) クライアント側データ送受信部33は、サーバ側データ送受信部26から渡されたデータ(図79)をコンテンツ表示部32に渡す。
コンテンツ表示部32は、クライアント側データ送受信部33から渡されたデータ(図76)を、コンテンツ表示部32内部で予め設定されたコンテンツ表示手段(図80)を用いて表示する。
[第9の実施の形態]
前述の第8の実施の形態のステップ3001において、撮影条件が悪く(光量不足、手ぶれ等)ドキュメント撮影部31が撮影した画像に品質が悪い場合に、ステップ3002で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識の精度は100%ではないため、撮影画像の品質が良い場合でも、一定確率で文字の誤認識が発生する。光学文字認識装置101において正しく文字認識が行われない場合、その誤った文字データに基づいてステップ3005,3006でDB問い合わせ部27がインデックスDB24及びコンテンツDB25に問い合わせを行っても、撮影したドキュメントの位置に関連付けられたコンテンツは得られない。
本実施の形態では、このような画像品質が悪い状態でも正しい検索結果が得られるようにする例を説明する。
例えば、ドキュメント撮影部31が図70に示す領域を撮影したが、画像品質が悪いため、光学文字認識装置101は、図71のように抽出すべきところ、図81のように抽出したとする。この状況でステップ3001〜3004を行い、図82に示す基本文字列・周辺文字列の組が得られたとする。
次に、ステップ3005において、DB問い合わせ部27がコンテンツDB25に対して、図82の基本文字列と周辺文字列の組を用いて問い合わせを行う。但し、図82の問い合わせ結果には誤認識された文字による誤ったデータが含まれているため、図38のデータを用いてコンテンツDB25に問い合わせた結果は、図82のように該当するデータが見つからなかったり、他のファイル名、出現位置を取得してしまったり(例えば、図83最下行)する。
この問題を第8の実施の形態におけるステップ3006を図84に示す処理を行うことで解決する。図84に示すステップ4006,4007のようにすることで、ステップ3001においてドキュメント撮影部31の撮影画像の品質が悪い場合、あるいは、ステップ3002において光学文字認識装置101の認識精度が悪い場合にも対応できる。
図84は、本発明の第9の実施の形態における処理のフローチャートである。
以下では、図68のステップ3006,3007の代わりにステップ4006,4007のみ示し、他のステップは図68の処理と同様であるため、その説明を省略する。
ステップ4006) DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図83)を用いて問い合わせを行う。DB問い合わせ部27は図83の各ファイル名と各出現位置の組(ただし、該等データなしのものを除く)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツとコンテンツタイプを問い合わせ、問い合わせ結果を図85に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複数を集計して図86に示す形式に変換する。
ステップ4007) DB問い合わせ部27は、上述の問い合わせ結果(図86)のうち、複数の異なるコンテンツが存在する場合は重複数が最大のもの(この例では重複数5件のNarrative_1.txt)をサーバ側データ送受信部26に渡す。
サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。
上記の処理を行った後、図68のステップ3008を行うことで、コンテンツ表示部32にて正しいコンテンツが表示される。
上記のように、第1〜第9の実施の形態により、書籍等のレイアウトが特定されたコンテンツの全体ではなく、一部の上方の文字列配置を用いて、どのコンテンツのどの部分であるかを特定することができる。また、文字を読む方向以外の方向で、文字列を組み合わせてインデックスを作成することにより、少ない文字数で検索結果の誤り率を低く抑えることが可能となる。また、コンテンツ全体ではなく、一部の情報のみを用いて特定を行うため、コンテンツの位置特定粒度(ページ単位ではなく、行単位など)小さくすることもできるため、厳密な位置を特定することができる。
なお、図3,51、に示すインデックス作成装置、図10、44,59に示すサーバ部及びクライアント部の構成要素の動作をプログラムとして構築し、インデックス作成装置、サーバ部、クライアント部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
1 サーバ部
3 クライアント部
10 ドキュメント入力手段、ドキュメント入力部
11 文字ブロック抽出手段、文字ブロック抽出部
12 インデックス出力手段、インデックス出力部
13 インデックス記憶手段、インデックスDB
14 文字ブロック抽出ルール記憶部
20 データ入力部
21 基本文字列抽出部
22 周辺文字列抽出部
23 インデックス出力部
24 インデックスDB
25 コンテンツDB
26 サーバ側データ送受信部
27 DB問い合わせ部
30 クライアント側デバイス
31 ドキュメント撮影部
32 コンテンツ表示部
33 クライアント側データ送受信部
40 ドキュメント入力部
41 文字ブロック抽出部
42 文字ブロック選別
43 インデックス出力部
44 インデックスDB
46 特定文字列DB
100 ドキュメント読み取り装置
101 光学文字認識装置
103 特定文字列DB
200 ドキュメント群
201 ドキュメントページ
300 サーバ部
310 データ入力部
320 文字ブロック抽出部
321 文字ブロック抽出ルール記憶部
330 インデックス出力部
340 インデックスDB
350 コンテンツDB
360 サーバ側データ送受信部
370 DB問い合わせ部
400 クライアント部
410 クライアント部
411 ドキュメント撮影部
412 コンテンツ表示部
420 クライアント側データ送受信部
500 サーバ部
510 文字ブロック選別部
1010 ドキュメント入力部
1011 基本文字列抽出部
1012 周辺文字列中sh通部
1013 インデックス出力部
1014 インデックスDB

Claims (22)

  1. 改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
    インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
    ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段と、
    前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
    を有することを特徴とする検索装置。
  2. 前記文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別手段を更に有する
    請求項1記載の検索装置。
  3. 前記特定文字列は、
    予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
    請求項2記載の検索装置。
  4. ドキュメントに存在する複数の文字ブロックを含む範囲をリージョンとして同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補リージョン群を検索結果として特定する検索手段を更に有する
    請求項1記載の検索装置。
  5. ドキュメント内の特定位置に関連付けられたコンテンツが検索結果候補である場合に、
    同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する
    請求項1記載の検索装置。
  6. 前記特定文字列は、前記光学文字認識装置が利用する認識辞書記憶手段を参照して取得する
    請求項2記載の検索装置。
  7. 前記特定文字列は、
    予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
    請求項2記載の検索装置。
  8. 前記特定文字列は、
    予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
    請求項2記載の検索装置。
  9. あるドキュメント内の一部領域を検索クエリとして受け付ける入力手段と、
    前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、を更に有し、
    前記検索手段は、
    前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する
    請求項1記載の検索装置。
  10. 前記クエリ入力手段は、
    あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む
    請求項9記載の検索装置。
  11. 前記検索結果であるドキュメント及び該ドキュメント内における位置に関連付けられたコンテンツを、検索結果と併せて、あるいは、単独で出力する手段を更に有する
    請求項9記載の検索装置。
  12. 前記クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別手段を更に有する
    請求項2記載の検索装置。
  13. 光学文字認識装置が利用する認識辞書に登録されている1文字以上の文字列を特定文字列とする
    請求項12記載の検索装置。
  14. 前記特定文字列は、
    予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
    請求項12記載の検索装置。
  15. 前記特定文字列は、
    予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
    請求項12記載の検索装置。
  16. 前記特定文字列は、
    予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
    請求項12記載の検索装置。
  17. 改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う装置における検索方法であって、
    ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
    文字ブロック抽出手段が、ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップと、
    インデックス出力手段が、前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
    を行うことを特徴とする検索方法。
  18. 入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付ける入力ステップと、
    クエリ文字ブロック抽出手段が、前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
    検索手段が、前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
    を更に行う請求項17記載の検索方法。
  19. 文字ブロック選別手段が、前記文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別ステップを更に行う
    請求項17記載の検索方法。
  20. 前記特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
    請求項19記載の検索方法。
  21. クエリ文字ブロック選別手段が、前記クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別ステップを更に行う
    請求項18記載の検索方法。
  22. 請求項1乃至16のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるための検索プログラム。
JP2009289788A 2009-08-04 2009-12-21 検索装置及び方法及びプログラム Active JP5384315B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009289788A JP5384315B2 (ja) 2009-08-04 2009-12-21 検索装置及び方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009181819 2009-08-04
JP2009181819 2009-08-04
JP2009289788A JP5384315B2 (ja) 2009-08-04 2009-12-21 検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011054148A true JP2011054148A (ja) 2011-03-17
JP5384315B2 JP5384315B2 (ja) 2014-01-08

Family

ID=43943036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009289788A Active JP5384315B2 (ja) 2009-08-04 2009-12-21 検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5384315B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205943A (ja) * 2012-03-27 2013-10-07 Sony Corp 情報処理装置、情報処理方法、プログラムおよび端末
CN109918594A (zh) * 2019-01-25 2019-06-21 深圳市元征科技股份有限公司 一种信息显示方法及装置
JPWO2020213165A1 (ja) * 2019-04-19 2020-10-22

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0678119A (ja) * 1992-08-24 1994-03-18 Nissin Electric Co Ltd 画像ファイリング装置および画像読取処理装置
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2006053622A (ja) * 2004-08-10 2006-02-23 Hitachi Omron Terminal Solutions Corp 文書リンク情報取得システム
JP2006072520A (ja) * 2004-08-31 2006-03-16 Canon Inc 情報処理装置及びその方法及びそのプログラム記録媒体
JP2006146627A (ja) * 2004-11-22 2006-06-08 Hitachi Omron Terminal Solutions Corp 文書情報検索システム
JP2009020567A (ja) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp 文書検索装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0678119A (ja) * 1992-08-24 1994-03-18 Nissin Electric Co Ltd 画像ファイリング装置および画像読取処理装置
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2006053622A (ja) * 2004-08-10 2006-02-23 Hitachi Omron Terminal Solutions Corp 文書リンク情報取得システム
JP2006072520A (ja) * 2004-08-31 2006-03-16 Canon Inc 情報処理装置及びその方法及びそのプログラム記録媒体
JP2006146627A (ja) * 2004-11-22 2006-06-08 Hitachi Omron Terminal Solutions Corp 文書情報検索システム
JP2009020567A (ja) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp 文書検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205943A (ja) * 2012-03-27 2013-10-07 Sony Corp 情報処理装置、情報処理方法、プログラムおよび端末
CN109918594A (zh) * 2019-01-25 2019-06-21 深圳市元征科技股份有限公司 一种信息显示方法及装置
CN109918594B (zh) * 2019-01-25 2023-12-05 深圳市元征科技股份有限公司 一种信息显示方法及装置
JPWO2020213165A1 (ja) * 2019-04-19 2020-10-22
JP7264240B2 (ja) 2019-04-19 2023-04-25 日本電気株式会社 順序同型照合装置、順序同型照合方法、及び、プログラム

Also Published As

Publication number Publication date
JP5384315B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
US8577882B2 (en) Method and system for searching multilingual documents
US20070171482A1 (en) Method and apparatus for managing information, and computer program product
US20090265631A1 (en) System and method for a user interface to navigate a collection of tags labeling content
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN107111618B (zh) 将图像的缩略图链接到网页
CN105637509A (zh) 在图像内搜索和注释
WO2015096625A1 (zh) 一种信息碎片的翻译方法及***
JP2009086858A (ja) コンテンツ検索装置、コンテンツ検索方法、プログラムおよび記録媒体
CN111602129B (zh) 针对注释和墨迹的智能搜索
JP5384315B2 (ja) 検索装置及び方法及びプログラム
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
CN111460259B (zh) 一种同类元素确定方法、装置、计算机设备及存储介质
JP5196569B2 (ja) コンテンツ検索装置、コンテンツ検索方法及びプログラム
CN105183729A (zh) 音视频内容的检索方法和装置
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
JP2009251655A (ja) フィルタリング装置、フィルタリング方法、プログラムおよび記録媒体
JP2011034504A (ja) 文書処理装置、文書処理方法、プログラム及び記憶媒体
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
KR101434773B1 (ko) 포토 태그 클라우드 표시 방법 및 이를 위한 표시장치
US20160085767A1 (en) Toponym resolution with one hundred percent recall
KR20020006223A (ko) 자동 색인 로봇 시스템 및 이를 이용한 처리 방법
JP5514002B2 (ja) 検索装置及び方法及びプログラム
Bolettieri et al. Searching the EAGLE epigraphic material through image recognition via a mobile device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131002

R150 Certificate of patent or registration of utility model

Ref document number: 5384315

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350