JP2018028714A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2018028714A
JP2018028714A JP2016159118A JP2016159118A JP2018028714A JP 2018028714 A JP2018028714 A JP 2018028714A JP 2016159118 A JP2016159118 A JP 2016159118A JP 2016159118 A JP2016159118 A JP 2016159118A JP 2018028714 A JP2018028714 A JP 2018028714A
Authority
JP
Japan
Prior art keywords
content
document
information
category
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016159118A
Other languages
English (en)
Inventor
碧 谷口
Midori Taniguchi
碧 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2016159118A priority Critical patent/JP2018028714A/ja
Publication of JP2018028714A publication Critical patent/JP2018028714A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書に含まれるコンテンツを格納単位とすることによって文書の格納領域の削減を図る。【解決手段】文書に含まれるコンテンツのうち文書の追跡を可能とするコンテンツが定義されたコンテンツ抽出ルールに従い、格納対象の文書の画像に含まれているコンテンツを抽出するコンテンツ抽出部13と、抽出されたコンテンツをコンテンツ記憶部25に登録するコンテンツ登録部153と、文書名に当該文書から抽出されたコンテンツのコンテンツIDを対応付けして文書情報記憶部26に登録することによって文書をコンテンツの組合せとして登録する文書情報登録部155と、を有する。【選択図】図1

Description

本発明は、情報処理装置及びプログラムに関する。
文書データを画像ファイルとしてハードディスク装置に格納し管理するイメージログシステムにおいて、ハードディスク装置に蓄積されているファイルが出力された場合、そのファイルを出力したユーザーのユーザーIDをファイルの属性情報として記録してファイル管理を行う場合がある。このシステムを利用すると、情報の漏洩が発覚したときに漏洩した情報を含むファイルの出力者が容易に特定できるので情報漏洩の追跡が可能となる。
ところで、管理対象とする画像ファイル全体をそのままハードディスク装置に保存していくと、時間の経過に伴いハードディスク装置の記憶容量を圧迫していくことにもなりかねない。そこで、従来では、文書データの文字列部分にOCRをかけて、文字列部分の画像のデータ量を削減する技術が提案されている(例えば、特許文献1)。
特開2007−086956号公報 特開2009−110319号公報
しかしながら、従来においては、ファイルの文字列部分のデータ量を削減できたとしても情報漏洩の追跡に不要な部分の画像データを格納対象から除くようなことはせずにファイル全体を格納対象としている。
本発明は、文書に含まれるコンテンツを格納単位とすることによって文書の格納領域の削減を図ることを目的とする。
本発明に係る情報処理装置は、格納対象の文書を受け付ける文書受付手段と、文書に含まれるコンテンツのうち保存対象とするコンテンツが定義されたコンテンツ抽出定義情報に基づき、前記文書受付手段に受け付けられた文書からコンテンツを抽出する抽出手段と、前記抽出手段により抽出されたコンテンツをコンテンツ記憶手段に登録するコンテンツ登録手段と、前記文書受付手段に受け付けられた文書を識別する文書識別情報に、当該文書から抽出され前記コンテンツ記憶手段に格納されたコンテンツのコンテンツ識別情報を対応付けして文書情報を生成して文書情報記憶手段に登録する文書情報登録手段と、を有することを特徴とする。
また、前記抽出手段により抽出されたコンテンツと同一のコンテンツが前記コンテンツ記憶手段に既に登録されている場合、前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツを前記コンテンツ記憶手段に登録せず、前記文書情報登録手段は、前記文書識別情報に前記同一のコンテンツのコンテンツ識別情報を対応付けして文書情報を生成することを特徴とする。
また、前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツに類似したコンテンツが前記コンテンツ記憶手段に登録されている場合、前記文書識別情報に前記抽出手段により抽出されたコンテンツと類似したコンテンツとの差分情報をコンテンツとして前記コンテンツ記憶手段に登録し、前記文書情報登録手段は、前記文書識別情報に前記差分情報のコンテンツ識別情報を対応付けして文書情報を生成することを特徴とする。
また、前記類似したコンテンツと前記抽出手段により抽出された差分情報とを関連付けたコンテンツ管理情報を参照してコンテンツを復元する復元手段を有することを特徴とする。
また、前記コンテンツ記憶手段に登録されているコンテンツを出力するコンテンツ出力手段と、前記出力手段により出力されたコンテンツの中から選択されたコンテンツを受け付けるコンテンツ受付手段と、前記コンテンツ受付手段により受け付けられたコンテンツを含む文書に関する情報を出力する文書情報出力手段と、を有することを特徴とする。
また、前記コンテンツ抽出定義情報には、文書の追跡を可能とするコンテンツが定義されており、前記コンテンツ受付手段は、漏洩した文書に含まれているコンテンツを受け付けることを特徴とする。
また、前記格納対象の文書の出力者を含む当該文書の属性情報を受け付ける属性情報受付手段を有し、前記文書情報登録手段は、前記文書識別情報に当該文書の属性情報を関連付けし、前記文書情報出力手段は、前記文書に関する情報として当該文書の属性情報を出力することを特徴とする。
また、コンテンツがカテゴリに分類されて前記コンテンツ記憶手段に登録される場合、前記抽出手段により抽出されたコンテンツの分類先とするカテゴリを決定するカテゴリ決定手段を有し、前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツを前記カテゴリ決定手段により受け付けられたカテゴリに分類して前記コンテンツ記憶手段に登録し、前記コンテンツ出力手段は、前記文書に関する情報を出力する際にカテゴリが指定さると、その指定されたカテゴリ及び当該カテゴリを下位層に含むカテゴリに分類されたコンテンツを前記コンテンツ記憶手段の中から抽出して表示することを特徴とする。
本発明に係るプログラムは、コンピュータを、格納対象の文書を受け付ける文書受付手段、文書に含まれるコンテンツのうち保存対象とするコンテンツが定義されたコンテンツ抽出定義情報に基づき、前記文書受付手段に受け付けられた文書からコンテンツを抽出する抽出手段、前記抽出手段により抽出されたコンテンツをコンテンツ記憶手段に登録するコンテンツ登録手段、前記文書受付手段に受け付けられた文書を識別する文書識別情報に、当該文書から抽出され前記コンテンツ記憶手段に格納されたコンテンツのコンテンツ識別情報を対応付けして文書情報を生成して文書情報記憶手段に登録する文書情報登録手段、として機能させる。
請求項1に記載の発明によれば、文書に含まれるコンテンツを格納単位とすることによって文書の格納領域の削減を図ることができる。
請求項2に記載の発明によれば、格納しようとするコンテンツと同一のコンテンツが既に登録されている場合、同一のコンテンツを重複して格納させずにすむ。
請求項3に記載の発明によれば、格納しようとするコンテンツに類似したコンテンツが登録されている場合、格納しようとするコンテンツとして、類似するコンテンツとの差分のみを抽出して格納することができる。
請求項4に記載の発明によれば、差分のみを格納したコンテンツを復元することができる。
請求項5に記載の発明によれば、格納したコンテンツを含む文書に関する情報を出力することができる。
請求項6に記載の発明によれば、追跡対象とする文書に関する情報を出力することができる。
請求項7に記載の発明によれば、追跡対象とする文書の出力者を特定することができる。
請求項8に記載の発明によれば、追跡対象とする文書に含まれるコンテンツの絞り込みの便宜を図ることができる。
請求項9に記載の発明によれば、文書に含まれるコンテンツを格納単位とすることによって文書の格納領域の削減を図ることができる。
本発明に係る情報処理装置の一実施の形態である文書管理装置を示したブロック構成図であり、文書の登録に関連する構成を示した図である。 本発明に係る情報処理装置の一実施の形態である文書管理装置を示したブロック構成図であり、文書検索に関連する構成を示した図である。 本実施の形態における文書管理装置のハードウェア構成図である。 本実施の形態における文書の登録処理を示したフローチャートである。 図4Aに続くフローチャートである。 本実施の形態において格納される文書に関連付けして登録される当該文書の属性情報のデータ構成の一例を示した図である。 本実施の形態におけるコンテンツカテゴリ管理情報記憶部に記憶されるコンテンツカテゴリ管理情報のデータ構成の一例を示した図である。 図6に示したコンテンツカテゴリ管理情報の設定例に基づきカテゴリとコンテンツとの関係を模式的に表した図である。 本実施の形態における文書情報記憶部に登録される文書情報のデータ構成の一例を示した図である。 本実施の形態における文書検索処理を示したフローチャートである。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
図1は、本発明に係る情報処理装置の一実施の形態である文書管理装置10を示したブロック構成図であり、特に文書の登録に関連する構成を示した図である。図2は、図1と同じく文書管理装置10を示したブロック構成図であるが、特に文書の検索に関連する構成を示した図である。本実施の形態の説明に用いない構成要素については図1,2から省略した。本実施の形態における文書管理装置10は、文書データを画像として格納して管理する装置である。
図3は、本実施の形態における文書管理装置10のハードウェア構成図である。本実施の形態における文書管理装置10は、従前から存在する汎用的なハードウェア構成で実現できる。すなわち、文書管理装置10は、図3に示したようにCPU31、ROM32、RAM33、ハードディスクドライブ(HDD)34、入力手段として設けられたマウス35とキーボード36、及び表示装置として設けられたディスプレイ37をそれぞれ接続する入出力コントローラ38、通信手段として設けられたネットワークコントローラ39を内部バス40に接続して構成される。
図1に戻り、本実施の形態における文書管理装置10は、文書データ受付部11、文書属性情報受付部12、コンテンツ抽出部13、カテゴリ決定部14、コンテンツ管理部15、コンテンツ抽出ルール設定部16、カテゴリ分類ルール設定部17、コンテンツ抽出ルール記憶部22、カテゴリ分類ルール記憶部23、コンテンツカテゴリ管理情報記憶部24、コンテンツ記憶部25及び文書情報記憶部26を有している。文書データ受付部11は、格納対象の文書データの画像を受け付ける文書受付手段として機能する。文書管理装置10はコンピュータで実現されていることから、文書データ受付部11が受け付ける文書というのは電子データ(画像)であるが、説明の便宜上、文書の画像も単に「文書」と表現して説明する。文書属性情報受付部12は、格納対象の文書の属性情報を受け付ける属性情報受付手段として機能する。コンテンツ抽出部13は、コンテンツ抽出ルール記憶部22に登録されているコンテンツ抽出定義情報としてのコンテンツ抽出ルールに基づき文書データ受付部11に受け付けられた文書からコンテンツを抽出する抽出手段として機能する。ここで、「コンテンツ」というのは、文書に含まれる情報のことをいい、テキスト部分、表、画像等などの種類がある。カテゴリ決定部14は、カテゴリ分類ルール記憶部23に登録されているカテゴリ分類ルールに基づきコンテンツ抽出部13により抽出された各コンテンツの分類先とするカテゴリを決定するカテゴリ決定手段として機能する。コンテンツ抽出ルール設定部16は、管理者や開発者等(以下、単に「管理者」)の入力に基づいてコンテンツ抽出ルール記憶部22にコンテンツ抽出ルールを設定登録する。カテゴリ分類ルール設定部17は、管理者の入力に基づいてカテゴリ分類ルール記憶部23にカテゴリ分類ルールを設定登録する。
本実施の形態では、格納対象の文書全体をそのまま格納するのではなく、文書に含まれるコンテンツを格納単位とすることを特徴の一つとしている。このため、コンテンツ記憶部25には、文書に含まれるコンテンツが記憶されるが、コンテンツ管理部15は、このコンテンツの管理を行う。コンテンツ管理部15は、差分算出部151、差分コンテンツ生成部152、コンテンツ登録部153、コンテンツカテゴリ管理情報登録部154及び文書情報登録部155を有している。差分算出部151は、コンテンツ記憶部25への登録対象となるコンテンツ(以下、「登録対象コンテンツ」)と、コンテンツ記憶部25に既に登録されているコンテンツのうち登録対象となるコンテンツの分類先となるカテゴリ及びそのカテゴリを下位層に含むカテゴリに分類された各コンテンツとの差分値を算出する。差分コンテンツ生成部152は、差分算出部151により算出された差分値に基づき登録対象コンテンツに類似したコンテンツ(以下、「類似コンテンツ」)がコンテンツ記憶部25に登録されていると判断した場合、登録対象コンテンツと類似コンテンツとの差分情報を抽出する。コンテンツ登録部153は、コンテンツ登録手段として設けられ、コンテンツ抽出部13により抽出されたコンテンツ(登録対象コンテンツ)をコンテンツ記憶部25に登録する。ただ、類似コンテンツが存在する場合は登録対象コンテンツをそのまま登録しないなど処理の内容が異なってくるが、この登録処理の詳細については後述する。コンテンツカテゴリ管理情報登録部154は、コンテンツの登録に伴い、当該コンテンツに関するコンテンツ管理情報及びカテゴリに関するカテゴリ管理情報を含むコンテンツカテゴリ管理情報をコンテンツカテゴリ管理情報記憶部24に設定登録する。文書情報登録部155は、文書情報登録手段として設けられ、文書データ受付部11に受け付けられた文書を識別する文書識別情報に、当該文書から抽出されコンテンツ記憶部25に格納されたコンテンツのコンテンツ識別情報を対応付けして文書情報を生成して文書情報記憶部26に登録する。更に、文書情報登録部155は、文書識別情報に、文書属性情報受付部12により受け付けられた当該文書の属性情報を関連付けて文書情報記憶部26に登録する。
図2において、文書管理装置10は、カテゴリ受付部18、コンテンツ表示部19及び情報表示部20を有している。コンテンツカテゴリ管理情報記憶部24、コンテンツ記憶部25及び文書情報記憶部26は、図1に示した構成と同じである。カテゴリ受付部18は、管理者が入力指定した検索したい文書(漏洩が発覚した文書)に含まれているコンテンツが属するカテゴリを受け付ける。コンテンツ表示部19は、コンテンツ出力手段として設けられ、コンテンツ記憶部25に記憶されているコンテンツのうちカテゴリ受付部18により受け付けられたカテゴリ及びそのカテゴリを下位層に含むカテゴリに分類されたコンテンツをディスプレイ37に表示する。コンテンツ表示部19は、また復元手段としても機能し、表示するコンテンツが類似コンテンツの存在により差分情報から生成されている場合、コンテンツカテゴリ管理情報を参照して当該コンテンツを復元する。管理者は、コンテンツ表示部19により表示されたコンテンツの中から検索したい文書(漏洩が発覚した文書)に含まれているコンテンツを選択することになるが、情報表示部20は、その選択されたコンテンツを受け付けるコンテンツ受付手段及びそのコンテンツを含む文書に関する情報を出力する文書情報出力手段として機能する。本実施の形態の場合、文書に関する情報として文書属性情報をディスプレイ37に表示する。なお、各記憶部22〜26のデータ構成等については追って説明する。
文書管理装置10における各構成要素11〜20は、文書管理装置10を形成するコンピュータと、コンピュータに搭載されたCPU31で動作するプログラムとの協調動作により実現される。また、各記憶部22〜26は、文書管理装置10に搭載されたHDD34にて実現される。あるいは、全部又は一部の記憶部をRAM33又は外部にある記憶手段をネットワーク経由で利用してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
次に、本実施の形態における動作について説明するが、文書管理装置10を動作させるためにはコンテンツ抽出ルール及びカテゴリ分類ルールを事前に設定しておく必要がある。もちろん、コンテンツ抽出ルール及びカテゴリ分類ルールは、動作開始後において追加、変更、削除を適宜行ってもよい。
コンテンツ抽出ルールには、文書に含まれるコンテンツのうち保存対象とするコンテンツを特定するためのルールが定義されている。本実施の形態の場合、漏洩した文書の追跡ができるようにするために文書の追跡が可能なコンテンツを特定するためのルールが定義されている。つまり、文書の追跡の参考にならないようなコンテンツはコンテンツ記憶部25への格納対象から除外するようにした。すなわちコンテンツの要不要を振り分けるルールをコンテンツ抽出ルールとして設定する。本実施の形態では、前述したように文書をコンテンツ単位に分割して格納するが、格納する際に目的の達成に寄与しないコンテンツを格納しないようにすることで、コンテンツ記憶部25における格納領域の削減を図るようにした。本実施の形態では、コンテンツ抽出ルールをプログラムで作成して、コンテンツ抽出部13がコンテンツ(OCR結果の文字列、画像等)及びコンテンツの内容を特徴付けるコンテンツ属性情報(例えば、図面データにおける図番(文字列))を抽出できるように設定されている。
カテゴリ分類ルールには、コンテンツ抽出部13により抽出されたコンテンツを登録するカテゴリを一意に決めるためのルールが定義されている。例えば、コンテンツの属性情報に図番○○が含まれており、文書の属性情報にユーザー△△が含まれていれば、カテゴリ□□に分類する、などである。
続いて、本実施の形態における文書の登録処理について図4A、図4Bに示したフローチャートを用いて説明する。
ユーザーの所定の操作に応じて文書登録処理のアプリケーションが起動されると、まず、文書データ受付部11は、ユーザーにより指定された登録対象の文書の画像を取得し(ステップ101)、また、文書属性情報受付部12は、その文書の属性情報を取得する(ステップ102)。属性情報のデータ構成例を図5に示す。属性情報には、文書データ受付部11により受け付けられた文書画像の元となる文書がジョブ(プリントジョブ)により印字出力されて生成され、その出力者はユーザーIDが“user001”のユーザーであることがわかる。
続いて、コンテンツ抽出部13は、コンテンツ抽出ルール記憶部22に登録されているコンテンツ抽出ルールプログラムを実行し、文書に含まれているコンテンツ及び各コンテンツの属性情報を抽出する(ステップ103)。前述したように、コンテンツ抽出部13は、コンテンツ抽出ルールの定義に従って文書の追跡を可能とするコンテンツのみを登録対象の文書から抽出する。
コンテンツ抽出部13は上記処理により1又は複数のコンテンツを抽出することになるが、文書管理装置10は、抽出した各コンテンツに対し以下に説明する処理を繰り返し実行する。
まず、カテゴリ決定部14は、抽出されたコンテンツの中からまだ処理対象としていないコンテンツを1つ取り出し、コンテンツ抽出部13により取得されたコンテンツ属性情報に基づきカテゴリ分類ルールを参照していずれかのカテゴリに分類する(ステップ105)。このように、本実施の形態では、文書検索の便宜を図るためにコンテンツをカテゴリに分類して登録するが、図7ではそのカテゴリとコンテンツとの関係を模式的に図示している。
コンテンツの分類先とするカテゴリが決定されると、コンテンツ管理部15は、コンテンツをコンテンツ記憶部25に登録することになるが、そのために、差分算出部151は、そのコンテンツ(登録対象コンテンツ)と、コンテンツ記憶部25に登録されているコンテンツのうち登録対象コンテンツの分類先となるカテゴリ及びその先祖カテゴリに含まれている各コンテンツ(以下、「比較対象コンテンツ」)との差分値を算出する(ステップ106)。ここで、「先祖カテゴリ」というのは、登録対象コンテンツの分類先となるカテゴリを下位層に含むカテゴリのことをいう。図7に示したカテゴリの関係に基づくと、登録対象コンテンツの分類先となるカテゴリが“部品A”の場合、 “root”、“商品A”及び“図面”が先祖カテゴリに該当する。
ところで、登録対象コンテンツと比較対象コンテンツとの差分値が0ということは、差分がない、すなわち同一のコンテンツである。また、差分値が小さいほど登録対象コンテンツと比較対象コンテンツは類似度が高いといえる。本実施の形態では、類似かどうかの判定基準となる閾値を予め設定しており、差分値がその閾値以下の場合に、登録対象コンテンツと比較対象コンテンツは類似していると判断する。
ここで、登録対象コンテンツと同一の比較対象コンテンツがコンテンツ記憶部25に登録されていない場合(ステップ107でN)、かつ登録対象コンテンツに類似した比較対象コンテンツがコンテンツ記憶部25に登録されていない場合(ステップ108でN)、コンテンツ管理部15は、登録対象コンテンツに対し、当該コンテンツを識別するための識別情報(コンテンツID)を新たに発行する(ステップ110)。登録対象コンテンツに類似した比較対象コンテンツがコンテンツ記憶部25に登録されている場合(ステップ108でY)、差分コンテンツ生成部152は、登録対象コンテンツと類似コンテンツとの差分を抽出して差分情報を生成する(ステップ109)。
なお、差分情報は、登録対象コンテンツと類似コンテンツとの差分を示す情報である。差分としては、類似コンテンツに対して付加する部分の情報及び類似コンテンツから除外する部分の情報が含まれることになるが、本実施の形態では、この差分情報をコンテンツとして管理することにする。そして、コンテンツ管理部15は、差分情報であるコンテンツに対してコンテンツIDを発行する(ステップ110)。
一方、登録対象コンテンツと同一の比較対象コンテンツがコンテンツ記憶部25に既に登録されている場合(ステップ107でY)、コンテンツ管理部15は、同一の比較対象コンテンツに対して発行したコンテンツIDを登録対象コンテンツに付与する(ステップ111)。
格納対象の文書から抽出されたコンテンツ全てに対して以上の処理を実施すると(ステップ104でN)、コンテンツ登録部153は、各コンテンツをコンテンツ記憶部25に登録する(ステップ112)。同一又は類似するコンテンツが存在しなかった場合には、当該コンテンツをそのままコンテンツ記憶部25に登録すればよい。類似コンテンツが存在した場合、差分情報によるコンテンツを登録することになる。また、同一のコンテンツが存在した場合、同一コンテンツは登録済みなので改めて登録する必要はない。
本実施の形態では、保存しておくべきコンテンツのみを登録することによって格納領域を削減する。更に、類似コンテンツが存在する場合には、その類似コンテンツとの差分のみを格納するようにし、同一コンテンツが存在する場合には重複した登録を回避することによって格納領域の削減効果を更に高めている。
そして、コンテンツカテゴリ管理情報登録部154は、コンテンツ間、カテゴリ間、更にコンテンツとカテゴリとの関係を示すコンテンツカテゴリ管理情報をコンテンツカテゴリ管理情報記憶部24に登録する(ステップ113)。
図6は、本実施の形態におけるコンテンツカテゴリ管理情報記憶部24に記憶されるコンテンツカテゴリ管理情報のデータ構成の一例を示した図である。また、図7は、図6の設定例に基づきカテゴリとコンテンツとの関係を模式的に表した図である。
図7を参照すれば明らかなように、本実施の形態では、カテゴリを階層的に形成している。図6において種別が“カテゴリ”のレコードを参照すると、各カテゴリには、当該カテゴリの識別情報(ID)としてのカテゴリID、カテゴリラベル(カテゴリ名)及び当該カテゴリが属する直上のカテゴリ(親カテゴリ)を対応付けしたカテゴリ管理情報が設定される。本実施の形態の場合、“root”には親カテゴリが設定されていないため最上位のカテゴリであることがわかる。
また、種別が“コンテンツ”のレコードを参照すると、各コンテンツには、当該コンテンツの識別情報(ID)としてのコンテンツID、当該コンテンツのコンテンツ記憶部25における格納場所を示すコンテンツ格納先ポインタ、当該コンテンツの分類先となる親カテゴリ、当該コンテンツに類似コンテンツが存在する場合にはその類似コンテンツのコンテンツIDを対応付けしたコンテンツ管理情報が設定される。親カテゴリには、同一コンテンツが存在する場合、当該コンテンツの親カテゴリには、分類先となるカテゴリが文書毎に設定される。図6,7に示した設定例によると、コンテンツIDが“0403”のコンテンツは、“組立図”及び“部品A”のカテゴリに属していることから各カテゴリのカテゴリIDが親カテゴリに設定される。また、コンテンツIDが“0405”のコンテンツは、コンテンツIDが“0404”のコンテンツに類似していることがわかる。
続いて、文書情報登録部155は、文書情報を文書情報記憶部26に登録するが、この登録される文書情報のデータ構成の一例を図8に示す。文書情報は、文書の識別情報としての文書名に、コンテンツID及び文書属性情報格納先ポインタが対応付けして登録される。コンテンツIDには、コンテンツ抽出部13により当該文書から保存対象として抽出されたコンテンツのコンテンツIDが設定される。このように、文書は、コンテンツの組合せとして登録され、認識される。文書属性情報格納先ポインタには、属性情報の格納場所を示すポインタ情報が設定される。
以上説明したように、文書情報登録部155は、文書名に当該文書に含まれるコンテンツのコンテンツIDを対応付けて文書情報を生成することにより、当該文書をコンテンツの組合せとして登録することになる(ステップ114)。そして、文書情報登録部155は、更に文書名に当該文書の属性情報を関連付けて登録する(ステップ115)。属性情報は、この時点で保存してもよいし、ステップ102で受け付けた時点でコンテンツの登録に先立って保存するようにしてもよい。
本実施の形態においては、以上のようにして文書を登録することになる。続いて、本実施の形態における文書検索処理について図9に示したフローチャートを用いて説明する。本実施の形態における文書検索処理は、例えば、文書の漏洩が確認されたときに、その文書の追跡を行いたい場合に実行される。
ユーザーの所定の操作に応じて文書検索処理のアプリケーションが起動されると、まず、カテゴリ受付部18は、コンテンツカテゴリ管理情報記憶部24からコンテンツカテゴリ管理情報を読み出し、コンテンツカテゴリ管理情報に設定されているカテゴリをディスプレイ37に表示する(ステップ121)。これは、カテゴリを単にリスト表示してもよいが、図7に例示したように、カテゴリの階層関係がわかるようにしてコンテンツカテゴリ管理情報を表示してもよい。管理者は、追跡対象とする文書、すなわち漏洩した文書に含まれているコンテンツ及び当該コンテンツが属するカテゴリを知っているので、表示されたものの中からそのカテゴリを選択する。仮に、管理者はカテゴリを記憶していなくても、漏洩した文書は明らかであることから、この文書に含まれているコンテンツからカテゴリは類推可能であり、また、図7に示したようにコンテンツカテゴリ管理情報を模式的に表示すれば、よりカテゴリを選択しやすくなる。なお、文書に複数のコンテンツが含まれている場合が想定できるが、この場合は、いずれか1つのコンテンツが属するカテゴリを選択すればよい。
カテゴリ受付部18が管理者により選択されたカテゴリを受け付けると(ステップ122)、コンテンツ表示部19は、コンテンツカテゴリ管理情報を参照して、選択されたカテゴリ及び先祖カテゴリに属するコンテンツを抽出する(ステップ123)。そして、コンテンツをディスプレイ37に表示する(ステップ124)。
ところで、本実施の形態では、類似コンテンツが存在した場合、類似コンテンツとの差分を抽出して格納するようにした。従って、表示対象のコンテンツに類似コンテンツが存在する場合、コンテンツ表示部19は、当該表示対象のコンテンツ(差分情報)及び当該表示対象のコンテンツの類似コンテンツのコンテンツをコンテンツ記憶部25から読み出して表示対象のコンテンツを表示可能な画像に復元してから表示する。
管理者がディスプレイ37に表示されたコンテンツの中から追跡対象とする文書に含まれるコンテンツを選択すると、情報表示部20は、そのコンテンツを受け付け(ステップ125)、そのコンテンツに基づき文書情報記憶部26を検索することによって、受け付けたコンテンツを含む文書を特定する(ステップ126)。なお、同じコンテンツを含む文書が複数存在する場合は、全ての文書を特定する。そして、情報表示部20は、特定した文書に対応付けされている属性情報を読み出してディスプレイ37に表示する(ステップ127)。
管理者は、表示された属性情報のユーザーIDを参照することで、漏洩した文書の出力者を知ることができるので、その出力者に問い合わせるなどすることによって漏洩した文書の追跡が可能となる。
なお、ここでは、漏洩した文書の追跡を目的としているため、属性情報に含まれるユーザーIDを少なくとも表示すればよいが、異なる目的の場合、属性情報の他の情報や文書に含まれる全てのコンテンツなど当該文書に関する情報を表示するようにしてもよい。
本実施の形態では、図7に示した文書情報から明らかなように、文書をコンテンツの組合せとして格納するようにし、コンテンツが文書のどのページを構成するかという情報は記録していない。もちろん、コンテンツの表示ページやページ上の配置等の情報を合わせて記録するようにしてもよい。ただ、流出した文書は、その文書のレイアウトのまま利用されるとは限らず、部分的にあるコンテンツだけが切り取られて利用される場合が少なくない。このため、本実施の形態では、コンテンツを格納単位とし、コンテンツ単位で文書を管理するようにした。
なお、本実施の形態においては、コンテンツ出力手段及び文書情報出力手段の出力先としてディスプレイ37を例にして説明したが、これに限らず、例えば、印刷媒体、管理者が使用する情報端末、更に記憶手段やネットワークを介して他のコンピュータへ送信するなど他の出力先を選択するようにしてもよい。
また、本実施の形態においては、情報処理装置を1台のコンピュータで実現する場合を例にして説明したが、文書の登録機能と検索機能に分けるなど複数のコンピュータにて実現してもよい。また、画像形成装置にはコンピュータ(情報処理装置)が内蔵されているが、スキャナによる文書の読取画像を内部のHDDに格納する画像形成装置にて実現してもよい。
10 文書管理装置、11 文書データ受付部、12 文書属性情報受付部、13 コンテンツ抽出部、14 カテゴリ決定部、15 コンテンツ管理部、16 コンテンツ抽出ルール設定部、17 カテゴリ分類ルール設定部、18 カテゴリ受付部、19 コンテンツ表示部、20 情報表示部、22 コンテンツ抽出ルール記憶部、23 カテゴリ分類ルール記憶部、24 コンテンツカテゴリ管理情報記憶部、25 コンテンツ記憶部、26 文書情報記憶部、31 CPU、32 ROM、33 RAM、34 ハードディスクドライブ(HDD)、35 マウス、36 キーボード、37 ディスプレイ、38 入出力コントローラ、39 ネットワークコントローラ、40 内部バス、151 差分算出部、152 差分コンテンツ生成部、153 コンテンツ登録部、154 コンテンツカテゴリ管理情報登録部、155 文書情報登録部。

Claims (9)

  1. 格納対象の文書を受け付ける文書受付手段と、
    文書に含まれるコンテンツのうち保存対象とするコンテンツが定義されたコンテンツ抽出定義情報に基づき、前記文書受付手段に受け付けられた文書からコンテンツを抽出する抽出手段と、
    前記抽出手段により抽出されたコンテンツをコンテンツ記憶手段に登録するコンテンツ登録手段と、
    前記文書受付手段に受け付けられた文書を識別する文書識別情報に、当該文書から抽出され前記コンテンツ記憶手段に格納されたコンテンツのコンテンツ識別情報を対応付けして文書情報を生成して文書情報記憶手段に登録する文書情報登録手段と、
    を有することを特徴とする情報処理装置。
  2. 前記抽出手段により抽出されたコンテンツと同一のコンテンツが前記コンテンツ記憶手段に既に登録されている場合、
    前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツを前記コンテンツ記憶手段に登録せず、
    前記文書情報登録手段は、前記文書識別情報に前記同一のコンテンツのコンテンツ識別情報を対応付けして文書情報を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツに類似したコンテンツが前記コンテンツ記憶手段に登録されている場合、前記文書識別情報に前記抽出手段により抽出されたコンテンツと類似したコンテンツとの差分情報をコンテンツとして前記コンテンツ記憶手段に登録し、
    前記文書情報登録手段は、前記文書識別情報に前記差分情報のコンテンツ識別情報を対応付けして文書情報を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記類似したコンテンツと前記抽出手段により抽出された差分情報とを関連付けたコンテンツ管理情報を参照してコンテンツを復元する復元手段を有することを特徴とする請求項3に記載の情報処理装置。
  5. 前記コンテンツ記憶手段に登録されているコンテンツを出力するコンテンツ出力手段と、
    前記出力手段により出力されたコンテンツの中から選択されたコンテンツを受け付けるコンテンツ受付手段と、
    前記コンテンツ受付手段により受け付けられたコンテンツを含む文書に関する情報を出力する文書情報出力手段と、
    を有することを特徴とする請求項1又は4に記載の情報処理装置。
  6. 前記コンテンツ抽出定義情報には、文書の追跡を可能とするコンテンツが定義されており、
    前記コンテンツ受付手段は、漏洩した文書に含まれているコンテンツを受け付けることを特徴とする請求項5に記載の情報処理装置。
  7. 前記格納対象の文書の出力者を含む当該文書の属性情報を受け付ける属性情報受付手段を有し、
    前記文書情報登録手段は、前記文書識別情報に当該文書の属性情報を関連付けし、
    前記文書情報出力手段は、前記文書に関する情報として当該文書の属性情報を出力することを特徴とする請求項6に記載の情報処理装置。
  8. コンテンツがカテゴリに分類されて前記コンテンツ記憶手段に登録される場合、前記抽出手段により抽出されたコンテンツの分類先とするカテゴリを決定するカテゴリ決定手段を有し、
    前記コンテンツ登録手段は、前記抽出手段により抽出されたコンテンツを前記カテゴリ決定手段により受け付けられたカテゴリに分類して前記コンテンツ記憶手段に登録し、
    前記コンテンツ出力手段は、前記文書に関する情報を出力する際にカテゴリが指定さると、その指定されたカテゴリ及び当該カテゴリを下位層に含むカテゴリに分類されたコンテンツを前記コンテンツ記憶手段の中から抽出して表示することを特徴とする請求項5に記載の情報処理装置。
  9. コンピュータを、
    格納対象の文書を受け付ける文書受付手段、
    文書に含まれるコンテンツのうち保存対象とするコンテンツが定義されたコンテンツ抽出定義情報に基づき、前記文書受付手段に受け付けられた文書からコンテンツを抽出する抽出手段、
    前記抽出手段により抽出されたコンテンツをコンテンツ記憶手段に登録するコンテンツ登録手段、
    前記文書受付手段に受け付けられた文書を識別する文書識別情報に、当該文書から抽出され前記コンテンツ記憶手段に格納されたコンテンツのコンテンツ識別情報を対応付けして文書情報を生成して文書情報記憶手段に登録する文書情報登録手段、
    として機能させるためのプログラム。
JP2016159118A 2016-08-15 2016-08-15 情報処理装置及びプログラム Pending JP2018028714A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016159118A JP2018028714A (ja) 2016-08-15 2016-08-15 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016159118A JP2018028714A (ja) 2016-08-15 2016-08-15 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2018028714A true JP2018028714A (ja) 2018-02-22

Family

ID=61249055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016159118A Pending JP2018028714A (ja) 2016-08-15 2016-08-15 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2018028714A (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278978A (ja) * 2001-03-21 2002-09-27 Sanyo Electric Co Ltd 画像管理装置
JP2007243730A (ja) * 2006-03-09 2007-09-20 Canon Inc 画像処理装置およびその制御方法、および画像処理システム
JP2008003847A (ja) * 2006-06-22 2008-01-10 Fuji Xerox Co Ltd 文書利用管理システム、文書管理サーバ及びそのプログラム
JP2008027131A (ja) * 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2010073171A (ja) * 2008-09-22 2010-04-02 Yahoo Japan Corp 商品表示方法、商品表示プログラムおよび端末装置
JP2012073999A (ja) * 2010-02-26 2012-04-12 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び情報処理プログラムを記録した記録媒体
JP2013114567A (ja) * 2011-11-30 2013-06-10 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2014071644A (ja) * 2012-09-28 2014-04-21 Ntt Docomo Inc 情報処理装置
JP2016025625A (ja) * 2014-07-24 2016-02-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278978A (ja) * 2001-03-21 2002-09-27 Sanyo Electric Co Ltd 画像管理装置
JP2007243730A (ja) * 2006-03-09 2007-09-20 Canon Inc 画像処理装置およびその制御方法、および画像処理システム
JP2008003847A (ja) * 2006-06-22 2008-01-10 Fuji Xerox Co Ltd 文書利用管理システム、文書管理サーバ及びそのプログラム
JP2008027131A (ja) * 2006-07-20 2008-02-07 Canon Inc 画像検索機能を持つ情報漏えい抑止システム
JP2010073171A (ja) * 2008-09-22 2010-04-02 Yahoo Japan Corp 商品表示方法、商品表示プログラムおよび端末装置
JP2012073999A (ja) * 2010-02-26 2012-04-12 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び情報処理プログラムを記録した記録媒体
JP2013114567A (ja) * 2011-11-30 2013-06-10 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2014071644A (ja) * 2012-09-28 2014-04-21 Ntt Docomo Inc 情報処理装置
JP2016025625A (ja) * 2014-07-24 2016-02-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US8892554B2 (en) Automatic word-cloud generation
US10552525B1 (en) Systems, methods and apparatuses for automated form templating
JP2006268638A (ja) 文書差分検出装置
WO2007139039A1 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
AU2015202463B2 (en) Capturing specific information based on field information associated with a document class
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
WO2018208412A1 (en) Detection of caption elements in documents
CN110968584B (zh) 一种画像生成***、方法、电子设备及可读存储介质
JP2013196244A (ja) 情報処理装置及び情報処理プログラム
US20140365543A1 (en) Document management server, document management method, and non-transitory storage medium storing program
US20200342169A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2010267083A (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP6194180B2 (ja) 文章マスク装置及び文章マスクプログラム
JP7027696B2 (ja) 情報処理装置及び情報処理プログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
US10438011B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2018028714A (ja) 情報処理装置及びプログラム
US11165737B2 (en) Information processing apparatus for conversion between abbreviated name and formal name
US9170725B2 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method that detect associated documents based on distance between documents
US7849086B2 (en) Document processor and computer readable medium
JP6623547B2 (ja) 情報処理装置及び情報処理プログラム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210323