JP2013149068A - ファイル間の関連性の解析方法及びシステム並びにプログラム - Google Patents

ファイル間の関連性の解析方法及びシステム並びにプログラム Download PDF

Info

Publication number
JP2013149068A
JP2013149068A JP2012008766A JP2012008766A JP2013149068A JP 2013149068 A JP2013149068 A JP 2013149068A JP 2012008766 A JP2012008766 A JP 2012008766A JP 2012008766 A JP2012008766 A JP 2012008766A JP 2013149068 A JP2013149068 A JP 2013149068A
Authority
JP
Japan
Prior art keywords
file
information
database
path
file path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012008766A
Other languages
English (en)
Inventor
Daisuke Bando
大輔 坂東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012008766A priority Critical patent/JP2013149068A/ja
Publication of JP2013149068A publication Critical patent/JP2013149068A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ハイパーリンクで関連付けられていないファイル同士を機械的に解析することで、検索システムなどで「弱い関連性」を有する関連ファイルを抽出し、画面内に表示できるようにすること。
【解決手段】 インデクス済みファイル情報からファイル名、ファイルパスの情報を取得した後、ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、各参照元ファイルパスのファイルについて参照先ファイル名を検索キーとして検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として抽出する。
【選択図】 図1

Description

本発明は、ファイルサーバ内に保存された大量のファイル間の関連性を解析するための技術に関するものであり、特に、検索システムにおいて、検索したファイルに関連するファイルを検索結果内に表示できるファイル間の関連性の解析方法及びシステム並びにプログラムに関するものである。
従来、コンピュータ性能の高速化、HDDの大容量化に伴い、膨大な数のファイルが作られるようになっている。このため、膨大な数のファイルの中から、所望のファイルを高速かつ的確に探し出すことができる検索システムの必要性が高まっている。特に、各々のファイルが相互に関連し合っていることも多いことから、あるファイルに関連する他のファイルを探し出すニーズが大幅に増加している。
WWW(World Wide Web)に代表されるハイパーメディアデータベースに格納されているHTML(Hyper Text Mark-up Language)形式のWebページに関しては、検索エンジンのGoogle(Google社の登録商標)が、Webページ間に張られたハイパーリンクの相関関係に基づいて、そのWebページに関連する他のWebページを表示する機能を提供している。
本発明に関連する公知技術文献としては、下記特許文献1および2が挙げられる。
特開2002−304393号 米国特許US 6,285,999 B1
上記特許文献1および2が、ファイル間の関連性を判断する際に前提としているのは、Webページ間に張られたハイパーリンクの相関関係である。
しかし、各々のファイルが相互に関連し合っていたとしても、その相関関係がハイパーリンクで明示されているとは限らず、ファイル内で他のファイルの名前を言及することで黙示されていることもある。
前者はハイパーリンクによりリンク先ファイルのパスが明示されており、その関連性が明白であることから「強い関連性」と捉えることができる。
一方、後者はリンク先ファイルのパスが直接示されておらず、ファイルの名前や更新日時などのデータに基づいて、その関連性を見出すことから「弱い関連性」と捉えることができる。
従来は、「強い関連性」を有するファイル同士、すなわちハイパーリンクで関連付けられているファイル同士に関しては、システムが関連ファイルとして機械的に認識することができたが、「弱い関連性」を有するファイル同士、すなわちハイパーリンクで関連付けられていないファイル同士に関しては、人間が自らの判断で関連ファイルであると推定する必要があった。
その結果、「強い関連性」を有する関連ファイルは、システムにより機械的に検索することができたのに対し、「弱い関連性」を有する関連ファイルは、人間の判断が必要なため、検索作業を自動化することができず、人手で探し出すのに膨大な時間と労力を要するという問題があった。
本発明の目的は、ハイパーリンクで関連付けられていない「弱い関連性」を有するファイル同士を機械的に解析することで、検索システムなどで「弱い関連性」を有する関連ファイルを抽出し、画面内に表示できるようにすること方法及びシステム並びにプログラムを提供することである。
上記課題を解決するために、本発明のファイル間の関連性解析方法は、第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1のステップと、
取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2のステップと、
前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3のステップとを備え、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とする。
また、前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4のステップを備えることを特徴とする。
また、任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5のステップを備えることを特徴とする。
本発明のファイル間の関連性解析システムは、第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1の手段と、
取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2の手段と、
前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3の手段とを備え、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とする。
また、前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4の手段を備えることを特徴とする。
また、任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5の手段を備えることを特徴とする。
また、本発明のファイル間の関連性解析用のプログラムは、ファイル間の関連性解析サーバを、第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1の手段と、
取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2の手段と、
前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3の手段として機能させ、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とする。
また、前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4の手段として機能させることを特徴とする。
また、任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5の手段として機能させることを特徴とする。
本発明によれば、第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得した後、その取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行し、さらに第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行することにより、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出するようにしているため、「弱い関連性」を有するファイル同士を機械的な解析処理により、「弱い関連性」を有する関連ファイルの一覧を作成することができる。
これによって、検索システムなどで「弱い関連性」を有する関連ファイルを画面内に表示できる。
本発明に係る第一の実施形態におけるシステム構成図である。 インデックス済みファイル情報格納DB2のデータ構成図である。 ファイル名出現箇所情報格納DB3のデータ構成図である。 「弱い関連性」情報格納DB4のデータ構成図である。 ファイル名文字列抽出手段8の動作を示すフローチャートである。 ファイル名出現箇所抽出手段9の動作を示すフローチャートである。 言及先ファイルパス特定手段10の動作を示すフローチャートである。 「弱い関連性」解析手段11の動作を示すフローチャートである。 関連ファイル表示手段12の動作を示すフローチャートである。 関連ファイル表示手段12に関して、関連ファイルへのリンクが表示される画面の概念図である。 関連ファイル表示手段12に関して、関連ファイルが存在しない場合の関連ファイル情報表示画面の概念図である。 関連ファイル表示手段12に関して、関連ファイルが存在する場合の関連ファイル情報表示画面の概念図である。
以下、本発明を実施する場合の第一の実施形態について、図面に基づき詳細に説明する。
図1は、本発明に係る第一の実施形態におけるシステム構成図である。
図1において示したファイル間の関連性の解析システムは、関連性解析サーバ1およびファイルサーバ17(以下「サーバ等」という)を、LAN(Local Area Network)16等の有線又は無線の通信回線により互いに通信可能に接続したシステムである。
図1においては、サーバ等はLAN16によって互いに通信可能に接続されているが、接続方法はLANに限定されるものではなく、例えばWAN(Wide Area Network)やインターネットによって接続されていてもよい。
また、図1においては、サーバ等が同一LANセグメント上で接続されているが、この構成は一例に過ぎず、どのような構成になっていてもよい。さらに、図1においては、関連性解析サーバ1およびファイルサーバ17はそれぞれ1台ずつ存在しているが、それぞれ2台以上存在しても構わない。また、関連性解析サーバ1およびファイルサーバ17はそれぞれ異なる装置である必要はなく、例えば、関連性解析サーバ1およびファイルサーバ17の機能を1台の装置によって実現することも可能である。
以上のような構成により、関連性解析サーバ1はファイルサーバ17上のファイルのうち、相互に「弱い関連性」を有するファイルの一覧を作成する。
関連性解析サーバ1およびファイルサーバ17はPC等の装置である。
関連性解析サーバ1には、インデックス済みファイル情報格納DB2、ファイル名出現箇所情報格納DB3、「弱い関連性」情報格納DB4が設けられている。
また、関連性解析サーバ1には、インデックスデータ5、ファイル名文字列判定ルールリスト13、参照先特定用設定データ14、スケジューラ設定データ15が格納されている。
記憶装置18は磁気ディスク等の装置であり、ファイルサーバ17に内蔵され又は外部接続される。記憶装置18は検索対象ファイル19を記憶しており、関連性解析サーバ1から検索対象ファイル19を参照できるように設定されている。
インデックスデータ5は、インデクサ7が検索対象ファイル19をインデクシングする過程で字句解析と正規化を行った結果として導出されたデータである。
ファイル名文字列判定ルールリスト13には、ファイル名文字列抽出手段8がファイル名を示す文字列を判定し抽出する際に参照する判定ルールの一覧が正規表現の形式で記憶されている。
参照先特定用設定データ14は、参照先ファイルパス特定手段10が参照先ファイルパスを特定する際に参照する日時差分の許容範囲を示す設定値である。
スケジューラ設定データ15は、スケジューラ6がファイルの関連性の解析を定期的に実行するために参照する実行間隔の設定値である。
関連性解析サーバ1はスケジューラ6、インデクサ7、ファイル名文字列抽出手段8、ファイル名出現箇所抽出手段9、参照先ファイルパス特定手段10、「弱い関連性」解析手段11、および、関連ファイル表示手段12を備えている。
スケジューラ6は関連ファイルの一覧を定期的に作成するにあたり、スケジューラ設定データ15の一覧作成処理実行間隔を参照して、ファイル名出現箇所抽出手段9、「弱い関連性」解析手段11を実行して、関連ファイルの一覧を作成する。
ファイル名文字列抽出手段8は、ファイル名文字列判定ルールリスト13の情報に基づいて、インデックス済みファイル情報格納DB2からファイル名を示す文字列を抽出する。この動作については、ファイル名文字列抽出手段8の処理フロー(S501等)として後述する。
ファイル名出現箇所抽出手段9は、他のファイルを参照している参照元ファイルのファイルパスとファイル名文字列抽出手段8によって抽出した参照先ファイル名を、ファイル名出現箇所情報格納DB3に格納する。この動作については、ファイル名出現箇所抽出手段9の処理フロー(S601等)として後述する。
参照先ファイルパス特定手段10は、ファイル名出現箇所抽出手段9によって抽出された参照先ファイル名および参照先特定用設定データ14の情報に基づいて、インデックス済みファイル情報格納DB2から参照先ファイルパスを抽出する。この動作については、参照先ファイルパス特定手段10の処理フロー(S701等)として後述する。
「弱い関連性」解析手段11は、ファイル名出現箇所情報格納DB3の参照元ファイルパス311と参照先ファイルパス特定手段10によって特定された参照先ファイルパスの対応情報の一覧を作成し、その一覧の情報を「弱い関連性」情報格納DB4に格納する。
この動作については、「弱い関連性」解析手段11(S801等)として後述する。
関連ファイル表示手段12は、「弱い関連性」情報格納DB4に格納されている情報を参照して、あるファイルと「弱い関連性」を有する関連ファイルを画面内に表示する。この動作については、関連ファイル表示手段12の処理フロー(S901等)として後述する。
図2はインデックス済みファイル情報格納DB2のデータ構成図である。
インデックス済みファイル情報格納DB2は、インデックス済みファイル情報テーブル21で定義される情報を格納する。
インデックス済みファイル情報テーブル21は、ファイルパス211、ファイル名212、インデクス作成完了日時213から構成されており、図示しないインデクサ7がインデクシングを完了した検索対象ファイル19に関するファイルパス211、ファイル名212、インデクシング完了日時213が登録されるようになっている。
図3はファイル名出現箇所情報格納DB3のデータ構成図である。
ファイル名出現箇所情報格納DB3は、ファイル名出現箇所情報テーブル31で定義される情報を格納する。
ファイル名出現箇所情報テーブル31は、参照元ファイルパス311、参照先ファイル名312、出現箇所抽出日時313から構成されており、ファイル名出現箇所抽出手段9により、参照元のファイルのファイルパス311、参照先のファイル名312、抽出時点でのシステム日時313が登録されるようになっている。
図4は「弱い関連性」情報格納DB4のデータ構成図である。
「弱い関連性」情報格納DB4は、「弱い関連性」情報テーブル41で定義される情報を格納する。「弱い関連性」情報テーブル41は、参照元ファイルパス411、参照先ファイルパス412、関連情報更新日時413から構成されており、「弱い関連性」解析手段11により、参照元ファイルのファイルパス411、インデックス済みファイル情報格納DB2から検索された参照先ファイルパス412、解析時点でのシステム日時413が登録されるようになっている。
図5はファイル名文字列抽出手段8の動作を示すフローチャートである。
ファイル名文字列抽出手段8は、インデックスデータ5で示されるファイルパスの各ファイルを参照元としてファイル名文字列判定ルールに適合するファイル名の文字列を抽出する処理である。
図5の処理は、図6のフローチャートに示す処理の中から呼び出される。
まず、ファイル名文字列判定ルールリスト13を参照し、その中に正規表現の形式(例えば、”*.doc” “*.xls” “*.pdf””*.txt”といった形式)で記述されているルールを読み込む(S501)。
次に、ファイル名出現箇所抽出手段9の処理の中から呼び出された際に指定されたファイルに関して、S501で読み込んだルールを検索キーとして、インデックスデータ5を検索する(S502)。次に、検索にヒットした文字列をファイル名文字列と見なして抽出し、ファイル名出現箇所抽出手段9の処理にその抽出結果を返却する(S503)。
なお、S503において、抽出件数が“0”件となった場合は、ファイル名出現箇所抽出手段9の処理にNULL値を返却し、抽出件数が複数件となった場合は、ファイル名出現箇所抽出手段9の処理にその全件を返却する。
図6はファイル名出現箇所抽出手段9の動作を示すフローチャートである。
ファイル名出現箇所抽出手段9は参照先ファイル名が出現する箇所の情報を参照元のファイルから抽出する処理である。図6のS601に至るまでは、前述のように、スケジューラ6が、関連ファイルの一覧を定期的に作成するにあたり、スケジューラ設定データ15の一覧作成処理実行間隔を参照して、処理を開始させる。
まず、インデックス済みファイル情報格納DB2からインデックス済みファイルの情報を取得する(S601)。
次に、取得したインデックス済みファイルの情報に存在するファイルパスで示される全てのファイルデータを1つずつ取得し、ファイル名文字列抽出手段8の呼び出し、およびS602からS605までのステップを反復する。
この反復ループの中では、まず、ファイル名文字列抽出手段8を呼び出す。ファイル名文字列抽出手段8によりファイル名文字列判定ルールリスト13に定義されたルールに適合するファイル名文字列が抽出されたか否かで条件分岐を行う(S602)。抽出されなかった場合は、次のインデックス済みファイルデータの処理を移る。
抽出された場合は、抽出された全てのファイル名文字列を処理するまで、S603からS605までのステップを反復する(ある1つのインデックス済みファイルデータ内に、複数のファイル名文字列が参照されているケースがあるため、各々のファイル名文字列毎に処理を行う)。
抽出された場合には、インデックス済みファイル情報テーブル21のファイルパス211の値(すなわちファイル名文字列判定ルールリスト13に定義されたルールに適合するファイル名文字列が抽出されたファイルのファイルパス)をファイル名出現箇所情報テーブル31の参照元ファイルパス311に格納する(S603)。
次にファイル名文字列抽出手段8により抽出されたファイル名文字列の値をファイル名出現箇所情報テーブル31の参照先ファイル名312に格納する(S604)。
次に抽出時のシステム日時の値をファイル名出現箇所情報テーブル31の出現箇所抽出日時313に格納する(S605)。
図7は参照先ファイルパス特定手段10の動作を示すフローチャートである。
参照先ファイルパス特定手段10は、ファイル名出現箇所情報テーブル31の参照先ファイル名312の情報から参照先ファイルパスを特定する処理である。
図7の処理は、図8のフローチャートに示す処理の中から呼び出される。
「弱い関連性」解析手段11の処理の中から呼び出された際に指定されたファイル名出現箇所情報テーブル31の参照先ファイル名312をファイル名212に対する検索キーとして、インデックス済みファイル情報格納DB2を検索する(S701)。
検索にヒットしたか否かで条件分岐を行う(S702)。
検索にヒットしなかった場合は、処理を終了し、「弱い関連性」解析手段11の処理にNULL値を返却する。
検索にヒットした場合は、全てのファイルを処理するまでS703からS708までのステップを反復する(ある1つの参照先ファイル名312と等しい名前のファイルが複数のファイルパスに存在しているケースがあるため、各々のファイルパスに存在するファイル毎に処理を行う)。
次にファイル名出現箇所情報格納DB3から「弱い関連性」解析手段11の処理の中から呼び出された際に指定された参照元ファイルパス312に対応するレコードの出現箇所抽出日時313を取得する(S703)。
次にインデックス済みファイル情報格納DB2から当該ファイルの更新日時213を取得する(S704)。
取得した出現箇所抽出日時313と更新日時213の差分を算出する(S705)。
参照先特定用設定データ14から許容範囲の値を取得する(S706)。
差分がS706で取得した許容範囲の値に収まっているか否かで条件分岐を行う(S707)。
差分が許容範囲内に収まっている場合は、インデックス済みファイル情報格納DB2から当該ファイルのファイルパス211を取得する(S708)。
S708でファイルパス211の値が複数取得された(参照先ファイル名312と同名のファイルが複数のファイルパスに存在した)場合は、反復ループを抜けた後に一括して、「弱い関連性」解析手段11の処理に返却する。
ステップS703〜S707までの処理はインデクス完了日時が古いファイルは除外するためのものであり、必要に応じて付加する。
図8は「弱い関連性」解析手段11の動作を示すフローチャートである。
「弱い関連性」解析手段11は、「弱い関連性」を解析し、参照元ファイルパス411と参照先ファイルパス412の対応情報を導出する処理である。
図6のフローチャートに示した処理の終了後、スケジューラ6が図8の処理を起動させる。ファイル名出現箇所情報格納DB3から参照元ファイルの情報を取得する(S801)。
まず、全ての参照元ファイルを処理するまで、参照先ファイルパス特定手段10の呼び出し、および、S802の条件分岐、S803〜S805の内部反復ループを反復する。
この反復ループの中では、まず、参照先ファイルパス特定手段10を呼び出す。
参照先ファイルパス特定手段10によりパスを特定できたか否かで条件分岐を行う(S802)。
特定できなかった場合は、次の参照元ファイルに処理を移る。
特定できた場合は、特定できた全てのパスを処理するまで、S803からS805までのステップを反復する。ここでは当該の参照元ファイルの参照元ファイルパス311の値を「弱い関連性」情報テーブル41の参照元ファイルパス411に格納する(S803)。また、参照先ファイルパス特定手段10により特定した参照先ファイルパスの値を「弱い関連性」情報テーブル41の参照先ファイルパス412に格納する(S804)。そして、特定した時のシステム日時の値を「弱い関連性」情報テーブル41の関連情報更新日時413に格納する(S805)。
図9は関連ファイル表示手段12の動作を示すフローチャートである。
関連ファイル表示手段12はあるファイルと関連するファイルの一覧を表示する処理である。
図9のS901に至るまでは、図10の概念図に示すような画面100内において、あるファイル101と紐づいている関連ファイルへのリンク102がクリックされると(指定されると)処理が開始される。
まず、リンク102と紐づいているファイル101のファイルパス103を取得する(S901)。当該ファイルパスを参照元ファイルパス411に対する検索キーとして、「弱い関連性」情報格納DB4を検索する(S902)。
検索にヒットしたか否かで条件分岐を行う(S903)。検索にヒットしなかった場合は、図11に示すように「関連ファイル無し」である旨111を画面110内に表示する(S904)。
検索にヒットした場合は、ヒットしたレコード全てを処理するまで、S905からS906までのステップを反復する。すなわち「弱い関連性」情報格納DB4から、検索にヒットした参照元ファイルパス411に対応する参照先ファイルパス412を取得する(S905)。次に「弱い関連性」情報格納DB4から、検索にヒットした参照元ファイルパス411に対応する関連情報更新日時413を取得する(S906)。そして、S905、S906で取得した参照先ファイルパス412へのリンクと関連情報更新日時413の一覧121を画面120内に表示する(S907)。
図10は関連ファイル表示手段12に関して、関連ファイルへのリンクが表示される画面の概念図である。画面100の内容は一例に過ぎない。関連ファイルへのリンク102の文言は、図10内で例示しているものに限定せず、関連ファイルへのリンクであるという旨が伝わる内容であれば任意とする。
図11は関連ファイル表示手段12に関して、関連ファイルが存在しない場合の関連ファイル情報表示画面の概念図である。画面110の内容は一例に過ぎない。「関連ファイル無し」である旨111の文言は、図11内で例示しているものに限定せず、その旨が伝わる内容であれば任意とする。
図12は関連ファイル表示手段12に関して、関連ファイルが存在する場合の関連ファイル情報表示画面の概念図である。画面120の内容は一例に過ぎない。一覧121の文言は、図12内で例示しているものに限定せず、あるファイルと関連するファイルの一覧の情報が伝わる内容であれば任意とする。
1 関連性解析サーバ
2 インデックス済みファイル情報格納DB
3 ファイル名出現箇所情報格納DB
4 「弱い関連性」情報格納DB
5 インデックスデータ
6 スケジューラ
7 インデクサ
8 ファイル名文字列抽出手段
9 ファイル名出現箇所抽出手段
10 参照先ファイルパス特定手段
11 「弱い関連性」解析手段
12 関連ファイル表示手段
13 ファイル名文字列判定ルールリスト
14 参照先特定用設定データ
15 スケジューラ設定データ
16 ネットワーク
17 ファイルサーバ
18 ファイルサーバ17に接続された記憶装置
19 検索対象ファイル

Claims (9)

  1. 第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1のステップと、
    取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2のステップと、
    前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3のステップとを備え、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とするファイル間の関連性解析方法。
  2. 前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4のステップを備えることを特徴とする請求項1に記載のファイル間の関連性解析方法。
  3. 任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5のステップを備えることを特徴とする請求項1または2に記載のファイル間の関連性解析方法。
  4. 第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1の手段と、
    取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2の手段と、
    前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3の手段とを備え、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とするファイル間の関連性解析システム。
  5. 前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4の手段を備えることを特徴とする請求項4に記載のファイル間の関連性解析システム。
  6. 任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5の手段を備えることを特徴とする請求項4または5に記載のファイル間の関連性解析システム。
  7. ファイル間の関連性解析サーバを、
    第1のデータベースに格納したインデクス済みファイル情報からファイル名、ファイルパスの情報を取得する第1の手段と、
    取得した前記ファイルパスに基づき各ファイルのデータを取得し、当該ファイルデータ中にファイル名文字列判定ルールに適合するファイル名を示す文字列が記述されているかを判定し、記述されていた場合には記述されていたファイルのファイルパスを参照元ファイルパス、記述されているファイル名を参照先ファイル名として第2のデータベースに格納すると共に、検出日時の情報を対応付けて格納する処理を全てのファイルデータを対象に実行する第2の手段と、
    前記第2のデータベースに格納されている前記参照元ファイルパスを取得し、各参照元ファイルパスのファイルについて前記第2のデータベースに格納されている前記参照先ファイル名を検索キーとして前記第1のデータベースに格納されたインデクス情報を検索し、検索キーに一致するファイル名のファイルが存在するかを判定し、存在した場合には当該ファイルのファイルパスを前記第1のデータベースから取得し、参照元と参照先との関係が特定された弱い関連関係を有するファイルの情報として参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する処理を全てのファイルデータを対象に実行する第3の手段ととして機能させ、ハイパーリンクで特定されない参照元と参照先とが弱い関連関係を有するファイルの情報を抽出することを特徴とするファイル間の関連性解析用のプログラム。
  8. また、前記第1のデータベースに格納されたインデクス済みファイル情報には、当該インデクス済みファイル情報の作成完了日時の情報が含まれており、前記第3のステップではインデクス済みファイル情報の作成完了日時と検索キーに一致するファイル名のファイルが存在することを判定した日時の情報を比較し、その差が許容範囲内であるときのみ前記参照元ファイルパス、参照先ファイルパスの情報、及び関連性を判定した日時の情報を第3のデータベースに格納する第4の手段として機能させることを特徴とする請求項7に記載のファイル間の関連性解析用のプログラム。
  9. また、任意のリンクと紐づいているファイルのファイルパスが指定されたとき、当該ファイルパスを検索キーとして前記第3のデータベースを検索し、検査キーに一致する参照先ファイルパスが存在した場合、その参照先ファイルパスへのリンクと関連性を判定した日時の情報を前記第3のデータベースから取得して表示する第5の手段として機能させることを特徴とする請求項7または8に記載のファイル間の関連性解析用のプログラム。
JP2012008766A 2012-01-19 2012-01-19 ファイル間の関連性の解析方法及びシステム並びにプログラム Pending JP2013149068A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012008766A JP2013149068A (ja) 2012-01-19 2012-01-19 ファイル間の関連性の解析方法及びシステム並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012008766A JP2013149068A (ja) 2012-01-19 2012-01-19 ファイル間の関連性の解析方法及びシステム並びにプログラム

Publications (1)

Publication Number Publication Date
JP2013149068A true JP2013149068A (ja) 2013-08-01

Family

ID=49046519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012008766A Pending JP2013149068A (ja) 2012-01-19 2012-01-19 ファイル間の関連性の解析方法及びシステム並びにプログラム

Country Status (1)

Country Link
JP (1) JP2013149068A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019038A (zh) * 2018-04-12 2019-07-16 平安普惠企业管理有限公司 文件引用分析方法、装置、设备及计算机可读存储介质
JP2019121375A (ja) * 2017-12-28 2019-07-22 富士通株式会社 トラステッド・エグゼキューション環境におけるセキュアハッシュ演算

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08335221A (ja) * 1995-06-07 1996-12-17 Toshiba Corp 関連文書検索方法及び情報処理装置
US6047126A (en) * 1995-03-08 2000-04-04 Kabushiki Kaisha Toshiba Document requesting and providing system using safe and simple document linking scheme
JP2000315210A (ja) * 1999-04-30 2000-11-14 Ricoh Co Ltd 文書管理システムおよび文書管理方法
US20060242184A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Efficiently describing relationships between resources
JP2008123251A (ja) * 2006-11-13 2008-05-29 Murata Mach Ltd 文書管理装置
JP2010262440A (ja) * 2009-05-01 2010-11-18 Canon Software Inc 文書情報管理システム、文書情報管理装置、文書情報管理方法、プログラム及び記憶媒体。

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047126A (en) * 1995-03-08 2000-04-04 Kabushiki Kaisha Toshiba Document requesting and providing system using safe and simple document linking scheme
JPH08335221A (ja) * 1995-06-07 1996-12-17 Toshiba Corp 関連文書検索方法及び情報処理装置
JP2000315210A (ja) * 1999-04-30 2000-11-14 Ricoh Co Ltd 文書管理システムおよび文書管理方法
US20060242184A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Efficiently describing relationships between resources
JP2008123251A (ja) * 2006-11-13 2008-05-29 Murata Mach Ltd 文書管理装置
JP2010262440A (ja) * 2009-05-01 2010-11-18 Canon Software Inc 文書情報管理システム、文書情報管理装置、文書情報管理方法、プログラム及び記憶媒体。

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121375A (ja) * 2017-12-28 2019-07-22 富士通株式会社 トラステッド・エグゼキューション環境におけるセキュアハッシュ演算
JP7176388B2 (ja) 2017-12-28 2022-11-22 富士通株式会社 トラステッド・エグゼキューション環境におけるセキュアハッシュ演算
CN110019038A (zh) * 2018-04-12 2019-07-16 平安普惠企业管理有限公司 文件引用分析方法、装置、设备及计算机可读存储介质
CN110019038B (zh) * 2018-04-12 2023-03-21 平安普惠企业管理有限公司 文件引用分析方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US9448999B2 (en) Method and device to detect similar documents
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘***
JP5721818B2 (ja) 検索におけるモデル情報群の使用
KR101775883B1 (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
JP6411800B2 (ja) 情報管理装置、情報管理システム、及び情報管理プログラム
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US11556592B1 (en) Storage estimate generation
WO2014167647A1 (ja) データ管理装置、データ管理方法及び非一時的な記録媒体
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN110018982A (zh) 查找文件的方法、装置、设备及计算机可读存储介质
JP5323143B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2004220251A (ja) 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
US9990444B2 (en) Apparatus and method for supporting visualization of connection relationship
JP2006331292A (ja) Weblogコミュニティ検索支援方法、検索支援装置および検索支援方法のプログラムを記録した記録媒体
KR20110035001A (ko) 키워드 시각화 장치 및 그 방법
JP2013149068A (ja) ファイル間の関連性の解析方法及びシステム並びにプログラム
CN101593187A (zh) 用于管理书签的方法和***
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US10606875B2 (en) Search support apparatus and method
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
Han et al. Using transaction logs to better understand user search session patterns in an image-based digital library
JP5652519B2 (ja) 情報検索方法、プログラム及び装置
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150624