JP2014164618A

JP2014164618A - 頻出パターン抽出装置、頻出パターン抽出方法及びプログラム

Info

Publication number: JP2014164618A
Application number: JP2013036332A
Authority: JP
Inventors: Takayuki Kawabata; 貴幸川端
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-02-26
Filing date: 2013-02-26
Publication date: 2014-09-08

Abstract

【課題】複数のユーザが協調して複数のファイルを操作して作業を行う場合において、より汎用的なワークフローの抽出を実現する。
【解決手段】ワークフローの中心となる中心ファイルクラスタを抽出する中心クラスタ抽出部３２７３と、中心ファイルクラスタと同じワークフローに含まれる従属ファイルクラスタを特定する従属クラスタ特定部３２７５と、中心ファイルクラスタに属するファイルと従属ファイルクラスタに属するファイルにおける操作履歴に基づいて各ユーザにおける中心ファイルクラスタ及び従属ファイルクラスタの操作シーケンスの集合を抽出するシーケンス抽出部３２７６と、シーケンス抽出部３２７６で抽出した操作シーケンスの集合に基づいてワークフローとなる頻出パターンを抽出する頻出パターン抽出部３２７７を備える。
【選択図】図３

Description

本発明は、複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置及び頻出パターン抽出方法、並びに、当該頻出パターン抽出方法をコンピュータに実行させるためのプログラムに関する。

従来から、ユーザのアイテム操作履歴を解析して、特徴的な頻出パターンを抽出し、その抽出したパターンを利用して、ユーザの操作効率を向上させるような手法が多く提案されている。例えば、Ｗｅｂのアクセスログを解析し、ページＡを見た後には、ページＦをよく見るなどのパターンを抽出することで、ページＡを見たユーザに対して、次にページＦを見ることを推薦するような技術がある。

また、オフィスにおけるユーザのファイル操作履歴を分析して、作業の流れ（ワークフロー）を抽出する手法も提案されている。

例えば、下記の特許文献１では、プリンタや複写機などの画像処理装置で行われた処理についての画像情報を含む履歴を用いて業務手順を推定する手法が提案されている。この手法の特徴的なところは、文書画像の特徴量の類似度によりフォーム判定を行い、蓄積された多数の文書画像のログを、同一種類の帳票ひな型ごとの集合に分類することである。その結果「フォームＡの帳票は、中村（課員）が印刷して押印した後スキャンし、次に鈴木（課長）が押印の後コピーし、最後に田中（部長）が押印の後スキャンする」というようなワークフローが抽出できる。

また、例えば、下記の特許文献２では、オフィスでの文書に対する操作の履歴から、分岐を含むワークフローを生成する手法が提案されている。この手法は、文書単位で操作履歴レコードをノードとして時系列に並べたものをツリーとし、ツリー間で一部が共通の属性（ファイル名や、操作者、操作種別など）を含むノード同士を結合していくことで、分岐や結合を含んだワークフローを抽出している。

特開２００９−２２４９５８号公報特開２０１０−１９１７０９号公報

Agrawal, R. and Srikant, R., "Fast Algorithms for Mining Association Rules", Proceedings of the 20th VLDB Conference, 1994, p487-499 J. Pei, J. Han, B. Mortazavi-Asl, Q. Checn, U. Dayal, and M.C. Hsu, "PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth", Proceedings of ICDE, 2001, p215-224 Jian Pei, Haixun Wang, Jian Liu, Ke Wang, Jianyong Wang, and Philip S. Yu, "Discovering Frequent Closed Partial Orders from Strings", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 18, NO. 11, NOVEMBER 2006, p1467-1481

しかしながら、上述した従来手法には、下記の２つの課題がある。

まず、１つ目の課題は、単一の文書（単一のアイテム）だけに限られたワークフローしか抽出できないことである。特許文献１も特許文献２も、単一の文書毎に操作履歴をまとめることで、その文書に対して、どういうユーザが、どのような順で、どういった操作を行っていくのかを推定している。しかしながら、オフィスでのワークフローは、複数の文書（複数のアイテム）を扱って複数のユーザが協調して行うようなものも多く、上述した従来手法ではこのようなワークフローを抽出することができない。

２つ目の課題は、複数のユーザが並行して作業を行うようなワークフローを抽出できないことである。例えば、Ａさんが作業した後には、ＢさんとＣさんは独立して並行に作業を行うことができ、ＢさんとＣさんの作業が両方完了した後には、Ｄさんが作業を開始できるようなワークフローである。特許文献２では、分岐や結合を含むワークフローを扱えるが、ここで言う分岐や結合は、我々の言う並行作業での分岐や結合とは異なる。特許文献２では、分岐はＩＦ−ＴＨＥＮルールであり、例えば、見積もり依頼書を作成するワークフローにおいて、見積もり物品の種別に応じて、次のフローである依頼先の担当者を切り替えるようなワークフローである。つまり、実際の作業の流れは***であり、我々の言う複数のユーザが独立して並行に行うような作業の流れではなく、そのようなワークフローを抽出することはできない。

すなわち、上述した従来手法では、上述した２つの課題のために、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、限定的なワークフローしか抽出することができない。

本発明は、上述した従来手法による課題に鑑みてなされたものであり、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、より汎用的なワークフローの抽出を実現する仕組みを提供することを目的とする。

本発明の頻出パターン抽出装置は、複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置であって、前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリング手段と、前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出手段と、前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定手段と、前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出手段と、前記シーケンス抽出手段で抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出手段とを有する。
また、本発明は、上述した頻出パターン抽出装置による頻出パターン抽出方法、及び、当該頻出パターン抽出方法をコンピュータに実行させるためのプログラムを含む。

本発明によれば、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、ユーザが独立して並行に作業を行うようなパターンも含めて、より汎用的なワークフローの抽出を実現することができる。これにより、このワークフローを用いて、ユーザのアイテム操作をナビゲートするなど、作業の効率を向上させることが可能となる。

本発明の実施形態に係る頻出パターン抽出システムの装置構成の一例を示す模式図である。図１に示す各装置の内部構成の一例を示すブロック図である。図１に示すファイル管理サーバー内に構築されるファイル管理システムの機能構成の一例を示すブロック図である。本発明の実施形態を示し、図３に示す操作履歴データベースにファイル操作履歴として格納されるファイル操作情報の一例を示す図である。本発明の実施形態を示し、図３に示すワークフロー抽出部によるワークフロー抽出処理の処理手順の一例を示すフローチャートである。本発明の実施形態を示し、図３に示すワークフロー抽出部によるワークフロー抽出処理の処理手順の一例を示すフローチャートである。本発明の実施形態を示し、図３に示すワークフロー抽出部が抽出対象とするワークフローの一例を示す図である。本発明の実施形態を示し、図３に示す操作履歴データベースにファイル操作履歴として格納されるファイル操作情報の一例を示す図である。本発明の実施形態を示し、ファイルのコピー関係によるファイル間の類似度の一例を示す図である。本発明の実施形態を示し、図８に示すファイル操作情報におけるファイルを階層型クラスタリングした一例を示す図である。本発明の実施形態を示し、図８に示すファイル操作情報について、ファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。本発明の実施形態を示し、図８に示すファイル操作情報について、ファイルクラスタ別にユーザのファイル操作を時系列にマッピングした一例を示す図である。本発明の実施形態を示し、図８に示すファイル操作情報について、ＦＣ１及びＦＣ２に属するファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。本発明の実施形態を示し、ファイル操作シーケンス及びファイルクラスタ操作シーケンスの一例を示す図である。本発明の実施形態を示し、シーケンシャルパターマイニングを説明するための図である。本発明の実施形態を示し、図６のステップＳ６０４において抽出されるワークフローの一例を示す図である。

以下に、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。

本発明の実施形態では、アイテムとして、フォルダ（またはディレクトリ）構造を持つファイルを対象とする。なお、本実施形態では、アイテムとしてファイルを対象としているが、本発明においては、これに限定されるものではない。

図１は、本発明の実施形態に係る頻出パターン抽出システムの装置構成の一例を示す模式図である。
頻出パターン抽出システムは、クライアントサーバモデルとして実現される。具体的に、本実施形態に係る頻出パターン抽出システムは、図１に示すように、ネットワーク１０１、端末Ａ１０２、端末Ｂ１０３、端末Ｃ１０４、及び、ファイル管理サーバー１０５を備えて構成されている。

端末Ａ１０２、端末Ｂ１０３、端末Ｃ１０４、及び、ファイル管理サーバー１０５は、ネットワーク１０１を介して接続されており、それぞれ相互間で各種の情報の授受を実行する。ユーザは、それぞれ、端末Ａ１０２、端末Ｂ１０３、端末Ｃ１０４上の専用のクライアントツールを用いて、ファイルの登録、閲覧、削除などのファイル操作を行う。

図２は、図１に示す各装置の内部構成の一例を示すブロック図である。
図１に示す各装置は、図２に示すように、制御部２０１、バス２０２、メモリ部２０３、大規模記憶部２０４、表示部２０５、入力部２０６、出力部２０７、及び、ネットワーク接続部２０８を有して構成されている。

制御部２０１は、例えばＣＰＵ等で構成されており、当該装置における動作を統括的に制御する。

バス２０２は、制御部２０１、メモリ部２０３、大規模記憶部２０４、表示部２０５、入力部２０６、出力部２０７、及び、ネットワーク接続部２０８を相互に通信可能に接続する。制御部２０１は、バス２０２を介して、当該装置の各部（２０３〜２０８）を制御することにより、当該装置における動作を統括的に制御する。

メモリ部２０３は、例えば、ＲＡＭやＲＯＭ等で構成される電子的な記憶装置である。制御部２０１は、このメモリ部２０３に記憶されたプログラムやデータに従って動作し、バス２０２を介して接続された当該装置の各部を制御する。

大規模記憶部２０４は、例えば、ハードディスクや光学ディスク等で構成される記憶装置である。

表示部２０５は、本システムを使用するユーザに対し、文書や画像等を表示するディスプレイ装置である。

入力部２０６は、例えば、表示部２０５の表示内容に連動した指示等を入力するためのマウス、スティック、パッド等のポインティングデバイスである。なお、タッチパネル機能付きディスプレイ等、表示部２０５と入力部２０６を兼ねる装置を用いてもよい。

出力部２０７は、例えば、電子データを紙に出力するプリンタデバイス等である。

ネットワーク接続部２０８は、電子データを装置外から取り込んだり、或いは、電子データを装置外に送信したりするためのネットワークインターフェースである。

なお、図２に示す２０１〜２０８は、ＰＣ等の汎用コンピュータ単体として構成してもよいし、或いは、ＭＦＰ等の電子機器内に構築してもよい。また、互いに接続された複数のコンピュータやサーバー、及び、ディスプレイやＰＤＡ等の周辺機器の集合によって構築してもよい。

図３は、図１に示すファイル管理サーバー１０５内に構築されるファイル管理システム３２０の機能構成の一例を示すブロック図である。なお、図３において、ユーザ端末３１０は、端末Ａ１０２、端末Ｂ１０３或いは端末Ｃ１０４に相当し、クライアントツールが構築されている。ファイル管理システム３２０が構築されるファイル管理サーバー１０５は、本発明の実施形態に係る頻出パターン抽出装置（複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置）を構成する。

ファイル管理システム３２０は、操作取得部３２１、ファイル管理部３２２、データベース３２３、操作履歴管理部３２４、操作履歴データベース３２５、情報送信部３２６、及び、ワークフロー抽出部３２７を有して構成されている。

なお、本実施形態では、ファイル管理システム３２０の中にワークフロー抽出機能を有するワークフロー抽出部３２７を構成しているが、本発明においてはこの形態に限定されるものではない。例えば、ファイル管理機能とワークフロー抽出機能とをそれぞれ単体で構築してもよいし、ワークフロー抽出機能を、ファイル管理システム３２０とは別の他のシステムに組み込む形で実施してもよい。また、本実施形態では、ファイル管理システム３２０をクライントサーバモデルで実施しているが、本発明においてはこの形態に限定されるものではなく、例えばクライアント単体でも実施可能である。

ここで、図３に示す各構成部（３２１〜３２７）と、図２に示す各構成部との対応関係の一例について説明する。
例えば、図２に示す制御部２０１及びメモリ部２０３に記憶されているプログラム、並びに、ネットワーク接続部２０８から、図３に示す操作取得部３２１及び情報送信部３２６が構成される。
また、例えば、図２に示す制御部２０１及びメモリ部２０３に記憶されているプログラムから、図３に示すファイル管理部３２２、操作履歴管理部３２４及びワークフロー抽出部３２７が構成される。
また、例えば、図２に示す大規模記憶部２０４から、データベース３２３及び操作履歴データベース３２５が構成される。

操作取得部３２１は、ユーザ端末３１０上のクライアントツールから入力されたファイル操作情報を取得する。そして、操作取得部３２１は、取得したファイル操作情報を、ファイル管理部３２２や操作履歴管理部３２４に送信する。

ファイル管理部３２２は、操作取得部３２１から送信されたファイル操作情報を受け取り、ファイル操作情報に基づきデータベース３２３と連携して所定のファイル操作処理を行う。ここで言うファイル操作とは、例えば、ファイルの新規登録や、オープン、コピー、削除、また、フォルダに対する操作などを指し、その処理内容は一般的なファイル管理システムと同様である。この処理結果の情報は、情報送信部３２６を通じて、ユーザ端末３１０に送られ、ユーザ端末３１０上のクライアントツールに表示される。

データベース３２３は、ファイル管理システム３２０で管理するファイルやフォルダの情報や、ファイル管理システム３２０を利用するユーザのユーザ情報などを格納する。ユーザ情報としては、ユーザ名やユーザＩＤなどのユーザ単体の情報だけではなく、ユーザが所属するグループや、グループに所属しているユーザのリストなどのユーザグループに関する情報も含む。

操作履歴管理部３２４は、操作取得部３２１から送信されたファイル操作情報を受け取り、操作履歴データベース３２５にファイル操作履歴としてファイル操作情報を格納して管理する。

操作履歴データベース３２５は、操作履歴管理部３２４からのファイル操作情報をファイル操作履歴として格納する。

図４は、本発明の実施形態を示し、図３に示す操作履歴データベース３２５にファイル操作履歴として格納されるファイル操作情報の一例を示す図である。
図４において、ログＩＤ４０１は、ファイル操作情報を一意に識別するための符号である。時間４０２は、ファイル操作が行われた時間情報を表す。ユーザＩＤ４０３は、ファイル操作を行ったユーザを識別するための符号である。ファイルＩＤ４０４は、操作対象のファイルを識別するための符号である。操作イベント４０５は、実行されたファイル操作イベントの種類を表す。この図４に示すファイル操作情報は一例であり、これに限定されるわけではない。以降、説明を簡単にするためにファイルに対する操作は省略することがあるが、実際にはファイルとその操作はセットとして扱われ、ファイル操作が一致するとは、ファイルとその操作の両方が一致することを指している。

ここで、再び、図３の説明に戻る。
情報送信部３２６は、ファイル管理部３２２からの情報をユーザ端末３１０に送信する。

ワークフロー抽出部３２７は、ワークフローを抽出する処理を行う。ここで言うワークフローとは、ある目的を達成するための作業の流れを指し、ユーザとファイル操作をノードとしたグラフ構造で表せられるものである。

図７は、本発明の実施形態を示し、図３に示すワークフロー抽出部３２７が抽出対象とするワークフローの一例を示す図である。
図７において、ノード７０１は、ユーザＡがＦＣ１（ＦｉｌｅＣｌｕｓｔｅｒ１）に含まれるファイルに対して操作を行うことを表している。ここで、ＦＣ１（７０８）は、図７に示すように、Ｆｉｌｅ１とＦｉｌｅ６が属するファイルクラスタである。このように、ワークフローの各ノードをファイル操作ではなく、ファイルクラスタに対する操作として表現するのは、同じワークフローでも、その都度扱うファイルが異なる場合が多いためである。例えば、見積書を作成するワークフローの場合、顧客毎に作成する見積書ファイルは異なるため、１つのワークフローとして表すには、それら顧客毎の見積書ファイルをまとまりとして扱う必要がある。つまり、ＦＣ１（７０８）では、Ｆｉｌｅ１やＦｉｌｅ６がそれぞれ別の顧客に対する見積書を表し、ＦＣ１（７０８）はそれらの見積書の集合を表す。このようなファイルをファイルクラスタとして置き換えることをファイルの抽象化と呼ぶことにする。

図７において、分岐７０２は、作業の分岐を表し、ノード７０１の作業が完了した後に、ノード７０３やノード７０４の作業が独立して並行に行えることを表している。つまり、図７の例では、ユーザＡがＦＣ１への操作を行った後に、ユーザＢやユーザＣがＦＣ１への操作を並行して行うことを表している。この際、ユーザＢの操作とユーザＣの操作には順番がなく、どちらが先に操作を行ってもよいし、これらの操作を同時に行ってもよい。

図７において、結合７０５は、作業の結合を表す。結合７０５には、同期や非同期があり、同期とは、結合前の作業が全て完了したときのみ結合後の作業を行えるものであり、非同期とは、結合前の作業の一部が完了すれば結合後の作業を行えるものである。例えば、図７の例では、結合７０５が同期だとすると、ユーザＢとユーザＣによるＦＣ１への操作がどちらも完了したときに、ノード７０６においてユーザＤがＦＣ２に対する操作を行えることになる。

図７において、ノード７０６は、ユーザＤがＦＣ２（ＦｉｌｅＣｌｕｓｔｅｒ２）に属するファイルに対して操作を行うことを表している。ここで、ＦＣ２（７０９）は、図７に示すように、Ｆｉｌｅ２とＦｉｌｅ８が属するファイルクラスタである。

図７において、ノード７０７は、ユーザＥがＦＣ１に属するファイルに対して操作を行うことを表している。

このように、本発明の実施形態におけるワークフローは、複数のユーザが複数のアイテムを操作し、かつ、各ユーザが独立して並行に操作を行うような分岐・結合パターンを含んでいることが特徴である。

ここで、再び、図３の説明に戻る。
ワークフロー抽出部３２７は、図３に示すように、類似度計算部３２７１、クラスタリング部３２７２、中心クラスタ抽出部３２７３、共起確率計算部３２７４、従属クラスタ特定部３２７５、シーケンス抽出部３２７６、及び、頻出パターン抽出部３２７７を有して構成されている。

次に、ワークフロー抽出部３２７によるワークフロー抽出処理（頻出パターン抽出処理）について説明する。
図５及び図６は、本発明の実施形態を示し、図３に示すワークフロー抽出部３２７によるワークフロー抽出処理の処理手順の一例を示すフローチャートである。このフローチャートの処理は、図２に示す制御部２０１がメモリ部２０３に記憶されているプログラムを実行することにより行われる。より具体的には、このフローチャートの処理は、図３に示すワークフロー抽出部３２７の各構成部（３２７１〜３２７７）により行われる。

なお、図５及び図６のフローチャートの説明においては、図８に示すファイル操作情報の例を用いて説明を行う。この際、説明を簡単にするために、ファイル操作については省略している。
図８は、本発明の実施形態を示し、図３に示す操作履歴データベース３２５にファイル操作履歴として格納されるファイル操作情報の一例を示す図である。この図８には、ログＩＤ、時間、ユーザＩＤ及びファイルＩＤについてのファイル操作情報が示されている。
また、図１１は、本発明の実施形態を示し、図８に示すファイル操作情報について、ファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。図１１において、例えば、イベント１１０１は、ユーザＡがファイル１（Ｆｉｌｅ１）に対して操作を行ったことを示している。その後、ファイル１は、イベント１１０２においてユーザＢによって操作されていることが分かる。

ここで、まず、図５のフローチャートの説明を行う。
ステップＳ５０１において、ワークフロー抽出部３２７の類似度計算部３２７１は、ファイルを抽象化するために、データベース３２３内の全てのファイル間の類似度の計算を行う。ここで、ファイル間の類似度としては、一般的に良く用いられる文書に含まれる単語の類似性を指標とするのではなく、作業におけるファイルの利用目的が似ているものを類似度が高いと見なす指標を用いるのがよい。例えば、そのような指標として、次のようなものが利用できる。
・ファイルの派生関係
・ファイルの構造情報（ＸＭＬ構造）
・ファイルの共起頻度情報
・ファイルの属性情報
それぞれの指標における類似度は、必要に応じて単体で用いても、複数を組み合わせて用いてもよく、また、これらに限定されるものではない。それぞれの指標におけるファイル間の類似度の計算方法について以下に詳しく説明する。

まず、「ファイルの派生関係」によるファイル間の類似度について説明する。
例えば、あるテンプレートがあり、そのテンプレートをコピーして作成したファイルＡと、ファイルＢがあったとき、ファイルＡとファイルＢは同じ目的の作業に使用された可能性が高いと考えられる。このような考えから、ファイルの派生関係を利用してファイル間の類似度を定義することができる。単純な方法では、例えば、コピー関係にあるファイルを図７のように木構造で表すと、自分自身との類似度を１とし、自分から離れていく毎に減衰係数を類似度に掛けることにより他のファイルとの類似度を求めることができる。
図９は、本発明の実施形態を示し、ファイルのコピー関係によるファイル間の類似度の一例を示す図である。図９（ａ）に示すコピー関係の場合、減衰係数を０．９としたときの各ファイル間の類似度は、図９（ｂ）に示す通りになる。例えばＦｉｌｅＡＡＡは、ＦｉｌｅＡをコピーして作成したファイルＦｉｌｅＡＡをコピーして作成したファイルなので、ＦｉｌｅＡとＦｉｌｅＡＡＡとの間の類似度は、１×０．９×０．９＝０．８１となる。

次いで、「ファイルの構造情報（ＸＭＬ構造）」によるファイル間の類似度について説明する。
近年、文書ファイルは、独自形式からＸＭＬ形式に替わってきているものが多い。ＸＭＬ形式では、文書内容にタグ付けがしてあり、文書の構造と内容とを分離して処理し易い点が特徴である。そこで、文書ファイル間で文書内容には因らず、文書構造が似たものを容易に探すことが可能である。例えば、同じテンプレートから作成されたファイルＡとファイルＢとは文書内容は異なるが、同じテンプレートから引き継いだ文書構造は似ているため、文書構造による類似度は有効な指標となる。

次いで、「ファイルの共起頻度情報」によるファイル間の類似度について説明する。
例えば、ＦｉｌｅＡは、ＦｉｌｅＢ及びＦｉｌｅＣと一緒に使用される確率が高いとし、また別のＦｉｌｅＸも、ＦｉｌｅＢ及びＦｉｌｅＣと一緒に使用される確率が高いとき、ＦｉｌｅＡとＦｉｌｅＸは同じ目的の作業において使用のされた方が似ていると推定することができる。このような考え方から、ファイルの共起頻度情報を用いてファイル間の類似度を定義できる。類似度の単純な算出方法としては、２つのファイル間で共通している共起ファイル数を、それぞれのファイルの共起ファイル数の平均で割るなどすればよい。なお、共通している共起ファイルとは、同一のファイルだけを指すわけではなく、類似したファイルを含むようにしてもよい。

次いで、「ファイルの属性情報」によるファイル間の類似度について説明する。
ファイル間の類似度を計算する上で有効な情報として、ファイル名やパス名などがある。同じ目的の作業ではファイル名に共通性が見られ、一部分が異なっていることが多い。そのような例として、例えば、会議の議事録などは、ファイル名の違いが日付であったり、また、何かの調査だったりするとファイル名の違いはユーザ名だったりする。このようにファイル名に共通性が見られるものを、ファイル間の類似度が高いとすればよい。例えば、ｆｉｌｅＡとｆｉｌｅＢのファイル名による類似度をｓｉｍ（ｆｉｌｅＡ，ｆｉｌｅＢ）として、単純には、以下の（１）式のように定義できる。

（１）式において、ｌｅｎ（ｆｉｌｅＡ）は、ｆｉｌｅＡのファイル名の長さを表し、ｍｉｎ（ｌｅｎ（ｆｉｌｅＡ），ｌｅｎ（ｆｉｌｅＢ））は、ｆｉｌｅＡのファイル名の長さとｆｉｌｅＢのファイル名の長さのうちの短い方の長さを表す。また、（１）式において、ＬＣＳ（ｆｉｌｅＡ，ｆｉｌｅＢ）は、ｆｉｌｅＡのファイル名とｆｉｌｅＢのファイル名の最長共通部分列（ＬｏｎｇｅｓｔＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅ：ＬＣＳ）を表す。ここで、部分列（Ｓｕｂｓｅｑｕｅｎｃｅ）は、系列のいくつかの要素を取り出してできた系列のことである。２つの系列の共通の部分列を共通部分列（ＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅ）と呼ぶ。共通部分列のうち、最も長いものを最長共通部分列（ＬｏｎｇｅｓｔＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅ：ＬＣＳ）と呼ぶ。
また、ファイル名による類似度の他の例として、編集距離と呼ばれる、情報理論において２つの文字列がどの程度異なっているかを示す数値を用いることもできる。具体的には、文字の挿入や削除、置換によって、１つの文字列を別の文字列に変形するのに必要な手順の最小回数として与えられる。

以上、４つの指標について説明したが、ファイル間の類似度として、そのうち１つを用いてもよいし、また、任意の複数の指標を組み合わせる形で用いてもよい。また、ここで挙げた指標は一例であり、それ以外でも、作業におけるファイルの利用目的が似ているものを類似度が高いと見なす指標であればよい。

ここで、再び、図５の説明に戻る。
ステップＳ５０１の処理が終了すると、ステップＳ５０２に進む。
ステップＳ５０２に進むと、ワークフロー抽出部３２７のクラスタリング部３２７２は、ステップＳ５０１による計算処理により得られた、複数のファイルにおける各ファイル間（各アイテム間）の類似度を用いて、ファイルをクラスタリングする処理を行う。即ち、ここでは、データベース３２３内に格納されている複数のファイル（複数のアイテム）を複数のファイルクラスタ（複数のアイテムクラスタ）にクラスタリングする処理を行う。ここで、クラスタリングの手法としては、階層型と非階層型との２つに大別されるが、ここでは、クラスタの数を予め定める必要のない階層型クラスタリングの手法を用いる。階層型クラスタリングの代表的な手法に、最短距離法、最長距離法、群平均法、ウォード法などがあるが、本実施形態においてはどれを用いてもよい。本ステップでは、結果として、作業におけるファイルの使用のされ方が似ているものをグループとしてまとめたものをファイルクラスタとして出力する。なお、ファイルクラスタは１つ以上のファイルのまとまりであり、類似するファイルが１つもないファイルでも、それ単体でファイルクラスタとする。

図１０は、本発明の実施形態を示し、図８に示すファイル操作情報におけるファイルを階層型クラスタリングした一例を示す図である。図１０に示す例では、ＦＣ１はファイル１及びファイル６が属するファイルクラスタ、ＦＣ４はファイル４のみが属するファイルクラスタ、ＦＣ５はファイル５のみが属するファイルクラスタ、ＦＣ２はファイル２及びファイル８が属するファイルクラスタ、ＦＣ３はファイル３及びファイル７が属するファイルクラスタである。

続いて、ステップＳ５０３において、ワークフロー抽出部３２７の中心クラスタ抽出部３２７３は、ステップＳ５０２で得られた複数のファイルクラスタの中から、ワークフローの中心となる中心ファイルクラスタ（中心アイテムクラスタ）を抽出する処理を行う。ここで、ワークフローの中心となるファイルとは、ワークフローの中で複数のユーザに操作されるファイルや、そのワークフローの最終成果物となるようなファイルであり、そのようなファイルを多く含むファイルクラスタを、中心ファイルクラスタとして抽出する。例えば、中心クラスタ抽出部３２７３は、各ファイルの利用情報（各ファイルを利用するユーザ数、及び、各ファイルの利用方法（例えば上述したワークフローの最終成果物として利用する等）のうちの少なくとも１つの情報を含む）に基づいて、中心ファイルクラスタを抽出する処理を行う。

ここでは、各ファイルを利用するユーザ数に基づいて、中心ファイルクラスタを抽出する場合について説明を行う。
この場合、まず、ファイル毎に、編集などのファイル操作を行ったユーザ数を抽出し、ファイルクラスタ単位で、その中に含まれるファイルの前記ユーザ数を平均する。そして、その平均値が規定の値以上のファイルクラスタをワークフローの中心となる中心ファイルクラスタとして抽出する。例えば、図８に示す例では、ＦＣ１は、その中に含まれるファイル１とファイル６のどちらも４人のユーザから操作されており、そのユーザ数の平均は４人である。例えば、前記既定の値を３人とすると、ＦＣ１は、ワークフローの中心となる中心ファイルクラスタとして抽出されることになる。この場合、図８に示す例では、ＦＣ１のみが中心ファイルクラスタとして抽出されることになるが、本実施形態においてはこれに限定されるものではない。本実施形態においては、前記規定の値以上の全てのファイルクラスタが中心ファイルクラスタとしての抽出対象である。

ステップＳ５０３の処理が終了すると、図５に示すフローチャートにおける処理が終了する。

次いで、図５のステップＳ５０３で抽出した中心ファイルクラスタ毎に、図６に示すフローチャートによりワークフロー（頻出パターン）を抽出する。

まず、ステップＳ６０１において、ワークフロー抽出部３２７の共起確率計算部３２７４は、中心ファイルクラスタ（中心アイテムクラスタ）と、その他のファイルクラスタ（その他のアイテムクラスタ）との共起確率を計算する処理を行う。通常、ＡとＢの共起確率とは、Ａ∩Ｂ／Ａ∪Ｂであるが、ここでは、Ａを中心ファイルクラスタに固定し、Ｂをその他のファイルクラスタとし、Ａ∩Ｂ／Ｂを、中心ファイルクラスタとその他のファイルクラスタとの共起確率とする。２つのファイルクラスタが共起したかどうかの条件は、いろいろと考えられる。例えば、ファイルクラスタの操作が行われた時刻の前後２時間を、そのファイルクラスタへの操作時間とし、その操作時間に重なりがある場合に２つのファイルクラスタは共起しているとしてもよい。他には、固定時間、例えば３時間毎にファイル操作履歴を区切ることでセッションを作成し、そのセッションの中に含まれているファイルクラスタ同士は共起をしているとしてもよい。ここで例として挙げた２時間や３時間はパラメータであり、任意に決めることができる。

ここでは、図８に示すファイル操作情報を用いて、中心ファイルクラスタであるＦＣ１と、当該中心ファイルクラスタを除くその他のファイルクラスタとの共起確率の計算例について説明する。
図１２は、本発明の実施形態を示し、図８に示すファイル操作情報について、ファイルクラスタ別にユーザのファイル操作を時系列にマッピングした一例を示す図である。
イベント１２０１やイベント１２０２は、ユーザＡが行った元々別のファイルへの操作であるが、ファイルを抽象化することで、同軸上のイベントとして考えることができる。このようにすることで、同じ作業としてのファイルの共起性の発見し易さが向上する。ここでは、ファイルクラスタの共起を、操作時刻から前後２時間の時間帯で重なりがあることとすると、ＦＣ２ではイベント１２１１及び１２１２の２つの操作があり、２つともＦＣ１の操作と共起しているので、共起確率は２／２＝１．０となる。同様にして、ＦＣ５では、イベント１２２１、１２２２、１２２３及び１２２４の４つの操作があり、このうちのイベント１２２１及び１２２４の２つだけがＦＣ１と共起しているので、共起確率は２／４＝０．５となる。同様に、ＦＣ３及びＦＣ４も、それぞれ、０．５及び０．３と共起確率が計算される。

ここで、再び、図６の説明に戻る。
ステップＳ６０１の処理が終了すると、ステップＳ６０２に進む。
ステップＳ６０２に進むと、ワークフロー抽出部３２７の従属クラスタ特定部３２７５は、ステップＳ６０１による計算処理により得られた共起確率を用いて、中心ファイルクラスタ（中心アイテムクラスタ）と同じワークフローに属する従属ファイルクラスタ（従属アイテムクラスタ）を特定する処理を行う。例えば、単純に所定の値以上の共起確率を持つファイルクラスタとすればよい。図８に示すファイル操作情報の例において、前記所定の値を０．７（７割ぐらいの確率で一緒に扱われる）とすると、ＦＣ２が、中心ファイルクラスタであるＦＣ１と同じワークフローに属する従属ファイルクラスタとして特定される。図１２において、一見すると、ＦＣ５もＦＣ１と一緒に扱われやすいように見えるが、ＦＣ５は全体的に現れるため、特別、ＦＣ１と一緒に扱われやすいわけではない。

続いて、ステップＳ６０３において、ワークフロー抽出部３２７のシーケンス抽出部３２７６は、ワークフローの候補となる、アイテムクラスタの操作シーケンスであるファイルクラスタ操作シーケンスの集合を抽出する処理を行う。ここで、ワークフローの候補となるファイルクラスタ操作シーケンスは、ワークフローの中心となる中心フィルクラスタに含まれるファイル毎に抽出されるものである。そして、本ステップでは、そのファイルを中心とした作業をファイル操作シーケンスとして抽出した後、ファイルをファイルクラスタへ置き換えることで、ファイルクラスタ操作シーケンスとする。

ここで、図８に示すファイル操作情報の例を用いて、具体的な処理について説明する。
まず、ワークフローの中心となる中心ファイルクラスタであるＦＣ１と、そのワークフローに属する従属ファイルクラスタであるＦＣ２とに含まれるファイルの操作履歴を取りだす。

図１３は、本発明の実施形態を示し、図８に示すファイル操作情報について、ＦＣ１及びＦＣ２に属するファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。
図１３において、ファイル１とファイル６がＦＣ１に属するものであり、ファイル２とファイル８がＦＣ２に属するものである。そして、中心ファイルクラスタであるＦＣ１に属するファイル毎に、そのファイルと共起関係にあるファイルを含めたファイル操作シーケンスを抽出する。ここで、ファイルの共起とは、ファイルクラスタの共起と同様に操作時刻から前後２時間の時間帯で重なりがあることとする。もちろん、２時間は任意のパラメータであり、また、共起の定義はこれに限らない。

図１４は、本発明の実施形態を示し、ファイル操作シーケンス及びファイルクラスタ操作シーケンスの一例を示す図である。
ここで、図１４（ａ）は、上述した抽出処理により抽出されたファイル操作シーケンスの一例である。図１４（ａ）において、シーケンス１はファイル１との共起関係に応じて抽出され、シーケンス２はファイル６との共起関係に応じて抽出されたものである。次いで、抽出したファイル操作シーケンスのファイルを再びファイルクラスタへとファイルの抽象化を行うことで、図１４（ｂ）に示すファイルクラスタ操作シーケンスを得る。このファイルクラスタ操作シーケンスの１つ１つが、ある１つの作業の流れを表しており、目的が類似する作業の流れを集めることで、それら作業の典型的なパターンであるワークフローを抽出できる。

ここで、再び、図６の説明に戻る。
ステップＳ６０３の処理が終了すると、ステップＳ６０４に進む。
ステップＳ６０４に進むと、ワークフロー抽出部３２７の頻出パターン抽出部３２７７は、ステップＳ６０４の抽出処理により抽出されたファイルクラスタ操作シーケンスの集合から、ワークフローを抽出する処理を行う（頻出パターンを抽出する処理を行う）。

以下に、ステップＳ６０４の処理の詳細について説明する。
ここまでの処理により、抽出されたファイルクラスタ操作シーケンスの集合は、目的が類似する作業の流れの集合となっている。そして、ここで抽出するワークフローは、抽出されたファイルクラスタ操作シーケンスの集合を入力とし、頻出する「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」として抽出する。「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」とは、系列データの集合から、シーケンシャルパターンマイニングと呼ばれる手法により抽出された頻出する部分系列データ集合を要約する形で得られるものである。

シーケンシャルパターンマイニングは、以下のように定義される処理である。
Ｉ＝｛ｉ₁，ｉ₂，…，ｉ_n｝を、アイテム集合とする。集合Ｉの空でない部分集合をエレメントと言う。また、ある閾値ξ＞０が与えられたとき、集合Ｉにおいてξ回以上現れるアイテムを頻出アイテムと言う。エレメントの順序列をシーケンスと言う。さらに、シーケンスα＝（ａ₁，ａ₂，…，ａ_n）とシーケンスβ＝（ｂ₁，ｂ₂，…，ｂ_n）に対して、ａ₁⊆ｂ_j1，ａ₂⊆ｂ_j2，…，ａ_n⊆ｂ_jnとなる整数１＜ｊ１＜ｊ２＜…＜ｊｎ＜ｍがあるとき、αをβのサブシーケンスと言い、α⊆βと表記する。シーケンスｉｄのｓｉｄとシーケンスｓのタプル（ｓｉｄ，ｓ）の集合であるＳ＝｛（ｓｉｄ₁，ｓ₁），（ｓｉｄ₂，ｓ₂），…，（ｓｉｄ_n，ｓ_n）｝をシーケンスデータベースと呼ぶ。さらに、系列αの系列データベースＳにおけるサポートとは、Ｓ中の全ての系列のうち、系列αを含むタプルの数と定義される。閾値ξ（最小サポート値と呼ぶ）以上の個数の（ｓｉｄ，ｓ）に含まれているシーケンスをシーケンシャルデータベースにおけるシーケンシャルパターンと言う。シーケンシャルパターンマイニングとは、シーケンスデータベースＳと最小サポート値ξが与えられたときに、Ｓにおけるシーケンシャルパターンを全て見つけることである。代表的なシーケンシャルパターマイニングの手法としては、上記の非特許文献１に示すＡｐｒｉｏｒｉアルゴリズムや、上記の非特許文献２に示すＰｒｅｆｉｘＳｐａｎなどがある。

図１５は、本発明の実施形態を示し、シーケンシャルパターマイニングを説明するための図である。
例えば、図１５（ａ）に示すようなシーケンスデータベースが与えられたとき、シーケンシャルパターンマイニングを適用することにより、図１５（ｂ）に示すように４つのシーケンシャルパターンが抽出される。しかしながら、これはシーケンスデータベースから読み取れる本来のパターンが断片化されたものとなっている。シーケンスデータベースから読み取れる本来のパターンとは、図１５（ｃ）に示すようなもので、アイテムＡの後には、アイテムＢとアイテムＣが現れ、その次にアイテムＤが現れ、最後にアイテムＥとアイテムＦが現れるというものである。この図１５（ｃ）に示すようなパターンは、「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」と呼ばれ、この「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」を抽出する方法は、既にいくつか提案されている。例えば、上記の非特許文献３に示す方法などがある。

図１６は、本発明の実施形態を示し、図６のステップＳ６０４において抽出されるワークフローの一例を示す図である。具体的に、図１６は、図６のステップＳ６０３で抽出された図１４（ｂ）に示すファイルクラスタ操作シーケンスの集合から、抽出される「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」を示している。この「ＣｌｏｓｅｄＰａｒｔｉａｌＯｒｄｅｒｓ」は、目的が類似する作業の流れの集合から抽出された典型的な操作パターンであるワークフローとなる。図１６には、ノード１６０１〜ノード１６０５が示されている。そして、ワークフロー抽出部３２７の処理により、図８に示すファイル操作情報から、図７に示すワークフローが最終的に抽出される。

ステップＳ６０４の処理が終了すると、図６に示すフローチャートにおける処理が終了する。

本発明の実施形態では、中心ファイルクラスタに属するファイルと従属ファイルクラスタに属するファイルにおける操作履歴に基づいて操作シーケンスの集合を抽出し、当該操作シーケンスの集合に基づいてワークフローとなる頻出パターンを抽出している。
かかる構成によれば、複数のユーザが協調して複数のファイルを操作して作業を行う場合において、ユーザが独立して並行に作業を行うようなパターンも含めて、より汎用的なワークフローの抽出を実現することができる。これにより、このワークフローを用いて、ユーザのアイテム操作をナビゲートするなど、作業の効率を向上させることが可能となる。例えば、ワークフローを可視化して業務の見直しに役立てたり、ワークフローシステム構築の参考にしたり、ユーザのファイル操作をナビゲートするファイル推薦に用いたりするなど、幅広く利用可能である。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記録媒体は、本発明に含まれる。

なお、上述した本発明の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

３１０ユーザ端末、３２０ファイル管理システム、３２１操作取得部、３２２ファイル管理部、３２３データベース、３２４操作履歴管理部、３２５操作履歴データベース、３２６情報送信部、３２７ワークフロー抽出部、３２７１類似度計算部、３２７２クラスタリング部、３２７３中心クラスタ抽出部、３２７４共起確率計算部、３２７５従属クラスタ特定部、３２７６シーケンス抽出部、３２７７頻出パターン抽出部

Claims

複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置であって、
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリング手段と、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出手段と、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定手段と、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出手段と、
前記シーケンス抽出手段で抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出手段と
を有することを特徴とする頻出パターン抽出装置。
前記中心クラスタ抽出手段は、前記複数のアイテムにおける各アイテムの利用情報に基づいて、前記複数のアイテムクラスタの中から前記中心アイテムクラスタを抽出することを特徴とする請求項１に記載の頻出パターン抽出装置。
前記利用情報は、前記各アイテムを利用するユーザ数および前記各アイテムの利用方法のうちの少なくとも１つの情報を含むことを特徴とする請求項２に記載の頻出パターン抽出装置。
前記中心アイテムクラスタと、前記複数のアイテムクラスタのうちの前記中心アイテムクラスタを除くその他のアイテムクラスタとの共起確率を計算する共起確率計算手段を更に有し、
前記従属クラスタ特定手段は、前記共起確率計算手段で計算した共起確率に基づいて、前記従属アイテムクラスタを特定することを特徴とする請求項１乃至３のいずれか１項に記載の頻出パターン抽出装置。
前記シーケンス抽出手段は、前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムとの共起関係を利用して、前記操作シーケンスの集合を抽出することを特徴とする請求項１乃至４のいずれか１項に記載の頻出パターン抽出装置。
前記頻出パターン抽出手段は、前記シーケンス抽出手段で抽出した操作シーケンスの集合から、シーケンシャルパターンマイニングにより抽出された頻出する部分系列データ集合を要約する形で得られたパターンを前記頻出パターンとして抽出することを特徴とする請求項１乃至５のいずれか１項に記載の頻出パターン抽出装置。
複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置による頻出パターン抽出方法であって、
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリングステップと、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出ステップと、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定ステップと、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出ステップと、
前記シーケンス抽出ステップで抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出ステップと
を有することを特徴とする頻出パターン抽出方法。
複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置による頻出パターン抽出方法をコンピュータに実行させるためのプログラムであって、
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリングステップと、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出ステップと、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定ステップと、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出ステップと、
前記シーケンス抽出ステップで抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出ステップと
をコンピュータに実行させるためのプログラム。