JP2019040260A

JP2019040260A - 情報処理装置及びプログラム

Info

Publication number: JP2019040260A
Application number: JP2017159662A
Authority: JP
Inventors: 聡田端; Satoshi Tabata; 克俊前沢; Katsutoshi Maezawa
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2019-03-14
Anticipated expiration: 2037-08-22
Also published as: JP7290391B2

Abstract

【課題】コンテンツの管理を効率化することができる情報処理装置等を提供する。【解決手段】情報処理装置１は、非構造化データのサンプルと、サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部１３１と、サンプルの各要素の特徴を抽出する特徴抽出部１３２と、抽出した各要素の特徴と、教師情報が示すタグ情報とに基づき、要素の特徴に応じてタグ情報を識別するルールを設定する設定部１３３と、非構造化データであるコンテンツを取得するコンテンツ取得部１３４と、取得したコンテンツから各要素を抽出する抽出部１３５と、ルールを参照して、要素にタグ情報を付与する付与部１３６とを備える。【選択図】図１３

Description

本発明は、情報処理装置及びプログラムに関する。

近年、マイクロコンテンツに対するニーズが高まり、書籍、雑誌、新聞等のマイクロコンテンツの販売が拡大しつつある。しかし、書籍等のコンテンツデータはいわゆる非構造化データであることが多く、コンテンツ内の各要素が何であるかを示す情報を保持していない。従って、コンテンツデータから各マイクロコンテンツを抽出するマイクロコンテンツ化の作業を行う必要がある。多くの場合、マイクロコンテンツ化は手作業で行っており、コストが高いという問題がある。

例えば特許文献１では、文書画像のマイクロコンテンツ化を行う文書画像処理装置等であって、文書画像を所定の領域毎に分割し、分割した領域内のデータにタグ及び属性値を割り当てることで、マークアップ言語で記述した文書データを生成する文書画像処理装置等が開示されている。

特開２００２−４１４９７号公報

しかしながら、特許文献１に係る発明は、設計者がタグ及び属性値を割り当てるルールを事前に設計しておく必要があり、必ずしも効率的ではないという問題があった。

一つの側面では、コンテンツの管理を効率化することができる情報処理装置等を提供することを目的とする。

一つの側面では、情報処理装置は、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部と、前記サンプルの前記各要素の特徴を抽出する特徴抽出部と、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する設定部と、非構造化データであるコンテンツを取得するコンテンツ取得部と、取得した前記コンテンツから前記各要素を抽出する抽出部と、前記ルールを参照して、前記要素に前記タグ情報を付与する付与部とを備えることを特徴とする。

一つの側面では、情報処理装置は、前記サンプル及びコンテンツは、テキスト又は画像からなる文書データであり、前記特徴抽出部は、前記要素の書式又はレイアウトに係る情報を抽出し、前記設定部は、前記要素の書式又はレイアウトと、前記タグ情報との対応関係を示す前記ルールを設定することを特徴とする。

一つの側面では、情報処理装置は、前記取得部は、複数の前記教師情報を取得し、前記設定部は、前記教師情報夫々から前記要素の特徴と前記タグ情報との対応関係を学習することで、前記要素に対応する前記タグ情報を識別する識別器を生成することを特徴とする。

一つの側面では、情報処理装置は、前記要素夫々の前記タグ情報に基づき、前記コンテンツを構造化した構造化データを生成する生成部と、生成した前記構造化データを記憶する記憶部とを備えることを特徴とする。

一つの側面では、情報処理装置は、前記構造化データを参照して、前記各要素を出力する出力部を備えることを特徴とする。

一つの側面では、情報処理装置は、前記コンテンツに付随する付随情報を取得する付随情報取得部を備え、前記生成部は、前記要素に対応付けて前記付随情報を前記構造化データに格納し、前記出力部は、前記要素と共に前記付随情報を出力することを特徴とする。

一つの側面では、情報処理装置は、前記付随情報は、前記コンテンツ全体での価格に関する情報を含み、前記コンテンツ全体での価格から、前記要素夫々の価格を算出する算出部を備え、前記出力部は、前記要素の価格を出力することを特徴とする。

一つの側面では、情報処理装置は、前記出力部が出力した前記要素に対して、該要素に対応する前記コンテンツの出力要求を受け付ける受付部を備え、出力要求を受け付けた場合、前記出力部は前記コンテンツを出力することを特徴とする。

一つの側面では、情報処理装置は、ネットワークを介してＷｅｂページに係るデータを収集する収集部と、収集した前記Ｗｅｂページから、前記要素と一致するコンテンツを有する前記Ｗｅｂページを抽出するページ抽出部と、抽出した前記Ｗｅｂページを報知する報知部とを備えることを特徴とする。

一つの側面では、プログラムは、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得し、前記サンプルの前記各要素の特徴を抽出し、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定し、非構造化データであるコンテンツを取得し、取得した前記コンテンツから前記各要素を抽出し、前記ルールを参照して、前記要素に前記タグ情報を付与する処理をコンピュータに実行させることを特徴とする。

一つの側面では、コンテンツの管理を効率化することができる。

情報処理システムの概要を示す説明図である。サーバの構成例を示すブロック図である。構造化テーブルのレコードレイアウトの一例を示す説明図である。構造化ルールの設定処理に関する説明図である。構造化処理に関する説明図である。サーバが実行する処理手順の一例を示すフローチャートである。実施の形態２に係る情報処理システムの構成例を示す模式図である。実施の形態２の概要を示す説明図である。実施の形態２に係る元データの呼出処理に関する説明図である。実施の形態２に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。実施の形態３の概要を示す説明図である。実施の形態３に係るサーバが実行する処理手順の一例を示すフローチャートである。上述した形態のサーバの動作を示す機能ブロック図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、情報処理システムの概要を示す説明図である。本実施の形態では、マイクロコンテンツのデータアーカイブを作成する情報処理システムを一例に説明を行う。情報処理システムは、情報処理装置１及び端末２を含む。情報処理装置１及び端末２は、インターネット等のネットワークＮを介して通信接続されている。

情報処理装置１は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、非構造化データであるデジタルコンテンツ、例えば書籍、新聞、雑誌等の文書データを取得し、デジタルコンテンツからマイクロコンテンツを抽出して構造化データを生成する処理を行う。

端末２は、サーバ１と通信を行うクライアント端末であり、マイクロコンテンツ化の作業業務を行う管理者が操作する端末装置である。サーバ１は、端末２からデジタルコンテンツを取得し、端末２からの要求に従ってデータアーカイブの作成を行う。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、主記憶部１２、通信部１３、補助記憶部１４を備える。
制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための処理回路等を含み、端末２等と情報の送受信を行う。

補助記憶部１４は大容量メモリ、ハードディスク等であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、構造化テーブル１４１、コンテンツＤＢ１４２を記憶している。構造化テーブル１４１は、非構造化データであるデジタルコンテンツを構造化データに変換するための構造化ルールを規定している。コンテンツＤＢ１４２は、デジタルコンテンツを構造化した構造化データを格納するデータベースである。

なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

図３は、構造化テーブル１４１のレコードレイアウトの一例を示す説明図である。構造化テーブル１４１は、要素名列、ルール列を含む。要素名列は、「タイトル」、「サブタイトル」、「本文」などのように、文書ページを構成する各要素の要素名（後述するタグ情報）が記憶されている。ルール列は、要素名と対応付けて、各要素名に対応する要素を特徴付ける情報が記憶されている。例えばルール列には、各要素のフォント、文字サイズ、レイアウト（座標値）等のデータが記憶されている。

図４は、構造化ルールの設定処理に関する説明図である。図４では、サーバ１が、非構造化データのサンプル、具体的にはテキスト及び画像からなるサンプル文書から、当該サンプル文書を構成する基本要素を抽出して特徴を学習する様子を図示している。
サーバ１は、端末２から教師用のサンプル文書を取得し、当該サンプルデータを基に構造化ルールを設定（学習）する。サンプル文書は、構造されていない文書データであり、例えばＰＤＦ（Portable Document Format、登録商標）ファイルである。サーバ１は、一点のサンプル文書を基に、非構造化データを構造化するための構造化ルールを設定する。

例えばサーバ１は、非構造化データである文書のサンプルに、当該サンプルに含まれる各要素のタグ情報の正解値を関連付けた教師情報を取得する。非構造化データの要素は、元データを所定領域毎に分割したデータであり、例えば図４において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、図など、文書を構成する基本要素である。タグ情報は、各要素を定義付けるメタ情報であり、ＸＭＬ（Extensible Markup Language）ファイルにおいて各要素にタグ付けされる要素名又は属性値である。本実施の形態においてサーバ１は、教師情報として、サンプルに含まれる各要素の要素名に係る情報を取得する。例えば図４に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」の要素名を取得する。このように、サーバ１は、一点の文書のサンプルに対し、各要素の要素名の正解値を保持した教師情報を端末２から取得する。

サーバ１は、文書のサンプルから、タイトル、サブタイトル、本文、図などの各要素を抽出する。そしてサーバ１は、サンプルから抽出した各要素の特徴を抽出する。具体的には、サーバ１は、各要素内のテキストの書式、各要素のレイアウト等の特徴を抽出する。例えばサーバ１は、図４で示す矩形領域内に記述されているテキストに対して文字認識を行い、テキストのフォント、文字サイズ等を判別する。また、サーバ１は、各矩形領域の位置及び範囲に基づき、文書ページ内で各要素が占める領域の座標値を判別する。

サーバ１は、上記で抽出した各要素の特徴と、教師情報で示される各要素の要素名（タグ情報）とを対応付け、構造化テーブル１４１に格納する。これにより、サーバ１は、書式、レイアウト等の各要素の傾向（特徴）に応じて、各要素がどの要素名に該当するかを識別する構造化ルールを設定する。

なお、上記では各要素を特徴付ける情報として書式及びレイアウトを挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、文書内に含まれる表を識別可能とすべく、表を構成する描線を特徴として抽出し、学習するようにしてもよい。このように、要素の特徴は書式及びレイアウトに限定されるものではない。

また、上記では説明の単純化のため、一点の文書のサンプルから各要素の特徴を学習してルールを設定することとしたが、本実施の形態はこれに限定されるものではない。サーバ１は、複数の教師情報から要素の特徴とタグ情報との対応関係を学習する機械学習を行い、要素の特徴からタグ情報を識別するモデルデータ（識別器）を生成してもよい。すなわちサーバ１は、複数の教師用のサンプルそれぞれから各要素の特徴量を抽出し、各要素のタグ情報の正解値と比較する。サーバ１は、全ての教師用のサンプルについて比較処理を行い、例えばタイトルに該当する要素の特徴量がどのようなパラメータであるか、複数のサンプルから学習する処理を行う。サーバ１は、当該処理により、要素の特徴量からタグ情報を識別する識別器を生成し、補助記憶部１４に記憶する。機械学習を行うことで、サーバ１はより正確に各要素を識別可能となる。

図５は、構造化処理に関する説明図である。サーバ１は、上記で設定した構造化ルールに基づき、非構造化データであるデジタルコンテンツを構造化データに変換する処理を行う。具体的には、サーバ１は、対象とする文書からタイトル、サブタイトル、本文、図などの各要素を抽出し、各要素の書式、レイアウト等を解析する。そしてサーバ１は、構造化テーブル１４１を参照して、各要素の書式、レイアウト等に対応するタグ情報を識別する。例えば文書中のタイトルに相当するテキスト箇所を抽出した場合、サーバ１は、当該テキストのフォント、文字サイズ、レイアウト等に基づき、当該テキストがタイトルであることを認識する。サーバ１は、デジタルコンテンツの各要素について同様に処理を行い、各要素を識別する。

サーバ１は、各要素にタグ情報（要素名）を付与し、タグ情報に基づいて各要素を階層化した構造化データを生成する。例えばサーバ１は、ＸＭＬ形式のテキストファイルを生成する。例えばサーバ１は、文書のタイトルのテキスト要素を抽出した場合、当該要素に要素名「ｔｉｔｌｅ」を付与し、テキストファイルに格納する。サーバ１は同様に、文書のサブタイトル、本文等についても各要素に要素名を付与し、ファイルに格納する。また、サーバ１は、文書から画像（図）を抽出した場合、抽出した画像をテキストファイルのファイル名と対応付けて画像フォルダに格納する。図５に示すように、サーバ１はテキストファイルにおいて、一の要素（例えば頁番号）に紐付けてその他の要素を格納することで、各要素を階層化する。これによりサーバ１は、非構造化データであるデジタルコンテンツ（文書）を構造化した構造化データを生成する。サーバ１は、生成した構造化データをコンテンツＤＢ１４２に記憶する。

また、サーバ１は、各要素の要素名を識別して構造化データに格納するだけでなく、デジタルコンテンツに付随する付随情報を各要素に対応付けて構造化データに格納してもよい。付随情報は、例えばコンテンツの作者名、価格、出版元等の情報である。例えばサーバ１は、要素名に係るルールと同じように、教師情報を基にサンプル文書の表紙等から作者名、価格、出版元等のテキスト要素を抽出するルールを設定しておく。サーバ１は、デジタルコンテンツに係る文書の表紙画像（不図示）を取得した場合、当該表紙から各種情報を抽出する。サーバ１は、デジタルコンテンツから抽出した各要素をファイルに格納する際、付随情報を各要素に対応付けて格納する。例えばサーバ１は、各要素のタグ内に属性値として当該情報を記述する。これによりサーバ１は、各要素の詳細な意味づけを行うことができる。

なお、上記でサーバ１は、作者名、価格等の付随情報をコンテンツデータから機械的に抽出することとしたが、端末２を介して手動入力を受け付けるようにしてもよい。例えば管理者が、端末２を操作してコンテンツデータをサーバ１に転送する際、作者名、価格等の情報を入力し、併せて転送する。すなわちサーバ１は、コンテンツに付随する情報を取得可能であればよく、コンテンツデータから自動的に取得してもよいし、手動入力により取得するようにしてもよい。

サーバ１は、端末２から転送される各デジタルコンテンツについて同様に処理を行い、非構造化データである各コンテンツを構造化データに変換する。このように、サーバ１は、デジタルコンテンツから抽出した各要素に意味づけを行い、マイクロコンテンツのデジタルアーカイブを作成する。教師用のデータから構造化ルールを事前に設定（学習）しておくことで、サーバ１は、デジタルコンテンツに含まれる各要素が何であるかを自動的に識別し、構造化データを生成することができる。これにより、マイクロコンテンツ化の作業を効率化することができる。

図６は、サーバ１が実行する処理手順の一例を示すフローチャートである。図６に基づき、サーバ１が実行する処理内容について説明する。
サーバ１の制御部１１は、非構造化データのサンプルと、当該サンプルに含まれる各要素のタグ情報の正解値とを含む教師情報を取得する（ステップＳ１１）。タグ情報は、各要素を定義付けるメタ情報であり、例えばＸＭＬファイルにおける要素名又は属性値である。例えば制御部１１は、非構造化データの各要素の要素名を既知とした教師用データを取得する。制御部１１は、サンプルに含まれる各要素の特徴を抽出する（ステップＳ１２）。例えば制御部１１は、サンプル文書に含まれる各要素の書式及びレイアウトに係る情報を抽出する。

制御部１１は、抽出した各要素の特徴と、教師情報が示す各要素のタグ情報の正解値とに基づき、非構造化データに含まれる要素の特徴に応じて、付与すべきタグ情報を識別する構造化ルールを設定する（ステップＳ１３）。具体的には、制御部１１は、ステップＳ１２で抽出した各要素の書式、レイアウト等の特徴と、教師情報が示す各要素の要素名とを対応付け、構造化テーブル１４１に格納する。

制御部１１は、非構造化データであるデジタルコンテンツを端末２から取得する（ステップＳ１４）。デジタルコンテンツは、構造化されていない文書データであり、例えばＰＤＦファイルである。

制御部１１は、ステップＳ１４で取得したデジタルコンテンツから、当該コンテンツに含まれる各要素を抽出する（ステップＳ１５）。そして制御部１１は、ステップＳ１３で設定した構造化ルールを参照して、抽出した各要素にタグ情報を付与する（ステップＳ１６）。例えば制御部１１は、抽出した各要素の書式、レイアウト等の特徴に応じて、要素名を付与する。また、例えば制御部１１は、デジタルコンテンツ（文書）の表紙画像から抽出した作者、価格、出版元等の付随情報を、各要素の属性値として付与する。

制御部１１は、各要素に付与したタグ情報に基づき、デジタルコンテンツを構造化した構造化データを生成する（ステップＳ１７）。例えば制御部１１は、ＸＭＬ形式のファイルを生成する。制御部１１は、ステップＳ１６で付与した要素名に応じて各要素を階層化して格納し、構造化データを生成する。また、例えば制御部１１は、コンテンツの付随情報を各要素の属性値としてタグ情報に記述し、構造化データに格納する。制御部１１は、生成した構造化データをコンテンツＤＢ１４２に記憶し（ステップＳ１８）、一連の処理を終了する。

なお、上記では解析対象とするコンテンツが文書であるものとしたが、解析対象とするコンテンツは非構造化データであればよく、例えば音声データであってもよい。

また、上記ではＸＭＬファイルを生成することにしたが、ＨＴＭＬ、ＳＧＭＬ等の形式のファイルを生成してもよいことは勿論である。

以上より、本実施の形態１によれば、サーバ１が教師用のサンプルデータから各要素の特徴を抽出し、タグ情報と対応付けた構造化ルールを設定する。これによりサーバ１は、構造が未知のデジタルコンテンツを取得した場合にも、設定済みの構造化ルールを参照して当該コンテンツの各要素を自動的に識別し、タグ情報を付与することができる。サーバ１が教師用のデータから自動的にルールを設定するため、管理者が自ら試行錯誤し、ルール内容を考える必要がない。これにより、マイクロコンテンツ化に際しての作業負担を減らし、コンテンツの管理を効率化することができる。

また、本実施の形態１によれば、文書の各要素の書式又はレイアウトに基づき各要素の属性を識別することで、サーバ１は各要素に適切な属性を与えることができる。

また、本実施の形態１によれば、複数の教師用データそれぞれから各要素の特徴及びタグ情報の対応関係を抽出する機械学習を行うことで、精度を高めることができる。

また、本実施の形態１によれば、識別した各要素の属性に基づきデジタルコンテンツを構造化することで、マイクロコンテンツの利用を容易にすることができる。

（実施の形態２）
実施の形態１では、書籍等のデジタルコンテンツから各要素を抽出し、マイクロコンテンツのデジタルアーカイブを作成する形態について述べた。本実施の形態では、作成したデジタルアーカイブを用い、マイクロコンテンツの販売を行う形態について述べる。なお、実施の形態１と重複する内容については同一の符号を付して説明を省略する。

図７は、実施の形態２に係る情報処理システムの構成例を示す模式図である。本実施の形態に係る情報処理システムは、販売管理サーバ３を含む。販売管理サーバ３は、マイクロコンテンツの販売を行うＥＣサイトの管理を行うサーバ装置であり、サーバ１が生成したコンテンツＤＢ１４２のデータを参照して、各マイクロコンテンツを表示するＥＣサイト画面の生成及び出力、マイクロコンテンツの購入申し込みの受け付け等を行う。

図８は、実施の形態２の概要を示す説明図である。図８の左側には、実施の形態１で説明したように、サーバ１がデジタルコンテンツを構造化データに変換してコンテンツＤＢ１４２に記憶する様子を概念的に図示している。本実施の形態でサーバ１は、当該構造化データを利用して、各要素、すなわちマイクロコンテンツを販売管理サーバ３に出力する。販売管理サーバ３は、図８右側に示すように、各マイクロコンテンツのデータをＥＣサイト上に出力する。

具体的には、販売管理サーバ３は、元データであるデジタルコンテンツから抽出された各要素をＷｅｂページの素材として利用し、各要素を再配置したＷｅｂ画面に生成して、ＥＣサイトの利用者のクライアント端末に出力する。例えば図８に示すように、販売管理サーバ３は、元データから抽出した画像、画像のキャプション、タイトル等の要素を再配置し、Ｗｅｂ画面上に表示させる。

また、サーバ１は各要素（マイクロコンテンツ）を販売管理サーバ３に出力するだけでなく、各要素に対応付けられた付随情報、すなわち作者名、価格等の情報を併せて出力する。なお、サーバ１は元データであるデジタルコンテンツ全体での価格しか取得しておらず、個々のマイクロコンテンツの価格は取得していないが、各マイクロコンテンツの価格Ｐは、例えば以下の式（１）により算出する。

Ｐ＝α（Ａ／Ｎ）＋β …（１）

Ａはデジタルコンテンツ全体の価格、Ｎはデジタルコンテンツに含まれる要素の総数、α及びβは価格の調整パラメータである。α及びβは、例えば各要素のデータ量等に応じて決定される。サーバ１は、式（１）に基づき、コンテンツ全体の価格から各要素の価格を算出する。具体的には、コンテンツ全体の価格を要素数で除算し、該当要素のデータ量等に応じて価格を調整することで、マイクロコンテンツ単位の価格を算出する。

販売管理サーバ３は、上記で算定した価格のほか、コンテンツの作者名等の付随情報をサーバ１から取得し、Ｗｅｂ画面上に出力する。販売管理サーバ３は、ＥＣサイトの利用者のクライアント端末を介して、Ｗｅｂ画面上に表示した各マイクロコンテンツの購入申し込みを受け付ける。販売管理サーバ３は、販売した各マイクロコンテンツについて、上記で算定した価格に基づき請求料金を定め、利用者に請求する。

図９は、実施の形態２に係る元データの呼出処理に関する説明図である。販売管理サーバ３は、書籍、新聞、雑誌等の文書から抽出したマイクロコンテンツの販売を行うだけでなく、例えばマイクロコンテンツの抽出元である文書、すなわちデジタルコンテンツ自体の販売等を併せて行う。例えば販売管理サーバ３は、図９左側に示す画面においてマイクロコンテンツ（画像）への指定入力を受け付けた場合、図９右側に示す画面に遷移し、指定されたマイクロコンテンツの元データに関する情報を出力する。

具体的には、クライアント端末から元データの呼出要求（出力要求）を受け付けた場合、販売管理サーバ３はサーバ１への問い合わせを行う。サーバ１は問い合わせを受け、元データであるデジタルコンテンツの情報をコンテンツＤＢ１４２から読み出し、販売管理サーバ３に出力する。販売管理サーバ３は、元データを取得し、当該元データの情報を示すＷｅｂ画面を生成してクライアント端末に出力する。例えば図９に示すように、販売管理サーバ３は、元データの表紙、書誌情報（付随情報）、収録されているマイクロコンテンツの情報等を出力する。例えば販売管理サーバ３は、当該画面を介して、元データであるデジタルコンテンツ全体での購入申し込みを受け付ける。

図１０は、実施の形態２に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。図１０に基づき、サーバ１及び販売管理サーバ３が実行する処理内容について説明する。
サーバ１の制御部１１は、コンテンツＤＢ１４２から、デジタルコンテンツの構造化データを読み出す（ステップＳ２０１）。具体的には、制御部１１は、デジタルコンテンツから抽出した各要素（マイクロコンテンツ）のデータと、要素の属性値として格納されている付随情報、すなわちコンテンツの作者、コンテンツ全体での価格等の情報を読み出す。制御部１１は、読み出したコンテンツ全体での価格から、個々の要素の価格を算出する（ステップＳ２０２）。具体的には、制御部１１は式（１）に従い、コンテンツ全体の価格からマイクロコンテンツ単位の価格を算出する。制御部１１は、各要素と、各要素に対応するデジタルコンテンツの付随情報とを販売管理サーバ３に出力する（ステップＳ２０３）。例えば制御部１１は、各マイクロコンテンツのデータのほか、作者、マイクロコンテンツの価格等の情報を出力する。

販売管理サーバ３は、サーバ１から要素のデータを取得し、ＥＣサイトに係るＷｅｂ画面を生成して出力する（ステップＳ２０４）。例えば販売管理サーバ３は、上述の如く、各マイクロコンテンツと、各マイクロコンテンツの付随情報とを表示するＷｅｂ画面を生成して出力する。販売管理サーバ３は、クライアント端末から、要素の元データであるデジタルコンテンツの出力要求を受け付けたか否かを判定する（ステップＳ２０５）。出力要求を受け付けていないと判定した場合（Ｓ２０５：ＮＯ）、販売管理サーバ３は一連の処理を終了する。出力要求を受け付けたと判定した場合（Ｓ２０５：ＹＥＳ）、販売管理サーバ３は、出力要求をサーバ１に転送する（ステップＳ２０６）。

サーバ１の制御部１１は、元データの出力要求を受け付ける（ステップＳ２０７）。出力要求を受け付けた場合、制御部１１は、元データであるデジタルコンテンツを販売管理サーバ３に出力する（ステップＳ２０８）。販売管理サーバ３は、サーバ１から元データを取得し、元データをＷｅｂ画面上に表示させ（ステップＳ２０９）、一連の処理を終了する。

なお、上記ではＥＣサイトを一例に説明を行ったが、サーバ１は構造化データを利用して文書内の各要素を出力可能であればよく、本実施の形態の適用対象はＥＣサイトに限定されない。

以上より、本実施の形態２によれば、構造化データを参照して各要素を出力することで、マイクロコンテンツの実際的な利用が可能となる。

また、本実施の形態２によれば、各要素に元データの付随情報を対応付けておくことで、マイクロコンテンツ利用の利便性を高めることができる。

また、本実施の形態２によれば、コンテンツ全体での価格から各要素の価格を自動算出することで、マイクロコンテンツ単位の適切な価格を算出することができる。また、販売者が各マイクロコンテンツの価格を個別に定める必要がなく、価格算定の煩わしさを解消することができる。

また、本実施の形態２によれば、マイクロコンテンツを誘因としてデジタルコンテンツ全体の利用を促進することができる。

（実施の形態３）
本実施の形態では、著作物であるコンテンツの不正使用をチェックするためのクローリング監視を行う形態について説明する。
図１１は、実施の形態３の概要を示す説明図である。サーバ１は、ネットワークＮを介してＷｅｂサイトの情報を収集するクローリング処理を行い、各サイトのＷｅｂページにおいて、コンテンツＤＢ１４２に記憶されているデジタルコンテンツが不正に使用されていないかどうかを監視する処理を行う。

例えばサーバ１は、定期的にインターネット上の各Ｗｅｂサイトにアクセスし、各サイトのＷｅｂページのデータを収集しておく。そしてサーバ１は、収集した各Ｗｅｂページのうち、デジタルコンテンツから抽出した各要素、すなわちマイクロコンテンツと一致するコンテンツが掲載されたＷｅｂページがあるかどうかを判定する。一致するコンテンツが掲載されているＷｅｂページがあると判定した場合、サーバ１は、該当ページを管理者に報知する。具体的には、サーバ１は、Ｗｅｂページのアドレス情報と、当該ページ内の該当箇所とを報知する。

図１２は、実施の形態３に係るサーバ１が実行する処理手順の一例を示すフローチャートである。図１２に基づき、本実施の形態においてサーバ１が実行する処理内容について説明する。
サーバ１の制御部１１は、ネットワークＮを介して各Ｗｅｂサイトにアクセスし、Ｗｅｂページのデータを収集する（ステップＳ３０１）。制御部１１は、収集したＷｅｂページから、コンテンツＤＢ１４２に記憶されている要素と一致するコンテンツが掲載されたＷｅｂページがあるか否かを判定する（ステップＳ３０２）。該当するＷｅｂページがないと判定した場合（Ｓ３０２：ＮＯ）、制御部１１は一連の処理を終了する。

該当するＷｅｂページがあると判定した場合（Ｓ３０２：ＹＥＳ）、制御部１１は、当該Ｗｅｂページを抽出する（ステップＳ３０３）。具体的には、制御部１１は、当該Ｗｅｂページのアドレス情報等を抽出すると共に、当該Ｗｅｂページにおいて一致するコンテンツが掲載されている該当箇所を抽出する。制御部１１は、抽出したＷｅｂページを管理者に報知し（ステップＳ３０４）、一連の処理を終了する。

以上より、本実施の形態３によれば、著作物の不正使用をマイクロコンテンツ単位で監視することができる。

（実施の形態４）
図１３は、上述した形態のサーバ１の動作を示す機能ブロック図である。制御部１１がプログラムＰを実行することにより、サーバ１は以下のように動作する。取得部１３１は、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する。特徴抽出部１３２は、前記サンプルの前記各要素の特徴を抽出する。設定部１３３は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する。コンテンツ取得部１３４は、非構造化データであるコンテンツを取得する。抽出部１３５は、取得した前記コンテンツから前記各要素を抽出する。付与部１３６は、前記ルールを参照して、前記要素に前記タグ情報を付与する。

本実施の形態４は以上の如きであり、その他は実施の形態１から３と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
１４１構造化テーブル
１４２コンテンツＤＢ
２端末
３販売管理サーバ

Claims

非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部と、
前記サンプルの前記各要素の特徴を抽出する特徴抽出部と、
抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する設定部と、
非構造化データであるコンテンツを取得するコンテンツ取得部と、
取得した前記コンテンツから前記各要素を抽出する抽出部と、
前記ルールを参照して、前記要素に前記タグ情報を付与する付与部と
を備えることを特徴とする情報処理装置。
前記サンプル及びコンテンツは、テキスト又は画像からなる文書データであり、
前記特徴抽出部は、前記要素の書式又はレイアウトに係る情報を抽出し、
前記設定部は、前記要素の書式又はレイアウトと、前記タグ情報との対応関係を示す前記ルールを設定する
ことを特徴とする請求項１に記載の情報処理装置。
前記取得部は、複数の前記教師情報を取得し、
前記設定部は、前記教師情報夫々から前記要素の特徴と前記タグ情報との対応関係を学習することで、前記要素に対応する前記タグ情報を識別する識別器を生成する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記要素夫々の前記タグ情報に基づき、前記コンテンツを構造化した構造化データを生成する生成部と、
生成した前記構造化データを記憶する記憶部と
を備えることを特徴とする請求項１〜３のいずれか１項に記載の情報処理装置。
前記構造化データを参照して、前記各要素を出力する出力部を備える
ことを特徴とする請求項４に記載の情報処理装置。
前記コンテンツに付随する付随情報を取得する付随情報取得部を備え、
前記生成部は、前記要素に対応付けて前記付随情報を前記構造化データに格納し、
前記出力部は、前記要素と共に前記付随情報を出力する
ことを特徴とする請求項５に記載の情報処理装置。
前記付随情報は、前記コンテンツ全体での価格に関する情報を含み、
前記コンテンツ全体での価格から、前記要素夫々の価格を算出する算出部を備え、
前記出力部は、前記要素の価格を出力する
ことを特徴とする請求項６に記載の情報処理装置。
前記出力部が出力した前記要素に対して、該要素に対応する前記コンテンツの出力要求を受け付ける受付部を備え、
出力要求を受け付けた場合、前記出力部は前記コンテンツを出力する
ことを特徴とする請求項５〜７のいずれか１項に記載の情報処理装置。
ネットワークを介してＷｅｂページに係るデータを収集する収集部と、
収集した前記Ｗｅｂページから、前記要素と一致するコンテンツを有する前記Ｗｅｂページを抽出するページ抽出部と、
抽出した前記Ｗｅｂページを報知する報知部と
を備えることを特徴とする請求項１〜８のいずれか１項に記載の情報処理装置。
非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得し、
前記サンプルの前記各要素の特徴を抽出し、
抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定し、
非構造化データであるコンテンツを取得し、
取得した前記コンテンツから前記各要素を抽出し、
前記ルールを参照して、前記要素に前記タグ情報を付与する
処理をコンピュータに実行させることを特徴とするプログラム。