JP2019040260A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2019040260A
JP2019040260A JP2017159662A JP2017159662A JP2019040260A JP 2019040260 A JP2019040260 A JP 2019040260A JP 2017159662 A JP2017159662 A JP 2017159662A JP 2017159662 A JP2017159662 A JP 2017159662A JP 2019040260 A JP2019040260 A JP 2019040260A
Authority
JP
Japan
Prior art keywords
information
content
unit
server
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017159662A
Other languages
English (en)
Other versions
JP7290391B2 (ja
Inventor
聡 田端
Satoshi Tabata
聡 田端
克俊 前沢
Katsutoshi Maezawa
克俊 前沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2017159662A priority Critical patent/JP7290391B2/ja
Publication of JP2019040260A publication Critical patent/JP2019040260A/ja
Application granted granted Critical
Publication of JP7290391B2 publication Critical patent/JP7290391B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツの管理を効率化することができる情報処理装置等を提供する。【解決手段】情報処理装置1は、非構造化データのサンプルと、サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部131と、サンプルの各要素の特徴を抽出する特徴抽出部132と、抽出した各要素の特徴と、教師情報が示すタグ情報とに基づき、要素の特徴に応じてタグ情報を識別するルールを設定する設定部133と、非構造化データであるコンテンツを取得するコンテンツ取得部134と、取得したコンテンツから各要素を抽出する抽出部135と、ルールを参照して、要素にタグ情報を付与する付与部136とを備える。【選択図】図13

Description

本発明は、情報処理装置及びプログラムに関する。
近年、マイクロコンテンツに対するニーズが高まり、書籍、雑誌、新聞等のマイクロコンテンツの販売が拡大しつつある。しかし、書籍等のコンテンツデータはいわゆる非構造化データであることが多く、コンテンツ内の各要素が何であるかを示す情報を保持していない。従って、コンテンツデータから各マイクロコンテンツを抽出するマイクロコンテンツ化の作業を行う必要がある。多くの場合、マイクロコンテンツ化は手作業で行っており、コストが高いという問題がある。
例えば特許文献1では、文書画像のマイクロコンテンツ化を行う文書画像処理装置等であって、文書画像を所定の領域毎に分割し、分割した領域内のデータにタグ及び属性値を割り当てることで、マークアップ言語で記述した文書データを生成する文書画像処理装置等が開示されている。
特開2002−41497号公報
しかしながら、特許文献1に係る発明は、設計者がタグ及び属性値を割り当てるルールを事前に設計しておく必要があり、必ずしも効率的ではないという問題があった。
一つの側面では、コンテンツの管理を効率化することができる情報処理装置等を提供することを目的とする。
一つの側面では、情報処理装置は、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部と、前記サンプルの前記各要素の特徴を抽出する特徴抽出部と、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する設定部と、非構造化データであるコンテンツを取得するコンテンツ取得部と、取得した前記コンテンツから前記各要素を抽出する抽出部と、前記ルールを参照して、前記要素に前記タグ情報を付与する付与部とを備えることを特徴とする。
一つの側面では、情報処理装置は、前記サンプル及びコンテンツは、テキスト又は画像からなる文書データであり、前記特徴抽出部は、前記要素の書式又はレイアウトに係る情報を抽出し、前記設定部は、前記要素の書式又はレイアウトと、前記タグ情報との対応関係を示す前記ルールを設定することを特徴とする。
一つの側面では、情報処理装置は、前記取得部は、複数の前記教師情報を取得し、前記設定部は、前記教師情報夫々から前記要素の特徴と前記タグ情報との対応関係を学習することで、前記要素に対応する前記タグ情報を識別する識別器を生成することを特徴とする。
一つの側面では、情報処理装置は、前記要素夫々の前記タグ情報に基づき、前記コンテンツを構造化した構造化データを生成する生成部と、生成した前記構造化データを記憶する記憶部とを備えることを特徴とする。
一つの側面では、情報処理装置は、前記構造化データを参照して、前記各要素を出力する出力部を備えることを特徴とする。
一つの側面では、情報処理装置は、前記コンテンツに付随する付随情報を取得する付随情報取得部を備え、前記生成部は、前記要素に対応付けて前記付随情報を前記構造化データに格納し、前記出力部は、前記要素と共に前記付随情報を出力することを特徴とする。
一つの側面では、情報処理装置は、前記付随情報は、前記コンテンツ全体での価格に関する情報を含み、前記コンテンツ全体での価格から、前記要素夫々の価格を算出する算出部を備え、前記出力部は、前記要素の価格を出力することを特徴とする。
一つの側面では、情報処理装置は、前記出力部が出力した前記要素に対して、該要素に対応する前記コンテンツの出力要求を受け付ける受付部を備え、出力要求を受け付けた場合、前記出力部は前記コンテンツを出力することを特徴とする。
一つの側面では、情報処理装置は、ネットワークを介してWebページに係るデータを収集する収集部と、収集した前記Webページから、前記要素と一致するコンテンツを有する前記Webページを抽出するページ抽出部と、抽出した前記Webページを報知する報知部とを備えることを特徴とする。
一つの側面では、プログラムは、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得し、前記サンプルの前記各要素の特徴を抽出し、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定し、非構造化データであるコンテンツを取得し、取得した前記コンテンツから前記各要素を抽出し、前記ルールを参照して、前記要素に前記タグ情報を付与する処理をコンピュータに実行させることを特徴とする。
一つの側面では、コンテンツの管理を効率化することができる。
情報処理システムの概要を示す説明図である。 サーバの構成例を示すブロック図である。 構造化テーブルのレコードレイアウトの一例を示す説明図である。 構造化ルールの設定処理に関する説明図である。 構造化処理に関する説明図である。 サーバが実行する処理手順の一例を示すフローチャートである。 実施の形態2に係る情報処理システムの構成例を示す模式図である。 実施の形態2の概要を示す説明図である。 実施の形態2に係る元データの呼出処理に関する説明図である。 実施の形態2に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。 実施の形態3の概要を示す説明図である。 実施の形態3に係るサーバが実行する処理手順の一例を示すフローチャートである。 上述した形態のサーバの動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、情報処理システムの概要を示す説明図である。本実施の形態では、マイクロコンテンツのデータアーカイブを作成する情報処理システムを一例に説明を行う。情報処理システムは、情報処理装置1及び端末2を含む。情報処理装置1及び端末2は、インターネット等のネットワークNを介して通信接続されている。
情報処理装置1は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、非構造化データであるデジタルコンテンツ、例えば書籍、新聞、雑誌等の文書データを取得し、デジタルコンテンツからマイクロコンテンツを抽出して構造化データを生成する処理を行う。
端末2は、サーバ1と通信を行うクライアント端末であり、マイクロコンテンツ化の作業業務を行う管理者が操作する端末装置である。サーバ1は、端末2からデジタルコンテンツを取得し、端末2からの要求に従ってデータアーカイブの作成を行う。
図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、構造化テーブル141、コンテンツDB142を記憶している。構造化テーブル141は、非構造化データであるデジタルコンテンツを構造化データに変換するための構造化ルールを規定している。コンテンツDB142は、デジタルコンテンツを構造化した構造化データを格納するデータベースである。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
図3は、構造化テーブル141のレコードレイアウトの一例を示す説明図である。構造化テーブル141は、要素名列、ルール列を含む。要素名列は、「タイトル」、「サブタイトル」、「本文」などのように、文書ページを構成する各要素の要素名(後述するタグ情報)が記憶されている。ルール列は、要素名と対応付けて、各要素名に対応する要素を特徴付ける情報が記憶されている。例えばルール列には、各要素のフォント、文字サイズ、レイアウト(座標値)等のデータが記憶されている。
図4は、構造化ルールの設定処理に関する説明図である。図4では、サーバ1が、非構造化データのサンプル、具体的にはテキスト及び画像からなるサンプル文書から、当該サンプル文書を構成する基本要素を抽出して特徴を学習する様子を図示している。
サーバ1は、端末2から教師用のサンプル文書を取得し、当該サンプルデータを基に構造化ルールを設定(学習)する。サンプル文書は、構造されていない文書データであり、例えばPDF(Portable Document Format、登録商標)ファイルである。サーバ1は、一点のサンプル文書を基に、非構造化データを構造化するための構造化ルールを設定する。
例えばサーバ1は、非構造化データである文書のサンプルに、当該サンプルに含まれる各要素のタグ情報の正解値を関連付けた教師情報を取得する。非構造化データの要素は、元データを所定領域毎に分割したデータであり、例えば図4において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、図など、文書を構成する基本要素である。タグ情報は、各要素を定義付けるメタ情報であり、XML(Extensible Markup Language)ファイルにおいて各要素にタグ付けされる要素名又は属性値である。本実施の形態においてサーバ1は、教師情報として、サンプルに含まれる各要素の要素名に係る情報を取得する。例えば図4に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」の要素名を取得する。このように、サーバ1は、一点の文書のサンプルに対し、各要素の要素名の正解値を保持した教師情報を端末2から取得する。
サーバ1は、文書のサンプルから、タイトル、サブタイトル、本文、図などの各要素を抽出する。そしてサーバ1は、サンプルから抽出した各要素の特徴を抽出する。具体的には、サーバ1は、各要素内のテキストの書式、各要素のレイアウト等の特徴を抽出する。例えばサーバ1は、図4で示す矩形領域内に記述されているテキストに対して文字認識を行い、テキストのフォント、文字サイズ等を判別する。また、サーバ1は、各矩形領域の位置及び範囲に基づき、文書ページ内で各要素が占める領域の座標値を判別する。
サーバ1は、上記で抽出した各要素の特徴と、教師情報で示される各要素の要素名(タグ情報)とを対応付け、構造化テーブル141に格納する。これにより、サーバ1は、書式、レイアウト等の各要素の傾向(特徴)に応じて、各要素がどの要素名に該当するかを識別する構造化ルールを設定する。
なお、上記では各要素を特徴付ける情報として書式及びレイアウトを挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、文書内に含まれる表を識別可能とすべく、表を構成する描線を特徴として抽出し、学習するようにしてもよい。このように、要素の特徴は書式及びレイアウトに限定されるものではない。
また、上記では説明の単純化のため、一点の文書のサンプルから各要素の特徴を学習してルールを設定することとしたが、本実施の形態はこれに限定されるものではない。サーバ1は、複数の教師情報から要素の特徴とタグ情報との対応関係を学習する機械学習を行い、要素の特徴からタグ情報を識別するモデルデータ(識別器)を生成してもよい。すなわちサーバ1は、複数の教師用のサンプルそれぞれから各要素の特徴量を抽出し、各要素のタグ情報の正解値と比較する。サーバ1は、全ての教師用のサンプルについて比較処理を行い、例えばタイトルに該当する要素の特徴量がどのようなパラメータであるか、複数のサンプルから学習する処理を行う。サーバ1は、当該処理により、要素の特徴量からタグ情報を識別する識別器を生成し、補助記憶部14に記憶する。機械学習を行うことで、サーバ1はより正確に各要素を識別可能となる。
図5は、構造化処理に関する説明図である。サーバ1は、上記で設定した構造化ルールに基づき、非構造化データであるデジタルコンテンツを構造化データに変換する処理を行う。具体的には、サーバ1は、対象とする文書からタイトル、サブタイトル、本文、図などの各要素を抽出し、各要素の書式、レイアウト等を解析する。そしてサーバ1は、構造化テーブル141を参照して、各要素の書式、レイアウト等に対応するタグ情報を識別する。例えば文書中のタイトルに相当するテキスト箇所を抽出した場合、サーバ1は、当該テキストのフォント、文字サイズ、レイアウト等に基づき、当該テキストがタイトルであることを認識する。サーバ1は、デジタルコンテンツの各要素について同様に処理を行い、各要素を識別する。
サーバ1は、各要素にタグ情報(要素名)を付与し、タグ情報に基づいて各要素を階層化した構造化データを生成する。例えばサーバ1は、XML形式のテキストファイルを生成する。例えばサーバ1は、文書のタイトルのテキスト要素を抽出した場合、当該要素に要素名「title」を付与し、テキストファイルに格納する。サーバ1は同様に、文書のサブタイトル、本文等についても各要素に要素名を付与し、ファイルに格納する。また、サーバ1は、文書から画像(図)を抽出した場合、抽出した画像をテキストファイルのファイル名と対応付けて画像フォルダに格納する。図5に示すように、サーバ1はテキストファイルにおいて、一の要素(例えば頁番号)に紐付けてその他の要素を格納することで、各要素を階層化する。これによりサーバ1は、非構造化データであるデジタルコンテンツ(文書)を構造化した構造化データを生成する。サーバ1は、生成した構造化データをコンテンツDB142に記憶する。
また、サーバ1は、各要素の要素名を識別して構造化データに格納するだけでなく、デジタルコンテンツに付随する付随情報を各要素に対応付けて構造化データに格納してもよい。付随情報は、例えばコンテンツの作者名、価格、出版元等の情報である。例えばサーバ1は、要素名に係るルールと同じように、教師情報を基にサンプル文書の表紙等から作者名、価格、出版元等のテキスト要素を抽出するルールを設定しておく。サーバ1は、デジタルコンテンツに係る文書の表紙画像(不図示)を取得した場合、当該表紙から各種情報を抽出する。サーバ1は、デジタルコンテンツから抽出した各要素をファイルに格納する際、付随情報を各要素に対応付けて格納する。例えばサーバ1は、各要素のタグ内に属性値として当該情報を記述する。これによりサーバ1は、各要素の詳細な意味づけを行うことができる。
なお、上記でサーバ1は、作者名、価格等の付随情報をコンテンツデータから機械的に抽出することとしたが、端末2を介して手動入力を受け付けるようにしてもよい。例えば管理者が、端末2を操作してコンテンツデータをサーバ1に転送する際、作者名、価格等の情報を入力し、併せて転送する。すなわちサーバ1は、コンテンツに付随する情報を取得可能であればよく、コンテンツデータから自動的に取得してもよいし、手動入力により取得するようにしてもよい。
サーバ1は、端末2から転送される各デジタルコンテンツについて同様に処理を行い、非構造化データである各コンテンツを構造化データに変換する。このように、サーバ1は、デジタルコンテンツから抽出した各要素に意味づけを行い、マイクロコンテンツのデジタルアーカイブを作成する。教師用のデータから構造化ルールを事前に設定(学習)しておくことで、サーバ1は、デジタルコンテンツに含まれる各要素が何であるかを自動的に識別し、構造化データを生成することができる。これにより、マイクロコンテンツ化の作業を効率化することができる。
図6は、サーバ1が実行する処理手順の一例を示すフローチャートである。図6に基づき、サーバ1が実行する処理内容について説明する。
サーバ1の制御部11は、非構造化データのサンプルと、当該サンプルに含まれる各要素のタグ情報の正解値とを含む教師情報を取得する(ステップS11)。タグ情報は、各要素を定義付けるメタ情報であり、例えばXMLファイルにおける要素名又は属性値である。例えば制御部11は、非構造化データの各要素の要素名を既知とした教師用データを取得する。制御部11は、サンプルに含まれる各要素の特徴を抽出する(ステップS12)。例えば制御部11は、サンプル文書に含まれる各要素の書式及びレイアウトに係る情報を抽出する。
制御部11は、抽出した各要素の特徴と、教師情報が示す各要素のタグ情報の正解値とに基づき、非構造化データに含まれる要素の特徴に応じて、付与すべきタグ情報を識別する構造化ルールを設定する(ステップS13)。具体的には、制御部11は、ステップS12で抽出した各要素の書式、レイアウト等の特徴と、教師情報が示す各要素の要素名とを対応付け、構造化テーブル141に格納する。
制御部11は、非構造化データであるデジタルコンテンツを端末2から取得する(ステップS14)。デジタルコンテンツは、構造化されていない文書データであり、例えばPDFファイルである。
制御部11は、ステップS14で取得したデジタルコンテンツから、当該コンテンツに含まれる各要素を抽出する(ステップS15)。そして制御部11は、ステップS13で設定した構造化ルールを参照して、抽出した各要素にタグ情報を付与する(ステップS16)。例えば制御部11は、抽出した各要素の書式、レイアウト等の特徴に応じて、要素名を付与する。また、例えば制御部11は、デジタルコンテンツ(文書)の表紙画像から抽出した作者、価格、出版元等の付随情報を、各要素の属性値として付与する。
制御部11は、各要素に付与したタグ情報に基づき、デジタルコンテンツを構造化した構造化データを生成する(ステップS17)。例えば制御部11は、XML形式のファイルを生成する。制御部11は、ステップS16で付与した要素名に応じて各要素を階層化して格納し、構造化データを生成する。また、例えば制御部11は、コンテンツの付随情報を各要素の属性値としてタグ情報に記述し、構造化データに格納する。制御部11は、生成した構造化データをコンテンツDB142に記憶し(ステップS18)、一連の処理を終了する。
なお、上記では解析対象とするコンテンツが文書であるものとしたが、解析対象とするコンテンツは非構造化データであればよく、例えば音声データであってもよい。
また、上記ではXMLファイルを生成することにしたが、HTML、SGML等の形式のファイルを生成してもよいことは勿論である。
以上より、本実施の形態1によれば、サーバ1が教師用のサンプルデータから各要素の特徴を抽出し、タグ情報と対応付けた構造化ルールを設定する。これによりサーバ1は、構造が未知のデジタルコンテンツを取得した場合にも、設定済みの構造化ルールを参照して当該コンテンツの各要素を自動的に識別し、タグ情報を付与することができる。サーバ1が教師用のデータから自動的にルールを設定するため、管理者が自ら試行錯誤し、ルール内容を考える必要がない。これにより、マイクロコンテンツ化に際しての作業負担を減らし、コンテンツの管理を効率化することができる。
また、本実施の形態1によれば、文書の各要素の書式又はレイアウトに基づき各要素の属性を識別することで、サーバ1は各要素に適切な属性を与えることができる。
また、本実施の形態1によれば、複数の教師用データそれぞれから各要素の特徴及びタグ情報の対応関係を抽出する機械学習を行うことで、精度を高めることができる。
また、本実施の形態1によれば、識別した各要素の属性に基づきデジタルコンテンツを構造化することで、マイクロコンテンツの利用を容易にすることができる。
(実施の形態2)
実施の形態1では、書籍等のデジタルコンテンツから各要素を抽出し、マイクロコンテンツのデジタルアーカイブを作成する形態について述べた。本実施の形態では、作成したデジタルアーカイブを用い、マイクロコンテンツの販売を行う形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図7は、実施の形態2に係る情報処理システムの構成例を示す模式図である。本実施の形態に係る情報処理システムは、販売管理サーバ3を含む。販売管理サーバ3は、マイクロコンテンツの販売を行うECサイトの管理を行うサーバ装置であり、サーバ1が生成したコンテンツDB142のデータを参照して、各マイクロコンテンツを表示するECサイト画面の生成及び出力、マイクロコンテンツの購入申し込みの受け付け等を行う。
図8は、実施の形態2の概要を示す説明図である。図8の左側には、実施の形態1で説明したように、サーバ1がデジタルコンテンツを構造化データに変換してコンテンツDB142に記憶する様子を概念的に図示している。本実施の形態でサーバ1は、当該構造化データを利用して、各要素、すなわちマイクロコンテンツを販売管理サーバ3に出力する。販売管理サーバ3は、図8右側に示すように、各マイクロコンテンツのデータをECサイト上に出力する。
具体的には、販売管理サーバ3は、元データであるデジタルコンテンツから抽出された各要素をWebページの素材として利用し、各要素を再配置したWeb画面に生成して、ECサイトの利用者のクライアント端末に出力する。例えば図8に示すように、販売管理サーバ3は、元データから抽出した画像、画像のキャプション、タイトル等の要素を再配置し、Web画面上に表示させる。
また、サーバ1は各要素(マイクロコンテンツ)を販売管理サーバ3に出力するだけでなく、各要素に対応付けられた付随情報、すなわち作者名、価格等の情報を併せて出力する。なお、サーバ1は元データであるデジタルコンテンツ全体での価格しか取得しておらず、個々のマイクロコンテンツの価格は取得していないが、各マイクロコンテンツの価格Pは、例えば以下の式(1)により算出する。
P=α(A/N)+β …(1)
Aはデジタルコンテンツ全体の価格、Nはデジタルコンテンツに含まれる要素の総数、α及びβは価格の調整パラメータである。α及びβは、例えば各要素のデータ量等に応じて決定される。サーバ1は、式(1)に基づき、コンテンツ全体の価格から各要素の価格を算出する。具体的には、コンテンツ全体の価格を要素数で除算し、該当要素のデータ量等に応じて価格を調整することで、マイクロコンテンツ単位の価格を算出する。
販売管理サーバ3は、上記で算定した価格のほか、コンテンツの作者名等の付随情報をサーバ1から取得し、Web画面上に出力する。販売管理サーバ3は、ECサイトの利用者のクライアント端末を介して、Web画面上に表示した各マイクロコンテンツの購入申し込みを受け付ける。販売管理サーバ3は、販売した各マイクロコンテンツについて、上記で算定した価格に基づき請求料金を定め、利用者に請求する。
図9は、実施の形態2に係る元データの呼出処理に関する説明図である。販売管理サーバ3は、書籍、新聞、雑誌等の文書から抽出したマイクロコンテンツの販売を行うだけでなく、例えばマイクロコンテンツの抽出元である文書、すなわちデジタルコンテンツ自体の販売等を併せて行う。例えば販売管理サーバ3は、図9左側に示す画面においてマイクロコンテンツ(画像)への指定入力を受け付けた場合、図9右側に示す画面に遷移し、指定されたマイクロコンテンツの元データに関する情報を出力する。
具体的には、クライアント端末から元データの呼出要求(出力要求)を受け付けた場合、販売管理サーバ3はサーバ1への問い合わせを行う。サーバ1は問い合わせを受け、元データであるデジタルコンテンツの情報をコンテンツDB142から読み出し、販売管理サーバ3に出力する。販売管理サーバ3は、元データを取得し、当該元データの情報を示すWeb画面を生成してクライアント端末に出力する。例えば図9に示すように、販売管理サーバ3は、元データの表紙、書誌情報(付随情報)、収録されているマイクロコンテンツの情報等を出力する。例えば販売管理サーバ3は、当該画面を介して、元データであるデジタルコンテンツ全体での購入申し込みを受け付ける。
図10は、実施の形態2に係る情報処理システムが実行する処理手順の一例を示すフローチャートである。図10に基づき、サーバ1及び販売管理サーバ3が実行する処理内容について説明する。
サーバ1の制御部11は、コンテンツDB142から、デジタルコンテンツの構造化データを読み出す(ステップS201)。具体的には、制御部11は、デジタルコンテンツから抽出した各要素(マイクロコンテンツ)のデータと、要素の属性値として格納されている付随情報、すなわちコンテンツの作者、コンテンツ全体での価格等の情報を読み出す。制御部11は、読み出したコンテンツ全体での価格から、個々の要素の価格を算出する(ステップS202)。具体的には、制御部11は式(1)に従い、コンテンツ全体の価格からマイクロコンテンツ単位の価格を算出する。制御部11は、各要素と、各要素に対応するデジタルコンテンツの付随情報とを販売管理サーバ3に出力する(ステップS203)。例えば制御部11は、各マイクロコンテンツのデータのほか、作者、マイクロコンテンツの価格等の情報を出力する。
販売管理サーバ3は、サーバ1から要素のデータを取得し、ECサイトに係るWeb画面を生成して出力する(ステップS204)。例えば販売管理サーバ3は、上述の如く、各マイクロコンテンツと、各マイクロコンテンツの付随情報とを表示するWeb画面を生成して出力する。販売管理サーバ3は、クライアント端末から、要素の元データであるデジタルコンテンツの出力要求を受け付けたか否かを判定する(ステップS205)。出力要求を受け付けていないと判定した場合(S205:NO)、販売管理サーバ3は一連の処理を終了する。出力要求を受け付けたと判定した場合(S205:YES)、販売管理サーバ3は、出力要求をサーバ1に転送する(ステップS206)。
サーバ1の制御部11は、元データの出力要求を受け付ける(ステップS207)。出力要求を受け付けた場合、制御部11は、元データであるデジタルコンテンツを販売管理サーバ3に出力する(ステップS208)。販売管理サーバ3は、サーバ1から元データを取得し、元データをWeb画面上に表示させ(ステップS209)、一連の処理を終了する。
なお、上記ではECサイトを一例に説明を行ったが、サーバ1は構造化データを利用して文書内の各要素を出力可能であればよく、本実施の形態の適用対象はECサイトに限定されない。
以上より、本実施の形態2によれば、構造化データを参照して各要素を出力することで、マイクロコンテンツの実際的な利用が可能となる。
また、本実施の形態2によれば、各要素に元データの付随情報を対応付けておくことで、マイクロコンテンツ利用の利便性を高めることができる。
また、本実施の形態2によれば、コンテンツ全体での価格から各要素の価格を自動算出することで、マイクロコンテンツ単位の適切な価格を算出することができる。また、販売者が各マイクロコンテンツの価格を個別に定める必要がなく、価格算定の煩わしさを解消することができる。
また、本実施の形態2によれば、マイクロコンテンツを誘因としてデジタルコンテンツ全体の利用を促進することができる。
(実施の形態3)
本実施の形態では、著作物であるコンテンツの不正使用をチェックするためのクローリング監視を行う形態について説明する。
図11は、実施の形態3の概要を示す説明図である。サーバ1は、ネットワークNを介してWebサイトの情報を収集するクローリング処理を行い、各サイトのWebページにおいて、コンテンツDB142に記憶されているデジタルコンテンツが不正に使用されていないかどうかを監視する処理を行う。
例えばサーバ1は、定期的にインターネット上の各Webサイトにアクセスし、各サイトのWebページのデータを収集しておく。そしてサーバ1は、収集した各Webページのうち、デジタルコンテンツから抽出した各要素、すなわちマイクロコンテンツと一致するコンテンツが掲載されたWebページがあるかどうかを判定する。一致するコンテンツが掲載されているWebページがあると判定した場合、サーバ1は、該当ページを管理者に報知する。具体的には、サーバ1は、Webページのアドレス情報と、当該ページ内の該当箇所とを報知する。
図12は、実施の形態3に係るサーバ1が実行する処理手順の一例を示すフローチャートである。図12に基づき、本実施の形態においてサーバ1が実行する処理内容について説明する。
サーバ1の制御部11は、ネットワークNを介して各Webサイトにアクセスし、Webページのデータを収集する(ステップS301)。制御部11は、収集したWebページから、コンテンツDB142に記憶されている要素と一致するコンテンツが掲載されたWebページがあるか否かを判定する(ステップS302)。該当するWebページがないと判定した場合(S302:NO)、制御部11は一連の処理を終了する。
該当するWebページがあると判定した場合(S302:YES)、制御部11は、当該Webページを抽出する(ステップS303)。具体的には、制御部11は、当該Webページのアドレス情報等を抽出すると共に、当該Webページにおいて一致するコンテンツが掲載されている該当箇所を抽出する。制御部11は、抽出したWebページを管理者に報知し(ステップS304)、一連の処理を終了する。
以上より、本実施の形態3によれば、著作物の不正使用をマイクロコンテンツ単位で監視することができる。
(実施の形態4)
図13は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。取得部131は、非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する。特徴抽出部132は、前記サンプルの前記各要素の特徴を抽出する。設定部133は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する。コンテンツ取得部134は、非構造化データであるコンテンツを取得する。抽出部135は、取得した前記コンテンツから前記各要素を抽出する。付与部136は、前記ルールを参照して、前記要素に前記タグ情報を付与する。
本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 コンテンツDB
2 端末
3 販売管理サーバ

Claims (10)

  1. 非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得する取得部と、
    前記サンプルの前記各要素の特徴を抽出する特徴抽出部と、
    抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定する設定部と、
    非構造化データであるコンテンツを取得するコンテンツ取得部と、
    取得した前記コンテンツから前記各要素を抽出する抽出部と、
    前記ルールを参照して、前記要素に前記タグ情報を付与する付与部と
    を備えることを特徴とする情報処理装置。
  2. 前記サンプル及びコンテンツは、テキスト又は画像からなる文書データであり、
    前記特徴抽出部は、前記要素の書式又はレイアウトに係る情報を抽出し、
    前記設定部は、前記要素の書式又はレイアウトと、前記タグ情報との対応関係を示す前記ルールを設定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記取得部は、複数の前記教師情報を取得し、
    前記設定部は、前記教師情報夫々から前記要素の特徴と前記タグ情報との対応関係を学習することで、前記要素に対応する前記タグ情報を識別する識別器を生成する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記要素夫々の前記タグ情報に基づき、前記コンテンツを構造化した構造化データを生成する生成部と、
    生成した前記構造化データを記憶する記憶部と
    を備えることを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記構造化データを参照して、前記各要素を出力する出力部を備える
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記コンテンツに付随する付随情報を取得する付随情報取得部を備え、
    前記生成部は、前記要素に対応付けて前記付随情報を前記構造化データに格納し、
    前記出力部は、前記要素と共に前記付随情報を出力する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記付随情報は、前記コンテンツ全体での価格に関する情報を含み、
    前記コンテンツ全体での価格から、前記要素夫々の価格を算出する算出部を備え、
    前記出力部は、前記要素の価格を出力する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記出力部が出力した前記要素に対して、該要素に対応する前記コンテンツの出力要求を受け付ける受付部を備え、
    出力要求を受け付けた場合、前記出力部は前記コンテンツを出力する
    ことを特徴とする請求項5〜7のいずれか1項に記載の情報処理装置。
  9. ネットワークを介してWebページに係るデータを収集する収集部と、
    収集した前記Webページから、前記要素と一致するコンテンツを有する前記Webページを抽出するページ抽出部と、
    抽出した前記Webページを報知する報知部と
    を備えることを特徴とする請求項1〜8のいずれか1項に記載の情報処理装置。
  10. 非構造化データのサンプルと、該サンプルに含まれる各要素を定義付けるタグ情報とを含む教師情報を取得し、
    前記サンプルの前記各要素の特徴を抽出し、
    抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記要素の特徴に応じて前記タグ情報を識別するルールを設定し、
    非構造化データであるコンテンツを取得し、
    取得した前記コンテンツから前記各要素を抽出し、
    前記ルールを参照して、前記要素に前記タグ情報を付与する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2017159662A 2017-08-22 2017-08-22 情報処理装置及びプログラム Active JP7290391B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017159662A JP7290391B2 (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017159662A JP7290391B2 (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019040260A true JP2019040260A (ja) 2019-03-14
JP7290391B2 JP7290391B2 (ja) 2023-06-13

Family

ID=65726422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017159662A Active JP7290391B2 (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7290391B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240820A1 (ja) * 2019-05-31 2020-12-03 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
JPWO2020240831A1 (ja) * 2019-05-31 2021-12-16 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
WO2022239096A1 (ja) 2021-05-11 2022-11-17 三菱電機株式会社 画像解析装置、画像解析方法及び、画像解析プログラム
JP7471802B2 (ja) 2019-11-18 2024-04-22 清水建設株式会社 アーカイブ支援システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086642A (ja) * 2002-08-28 2004-03-18 Hitachi Ltd Xml変換装置及びそのプログラムの記録媒体
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2010529526A (ja) * 2007-05-21 2010-08-26 アマゾン テクノロジーズ インコーポレイテッド ユーザデバイスを経由したアイテムの消費
JP4642139B1 (ja) * 2010-05-10 2011-03-02 キャスタリア株式会社 学習システム、学習コンテンツ送信方法及びコンピュータプログラム
JP2014071749A (ja) * 2012-09-28 2014-04-21 Dainippon Printing Co Ltd コンテンツサーバ装置、プログラム及び通信システム
US20170039341A1 (en) * 2015-08-07 2017-02-09 Flatiron Health Inc. Extracting facts from unstructured data
US20170200141A1 (en) * 2016-01-13 2017-07-13 Glossaread Technologies Private Limited Methods and systems for managing electronic contents in electronic publication

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086642A (ja) * 2002-08-28 2004-03-18 Hitachi Ltd Xml変換装置及びそのプログラムの記録媒体
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2010529526A (ja) * 2007-05-21 2010-08-26 アマゾン テクノロジーズ インコーポレイテッド ユーザデバイスを経由したアイテムの消費
JP4642139B1 (ja) * 2010-05-10 2011-03-02 キャスタリア株式会社 学習システム、学習コンテンツ送信方法及びコンピュータプログラム
JP2014071749A (ja) * 2012-09-28 2014-04-21 Dainippon Printing Co Ltd コンテンツサーバ装置、プログラム及び通信システム
US20170039341A1 (en) * 2015-08-07 2017-02-09 Flatiron Health Inc. Extracting facts from unstructured data
US20170200141A1 (en) * 2016-01-13 2017-07-13 Glossaread Technologies Private Limited Methods and systems for managing electronic contents in electronic publication

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
坂口 朋章 外3名: "著作権侵害検出のための剽窃Webページ発見システム", 経営情報学会2007年秋季全国研究発表大会予稿集, JPN6021024095, 17 November 2007 (2007-11-17), JP, pages 454 - 457, ISSN: 0004833339 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240820A1 (ja) * 2019-05-31 2020-12-03 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
JPWO2020240820A1 (ja) * 2019-05-31 2021-12-09 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
JPWO2020240831A1 (ja) * 2019-05-31 2021-12-16 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
JP7157245B2 (ja) 2019-05-31 2022-10-19 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
JP7270037B2 (ja) 2019-05-31 2023-05-09 株式会社Pfu ファイル管理装置、ファイル管理方法、及びプログラム
US11960530B2 (en) 2019-05-31 2024-04-16 Pfu Limited File management device, file management method, and non-transitory computer readable medium
US11971852B2 (en) 2019-05-31 2024-04-30 Pfu Limited File management device, file management method, and non-transitory computer readable medium
JP7471802B2 (ja) 2019-11-18 2024-04-22 清水建設株式会社 アーカイブ支援システム
WO2022239096A1 (ja) 2021-05-11 2022-11-17 三菱電機株式会社 画像解析装置、画像解析方法及び、画像解析プログラム

Also Published As

Publication number Publication date
JP7290391B2 (ja) 2023-06-13

Similar Documents

Publication Publication Date Title
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US10592737B2 (en) Mathematical formula learner support system
JP7290391B2 (ja) 情報処理装置及びプログラム
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
WO2013152117A2 (en) Web-based content aggregation, organization, and publication system and methods of use
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
CN109710224B (zh) 页面处理方法、装置、设备及存储介质
US10817646B2 (en) Information processing system and control method therefor
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
JP6232736B2 (ja) 文書読解支援装置、文書読解支援システム、文書読解支援方法およびプログラム
JP2018106556A (ja) 画面情報生成装置、画面情報生成方法、及びプログラム
Rasmussen Social Science Metadata and the Foundations of the DDI
JP2007304644A (ja) 静的ウェブページ生成方法、プログラム、記録媒体及び静的ウェブページ生成管理システム
JP2006065467A5 (ja)
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
JP2007041983A (ja) 申請書作成プログラムおよび申請書作成装置
KR101125083B1 (ko) 웹 컨텐츠 스크랩 시스템 및 그 방법
US20170286378A1 (en) Inserting text and graphics using hand markup
JP7134814B2 (ja) システム、ページデータ出力方法、及びプログラム
JP5008152B2 (ja) 調達情報検索システム
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム
JP2019040261A (ja) 情報処理装置及びプログラム
CN111143719A (zh) 论文在线出版方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220428

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220512

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220517

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220729

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220802

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220906

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230601

R150 Certificate of patent or registration of utility model

Ref document number: 7290391

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150