JP5820770B2

JP5820770B2 - 本文抽出装置及び方法及びプログラム

Info

Publication number: JP5820770B2
Application number: JP2012116069A
Authority: JP
Inventors: 良太今井; 尚樹藤田; 宮原　伸二; 伸二宮原; 義昌小池; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-21
Filing date: 2012-05-21
Publication date: 2015-11-24
Anticipated expiration: 2032-05-21
Also published as: JP2013242734A

Description

本発明は、本文抽出装置及び方法及びプログラムに係り、特に、構造化された文書から本文を抽出するための本文抽出装置及び方法及びプログラムに関する。

まず、本明細書における用語について説明する。

「パターン」とは、構造化された文書を木構造で表したとき、その木の中の位置を示すための表現を指す。例えば、ノードaを根とする木において、aが2つの子b、cをもち、さらにbが子dをもつとき、cの位置を指すパターンを「/a/c」と表し、dの位置を指すパターンを「/a/b/d」と表す。

「メタデータ」とは、構造化された文書の概要を記述したデータを指す。メタデータは、関連のある複数の文書の集合に対して提供され、各文書が作成された日時や、文書のタイトル、文書の本文の一部などが含まれる。例えば、同一の著者が作成した文書のうち、作成日時が新しい５件に対して１つのメタデータが対応する。

本文を抽出するための従来の第１の技術として、構造化された文書に対して、その文書の本文にあたる部分を不足なく抽出する技術がある（例えば、特許文献１参照）。この技術では、文書を木構造として表現し、機械学習と学習用データを用いて木構造中の本文にあたる部分を特定することで、本文抽出を可能とする。

また、従来の第２の技術として、構造化された文書に対して、その文書中の文字列を統計的に評価することで、その文書の本文にあたる部分を抽出する技術がある（例えば、特許文献２参照）。

また、従来の第３の技術として、構造化された文書に対して、事前に抽出すべき範囲を指定しておくことで、文書が更新された際にその範囲の差分を抽出する技術がある（例えば、特許文献３参照）。

特開2012-27852号公報特開2006-338364号公報特開2004-38263号公報

しかしながら、上記従来の第１の技術は、構造化された文書に対して、本文にあたる部分を不足なく抽出することが可能であるが、機械学習に用いるための学習用データを必要とし、この学習用データを十分に用意することができなければ、本文にあたる部分を正しく判定できないという問題がある。

また、上記従来の第２の技術は、構造化された文書に対して、本文にあたる部分を抽出することが可能であるが、本文を正しく判定できない場合には本文の一部が欠落するという問題がある。

また、上記従来の第３の技術は、構造化された文書に対して、文書が更新された際に指定した範囲を抽出することが可能であるが、抽出すべき範囲を事前に指定しなければならないという問題がある。

本発明は上記の点に鑑みなされたもので、構造化された文書に付随するメタデータを利用することで、十分な学習用データや抽出部分の指定を必要とすることなく、本文を抽出することができる本文抽出装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明（請求項１）は、文書から本文を抽出する本文抽出装置であって、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
前記パターン生成手段は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
を含むことを特徴とする本文抽出装置として構成される。

上記のように、本発明は、メタデータに記述されている文書の本文の断片を利用し、文書の本文の範囲を特定することで、本文を抽出することにより、メタデータが付随する構造化された文書に対して、十分な学習用データや抽出部分の指定を必要とすることなく、本文を不足なく抽出することが可能となる。

本発明の一実施の形態における本文抽出装置の構成図である。本発明の一実施の形態における文書とメタデータの関係を示す図である。本発明の一実施の形態におけるパターン生成部のフローチャートである。

以下、図面と共に本発明の実施の形態を説明する。

図１は、本発明の一実施の形態における本文抽出装置の構成を示す。

同図に示す本文抽出装置は、文書選択部１、パターン検索部２、パターン生成部３、本文抽出部４、パターン記憶部５、本文記憶部６、文書記憶部７から構成される。パターン記憶部５、本文記憶部６、文書記憶部７は、ハードディスク等の記憶媒体である。

文書選択部１は、文書記憶部７から処理する文書を取り出す。

パターン検索部２は、処理する文書に対応する本文のパターンをパターン記憶部５から検索する。このとき、パターンが存在すればそれを本文抽出部４に出力する。パターンが存在しない場合は、パターン生成部３に処理する文書を出力する。

パターン生成部３は、処理する文書に対して、本文のパターンを生成し、パターン記憶部５に格納する。処理の詳細については後述する。

本文抽出部４は、処理する文書からパターンに一致する部分を本文として抽出し、本文記憶部６に格納する。

パターン記憶部５は、処理する文書に対応する本文のパターンを保持する。

本文記憶部６は、本文抽出部４が処理する文書から抽出した本文を保持する。

文書記憶部７は、本装置で本文を抽出する対象となる文書と、それらに付随するメタデータを保持する。これらの文書とメタデータは、一般的には予め外部から収集しておく。

図２は、本発明の一実施の形態における文書とメタデータの対応関係を示す図である。

１つのメタデータは、複数の構造化された文書に対応する。メタデータには、対応する文書の作成日やタイトルに加え、本文の断片が記述される。例えば、文書の本文が４００字あるとき、対応するメタデータにはその先頭１００字のみが記述される。

図３は、本発明の一実施の形態におけるパターン生成部のフローチャートである。

ステップ１００）パターン生成部３は、文書記憶部７を参照し、処理する文書に対応するメタデータを取り出す。

ステップ１１０）メタデータに記述されている文書のうち、パターン生成部３でまだ処理していないものを１つ選び、その文書の本文の断片mを抽出する。

ステップ１２０）ステップ１１０で選んだ文書を木構造に変換する。文書がHTML文書やXML文書である場合には、その文書を木構造で表現するための技術としてDocument Object Model(DOM)(http://www.w3.org/TR/REC-DOM-Level-1/)があり、当該DOMの仕様に基づいて実装されたパーサを用いることで実現できる。

ステップ１３０）ステップ１２０で変換した木を探索し、木の葉にあたる文字列ノードを結合して１つのマッチング用文字列Mを生成する。

ステップ１４０）マッチング用文字列Mと本文の断片mに対してマッチングを行ない、文字列が一致する区間を特定する。さらに、文書から変換した木において、この区間の文字列の元となったノードを特定する。

ステップ１５０）ステップ１４０で特定したノードの共通の祖先aを特定する。

ステップ１６０）文書から変換した木において、共通の祖先aを一意に表すパターンを生成する。

ステップ１７０）ステップ１００で取り出したメタデータに、パターン生成部３でまだ処理していない文書が記述されていれば、ステップ１１０に進む。そうでなければ、ステップ１８０に進む。

ステップ１８０）ステップ１７０までの処理で生成された１つ以上のパターンを比較し、対応する文書の本文を最も多く抽出するものを１つ選び、パターン記憶部７に出力する。

本発明では、上記ステップ１１０でメタデータから文書の本文の断片を抽出し、さらにステップ１２０で文書を木構造に変換した上で、ステップ１３０〜１５０でその断片を含む部分木を特定することで、十分な学習用データや事前の範囲指定を用いずに、文書の本文全体を抽出することができる。

さらに、メタデータは一般的に２つ以上の文書の概要を含むという性質を利用し、複数の文書に対してパターンを生成する。これらのパターンを上記ステップ１８０で比較し、本文を最も多く抽出するものを１つ選ぶことで、１つの文書しか処理しない場合に比べてより正確なパターンを生成することができる。

このようにして生成したパターンをパターン記憶部５に格納しておくことで、同様の構造をもつ文書に対しては再度パターンを生成することなく本文を抽出することができる。

なお、図１に示す本文抽出装置の各構成要素の動作をプログラムとして構築し、本文抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１文書選択部
２パターン検索部
３パターン生成部
４本文抽出部
５パターン記憶部
６本文記憶部
７文書記憶部

Claims

文書から本文を抽出する本文抽出装置であって、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
前記パターン生成手段は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
を含むことを特徴とする本文抽出装置。
文書から本文を抽出する本文抽出装置が実行する本文抽出方法であって、
前記本文抽出装置は、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
を有し、前記本文抽出方法は、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出ステップと、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成ステップと、
を有し、
前記パターン生成ステップにおいて、前記本文抽出装置は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行い、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する
ことを特徴とする本文抽出方法。
コンピュータを、
請求項１に記載の本文抽出装置の各手段として機能させるための本文抽出プログラム。