JP2010287143A

JP2010287143A - 記事整理システム

Info

Publication number: JP2010287143A
Application number: JP2009141804A
Authority: JP
Inventors: Soichi Furuya; 聡一古屋; Takashi Moriyasu; 隆森安
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-06-15
Filing date: 2009-06-15
Publication date: 2010-12-24

Abstract

【課題】インターネットによる記事入手は、同一対象についての記事の数、多様性を増大させる。記事の特徴や類似性を踏まえ、冗長とならぬように、記事の傾向や情報の偏りを整理する必要がある。
【解決手段】収集した記事N本について、任意の2記事間の類似度を計算し、ノードN個の重みつき無向グラフG₁を作成する。G₁から特別に重みの高い密な関係である部分グラフH₁を抜き出し、H₁のノードに対応する記事から代表記事A₁を作成する。同様にしてG_iグラフのうちH_iに含まれないノードからなるグラフG_i+1について、重みの高い密な関係である部分グラフH_i+1を抜き出し、これらから代表記事グラフA_i+1を作成する。生成した代表記事群A₁...A_Tについて、A₁全文を代表記事とし、A₂...A_Tの記事は、A₁との差分から生成したリード文D₂...D_Tを生成し、当該記事のダイジェストとして、A₁、D₂...D_Tを表示する。
【選択図】図３

Description

本発明は、効率的に公開の記事を収集・整理し、共有するためのデータベースに関するものである。

インターネットや各種メディアの普及により、事件や対象物に関するさまざまな記事・描写が公開されている。これら記事は、さらにさまざまな読者を対象とした内容で編集され、公開されている。例えば、速報性を重視したもの、障害の技術的分析を重視したもの、専門知識などない消費者に向けた参考情報を意識したものなどである。

こうした記事を収集して整理し、効果的な閲覧を可能とする取り組みがいくつか知られている（特許文献１）。

特許第３４４１５００号公報

インターネットの普及による記事入手機会の増加は、同一イベントや対象物に対する記事の数、多様性を増大させる。単純なサイト間の転載が普及した事実も鑑み、単純にこれらを知識ベースでクリップし整理するだけでは、効果的な閲覧とはならない。記事の特徴や記事間の類似性を踏まえ、冗長とならぬようにコンパクトに整理し、記事の傾向や掲載する情報の種類の偏り(技術的、一般向けなど)を整理が必要である。

収集した記事Ｎ本について、任意の２記事間の類似度を計算し、ノードＮ個の重みつき無向グラフＧ_１を作成する。Ｇ_１から特別に重みの高い密な関係である部分グラフＨ_１を抜き出し、Ｈ_１のノードに対応する記事から代表記事Ａ_１を作成する。以降、同様にしてＧ_ｉグラフのうちＨ_ｉに含まれないノードからなるグラフＧ_ｉ＋１について、重みの高い密な関係である部分グラフＨ_ｉ＋１を抜き出し、これらから代表記事グラフＡ_ｉ＋１を作成する。これを、グラフＧ_ｉ＋１が空グラフになるまで続ける。

結果として生成した代表記事群Ａ_１...Ａ_Ｔについてダイジェストを以下の要領で作成する。Ａ_１をイベントの代表記事とし全文を扱う。次に、その他のＡ_２...Ａ_Ｔの記事は、Ａ_１とそれぞれとの記事としての差分コンテンツから生成した差分データＤ_２...Ｄ_Ｔを生成しておく。当該イベントに対する記事の整理として、Ａ_１、Ｄ_２...Ｄ_Ｔを表示する。

より具体的には、本発明が提供する記事整理システムは、複数の記事群の要約を作成する処理において、二つの記事間で共通に使われる語数に基づいて評価される記事の類似性と、記事のサイズとから、記事群を２つにグルーピングする手続きと、上記記事のグルーピング手続きを再帰的に処理することにより、全記事を２つ以上にグルーピングする手続きと、グルーピングされた記事群からこのグループを代表する記事を作成する手続きにより、すべてのグループに対してそれを代表する記事を作成する手続きと、作成した記事から一つ代表記事を選択し、その代表記事とそれ以外の記事との差分データとを作成する手続きと、を実行することにより、複数の記事に対する要約を出力することを特徴とする。

さらに、上記類似性の評価にあたって、システムで予め決定された記事の構成要素毎に、記事の部分情報を抽出する手続きと、各要素毎に、重複する語数に基づいて部分スコアを評価する手続きと、上記部分スコアに基づいて記事間の類似性を評価する手続きと、を実行してもよい。

さらに、評価された類似性からグルーピングを抽出するために、候補となるグループの中から、グループに含まれる平均の記事のサイズのより小さいものをグループ化する手続きを実行してもよい。

上記特徴によれば、従来の記事入手方法では異なるチャンネルからの情報入手として別保管しながら、実はサイト間で参照しただけなど、数的に増加した記事を集約することができる。さらに多様化した記事についてその独自性が判断できる形でダイジェスト化しており、参考情報として効果的に閲覧でき、システム利用者が欲しい情報へ、より簡便に到達できる。

本発明によれば、数的に増加した記事を集約することができる。また、利用者が欲しい情報へ、より簡便に到達できるようになる。

記事を収集・整理するシステムの構成例を示す説明図である。収集処理アプリの処理フロー例を示す説明図である。要約生成ソフトの処理フロー例を示す説明図である。要約表示アプリが表示する表示画面の例である。記事整理アプリの処理フロー例を示す説明図である。密グラフ抽出処理の処理フロー例を示す説明図である。類似度計算処理の処理概要を例示する説明図である。代表記事作成処理の処理フロー例を示す説明図である。代表記事作成処理の動作例を説明する説明図である。差分データ作成処理の処理例を説明する説明図である。全体のデータの生成関係を例示する説明図である。

図１は、本発明の実施形態のシステム構成の具体例を示す説明図である。

ウェブサイトS1 1100, S2 1200, S3 1300がネットワーク1400を介して記事蓄積サーバST1500に接続され、表示モニタ1600、マウス1700、キーボード1800が直接接続されている。記事蓄積サーバST1500には、記事整理アプリ1510、ウェブブラウザ1520、記事整理ライブラリ1530などのプログラムが保存され、これらが使う記憶領域として、元記事保存エリア1540、要約保存エリア1550がある。記事整理ライブラリ1530を構成するプログラムには、収集処理アプリ1531、要約生成ソフト1532、要約表示アプリ1533が含まれる。記事蓄積サーバST1500は、ウェブサイト群で公開される記事群に対して、閲覧に効果的なダイジェストを生成する。

記事蓄積サーバST1500は，入出力手段としてユーザインタフェースおよび機器接続インタフェースを備え，さらに，CPUとディスクとメモリを備えた計算機において，CPUがディスクあるいはメモリに保存されている上記プログラムを実行することにより、実現することが可能である。各プログラムは、あらかじめ、上記ディスクあるいはメモリに格納されていても良いし、必要なときに、機器接続インタフェースと上記計算機が利用可能な媒体を介して、他の装置から上記記憶装置に導入されてもよい。媒体とは、たとえば、機器接続インタフェースに着脱可能な記憶媒体、または通信媒体（すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号）を指す。

まず、ユーザが対象とするイベントについての記事をクロールし、クリップしながら整理する作業を記述する。

図5を使って、一連の記事を整理する処理について説明する。図5では、その処理を行う記事整理アプリ1510の処理フローを示したものである。ステップ5001でユーザから処理の選択を促す。この結果(1)記事収集が選択されれば、ウェブブラウザを立ち上げ(ステップ5002)、ウェブブラウザをユーザが閲覧しながら入力デバイスであるマウス１７００とキーボード１８００を使いながらクリッピングを行う。ここでは例えば、OSが提供するクリップボードによる入力とし、これを監視し、クリップボードにデータ書き込みがあったとき、外部入力とみなし、収集処理アプリ1531(図2を用いて後で説明)を起動する(ステップ5003)。このステップ5003を、ユーザが当該イベントに対する記事収集が終るまで続ける。この後、要約生成ソフト1532(図3を用いて後で説明)により要約を作成する(ステップ5005)。ステップ5001でユーザが(2)要約表示を選択すると、ステップ5005で作成した要約を表示する要約表示アプリ1533(図4を用いて、後で説明)を実行する(ステップ5006)。

図2を使って収集処理アプリ1531の処理を説明する。クリップボードから記事の候補となるデータが挿入されているので、これからテキストを抽出する(ステップ2001)。これが敷居値以下のサイズであれば、終了する(ステップ2002)。サイズが十分なら、ユーザに余計な文字列や、表現の修正などを促す修正依頼を行う(ステップ2003)。この結果、記事IDを発行し記事といっしょに保存し(ステップ2004)、終了する。

図3を使って要約生成ソフト1532の処理を説明する。この処理の最終目的は(1)タイトル、(2)代表記事、(3)そして参考となるその他の記事の要約を作成することである。初期化処理として、作成するダイジェストに付加するタイトルをユーザより入力し、グラフG₁を作成、カウンタiを1にセットする。グラフG₁とは記事1つを1つのノードとし、後で定義する枝を張るグラフである。ここでは全記事を対象とする(ステップ3001)。このグラフに対して、枝を張り、さらに密グラフ部分を抜き取る処理を実施する(ステップ3002, 図6を用いて後で説明)。抜き取った密グラフH_iから、合成記事A_iを作成する(ステップ3003, 図8を用いて後で説明)。そして、G_iの中から、H_iに含まれなかったノードを集めてG_i+1とする(ステップ3004)。G_i+1に含まれるノードがなくなるまで、ステップ3002からステップ3004をiを増やしながら繰り返す。このループが終了し、すべてのノードが密グラフに分割されたら、最初に抽出したA₁を代表記事として出力する(ステップ3007)。さらに、二番目以降の密グラフについても、逐次生成された各A_iについて、代表記事A₁と参考記事A_ｊとの差分データD_ｊを生成し(図10を用いて後で説明)、参考記事A_ｊと差分データD_ｊとを保存し(ステップ3009)、終了する。

図6を使って、密グラフ抽出処理(ステップ3002)の処理を説明する。この処理では、ノード間に無向で重みつきの枝を張り、この枝付グラフから密なグラフを形成するノード群を出力する。まず任意の2頂点ペアに対して、類似度を計算する(ステップ6001、図7を用いて後で説明)。すべての枝の重みを計算したら、システムが与える敷居値以上の重みの枝のみを考えたとき、枝のある部分グラフだけを考え、これらをI₁, I₂, ..., I_kとする(ステップ6002)。敷居値を越える枝がない場合、敷居値を下げて(ステップ6004)再度部分グラフの構築を試みる。こうして生成した部分グラフ群から、平均文字数の最も少ない記事に相当する部分グラフI_iを密グラフとして出力する(ステップ6005,6006)。

図7には、密グラフ抽出処理(ステップ3002)における記事と記事との類似度を計算する処理(ステップ6001)の概要を説明する図を示している。2つの記事に対してそれぞれ要素分解7003を実施する。これは、ユーザに対して、クリップした記事を表示しながら、要素記述毎の表現を抽出し入力してもらうことにより実施する。人手を介さない方法としては、言語処理としての構文解析を使った抽出や単純なパターンマッチによる実施がある。図7の例では、いつ、どの事業者が、どのような原因で、どのように波及したか、そしてどのような対策を実施したかが記事を評価する要素である。これらについて、記事i、記事jでの記述を抽出する。それぞれの要素について、完全に一致すれば1.00、異なる場合には0.00、一方が他方を包含したり、お互いに記述に重複部分があれば、その重複単語の割合を参考にして、数値で1.00(重複割合が大きい)から0.00(重複割合が小さい)までの類似度を評価する。各要素で類似度を積算したもの(図7の例では2.80)を類似度とする。この場合、記事iや記事jの発行元を参照し、発行元が信頼のおける記事であれば、他方の記述に構わず一定の類似度を保証することでより高度な評価も可能である。

図8を使って、要約生成ソフト1532が合成記事を作成する処理(ステップ3003)を説明する。
ここでは、類似度の高いノードだけが含まれるグラフHが与えられている。これらからなるべく多くの情報量を含む代表記事を作成する。まず含まれるノードのうち、敷居値を越えた枝数が最も多いノードを選択し、このノードに対応する記事AをA_outに複写する(ステップ8001)。そして、A以外の記事(Hのノードに対応するものの中で)各々について、ステップ8003を実施する。ステップ8003では、比較対象の記事A_iとA_outとを比較し、A_outに足りない記述をA_outに追記する。こうして、Hに含まれるすべての記事の記述を盛り込んだ合成記事A_outを出力する。

図9の例を参照しながら、図8の処理を説明する。追記は図7で記述した分析フィルタ7003の要素によるものであり、この単位で記事A_outと記事A_iとを比較する。この場合、「どのような原因で」、「どのような対策を実施した」の各欄で、A_outよりも多い記述がある。これらの欄について、記事A_iの記述をA_outに追記、または上書きする。「どのように波及し」の欄では、記事A_outのほうが細かい記述であるので特段の処理は実施しない。

図10の例を参照しながら、要約生成ソフト1532が処理する代表記事A₁と参考記事A_jとの差分データD_jの作成処理(ステップ3009)について説明する。
典型的に、代表記事は最低限の記述に留めたサイズの小さく、各記事で共通したものである。多くの情報において参考記事が情報量が多い。図10に示すように、「どのように波及し」、「どのような対策を実施した」の欄に例示するように、記述量のかけ離れた要素が存在することが想定される。差分データは、参考記事での記述量が代表記事でのそれに比較して突出している要素を優先的に抜き取った記述とする。

図4の例を参照しながら、記事蓄積サーバST1500が実行する要約表示アプリ1533の処理概要を説明する。要約表示アプリ1533では、ビュー4100に示すような画面構成で、対象とするイベントに対して、タイトル4101、代表記事4102、参考記事の差分データ群4103を表示するほか、予め埋め込まれたハイパーリンクにより、マウス1700操作によりカーソルを差分データのひとつに一致させクリックすることで、当該参考記事の表示を行う。
この処理へは、対象とするイベントに対してタイトル、代表記事、参考記事(複数)、参考記事の差分データ(複数)が与えられる。よって、タイトル、代表記事、そして差分データ群を図のように列挙することで、当該イベントに対する俯瞰的記述と、ユーザが必要としている、詳細情報とを一画面で効果的に描写できる。

最後に図11に記事と差分データの関係についてまとめる。全記事をノードとしたG₁を記事の類似性に基づく枝を使い密なグラフの抽出としてH₁を抽出し、その記事群の合成記事としてA₁を生成する。同様に、A₂、A₃、A₄とすべてのノードが分解されるまで続ける。A₁を代表記事とし、他の合成記事(A₂..A₄)を参考記事とし、各参考記事に対して、代表記事との差分データを生成する。

ウェブサイト：１１００、１２００、１３００、ネットワーク：１４００、表示モニタ：１６００、マウス：１７００、キーボード：１８００、記事蓄積サーバ：１５００、画面ビュー：４１００、データ：７００１、７００２。

Claims

複数の記事群の要約を作成する処理を実行する記事整理システムであって、
二つの記事間で共通に使われる語数に基づいて評価される記事の類似性と、記事のサイズとから、記事群を２つにグルーピングする手続きと、
前記記事のグルーピング手続きを再帰的に処理することにより、全記事を２つ以上にグルーピングする手続きと、
グルーピングされた記事群からこのグループを代表する記事を作成する手続きにより、すべてのグループに対してそれを代表する記事を作成する手続きと、
作成した記事から一つ代表記事を選択し、その代表記事とそれ以外の記事との差分データとを作成する手続きと、を実行し、複数の記事に対する要約を出力する
ことを特徴とする記事整理システム。
請求項１記載の記事整理システムであって、
類似性の評価にあたって、システムで予め決定された記事の構成要素毎に、記事の部分情報を抽出する手続きと、
各要素毎に、重複する語数に基づいて部分スコアを評価する手続きと、
前記部分スコアに基づいて記事間の類似性を評価する手続きと、を実行する
ことを特徴とする記事整理システム。
請求項１記載の記事整理システムであって、
評価された類似性からグルーピングを抽出するために、候補となるグループの中から、グループに含まれる平均の記事のサイズのより小さいものをグループ化する手続きを実行する
ことを特徴とする記事整理システム。