JP2010287143A - 記事整理システム - Google Patents

記事整理システム Download PDF

Info

Publication number
JP2010287143A
JP2010287143A JP2009141804A JP2009141804A JP2010287143A JP 2010287143 A JP2010287143 A JP 2010287143A JP 2009141804 A JP2009141804 A JP 2009141804A JP 2009141804 A JP2009141804 A JP 2009141804A JP 2010287143 A JP2010287143 A JP 2010287143A
Authority
JP
Japan
Prior art keywords
article
articles
procedure
similarity
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009141804A
Other languages
English (en)
Inventor
Soichi Furuya
聡一 古屋
Takashi Moriyasu
隆 森安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009141804A priority Critical patent/JP2010287143A/ja
Publication of JP2010287143A publication Critical patent/JP2010287143A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】インターネットによる記事入手は、同一対象についての記事の数、多様性を増大させる。記事の特徴や類似性を踏まえ、冗長とならぬように、記事の傾向や情報の偏りを整理する必要がある。
【解決手段】収集した記事N本について、任意の2記事間の類似度を計算し、ノードN個の重みつき無向グラフG1を作成する。G1から特別に重みの高い密な関係である部分グラフH1を抜き出し、H1のノードに対応する記事から代表記事A1を作成する。同様にしてGiグラフのうちHiに含まれないノードからなるグラフGi+1について、重みの高い密な関係である部分グラフHi+1を抜き出し、これらから代表記事グラフAi+1を作成する。生成した代表記事群A1...ATについて、A1全文を代表記事とし、A2...ATの記事は、A1との差分から生成したリード文D2...DTを生成し、当該記事のダイジェストとして、A1、D2...DTを表示する。
【選択図】図3

Description

本発明は、効率的に公開の記事を収集・整理し、共有するためのデータベースに関するものである。
インターネットや各種メディアの普及により、事件や対象物に関するさまざまな記事・描写が公開されている。これら記事は、さらにさまざまな読者を対象とした内容で編集され、公開されている。例えば、速報性を重視したもの、障害の技術的分析を重視したもの、専門知識などない消費者に向けた参考情報を意識したものなどである。
こうした記事を収集して整理し、効果的な閲覧を可能とする取り組みがいくつか知られている(特許文献1)。
特許第3441500号公報
インターネットの普及による記事入手機会の増加は、同一イベントや対象物に対する記事の数、多様性を増大させる。単純なサイト間の転載が普及した事実も鑑み、単純にこれらを知識ベースでクリップし整理するだけでは、効果的な閲覧とはならない。記事の特徴や記事間の類似性を踏まえ、冗長とならぬようにコンパクトに整理し、記事の傾向や掲載する情報の種類の偏り(技術的、一般向けなど)を整理が必要である。
収集した記事N本について、任意の2記事間の類似度を計算し、ノードN個の重みつき無向グラフGを作成する。Gから特別に重みの高い密な関係である部分グラフHを抜き出し、Hのノードに対応する記事から代表記事Aを作成する。以降、同様にしてGグラフのうちHに含まれないノードからなるグラフGi+1について、重みの高い密な関係である部分グラフHi+1を抜き出し、これらから代表記事グラフAi+1を作成する。これを、グラフGi+1が空グラフになるまで続ける。
結果として生成した代表記事群A...Aについてダイジェストを以下の要領で作成する。Aをイベントの代表記事とし全文を扱う。次に、その他のA...Aの記事は、Aとそれぞれとの記事としての差分コンテンツから生成した差分データD...Dを生成しておく。当該イベントに対する記事の整理として、A、D...Dを表示する。
より具体的には、本発明が提供する記事整理システムは、複数の記事群の要約を作成する処理において、二つの記事間で共通に使われる語数に基づいて評価される記事の類似性と、記事のサイズとから、記事群を2つにグルーピングする手続きと、上記記事のグルーピング手続きを再帰的に処理することにより、全記事を2つ以上にグルーピングする手続きと、グルーピングされた記事群からこのグループを代表する記事を作成する手続きにより、すべてのグループに対してそれを代表する記事を作成する手続きと、作成した記事から一つ代表記事を選択し、その代表記事とそれ以外の記事との差分データとを作成する手続きと、を実行することにより、複数の記事に対する要約を出力することを特徴とする。
さらに、上記類似性の評価にあたって、システムで予め決定された記事の構成要素毎に、記事の部分情報を抽出する手続きと、各要素毎に、重複する語数に基づいて部分スコアを評価する手続きと、上記部分スコアに基づいて記事間の類似性を評価する手続きと、を実行してもよい。
さらに、評価された類似性からグルーピングを抽出するために、候補となるグループの中から、グループに含まれる平均の記事のサイズのより小さいものをグループ化する手続きを実行してもよい。
上記特徴によれば、従来の記事入手方法では異なるチャンネルからの情報入手として別保管しながら、実はサイト間で参照しただけなど、数的に増加した記事を集約することができる。さらに多様化した記事についてその独自性が判断できる形でダイジェスト化しており、参考情報として効果的に閲覧でき、システム利用者が欲しい情報へ、より簡便に到達できる。
本発明によれば、数的に増加した記事を集約することができる。また、利用者が欲しい情報へ、より簡便に到達できるようになる。
記事を収集・整理するシステムの構成例を示す説明図である。 収集処理アプリの処理フロー例を示す説明図である。 要約生成ソフトの処理フロー例を示す説明図である。 要約表示アプリが表示する表示画面の例である。 記事整理アプリの処理フロー例を示す説明図である。 密グラフ抽出処理の処理フロー例を示す説明図である。 類似度計算処理の処理概要を例示する説明図である。 代表記事作成処理の処理フロー例を示す説明図である。 代表記事作成処理の動作例を説明する説明図である。 差分データ作成処理の処理例を説明する説明図である。 全体のデータの生成関係を例示する説明図である。
図1は、本発明の実施形態のシステム構成の具体例を示す説明図である。
ウェブサイトS1 1100, S2 1200, S3 1300がネットワーク1400を介して記事蓄積サーバST1500に接続され、表示モニタ1600、マウス1700、キーボード1800が直接接続されている。記事蓄積サーバST1500には、記事整理アプリ1510、ウェブブラウザ1520、記事整理ライブラリ1530などのプログラムが保存され、これらが使う記憶領域として、元記事保存エリア1540、要約保存エリア1550がある。記事整理ライブラリ1530を構成するプログラムには、収集処理アプリ1531、要約生成ソフト1532、要約表示アプリ1533が含まれる。記事蓄積サーバST1500は、ウェブサイト群で公開される記事群に対して、閲覧に効果的なダイジェストを生成する。
記事蓄積サーバST1500は,入出力手段としてユーザインタフェースおよび機器接続インタフェースを備え,さらに,CPUとディスクとメモリを備えた計算機において,CPUがディスクあるいはメモリに保存されている上記プログラムを実行することにより、実現することが可能である。各プログラムは、あらかじめ、上記ディスクあるいはメモリに格納されていても良いし、必要なときに、機器接続インタフェースと上記計算機が利用可能な媒体を介して、他の装置から上記記憶装置に導入されてもよい。媒体とは、たとえば、機器接続インタフェースに着脱可能な記憶媒体、または通信媒体(すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号)を指す。
まず、ユーザが対象とするイベントについての記事をクロールし、クリップしながら整理する作業を記述する。
図5を使って、一連の記事を整理する処理について説明する。図5では、その処理を行う記事整理アプリ1510の処理フローを示したものである。ステップ5001でユーザから処理の選択を促す。この結果(1)記事収集が選択されれば、ウェブブラウザを立ち上げ(ステップ5002)、ウェブブラウザをユーザが閲覧しながら入力デバイスであるマウス1700とキーボード1800を使いながらクリッピングを行う。ここでは例えば、OSが提供するクリップボードによる入力とし、これを監視し、クリップボードにデータ書き込みがあったとき、外部入力とみなし、収集処理アプリ1531(図2を用いて後で説明)を起動する(ステップ5003)。このステップ5003を、ユーザが当該イベントに対する記事収集が終るまで続ける。この後、要約生成ソフト1532(図3を用いて後で説明)により要約を作成する(ステップ5005)。ステップ5001でユーザが(2)要約表示を選択すると、ステップ5005で作成した要約を表示する要約表示アプリ1533(図4を用いて、後で説明)を実行する(ステップ5006)。
図2を使って収集処理アプリ1531の処理を説明する。クリップボードから記事の候補となるデータが挿入されているので、これからテキストを抽出する(ステップ2001)。これが敷居値以下のサイズであれば、終了する(ステップ2002)。サイズが十分なら、ユーザに余計な文字列や、表現の修正などを促す修正依頼を行う(ステップ2003)。この結果、記事IDを発行し記事といっしょに保存し(ステップ2004)、終了する。
図3を使って要約生成ソフト1532の処理を説明する。この処理の最終目的は(1)タイトル、(2)代表記事、(3)そして参考となるその他の記事の要約を作成することである。初期化処理として、作成するダイジェストに付加するタイトルをユーザより入力し、グラフG1を作成、カウンタiを1にセットする。グラフG1とは記事1つを1つのノードとし、後で定義する枝を張るグラフである。ここでは全記事を対象とする(ステップ3001)。このグラフに対して、枝を張り、さらに密グラフ部分を抜き取る処理を実施する(ステップ3002, 図6を用いて後で説明)。抜き取った密グラフHiから、合成記事Aiを作成する(ステップ3003, 図8を用いて後で説明)。そして、Giの中から、Hiに含まれなかったノードを集めてGi+1とする(ステップ3004)。Gi+1に含まれるノードがなくなるまで、ステップ3002からステップ3004をiを増やしながら繰り返す。このループが終了し、すべてのノードが密グラフに分割されたら、最初に抽出したA1を代表記事として出力する(ステップ3007)。さらに、二番目以降の密グラフについても、逐次生成された各Aiについて、代表記事A1と参考記事Aとの差分データDを生成し(図10を用いて後で説明)、参考記事Aと差分データDとを保存し(ステップ3009)、終了する。
図6を使って、密グラフ抽出処理(ステップ3002)の処理を説明する。この処理では、ノード間に無向で重みつきの枝を張り、この枝付グラフから密なグラフを形成するノード群を出力する。まず任意の2頂点ペアに対して、類似度を計算する(ステップ6001、図7を用いて後で説明)。すべての枝の重みを計算したら、システムが与える敷居値以上の重みの枝のみを考えたとき、枝のある部分グラフだけを考え、これらをI1, I2, ..., Ikとする(ステップ6002)。敷居値を越える枝がない場合、敷居値を下げて(ステップ6004)再度部分グラフの構築を試みる。こうして生成した部分グラフ群から、平均文字数の最も少ない記事に相当する部分グラフIiを密グラフとして出力する(ステップ6005,6006)。
図7には、密グラフ抽出処理(ステップ3002)における記事と記事との類似度を計算する処理(ステップ6001)の概要を説明する図を示している。2つの記事に対してそれぞれ要素分解7003を実施する。これは、ユーザに対して、クリップした記事を表示しながら、要素記述毎の表現を抽出し入力してもらうことにより実施する。人手を介さない方法としては、言語処理としての構文解析を使った抽出や単純なパターンマッチによる実施がある。図7の例では、いつ、どの事業者が、どのような原因で、どのように波及したか、そしてどのような対策を実施したかが記事を評価する要素である。これらについて、記事i、記事jでの記述を抽出する。それぞれの要素について、完全に一致すれば1.00、異なる場合には0.00、一方が他方を包含したり、お互いに記述に重複部分があれば、その重複単語の割合を参考にして、数値で1.00(重複割合が大きい)から0.00(重複割合が小さい)までの類似度を評価する。各要素で類似度を積算したもの(図7の例では2.80)を類似度とする。この場合、記事iや記事jの発行元を参照し、発行元が信頼のおける記事であれば、他方の記述に構わず一定の類似度を保証することでより高度な評価も可能である。
図8を使って、要約生成ソフト1532が合成記事を作成する処理(ステップ3003)を説明する。
ここでは、類似度の高いノードだけが含まれるグラフHが与えられている。これらからなるべく多くの情報量を含む代表記事を作成する。まず含まれるノードのうち、敷居値を越えた枝数が最も多いノードを選択し、このノードに対応する記事AをAoutに複写する(ステップ8001)。そして、A以外の記事(Hのノードに対応するものの中で)各々について、ステップ8003を実施する。ステップ8003では、比較対象の記事AiとAoutとを比較し、Aoutに足りない記述をAoutに追記する。こうして、Hに含まれるすべての記事の記述を盛り込んだ合成記事Aoutを出力する。
図9の例を参照しながら、図8の処理を説明する。追記は図7で記述した分析フィルタ7003の要素によるものであり、この単位で記事Aoutと記事Aiとを比較する。この場合、「どのような原因で」、「どのような対策を実施した」の各欄で、Aoutよりも多い記述がある。これらの欄について、記事Aiの記述をAoutに追記、または上書きする。「どのように波及し」の欄では、記事Aoutのほうが細かい記述であるので特段の処理は実施しない。
図10の例を参照しながら、要約生成ソフト1532が処理する代表記事A1と参考記事Ajとの差分データDjの作成処理(ステップ3009)について説明する。
典型的に、代表記事は最低限の記述に留めたサイズの小さく、各記事で共通したものである。多くの情報において参考記事が情報量が多い。図10に示すように、「どのように波及し」、「どのような対策を実施した」の欄に例示するように、記述量のかけ離れた要素が存在することが想定される。差分データは、参考記事での記述量が代表記事でのそれに比較して突出している要素を優先的に抜き取った記述とする。
図4の例を参照しながら、記事蓄積サーバST1500が実行する要約表示アプリ1533の処理概要を説明する。要約表示アプリ1533では、ビュー4100に示すような画面構成で、対象とするイベントに対して、タイトル4101、代表記事4102、参考記事の差分データ群4103を表示するほか、予め埋め込まれたハイパーリンクにより、マウス1700操作によりカーソルを差分データのひとつに一致させクリックすることで、当該参考記事の表示を行う。
この処理へは、対象とするイベントに対してタイトル、代表記事、参考記事(複数)、参考記事の差分データ(複数)が与えられる。よって、タイトル、代表記事、そして差分データ群を図のように列挙することで、当該イベントに対する俯瞰的記述と、ユーザが必要としている、詳細情報とを一画面で効果的に描写できる。
最後に図11に記事と差分データの関係についてまとめる。全記事をノードとしたG1を記事の類似性に基づく枝を使い密なグラフの抽出としてH1を抽出し、その記事群の合成記事としてA1を生成する。同様に、A2、A3、A4とすべてのノードが分解されるまで続ける。A1を代表記事とし、他の合成記事(A2..A4)を参考記事とし、各参考記事に対して、代表記事との差分データを生成する。
ウェブサイト:1100、1200、1300、ネットワーク:1400、表示モニタ:1600、マウス:1700、キーボード:1800、記事蓄積サーバ:1500、画面ビュー:4100、データ:7001、7002。

Claims (3)

  1. 複数の記事群の要約を作成する処理を実行する記事整理システムであって、
    二つの記事間で共通に使われる語数に基づいて評価される記事の類似性と、記事のサイズとから、記事群を2つにグルーピングする手続きと、
    前記記事のグルーピング手続きを再帰的に処理することにより、全記事を2つ以上にグルーピングする手続きと、
    グルーピングされた記事群からこのグループを代表する記事を作成する手続きにより、すべてのグループに対してそれを代表する記事を作成する手続きと、
    作成した記事から一つ代表記事を選択し、その代表記事とそれ以外の記事との差分データとを作成する手続きと、を実行し、複数の記事に対する要約を出力する
    ことを特徴とする記事整理システム。
  2. 請求項1記載の記事整理システムであって、
    類似性の評価にあたって、システムで予め決定された記事の構成要素毎に、記事の部分情報を抽出する手続きと、
    各要素毎に、重複する語数に基づいて部分スコアを評価する手続きと、
    前記部分スコアに基づいて記事間の類似性を評価する手続きと、を実行する
    ことを特徴とする記事整理システム。
  3. 請求項1記載の記事整理システムであって、
    評価された類似性からグルーピングを抽出するために、候補となるグループの中から、グループに含まれる平均の記事のサイズのより小さいものをグループ化する手続きを実行する
    ことを特徴とする記事整理システム。
JP2009141804A 2009-06-15 2009-06-15 記事整理システム Pending JP2010287143A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009141804A JP2010287143A (ja) 2009-06-15 2009-06-15 記事整理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009141804A JP2010287143A (ja) 2009-06-15 2009-06-15 記事整理システム

Publications (1)

Publication Number Publication Date
JP2010287143A true JP2010287143A (ja) 2010-12-24

Family

ID=43542776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009141804A Pending JP2010287143A (ja) 2009-06-15 2009-06-15 記事整理システム

Country Status (1)

Country Link
JP (1) JP2010287143A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190055027A (ko) * 2018-06-01 2019-05-22 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 발견 방법, 장치, 기기 및 저장 매체
JP7481050B1 (ja) 2023-11-07 2024-05-10 株式会社内外切抜通信社 情報処理装置、情報処理方法、およびプログラム
JP7481051B1 (ja) 2023-11-07 2024-05-10 株式会社内外切抜通信社 情報処理装置、情報処理方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190055027A (ko) * 2018-06-01 2019-05-22 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 발견 방법, 장치, 기기 및 저장 매체
KR102229427B1 (ko) 2018-06-01 2021-03-19 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 발견 방법, 장치, 기기 및 저장 매체
US11210469B2 (en) 2018-06-01 2021-12-28 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus for event detection, device and storage medium
JP7481050B1 (ja) 2023-11-07 2024-05-10 株式会社内外切抜通信社 情報処理装置、情報処理方法、およびプログラム
JP7481051B1 (ja) 2023-11-07 2024-05-10 株式会社内外切抜通信社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10896236B2 (en) Systems and methods for automatically identifying and linking names in digital resources
Hargreaves et al. An automated timeline reconstruction approach for digital forensic investigations
Di Giacomo et al. Graph visualization techniques for web clustering engines
Shen et al. Visual analysis of massive web session data
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
US11550856B2 (en) Artificial intelligence for product data extraction
CN108090104B (zh) 用于获取网页信息的方法和装置
CA2919878A1 (en) Refining search query results
JP2011108085A (ja) 知識構築装置およびプログラム
EP2788894A1 (en) System and method for performing analysis on information, such as social media
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP5010624B2 (ja) 検索装置
Spaniol et al. Catch me if you can: Visual analysis of coherence defects in web archiving
JP2010198058A (ja) 文書処理システム及び方法
JP2010287143A (ja) 記事整理システム
JP4954674B2 (ja) ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP5423470B2 (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
JP5416448B2 (ja) 表示装置、表示方法およびプログラム
Burch et al. An analysis and visualization tool for DBLP data
JP2014102625A (ja) 情報検索システム、プログラム、および方法
WO2023136875A1 (en) List extraction and visualization in web pages
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
Alkaberi et al. Web scraper application for extracting scientific journals data
Thamviset et al. Structured web information extraction using repetitive subject pattern
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置