JP2022094031A

JP2022094031A - 情報処理システム、情報処理装置、および制御プログラム

Info

Publication number: JP2022094031A
Application number: JP2020206816A
Authority: JP
Inventors: 公一冨田; Koichi Tomita
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-24
Anticipated expiration: 2040-12-14

Abstract

【課題】ユーザーが有する知識が考慮された要約を生成する情報処理システム、情報処理装置及び制御プログラムを提供する。【解決手段】情報処理システム１００は、データ取得部２１３と、ユーザーを特定するユーザー特定部２１１と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する個人知識データベース３４１と、データ取得部２１３により入力データとして取得されたデータから抽出されたキーワードに基づくキーワード情報を生成するキーワード情報生成部と、キーワード情報と特定ユーザーに対応づけられた知識情報とを比較する情報比較部４１２と、情報比較部４１２による比較結果に基づいて、特定ユーザーに対して入力データの要約を生成する要約生成部４１３と、を有する。【選択図】図３

Description

本発明は、情報処理システム、情報処理装置、および制御プログラムに関する。

近年、ユーザーが文書の内容をより良く理解できるように支援する技術の開発が盛んである。例えば、このような技術として、入力された文書を機械により自動的に要約する、いわゆる自動要約の技術が知られている。自動要約では、例えば、入力された文書に含まれる各文の重要度を判定し、重要な文を残す一方で、比較的重要ではない文を削除することにより、入力された文書よりも短い文書を出力する処理が行われることが一般的である。しかし、要約を読む各人の知識には個人差があるため、同じ要約に対して、ある人にとっては理解しやすい内容であったとしても、別の人には理解しにくい内容であることは往々にしてある。したがって、要約を読む各人に適した要約を出力できる自動要約が求められる。

これに関連して、下記特許文献１には、要約対象の文書において出現する専門用語の頻度と、この専門用語の難易度とに基づいて決定された文書の難易度と、閲覧者による過去の文書閲覧回数に応じて決定された閲覧者の知識レベルとの差に応じて、文書から削除する文の数を決定する技術が開示されている。

また、下記特許文献２には、要約対象の文書の分野を特定するとともに、利用者の過去の問い合わせ記録と、文書の各語の難易度とに基づいて、利用者の特定分野に関する知識レベルを推定し、利用者の知識レベルに応じて要約を生成することが開示されている。

特開２０１０－２０６７８号公報特開２０１４－４４５３９号公報

しかし、特許文献１の技術では、文書の難易度と、閲覧者の知識レベルとを個別に推定しており、文書に対する閲覧者の知識(知見)を直接的に推定するものではない。すなわち、一律に定められた難易度や、閲覧回数の大小での判断を行うものであり、閲覧者の実際の知識（知見）を反映した判断ができない。したがって、仮に、文書の難易度と閲覧者の知識レベルとが同等であると判断されたとしても、閲覧者が必ずしも文書の内容を理解できるとは限らない。これでは、推定されたユーザーの知識レベルに基づいて文書の要約が生成されても、ユーザーが知らない情報が欠落してしまい、ユーザーが必要とする情報や有益な情報がユーザーに伝わらない可能性がある。すなわち、ユーザーが要約から知識を得ることができず、要約を理解できない可能性もある。

また、特許文献２の技術では、要約の生成にあたって用いられる文書の分野や各語の難易度は一律に定められる情報であり、また利用者の過去の問い合わせ（要約の修正要求）の回数も要約の長さや形式の不備なのか要約内のどの部分の知識に問題があるのか、特定できるものではなく、閲覧者の実際の知識（知見）を反映した判断ができない。そのためこうした一律の情報や履歴に基づき文書の要約を生成したとしても、実際に利用者が要約を理解できるとは限らない。

本発明は、上記事情に鑑みてなされたものであり、ユーザーが有する知識が考慮された要約を生成できる情報処理システム、情報処理装置、および制御プログラムを提供することを目的とする。

本発明の上記目的は、下記の手段によって達成される。

（１）データ取得部と、ユーザーを特定するユーザー特定部と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部と、前記データ取得部により入力データとして取得されたデータから抽出されたキーワードに基づくキーワード情報を生成するキーワード情報生成部と、前記キーワード情報と、特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、前記情報比較部による比較結果に基づいて、前記特定ユーザーに対して前記入力データの要約を生成する要約生成部と、を有する、情報処理システム。

（２）前記キーワード情報は、複数の前記キーワード同士の関係を構造化した第１のデータ集合体として生成された情報である、上記（１）に記載の情報処理システム。

（３）前記第１のデータ集合体は、複数の前記キーワード同士の関係をネットワーク化した情報である、上記（２）に記載の情報処理システム。

（４）前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報である、上記（２）または（３）に記載の情報処理システム。

（５）前記キーワードに基づいて、前記ユーザーの前記知識情報のサブセットである第２のデータ集合体を生成する第２のデータ集合体生成部をさらに有し、前記情報比較部は、前記第１のデータ集合体と、前記第２のデータ集合体とを比較する、上記（２）～（４）のいずれか１つに記載の情報処理システム。

（６）前記第１のデータ集合体は、前記複数のキーワード同士の関係をネットワーク化した情報であり、前記第１のデータ集合体のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報であり、前記知識情報のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、前記情報比較部は、前記第１のデータ集合体のノードと、前記知識情報のネットワークのノードとを比較する、上記（２）～（４）のいずれか１つに記載の情報処理システム。

（７）前記要約生成部は、前記第１のデータ集合体に含まれ、前記知識情報に含まれていないノードを少なくとも含むように前記入力データを要約する、請求項６に記載の情報処理システム。

（８）前記入力データは、少なくとも１つの文を含み、前記要約生成部は、前記ノードを含む文を少なくとも含むように前記入力データを要約する、上記（７）に記載の情報処理システム。

（９）前記要約生成部は、前記第１のデータ集合体と前記知識情報とにおいて共通するノードの数を第１のデータ集合体の全ノード数で割った共通率を算出し、前記共通率が所定値を超える場合は、前記第１のデータ集合体に含まれ、前記知識情報に含まれないノードを含むように要約を生成し、前記共通率が前記所定値以下の場合は、規定の削減率で要約を生成する、上記（７）または（８）に記載の情報処理システム。

（１０）前記規定の削減率で要約が生成された場合、一律の削減率で要約を生成した旨を通知する通知部をさらに有する、上記（９）に記載の情報処理システム。

（１１）前記情報記憶部は、前記知識情報のデータベースを有し、前記知識情報は、ユーザーが端末装置で実行した、文書、音声、画像、および動画の少なくともいずれかに関わる作業に基づいて生成され、前記データベースは、前記知識情報に基づいて更新される、上記（１０）に記載の情報処理システム。

（１２）前記入力データは、テキストを含む文書、画像、音声の少なくとも一つに対応するデータである、上記（１）～（１１）のいずれか１つに記載の情報処理システム。

（１３）入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を取得するキーワード情報取得部と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を特定ユーザーについて取得する知識情報取得部と、前記キーワード情報と、前記特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、前記情報比較部による比較結果に基づいて、前記入力データの要約を生成する要約生成部と、を有する、情報処理装置。

（１４）入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を取得するキーワード情報取得ステップ（ａ）と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を特定ユーザーについて取得する知識情報取得ステップ（ｂ）と、前記キーワード情報と、前記特定ユーザーに対応づけられた知識情報とを比較する比較ステップ（ｃ）と、前記比較ステップ（ｃ）における比較結果に基づいて、前記入力データの要約を生成する要約生成ステップ（ｄ）と、を含む処理をコンピューターに実行させるための制御プログラム。

本発明によれば、要約を生成する対象の文書が含む情報と、ユーザーが有する知識に関する情報とが比較され、文書内の情報が、ユーザーが知っている情報と、知らない情報とに区別される。したがって、ユーザーが有する知識が考慮された要約を生成できる。

一実施形態に係る情報処理システムの構成を例示する概略ブロック図である。図１に示すデータサーバーのハードウェア構成を例示する概略ブロック図である。情報処理システムが有する主な機能を例示する概略的な機能ブロック図である。図１に示すデータサーバーにおける第１のデータ集合体の生成を説明するための模式図である。図１に示す知識サーバーの個人知識データベースに記憶されている知識情報の一部を例示するネットワーク図である。図３に示す情報比較部による第１のデータ集合体と第２のデータ集合体との比較と、比較結果に基づく要約の生成とを説明するための概念図である。図１に示すクライアント端末のハードウェア構成を例示する概略ブロック図である。一実施形態に係る情報処理システムの制御方法の概略的な処理手順を例示するシーケンスチャートである。図８のシーケンスチャートのステップＳ１０５の処理の概略的な処理手順を例示するフローチャートである。第１のデータ集合体と第２のデータ集合体との比較を説明するための模式図である。図９のフローチャートのステップＳ２０３の処理を例示するサブルーチンフローチャートである。対象文書の要約の事例を示す模式図である。

以下、添付した図面を参照して、本発明の実施の形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜情報処理システム１００＞
図１は一実施形態に係る情報処理システム１００の構成を例示する概略ブロック図であり、図２は図１に示すデータサーバー２００のハードウェア構成を例示する概略ブロック図である。また、図３は情報処理システム１００が有する主な機能を例示する概略的な機能ブロック図であり、図４は図１に示すデータサーバー２００における第１のデータ集合体の生成を説明するための模式図である。

図１に示すように、情報処理システム１００は、データサーバー２００、知識サーバー３００、および情報処理装置４００を有し、これらは、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネット等を含む通信ネットワーク１０１で相互に通信可能に接続されている。後述するように、データサーバー２００は、要約を生成する対象の文書（以下、「対象文書」という）に含まれるキーワードに基づいて第１のデータ集合体を生成し、情報処理装置４００に提供する役割を担う。また、知識サーバー３００はユーザー毎に記憶されている知識情報を情報処理装置４００に提供する役割を担う。情報処理装置４００はデータサーバー２００および知識サーバー３００から各々提供された第１のデータ集合体および知識情報に基づいて対象文書を要約する。

また、情報処理システム１００は、クライアント端末（端末装置）５００に通信ネットワーク１０１を介して接続されている。図１に示す例では、情報処理システム１００に１台のクライアント端末５００が接続されている場合について例示しているが、複数台のクライアント端末が情報処理システム１００に接続されていてもよい。また、情報処理システム１００はクライアント端末５００を含んでもよい。

＜データサーバー２００＞
データサーバー２００は、対象文書と、対象文書の要約を提供する対象のユーザー（以下、「対象のユーザー」という）とを特定し、対象文書に含まれるキーワードを抽出し、抽出されたキーワードに基づいて第１のデータ集合体を生成する。データサーバー２００は、ユーザーに関する情報（以下、「ユーザー情報」という）と、対象文書を含む複数の文書とを記憶するサーバー（コンピューター）として機能する。ユーザー情報には、ユーザーのＩＤ（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）、パスワード、氏名、所属部署に関する情報等が含まれる。

図２に示すように、データサーバー２００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１０、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２３０、補助記憶部２４０、および通信部２５０等を備える。

ＣＰＵ２１０は、ＲＡＭ２２０に展開されたＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やデータサーバー２００用の制御プログラムを実行し、データサーバー２００の動作制御を行う。制御プログラムは、ＲＯＭ２３０または補助記憶部２４０に予め保存されている。また、ＲＡＭ２２０は、ＣＰＵ２１０の処理によって一時的に生じたデータ等を格納する。ＲＯＭ２３０は、ＣＰＵ２１０によって実行されるプログラムや、プログラムの実行に使用されるデータ、パラメーター等を記憶する。

補助記憶部２４０は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等を有し、ユーザー情報データベース４２１およびデータ記憶部２４２として機能する。

通信部２５０は、例えばネットワーク・インターフェースカード（ＮＩＣ：ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等の通信装置を有し、通信ネットワーク１０１を通じて知識サーバー３００や情報処理装置４００との間でデータ伝送を行う。

図３に示すように、ＣＰＵ２１０は制御プログラムを実行することで、対象ユーザー特定部２１１、対象文書特定部２１２、データ取得部２１３、キーワード抽出部２１４、および第１のデータ集合体生成部２１５として機能する。キーワード抽出部２１４、および第１のデータ集合体生成部２１５は、キーワード情報生成部として機能する。

対象ユーザー特定部２１１は、ユーザー情報を、ユーザー情報データベース２４１に登録されている複数のユーザーの情報と照合して、対象ユーザーを特定する。ユーザー情報としては、例えばＩＤが使用されうる。また、ユーザー情報としてログイン情報（ＩＤおよびパスワード）を使用して認証を行う形態でもよい。対象ユーザー特定部２１１は、対象文書のユーザーを特定するユーザー特定部として機能する。

対象文書特定部２１２は、文書指定情報に基づいて、データ記憶部２４２に保存されている複数の文書の中から対象文書を特定する。

データ取得部２１３は、通信部２５０を制御して、例えば、ユーザーが使用しているクライアント端末５００から入力データを取得する。入力データは、テキストを含む文書、画像、音声等、様々な形式のデータでありうる。データ取得部２１３は、入力データをテキスト形式の入力文書に変換する機能を備える。入力文書は、少なくとも１つのキーワードを含む文書でありうる。データ取得部２１３は、取得した入力文書をデータ記憶部２４２に保存する。また、入力文書は、知識サーバー３００の知識情報抽出部３１１に送信される。データ取得部２１３は、入力文書を取得する文書取得部として機能する。

キーワード抽出部２１４は、対象文書を話題毎にテキスト領域に分割し、分割された各々のテキスト領域からキーワードを抽出する。

より具体的には、キーワード抽出部２１４は、対象文書を公知の技術（例えば、TextTiling(https://www.aclweb.org/anthology/J97-1003.pdf)等）を用いて、話題（トピック）毎にテキスト領域に分割する。続いて、キーワード抽出部２１４は、分割された各テキスト領域に含まれるテキスト（文）について形態素解析を行うことにより、各テキスト領域に含まれるテキストを品詞に分割し、複数回繰り返して出現した（例えば、出現頻度が最も高い）単語（ワード）をキーワードとして抽出する。

例えば、図４に示すように、対象文書が「サッカー」、「高血圧」、および「食事」の３つの話題を含む文書である場合を想定する。この場合、キーワード抽出部２１４は、対象文書を各々「サッカー」、「高血圧」、および「食事」を含む３つのテキスト領域（Ｔ１～Ｔ３）に分割し、各テキスト領域から話題に対応するキーワード（「サッカー」、「高血圧」、および「食事」のいずれか）をそれぞれ抽出する。なお、対象文書を話題毎にテキスト領域に分割する手法、およびキーワードを抽出する手法は、上述の手法に限定されない。

また、キーワード抽出部２１４は、第１のデータ集合体生成部２１５に対して、各テキスト領域に含まれるテキストと、各テキスト領域に対応するキーワードとを送信する。さらに、後述する第２のデータ集合体生成部４１１に対して、各テキスト領域に対応するキーワードを受け渡す。

第１のデータ集合体生成部２１５は、各テキスト領域に含まれるテキストと、キーワードとに基づいて、テキストに含まれるワード間の関係性を抽出し、構造化された第１のデータ集合体をキーワード情報として生成する。第１のデータ集合体は、例えば、複数のワードと、当該複数のワード間の関係性（距離）とを含む。例えば、第１のデータ集合体は、ネットワーク構造で表現されうる。この場合、各ワードは、ノード（円形で示す）で表現され、ノード間の関係性は各ノードを結ぶ線（エッジ）で表現されうる。エッジで結ばれているノード同士は、共に生起（共起）されていることを示す。図４には、キーワード「サッカー」を中心とした（キーワード「サッカー」に関する）共起ネットワークが生成された場合について例示されている。

＜知識サーバー３００＞
知識サーバー３００は、個人知識データベース３４１（図３を参照）を有し、ユーザー毎に記憶されている知識情報を情報処理装置４００に提供するサーバー（コンピューター）である。知識サーバー３００は、データサーバー２００のハードウェア構成と同様のハードウェア構成を備えるので、その詳細な説明を省略する。個人知識データベース３４１は、補助記憶部（情報記憶部）に記憶されている。また、補助記憶部には、ＣＰＵによって実行される、知識サーバー３００用の制御プログラムが保存されている。

図５は、図１に示す知識サーバー３００の個人知識データベース３４１に記憶されている知識情報の一部を例示するネットワーク図である。知識情報は、例えば、ユーザー毎に、一人のユーザーが有する知識を構成する複数の情報に対応する要素同士の関係を共起ネットワーク化した情報である。要素は、例えば、単語（ワード）、文、節等が表す概念でありうる。本実施形態では、知識情報は、一人のユーザーの知識が、複数の概念同士が関係性に応じて連結された共起ネットワークとしてモデル化されている。個人知識データベース３４１には、複数のユーザーの知識情報が記憶されている。

図３に示すように、本実施形態では、ユーザーの知識情報を生成または更新するために、クライアント端末５００において、常駐アプリケーションとして動作する情報収集アプリケーション（以下、「情報収集アプリ」という）が使用されうる。例えば、情報収集アプリは、ユーザーによってインストールされる際に、ユーザーがＩＤを入力するように構成されている。ユーザーがＩＤを入力することにより、個人知識データベース３４１の知識情報の生成または更新を行う対象のユーザーを特定する。なお、ＩＤを入力する代わりに、クライアント端末５００へのログイン情報を使用してユーザーを特定する等、他の方法でユーザーを特定してもよい。

情報収集アプリが実行されることにより、ユーザーの普段の作業においてディスプレイに表示された情報や作業ログ等が収集され、情報処理システム１００に送信される。また、情報収集アプリは、ディスプレイの表示画面をキャップチャーし、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）する機能も有しうる。表示画面は、ＯＣＲによりテキストデータに変換され、知識情報抽出部３１１に送信される。

知識情報抽出部３１１は、ＣＰＵが知識サーバー３００用の制御プログラムを実行することで実現される。知識情報抽出部３１１は、データ取得部２１３によって取得された入力文書について、形態素解析を行うことにより、各テキスト領域に含まれるテキストを品詞に分割し、分割された品詞を要素として共起ネットワークを生成する。続いて、知識情報抽出部３１１は、生成された共起ネットワークを、ユーザーのＩＤに基づいて、個人知識データベース３４１のユーザーの知識情報にマージする。これにより、個人知識データベース３４１に知識情報が日々蓄積されとともに、更新・拡張される。

クライアント端末５００上におけるユーザーの作業には、例えば、文書作成ソフトやメールソフトによる各種文書の作成や、各種文書、ウェブページ（Ｗｅｂページ）、画像、動画、音声（例えば、会議記録の音声）等の閲覧または視聴、ソーシャル・ネットワーキング・サービス（ＳＮＳ：ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）の利用等が含まれる。

なお、一般に文書の作成は、文書やウェブページの閲覧よりも深い知識を要することを考慮して、ユーザーが行った作業の種類に応じて、知識情報の要素（知識）に対してランク付けを行ってもよい。例えば、文書の作成作業を通じて得た知識には、最も高いランクを付し、文書の確認作業を通じて得た知識には、中程度のランクを付し、ウェブページ、電子メールの閲覧等による知識には、最も低いランクを付すことができる。

知識情報は、複数の要素と、要素間の関係性（距離）とを含む。例えば、図５のネットワーク図に示すように、知識情報において、各要素は、ノード（円形で示す）３１２で表現され、ノード３１２間の連結は各ノード３１２を結ぶ線（エッジ）３１３で表現されうる。図５には、例えば、ユーザーＡの知識情報（共起ネットワーク）の一部であるネットワーク３０１が例示されている。例えば、ノードＮ００～Ｎ０６は、「サッカー」、「カウンター」、「戦術」、「プレミアリーグ」、「Ｊリーグ」、「日本代表」、および「チケット」の各要素に対応し、ノードＮ０１～Ｎ０６は、ノードＮ００と連結されている。ノード間の関係性には、上位／下位概念の関係（例えば、接続元のノードが上位概念で、接続先のノードが下位概念）、接続先のノードが接続元のノードの属性である場合に、接続先のノードが接続元のノードの必須の属性、または任意の属性である関係、接続先のノードが接続元のノードの任意の取りうる値である場合等が含まれる。

また、知識情報は、互いに関連付けられた要素の集まり（以下、「要素群」ともいう）における各要素の相対的な重要度を表す情報を含みうる。他の要素と比べて重要度が高い要素は、例えば、知識情報が表す知識の起点または要点となりうる。例えば、他の要素との連結が多い要素は、比較的重要であると考えられる。したがって、要素の重要度は、他の要素との連結の多寡で判断されうる。また、個人知識データベース３４１に要素の重要度を数値で記憶するように構成してもよい。

ネットワーク図上では、要素が出現する頻度に応じてノードの大きさが異なるように描画される。例えば、出現する頻度が高い要素は低い要素と比べて大きく描画される。図４に示す例では、「サッカー」を表すノードＮ００は、ノードＮ０１～Ｎ１０に比べて出現する頻度が高いので、他のノードよりも大きく描かれている。また、ノードＮ００は、ネットワーク３０１が表す知識の起点（中心）になっている。

また、知識情報は、要素同士の結び付きの強さを表す情報も含みうる。要素同士の結び付きの強さについても、個人知識データベース３４１に数値で記憶されうる。ネットワーク図上では、例えば、多くの文書で共通に出現する要素同士は、結び付きが強いと考えられるため、線が太く描画される。

また、知識情報は、知識の分野に関する情報を含みうる。例えば、知識情報の各ノードは、知識の分野等を示すタグが関連付けられている。例えば、個人知識データベース３４１またはテーブルにノード番号と、ノード番号に対応するタグの情報とが保存されている。

知識サーバー３００は、情報処理装置４００からの要求に応じて、ユーザーの知識情報を、個人知識データベース３４１から読み出し、情報処理装置４００へ送信する。

なお、上述の例では、要素群の共起ネットワークモデルを例示したが、各要素間の連結の有無や結び付きの強さだけではなく、結び付きの関係（包含関係等）を考慮したネットワーク（意味ネットワーク）にモデル化してもよい。

＜情報処理装置４００＞
図６は図３に示す情報比較部４１２による第１のデータ集合体と第２のデータ集合体との比較と、比較結果に基づく要約の生成とを説明するための概念図である。

図３に示すように、情報処理装置４００は、データサーバー２００および知識サーバー３００から各々提供された第１のデータ集合体および知識情報に基づいて対象文書を要約して出力するサーバー（コンピューター）として機能する。情報処理装置４００は、データサーバー２００のハードウェア構成（図２）と同様のハードウェア構成を備えるので、その詳細な説明を省略する。本実施形態では、補助記憶部には、ＣＰＵによって実行される、情報処理装置４００用の制御プログラムが保存されている。

本実施形態では、ＣＰＵが制御プログラムを実行することで、第２のデータ集合体生成部４１１、情報比較部４１２、要約生成部４１３、出力生成部４１４、およびコントローラー４１５としての機能を果たす。

第２のデータ集合体生成部４１１は、個人知識データベース３４１から知識情報を取得する知識情報取得部として機能し、対象ユーザーの知識情報からそのサブセット（以下、「第２のデータ集合体」という）を抽出する。より具体的には、第２のデータ集合体生成部４１１は、データサーバー２００からキーワードを、知識サーバー３００から対象ユーザーの知識情報（共起ネットワーク）を、各々取得し、キーワードに基づいて、知識情報から第２のデータ集合体を抽出する。知識情報から抽出する第２のデータ集合体の範囲は、各ノードに付されたタグの情報に基づいて決定される。例えば、図４に示す例では、対象文書が「サッカー」というキーワードを含んでいるため、第２のデータ集合体生成部４１１は、ユーザーの知識情報からサッカーの分野のタグが付されているノードを探索する。探索の結果、例えば、サッカーの分野のタグが付されているノードを含む範囲が第２のデータ集合体として抽出される。これにより、以下で説明する情報比較部４１２による第１のデータ集合体と第２のデータ集合体との比較が効率的に実施できる。

情報比較部４１２は、第１のデータ集合体を取得するキーワード情報取得部として機能する。また、情報比較部４１２は、第１のデータ集合体と第２のデータ集合体とを比較し、第１のデータ集合体と第２のデータ集合体との差異を抽出する。より具体的には、情報比較部４１２は、対象ユーザーの第２のデータ集合体に第１のデータ集合体の各ノード（ワード）が含まれているか否かを判定し、第２のデータ集合体に含まれていない、第１のデータ集合体のノード（ワード）を比較結果として出力する。なお、以下では、第１のデータ集合体と第２のデータ集合体とを比較する場合を例示して説明するが、第１のデータ集合体と知識情報全体とを比較してもよい。

例えば、図６に示すように、第１のデータ集合体には、Ｗ１～Ｗ９のワードが含まれ、第２のデータ集合体には、Ｗ２，Ｗ３，Ｗ５～Ｗ７，Ｗ１０～Ｗ１２のワードが含まれている場合を想定する。第１のデータ集合体のＷ２，Ｗ３，Ｗ５～Ｗ７については、第２のデータ集合体にも含まれているので、これらのワードについては、ユーザーが知識を有している。一方、第１のデータ集合体に含まれるワードのうち、上記Ｗ２，Ｗ３，Ｗ５～Ｗ７以外のＷ１，Ｗ４，Ｗ８，Ｗ９については、ユーザーが知識を有していない、すなわちユーザーが知らないワードである。情報比較部４１２は、比較結果として、ユーザーが知らないＷ１，Ｗ４，Ｗ８，Ｗ９を出力する。

要約生成部４１３は、情報比較部４１２による比較結果に基づいて、対象文書の要約を生成する。より具体的には、要約生成部４１３は、対象文書中において、比較結果（例えば、Ｗ１，Ｗ４，Ｗ８，Ｗ９）のワードを含む文を特定し、少なくともこの（これらの）ワードを含む文については削除せず残すように、対象文書の各テキスト領域を要約する（図６の「要約結果」を参照）。

より具体的には、公知の要約生成技術で行われているように、各文の重要度をスコアリングし、スコア（以下、「重要度スコア」という）の低い文を削除することにより、削減率（削除した文の数をテキスト領域の全ての文の数で割った値）が規定値に達するように要約を生成できる。ただし、第２のデータ集合体に含まれない、すなわちユーザーが知らないワードを含む文は重要度スコアがどれだけ低くても削除しない。

以下、これらの削除しない文を「保存対象の文」という。これに対して、保存対象の文以外の文については、重要度スコアの低いものから削除する。例えば、要約生成部４１３は、保存対象の文以外の文に対して、削減率を８０％固定にして対象文書の各テキスト領域について要約を生成する。

なお、比較結果のワードを含む文を残すように要約することを述べたが、比較結果のワードを含む文をそのままの形で残さずに、少なくとも比較結果のワードを残し、不要なワードや重要度の低いワード等を削除して要約を生成してもよい。

このように、ユーザーが知らない（知見が無い）情報については残し、ユーザーが知っている（知見が有る）情報については削除するように要約を生成することにより、要約結果の情報量を削減しつつ、ユーザーが新たな知識を得ることができる。これにより、ユーザーにとって要約が理解しにくい内容になることを抑制できる。

出力生成部４１４は、要約生成部４１３によって生成された要約結果に基づいて出力データ生成する。より具体的には、出力生成部４１４は、各テキスト領域について生成された要約結果を結合し、必要に応じて、文書、音声、画像、動画等の各種データフォーマットに変換して、出力データを生成する。生成された出力データは、例えば、通信ネットワーク１０１を介してクライアント端末５００に送信される。

コントローラー４１５は、第２のデータ集合体生成部４１１、情報比較部４１２、要約生成部４１３、および出力生成部４１４を制御する。また、コントローラー４１５は、データサーバー２００のＣＰＵ２１０と協働して、対象ユーザー特定部２１１、対象文書特定部２１２、データ取得部２１３、キーワード抽出部２１４、および第１のデータ集合体生成部２１５を制御する。さらに、コントローラー４１５は、知識サーバー３００のＣＰＵと協働して、知識サーバー３００の補助記憶部を制御する。

＜クライアント端末５００＞
図７は、図１に示すクライアント端末５００のハードウェア構成を例示する概略ブロック図である。クライアント端末は、ＣＰＵ５１０、ＲＡＭ５２０、ＲＯＭ５３０、補助記憶部５４０、通信部５５０、および操作表示部５６０等を備えるコンピューターである。クライアント端末５００は、例えば、パーソナルコンピューター、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、スマートフォン等でありうる。

ＣＰＵ５１０、ＲＡＭ５２０、ＲＯＭ５３０、補助記憶部５４０、および通信部５５０の構成については、データサーバー２００のＣＰＵ２１０、ＲＡＭ２２０、ＲＯＭ２３０、補助記憶部２４０、および通信部２５０の各々の構成と同様であるので、その詳細な説明を省略する。

操作表示部５６０は、入力部および出力部を有する。入力部は、例えば、キーボード、マウス等を備え、キーボード、マウス等による文字入力、各種設定等の各種指示（入力）をユーザーが行うために利用される。また、出力部は、ディスプレイを備え、アプリケーション・ソフトウェアで作成している文書等をユーザーに提示するために使用される。また、本実施形態では、出力部は、ＣＰＵ５１０の指示に応じて、情報処理装置４００の出力データをディスプレイに表示してユーザーに提示する。また、出力部は、スピーカーを有し、対象文書の内容や、対象文書の要約の内容を音声でユーザーに提供することもできる。

＜情報処理システムの制御方法＞
図８は、一実施形態に係る情報処理システム１００の制御方法の概略的な処理手順を例示するシーケンスチャートである。同図のシーケンスチャートの処理は、ＣＰＵ２１０がデータサーバー２００用の制御プログラムを実行し、情報処理装置４００のＣＰＵが情報処理装置４００用の制御プログラムを実行することにより実現される。

本実施形態では、例えば、データサーバー２００のデータ記憶部２４２に複数の文書が予め記憶されている場合を想定している。クライアント端末５００のユーザー（例えば、「ユーザーＡ」と呼ぶ（要約を利用する「対象ユーザー」でもある））は、これらの複数の文書のうちから、対象文書を指定する。後述するように、このユーザ（ユーザーＡ）は、要約（要約情報）を利用する「対象ユーザー」であり、この対象文書は、対象ユーザーの知識に応じて、要約されて要約（要約情報）が作成される。情報処理システム１００は、ユーザーＡによって指定された対象文書を要約し、要約結果（要約情報、または要約ともいう）を出力データとしてクライアント端末５００に送信する。ユーザーＡは、クライアント端末５００のディスプレイに表示された要約を確認することにより、要約の内容を理解する。本実施形態における情報処理システム１００およびクライアント端末５００における具体的な処理手順は、以下のとおりである。

図８に示すように、まず、対象ユーザーおよび対象文書を特定する（ステップＳ１０１）。クライアント端末５００からユーザーＡのユーザー情報（ＩＤ等）および文書指定情報がデータサーバー２００に送信され、データサーバー２００は、ユーザー情報に基づいて、対象ユーザーがユーザーＡであることを特定する。文書指定情報は、対象文書を指定するための情報であり、例えば、対象文書のファイル名、タイトル名、作者名等を含む。対象文書特定部２１２は、文書指定情報に基づいて、対象文書を特定する。特定されたユーザーＡを対象とする対象文書をユーザーＡの文書ともいう。

次に、対象文書を話題毎にテキスト領域に分割する（ステップＳ１０２）。対象文書が「サッカー」、「高血圧」、および「食事」の３つの話題を含む文書である場合、キーワード抽出部２１４は、対象文書を各々「サッカー」、「高血圧」、および「食事」を含む３つのテキスト領域（Ｔ１～Ｔ３）に分割する（図４を参照）。

次に、テキスト領域毎にキーワードを抽出する（ステップＳ１０３）。キーワード抽出部２１４は、各話題に対応する「サッカー」、「高血圧」、および「食事」の３つのキーワードを抽出する。抽出されたキーワードは、情報処理装置４００に送信される。

次に、第１のデータ集合体を生成する。第１のデータ集合体生成部２１５は、各々のテキスト領域について、抽出されたキーワードに基づいて、第１のデータ集合体を生成し、ＲＡＭ２２０または補助記憶部２４０に保存する（ステップＳ１０４）。生成された第１のデータ集合体およびユーザー情報は、情報処理装置４００に送信される。また、情報処理装置４００は、知識サーバー３００に対して、ユーザーＡの知識情報を要求し、知識サーバー３００は要求に対して、ユーザーＡの知識情報を情報処理装置４００に送信する。

次に、対象文書を要約する（ステップＳ１０５）。情報処理装置４００は、第１のデータ集合体と知識情報とに基づいて対象文書を要約し、要約結果に基づいて出力データを生成する。生成された出力データは、クライアント端末５００に送信される。情報処理装置４００におけるステップＳ１０５の処理については、図９～図１２を参照して詳述する。

次に、対象文書の要約を出力する（ステップＳ１０６）。例えば、クライアント端末５００は、ディスプレイに出力データを表示する。ユーザーＡは、ディスプレイに表示された対象文書の要約を確認することにより、対象文書の内容を効率的に理解できる。また、出力データが音声データである場合、クライアント端末５００は、出力データをスピーカーから出力する。

＜情報処理装置４００の処理（Ｓ１０５）＞
図９は、図８のシーケンスチャートのステップＳ１０５の処理の概略的な処理手順を例示するフローチャートである。同図のフローチャートの処理は、情報処理装置４００のＣＰＵが制御プログラムを実行することにより実現される。図１０は第１のデータ集合体と第２のデータ集合体との比較を説明するための模式図であり、図１１は図９のフローチャートのステップＳ２０３の処理を例示するサブルーチンフローチャートである。また、図１２は、対象文書の要約の事例を示す模式図である。

図９に示すように、まず、第２のデータ集合体を生成する（ステップＳ２０１）。より具体的には、第２のデータ集合体生成部４１１は、各テキスト領域のキーワードとユーザーＡの知識情報とを取得し、キーワードに基づいて、ユーザーＡの知識情報から第２のデータ集合体を生成する。上述のように、第２のデータ集合体は、知識情報のサブセットである。また、第２のデータ集合体生成部４１１は、キーワード「高血圧」および「食事」についても同様に第２のデータ集合体を生成する。

次に、第１のデータ集合体と第２のデータ集合体とを比較する（ステップＳ２０２）。図１０に示すように、情報比較部４１２は、第１のデータ集合体のネットワークと、第２のデータ集合体のネットワークとを比較し、その差異を抽出する。第１のデータ集合体のノード（ワード）のうち第２のデータ集合体に含まれないノード（ワード）は、ユーザーＡが知らないワードに対応する（図１０の「比較結果」のグレーで示される部分）。情報比較部４１２は、ユーザーＡが知らないワードを比較結果として出力する。

例えば、キーワード「サッカー」に関する第１のデータ集合体に「プレッシング」、「カウンター」、「プレミアリーグ」、「ゲーゲンプレス」、「カウンター・プレス」、および「戦術」のノード（ワード）が含まれ、第２のデータ集合体に「カウンター」、「戦術」、「プレミアリーグ」、「Ｊリーグ」、「日本代表」、および「チケット」のノード（ワード）が含まれる場合を想定する。この場合、「カウンター」、「プレミアリーグ」、および「戦術」は、第１および第２のデータ集合体に共通して含まれ、「プレッシング」、「ゲーゲンプレス」、および「カウンター・プレス」は、第１のデータ集合体に含まれるが、第２のデータ集合体には含まれない。したがって、情報比較部４１２は、「プレッシング」、「ゲーゲンプレス」、および「カウンター・プレス」を比較結果として出力する。また、情報比較部４１２は、キーワード「高血圧」および「食事」についても同様に比較結果を出力する。

次に、対象文書の要約を生成する（ステップＳ２０３）。図１１に示すように、要約生成部４１３は、共通率が所定値以下であるか否かを判定し（ステップＳ３０１）、共通率が所定値以下である場合（ステップＳ３０１：ＹＥＳ）、削減率を規定値に設定する（ステップＳ３０２）。共通率は、第１のデータ集合体と第２のデータ集合体とにおいて共通するノード（ワード）の数を第１のデータ集合体の全ノード（全ワード）数で割った値である。また、所定値は、特に限定されるものではないが、本実施形態では、例えば、０．２に設定されうる。例えば、キーワード「高血圧」について共通率を算出した結果、０．１であった場合、共通率は所定値以下であるので、要約生成部４１３は、ユーザーＡが高血圧について十分な知識を有していないと判断し、削減率を規定値（例えば、固定値）に設定する。固定値は、例えば、一律に０．９（９０％）でありうる。続いて、設定された削減率で対象文書の要約を生成する（ステップＳ３０３）。要約生成部４１３は、設定された削減率（例えば、９０％）で対象文書の要約を生成する。

一方、共通率が所定値以下ではない、すなわち所定値を超える場合（ステップＳ３０１：ＮＯ）、比較結果に基づいて対象文書の要約を生成する（ステップＳ３０４）。上述の例の場合では、第１および第２のデータ集合体に共通して含まれるノードは「カウンター」、「プレミアリーグ」、および「戦術」の３個であり、第１のデータ集合体の全ノード数は６個である。したがって、共通率は、３／６＝０．５である。所定値が０．２である場合、共通率は所定値以下ではないので、要約生成部４１３は、比較結果に基づいて対象文書の要約を生成する。

例えば、図１２には、サッカーにおいて使用される用語「ゲーゲンプレス」を含む対象文書の要約の事例が示されている（図中において「ゲーゲンプレス」に下線を付している）。ここでは、上述のように、ユーザーＡが「ゲーゲンプレス」の知識を有していない、すなわち情報比較部４１２の比較結果として「ゲーゲンプレス」が抽出されていることを想定している。対象文書は、［１］～［１３］の１３個の文を含む。

要約生成部４１３は、比較結果のワードと、重要度スコアの高い文を残すように対象文書の要約を行う。より具体的には、「ゲーゲンプレス」を含む［７］，［９］～［１１］，［１３］の文と、重要度スコアが「２」以上（グレーで表示）の文（すなわち、［４］，［１２］の文）とを残し、重要度スコアが「１」の文を削除する。「要約結果（実施例）」の欄がチェックされている文が要約結果に含まれる文である。

一方、比較例は、ユーザーＡの知識が考慮されない従来の要約生成技術を用いて要約した場合の要約結果である。図１２に示す比較例では、重要度スコアが「２」以上の文に加えて、所定の基準により［１０］，［１１］の文についても要約結果に含められている。「要約結果（比較例）」の欄がチェックされている文が要約結果に含まれる文である。

このように、本実施形態では、ユーザーＡの知識を考慮して、「ゲーゲンプレス」を含む文を欠落させることなく、全て要約結果に含められる。すなわち、要約結果（実施例）の欄のグレーで表示した［７］，［９］，［１３］の文の情報を得ることができる。その結果、対象文書内の情報を効率的に得ることができる。これに対して、比較例では、［７］，［９］，［１３］の文については要約結果に含められないので、これらの文の知識を得ることができない。

再び図９に戻り、出力データを生成する（ステップＳ２０４）。出力生成部４１４は、各テキスト領域について、要約生成部４１３によって生成された要約結果を結合する。また、出力生成部４１４は、通知部として機能し、規定の削減率で対象文書の要約が生成された場合、一律の削減率で対象文書の要約が生成された旨をユーザーに通知するメッセージ（例えば、「本話題に関する知識不足により理解困難と判断された為、情報を大幅に削除しました。」）を、要約結果を結合したものの冒頭に付加する。これは、対象文書を理解する上で、ユーザーＡの知識が大幅に不足しているため、仮に対象文書の全文が提示されたとしてもユーザーＡは理解できない可能性が高いためである。

なお、通知は、要約結果にメッセージを付加することに限らず、要約結果の表示形態の変更（例えば、フォントの変更やマーカー付加等）によって行うこともできる。また、要約結果にメッセージを付加せずに、別途、クライアント端末５００において上記メッセージを表示したり、上記メッセージに相当する音声を出力したりすることにより、ユーザーに通知してもよい。

このように、本実施形態では、対象文書が含む情報と、ユーザーの知識情報とが比較され、対象文書内の情報が、ユーザーが知っている情報と、知らない情報とに区別される。そして、この区別に基づいて、ユーザーが知っている情報については削除し、ユーザーが知らない情報については削除せず残すように対象文書が要約される。これにより、要約結果の情報量を削減しつつ、ユーザーが有する知識に応じて、ユーザーにとって必要・有益な情報を残すことができるので、ユーザーが理解可能な要約を生成できる。

以上のように、実施形態において、情報処理システム１００、情報処理装置４００、および制御プログラムについて説明した。しかしながら、本発明は、その技術思想の範囲内において当業者が適宜に追加、変形、および省略することができる。

例えば、上述の実施形態では、データサーバー２００において、対象文書の取得、対象文書のテキスト領域への分割、各テキスト領域におけるキーワードの抽出、および各テキスト領域における第１のデータ集合体の生成を行い、知識サーバー３００においてユーザーの知識情報を記憶する場合について説明した。しかし、本発明はこのような場合に限定されず、情報処理装置４００において、対象文書の取得、対象文書のテキスト領域への分割、各テキスト領域におけるキーワードの抽出、および各テキスト領域における第１のデータ集合体の生成を行い、ユーザーの知識情報を記憶するように構成することもできる。この場合、情報処理装置４００のＣＰＵが文書取得部、キーワード抽出部、第１のデータ集合体生成部の機能を担い、補助記憶部が情報記憶部の機能を担う。

また、上述の実施形態では、知識サーバー３００から情報処理装置４００にユーザーの知識情報を読み出して、情報処理装置４００の情報比較部４１２で第１のデータ集合体と第２のデータ集合体との比較を行う場合を説明した。しかし、このような場合に限らず、知識サーバー３００において、第１のデータ集合体と第２のデータ集合体との比較を行う構成とすることもできる。

また、上述の実施形態では、クライアント端末５００のユーザーが、データサーバー２００のデータ記憶部２４２に記憶された複数の文書のうちから、対象文書を指定する場合について説明した。しかしながら、本発明はこのような場合に限定されず、データサーバー２００のデータ取得部２１３が入力データを取得して生成した入力文書を、対象文書特定部２１２が対象文書として特定し、情報処理装置４００が要約を生成するように構成してもよい。このように構成することにより、情報処理システム１００の入力データをリアルタイムで要約できる。

また、上述の実施形態では、対象文書の要約を生成する処理（ステップＳ２０４）は、共通率が所定値以下であるか否かを判定し、共通率が所定値以下である場合は、規定値に設定された削減率で対象文書の要約を生成することについて説明した。しかしながら、本発明はこのような場合に限定されず、共通率が所定値以下である場合でも、比較結果に基づいて入力データの要約を生成するように構成してもよい。

また、制御プログラムは、ＵＳＢメモリー、フレキシブルディスク、ＣＤ－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、メモリーやストレージ等に転送され記憶される。また、この制御プログラムは、例えば、単独のアプリケーション・ソフトウェアとして提供されてもよいし、サーバーの一機能としてその各装置のソフトウェアに組み込んでもよい。

また、実施形態において制御プログラムにより実行される処理の一部または全部を回路等のハードウェアに置き換えて実行されうる。

１００情報処理システム、
２００データサーバー、
２１０ＣＰＵ、
２２０ＲＡＭ、
２３０ＲＯＭ、
２４０補助記憶部、
２４１ユーザー情報データベース、
２４２データ記憶部、
２５０通信部、
２１１対象ユーザー特定部、
２１２対象文書特定部、
２１３データ取得部、
２１３キーワード抽出部、
２１５第１のデータ集合体生成部、
３００知識サーバー、
３４１個人知識データベース、
４００情報処理装置、
４１１第２のデータ集合体生成部、
４１２情報比較部、
４１３要約生成部、
４１４出力生成部、
４１５コントローラー、
５００クライアント端末。

Claims

データ取得部と、
ユーザーを特定するユーザー特定部と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部と、
前記データ取得部により入力データとして取得されたデータから抽出されたキーワードに基づくキーワード情報を生成するキーワード情報生成部と、
前記キーワード情報と、特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、
前記情報比較部による比較結果に基づいて、前記特定ユーザーに対して前記入力データの要約を生成する要約生成部と、を有する、情報処理システム。
前記キーワード情報は、複数の前記キーワード同士の関係を構造化した第１のデータ集合体として生成された情報である、請求項１に記載の情報処理システム。
前記第１のデータ集合体は、複数の前記キーワード同士の関係をネットワーク化した情報である、請求項２に記載の情報処理システム。
前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報である、請求項２または３に記載の情報処理システム。
前記キーワードに基づいて、前記ユーザーの前記知識情報のサブセットである第２のデータ集合体を生成する第２のデータ集合体生成部をさらに有し、
前記情報比較部は、前記第１のデータ集合体と、前記第２のデータ集合体とを比較する、請求項２～４のいずれか１項に記載の情報処理システム。
前記第１のデータ集合体は、前記複数のキーワード同士の関係をネットワーク化した情報であり、前記第１のデータ集合体のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、
前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報であり、前記知識情報のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、
前記情報比較部は、前記第１のデータ集合体のノードと、前記知識情報のネットワークのノードとを比較する、請求項２～４のいずれか１項に記載の情報処理システム。
前記要約生成部は、
前記第１のデータ集合体に含まれ、前記知識情報に含まれていないノードを少なくとも含むように前記入力データを要約する、請求項６に記載の情報処理システム。
前記入力データは、少なくとも１つの文を含み、
前記要約生成部は、前記ノードを含む文を少なくとも含むように前記入力データを要約する、請求項７に記載の情報処理システム。
前記要約生成部は、前記第１のデータ集合体と前記知識情報とにおいて共通するノードの数を第１のデータ集合体の全ノード数で割った共通率を算出し、
前記共通率が所定値を超える場合は、前記第１のデータ集合体に含まれ、前記知識情報に含まれないノードを含むように要約を生成し、
前記共通率が前記所定値以下の場合は、規定の削減率で要約を生成する、請求項７または８に記載の情報処理システム。
前記規定の削減率で要約が生成された場合、一律の削減率で要約を生成した旨を通知する通知部をさらに有する、請求項９に記載の情報処理システム。
前記情報記憶部は、前記知識情報のデータベースを有し、
前記知識情報は、ユーザーが端末装置で実行した、文書、音声、画像、および動画の少なくともいずれかに関わる作業に基づいて生成され、
前記データベースは、前記知識情報に基づいて更新される、請求項１０に記載の情報処理システム。
前記入力データは、テキストを含む文書、画像、音声の少なくとも一つに対応するデータである、請求項１～１１のいずれか１項に記載の情報処理システム。
入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を取得するキーワード情報取得部と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を特定ユーザーについて取得する知識情報取得部と、
前記キーワード情報と、前記特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、
前記情報比較部による比較結果に基づいて、前記入力データの要約を生成する要約生成部と、を有する、情報処理装置。
入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を取得するキーワード情報取得ステップ（ａ）と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を特定ユーザーについて取得する知識情報取得ステップ（ｂ）と、
前記キーワード情報と、前記特定ユーザーに対応づけられた知識情報とを比較する比較ステップ（ｃ）と、
前記比較ステップ（ｃ）における比較結果に基づいて、前記入力データの要約を生成する要約生成ステップ（ｄ）と、を含む処理をコンピューターに実行させるための制御プログラム。