JP7415495B2

JP7415495B2 - 文書処理プログラム、文書処理装置、及び文書処理方法

Info

Publication number: JP7415495B2
Application number: JP2019218049A
Authority: JP
Inventors: 修也阿部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2024-01-17
Anticipated expiration: 2039-12-02
Also published as: JP2021089473A

Description

本発明は、文書処理技術に関する。

近年、産業界等において、ＡＩ（Artificial Intelligence）技術を利用した自然言語処理が増加している。自然言語処理には、形態素解析、構文解析、意味解析、照応解析等が含まれる。ＡＩ技術を利用した自然言語処理では、例えば、以下の手順で文書解析が行われる。
（Ｐ１）ユーザは、文書集合から、機械学習のための学習データを手作業で作成する。
（Ｐ２）ユーザは、機械学習により、学習モデルに学習データを学習させることで、学習モデルのパラメータを調整して、学習済みモデルである解析モデルを生成する。
（Ｐ３）ユーザは、解析モデルを用いて未知文書を解析し、解析結果を生成する。

解析結果には、未知文書のテキストに対する付加情報が含まれる。例えば、形態素解析では、形態素間の境界位置、各形態素の品詞等が付加情報として生成される。機械学習の学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の文書であり、出力データは、付加情報が付加された文書である。

学習データの作成には多大な作業負荷が発生するため、作業負荷を軽減するために、既存の学習データを部分的に変更して別の解析モデルの生成に転用する、学習データの再利用が増加している。学習データの再利用としては、例えば、次のような利用形態が挙げられる。
（ａ）ユーザは、機械学習の性能向上のため、既存の学習データを見直して変更し、より正確な学習データを作成する。
（ｂ）ユーザは、機械学習の性能向上のため、既存の学習データの変更と新たな学習データの追加を行うことで、大規模な学習データを作成する。
（ｃ）ユーザは、独自の基準に基づいて学習データをカスタマイズするため、既存の学習データを変更する。

生物医学分野の自然言語処理に関連して、文書に含まれる固有表現に対して注釈を付与する技術が知られている（例えば、非特許文献１を参照）。

P. Stenetorp et al.,"BioNLP Shared Task 2011: Supporting Resources", Proceedings of BioNLP Shared Task 2011 Workshop, pages 112-120, 2011

機械学習では相当量の学習データが用いられるため、一部の学習データのみが変更された場合、学習処理ではその変更がノイズとして扱われ、学習結果に反映されにくい。したがって、変更内容を学習結果に確実に反映させるためには、学習データ全体にわたって同様の変更を大量に行うことが望ましく、ユーザの作業負荷が増加する。

なお、かかる問題は、自然言語処理の機械学習で用いられる学習データを変更する場合に限らず、様々な文書集合に含まれる情報を変更する場合において生ずるものである。

１つの側面において、本発明は、コンピュータが文書集合から変更候補を抽出することを目的とする。その結果、文書集合の情報を変更する変更作業が効率化される。

１つの案では、文書処理プログラムは、文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であってユーザが行った変更操作を示す変更事例を含む変更履歴に基づいて、文書集合に対してユーザが行う変更の変更対象を推定し、変更対象に対応するテキストを文書集合から抽出し、文書集合から抽出されたテキストを、文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、複数のクラスタのうち特定のクラスタに属するテキストの付加情報をユーザが変更した場合、特定のクラスタに属するテキストの付加情報に対する変更を、特定のクラスタに属する他のテキストの付加情報に反映させ、文書集合から抽出されたテキストを示す変更候補情報を出力する処理をコンピュータに実行させる。

１つの側面によれば、文書集合の情報を変更する変更作業を効率化することができる。

医療分野のキュレーションにおけるテキストを示す図である。文書処理装置の機能的構成図である。変更支援処理のフローチャートである。文書処理装置の具体例を示す機能的構成図である。変更事例の分類結果を示す図である。段落の評価値を示す図である。強調表示された部分文書を示す図である。単語ベクトルを示す図である。変更支援処理の具体例を示すフローチャートである。編集画面生成処理のフローチャートである。推定処理のフローチャートである。情報処理装置のハードウェア構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。

医療分野において、病気等に関連する論文を人間が読みながら、論文中の知識をデータベースに登録する作業が行われることがある。このような作業はキュレーションと呼ばれ、作業者はキュレータと呼ばれる。

非特許文献１の技術は、キュレーションを効率化するために利用される。この技術では、自然言語処理を用いて論文中に知識が記述されている箇所が強調表示されるとともに、強調表示された箇所に、注釈が付与される。知識が記述されている箇所としては、遺伝子、遺伝子変異、薬、病気等を表す固有表現が用いられ、注釈としては、固有表現の種類を示すタグ、固有表現間の関係等が用いられる。キュレータは、強調表示された箇所を中心にテキストを確認することで、データベースを整備することができる。

図１は、医療分野のキュレーションにおいて、キュレータの端末装置の画面上に表示されるテキストの例を示している。図１のテキストは、英語で記述された医療分野の論文を表し、論文中の“p.R122W”、“FNMTC”（Familial Non-Medullary Thyroid Carcinoma）、及び“thyroid cancer”が、遺伝子変異又は病気に関する固有表現として抽出されている。抽出されたテキストは、マーカにより強調表示される。

“p.R122W”は、特定の遺伝子変異を表す語句であり、“FNMTC”及び“thyroid cancer”は、特定の病気を表す語句である。“p.R122W”には、“Mutation”というタグが付与されており、“FNMTC”及び“thyroid cancer”には、“Disease”というタグが付与されている。さらに、“p.R122W”と“FNMTC”の間の関係として、“Pathogenic”の矢印が表示されており、“p.R122W”と“thyroid cancer”の間の関係として、“Pathogenic”の矢印が表示されている。

キュレータは、これらのタグ及び関係から、“p.R122W”という遺伝子変異が“FNMTC”及び“thyroid cancer”という病気の原因になっていることを認識して、それらの知識をデータベースに登録する。また、キュレータは、各固有表現に付与されたタグ及び関係に基づいて、自然言語処理の処理結果に誤りが含まれているか否かを確認することができる。処理結果の誤りとしては、固有表現の抽出漏れ、固有表現の抽出誤り、タグ又は関係の誤り等が挙げられる。

ここで、医療分野の論文から固有表現を抽出し、抽出された固有表現に注釈を付与する、自然言語処理の解析モデルを生成する場合を想定する。このような解析モデルの学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の論文であり、出力データは、付加情報が付加された論文である。付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。

解析モデルを用いたキュレーションにおいて、キュレータが知識をデータベースに登録する際に、自然言語処理の誤りを修正し、修正結果を解析モデルの学習データとして採用することも可能である。これにより、解析モデルによる自然言語処理の精度が徐々に向上し、キュレータの確認作業も徐々に効率化される。

例えば、解析モデルの処理結果において、“advanced gastric cancer”に“病気”というタグが付与されている場合、キュレータは、タグに対応するテキストの範囲を、“advanced gastric cancer”から“gastric cancer”に変更することができる。この場合、“advanced gastric cancer”ではなく、“gastric cancer”に“病気”というタグが付与された、学習データが生成される。

しかしながら、キュレータがせいぜい数件の変更を行った程度では、変更内容が学習結果に反映されにくい、という問題がある。その理由は、機械学習では相当量の学習データが用いられるため、せいぜい数件の変更を追加しても、学習処理では追加された変更がノイズとして扱われ、学習結果に反映されないからである。したがって、変更内容を学習結果に反映させるためには、同様の変更を大量に行うことが望ましく、キュレータの作業負荷が増加する。

図２は、実施形態の文書処理装置の機能的構成例を示している。図２の文書処理装置２０１は、記憶部２１１、推定部２１２、抽出部２１３、及び出力部２１４を含む。記憶部２１１は、文書集合に含まれる情報をユーザが変更したことを示す変更履歴２２１を記憶する。推定部２１２、抽出部２１３、及び出力部２１４は、変更履歴２２１を用いて変更支援処理を行う。

図３は、図２の文書処理装置２０１が行う変更支援処理の例を示すフローチャートである。まず、推定部２１２は、変更履歴２２１に基づいて、文書集合に対してユーザが行う変更の変更対象を推定する（ステップ３０１）。次に、抽出部２１３は、変更対象に対応するテキストを文書集合から抽出する（ステップ３０２）。そして、出力部２１４は、文書集合から抽出されたテキストを示す変更候補情報を出力する（ステップ３０３）。

図２の文書処理装置２０１によれば、文書集合の情報を変更する変更作業を効率化することができる。

図４は、図２の文書処理装置２０１の具体例を示している。図４の文書処理装置４０１は、記憶部４１１、解析部４１２、推定部４１３、抽出部４１４、分類部４１５、変更部４１６、生成部４１７、及び出力部４１８を含む。記憶部４１１、推定部４１３、抽出部４１４、及び出力部４１８は、図２の記憶部２１１、推定部２１２、抽出部２１３、及び出力部２１４にそれぞれ対応する。

記憶部４１１は、解析モデル４２１及び解析前文書集合４２２を記憶する。解析モデル４２１は、機械学習により生成された自然言語処理の学習済みモデルであり、解析対象の文書を解析して、付加情報を含む解析結果を生成する。解析前文書集合４２２は、解析対象の複数の文書を含み、各文書は、複数の部分文書を含む。部分文書は、章、段落、文等に対応する。

解析部４１２は、解析モデル４２１を用いて、解析前文書集合４２２に含まれる各文書を解析することで、付加情報が付加された文書を生成する。そして、解析部４１２は、生成された文書を含む解析後文書集合４２３を生成して、記憶部４１１に格納する。

医療分野のキュレーションの場合、解析前文書集合４２２は、例えば、医療分野の論文の集合であり、解析後文書集合４２３は、例えば、付加情報が付加された論文の集合である。この場合、付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。

ユーザは、文書処理装置４０１が有するユーザインタフェース、又は文書処理装置４０１と通信可能な端末装置を介して、解析後文書集合４２３に含まれる文書を編集することができる。

出力部４１８は、表示装置又は通信装置であり、解析後文書集合４２３からユーザによって選択された文書を出力する。出力部４１８が表示装置である場合、出力部４１８は、ユーザによって選択された文書を画面上に表示する。出力部４１８が通信装置である場合、出力部４１８は、ユーザによって選択された文書を、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置４０１から受信した文書を画面上に表示する。

ユーザは、画面上に表示された文書に付加された付加情報を参照して、所望の変更操作を行う。このとき、ユーザは、付加情報を変更する変更指示を文書処理装置４０１に入力することで、その付加情報に対する変更操作を行う。変更部４１６は、入力された変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部４１６は、変更内容を変更事例として含む変更履歴４２４を生成して、記憶部４１１に格納する。これにより、ユーザが行った変更操作を示す複数の変更事例が、変更履歴４２４に蓄積される。変更履歴４２４は、図２の変更履歴２２１に対応する。

推定部４１３は、変更履歴４２４に含まれる各変更事例を、複数の変更種類のいずれかに分類し、各変更事例に基づいて、解析後文書集合４２３に対してユーザが次に行う変更操作の変更対象を、変更種類毎に推定する。抽出部４１４は、変更種類毎の変更対象に対応するテキストを解析後文書集合４２３から検索し、変更種類毎の変更候補として抽出する。

変更種類としては、固有表現の範囲の短縮、固有表現の範囲の延長、固有表現の種類の変更、固有表現の追加、固有表現の削除、関係の追加、関係の削除、関係の種類の変更等を用いることができる。変更対象は、変更事例が示す変更前のテキストを特定するとともに、変更前のテキストの一部の語句又はその同義語を含み、かつ、変更前のテキストとは異なるテキストを特定する情報である。各変更種類の変更事例と変更事例から推定される変更対象の具体例は、以下の通りである。

（Ｃ１）固有表現の範囲の短縮
固有表現のテキストの範囲が短縮される。変更事例としては、例えば、“advanced gastric cancer：薬”を“gastric cancer：薬”に変更する事例が挙げられる。“advanced gastric cancer：薬”は、変更前の固有表現の範囲が“advanced gastric cancer”であり、“advanced gastric cancer”に付与されたタグが“薬”であることを表す。一方、“gastric cancer：薬”は、変更後の固有表現の範囲が“gastric cancer”であり、“gastric cancer”に付与されたタグが“薬”であることを表す。

固有表現の範囲の短縮の場合、変更後の固有表現の末尾の語句又はその同義語を含み、変更後の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。同義語は、シソーラスにより決定される。この場合、変更候補の種類は、固有表現である。

“advanced gastric cancer：薬”を“gastric cancer：薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer：薬”を用いることができる。“*”は、任意の文字列を表す。したがって、“薬”というタグが付与された“advanced gastric cancer”、“progressive gastric cancer”等の固有表現が、変更候補として抽出される。

変更対象としては、“* cancer：薬”を用いることもできる。この場合、“advanced gastric cancer”、“progressive gastric cancer”等の固有表現に加えて、“advanced colon cancer”、“progressive colon cancer”等の固有表現も、変更候補として抽出される。

（Ｃ２）固有表現の範囲の延長
固有表現のテキストの範囲が延長される。変更事例としては、例えば、“gastric cancer：薬”を“advanced gastric cancer：薬”に変更する事例が挙げられる。固有表現の範囲の延長の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。

“gastric cancer：薬”を“advanced gastric cancer：薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer：薬”又は“* cancer：薬”を用いることができる。

（Ｃ３）固有表現の種類の変更
固有表現のタグが変更される。変更事例としては、例えば、“gastric cancer：薬”を“gastric cancer：がん”に変更する事例が挙げられる。固有表現の種類の変更の場合、変更前後の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。

“gastric cancer：薬”を“gastric cancer：がん”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer：薬”又は“* cancer：薬”を用いることができる。

（Ｃ４）固有表現の追加
固有表現のテキストの範囲とタグが、付加情報に追加される。変更事例としては、例えば、“-”を“nivolumab：薬”に変更する事例が挙げられる。“-”は、変更前の固有表現の範囲が指定されていないことを表す。一方、“nivolumab：薬”は、変更後の固有表現の範囲が“nivolumab”であり、“nivolumab”に付与されたタグが“薬”であることを表す。

固有表現の追加の場合、変更後の固有表現の末尾の語句又はその同義語を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。この場合、変更候補の種類は、文字列である。

“-”を“nivolumab：薬”に変更する変更事例から推定される変更対象としては、例えば、“nivolumab”又は“AAAAAA”を用いることができる。“AAAAAA”は、“nivolumab”の同義語を表す。この場合、“nivolumab”又は“AAAAAA”が、変更候補として抽出される。

（Ｃ５）固有表現の削除
固有表現のテキストの範囲とタグが、付加情報から削除される。変更事例としては、例えば、“nivolumab：薬”を“-”に変更する事例が挙げられる。固有表現の削除の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。

“nivolumab：薬”を“-”に変更する変更事例から推定される変更対象としては、例えば、“* nivolumab：薬”又は“* AAAAAA：薬”を用いることができる。この場合、“薬”というタグが付与された“nivolumab”、“AAAAAA”等の固有表現が、変更候補として抽出される。

（Ｃ６）関係の追加
固有表現間の関係が付加情報に追加される。変更事例としては、例えば、“gefitinib：薬”と“lung cancer：病気”との間に“効果あり”という関係を追加する事例が挙げられる。

関係の追加の場合、関係が付与されていない固有表現Ｅ１と固有表現Ｅ２との組を、変更対象として用いることができる。固有表現Ｅ１は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現Ｅ２は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与されていない固有表現の組である。

“gefitinib：薬”と“lung cancer：病気”との間に“効果あり”という関係を追加する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib：薬”と“* cancer：病気”との組を用いることができる。ただし、関係が付与されていない組のみが、変更対象として指定される。この場合、“gefitinib：薬”と“lung cancer：病気”との組、“gefitinib：薬”と“gastric cancer：病気”との組等が、変更候補として抽出される。

（Ｃ７）関係の削除
固有表現間の関係が付加情報から削除される。変更事例としては、例えば、“gefitinib：薬”と“lung cancer：病気”との間の“効果あり”という関係を削除する事例が挙げられる。

関係の削除の場合、変更前の関係が付与された固有表現Ｅ１と固有表現Ｅ２との組を、変更対象として用いることができる。固有表現Ｅ１は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現Ｅ２は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。

“gefitinib：薬”と“lung cancer：病気”との間の“効果あり”という関係を削除する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib：薬”と“* cancer：病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。この場合、“効果あり”という関係が付与された“gefitinib：薬”と“lung cancer：病気”との組、“gefitinib：薬”と“gastric cancer：病気”との組等が、変更候補として抽出される。

（Ｃ８）関係の種類の変更
固有表現間の関係が変更される。変更事例としては、例えば、“gefitinib：薬”と“lung cancer：病気”との間の関係を“効果あり”から“効果なし”に変更する事例が挙げられる。

関係の種類の変更の場合、変更前の関係が付与された固有表現Ｅ１と固有表現Ｅ２との組を、変更対象として用いることができる。固有表現Ｅ１は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現Ｅ２は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。

“gefitinib：薬”と“lung cancer：病気”との間の関係を“効果あり”から“効果なし”に変更する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib：薬”と“* cancer：病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。

（Ｃ１）～（Ｃ８）に示したような変更対象を推定結果として用いることで、変更事例が示す変更前の固有表現のみならず、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることができる。これにより、ユーザが次に行う変更操作を事前に予測して、予測結果に基づく変更候補を解析後文書集合４２３から抽出することが可能になる。

変更種類毎の変更候補が抽出された後、推定部４１３は、解析後文書集合４２３における変更種類毎の変更候補の出現頻度を求め、その出現頻度に基づいて、複数の変更種類のうち特定の変更種類を選択する。

また、推定部４１３は、変更種類毎の変更候補の出現頻度と、各文書中の各部分文書に含まれる変更種類毎の変更候補の個数とに基づいて、各部分文書の評価値を計算し、計算された評価値に基づいて、特定の部分文書を選択する。

図５は、変更履歴４２４に含まれる変更事例の分類結果の例を示している。変更ＩＤは、変更種類の識別情報であり、変更前付加情報は、変更事例が示す変更操作が行われる前の付加情報を表し、変更後付加情報は、変更事例が示す変更操作が行われた後の付加情報を表す。変更対象は、変更事例から推定される変更対象を表し、変更候補の種類は、変更対象に対応するテキストの種類を表し、事例スコア１及び事例スコア２は、変更種類の評価値を表す。

変更ＩＤ“１”は、固有表現の範囲の短縮を示し、“progressive gastric cancer：病気”を“gastric cancer：病気”に変更する変更事例が、変更ＩＤ“１”に分類されている。この例では、“* gastric cancer：病気”が変更対象に決定される。

変更ＩＤ“２”は、固有表現の種類の変更を示し、“AAAAAA：製品”を“AAAAAA：薬品”に変更する変更事例が、変更ＩＤ“２”に分類されている。この例では、“* AAAAAA：製品”又は“nivolumab：製品”が変更対象に決定される。

変更ＩＤ“３”は、固有表現の追加を示し、“-”を“nivolumab：薬”に変更する変更事例が、変更ＩＤ“３”に分類されている。この例では、“nivolumab”又は“AAAAAA”が変更対象に決定される。

変更ＩＤ“４”は、固有表現の削除を示し、“tumor：病気”を“-”に変更する変更事例が、変更ＩＤ“４”に分類されている。この例では、“* tumor：病気”が変更対象に決定される。

変更ＩＤ“５”は、関係の削除を示し、“gefitinib：薬”と“lung cancer：病気”との間の“=>”という関係を削除する変更事例が、変更ＩＤ“５”に分類されている。この例では、“=>”という関係が付与された“* gefitinib：薬”と“* lung cancer：病気”との組が、変更対象に決定される。

図６は、部分文書の一例である段落の評価値の例を示している。段落ＩＤは、解析後文書集合４２３に含まれる各文書中の各段落の識別情報であり、段落スコアは、段落の評価値を表す。変更ＩＤは、段落から抽出された変更候補に対応する変更種類の変更ＩＤを表す。図６の例では、簡単のため、段落“１”～段落“４”のみが示されているが、解析後文書集合４２３には、より多くの段落が含まれていてもよい。

推定部４１３は、各段落から抽出された変更候補毎に、変更候補に対応する変更対象を特定し、特定された変更対象が属する変更種類の変更ＩＤを求める。例えば、段落“１”には、変更ＩＤ“１”、変更ＩＤ“２”、及び変更ＩＤ“４”それぞれに対応する変更候補が１個ずつ含まれている。また、段落“２”には、変更ＩＤ“３”及び変更ＩＤ“４”それぞれに対応する変更候補が１個ずつ含まれている。

推定部４１３は、すべての段落から抽出されたすべての変更候補の変更ＩＤを基に、各変更種類の変更候補の出現頻度を求め、求めた出現頻度を、図５の事例スコア１として記録する。例えば、変更ＩＤ“１”は、段落“１”、段落“３”、及び段落“４”に１個ずつ含まれているため、変更ＩＤ“１”の事例スコア１は“３”となる。また、変更ＩＤ“２”は、段落“１”に１個だけ含まれているため、変更ＩＤ“２”の事例スコア１は“１”となる。

次に、推定部４１３は、各段落に含まれる変更ＩＤの事例スコア１の合計を、図６の段落スコアとして記録する。例えば、段落“１”の段落スコアは、変更ＩＤ“１”、変更ＩＤ“２”、及び変更ＩＤ“４”の事例スコア１の合計であり、段落スコアは“８”となる。また、段落“２”の段落スコアは、変更ＩＤ“３”及び変更ＩＤ“４”の事例スコア１の合計であり、段落スコアは“７”となる。

次に、推定部４１３は、各変更ＩＤの変更候補を含む段落の段落スコアの合計を求め、段落スコアの合計に変更ＩＤの事例スコア１を乗算することで、事例スコア２を計算する。

例えば、変更ＩＤ“１”は、段落“１”、段落“３”、及び段落“４”に含まれているため、段落スコアの合計は、８＋１１＋１０＝２９となる。そして、変更ＩＤ“１”の事例スコア１は“３”であるため、変更ＩＤ“１”の事例スコア２は、３＊２９＝８７となる。

また、変更ＩＤ“２”は、段落“１”だけに含まれているため、段落スコアの合計は、“８”となる。そして、変更ＩＤ“２”の事例スコア１は“１”であるため、変更ＩＤ“２”の事例スコア２は、１＊８＝８となる。

次に、推定部４１３は、事例スコア２が大きい順に変更種類を選択するとともに、段落スコアが大きい順にＭ件（Ｍは１以上の整数）の段落を、特定の部分文書として選択する。

生成部４１７は、選択された特定の部分文書を強調表示する情報を含む変更候補情報を生成し、出力部４１８は、生成された変更候補情報を出力する。

出力部４１８が表示装置である場合、出力部４１８は、特定の部分文書を含む文書を画面上に表示し、特定の部分文書のテキストを強調表示する。強調表示の形態としては、テキストの表示色の変更、テキストに対するマーカ又は囲み枠の追加等を用いることができる。出力部４１８が通信装置である場合、出力部４１８は、特定の部分文書を含む文書と変更候補情報とを、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置４０１から受信した文書を画面上に表示し、特定の部分文書のテキストを強調表示する。

図７は、強調表示された部分文書の例を示している。“BBB mutation”、“gastric cancer”、“celecoxib”、“advanced gastric cancer”、“gefitinib”、“bladder cancer”、及び“lung cancer”は変更候補を表し、段落７０１は、強調表示された部分文書を表す。段落７０１は、表示色の変更、マーカ、囲み枠等により強調表示される。

例えば、“gastric cancer”及び“advanced gastric cancer”は、“* gastric cancer：病気”という変更対象に対応する変更候補である。この変更対象は、例えば、“progressive gastric cancer：病気”を“gastric cancer：病気”に変更する変更事例から推定される。

“gastric cancer”及び“advanced gastric cancer”に付与されたタグ“病気”は、各変更候補のテキストをクリックすることで、画面上に表示される。また、変更候補間の関係は、変更候補間の矢印をクリックすることで、画面上に表示される。

ユーザは、強調表示された段落中の変更候補と、その変更候補に付与されたタグと、変更候補間の関係とを確認し、それらの付加情報に対する所望の変更操作を行う。変更部４１６は、ユーザが入力した変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部４１６は、変更内容を示す変更事例を変更履歴４２４に追加する。

このように、推定部４１３及び抽出部４１４を設けることで、ユーザが解析後文書集合４２３に含まれる付加情報を変更した場合、変更事例に関連する変更候補が自動的に抽出されて、ユーザに提示される。提示される変更候補は、解析後文書集合４２３内で変更事例とは異なる位置に出現する、変更事例と同じテキストである場合もあり、変更事例と類似しているが微妙に異なるテキストである場合もある。

ユーザは、提示された変更候補を確認して変更するだけで、解析後文書集合４２３に対して、変更事例と同様の変更操作を行うことができる。したがって、新たな変更候補を手作業で検索する必要がなくなり、変更作業が効率化される。この場合、強調表示された部分文書中の変更候補が変更される可能性が高くなり、それ以外の部分文書中の変更候補が変更される可能性は低くなる。

例えば、医療分野のキュレーションの場合、ユーザであるキュレータは、過去に変更した付加情報と同様の付加情報を変更する可能性が高い。

一例として、キュレータが、“病気”というタグが付与された固有表現の範囲を、“advanced gastric cancer”から“gastric cancer”に変更し、さらに、いくつかの病気についても、修飾表現をタグの付与対象から除外した場合を想定する。この場合、そのキュレータは、病気の修飾表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。

別の例として、キュレータが、“病気”というタグが付与された“melancholia”（鬱病）、“postpartum depression”（産後鬱）等の固有表現を、タグの付与対象から除外した場合を想定する。この場合、そのキュレータは、精神病に興味を持っていないという理由により、精神病に関する表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。

さらに別の例として、キュレータが、“薬”というタグが付与された“gefitinib”に関する固有表現間の関係をいくつか削除した場合を想定する。この場合、ＦＤＡ（Food and Drug Administration）によるgefitinibの認定が取り消されたという理由により、そのキュレータは、“薬”というタグが付与された“gefitinib”に関するあらゆる関係を削除する変更操作を繰り返す可能性がある。

したがって、ユーザが過去に行った変更操作を示す変更事例に基づいて変更対象を推定することで、ユーザが変更する可能性の高い変更候補を抽出して提示することが可能になる。変更候補をユーザに提示し、ユーザが実際に変更した変更候補を変更事例として変更履歴４２４に追加することで、ユーザによる変更操作の情報が蓄積され、変更対象の推定精度が向上する。

変更候補をユーザに提示する際に、各部分文書に含まれる変更候補の個数に基づいて部分文書の評価値を計算し、部分文書の評価値に基づいて、強調表示される部分文書を選択することで、より多くの変更候補を含む部分文書を優先的に提示することができる。したがって、ユーザは、提示された部分文書に対する複数の変更操作を集中的に行うことができ、変更作業がさらに効率化される。

上述した（Ｃ１）～（Ｃ８）のような変更種類毎に変更対象を推定することで、変更種類の特徴に応じた適切な変更候補を提示することが可能になる。例えば、“advanced gastric cancer：薬”が“gastric cancer：薬”に変更された場合、“advanced gastric cancer：薬”、“advanced colon cancer：薬”、“progressive colon cancer：薬”等が、変更候補として提示される。

また、“gastric cancer：病気”が“gastric cancer：がん”に変更された場合、“gastric cancer：病気”、“colon cancer：病気”等が、変更候補として提示される。“gefitinib：薬”と“lung cancer：病気”との間の関係が削除された場合、同じ関係が付与された“gefitinib：薬”と“lung cancer：病気”との組、“gefitinib：薬”と“colorectal cancer：病気”との組等が、変更候補として提示される。

なお、強調表示された部分文書に含まれる変更候補は、ユーザが変更する可能性の高い変更候補であるが、必ずしもユーザが希望する変更候補であるとは限らない。強調表示された部分文書の変更候補を変更する必要がない場合、ユーザは、変更操作を行うことなく、文書処理装置４０１に対して別の変更候補の提示を要求する。この場合、文書処理装置４０１は、次に大きな段落スコアを有する部分文書を強調表示する。

図５の変更事例では、解析後文書集合４２３に含まれる文書のテキストに付加された付加情報が変更されているが、ユーザは、任意の文書集合に含まれる文書のテキスト自体を変更することもできる。ユーザが文書のテキストを変更した場合も、付加情報が変更された場合と同様にして、変更事例に関連する変更候補が自動的に抽出され、ユーザに提示される。

変更候補が自動的に抽出されてユーザに提示されたとしても、ユーザが提示された多数の変更候補を１つずつ確認して変更する場合、ユーザの作業負荷が増加する。したがって、ユーザが同様の変更を数件程度行うだけで、その変更内容が解析後文書集合４２３全体に反映されることが望ましい。

そこで、分類部４１５は、解析後文書集合４２３から抽出された変更候補のテキストを、そのテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。

例えば、分類部４１５は、推定部４１３により選択された変更種類の変更候補を、その変更候補の前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。各クラスタには、１つ以上の変更候補が含まれる。そして、分類部４１５は、生成されたクラスタを、分類結果４２５として記憶部４１１に格納する。

クラスタリングのアルゴリズムとしては、階層型クラスタリング又は非階層型クラスタリングを用いることができる。例えば、非階層型クラスタリングの一例であるｋ－ｍｅａｎｓ法を採用した場合、以下の手順で分類結果４２５を生成することができる。
（Ｐ１１）分類部４１５は、変更候補のテキストの前後のＷ個（Ｗは１以上の整数）の単語を、bag of wordsによりベクトル化することで、変更候補の周辺の文脈を表す単語ベクトルを生成する。
（Ｐ１２）分類部４１５は、ｋ－ｍｅａｎｓ法により、生成された単語ベクトルをＣ個（Ｃは２以上の整数）のクラスタに分類する。ｋ－ｍｅａｎｓ法の距離関数としては、特徴ベクトル間のコサイン距離、ユークリッド距離、マハラノビス距離等を用いることができる。

図８は、変更候補から生成された単語ベクトルの例を示している。出現位置ＩＤは、解析後文書集合４２３における変更候補の識別情報であり、直前のＷ単語は、文書中で変更候補の直前に出現するＷ個の単語を表し、直後のＷ単語は、文書中で変更候補の直後に出現するＷ個の単語を表す。この例では、Ｗ＝３である。単語ベクトルは、直前のＷ単語及び直後のＷ単語から、bag of wordsにより生成された単語ベクトルを表す。

例えば、出現位置ＩＤ“１”の変更候補の直前には、“ａａ”、“ｂｂ”、及び“ｃｃ”の３個の単語が出現し、直後には、“ｄｄ”、“ｅｅ”、及び“ｆｆ”の３個の単語が出現する。出現位置ＩＤ“２”の変更候補の直前には、“ｄｄ”、“ｅｅ”、及び“ｇｇ”の３個の単語が出現し、直後には、“ａａ”、“ｅｅ”、及び“ｃｃ”の３個の単語が出現する。出現位置ＩＤ“３”の変更候補の直前には、“ａａ”、“ｂｂ”、及び“ｄｄ”の３個の単語が出現し、直後には、“ｅｅ”、“ｆｆ”、及び“ｇｇ”の３個の単語が出現する。

単語ベクトルの各要素は、［ａａ，ｂｂ，ｃｃ，ｄｄ，ｅｅ，ｆｆ，ｇｇ］の順で、各単語の出現回数を表す。例えば、出現位置ＩＤ“１”の直前のＷ単語及び直後のＷ単語には、“ａａ”、“ｂｂ”、“ｃｃ”、“ｄｄ”、“ｅｅ”、及び“ｆｆ”が１回ずつ出現し、“ｇｇ”が出現していないため、単語ベクトルは［１，１，１，１，１，１，０］となる。

変更部４１６は、分類結果４２５に含まれるＣ個のクラスタのうち、特定のクラスタに属する変更候補の付加情報をユーザが変更した場合、その変更操作に従って付加情報を変更するとともに、同じクラスタに属する他の変更候補の付加情報も同様に変更する。そして、変更部４１６は、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴４２４に追加する。これにより、ユーザが行った変更操作が、同じクラスタに属する他の変更候補にも自動的に反映される。

このように、分類部４１５を設けることで、同じ変更種類に属する変更候補であっても、周辺の文脈に応じて各変更候補を異なるクラスタに分類することができる。ユーザは各クラスタに含まれる変更候補のうち、強調表示された部分文書に含まれる代表的な変更候補を変更するだけで、同じクラスタに属する他の変更候補も同時に変更することが可能になる。

ところで、クラスタリングには長い時間がかかることが多く、速い場合であっても、Ｎ個の変更候補に対する計算量は、Ｏ（Ｎ＾２）である。変更対象として、変更事例が示す変更前の固有表現のみを用いた場合、ユーザが、前回とは異なる変更候補を対象とする新たな変更操作を行う度に、その変更候補の検索及びクラスタリングが実行される。この場合、新たな変更操作を行う度に、クラスタリングの終了を待ち合わせる待ち時間が発生し、作業効率が低下する。

例えば、ユーザが“advanced gastric cancer：薬”を“gastric cancer：薬”に変更する第１の変更操作を行った場合、解析後文書集合４２３の他の部分から、“advanced gastric cancer：薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第２の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。

次に、ユーザが“advanced colon cancer：薬”を“colon cancer：薬”に変更する第３の変更操作を行った場合、解析後文書集合４２３の他の部分から、“advanced colon cancer：薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第４の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。この場合、第３の変更操作から第４の変更操作までの間に待ち時間が発生し、作業効率が低下する。

これに対して、上述したように、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることで、変更前の固有表現と類似する固有表現についても、先回りして検索及びクラスタリングを終了しておくことが可能になる。したがって、変更前の固有表現のみを変更対象として用いた場合よりも、作業効率が向上する。

例えば、ユーザが第１の変更操作を行った場合、解析後文書集合４２３の他の部分から、“advanced gastric cancer：薬”とともに“advanced colon cancer：薬”も検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。

この場合、提示される変更候補には、“advanced gastric cancer：薬”及び“advanced colon cancer：薬”が含まれているため、ユーザは、両方の変更候補を変更することができる。これにより、ユーザは第２の変更操作及び第４の変更操作を同時に行うことができ、第３の変更操作から第４の変更操作までの間の待ち時間が発生しない。したがって、“advanced gastric cancer：薬”のみを変更対象として用いた場合よりも、作業効率が向上する。

分類部４１５は、事例スコア２が大きい順に選択された複数の変更種類それぞれの変更候補についてクラスタリングを行い、変更種類毎に分類結果４２５を生成することができる。同時に実行できるクラスタリング処理の個数は、文書処理装置４０１の性能によって決定される。例えば、文書処理装置４０１がＰ個（Ｐは１以上の整数）のクラスタリング処理を同時に実行できる場合、分類部４１５は、事例スコア２が大きい順に選択されたＰ個の変更種類について、クラスタリング処理を実行する。

事例スコア２が大きい順に変更種類を選択することで、より多くの変更候補を含む変更種類のクラスタリングを優先的に実行することができる。したがって、ユーザが変更する可能性の高い変更候補のクラスタリングを早く終了して、その変更候補をユーザに提示することができる。

ユーザによる解析後文書集合４２３の編集が終了すると、解析後文書集合４２３は、解析モデル４２１に対する新たな学習データとして用いられる。文書処理装置４０１は、機械学習により、解析モデル４２１に解析後文書集合４２３を学習させることで、解析モデル４２１のパラメータを調整して、解析モデル４２１を更新する。これにより、解析後文書集合４２３の編集結果を解析モデル４２１に反映させることができる。

図９は、図４の文書処理装置４０１が行う変更支援処理の具体例を示すフローチャートである。まず、変更部４１６は、ユーザから編集画面のリクエストを受け付け（ステップ８０１）、文書処理装置４０１は、解析後文書集合４２３の編集画面を生成する（ステップ８０２）。そして、出力部４１８は、生成された編集画面を出力する（ステップ８０３）。

次に、変更部４１６は、編集画面に含まれる変更候補に対するユーザからの変更指示を、その変更候補に対する変更操作として受け付け、受け付けた変更操作に従って変更候補の付加情報を変更する（ステップ８０４）。そして、変更部４１６は、その変更候補と同じクラスタに属する他の変更候補の付加情報も同様に変更し、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴４２４に追加する。

図１０は、図９のステップ８０２における編集画面生成処理の例を示すフローチャートである。まず、推定部４１３は、変更履歴４２４に含まれる変更事例に基づいて、変更種類毎に、ユーザが次に行う変更操作の変更対象を推定する（ステップ９０１）。そして、抽出部４１４は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合４２３から抽出する。

次に、分類部４１５は、特定の変更種類に属する変更候補をクラスタリングして、複数のクラスタを含む分類結果４２５を生成する（ステップ９０２）。次に、推定部４１３は、解析後文書集合４２３に含まれる各段落の段落スコアに基づいて、特定の段落を選択する（ステップ９０３）。そして、生成部４１７は、特定の段落を強調表示する情報を含む変更候補情報を生成し、出力部４１８は、特定の段落を含む文書と生成された変更候補情報とを含む編集画面を出力する（ステップ９０４）。

図１１は、図１０のステップ９０１における推定処理の例を示すフローチャートである。まず、推定部４１３は、変更履歴４２４に含まれる最近のＫ個（Ｋは１以上の整数）の変更事例を選択し、選択された各変更事例を、複数の変更種類のいずれかに分類する（ステップ１００１）。Ｋとしては、例えば、１０～１００の範囲の整数を用いることができる。

次に、推定部４１３は、変更種類毎に変更対象を推定し、抽出部４１４は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合４２３から抽出する（ステップ１００２）。

次に、推定部４１３は、変更種類毎に抽出された変更候補に基づいて、各変更種類の事例スコア１を計算し（ステップ１００３）、事例スコア１を用いて各段落の段落スコアを計算する（ステップ１００４）。そして、推定部４１３は、事例スコア１及び段落スコアを用いて、各変更種類の事例スコア２を計算し（ステップ１００５）、事例スコア２を用いて特定の変更種類を選択する（ステップ１００６）。

図２の文書処理装置２０１及び図４の文書処理装置４０１の構成は一例に過ぎず、文書処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図４の文書処理装置４０１において、事前に解析後文書集合４２３が記憶部４１１に格納されている場合は、解析部４１２を省略することができる。変更候補のクラスタリングを行わない場合は、分類部４１５を省略することができる。

図３及び図９～図１１のフローチャートは一例に過ぎず、文書処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図４の文書処理装置４０１において、変更候補のクラスタリングを行わない場合は、図１０のステップ９０２の処理を省略することができる。

図１及び図８に示したテキストは一例に過ぎず、編集対象の文書としては、様々な分野の文書が用いられる。編集対象の文書は、機械学習で用いられる学習データには限られず、他の文書であってもよい。ユーザによる変更操作の対象は、文書のテキストであってもよく、文書のテキストに付加された付加情報であってもよい。

図５に示した事例スコア１及び事例スコア２は一例に過ぎず、別の計算方法により変更種類の評価値を求めてもよい。図６に示した段落スコアは一例に過ぎず、別の計算方法により部分文書の評価値を求めてもよい。図８に示した単語ベクトルは一例に過ぎず、別の方法により単語ベクトルを求めてもよい。

図１２は、図２の文書処理装置２０１及び図４の文書処理装置４０１として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図１２の情報処理装置は、ＣＰＵ（Central Processing Unit）１１０１、メモリ１１０２、入力装置１１０３、出力装置１１０４、補助記憶装置１１０５、媒体駆動装置１１０６、及びネットワーク接続装置１１０７を含む。これらの構成要素はハードウェアであり、バス１１０８により互いに接続されている。

メモリ１１０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ１１０２は、図２の記憶部２１１又は図４の記憶部４１１として用いることができる。

ＣＰＵ１１０１（プロセッサ）は、例えば、メモリ１１０２を利用してプログラムを実行することにより、図２の推定部２１２及び抽出部２１３として動作する。ＣＰＵ１１０１は、メモリ１１０２を利用してプログラムを実行することにより、図４の解析部４１２、推定部４１３、抽出部４１４、分類部４１５、変更部４１６、及び生成部４１７としても動作する。

入力装置１１０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置１１０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。ユーザからの指示は、変更操作であってもよく、処理結果は、強調表示された部分文書であってもよい。出力装置１１０４は、図２の出力部２１４又は図４の出力部４１８として用いることができる。

補助記憶装置１１０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１１０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置１１０５にプログラム及びデータを格納しておき、それらをメモリ１１０２にロードして使用することができる。補助記憶装置１１０５は、図２の記憶部２１１又は図４の記憶部４１１として用いることができる。

媒体駆動装置１１０６は、可搬型記録媒体１１０９を駆動し、その記録内容にアクセスする。可搬型記録媒体１１０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１１０９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体１１０９にプログラム及びデータを格納しておき、それらをメモリ１１０２にロードして使用することができる。

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１１０２、補助記憶装置１１０５、又は可搬型記録媒体１１０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置１１０７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１１０７を介して受信し、それらをメモリ１１０２にロードして使用することができる。ネットワーク接続装置１１０７は、図２の出力部２１４又は図４の出力部４１８として用いることができる。

なお、情報処理装置が図１２のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体１１０９又は通信ネットワークを使用しない場合は、媒体駆動装置１１０６又はネットワーク接続装置１１０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図１２を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータに実行させるための文書処理プログラム。
（付記２）
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記１記載の文書処理プログラム。
（付記３）
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記１又は２記載の文書処理プログラム。
（付記４）
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理プログラムは、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
処理を前記コンピュータにさらに実行させることを特徴とする付記３記載の文書処理プログラム。
（付記５）
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記４記載の文書処理プログラム。
（付記６）
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記５記載の文書処理プログラム。
（付記７）
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記４乃至６のいずれか１項に記載の文書処理プログラム。
（付記８）
文書集合に含まれる情報をユーザが変更したことを示す変更履歴を記憶する記憶部と、
前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
を備えることを特徴とする文書処理装置。
（付記９）
前記推定部は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に、前記変更対象を推定する、
ことを特徴とする付記８記載の文書処理装置。
（付記１０）
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記８又は９記載の文書処理装置。
（付記１１）
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理装置は、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
をさらに備えることを特徴とする付記１０記載の文書処理装置。
（付記１２）
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記推定部は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に、前記変更対象を推定し、
前記抽出部は、前記種類毎の前記変更対象に対するテキストを抽出し、
前記分類部は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して、クラスタリングを実行する、
ことを特徴とする付記１１記載の文書処理装置。
（付記１３）
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記推定部は、前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記１２記載の文書処理装置。
（付記１４）
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記１１乃至１３のいずれか１項に記載の文書処理装置。
（付記１５）
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータが実行することを特徴とする文書処理方法。
（付記１６）
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記１５記載の文書処理方法。
（付記１７）
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記１５又は１６記載の文書処理方法。
（付記１８）
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記コンピュータは、さらに、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
ことを特徴とする付記１７記載の文書処理方法。
（付記１９）
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記１８記載の文書処理方法。
（付記２０）
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記１９記載の文書処理方法。
（付記２１）
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記１８乃至２０のいずれか１項に記載の文書処理方法。

２０１、４０１文書処理装置
２１１、４１１記憶部
２１２、４１３推定部
２１３、４１４抽出部
２１４、４１８出力部
２２１、４２４変更履歴
４１２解析部
４１５分類部
４１６変更部
４１７生成部
４２１解析モデル
４２２解析前文書集合
４２３解析後文書集合
４２５分類結果
７０１段落
１１０１ＣＰＵ
１１０２メモリ
１１０３入力装置
１１０４出力装置
１１０５補助記憶装置
１１０６媒体駆動装置
１１０７ネットワーク接続装置
１１０８バス
１１０９可搬型記録媒体

Claims

文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータに実行させるための文書処理プログラム。
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする請求項１記載の文書処理プログラム。
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする請求項１又は２記載の文書処理プログラム。
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする請求項１乃至３のいずれか１項に記載の文書処理プログラム。
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度であって前記複数の部分文書各々に含まれる前記テキストそれぞれについての前記出現頻度の合計を、前記複数の部分文書各々の評価値として計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする請求項４記載の文書処理プログラム。
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする請求項１乃至５のいずれか１項に記載の文書処理プログラム。
文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴を記憶する記憶部と、
前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
を備えることを特徴とする文書処理装置。
文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータが実行することを特徴とする文書処理方法。