JP7415495B2 - 文書処理プログラム、文書処理装置、及び文書処理方法 - Google Patents

文書処理プログラム、文書処理装置、及び文書処理方法 Download PDF

Info

Publication number
JP7415495B2
JP7415495B2 JP2019218049A JP2019218049A JP7415495B2 JP 7415495 B2 JP7415495 B2 JP 7415495B2 JP 2019218049 A JP2019218049 A JP 2019218049A JP 2019218049 A JP2019218049 A JP 2019218049A JP 7415495 B2 JP7415495 B2 JP 7415495B2
Authority
JP
Japan
Prior art keywords
change
text
document
user
document set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019218049A
Other languages
English (en)
Other versions
JP2021089473A (ja
Inventor
修也 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019218049A priority Critical patent/JP7415495B2/ja
Publication of JP2021089473A publication Critical patent/JP2021089473A/ja
Application granted granted Critical
Publication of JP7415495B2 publication Critical patent/JP7415495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、文書処理技術に関する。
近年、産業界等において、AI(Artificial Intelligence)技術を利用した自然言語処理が増加している。自然言語処理には、形態素解析、構文解析、意味解析、照応解析等が含まれる。AI技術を利用した自然言語処理では、例えば、以下の手順で文書解析が行われる。
(P1)ユーザは、文書集合から、機械学習のための学習データを手作業で作成する。
(P2)ユーザは、機械学習により、学習モデルに学習データを学習させることで、学習モデルのパラメータを調整して、学習済みモデルである解析モデルを生成する。
(P3)ユーザは、解析モデルを用いて未知文書を解析し、解析結果を生成する。
解析結果には、未知文書のテキストに対する付加情報が含まれる。例えば、形態素解析では、形態素間の境界位置、各形態素の品詞等が付加情報として生成される。機械学習の学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の文書であり、出力データは、付加情報が付加された文書である。
学習データの作成には多大な作業負荷が発生するため、作業負荷を軽減するために、既存の学習データを部分的に変更して別の解析モデルの生成に転用する、学習データの再利用が増加している。学習データの再利用としては、例えば、次のような利用形態が挙げられる。
(a)ユーザは、機械学習の性能向上のため、既存の学習データを見直して変更し、より正確な学習データを作成する。
(b)ユーザは、機械学習の性能向上のため、既存の学習データの変更と新たな学習データの追加を行うことで、大規模な学習データを作成する。
(c)ユーザは、独自の基準に基づいて学習データをカスタマイズするため、既存の学習データを変更する。
生物医学分野の自然言語処理に関連して、文書に含まれる固有表現に対して注釈を付与する技術が知られている(例えば、非特許文献1を参照)。
P. Stenetorp et al.,"BioNLP Shared Task 2011: Supporting Resources", Proceedings of BioNLP Shared Task 2011 Workshop, pages 112-120, 2011
機械学習では相当量の学習データが用いられるため、一部の学習データのみが変更された場合、学習処理ではその変更がノイズとして扱われ、学習結果に反映されにくい。したがって、変更内容を学習結果に確実に反映させるためには、学習データ全体にわたって同様の変更を大量に行うことが望ましく、ユーザの作業負荷が増加する。
なお、かかる問題は、自然言語処理の機械学習で用いられる学習データを変更する場合に限らず、様々な文書集合に含まれる情報を変更する場合において生ずるものである。
1つの側面において、本発明は、コンピュータが文書集合から変更候補を抽出することを目的とする。その結果、文書集合の情報を変更する変更作業が効率化される。
1つの案では、文書処理プログラムは、文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であってユーザが行った変更操作を示す変更事例を含む変更履歴に基づいて、文書集合に対してユーザが行う変更の変更対象を推定し、変更対象に対応するテキストを文書集合から抽出し、文書集合から抽出されたテキストを、文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、複数のクラスタのうち特定のクラスタに属するテキストの付加情報をユーザが変更した場合、特定のクラスタに属するテキストの付加情報に対する変更を、特定のクラスタに属する他のテキストの付加情報に反映させ、文書集合から抽出されたテキストを示す変更候補情報を出力する処理をコンピュータに実行させる。
1つの側面によれば、文書集合の情報を変更する変更作業を効率化することができる。
医療分野のキュレーションにおけるテキストを示す図である。 文書処理装置の機能的構成図である。 変更支援処理のフローチャートである。 文書処理装置の具体例を示す機能的構成図である。 変更事例の分類結果を示す図である。 段落の評価値を示す図である。 強調表示された部分文書を示す図である。 単語ベクトルを示す図である。 変更支援処理の具体例を示すフローチャートである。 編集画面生成処理のフローチャートである。 推定処理のフローチャートである。 情報処理装置のハードウェア構成図である。
以下、図面を参照しながら、実施形態を詳細に説明する。
医療分野において、病気等に関連する論文を人間が読みながら、論文中の知識をデータベースに登録する作業が行われることがある。このような作業はキュレーションと呼ばれ、作業者はキュレータと呼ばれる。
非特許文献1の技術は、キュレーションを効率化するために利用される。この技術では、自然言語処理を用いて論文中に知識が記述されている箇所が強調表示されるとともに、強調表示された箇所に、注釈が付与される。知識が記述されている箇所としては、遺伝子、遺伝子変異、薬、病気等を表す固有表現が用いられ、注釈としては、固有表現の種類を示すタグ、固有表現間の関係等が用いられる。キュレータは、強調表示された箇所を中心にテキストを確認することで、データベースを整備することができる。
図1は、医療分野のキュレーションにおいて、キュレータの端末装置の画面上に表示されるテキストの例を示している。図1のテキストは、英語で記述された医療分野の論文を表し、論文中の“p.R122W”、“FNMTC”(Familial Non-Medullary Thyroid Carcinoma)、及び“thyroid cancer”が、遺伝子変異又は病気に関する固有表現として抽出されている。抽出されたテキストは、マーカにより強調表示される。
“p.R122W”は、特定の遺伝子変異を表す語句であり、“FNMTC”及び“thyroid cancer”は、特定の病気を表す語句である。“p.R122W”には、“Mutation”というタグが付与されており、“FNMTC”及び“thyroid cancer”には、“Disease”というタグが付与されている。さらに、“p.R122W”と“FNMTC”の間の関係として、“Pathogenic”の矢印が表示されており、“p.R122W”と“thyroid cancer”の間の関係として、“Pathogenic”の矢印が表示されている。
キュレータは、これらのタグ及び関係から、“p.R122W”という遺伝子変異が“FNMTC”及び“thyroid cancer”という病気の原因になっていることを認識して、それらの知識をデータベースに登録する。また、キュレータは、各固有表現に付与されたタグ及び関係に基づいて、自然言語処理の処理結果に誤りが含まれているか否かを確認することができる。処理結果の誤りとしては、固有表現の抽出漏れ、固有表現の抽出誤り、タグ又は関係の誤り等が挙げられる。
ここで、医療分野の論文から固有表現を抽出し、抽出された固有表現に注釈を付与する、自然言語処理の解析モデルを生成する場合を想定する。このような解析モデルの学習データとしては、入力データ及び出力データの組が用いられる。入力データは、解析対象の論文であり、出力データは、付加情報が付加された論文である。付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。
解析モデルを用いたキュレーションにおいて、キュレータが知識をデータベースに登録する際に、自然言語処理の誤りを修正し、修正結果を解析モデルの学習データとして採用することも可能である。これにより、解析モデルによる自然言語処理の精度が徐々に向上し、キュレータの確認作業も徐々に効率化される。
例えば、解析モデルの処理結果において、“advanced gastric cancer”に“病気”というタグが付与されている場合、キュレータは、タグに対応するテキストの範囲を、“advanced gastric cancer”から“gastric cancer”に変更することができる。この場合、“advanced gastric cancer”ではなく、“gastric cancer”に“病気”というタグが付与された、学習データが生成される。
しかしながら、キュレータがせいぜい数件の変更を行った程度では、変更内容が学習結果に反映されにくい、という問題がある。その理由は、機械学習では相当量の学習データが用いられるため、せいぜい数件の変更を追加しても、学習処理では追加された変更がノイズとして扱われ、学習結果に反映されないからである。したがって、変更内容を学習結果に反映させるためには、同様の変更を大量に行うことが望ましく、キュレータの作業負荷が増加する。
図2は、実施形態の文書処理装置の機能的構成例を示している。図2の文書処理装置201は、記憶部211、推定部212、抽出部213、及び出力部214を含む。記憶部211は、文書集合に含まれる情報をユーザが変更したことを示す変更履歴221を記憶する。推定部212、抽出部213、及び出力部214は、変更履歴221を用いて変更支援処理を行う。
図3は、図2の文書処理装置201が行う変更支援処理の例を示すフローチャートである。まず、推定部212は、変更履歴221に基づいて、文書集合に対してユーザが行う変更の変更対象を推定する(ステップ301)。次に、抽出部213は、変更対象に対応するテキストを文書集合から抽出する(ステップ302)。そして、出力部214は、文書集合から抽出されたテキストを示す変更候補情報を出力する(ステップ303)。
図2の文書処理装置201によれば、文書集合の情報を変更する変更作業を効率化することができる。
図4は、図2の文書処理装置201の具体例を示している。図4の文書処理装置401は、記憶部411、解析部412、推定部413、抽出部414、分類部415、変更部416、生成部417、及び出力部418を含む。記憶部411、推定部413、抽出部414、及び出力部418は、図2の記憶部211、推定部212、抽出部213、及び出力部214にそれぞれ対応する。
記憶部411は、解析モデル421及び解析前文書集合422を記憶する。解析モデル421は、機械学習により生成された自然言語処理の学習済みモデルであり、解析対象の文書を解析して、付加情報を含む解析結果を生成する。解析前文書集合422は、解析対象の複数の文書を含み、各文書は、複数の部分文書を含む。部分文書は、章、段落、文等に対応する。
解析部412は、解析モデル421を用いて、解析前文書集合422に含まれる各文書を解析することで、付加情報が付加された文書を生成する。そして、解析部412は、生成された文書を含む解析後文書集合423を生成して、記憶部411に格納する。
医療分野のキュレーションの場合、解析前文書集合422は、例えば、医療分野の論文の集合であり、解析後文書集合423は、例えば、付加情報が付加された論文の集合である。この場合、付加情報は、各固有表現のテキストの範囲と、各固有表現に対するタグと、固有表現間の関係とを含む。
ユーザは、文書処理装置401が有するユーザインタフェース、又は文書処理装置401と通信可能な端末装置を介して、解析後文書集合423に含まれる文書を編集することができる。
出力部418は、表示装置又は通信装置であり、解析後文書集合423からユーザによって選択された文書を出力する。出力部418が表示装置である場合、出力部418は、ユーザによって選択された文書を画面上に表示する。出力部418が通信装置である場合、出力部418は、ユーザによって選択された文書を、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置401から受信した文書を画面上に表示する。
ユーザは、画面上に表示された文書に付加された付加情報を参照して、所望の変更操作を行う。このとき、ユーザは、付加情報を変更する変更指示を文書処理装置401に入力することで、その付加情報に対する変更操作を行う。変更部416は、入力された変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部416は、変更内容を変更事例として含む変更履歴424を生成して、記憶部411に格納する。これにより、ユーザが行った変更操作を示す複数の変更事例が、変更履歴424に蓄積される。変更履歴424は、図2の変更履歴221に対応する。
推定部413は、変更履歴424に含まれる各変更事例を、複数の変更種類のいずれかに分類し、各変更事例に基づいて、解析後文書集合423に対してユーザが次に行う変更操作の変更対象を、変更種類毎に推定する。抽出部414は、変更種類毎の変更対象に対応するテキストを解析後文書集合423から検索し、変更種類毎の変更候補として抽出する。
変更種類としては、固有表現の範囲の短縮、固有表現の範囲の延長、固有表現の種類の変更、固有表現の追加、固有表現の削除、関係の追加、関係の削除、関係の種類の変更等を用いることができる。変更対象は、変更事例が示す変更前のテキストを特定するとともに、変更前のテキストの一部の語句又はその同義語を含み、かつ、変更前のテキストとは異なるテキストを特定する情報である。各変更種類の変更事例と変更事例から推定される変更対象の具体例は、以下の通りである。
(C1)固有表現の範囲の短縮
固有表現のテキストの範囲が短縮される。変更事例としては、例えば、“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する事例が挙げられる。“advanced gastric cancer:薬”は、変更前の固有表現の範囲が“advanced gastric cancer”であり、“advanced gastric cancer”に付与されたタグが“薬”であることを表す。一方、“gastric cancer:薬”は、変更後の固有表現の範囲が“gastric cancer”であり、“gastric cancer”に付与されたタグが“薬”であることを表す。
固有表現の範囲の短縮の場合、変更後の固有表現の末尾の語句又はその同義語を含み、変更後の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。同義語は、シソーラスにより決定される。この場合、変更候補の種類は、固有表現である。
“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”を用いることができる。“*”は、任意の文字列を表す。したがって、“薬”というタグが付与された“advanced gastric cancer”、“progressive gastric cancer”等の固有表現が、変更候補として抽出される。
変更対象としては、“* cancer:薬”を用いることもできる。この場合、“advanced gastric cancer”、“progressive gastric cancer”等の固有表現に加えて、“advanced colon cancer”、“progressive colon cancer”等の固有表現も、変更候補として抽出される。
(C2)固有表現の範囲の延長
固有表現のテキストの範囲が延長される。変更事例としては、例えば、“gastric cancer:薬”を“advanced gastric cancer:薬”に変更する事例が挙げられる。固有表現の範囲の延長の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
“gastric cancer:薬”を“advanced gastric cancer:薬”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”又は“* cancer:薬”を用いることができる。
(C3)固有表現の種類の変更
固有表現のタグが変更される。変更事例としては、例えば、“gastric cancer:薬”を“gastric cancer:がん”に変更する事例が挙げられる。固有表現の種類の変更の場合、変更前後の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
“gastric cancer:薬”を“gastric cancer:がん”に変更する変更事例から推定される変更対象としては、例えば、“* gastric cancer:薬”又は“* cancer:薬”を用いることができる。
(C4)固有表現の追加
固有表現のテキストの範囲とタグが、付加情報に追加される。変更事例としては、例えば、“-”を“nivolumab:薬”に変更する事例が挙げられる。“-”は、変更前の固有表現の範囲が指定されていないことを表す。一方、“nivolumab:薬”は、変更後の固有表現の範囲が“nivolumab”であり、“nivolumab”に付与されたタグが“薬”であることを表す。
固有表現の追加の場合、変更後の固有表現の末尾の語句又はその同義語を、変更対象として用いることができる。変更後の固有表現の末尾の語句は、変更前の固有表現の一部でもある。この場合、変更候補の種類は、文字列である。
“-”を“nivolumab:薬”に変更する変更事例から推定される変更対象としては、例えば、“nivolumab”又は“AAAAAA”を用いることができる。“AAAAAA”は、“nivolumab”の同義語を表す。この場合、“nivolumab”又は“AAAAAA”が、変更候補として抽出される。
(C5)固有表現の削除
固有表現のテキストの範囲とタグが、付加情報から削除される。変更事例としては、例えば、“nivolumab:薬”を“-”に変更する事例が挙げられる。固有表現の削除の場合、変更前の固有表現の末尾の語句又はその同義語を含み、変更前の固有表現と同じタグが付与された固有表現を、変更対象として用いることができる。この場合、変更候補の種類は、固有表現である。
“nivolumab:薬”を“-”に変更する変更事例から推定される変更対象としては、例えば、“* nivolumab:薬”又は“* AAAAAA:薬”を用いることができる。この場合、“薬”というタグが付与された“nivolumab”、“AAAAAA”等の固有表現が、変更候補として抽出される。
(C6)関係の追加
固有表現間の関係が付加情報に追加される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間に“効果あり”という関係を追加する事例が挙げられる。
関係の追加の場合、関係が付与されていない固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与されていない固有表現の組である。
“gefitinib:薬”と“lung cancer:病気”との間に“効果あり”という関係を追加する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、関係が付与されていない組のみが、変更対象として指定される。この場合、“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“gastric cancer:病気”との組等が、変更候補として抽出される。
(C7)関係の削除
固有表現間の関係が付加情報から削除される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間の“効果あり”という関係を削除する事例が挙げられる。
関係の削除の場合、変更前の関係が付与された固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。
“gefitinib:薬”と“lung cancer:病気”との間の“効果あり”という関係を削除する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。この場合、“効果あり”という関係が付与された“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“gastric cancer:病気”との組等が、変更候補として抽出される。
(C8)関係の種類の変更
固有表現間の関係が変更される。変更事例としては、例えば、“gefitinib:薬”と“lung cancer:病気”との間の関係を“効果あり”から“効果なし”に変更する事例が挙げられる。
関係の種類の変更の場合、変更前の関係が付与された固有表現E1と固有表現E2との組を、変更対象として用いることができる。固有表現E1は、変更前の一方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。固有表現E2は、変更前の他方の固有表現の末尾の語句又はその同義語を含み、その固有表現と同じタグが付与された固有表現を表す。この場合、変更候補の種類は、関係が付与された固有表現の組である。
“gefitinib:薬”と“lung cancer:病気”との間の関係を“効果あり”から“効果なし”に変更する変更事例から推定される変更対象としては、例えば、同じ文に出現する“* gefitinib:薬”と“* cancer:病気”との組を用いることができる。ただし、“効果あり”という関係が付与された組のみが、変更対象として指定される。
(C1)~(C8)に示したような変更対象を推定結果として用いることで、変更事例が示す変更前の固有表現のみならず、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることができる。これにより、ユーザが次に行う変更操作を事前に予測して、予測結果に基づく変更候補を解析後文書集合423から抽出することが可能になる。
変更種類毎の変更候補が抽出された後、推定部413は、解析後文書集合423における変更種類毎の変更候補の出現頻度を求め、その出現頻度に基づいて、複数の変更種類のうち特定の変更種類を選択する。
また、推定部413は、変更種類毎の変更候補の出現頻度と、各文書中の各部分文書に含まれる変更種類毎の変更候補の個数とに基づいて、各部分文書の評価値を計算し、計算された評価値に基づいて、特定の部分文書を選択する。
図5は、変更履歴424に含まれる変更事例の分類結果の例を示している。変更IDは、変更種類の識別情報であり、変更前付加情報は、変更事例が示す変更操作が行われる前の付加情報を表し、変更後付加情報は、変更事例が示す変更操作が行われた後の付加情報を表す。変更対象は、変更事例から推定される変更対象を表し、変更候補の種類は、変更対象に対応するテキストの種類を表し、事例スコア1及び事例スコア2は、変更種類の評価値を表す。
変更ID“1”は、固有表現の範囲の短縮を示し、“progressive gastric cancer:病気”を“gastric cancer:病気”に変更する変更事例が、変更ID“1”に分類されている。この例では、“* gastric cancer:病気”が変更対象に決定される。
変更ID“2”は、固有表現の種類の変更を示し、“AAAAAA:製品”を“AAAAAA:薬品”に変更する変更事例が、変更ID“2”に分類されている。この例では、“* AAAAAA:製品”又は“nivolumab:製品”が変更対象に決定される。
変更ID“3”は、固有表現の追加を示し、“-”を“nivolumab:薬”に変更する変更事例が、変更ID“3”に分類されている。この例では、“nivolumab”又は“AAAAAA”が変更対象に決定される。
変更ID“4”は、固有表現の削除を示し、“tumor:病気”を“-”に変更する変更事例が、変更ID“4”に分類されている。この例では、“* tumor:病気”が変更対象に決定される。
変更ID“5”は、関係の削除を示し、“gefitinib:薬”と“lung cancer:病気”との間の“=>”という関係を削除する変更事例が、変更ID“5”に分類されている。この例では、“=>”という関係が付与された“* gefitinib:薬”と“* lung cancer:病気”との組が、変更対象に決定される。
図6は、部分文書の一例である段落の評価値の例を示している。段落IDは、解析後文書集合423に含まれる各文書中の各段落の識別情報であり、段落スコアは、段落の評価値を表す。変更IDは、段落から抽出された変更候補に対応する変更種類の変更IDを表す。図6の例では、簡単のため、段落“1”~段落“4”のみが示されているが、解析後文書集合423には、より多くの段落が含まれていてもよい。
推定部413は、各段落から抽出された変更候補毎に、変更候補に対応する変更対象を特定し、特定された変更対象が属する変更種類の変更IDを求める。例えば、段落“1”には、変更ID“1”、変更ID“2”、及び変更ID“4”それぞれに対応する変更候補が1個ずつ含まれている。また、段落“2”には、変更ID“3”及び変更ID“4”それぞれに対応する変更候補が1個ずつ含まれている。
推定部413は、すべての段落から抽出されたすべての変更候補の変更IDを基に、各変更種類の変更候補の出現頻度を求め、求めた出現頻度を、図5の事例スコア1として記録する。例えば、変更ID“1”は、段落“1”、段落“3”、及び段落“4”に1個ずつ含まれているため、変更ID“1”の事例スコア1は“3”となる。また、変更ID“2”は、段落“1”に1個だけ含まれているため、変更ID“2”の事例スコア1は“1”となる。
次に、推定部413は、各段落に含まれる変更IDの事例スコア1の合計を、図6の段落スコアとして記録する。例えば、段落“1”の段落スコアは、変更ID“1”、変更ID“2”、及び変更ID“4”の事例スコア1の合計であり、段落スコアは“8”となる。また、段落“2”の段落スコアは、変更ID“3”及び変更ID“4”の事例スコア1の合計であり、段落スコアは“7”となる。
次に、推定部413は、各変更IDの変更候補を含む段落の段落スコアの合計を求め、段落スコアの合計に変更IDの事例スコア1を乗算することで、事例スコア2を計算する。
例えば、変更ID“1”は、段落“1”、段落“3”、及び段落“4”に含まれているため、段落スコアの合計は、8+11+10=29となる。そして、変更ID“1”の事例スコア1は“3”であるため、変更ID“1”の事例スコア2は、3*29=87となる。
また、変更ID“2”は、段落“1”だけに含まれているため、段落スコアの合計は、“8”となる。そして、変更ID“2”の事例スコア1は“1”であるため、変更ID“2”の事例スコア2は、1*8=8となる。
次に、推定部413は、事例スコア2が大きい順に変更種類を選択するとともに、段落スコアが大きい順にM件(Mは1以上の整数)の段落を、特定の部分文書として選択する。
生成部417は、選択された特定の部分文書を強調表示する情報を含む変更候補情報を生成し、出力部418は、生成された変更候補情報を出力する。
出力部418が表示装置である場合、出力部418は、特定の部分文書を含む文書を画面上に表示し、特定の部分文書のテキストを強調表示する。強調表示の形態としては、テキストの表示色の変更、テキストに対するマーカ又は囲み枠の追加等を用いることができる。出力部418が通信装置である場合、出力部418は、特定の部分文書を含む文書と変更候補情報とを、通信ネットワークを介してユーザの端末装置へ送信する。端末装置は、文書処理装置401から受信した文書を画面上に表示し、特定の部分文書のテキストを強調表示する。
図7は、強調表示された部分文書の例を示している。“BBB mutation”、“gastric cancer”、“celecoxib”、“advanced gastric cancer”、“gefitinib”、“bladder cancer”、及び“lung cancer”は変更候補を表し、段落701は、強調表示された部分文書を表す。段落701は、表示色の変更、マーカ、囲み枠等により強調表示される。
例えば、“gastric cancer”及び“advanced gastric cancer”は、“* gastric cancer:病気”という変更対象に対応する変更候補である。この変更対象は、例えば、“progressive gastric cancer:病気”を“gastric cancer:病気”に変更する変更事例から推定される。
“gastric cancer”及び“advanced gastric cancer”に付与されたタグ“病気”は、各変更候補のテキストをクリックすることで、画面上に表示される。また、変更候補間の関係は、変更候補間の矢印をクリックすることで、画面上に表示される。
ユーザは、強調表示された段落中の変更候補と、その変更候補に付与されたタグと、変更候補間の関係とを確認し、それらの付加情報に対する所望の変更操作を行う。変更部416は、ユーザが入力した変更指示を受け付け、受け付けた変更指示に従って付加情報を変更する。そして、変更部416は、変更内容を示す変更事例を変更履歴424に追加する。
このように、推定部413及び抽出部414を設けることで、ユーザが解析後文書集合423に含まれる付加情報を変更した場合、変更事例に関連する変更候補が自動的に抽出されて、ユーザに提示される。提示される変更候補は、解析後文書集合423内で変更事例とは異なる位置に出現する、変更事例と同じテキストである場合もあり、変更事例と類似しているが微妙に異なるテキストである場合もある。
ユーザは、提示された変更候補を確認して変更するだけで、解析後文書集合423に対して、変更事例と同様の変更操作を行うことができる。したがって、新たな変更候補を手作業で検索する必要がなくなり、変更作業が効率化される。この場合、強調表示された部分文書中の変更候補が変更される可能性が高くなり、それ以外の部分文書中の変更候補が変更される可能性は低くなる。
例えば、医療分野のキュレーションの場合、ユーザであるキュレータは、過去に変更した付加情報と同様の付加情報を変更する可能性が高い。
一例として、キュレータが、“病気”というタグが付与された固有表現の範囲を、“advanced gastric cancer”から“gastric cancer”に変更し、さらに、いくつかの病気についても、修飾表現をタグの付与対象から除外した場合を想定する。この場合、そのキュレータは、病気の修飾表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。
別の例として、キュレータが、“病気”というタグが付与された“melancholia”(鬱病)、“postpartum depression”(産後鬱)等の固有表現を、タグの付与対象から除外した場合を想定する。この場合、そのキュレータは、精神病に興味を持っていないという理由により、精神病に関する表現をタグの付与対象から除外する変更操作を繰り返す可能性がある。
さらに別の例として、キュレータが、“薬”というタグが付与された“gefitinib”に関する固有表現間の関係をいくつか削除した場合を想定する。この場合、FDA(Food and Drug Administration)によるgefitinibの認定が取り消されたという理由により、そのキュレータは、“薬”というタグが付与された“gefitinib”に関するあらゆる関係を削除する変更操作を繰り返す可能性がある。
したがって、ユーザが過去に行った変更操作を示す変更事例に基づいて変更対象を推定することで、ユーザが変更する可能性の高い変更候補を抽出して提示することが可能になる。変更候補をユーザに提示し、ユーザが実際に変更した変更候補を変更事例として変更履歴424に追加することで、ユーザによる変更操作の情報が蓄積され、変更対象の推定精度が向上する。
変更候補をユーザに提示する際に、各部分文書に含まれる変更候補の個数に基づいて部分文書の評価値を計算し、部分文書の評価値に基づいて、強調表示される部分文書を選択することで、より多くの変更候補を含む部分文書を優先的に提示することができる。したがって、ユーザは、提示された部分文書に対する複数の変更操作を集中的に行うことができ、変更作業がさらに効率化される。
上述した(C1)~(C8)のような変更種類毎に変更対象を推定することで、変更種類の特徴に応じた適切な変更候補を提示することが可能になる。例えば、“advanced gastric cancer:薬”が“gastric cancer:薬”に変更された場合、“advanced gastric cancer:薬”、“advanced colon cancer:薬”、“progressive colon cancer:薬”等が、変更候補として提示される。
また、“gastric cancer:病気”が“gastric cancer:がん”に変更された場合、“gastric cancer:病気”、“colon cancer:病気”等が、変更候補として提示される。“gefitinib:薬”と“lung cancer:病気”との間の関係が削除された場合、同じ関係が付与された“gefitinib:薬”と“lung cancer:病気”との組、“gefitinib:薬”と“colorectal cancer:病気”との組等が、変更候補として提示される。
なお、強調表示された部分文書に含まれる変更候補は、ユーザが変更する可能性の高い変更候補であるが、必ずしもユーザが希望する変更候補であるとは限らない。強調表示された部分文書の変更候補を変更する必要がない場合、ユーザは、変更操作を行うことなく、文書処理装置401に対して別の変更候補の提示を要求する。この場合、文書処理装置401は、次に大きな段落スコアを有する部分文書を強調表示する。
図5の変更事例では、解析後文書集合423に含まれる文書のテキストに付加された付加情報が変更されているが、ユーザは、任意の文書集合に含まれる文書のテキスト自体を変更することもできる。ユーザが文書のテキストを変更した場合も、付加情報が変更された場合と同様にして、変更事例に関連する変更候補が自動的に抽出され、ユーザに提示される。
変更候補が自動的に抽出されてユーザに提示されたとしても、ユーザが提示された多数の変更候補を1つずつ確認して変更する場合、ユーザの作業負荷が増加する。したがって、ユーザが同様の変更を数件程度行うだけで、その変更内容が解析後文書集合423全体に反映されることが望ましい。
そこで、分類部415は、解析後文書集合423から抽出された変更候補のテキストを、そのテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。
例えば、分類部415は、推定部413により選択された変更種類の変更候補を、その変更候補の前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する。各クラスタには、1つ以上の変更候補が含まれる。そして、分類部415は、生成されたクラスタを、分類結果425として記憶部411に格納する。
クラスタリングのアルゴリズムとしては、階層型クラスタリング又は非階層型クラスタリングを用いることができる。例えば、非階層型クラスタリングの一例であるk-means法を採用した場合、以下の手順で分類結果425を生成することができる。
(P11)分類部415は、変更候補のテキストの前後のW個(Wは1以上の整数)の単語を、bag of wordsによりベクトル化することで、変更候補の周辺の文脈を表す単語ベクトルを生成する。
(P12)分類部415は、k-means法により、生成された単語ベクトルをC個(Cは2以上の整数)のクラスタに分類する。k-means法の距離関数としては、特徴ベクトル間のコサイン距離、ユークリッド距離、マハラノビス距離等を用いることができる。
図8は、変更候補から生成された単語ベクトルの例を示している。出現位置IDは、解析後文書集合423における変更候補の識別情報であり、直前のW単語は、文書中で変更候補の直前に出現するW個の単語を表し、直後のW単語は、文書中で変更候補の直後に出現するW個の単語を表す。この例では、W=3である。単語ベクトルは、直前のW単語及び直後のW単語から、bag of wordsにより生成された単語ベクトルを表す。
例えば、出現位置ID“1”の変更候補の直前には、“aa”、“bb”、及び“cc”の3個の単語が出現し、直後には、“dd”、“ee”、及び“ff”の3個の単語が出現する。出現位置ID“2”の変更候補の直前には、“dd”、“ee”、及び“gg”の3個の単語が出現し、直後には、“aa”、“ee”、及び“cc”の3個の単語が出現する。出現位置ID“3”の変更候補の直前には、“aa”、“bb”、及び“dd”の3個の単語が出現し、直後には、“ee”、“ff”、及び“gg”の3個の単語が出現する。
単語ベクトルの各要素は、[aa,bb,cc,dd,ee,ff,gg]の順で、各単語の出現回数を表す。例えば、出現位置ID“1”の直前のW単語及び直後のW単語には、“aa”、“bb”、“cc”、“dd”、“ee”、及び“ff”が1回ずつ出現し、“gg”が出現していないため、単語ベクトルは[1,1,1,1,1,1,0]となる。
変更部416は、分類結果425に含まれるC個のクラスタのうち、特定のクラスタに属する変更候補の付加情報をユーザが変更した場合、その変更操作に従って付加情報を変更するとともに、同じクラスタに属する他の変更候補の付加情報も同様に変更する。そして、変更部416は、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴424に追加する。これにより、ユーザが行った変更操作が、同じクラスタに属する他の変更候補にも自動的に反映される。
このように、分類部415を設けることで、同じ変更種類に属する変更候補であっても、周辺の文脈に応じて各変更候補を異なるクラスタに分類することができる。ユーザは各クラスタに含まれる変更候補のうち、強調表示された部分文書に含まれる代表的な変更候補を変更するだけで、同じクラスタに属する他の変更候補も同時に変更することが可能になる。
ところで、クラスタリングには長い時間がかかることが多く、速い場合であっても、N個の変更候補に対する計算量は、O(N^2)である。変更対象として、変更事例が示す変更前の固有表現のみを用いた場合、ユーザが、前回とは異なる変更候補を対象とする新たな変更操作を行う度に、その変更候補の検索及びクラスタリングが実行される。この場合、新たな変更操作を行う度に、クラスタリングの終了を待ち合わせる待ち時間が発生し、作業効率が低下する。
例えば、ユーザが“advanced gastric cancer:薬”を“gastric cancer:薬”に変更する第1の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced gastric cancer:薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第2の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。
次に、ユーザが“advanced colon cancer:薬”を“colon cancer:薬”に変更する第3の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced colon cancer:薬”が検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。ユーザが各クラスタに含まれる代表的な変更候補を変更する第4の変更操作を行うと、同じクラスタに属するすべての変更候補がまとめて変更される。この場合、第3の変更操作から第4の変更操作までの間に待ち時間が発生し、作業効率が低下する。
これに対して、上述したように、変更前の固有表現の一部の語句又はその同義語を含む別の固有表現を変更対象に含めることで、変更前の固有表現と類似する固有表現についても、先回りして検索及びクラスタリングを終了しておくことが可能になる。したがって、変更前の固有表現のみを変更対象として用いた場合よりも、作業効率が向上する。
例えば、ユーザが第1の変更操作を行った場合、解析後文書集合423の他の部分から、“advanced gastric cancer:薬”とともに“advanced colon cancer:薬”も検索され、変更候補として抽出される。そして、抽出された変更候補がクラスタリングされて、ユーザに提示される。
この場合、提示される変更候補には、“advanced gastric cancer:薬”及び“advanced colon cancer:薬”が含まれているため、ユーザは、両方の変更候補を変更することができる。これにより、ユーザは第2の変更操作及び第4の変更操作を同時に行うことができ、第3の変更操作から第4の変更操作までの間の待ち時間が発生しない。したがって、“advanced gastric cancer:薬”のみを変更対象として用いた場合よりも、作業効率が向上する。
分類部415は、事例スコア2が大きい順に選択された複数の変更種類それぞれの変更候補についてクラスタリングを行い、変更種類毎に分類結果425を生成することができる。同時に実行できるクラスタリング処理の個数は、文書処理装置401の性能によって決定される。例えば、文書処理装置401がP個(Pは1以上の整数)のクラスタリング処理を同時に実行できる場合、分類部415は、事例スコア2が大きい順に選択されたP個の変更種類について、クラスタリング処理を実行する。
事例スコア2が大きい順に変更種類を選択することで、より多くの変更候補を含む変更種類のクラスタリングを優先的に実行することができる。したがって、ユーザが変更する可能性の高い変更候補のクラスタリングを早く終了して、その変更候補をユーザに提示することができる。
ユーザによる解析後文書集合423の編集が終了すると、解析後文書集合423は、解析モデル421に対する新たな学習データとして用いられる。文書処理装置401は、機械学習により、解析モデル421に解析後文書集合423を学習させることで、解析モデル421のパラメータを調整して、解析モデル421を更新する。これにより、解析後文書集合423の編集結果を解析モデル421に反映させることができる。
図9は、図4の文書処理装置401が行う変更支援処理の具体例を示すフローチャートである。まず、変更部416は、ユーザから編集画面のリクエストを受け付け(ステップ801)、文書処理装置401は、解析後文書集合423の編集画面を生成する(ステップ802)。そして、出力部418は、生成された編集画面を出力する(ステップ803)。
次に、変更部416は、編集画面に含まれる変更候補に対するユーザからの変更指示を、その変更候補に対する変更操作として受け付け、受け付けた変更操作に従って変更候補の付加情報を変更する(ステップ804)。そして、変更部416は、その変更候補と同じクラスタに属する他の変更候補の付加情報も同様に変更し、そのクラスタのすべての変更候補に対する変更内容を、変更事例として変更履歴424に追加する。
図10は、図9のステップ802における編集画面生成処理の例を示すフローチャートである。まず、推定部413は、変更履歴424に含まれる変更事例に基づいて、変更種類毎に、ユーザが次に行う変更操作の変更対象を推定する(ステップ901)。そして、抽出部414は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合423から抽出する。
次に、分類部415は、特定の変更種類に属する変更候補をクラスタリングして、複数のクラスタを含む分類結果425を生成する(ステップ902)。次に、推定部413は、解析後文書集合423に含まれる各段落の段落スコアに基づいて、特定の段落を選択する(ステップ903)。そして、生成部417は、特定の段落を強調表示する情報を含む変更候補情報を生成し、出力部418は、特定の段落を含む文書と生成された変更候補情報とを含む編集画面を出力する(ステップ904)。
図11は、図10のステップ901における推定処理の例を示すフローチャートである。まず、推定部413は、変更履歴424に含まれる最近のK個(Kは1以上の整数)の変更事例を選択し、選択された各変更事例を、複数の変更種類のいずれかに分類する(ステップ1001)。Kとしては、例えば、10~100の範囲の整数を用いることができる。
次に、推定部413は、変更種類毎に変更対象を推定し、抽出部414は、変更種類毎の変更対象に対応する変更候補を、解析後文書集合423から抽出する(ステップ1002)。
次に、推定部413は、変更種類毎に抽出された変更候補に基づいて、各変更種類の事例スコア1を計算し(ステップ1003)、事例スコア1を用いて各段落の段落スコアを計算する(ステップ1004)。そして、推定部413は、事例スコア1及び段落スコアを用いて、各変更種類の事例スコア2を計算し(ステップ1005)、事例スコア2を用いて特定の変更種類を選択する(ステップ1006)。
図2の文書処理装置201及び図4の文書処理装置401の構成は一例に過ぎず、文書処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図4の文書処理装置401において、事前に解析後文書集合423が記憶部411に格納されている場合は、解析部412を省略することができる。変更候補のクラスタリングを行わない場合は、分類部415を省略することができる。
図3及び図9~図11のフローチャートは一例に過ぎず、文書処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図4の文書処理装置401において、変更候補のクラスタリングを行わない場合は、図10のステップ902の処理を省略することができる。
図1及び図8に示したテキストは一例に過ぎず、編集対象の文書としては、様々な分野の文書が用いられる。編集対象の文書は、機械学習で用いられる学習データには限られず、他の文書であってもよい。ユーザによる変更操作の対象は、文書のテキストであってもよく、文書のテキストに付加された付加情報であってもよい。
図5に示した事例スコア1及び事例スコア2は一例に過ぎず、別の計算方法により変更種類の評価値を求めてもよい。図6に示した段落スコアは一例に過ぎず、別の計算方法により部分文書の評価値を求めてもよい。図8に示した単語ベクトルは一例に過ぎず、別の方法により単語ベクトルを求めてもよい。
図12は、図2の文書処理装置201及び図4の文書処理装置401として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図12の情報処理装置は、CPU(Central Processing Unit)1101、メモリ1102、入力装置1103、出力装置1104、補助記憶装置1105、媒体駆動装置1106、及びネットワーク接続装置1107を含む。これらの構成要素はハードウェアであり、バス1108により互いに接続されている。
メモリ1102は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ1102は、図2の記憶部211又は図4の記憶部411として用いることができる。
CPU1101(プロセッサ)は、例えば、メモリ1102を利用してプログラムを実行することにより、図2の推定部212及び抽出部213として動作する。CPU1101は、メモリ1102を利用してプログラムを実行することにより、図4の解析部412、推定部413、抽出部414、分類部415、変更部416、及び生成部417としても動作する。
入力装置1103は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置1104は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。ユーザからの指示は、変更操作であってもよく、処理結果は、強調表示された部分文書であってもよい。出力装置1104は、図2の出力部214又は図4の出力部418として用いることができる。
補助記憶装置1105は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1105は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置1105にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。補助記憶装置1105は、図2の記憶部211又は図4の記憶部411として用いることができる。
媒体駆動装置1106は、可搬型記録媒体1109を駆動し、その記録内容にアクセスする。可搬型記録媒体1109は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1109は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体1109にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1102、補助記憶装置1105、又は可搬型記録媒体1109のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置1107は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1107を介して受信し、それらをメモリ1102にロードして使用することができる。ネットワーク接続装置1107は、図2の出力部214又は図4の出力部418として用いることができる。
なお、情報処理装置が図12のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体1109又は通信ネットワークを使用しない場合は、媒体駆動装置1106又はネットワーク接続装置1107を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図1乃至図12を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータに実行させるための文書処理プログラム。
(付記2)
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記1記載の文書処理プログラム。
(付記3)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記1又は2記載の文書処理プログラム。
(付記4)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理プログラムは、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
処理を前記コンピュータにさらに実行させることを特徴とする付記3記載の文書処理プログラム。
(付記5)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記4記載の文書処理プログラム。
(付記6)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記5記載の文書処理プログラム。
(付記7)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記4乃至6のいずれか1項に記載の文書処理プログラム。
(付記8)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴を記憶する記憶部と、
前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
を備えることを特徴とする文書処理装置。
(付記9)
前記推定部は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に、前記変更対象を推定する、
ことを特徴とする付記8記載の文書処理装置。
(付記10)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記8又は9記載の文書処理装置。
(付記11)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記文書処理装置は、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
をさらに備えることを特徴とする付記10記載の文書処理装置。
(付記12)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記推定部は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に、前記変更対象を推定し、
前記抽出部は、前記種類毎の前記変更対象に対するテキストを抽出し、
前記分類部は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して、クラスタリングを実行する、
ことを特徴とする付記11記載の文書処理装置。
(付記13)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記推定部は、前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記12記載の文書処理装置。
(付記14)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記11乃至13のいずれか1項に記載の文書処理装置。
(付記15)
文書集合に含まれる情報をユーザが変更したことを示す変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
前記変更対象に対応するテキストを前記文書集合から抽出し、
前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
処理をコンピュータが実行することを特徴とする文書処理方法。
(付記16)
前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
ことを特徴とする付記15記載の文書処理方法。
(付記17)
前記変更履歴は、前記ユーザが行った変更操作を示す変更事例を含み、
前記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
ことを特徴とする付記15又は16記載の文書処理方法。
(付記18)
前記文書集合に含まれる情報は、前記文書集合に含まれるテキストの付加情報であり、
前記コンピュータは、さらに、
前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる、
ことを特徴とする付記17記載の文書処理方法。
(付記19)
前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
ことを特徴とする付記18記載の文書処理方法。
(付記20)
前記文書集合は、複数の文書を含み、
前記複数の文書各々は、複数の部分文書を含み、
前記コンピュータは、
前記種類毎の前記変更対象に対応するテキストの出現頻度と、前記複数の部分文書各々に含まれる前記種類毎の前記変更対象に対応するテキストの個数とに基づいて、前記複数の部分文書各々の評価値を計算し、
前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
ことを特徴とする付記19記載の文書処理方法。
(付記21)
前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
ことを特徴とする付記18乃至20のいずれか1項に記載の文書処理方法。
201、401 文書処理装置
211、411 記憶部
212、413 推定部
213、414 抽出部
214、418 出力部
221、424 変更履歴
412 解析部
415 分類部
416 変更部
417 生成部
421 解析モデル
422 解析前文書集合
423 解析後文書集合
425 分類結果
701 段落
1101 CPU
1102 メモリ
1103 入力装置
1104 出力装置
1105 補助記憶装置
1106 媒体駆動装置
1107 ネットワーク接続装置
1108 バス
1109 可搬型記録媒体

Claims (8)

  1. 文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
    前記変更対象に対応するテキストを前記文書集合から抽出し、
    前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
    前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
    前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
    処理をコンピュータに実行させるための文書処理プログラム。
  2. 前記変更対象を推定する処理は、前記文書集合から抽出されたテキストに対する前記ユーザからの変更指示が入力される前に実行される、
    ことを特徴とする請求項1記載の文書処理プログラム。
  3. 記変更対象は、前記変更事例が示す変更前のテキストを特定するとともに、前記変更前のテキストの一部の語句又は前記一部の語句の同義語を含み、かつ、前記変更前のテキストとは異なるテキストを特定する情報である、
    ことを特徴とする請求項1又は2記載の文書処理プログラム。
  4. 前記変更履歴は、前記ユーザが行った変更操作を示す複数の変更事例を含み、
    前記変更対象を推定する処理は、前記複数の変更事例各々を分類した複数の変更種類の種類毎に実行され、
    前記テキストを抽出する処理は、前記種類毎の前記変更対象に対するテキストを抽出する処理を含み、
    前記クラスタリングする処理は、前記文書集合における前記種類毎の前記変更対象に対応するテキストの出現頻度に基づいて選択された特定の種類の前記変更対象に対応するテキストに対して実行される、
    ことを特徴とする請求項1乃至3のいずれか1項に記載の文書処理プログラム。
  5. 前記文書集合は、複数の文書を含み、
    前記複数の文書各々は、複数の部分文書を含み、
    前記コンピュータは、
    前記種類毎の前記変更対象に対応するテキストの出現頻度であって前記複数の部分文書各々に含まれる前記テキストそれぞれについての前記出現頻度の合計を、前記複数の部分文書各々の評価値として計算し、
    前記複数の部分文書各々の評価値に基づいて、前記複数の部分文書のうち特定の部分文書を選択し、
    前記変更候補情報は、前記特定の部分文書を強調表示する情報を含む、
    ことを特徴とする請求項記載の文書処理プログラム。
  6. 前記文書集合は、解析モデルを生成する機械学習のための学習データであり、前記解析モデルは、解析対象の文書を解析して、前記解析対象の文書に含まれるテキストの付加情報を生成する、
    ことを特徴とする請求項乃至のいずれか1項に記載の文書処理プログラム。
  7. 文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴を記憶する記憶部と、
    前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定する推定部と、
    前記変更対象に対応するテキストを前記文書集合から抽出する抽出部と、
    前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成する分類部と、
    前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させる変更部と、
    前記文書集合から抽出されたテキストを示す変更候補情報を出力する出力部と、
    を備えることを特徴とする文書処理装置。
  8. 文書集合に含まれるテキストの付加情報をユーザが変更したことを示す変更履歴であって前記ユーザが行った変更操作を示す変更事例を含む前記変更履歴に基づいて、前記文書集合に対して前記ユーザが行う変更の変更対象を推定し、
    前記変更対象に対応するテキストを前記文書集合から抽出し、
    前記文書集合から抽出されたテキストを、前記文書集合から抽出されたテキストの前後に存在するテキストに基づいてクラスタリングすることで、複数のクラスタを生成し、
    前記複数のクラスタのうち特定のクラスタに属するテキストの付加情報を前記ユーザが変更した場合、前記特定のクラスタに属するテキストの付加情報に対する変更を、前記特定のクラスタに属する他のテキストの付加情報に反映させ、
    前記文書集合から抽出されたテキストを示す変更候補情報を出力する、
    処理をコンピュータが実行することを特徴とする文書処理方法。
JP2019218049A 2019-12-02 2019-12-02 文書処理プログラム、文書処理装置、及び文書処理方法 Active JP7415495B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019218049A JP7415495B2 (ja) 2019-12-02 2019-12-02 文書処理プログラム、文書処理装置、及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019218049A JP7415495B2 (ja) 2019-12-02 2019-12-02 文書処理プログラム、文書処理装置、及び文書処理方法

Publications (2)

Publication Number Publication Date
JP2021089473A JP2021089473A (ja) 2021-06-10
JP7415495B2 true JP7415495B2 (ja) 2024-01-17

Family

ID=76220673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019218049A Active JP7415495B2 (ja) 2019-12-02 2019-12-02 文書処理プログラム、文書処理装置、及び文書処理方法

Country Status (1)

Country Link
JP (1) JP7415495B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057589A1 (ja) * 2022-09-15 2024-03-21 株式会社LegalOn Technologies 修正提案方法、修正提案システム、及び修正提案プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140319A (ja) 2000-10-31 2002-05-17 Cm C:Kk 部品説明書の作成支援方法、部品説明書の作成支援システム、及びコンピュータ読取可能な記録媒体
JP2011053840A (ja) 2009-08-31 2011-03-17 Toshiba Corp 文書処理装置および文書処理プログラム
WO2015052817A1 (ja) 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140319A (ja) 2000-10-31 2002-05-17 Cm C:Kk 部品説明書の作成支援方法、部品説明書の作成支援システム、及びコンピュータ読取可能な記録媒体
JP2011053840A (ja) 2009-08-31 2011-03-17 Toshiba Corp 文書処理装置および文書処理プログラム
WO2015052817A1 (ja) 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林 賢司 外5名,エビデンスに基づく医療のための文献キュレーションシステムの開発,情報処理学会 研究報告 グループウェアとネットワークサービス(GN) 2019-GN-107 [online] ,日本,情報処理学会,2019年03月11日,pp.1-8

Also Published As

Publication number Publication date
JP2021089473A (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
Popović Error classification and analysis for machine translation quality assessment
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
US11030407B2 (en) Computer system, method and program for performing multilingual named entity recognition model transfer
EP3230896B1 (en) Localization complexity of arbitrary language assets and resources
US11210468B2 (en) System and method for comparing plurality of documents
Chen et al. Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP5697202B2 (ja) 用語の対応を見出す方法、プログラム及びシステム
JP2014078132A (ja) 機械翻訳装置、方法およびプログラム
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
US11537797B2 (en) Hierarchical entity recognition and semantic modeling framework for information extraction
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
Nguyen et al. Adaptive edit-distance and regression approach for post-OCR text correction
JP6622236B2 (ja) 発想支援装置及び発想支援方法
JP2014186395A (ja) 文書作成支援装置、方法およびプログラム
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Cui et al. Simple question answering over knowledge graph enhanced by question pattern classification
JP7415495B2 (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
Uçar et al. A novel algorithm for extracting the user reviews from web pages
JP4401269B2 (ja) 対訳判断装置及びプログラム
WO2015177861A1 (ja) 教師データ作成装置及び方法
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
Xie et al. Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations
JP2008140204A (ja) データ検索システム及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230919

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R150 Certificate of patent or registration of utility model

Ref document number: 7415495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150