JP2023064080A - 文書解析支援装置、該方法および該プログラム - Google Patents

文書解析支援装置、該方法および該プログラム Download PDF

Info

Publication number
JP2023064080A
JP2023064080A JP2022168661A JP2022168661A JP2023064080A JP 2023064080 A JP2023064080 A JP 2023064080A JP 2022168661 A JP2022168661 A JP 2022168661A JP 2022168661 A JP2022168661 A JP 2022168661A JP 2023064080 A JP2023064080 A JP 2023064080A
Authority
JP
Japan
Prior art keywords
important
unit
occurrence
words
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022168661A
Other languages
English (en)
Inventor
理人 井筒
Masato Izutsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Publication of JP2023064080A publication Critical patent/JP2023064080A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】本発明は、適切にルールを修正できる文書解析支援装置、文書解析支援方法および文書解析支援プログラムを提供する。【解決手段】本発明の文書解析支援装置Dは、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶し、第1文章を、重要文章として、1または複数、記憶し、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶し、前記記憶した重要文章について、前記記憶した共起ルールに基づいて重要か否かを判定し、この判定の結果、重要ではないと判定した重要文章を表示部3に表示し、前記表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付け、前記記憶した非重要文章について、前記受け付けた共起ルールの候補に基づいて重要か否かを判定し、前記受け付けた共起ルールの候補および前記重要の判定で非重要と判定した判定結果を表示部3に表示する。【選択図】図1

Description

本発明は、文書の解析を支援する文書解析支援装置、文書解析支援方法および文書解析支援プログラムに関する。
文書を構成する複数の文章が自動的に解析できれば、前記文書の内容把握やチェック等にかかる時間が短縮されたり、把握内容やチェック等が平準化(客観化)されたりし、利便性がある。このような文書の自動的な解析に関する技術は、例えば、特許文献1に開示されている。
この特許文献1に開示された文書作成支援装置は、要注意箇所を抽出する条件であるルールが格納される記憶部と、文書内の条項のタイトル及び前記条項に含まれる文の中から前記ルールに基づいて前記要注意箇所を抽出し、前記タイトルが要注意箇所に該当するか否かを判断し、前記判断の結果、該当する場合は、前記文に要注意箇所が含まれるか否かに拘わらず、前記タイトル及び前記条項に含まれる文を画面において強調表示する制御部と、を有する。
特開2014-115858号公報
前記特許文献1に開示された文書作成支援装置は、要注意箇所を抽出する条件であるルールを用いることにより、前記特許文献1の[0056]段落によれば、「例えば条項タイトルそのものが要注意箇所になる場合であっても、または、条項内容に多くの個別の要注意箇所が含まれる場合であっても、条項タイトルおよび条項内容に含まれるすべての文を強調表示することができる。その結果、契約当事者(作成者)の負担が軽減される。さらに、要注意箇所の編集を行うことができるので、必要に応じて、条項タイトル102および全ての文の強調表示、および、個々の要注意箇所の強調表示の間で、ユーザが自由に選択できる。」という効果を奏する。ところで、文書の種類が異なれば、要注意箇所も異なるから、文書の種類に応じてルールの修正が必要になると考えられるが、このルールの修正について、前記特許文献1には、記載も示唆も無い。
本発明は、上述の事情に鑑みて為された発明であり、その目的は、適切にルールを修正できる文書解析支援装置、文書解析支援方法および文書解析支援プログラムを提供することである。
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明の一態様にかかる文書解析支援装置は、表示部と、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、第1文章を、重要文章として、1または複数、記憶する重要文章記憶部と、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部と、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部と、前記重要性判定部で重要ではないと判定した重要文章を前記表示部に表示する表示処理部と、前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部と、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部とを備え、前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する。好ましくは、上述の文書解析支援装置において、前記共起ルールの候補を新たに追加する指示の入力を受け付ける第2入力部と、前記第2入力部で前記指示を受け付けた場合に、前記共起ルールの候補を前記共起ルール記憶部に共起ルールとして新たに追加して記憶させる制御部とをさらに備える。好ましくは、上述の文書解析支援装置において、前記重要文章は、契約書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記契約書に含まれ、予め非重要とされた文章である。好ましくは、上述の文書解析支援装置において、前記重要文章は、仕様書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記仕様書に含まれ、予め非重要とされた文章である。好ましくは、上述の文書解析支援装置において、前記重要文章は、取扱説明書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記取扱説明書に含まれ、予め非重要とされた文章である。
このような文書解析支援装置は、共起ルール記憶部に記憶した共起ルールでは、重要文章が重要ではないと判定された場合に、その重要ではないと判定した重要文章を表示部に表示するので、表示部に表示された重要文章を参照しながら、その重要ではないと判定した重要文章に対する共起ルールの候補を入力できる。上記文書解析支援装置は、非重要文章記憶部に記憶した非重要文章について、共起ルールの候補に基づいて重要か否かを判定し、前記共起ルールの候補および前記重要と判定した判定結果を表示部に表示するので、前記判定結果を参照しながら、前記共起ルールの候補で或る文章が重要と判定しないように前記共起ルールの候補を調整できる。したがって、上記文章解析支援装置は、適切に共起ルールを修正できる。
なお、重要性判定部は、重要性文章記憶部にある重要文章に対して重要か否かを判定するものであり、非重要性判定部は、非重要性文章記憶部にある非重要文章に対して重要か否かを判定するものである。ここで、重要性判定部と非重要性判定部とは、判定対象の文章が異なるだけで、重要と判定するロジックは、同じあり、いずれも、判定対象の文章に対して共起ルールがマッチすれば重要と判定する。
他の一態様では、上述の文書解析支援装置において、前記判定結果は、前記非重要性判定部で重要と判定した非重要文章の個数を含む。
このような文書解析支援装置は、重要と判定した非重要文章の個数を表示するので、この個数が0となるように、前記共起ルールの候補を調整できる。
他の一態様では、これら上述の文書解析支援装置において、前記表示処理部は、前記非重要性判定部で重要と判定した非重要文章を前記表示部に表示させるための操作ボタンを前記表示部に表示し、前記操作ボタンが入力操作された場合に、前記非重要性判定部で重要と判定した非重要文章を前記表示部に表示する。
このような文書解析支援装置は、重要と判定した非重要文章を表示部に表示するので、前記非重要文書に含まれる単語を参照しながら、前記非重要文章を重要と判定しないように(前記非重要文章を抽出しないように)、前記共起ルールの候補を効率よく調整できる。
他の一態様では、これら上述の文書解析支援装置において、単語間の関係を表すオントロジーを記憶するオントロジー記憶部をさらに備え、前記重要性判定部は、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールおよび前記オントロジー記憶部に記憶したオントロジーに基づいて重要か否かを判定する。
このような文書解析支援装置は、オントロジーに基づいて重要か否かを判定するので、重要文章に含まれる単語が言い換えられた単語であった場合でも、重要と適切に判定できる。
他の一態様では、上述の文書解析支援装置において、前記表示処理部は、前記オントロジー記憶部に記憶したオントロジーに基づいて、前記入力部で受け付けた共起ルールの候補としての複数の単語に対する単語間の関係を前記表示部に表示する。
このような文書解析支援装置は、共起ルールの候補としての複数の単語に関係(関連)する単語を表示するので、前記関係する単語で、前記共起ルールの候補の調整が可能となる。
他の一態様では、これら上述の文書解析支援装置において、前記入力部は、当該入力部で既に受け付けた共起ルールの候補としての複数の単語に対する変更を受け付け、前記非重要性判定部は、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた変更後の共起ルールの候補に基づいて重要か否かを再判定し、前記表示処理部は、前記入力部で受け付けた変更後の共起ルールの候補および前記非重要性判定部で重要と判定した再判定結果を前記表示部に表示する。
このような文書解析支援装置は、共起ルールの候補の単語を変更し、変更後の共起ルールの候補で再判定するので、変更後の共起ルールの候補に対する適切性を認識でき、前記共起ルールの候補を効率よく調整できる。
他の一態様では、これら上述の文書解析支援装置において、前記共起ルール記憶部に記憶した共起ルールを、前記重要文章記憶部に記憶した重要文章に関連する関連単語に応じて修正する共起ルール修正部をさらに備え、前記重要性判定部は、前記重要文章記憶部に記憶した重要文章について、前記共起ルール修正部で修正した修正後の共起ルールに基づいて重要か否かを判定する。好ましくは、上述の文書解析支援装置において、前記関連単語は、前記重要文章記憶部に記憶した重要文章を備えて構成される文書のタイトルに含まれる第1単語または前記第1単語に関連する第2単語である。好ましくは、上述の文書解析支援装置において、前記共起ルール修正部は、前記関連単語に応じて、共起ルールに含まれる複数の単語のうちの一部を削除することで前記共起ルールを修正する。好ましくは、上述の文書解析支援装置において、前記共起ルール修正部は、前記関連単語に応じて、共起ルールに含まれる複数の単語に、1または複数の第1および第2単語のうちの少なくとも一方をさらに組み合わせることで前記共起ルールを修正する。
このような文書解析支援装置は、重要文章記憶部に記憶した重要文章に関連する関連単語に応じて共起ルールを修正するので、より適切に重要性を判定できる。
他の一態様では、上述の文書解析支援装置において、前記関連単語は、前記非重要文章記憶部に記憶した非重要文章にさらに関連し、前記共起ルール修正部は、前記入力部で受け付けた共起ルールの候補を、前記関連単語に応じて修正し、前記非重要性判定部は、前記非重要文章記憶部に記憶した非重要文章について、前記共起ルール修正部で修正した修正後の共起ルールの候補に基づいて重要か否かを判定する。好ましくは、上述の文書解析支援装置において、前記関連単語は、前記重要文章記憶部に記憶した重要文章および前記非重要文章記憶部に記憶した非重要文章を備えて構成される文書のタイトルに含まれる第1単語または前記第1単語に関連する第2単語である。好ましくは、上述の文書解析支援装置において、前記共起ルール修正部は、前記関連単語に応じて、共起ルールの候補に含まれる複数の単語のうちの一部を削除することで前記共起ルールの候補を修正する。好ましくは、上述の文書解析支援装置において、前記共起ルール修正部は、前記関連単語に応じて、共起ルールの候補に含まれる複数の単語に、1または複数の第1および第2単語のうちの少なくとも一方をさらに組み合わせることで前記共起ルールの候補を修正する。
このような文書解析支援装置は、非重要文章記憶部に記憶した非重要文章にさらに関連する関連単語に応じて共起ルールの候補を修正するので、より適切に非重要性を判定できる。
本発明の他の一態様にかかる文書解析支援方法は、表示部と、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、第1文章を、重要文章として、1または複数、記憶する重要文章記憶部と、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部とを備える文書解析支援装置で実行される文書解析支援方法であって、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定工程と、前記重要性判定工程で重要ではないと判定した重要文章を前記表示部に表示する表示処理工程と、前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力工程と、前記非重要文章記憶部に記憶した非重要文章について、前記入力工程で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定工程とを備え、前記表示処理工程は、前記入力工程で受け付けた共起ルールの候補および前記非重要性判定工程で重要と判定した判定結果を前記表示部に表示する。
このような文書解析支援方法は、共起ルール記憶部に記憶した共起ルールでは、重要文章が重要ではないと判定された場合に、その重要ではないと判定した重要文章を表示部に表示するので、表示部に表示された重要文章を参照しながら、その重要ではないと判定した重要文章に対する共起ルールの候補を入力できる。上記文書解析支援方法は、非重要文章記憶部に記憶した非重要文章について、共起ルールの候補に基づいて重要か否かを判定し、前記共起ルールの候補および前記非重要と判定した判定結果を表示部に表示するので、前記判定結果を参照しながら、前記共起ルールの候補で或る文章が重要と判定しないように前記共起ルールの候補を調整できる。したがって、上記文章解析支援方法は、適切に共起ルールを修正できる。
本発明の他の一態様にかかる文書解析支援プログラムは、コンピュータを、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部、第1文章を、重要文章として、1または複数、記憶する重要文章記憶部、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部、前記重要性判定部で重要ではないと判定した重要文章を表示部に表示する表示処理部、前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部、および、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部として機能させるための文章解析支援プログラムであって、前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する。
このような文書解析支援プログラムは、適切に共起ルールを修正できる。
本発明の他の一態様にかかる文書解析支援装置は、表示部と、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、所定の文章を、非重要文章として、1または複数、記憶する非重要文章記憶部と、解析対象の対象文章を取得する対象文章取得部と、前記対象文章取得部で取得した対象文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部と、前記重要性判定部で重要ではないと判定した場合に、前記対象文章を前記表示部に表示する表示処理部と、前記表示部に表示した対象文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部と、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部とを備え、前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する。
このような文書解析支援装置は、共起ルール記憶部に記憶した共起ルールでは、対象文章が重要ではないと判定された場合に、その重要ではないと判定した対象文章を表示部に表示するので、表示部に表示された対象文章を参照しながら、前記対象文章を重要と判定するように共起ルールの候補を入力できる。上記文書解析支援装置は、非重要文章記憶部に記憶した非重要文章について、共起ルールの候補に基づいて重要か否かを判定し、前記共起ルールの候補および前記重要と判定した判定結果を表示部に表示するので、前記判定結果を参照しながら、前記共起ルールの候補で或る文章が非重要と判定しないように前記共起ルールの候補を調整できる。したがって、上記文章解析支援装置は、適切に共起ルールを修正できる。
他の一態様では、これら上述の文書解析支援装置において、前記入力部は、さらに、共起ルールの単語について、同義とみなす同義みなし単語の入力を受け付け、前記入力部で受け付けた同義みなし単語を、前記単語に関連付けて前記共起ルール記憶部に記憶する同義みなし単語登録部と、共起ルール記憶部が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出する共通単語抽出部とをさらに備え、前記表示処理部は、さらに、前記共通単語抽出部で抽出した前記共通する単語および同義みなし単語を前記表示部に表示する。好ましくは、上述の文書解析支援装置において、前記共通単語抽出部は、前記共通単語抽出部で抽出した前記共通する単語および同義みなし単語に関連付けられている前記単語および前記同義みなし単語のうちの少なくとも一方をさらに抽出する。
このような文書解析支援装置は、共起ルール記憶部が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出して表示部に表示するので、オントロジーを修正する場合に、これを参照することで効率よく修正でき、複数のユーザから同義みなし単語の入力を受け付けた場合に、他のユーザが入力した同義みなし単語も抽出され表示されるので、他のユーザが入力した同義みなし単語も参照できる。
他の一態様では、上述の文書解析支援装置において、前記共通単語抽出部は、さらに、複数の共起ルール間で、単語編集距離が閾値以下である単語および同義みなし単語を、前記共通する単語および同義みなし単語として抽出する。好ましくは、上述の文書解析支援装置において、前記単語編集距離は、2個の文字列間において、1文字の挿入、削除、置換によって、一方の文字列を他方の文字列に変形する際に要する手順の最小回数として求められるレーベンシュタイン距離である。
このような文書解析支援装置は、単語編集距離が閾値以下である単語および同義みなし単語を、前記共通する単語および同義みなし単語として抽出するので、同一ユーザでは気付けなかった同義みなし単語の気付きを支援できる。
他の一態様では、これら上述の文書解析支援装置において、前記表示処理部は、前記単語および前記同義みなし単語をノードで表し、前記単語と前記同義みなし単語との関連付けをエッジで表すグラフで、前記共通単語抽出部で抽出した前記共通する単語および同義みなし単語を前記表示部に表示する。
このような文書解析支援装置は、共通単語抽出部で抽出した前記共通する単語および同義みなし単語をグラフ(例えば無向グラフ)で表示部に表示するので、単語と同義みなし単語との関連性を、視覚的に捉えることができ、効率よく認識できる。
他の一態様では、上述の文書解析支援装置において、前記表示処理部は、さらに、前記単語編集距離を前記エッジに添付する、または、前記単語編集距離に応じて前記エッジの表示態様を変更する。好ましくは、上述の文書解析支援装置において、前記エッジの表示態様は、前記エッジの太さ、前記エッジの表示色、および、前記エッジの表示色の濃淡のうちのいずれかである。
このような文書解析支援装置は、単語編集距離をエッジに添付する、または、単語編集距離に応じてエッジの表示態様を変更するので、単語と同義みなし単語との関連性の度合い(強弱)を、視覚的に捉えることができ、効率よく認識できる。
本発明にかかる文書解析支援装置、文書解析支援方法および文書解析支援プログラムは、適切にルールを修正できる。
実施形態における文書解析支援装置の構成を示すブロック図である。 一例としての共起ルールを説明するための図である。 一例としてのオントロジーを説明するための図である。 一例としての重要文書を説明するための図である。 一例としての非重要文書を説明するための図である。 一例として、判定結果、共起ルール入力画面を示す図である。 一例として、非重要文章を表示した判定結果、共起ルール入力画面を示す図である。 前記文書解析支援装置の動作を示すフローチャートである。 一例として、同義みなし単語処理画面を示す図である。 一例として、同義みなし単語の入力例およびグラフを説明するための図である。 一例として、第3および第4変形形態での各グラフを説明するための図である。
以下、図面を参照して、本発明の1または複数の実施形態が説明される。しかしながら、発明の範囲は、開示された実施形態に限定されない。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
実施形態における文書解析支援装置は、文書の解析を支援する装置であって、ここでは、特に、前記解析に利用される共起ルールの修正(更新)を支援するものである。この文書解析支援装置は、表示部と、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、第1文章を、重要文章として、1または複数、記憶する重要文章記憶部と、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部と、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部と、前記重要性判定部で重要ではないと判定した重要文章を前記表示部に表示する表示処理部と、前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部と、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部とを備える。そして、前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する。以下、このような文書解析支援装置について、より具体的に説明する。
図1は、実施形態における文書解析支援装置の構成を示すブロック図である。図2は、一例としての共起ルールを説明するための図である。図3は、一例としてのオントロジーを説明するための図である。図4は、一例としての重要文書を説明するための図である。図5は、一例としての非重要文書を説明するための図である。図6は、一例として、判定結果、共起ルール入力画面を示す図である。図7は、一例として、非重要文章を表示した判定結果、共起ルール入力画面を示す図である。
実施形態における文書解析支援装置Dは、例えば、図1に示すように、制御処理部1と、入力部2と、表示部3と、インターフェース部(IF部)4と、記憶部5とを備える。
入力部2は、制御処理部1に接続され、例えば、文書解析の開始を指示するコマンドや共起ルールの修正(更新)を指示するコマンド等の各種コマンド、および、文書名や共起ルールの候補等の、文書解析支援装置Dを動作させる上で必要な各種データを文書解析支援装置Dに入力する機器であり、例えば、所定の機能を割り付けられた複数の入力スイッチや、キーボードや、マウス等である。表示部3は、制御処理部1に接続され、制御処理部1の制御に従って、入力部2から入力されたコマンドやデータ、および、判定結果等を出力する機器であり、例えばCRTディスプレイ、液晶ディスプレイおよび有機ELディスプレイ等の表示装置等である。
なお、入力部2および表示部3からいわゆるタッチパネルが構成されてもよい。このタッチパネルを構成する場合において、入力部2は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置である。このタッチパネルでは、前記表示装置の表示面上に前記位置入力装置が設けられ、前記表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、前記位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として文書解析支援装置Dに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い文書解析支援装置Dが提供される。
IF部4は、制御処理部1に接続され、制御処理部1の制御に従って、外部機器との間でデータの入出力を行う回路であり、例えば、シリアル通信方式であるRS-232Cのインターフェース回路、Bluetooth(登録商標)規格を用いたインターフェース回路、IrDA(Infrared Data Asscoiation)規格等の赤外線通信を行うインターフェース回路、および、USB(Universal Serial Bus)規格を用いたインターフェース回路等である。また、IF部4は、外部機器との間で通信を行う回路であり、例えば、データ通信カードや、IEEE802.11規格等に従った通信インターフェース回路等であってもよい。
記憶部5は、制御処理部1に接続され、制御処理部1の制御に従って、各種の所定のプログラムおよび各種の所定のデータを記憶する回路である。前記各種の所定のプログラムには、例えば、制御処理プログラムが含まれ、前記制御処理プログラムには、例えば、文書解析支援装置Dの各部2~5を制御する制御プログラムや、後述の重要文章記憶部54に記憶した重要文章について、後述の共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定する重要性判定プログラムや、前記重要性判定プログラムで重要ではないと判定した重要文章を表示部3に表示する表示処理プログラムや、後述の非重要文章記憶部55に記憶した非重要文章について、入力部2で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定プログラム等が含まれる。前記各種の所定のデータには、例えば、解析支援対象の文書、共起ルール、オントロジー、重要文章および非重要文章等の、これら各プログラムを実行する上で必要なデータが含まれる。このような記憶部5は、例えば不揮発性の記憶素子であるROM(Read Only Memory)や書き換え可能な不揮発性の記憶素子であるEEPROM(Electrically Erasable Programmable Read Only Memory)等を備える。そして、記憶部5は、前記所定のプログラムの実行中に生じるデータ等を記憶するいわゆる制御処理部1のワーキングメモリとなるRAM(Random Access Memory)等を含む。記憶部5は、比較的記憶容量の大きいハードディスク装置を備えて構成されてもよい。
そして、記憶部5は、機能的に、文書記憶部51、共起ルール記憶部52、オントロジー記憶部53、重要文章記憶部54、非重要文章記憶部55および誤判定文章記憶部56を備える。
文書記憶部51は、解析支援対象の文書を記憶するものである。前記解析支援対象の文書は、例えば契約書、仕様書および取扱説明書等の、任意の種類の文書であってよい。この解析支援対象の文書は、ユーザ(オペレータ)によって適宜に選定される。前記解析支援対象の文書は、例えば、入力部2から入力され、文書名等の文書を特定し識別するための識別子である文書ID(文書名)と対応付けられて文書記憶部51に記憶される。あるいは、例えば、前記解析支援対象の文書を記憶した記憶媒体(例えばUSBメモリやSDカード(登録商標)等)からIF部4を介して読み込まれ、文書IDと対応付けられて文書記憶部51に記憶される。あるいは、例えば、前記解析支援対象の文書を記録した記録媒体(例えばCD-RやDVD-R等)から、制御処理部1に接続され制御処理部1の制御に従って駆動する図略のドライブ装置を介して読み込まれ、文書IDと対応付けられて文書記憶部51に記憶される。あるいは、例えば、前記解析支援対象の文書を管理するサーバ装置からIF部4を介して読み込まれ、文書IDと対応付けられて文書記憶部51に記憶される。
共起ルール記憶部52は、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶するものである。前記共起とは、或る単語が或る文章中に出現したとき、その文章中に別の限られた単語が頻出することである。このため、前記或る単語と前記別の限られた単語とを組み合わせてルールとすることで、前記文章の抽出が可能となる。この共起ルールは、ユーザによって適宜に設定される。前記共起ルールは、例えば、図2に示すように、テーブル形式で共起ルール記憶部52に記憶される。この図2に示す共起ルールを登録する共起ルール登録テーブルRTは、共起ルールを特定し識別するための識別子であるルール番号(ルールNo.)を登録するルールNo.フィールド61と、ルールNo.フィールド61に登録されたルール番号に対応する共起ルールを登録する共起ルールフィールド62とを備え、共起ルールの個数に応じた個数のレコードを備える。例えば、図2において、ルールNo.フィールド61に「1」を登録したレコードにおける共起ルールフィールド62には共起ルールとして「gear、material、stainless、steel」が登録されている。前記共起ルールは、前記解析支援対象の文書と同様に、入力部2、IF部4または図略のドライブ装置を介して入力され、共起ルール記憶部52に記憶される。
オントロジー記憶部53は、単語間の関係を表すオントロジーを記憶するものである。このオントロジーは、ユーザによって適宜に設定される。前記オントロジーは、例えば、図3に示すように、木構造でオントロジー記憶部53に記憶される。この図3に示すオントロジーを表すオントロジー木構造OGは、第1階層LA1の根ノードから、順次に関連する単語が各階層LAnの親子ノードで結ばれる。例えば、第1階層LA1の根ノード(親ノード)「material」は、次階層の第2階層LA2の子ノードとして、「steel」および「copper」それぞれと結ばれ、「material」は、「steel」および「copper」それぞれと関係(関連)している。第2階層LA2の親ノード「steel」は、次階層の第3階層LA3の子ノードとして、「stainless steel」と結ばれ、「steel」は、「stainless steel」と関係(関連)している。第3階層LA3の親ノード「stainless steel」は、次階層の第4階層LA4の子ノードとして、「ss」と結ばれ、「stainless steel」は、「ss」と関係(関連)している。オントロジーにおいて、単語間の関係性の強さ(関連度合い)は、単語間の階層の遠近によって表され、上述の例では、「steel」は、1階層で「material」に最も近く、関連度合いが最も強く(高く)、「ss」は、3階層で「material」に最も遠く、関連度合いが最も弱い(低い)。前記オントロジーは、前記解析支援対象の文書と同様に、入力部2、IF部4または図略のドライブ装置を介して入力され、オントロジー記憶部53に記憶される。
重要文章記憶部54は、第1文章を、重要文章として、1または複数、記憶するものである。この重要文章は、ユーザによって適宜に設定される。前記重要文章は、例えば、図4に示すように、テーブル形式で重要文章記憶部54に記憶される。この図4に示す重要文章を登録する重要文章登録テーブルDLは、重要文章を登録する重要文章フィールド63と、重要文章フィールド63に登録された重要文章に対応するコメントを登録するCommentsフィールド64とを備え、重要文章の個数に応じた個数のレコードを備える。前記コメントは、自由記載であって任意であってよい。前記重要文章は、前記解析支援対象の文書と同様に、入力部2、IF部4または図略のドライブ装置を介して入力され、重要文章記憶部54に記憶される。
非重要文章記憶部55は、前記第1文章(重要文章)と異なる第2文章を、非重要文章として、1または複数、記憶するものである。この非重要文章は、ユーザによって適宜に設定される。前記非重要文章は、例えば、図5に示すように、テーブル形式で非重要文章記憶部55に記憶される。この図5に示す非重要文章を登録する非重要文章登録テーブルNLは、非重要文章を登録する非重要文章フィールド65を備え、非重要文章の個数に応じた個数のレコードを備える。前記非重要文章は、前記解析支援対象の文書と同様に、入力部2、IF部4または図略のドライブ装置を介して入力され、非重要文章記憶部55に記憶される。
前記文書は、上述のように任意の種類の文書であってよいが、例えば、契約書であり、この場合では、前記重要文章は、前記契約書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記契約書に含まれ、予め非重要とされた文章であり、前記コメントは、前記契約書に含まれる条文(条項)に対する応否や代替条文(代替条項)等である。あるいは、例えば、前記文書は、仕様書であり、この場合では前記重要文章は、前記仕様書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記仕様書に含まれ、予め非重要とされた文章であり、前記コメントは、前記仕様書が顧客の製品に要求する要求仕様書である場合に、前記要求仕様書に含まれる仕様に対応可能か否かの可否や代替案等である。あるいは、例えば、前記文章は、取扱説明書であり、前記重要文章は、前記取扱説明書に含まれ、予め重要とされた文章であり、前記非重要文章は、前記取扱説明書に含まれ、予め非重要とされた文章であり、前記コメントは、前記取扱説明書に含まれる説明文に対する注釈や参照説明文等である。
誤判定文章記憶部56は、前記重要性判定プログラムで重要ではないと判定した重要文章を記憶するものである。
制御処理部1は、文書解析支援装置Dの各部2~5を当該各部の機能に応じてそれぞれ制御し、文書の解析を支援し、前記解析に利用される共起ルールの修正(更新)を支援するための回路である。制御処理部1は、例えば、CPU(Central Processing Unit)およびその周辺回路を備えて構成される。制御処理部1は、制御処理プログラムが実行されることによって、制御部11、重要性判定部12、表示処理部13および非重要性判定部14を機能的に備える。
制御部11は、文書解析支援装置Dの各部2~5を当該各部の機能に応じてそれぞれ制御し、文書解析支援装置Dの全体制御を司るものである。制御部11は、入力された、あるいは、読み込まれた文書、共起ルール、オントロジー、重要文章および非重要文章それぞれを、文書記憶部51、共起ルール記憶部52、オントロジー記憶部53、重要文章記憶部54および非重要文章記憶部55それぞれに記憶する。
重要性判定部12は、まず第1に、文書記憶部51に記憶された文書の各文章それぞれについて、共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定するものである。より具体的には、重要性判定部12は、前記文書に含まれる文章(解析対象の文章)に、共起ルールとして組み合わされている複数の単語が全て含まれている場合に、前記解析対象の文章が重要であると判定し、前記解析対象の文章に、共起ルールとして組み合わされている複数の単語が一部または全て含まれていない場合に、前記解析対象の文章が重要ではないと判定する。共起ルール記憶部52に共起ルールとして複数の単語の組み合わせが複数、記憶されている場合には、重要性判定部12は、前記解析対象の文章に対し、前記複数の組み合わせそれぞれについて、重要か否かを判定する。例えば、共起ルール記憶部52に、ルールNo.1の第1共起ルールとルールNo.2の第2共起ルールが記憶されている場合に、重要性判定部12は、前記解析対象の文章が第1共起ルールに基づいて重要か否かを判定し、前記解析対象の文章が第2共起ルールに基づいて重要か否かを判定する。
本実施形態では、オントロジー記憶部53にオントロジーを記憶するので、重要性判定部12は、文書記憶部51に記憶された文書の各文章それぞれについて、共起ルール記憶部52に記憶した共起ルールおよびオントロジー記憶部53に記憶したオントロジーに基づいて重要か否かを判定する。より具体的には、重要性判定部12は、共起ルールとして組み合わされている複数の単語のなかに、オントロジーで関係付けられている単語がある場合には、共起ルールとしての単語を、オントロジーで関係付けられた単語に置き換え、この置き換え後の共起ルールに基づいて、前記解析対象の文章が重要であるか否かを判定する。置き換え後の共起ルールが複数ある場合には、いずれかの置き換え後の共起ルールで重要であると判定されると、重要性判定部12は、前記解析対象の文章が重要であると判定する。例えば、ルールNo.「1」の共起ルール「gear、material、stainless、steel」の「material」は、オントロジーで「steel」、「copper」、「stainles steel」および「ss」それぞれに関係付けられているので、重要性判定部12は、前記解析対象の文章を、「gear、material、stainless、steel」に基づいて重要か否かを判定し、前記解析対象の文章を、「gear、steel、stainless、steel」に基づいて重要か否かを判定し、前記解析対象の文章を、「gear、copper、stainless、steel」に基づいて重要か否かを判定し、前記解析対象の文章を、「gear、stainless steel、stainless、steel」に基づいて重要か否かを判定し、前記解析対象の文章を、「gear、ss、stainless、steel」に基づいて重要か否かを判定し、置き換え前の共起ルールで前記解析対象の文章が重要であると判定された場合、または、いずれかの置き換え後の共起ルールで重要であると判定された場合に、前記解析対象の文章が重要であると判定する。
なお、上述では、全ての階層LAnが用いられたが、第1階層LA1から第2階層LA2までや第1階層LA1から第3階層LA3まで等のように、オントロジーによる置き換えで用いる階層LAnが制限されてもよい。
表示処理部13は、まず第1に、重要性判定部12の判定結果を表示部3に表示するものである。より具体的には、表示処理部13は、文書記憶部51に記憶された文書の各文章それぞれを、重要性判定部12で重要であると判定した文章の表示態様と重要性判定部12で重要ではないと判定した文章の表示態様とが互いに異なるように、文書記憶部51に記憶された文書の各文章それぞれを、表示部3に表示する。より詳しくは、表示処理部13は、重要性判定部12で重要であると判定した文章における共起ルールに対応する単語をハイライトにして、文書記憶部51に記憶された文書の各文章それぞれを、表示部3に表示する。ハイライトに代え、単語の表示色が変えられてもよい。
重要性判定部12は、本実施形態では、第2に、重要文章記憶部54に記憶した重要文章について、共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定する。より具体的には、上述の第1の場合と同様に、重要性判定部12は、重要文章記憶部54に記憶した重要文章(解析対象の重要文章)に、共起ルールとして組み合わされている複数の単語が全て含まれている場合に、前記解析対象の重要文章が重要であると判定し、前記解析対象の重要文章に、共起ルールとして組み合わされている複数の単語が一部または全て含まれていない場合に、前記解析対象の重要文章が重要ではないと判定する。この重要ではないと判定した前記解析対象の重要文章は、誤判定文章記憶部56に記憶される。共起ルール記憶部52に共起ルールとして複数の単語の組み合わせが複数、記憶されている場合には、重要性判定部12は、前記解析対象の重要文章に対し、前記複数の組み合わせそれぞれについて、重要か否かを判定する。重要文章記憶部54に記憶した重要文章が複数である場合には、重要性判定部12は、前記複数の重要文章それぞれについて、共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定する。本実施形態では、重要性判定部12は、重要文章記憶部54に記憶した重要文章について、共起ルール記憶部52に記憶した共起ルールおよびオントロジー記憶部53に記憶したオントロジーに基づいて重要か否かを判定する。
表示処理部13は、本実施形態では、第2に、重要文章記憶部54に記憶した重要文章について、重要性判定部12で重要ではないと判定した重要文章を表示部3に表示する。
入力部2は、重要文章記憶部54に記憶した重要文章について、重要性判定部12で重要ではないと判定して表示処理部13で表示部3に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける。
非重要性判定部14は、非重要文章記憶部55に記憶した非重要文章について、入力部2で受け付けた共起ルールの候補に基づいて重要か否かを判定するものである。より具体的には、非重要性判定部14は、非重要文章記憶部55に記憶した非重要文章(解析対象の非重要文章)に、前記共起ルールの候補として組み合わされている複数の単語が全て含まれている場合に、前記解析対象の非重要文章が重要であると判定し、前記解析対象の非重要文章に、前記共起ルールの候補として組み合わされている複数の単語が一部または全て含まれていない場合に、前記解析対象の非重要文章が重要ではないと判定する。この重要ではないと判定した前記解析対象の非重要文章は、記憶部5に記憶される。非重要文章記憶部55に記憶した非重要文章が複数である場合には、非重要性判定部14は、前記複数の非重要文章それぞれについて、前記共起ルールの候補に基づいて重要か否かを判定する。
表示処理部13は、本実施形態では、第3に、入力部2で受け付けた共起ルールの候補および非重要性判定部14で非重要と判定した判定結果を表示部3に表示する。前記判定結果は、非重要性判定部14で重要と判定した非重要文章の個数を含む。記憶部5に記憶された、前記重要ではないと判定した前記解析対象の非重要文章の個数が計数され、計数結果が表示部3に表示される。
表示処理部13は、本実施形態では、第4に、前記判定結果を表示する場合に、非重要性判定部14で重要と判定した非重要文章を表示部3に表示させるための操作ボタンを表示部3に表示し、前記操作ボタンが入力操作された場合に、非重要性判定部14で重要と判定した非重要文章を表示部3に表示する。記憶部5に記憶された、前記重要ではないと判定した前記解析対象の非重要文章が表示部3に表示される。
表示処理部13は、本実施形態では、第5に、オントロジー記憶部53に記憶したオントロジーに基づいて、入力部2で受け付けた共起ルールの候補としての複数の単語に対する単語間の関係を表示部3に表示する。
例えば、表示処理部13は、図6に示す判定結果、共起ルール入力画面SCによって、重要性判定部12で重要ではないと判定した重要文章や、入力部2で受け付けた共起ルールの候補および非重要性判定部14で重要と判定した判定結果等を表示部3に表示する。
この図6に示す判定結果、共起ルール入力画面SCは、重要性判定部12で重要ではないと判定した重要文章を表示する第1表示領域71と、重要文章登録テーブルDLにおいて、重要性判定部12で重要ではないと判定して第1表示領域71に表示した重要文章に対応するコメントを表示する第2表示領域72と、入力部2で受け付けた共起ルールの候補を表示する第3表示領域73と、オントロジー記憶部53に記憶したオントロジーに基づいて、入力部2で受け付けて第3表示領域73に表示された共起ルールの候補としての複数の単語に対する単語間の関係を表示する第4表示領域74と、非重要性判定部14で重要と判定した非重要文章の個数を表示する第5表示領域75と、第3表示領域73に表示されている共起ルールの候補を共起ルールとして確定する指示を入力するための確定ボタン76とを備える。共起ルール候補の入力を入力部2で受け付けていない場合には、第3および第4表示領域73、74は、空欄とされる。オントロジーに基づいて、第3表示領域73に表示された共起ルールの候補としての複数の単語に関連する単語が無い場合には、第4表示領域74は、空欄とされる。確定ボタン76を、入力部2を用いて入力操作すると、制御部11は、第3表示領域73に表示されている共起ルールの候補を共起ルールとして確定し、この確定した共起ルールにルール番号を割り当て、この割り当てたルール番号と対応付けて前記確定した共起ルールを共起ルール登録テーブルRTに登録して共起ルール記憶部52に記憶する。
そして、本実施形態では、第5表示領域75は、非重要性判定部14で重要と判定した非重要文章を表示部3に表示させるための操作ボタンと兼用されている。第5表示領域75が入力部2を用いて入力操作されると、例えば、図7に示すように、非重要性判定部14で重要と判定した非重要文章を表示するためのウィンドウ77が開かれ、このウィンドウ77に非重要性判定部14で非重要と判定した非重要文章が表示される。
そして、入力部2は、当該入力部2で既に受け付けた共起ルールの候補としての複数の単語に対する変更を受け付ける。非重要性判定部14は、本実施形態では、第2に、非重要文章記憶部55に記憶した非重要文章について、入力部2で受け付けた変更後の共起ルールの候補に基づいて重要か否かを再判定する。表示処理部13は、本実施形態では、第6に、入力部2で受け付けた変更後の共起ルールの候補および非重要性判定部14で重要と判定した再判定結果を表示部3に表示する。例えば、図6に示す判定結果、共起ルール入力画面SCが変更後の共起ルールの候補や再判定結果等で更新される。
なお、重要性判定部12は、重要文章記憶部54にある重要文章に対して重要か否かを判定するものであり、非重要性判定部14は、非重要文章記憶部55にある非重要文章に対して重要か否かを判定するものである。ここで、重要性判定部12と非重要性判定部14とは、判定対象の文章が異なるだけで、重要と判定するロジックは同じあり、いずれも、判定対象の文章に対して共起ルールがマッチすれば重要と判定する。
これら制御処理部1、入力部2、表示部3、IF部4および記憶部5は、例えば、デスクトップ型やノート型やタブレット型等のコンピュータによって構成可能である。
次に、本実施形態の動作について説明する。図8は、前記文書解析支援装置の動作を示すフローチャートである。
このような構成の文書解析支援装置Dは、その電源が投入されると、必要な各部の初期化を実行し、その稼働を始める。制御処理部1には、その制御処理プログラムの実行によって、制御部11、重要性判定部12、表示処理部13および非重要性判定部14が機能的に構成される。
まず、文書の解析の支援では、解析支援対象の文書、共起ルールおよびオントロジーそれぞれが入力され、記憶部5における文書記憶部51、共起ルール記憶部52およびオントロジー記憶部53それぞれに記憶される。文書の解析開始が指示されると、文書解析支援装置Dは、制御処理部1の重要性判定部12によって、文書記憶部51に記憶された文書の各文章それぞれについて、共起ルール記憶部52に記憶した共起ルールおよびオントロジー記憶部53に記憶したオントロジーに基づいて重要か否かを判定する。文書記憶部51に記憶された文書の各文章それぞれについて、前記判定が終了すると、文書解析支援装置Dは、制御処理部1の表示処理部13によって、文書記憶部51に記憶された文書の各文章それぞれを、重要性判定部12で重要であると判定した文章の表示態様と重要性判定部12で重要ではないと判定した文章の表示態様とが互いに異なるように、文書記憶部51に記憶された文書の各文章それぞれを、表示部3に表示し、処理を終了する。
次に、共起ルールの修正について説明する。ユーザ(オペレータ)は、所定の文書を用意し、前記文書から重要文章および非重要文章を抽出して重要文書および非重要文書を用意する。そして、前記ユーザは、重要文章から共起ルールを作成してひな形の共起ルールを用意し、オントロジーを作成してオントロジーを用意する。前記ひな形の共起ルールや前記オントロジーには、過去に作成したものが流用されてもよい。
そして、図8において、まず、文書解析支援装置Dは、制御処理部1によって、共起ルール(前記ひな形の共起ルール)の入力を入力部2やIF部4等を介して受け付け、記憶部5の共起ルール記憶部52に記憶する(S1)。
続いて、文書解析支援装置Dは、制御処理部1によって、オントロジーの入力を入力部2やIF部4等を介して受け付け、記憶部5のオントロジー記憶部53に記憶する(S2)。
続いて、文書解析支援装置Dは、制御処理部1によって、重要文章の入力を入力部2やIF部4等を介して受け付け、記憶部5の重要文章記憶部54に記憶する(S3)。
続いて、文書解析支援装置Dは、制御処理部1によって、非重要文章の入力を入力部2やIF部4等を介して受け付け、記憶部5の非重要文章記憶部55に記憶する(S4)。
続いて、文書解析支援装置Dは、制御処理部1の重要性判定部12によって、重要文章記憶部54に記憶した重要文章(解析対象の重要文章)について、共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定し、重要ではないと判定した前記解析対象の重要文章を誤判定文章記憶部56に記憶する(S5)。本実施形態では、前記判定の際には、重要性判定部12は、重要文章記憶部54に記憶した重要文章について、共起ルール記憶部52に記憶した共起ルールおよびオントロジー記憶部53に記憶したオントロジーに基づいて重要か否かを判定する。
続いて、文書解析支援装置Dは、制御処理部1の重要性判定部12によって、重要文章記憶部54に記憶した重要文章の全てについて重要性の判定を終了したか否かを判定する(S6)。この判定の結果、重要文章記憶部54に記憶した重要文章の全てについて判定を終了した場合(Yes)には、文書解析支援装置Dは、次に、処理S7を実施する。一方、前記判定の結果、重要文章記憶部54に記憶した重要文章の全てについて判定を終了していない場合(No)には、文書解析支援装置Dは、処理を処理S5に戻す。したがって、重要文章記憶部54に記憶した重要文章の全てについて重要性の判定が終了するまで、処理S5が繰り返し実施される。
前記処理S7では、文書解析支援装置Dは、制御処理部1の表示処理部13によって、例えば、図6に示す判定結果、共起ルール入力画面SCによって、重要文章記憶部54に記憶した重要文章について、重要性判定部12で重要ではないと判定した重要文章およびこれに対応するコメントそれぞれを第1および第2表示領域71、72それぞれに表示し、共起ルールの候補の入力を受け付ける。なお、第5表示領域75が入力部2を用いて入力操作されると、ウィンドウ77が開かれ、このウィンドウ77に非重要性判定部14で重要と判定した非重要文章が表示される。ユーザは、第1および第2表示領域71、72それぞれに表示された、重要性判定部12で重要ではないと判定した重要文章およびこれに対応するコメントを参照し、入力部2から共起ルールの候補を入力する。ユーザによって入力部2で共起ルールの候補が入力されると、表示処理部13は、共起ルールの候補を第3表示領域73に表示し、オントロジー記憶部53に記憶されているオントロジーに基づいて、第3表示領域73に表示した共起ルールの候補としての複数の単語に対する単語間の関係を第4表示領域74に表示する。
前記共起ルールの候補が入力されると、続いて、文書解析支援装置Dは、制御処理部1の非重要性判定部14によって、非重要文章記憶部55に記憶した非重要文章について、入力部2で受け付けた共起ルールの候補に基づいて重要か否かを判定し、表示処理部13によって、非重要性判定部14で重要と判定した判定結果を表示部3に表示する(S8)。例えば、非重要性判定部14で重要と判定した非重要文章の個数が判定結果、共起ルール入力画面SCの第5表示領域75に表示される。
続いて、文書解析支援装置Dは、制御処理部1の制御部11によって、共起ルールの候補の確定か否かを判定する(S9)。この判定の結果、前記確定である場合(Yes)には、文書解析支援装置Dは、次に、処理S10を実施する。例えば、ユーザは、判定結果、共起ルール入力画面SCの第5表示領域75に表示された、非重要性判定部14で重要と判定した非重要文章の個数を参照し、第3表示領域73に表示された共起ルールの候補を共起ルールとして確定するか否かを判断する。前記確定と判断した場合には、ユーザは、確定ボタン76を入力部2を用いて入力操作する。この確定ボタン76の入力操作を受け付けると、制御部11は、前記確定である場合(Yes)と判定する。一方、前記判定の結果、前記確定ではない場合(No)には、文書解析支援装置Dは、処理を、処理S7に戻す。例えば、制御部11は、非重要性判定部14で重要と判定した判定結果(ここでは、その個数)を表示部3に表示した後、所定時間の間に、確定ボタン76の入力操作を受け付けない場合には、前記確定ではない場合(No)と判定する。あるいは、例えば、第3表示領域73に表示されている共起ルールの候補を共起ルールとして確定しない指示を入力するための未確定ボタンが判定結果、共起ルール入力画面SCにさらに設けられてもよく、この場合では、制御部11は、非重要性判定部14で重要と判定した判定結果(ここでは、その個数)を表示部3に表示した後、前記未確定ボタンの入力操作を受け付けた場合には、前記確定ではない場合(No)と判定する。
処理が処理S7に戻されることによって、処理S7において、入力部2は、当該入力部2で既に受け付けた共起ルールの候補としての複数の単語に対する変更を受け付け、続く処理S8において、非重要性判定部14は、非重要文章記憶部55に記憶した非重要文章について、入力部2で受け付けた変更後の共起ルールの候補に基づいて重要か否かを再判定し、表示処理部13は、入力部2で受け付けた変更後の共起ルールの候補および非重要性判定部14で重要と判定した再判定結果を表示部3に表示する。共起ルールの候補が確定されるまで、処理S7ないし処理S9の各処理が繰り返される。
一方、前記処理S10では、文書解析支援装置Dは、制御処理部1の制御部11によって、共起ルールの候補を確定し、この確定した共起ルールの候補で共起ルール記憶部52に記憶されている共起ルールを修正(更新)する。上述の例では、制御部11は、第3表示領域73に表示されている共起ルールの候補を共起ルールとして確定し、この確定した共起ルールにルール番号を割り当て、この割り当てたルール番号と対応付けて前記確定した共起ルールを共起ルール登録テーブルRTに登録して共起ルール記憶部52に記憶する。
続いて、文書解析支援装置Dは、制御処理部1の制御部11によって、処理S5によって重要性判定部12で重要ではないと判定した重要文章の全てについて処理を終了したか否かを判定する(S11)。すなわち、制御部11は、誤判定文章記憶部56に記憶した全ての重要文章について処理を終了したか否かを判定する。この判定の結果、前記全ての重要文章について処理を終了した場合(Yes)には、文書解析支援装置Dは、本処理を終了し、一方、前記判定の結果、前記全ての重要文章について処理を終了していない場合(No)には、文書解析支援装置Dは、処理を処理S7に戻す。したがって、誤判定文章記憶部56に記憶した全ての重要文章について処理を終了するまで、処理S7ないし処理S11の各処理が繰り返される。
以上説明したように、実施形態における文書解析支援装置Dおよびこれに実装された文書解析支援方法および文書解析支援プログラムは、共起ルール記憶部52に記憶した共起ルールでは、重要文章が重要ではないと判定された場合に、その重要ではないと判定した重要文章を表示部3に表示するので、表示部3に表示された重要文章を参照しながら、その重要ではないと判定した重要文章に対する共起ルールの候補を入力できる。上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、非重要文章記憶部55に記憶した非重要文章について、共起ルールの候補に基づいて重要か否かを判定し、前記共起ルールの候補および前記重要と判定した判定結果を表示部3に表示するので、前記判定結果を参照しながら、前記共起ルールの候補で或る文章が重要と判定しないように前記共起ルールの候補を調整できる。したがって、上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、適切に共起ルールを修正できる。上記文書解析支援装置D、文書解析支援方法および文書解析支援プログラムは、例えばユーザの見落とし等によって前記ひな形の共起ルールに含まれていなかった共起ルールを抽出でき、前記ひな形の共起ルールを修正できる。
上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、非重要性判定部14で重要と判定した非重要文章の個数を表示するので、この個数が0となるように、前記共起ルールの候補を調整できる。
上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、非重要性判定部14で重要と判定した非重要文章を表示部3に表示できるので、前記非重要文書に含まれる単語を参照しながら、前記非重要文章を重要と判定しないように(前記非重要文章を抽出しないように)、前記共起ルールの候補を効率よく調整できる。
上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、オントロジーに基づいて重要か否かを判定するので、重要文章に含まれる単語が言い換えられた単語であった場合でも、重要と適切に判定できる。
上記文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、オントロジーに基づいて、共起ルールの候補としての複数の単語に関係(関連)する単語を表示するので、前記関係する単語で、前記共起ルールの候補の調整が可能となる。
上記文書解析支援装置D、文書解析支援方法および文書解析支援プログラムは、共起ルールの候補の単語を変更し、変更後の共起ルールの候補で再判定するので、変更後の共起ルールの候補に対する適切性を認識でき、前記共起ルールの候補を効率よく調整できる。
なお、上述の実施形態において、文書解析支援装置Dは、図1に破線で示すように、制御処理部1に機能的に、共起ルール記憶部52に記憶した共起ルールを、重要文章記憶部54に記憶した重要文章に関連する関連単語に応じて修正する共起ルール修正部15をさらに備えてもよい(第1変形形態)。この場合では、重要性判定部12は、重要文章記憶部54に記憶した重要文章について、共起ルール修正部15で修正した修正後の共起ルールに基づいて重要か否かを判定する。このような第1変形形態の文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、重要文章記憶部54に記憶した重要文章に関連する関連単語に応じて共起ルールを修正するので、より適切に重要性を判定できる。
前記関連単語は、例えば、重要文章記憶部54に記憶した重要文章を備えて構成される文書のタイトルに含まれる第1単語または前記第1単語に関連する第2単語である。共起ルール修正部15は、例えば、前記関連単語に応じて、共起ルールに含まれる複数の単語のうちの一部を削除することで前記共起ルールを修正する。あるいは、例えば、共起ルール修正部15は、前記関連単語に応じて、共起ルールに含まれる複数の単語に、1または複数の第1および第2単語のうちの少なくとも一方をさらに組み合わせることで前記共起ルールを修正する。
例えば、「reducer」(減速機)に関する顧客要求仕様書では、通常、文書のタイトルに「reducer」が含まれ、「reducer」を前提として仕様の文章が作成されることがある。このような場合、「reducer」が前記第1単語とされ、共起ルール修正部15は、共起ルールに含まれる複数の単語のうちの「reducer」を削除することで前記共起ルールを修正する。あるいは、共起ルール修正部15は、共起ルールに含まれる複数の単語に「reducer」をさらに組み合わせることで前記共起ルールを修正する。
また例えば、「reducer」に関する顧客要求仕様書では、減速機は、当然、「gear」(ギア)を含むので、「gear」を前提として仕様の文章が作成されることもある。このような場合、「reducer」が前記第1単語とされ、「gear」が前記第2単語とされ、共起ルール修正部15は、共起ルールに含まれる複数の単語のうちの「gear」を削除することで前記共起ルールを修正する。あるいは、共起ルール修正部15は、共起ルールに含まれる複数の単語に「gear」をさらに組み合わせることで前記共起ルールを修正する。
また例えば、「reducer」に関する顧客要求仕様書では、「reducer」および「gear」を前提として仕様の文章が作成されることもある。このような場合、「reducer」が前記第1単語とされ、「gear」が前記第2単語とされ、共起ルール修正部15は、共起ルールに含まれる複数の単語のうちの「reducer」および「gear」を削除することで前記共起ルールを修正する。あるいは、共起ルール修正部15は、共起ルールに含まれる複数の単語に「reducer」および「gear」をさらに組み合わせることで前記共起ルールを修正する。
上述の例において、前記文書のタイトルに、前記「reducer」の製品名や略称等の前記「reducer」を指し示す単語が含まれ、前記「reducer」を指し示す単語が前記第1単語とされ、「reducer」や「gear」が前記第2単語とされてもよい。
また、この第1変形形態において、前記関連単語は、非重要文章記憶部55に記憶した非重要文章にさらに関連し、共起ルール修正部15は、入力部2で受け付けた共起ルールの候補を、前記関連単語に応じて修正し、非重要性判定部14は、非重要文章記憶部55に記憶した非重要文章について、共起ルール修正部15で修正した修正後の共起ルールの候補に基づいて重要か否かを判定してもよい(第2変形形態)。このような第2変形形態の文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、非重要文章記憶部55に記憶した非重要文章にさらに関連する関連単語に応じて共起ルールの候補を修正するので、より適切に非重要性を判定できる。前記関連単語は、重要文章記憶部54に記憶した重要文章および非重要文章記憶部55に記憶した非重要文章を備えて構成される文書のタイトルに含まれる第1単語または前記第1単語に関連する第2単語である。共起ルール修正部15は、例えば、前記関連単語に応じて、共起ルールの候補に含まれる複数の単語のうちの一部を削除することで前記共起ルールの候補を修正する。あるいは、例えば、共起ルール修正部15は、前記関連単語に応じて、共起ルールの候補に含まれる複数の単語に、1または複数の第1および第2単語のうちの少なくとも一方をさらに組み合わせることで前記共起ルールの候補を修正する。
また、上述の実施形態では、重要文章が重要性を判定する前に予め重要文章記憶部54に記憶されたが、1個の重要文章が、解析対象の対象文章として入力部2(対象文章取得部の一例)あるいはIF部4(対象文章取得部の他の一例)から取得されてもよい。この場合では、重要性判定部12は、入力部2あるいはIF部4で取得した対象文章について、共起ルール記憶部52に記憶した共起ルールに基づいて重要か否かを判定し、表示処理部13は、重要性判定部12で重要ではないと判定した場合に、前記対象文章を表示部3に表示する。このように重要文章が1文ずつ文書解析支援装置Dに入力され、前記重要文章に対する共起ルールが、その都度、生成され、共起ルール記憶部52に記憶された共起ルールが順次に修正されてもよい。このような文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムでも、上述の実施形態における文書解析支援装置D、文書解析支援方法および文書解析支援プログラムと同様に適切にルールを修正できる。
また、上述の実施形態ならびに第1および第2変形形態において、共起ルールの単語について、同義とみなす同義みなし単語が導入されてもよい(第3変形形態)。
この場合では、文書解析支援装置Dの入力部2は、さらに、共起ルールの単語について、同義とみなす同義みなし単語の入力を受け付ける。文書解析支援装置Dは、図1に破線で示すように、制御処理部1に機能的に、さらに、同義みなし単語登録部16および共通単語抽出部17をさらに備える。同義みなし単語登録部16は、前記入力部2で受け付けた同義みなし単語を、前記単語に関連付けて前記共起ルール記憶部52に記憶するものである。共通単語抽出部17は、共起ルール記憶部52が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出するものである。この第3変形形態では、共通単語抽出部17は、上述のように共通単語抽出部17で抽出した前記共通する単語および同義みなし単語に関連付けられている前記単語および前記同義みなし単語のうちの少なくとも一方をさらに抽出する。そして、文書解析支援装置Dの制御処理部1における表示処理部13は、さらに、前記共通単語抽出部17で抽出した前記共通する単語および同義みなし単語を前記表示部3に表示する。例えば、表示処理部13は、前記単語および前記同義みなし単語をノード(節点)で表し、前記単語と前記同義みなし単語との関連付けをエッジ(辺)で表すグラフ(例えば無向グラフ)で、前記共通単語抽出部17で抽出した前記共通する単語および同義みなし単語を前記表示部3に表示する。
図9は、一例として、同義みなし単語処理画面を示す図である。図10は、一例として、同義みなし単語の入力例およびグラフを説明するための図である。図10Aないし図10Eは、それぞれ、同義みなし単語の各入力例を示し、図10Fは、グラフ(無向グラフ)を示す。
より具体的には、例えば、同義みなし単語の入力を指示するコマンドを入力部2で受け付けると、文書解析支援装置Dは、制御処理部1の表示処理部13によって、同義みなし単語に関わる処理を行うための同義みなし単語処理画面を表示部3に表示する。前記同義みなし単語処理画面は、この第3変形形態では、例えば、共起ルールの単語について、同義とみなす同義みなし単語の入力を受け付け、共通単語抽出部17で抽出した前記共通する単語および同義みなし単語をグラフで表示するための画面である。この同義みなし単語処理画面SAは、例えば、図9に示すように、入力部2で受け付けた共起ルールの単語およびこれに対応する同義みなし単語を表示する同義みなし単語表示領域81と、同義みなし単語表示領域81を一方へスクロールする指示を入力するための第1スクロールボタン82aと、同義みなし単語表示領域81を、前記一方に対向する他方向へスクロールする指示を入力するための第2スクロールボタン82bと、入力部2で受け付けた、グラフを表示させる単語および同義みなし単語を表示するグラフ表示単語表示領域83と、グラフを表示するグラフ表示領域84と、グラフ表示領域84を一方へスクロールする指示を入力するための第3スクロールボタン85aと、グラフ表示領域84を、前記一方に対向する他方向へスクロールする指示を入力するための第4スクロールボタン85bと、同義みなし単語表示領域81に表示されている共起ルールの単語およびこれに対応する同義みなし単語を共起ルール記憶部52に記憶させる指示を入力するための確定ボタン86と、グラフ表示単語表示領域83に表示されている単語およびこれに対応する同義みなし単語に対応するグラフをグラフ表示領域84に表示させる指示を入力するためのグラフ表示ボタン87と、同義みなし単語処理画面SAを終了させる指示を入力するための終了ボタン88とを備える。前記同義みなし単語は、例えば、図10Aないし図10Eそれぞれに示すように、共起ルールの単語に続けて括弧書きで入力部2から入力される(共起ルールの単語(同義みなし単語))。前記グラフは、前記単語および前記同義みなし単語を表すノード(節点)と、前記単語と前記同義みなし単語との関連付けを表すエッジ(辺)とを備えて構成される。
この図9に示す例では、同義みなし単語表示領域81は、入力部2で受け付けた共起ルールの単語およびこれに対応する同義みなし単語を表示するだけでなく、入力部2で受け付けた共起ルールにおける複数の単語を表示する。すなわち、文書解析支援装置Dは、図9に示す同義みなし単語処理画面SAを用いて共起ルールにおける複数の単語の入力を入力部2で受け付け、これを共起ルール記憶部52に記憶できる。このため、同義みなし単語の入力およびその記憶(登録)に、図6および図7に示す上述の共起ルール入力画面SCが流用できる。すなわち、図6および図7に示す共起ルール入力画面SCでは、共起ルールの候補を入力する場合に、この共起ルールの候補の単語に関連付けられる同義みなし単語を、前記共起ルールの候補の単語に続けて括弧書きで入力部2から入力し、確定ボタン76を入力操作することで、文書解析支援装置Dは、同義みなし単語を入力し、共起ルール記憶部52に記憶できる。
例えば、同義みなし単語処理画面SAを表示部3に表示させると、第1ユーザ(第1オペレータ)は、入力部2を用いることによって、「23(voting)(2 out of 3);different(separate)(each);jb(junction box)」を入力する。これは、”23”、” different”および”jb”が共起ルールにおける複数の単語であり、”voting”および”2 out of 3”それぞれが” 23”の同義みなし単語であり、”separate”および”each”それぞれが”different”の同義みなし単語であり、”junction box”が”jb”の同義みなし単語であることを意味する。この入力を受け付けると、同義みなし単語処理画面SAの同義みなし単語表示領域81には、図10Aに示す「23(voting)(2 out of 3);different(separate)(each);jb(junction box)」が表示される。この状況で、前記第1ユーザは、確定ボタン86を入力操作すると、文書解析支援装置Dは、同義みなし単語登録部16によって、入力部2で入力されて同義みなし単語表示領域81に表示されている「23(voting)(2 out of 3);different(sepaate)(each);jb(junction box)」を共起ルール記憶部52に記憶する。この第3変形形態では、前記同義みなし単語は、入力方法や表示方法と同様に、共起ルールの単語に関連付けられる同義みなし単語を、前記共起ルールの単語に続けて括弧書きで共起ルール記憶部52へ記憶(登録)される。そして、前記第1ユーザは、終了ボタン88を入力操作し、同義みなし単語処理画面SAが終了される。
なお、図9に示す例の同義みなし単語処理画面SAでは、第1スクロールボタン82aまたは第2スクロールボタン52bを入力操作することによって、文書解析支援装置Dは、新たな同義みなし単語表示領域81を表示することができ、入力部2で、新たに、共起ルールの単語およびこれに対応する同義みなし単語の入力を受け付けることができ、確定ボタン86の入力操作によって、これらを共起ルール記憶部52に記憶できる。すなわち、共起ルールの単語およびこれに対応する同義みなし単語の組が、複数、入力でき、記憶できる。そして、文書解析支援装置Dは、共起ルールの単語およびこれに対応する同義みなし単語の組が、既に、複数、入力されている場合に、第1および第2スクロールボタン82a、82bのいずれかを入力操作することによって、各組を順次に同義みなし単語表示領域81に表示することができ、上書きすることによって、共起ルールの単語やこれに対応する同義みなし単語を修正できる。
例えば、第1ユーザと異なる第2ユーザ(第2オペレータ)は、同義みなし単語処理画面SAを表示部3に表示させると、入力部2を用いることによって、「jb(junction box);terminal;number(quantity)(quantities)」を入力する。この入力を受け付けると、同義みなし単語処理画面SAの同義みなし単語表示領域81には、図10Bに示す「jb(junction box);terminal;number(quantity)(quantities)」が表示される。この状況で、前記第2ユーザは、確定ボタン86を入力操作した後に、終了ボタン88を入力操作すると、文書解析支援装置Dは、同義みなし単語登録部16によって、入力部2で入力されて同義みなし単語表示領域81に表示されている「jb(junction box);terminal;number(quantity)(quantities)」を共起ルール記憶部52に記憶して同義みなし単語処理画面SAを終了する。
例えば、第1および第2ユーザと異なる第3ユーザ(第3オペレータ)は、同義みなし単語処理画面SAを表示部3に表示させると、入力部2を用いることによって、「junction box(JB);Ex-d(Exd)(Ex d)」を入力する。この入力を受け付けると、同義みなし単語処理画面SAの同義みなし単語表示領域81には、図10Cに示すjunction box(JB);Ex-d(Exd)(Ex d)」が表示される。この状況で、前記第3ユーザは、確定ボタン86を入力操作した後に、終了ボタン88を入力操作すると、文書解析支援装置Dは、同義みなし単語登録部16によって、入力部2で入力されて同義みなし単語表示領域81に表示されているjunction box(JB);Ex-d(Exd)(Ex d)」を共起ルール記憶部52に記憶して同義みなし単語処理画面SAを終了する。
例えば、第1ないし第3ユーザと異なる第4ユーザ(第4オペレータ)は、同義みなし単語処理画面SAを表示部3に表示させると、入力部2を用いることによって、「smart;I/O cabinet(junction box)(JB)」を入力する。この入力を受け付けると、同義みなし単語処理画面SAの同義みなし単語表示領域81には、図10Dに示すsmart;I/O cabinet(junction box)(JB)」が表示される。この状況で、前記第2ユーザは、確定ボタン86を入力操作した後に、終了ボタン88を入力操作すると、文書解析支援装置Dは、同義みなし単語登録部16によって、入力部2で入力されて同義みなし単語表示領域81に表示されているsmart;I/O cabinet(junction box)(JB)」を共起ルール記憶部52に記憶して同義みなし単語処理画面SAを終了する。
例えば、第1ないし第4ユーザと異なる第5ユーザ(第5オペレータ)は、同義みなし単語処理画面SAを表示部3に表示させると、入力部2を用いることによって、「smart;I/O cabinet(junction box)(jb)」を入力する。この入力を受け付けると、同義みなし単語処理画面SAの同義みなし単語表示領域81には、図10Eに示すsmart;I/O cabinet(junction box)(jb)」が表示される。この状況で、前記第2ユーザは、確定ボタン86を入力操作した後に、終了ボタン88を入力操作すると、文書解析支援装置Dは、同義みなし単語登録部16によって、入力部2で入力されて同義みなし単語表示領域81に表示されているsmart;I/O cabinet(junction box)(jb)」を共起ルール記憶部52に記憶して同義みなし単語処理画面SAを終了する。
このような状況において、グラフの表示を指示するコマンドを入力部2で受け付けると、文書解析支援装置Dは、表示処理部13によって、同義みなし単語処理画面SAを表示部3に表示する。上述の前記第1ないし第5ユーザのいずれか、あるいは、前記第1ないし第5ユーザとは異なる第6ユーザ(第6オペレータ)が、ここでは、前記第1ユーザが例えばグラフ表示ボタン87を入力操作すると、文書解析支援装置Dは、制御処理部1の共通単語抽出部17によって、共起ルール記憶部52が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出する。そして、この第3変形形態では、共通単語抽出部17は、上述のように共通単語抽出部17で抽出した前記共通する単語および同義みなし単語に関連付けられている前記単語および前記同義みなし単語のうちの少なくとも一方をさらに抽出する。例えば、共通単語抽出部17は、共起ルール記憶部52に記憶されている1番目のレコードに登録されている共起ルールから順次に、各レコードに登録されている各共起ルールそれぞれについて、複数の共起ルール間で共通する単語および同義みなし単語を抽出し、さらに、このように共通単語抽出部17で抽出した前記共通する単語および同義みなし単語に関連付けられている前記単語および前記同義みなし単語のうちの少なくとも一方をさらに抽出する。例えば、図10Aないし図10Eに示す上述の例では、第1および第2ユーザそれぞれが上述のように入力した「jb(junction box)」が抽出される。ここで、後述すするように、単語編集距離がレーベンシュタイン距離である場合、大文字は、小文字に変換され、大文字と小文字とは区別されずにレーベンシュタイン距離が0であるので、第3ユーザが上述のように入力した「junction box(JB)」も抽出される。そして、このように抽出された「junction box(JB)」に関連付けられている第4ユーザが入力した「I/O cabinet(junction box)(JB)」が抽出されるとともに、第5ユーザが入力した「I/O cabinet(junction box)(jb)」が抽出される。
前記抽出すると、文書解析支援装置Dは、表示処理部13によって、共通単語抽出部17で抽出した前記共通する単語および同義みなし単語をグラフで同義みなし単語処理画面SAのグラフ表示領域84に表示する。図10Aないし図10Eに示す上述の例では、 “jb”、“junction box”、“I/O cabinet”および“JB”をノードで表し、これらの関連付けをエッジで表した図10Fに示すグラフがグラフ表示領域84に表示される。例えば、“junction”と“JB”とは、第3および第4ユーザそれぞれが上述のように入力した「junction(JB)」で関連付けられているので、“junction”のノードと“JB”のノードとは、2本のエッジで結ばれている。
なお、共通単語抽出部17で抽出した前記共通する単語および同義みなし単語の組が、複数、抽出されている場合には、第3および第4スクロールボタン85a、85bのいずれかを入力操作することによって、各組を順次にグラフ表示領域84に表示することができる。
あるいは、図9に示す同義みなし単語処理画面SAでは、上述のように、グラフ表示単語表示領域83が設けられているので、前記第1ユーザは、グラフを表示させる単語および同義みなし単語を入力部2から入力してもよい。例えば、上述の例では、「junction(JB)」が入力部2から入力され、グラフ表示単語表示領域83に表示され、グラフ表示ボタン87が入力操作されると、共通単語抽出部17によって“junction(JB)”に基づく抽出が実行され、表示処理部13によって図10Fに示すグラフがグラフ表示領域84に表示される。
このような第3変形形態における文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、共起ルール記憶部52が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出して表示部3に表示するので、オントロジーを修正する場合に、これを参照することで効率よく修正でき、複数のユーザから同義みなし単語の入力を受け付けた場合に、他のユーザが入力した同義みなし単語も抽出され表示されるので、他のユーザが入力した同義みなし単語も参照できる。このため、共起ルール入力画面SCに、同義みなし単語処理画面SAを表示させる指示を入力するための同義みなし単語処理ボタン(不図示)をさらに備え、前記同義みなし単語処理ボタンが入力操作されると、新たなウィンドウで同義みなし単語処理画面SAが表示されることが好ましい。あるいは、共起ルール入力画面SCと同義みなし単語処理画面SAとが統合されることが好ましい。これにより同義みなし単語を参照しながらオントロジーを効率よく修正できる。
第3変形形態における文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、共通単語抽出部17で抽出した前記共通する単語および同義みなし単語をグラフで表示部3に表示するので、単語と同義みなし単語との関連性を、視覚的に捉えることができ、効率よく認識できる。
また、上述の第3変形形態において、前記共通単語抽出部17は、さらに、複数の共起ルール間で、単語編集距離が閾値以下である単語および同義みなし単語を、前記共通する単語および同義みなし単語として抽出してもよい(第4変形形態)。前記閾値は、予め適宜に設定される。前記単語編集距離には、例えば、2個の文字列間において、1文字の挿入、削除、置換によって、一方の文字列を他方の文字列に変形する際に要する手順の最小回数として求められるレーベンシュタイン距離が用いられる。例えば、”kitten”と”sitting”との間のレーベンシュタイン距離は、”kitten”→”sitten” → ”sittin” → ”sitting”の3回の手順が必要となるので、3となる。なお、レーベンシュタイン距離に限定されるものではなく、例えば、ジャロ・ウィンクラー距離が前記単語編集距離として用いられてもよい。
図11は、一例として、第3および第4変形形態での各グラフを説明するための図である。図11Aは、第4変形形態でのグラフを示し、図11Bおよび図11Cは、第3変形形態での各グラフを示す。
例えば、同義みなし単語処理画面SAが表示部3に表示され、第1ユーザによって、「anti surge(anti_surge)」が入力部2から入力され、確定ボタン86が入力操作され、これが共起ルール記憶部52に記憶されているものとする。そして、同義みなし単語処理画面SAが表示部3に表示され、第2ユーザによって、「antisurge(anti-surge)」が入力部2から入力され、確定ボタン86が入力操作され、これが共起ルール記憶部52に記憶されているものとする。このような場合、上述の第3変形形態において、“anti surge(anti_surge)”が共通単語抽出部17によって抽出される場合、“antisurge(anti-surge)”は、抽出されない。このため、同義みなし単語処理画面SAのグラフ表示領域84には、“anti surge”および”anti_surge”をノードで表し、これの関連付けをエッジで表した図11Bに示すグラフが表示される。同様に、上述の第3変形形態において、“antisurge(anti-surge)”が共通単語抽出部17によって抽出される場合、“anti surge(anti_surge)”は、抽出されない。このため、同義みなし単語処理画面SAのグラフ表示領域84には、“antisurge”および”anti-surge”をノードで表し、これの関連付けをエッジで表した図11Cに示すグラフが表示される。一方、この第4変形形態では、例えば、前記閾値が2とされると、“anti surge”に対し、“antisurge”のレーベンシュタイン距離は、1であり、”antisurge”が抽出され、“anti surge”に対し、“anti-surge”のレーベンシュタイン距離は、1であり、”anti-surge”が抽出され、“anti_surge”に対し、“antisurge”のレーベンシュタイン距離は、1であり、”antisurge”が抽出され、“anti_surge”に対し、“anti-surge”のレーベンシュタイン距離は、1であり、”anti-surge”が抽出される。このため、同義みなし単語処理画面SAのグラフ表示領域84には、“anti surge”、”anti_surge”、“antisurge”および”anti-surge”をノードで表し、これらの関連付けをエッジで表した図11Aに示すグラフが表示される。
この第4変形形態における文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、単語編集距離が閾値以下である単語および同義みなし単語を、前記共通する単語および同義みなし単語として抽出するので、例えば図11Aと図11Bおよび図11Cそれぞれとを対比すると分かるように、同一ユーザでは気付けなかった同義みなし単語の気付きを支援できる。
なお、この第4変形形態の場合において、前記表示処理部13は、さらに、前記単語編集距離を前記エッジに添付してもよい(第5変形形態の第1態様)。図11Aに示す例において、“anti surge”のノードと”antisurge”のノードとを結ぶエッジには、レーベンシュタイン距離「1」が添付される(エッジの近傍に「1」が表示される)。あるいは、前記表示処理部13は、さらに、前記単語編集距離に応じて前記エッジの表示態様を変更してもよい(第5変形形態の第2態様)。前記エッジの表示態様は、例えば、前記エッジの太さ、前記エッジの表示色、および、前記エッジの表示色の濃淡のうちのいずれかである。例えば、レーベンシュタイン距離が小さいほどエッジがより太く表示される。あるいは例えば、レーベンシュタイン距離が小さいほどエッジが暖色系の表示色で表示され、レーベンシュタイン距離が大きいほどエッジが寒色系の表示色で表示される(例えばレーベンシュタイン距離が小さい値から大きな値になるに従って、赤色、橙色、黄色、緑色、水色、青色および紫色に順次に表示色が変更される)。あるいは例えば、例えば、レーベンシュタイン距離が小さいほどエッジがより濃く表示される。
この第5変形形態における文書解析支援装置D、文書解析支援装置方法および文書解析支援プログラムは、単語編集距離をエッジに添付する、または、単語編集距離に応じてエッジの表示態様を変更するので、単語と同義みなし単語との関連性の度合い(強弱)を、視覚的に捉えることができ、効率よく認識できる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
D 文書解析支援装置
1 制御処理部
2 入力部
3 表示部
4 インターフェース部(IF部)
5 記憶部
11 制御部
12 重要性判定部
13 表示処理部
14 非重要性判定部
15 共起ルール修正部
16 同義みなし単語登録部
17 共通単語抽出部
51 文書記憶部
52 共起ルール記憶部
53 オントロジー記憶部
54 重要文章記憶部
55 非重要文章記憶部
56 誤判定文章記憶部

Claims (15)

  1. 表示部と、
    組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、
    第1文章を、重要文章として、1または複数、記憶する重要文章記憶部と、
    前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部と、
    前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部と、
    前記重要性判定部で重要ではないと判定した重要文章を前記表示部に表示する表示処理部と、
    前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部と、
    前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部とを備え、
    前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する、
    文書解析支援装置。
  2. 前記判定結果は、前記非重要性判定部で重要と判定した非重要文章の個数を含む、
    請求項1に記載の文章解析支援装置。
  3. 前記表示処理部は、前記非重要性判定部で重要と判定した非重要文章を前記表示部に表示させるための操作ボタンを前記表示部に表示し、前記操作ボタンが入力操作された場合に、前記非重要性判定部で重要と判定した非重要文章を前記表示部に表示する、
    請求項1または請求項2に記載の文書解析支援装置。
  4. 単語間の関係を表すオントロジーを記憶するオントロジー記憶部をさらに備え、
    前記重要性判定部は、前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールおよび前記オントロジー記憶部に記憶したオントロジーに基づいて重要か否かを判定する、
    請求項1ないし請求項3のいずれか1項に記載の文書解析支援装置。
  5. 前記表示処理部は、前記オントロジー記憶部に記憶したオントロジーに基づいて、前記入力部で受け付けた共起ルールの候補としての複数の単語に対する単語間の関係を前記表示部に表示する、
    請求項4に記載の文書解析支援装置。
  6. 前記入力部は、当該入力部で既に受け付けた共起ルールの候補としての複数の単語に対する変更を受け付け、
    前記非重要性判定部は、前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた変更後の共起ルールの候補に基づいて重要か否かを再判定し、
    前記表示処理部は、前記入力部で受け付けた変更後の共起ルールの候補および前記非重要性判定部で重要と判定した再判定結果を前記表示部に表示する、
    請求項1ないし請求項5のいずれか1項に記載の文書解析支援装置。
  7. 前記共起ルール記憶部に記憶した共起ルールを、前記重要文章記憶部に記憶した重要文章に関連する関連単語に応じて修正する共起ルール修正部をさらに備え、
    前記重要性判定部は、前記重要文章記憶部に記憶した重要文章について、前記共起ルール修正部で修正した修正後の共起ルールに基づいて重要か否かを判定する、
    請求項1ないし請求項6のいずれか1項に記載の文書解析支援装置。
  8. 前記関連単語は、前記非重要文章記憶部に記憶した非重要文章にさらに関連し、
    前記共起ルール修正部は、前記入力部で受け付けた共起ルールの候補を、前記関連単語に応じて修正し、
    前記非重要性判定部は、前記非重要文章記憶部に記憶した非重要文章について、前記共起ルール修正部で修正した修正後の共起ルールの候補に基づいて重要か否かを判定する、
    請求項7に記載の文書解析支援装置。
  9. 表示部と、組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、第1文章を、重要文章として、1または複数、記憶する重要文章記憶部と、前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部とを備える文書解析支援装置で実行される文書解析支援方法であって、
    前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定工程と、
    前記重要性判定工程で重要ではないと判定した重要文章を前記表示部に表示する表示処理工程と、
    前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力工程と、
    前記非重要文章記憶部に記憶した非重要文章について、前記入力工程で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定工程とを備え、
    前記表示処理工程は、前記入力工程で受け付けた共起ルールの候補および前記非重要性判定工程で重要と判定した判定結果を前記表示部に表示する、
    文書解析支援方法。
  10. コンピュータを、
    組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部、
    第1文章を、重要文章として、1または複数、記憶する重要文章記憶部、
    前記第1文章と異なる第2文章を、非重要文章として、1または複数、記憶する非重要文章記憶部、
    前記重要文章記憶部に記憶した重要文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部、
    前記重要性判定部で重要ではないと判定した重要文章を表示部に表示する表示処理部、
    前記表示部に表示した重要文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部、および、
    前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部として機能させるための文章解析支援プログラムであって、
    前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する、
    文書解析支援プログラム。
  11. 表示部と、
    組み合わされた複数の単語を、共起ルールとして、1または複数、記憶する共起ルール記憶部と、
    所定の文章を、非重要文章として、1または複数、記憶する非重要文章記憶部と、
    解析対象の対象文章を取得する対象文章取得部と、
    前記対象文章取得部で取得した対象文章について、前記共起ルール記憶部に記憶した共起ルールに基づいて重要か否かを判定する重要性判定部と、
    前記重要性判定部で重要ではないと判定した場合に、前記対象文章を前記表示部に表示する表示処理部と、
    前記表示部に表示した対象文章に対する共起ルールの候補として、複数の単語の入力を受け付ける入力部と、
    前記非重要文章記憶部に記憶した非重要文章について、前記入力部で受け付けた共起ルールの候補に基づいて重要か否かを判定する非重要性判定部とを備え、
    前記表示処理部は、前記入力部で受け付けた共起ルールの候補および前記非重要性判定部で重要と判定した判定結果を前記表示部に表示する、
    文書解析支援装置。
  12. 前記入力部は、さらに、共起ルールの単語について、同義とみなす同義みなし単語の入力を受け付け、
    前記入力部で受け付けた同義みなし単語を、前記単語に関連付けて前記共起ルール記憶部に記憶する同義みなし単語登録部と、
    共起ルール記憶部が複数の共起ルールを記憶する場合に、複数の共起ルール間で共通する単語および同義みなし単語を抽出する共通単語抽出部とをさらに備え、
    前記表示処理部は、さらに、前記共通単語抽出部で抽出した前記共通する単語および同義みなし単語を前記表示部に表示する、
    請求項1ないし請求項8のいずれか1項に記載の文書解析支援装置。
  13. 前記共通単語抽出部は、さらに、複数の共起ルール間で、単語編集距離が閾値以下である単語および同義みなし単語を、前記共通する単語および同義みなし単語として抽出する、
    請求項12に記載の文書解析支援装置。
  14. 前記表示処理部は、前記単語および前記同義みなし単語をノードで表し、前記単語と前記同義みなし単語との関連付けをエッジで表すグラフで、前記共通単語抽出部で抽出した前記共通する単語および同義みなし単語を前記表示部に表示する、
    請求項12または請求項13に記載の文書解析支援装置。
  15. 前記表示処理部は、さらに、前記単語編集距離を前記エッジに添付する、または、前記単語編集距離に応じて前記エッジの表示態様を変更する、
    請求項13を引用する請求項14に記載の文書解析支援装置。
JP2022168661A 2021-10-25 2022-10-20 文書解析支援装置、該方法および該プログラム Pending JP2023064080A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021173774 2021-10-25
JP2021173774 2021-10-25

Publications (1)

Publication Number Publication Date
JP2023064080A true JP2023064080A (ja) 2023-05-10

Family

ID=86271105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022168661A Pending JP2023064080A (ja) 2021-10-25 2022-10-20 文書解析支援装置、該方法および該プログラム

Country Status (1)

Country Link
JP (1) JP2023064080A (ja)

Similar Documents

Publication Publication Date Title
KR102345001B1 (ko) 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
JP4242848B2 (ja) 電子文書に含まれる数値データを視覚的に目立たせる方法および装置
US10860551B2 (en) Identifying header lines and comment lines in log files
US20120136862A1 (en) System and method for presenting comparisons of electronic documents
US8065336B2 (en) Data semanticizer
US9171069B2 (en) Method and apparatus for analyzing a document
US9721006B2 (en) Systems and methods for enabling searches of a document corpus and generation of search queries
US20190347267A1 (en) Identifying boundaries of substrings to be extracted from log files
US9043744B2 (en) Converting existing artifacts to new artifacts
US20090024667A1 (en) Information processing device, file data merging method, file naming method, and file data output method
US11227107B2 (en) Document reviewer
US9507773B2 (en) Translation assistance device, translation assistance system, and control method for the same
JP5454783B2 (ja) Plcのプログラミングにおける変数名の入力支援方法、plcのプログラミングにおける変数名の入力支援装置、及びコンピュータプログラム
JP7202452B2 (ja) データ可視化ユーザインターフェースにおける自然言語表現の分析
JP2023064080A (ja) 文書解析支援装置、該方法および該プログラム
US11841889B1 (en) Generating visually simplified calculation expressions corresponding to user manipulation of textual data elements
JP7053219B2 (ja) 文書検索装置および方法
JP6167591B2 (ja) 単語表示制御装置、単語表示制御方法及び単語表示制御プログラム
JP7186411B1 (ja) 情報処理システム、情報処理方法及び情報処理プログラム
JP2022103710A (ja) 文書処理装置及び分類付与支援システム
JP6662800B2 (ja) 提示装置及び提示方法
JP5655926B2 (ja) 電子機器、プログラムおよび検索方法
JP2023079180A (ja) 情報処理システム、情報処理方法及び情報処理プログラム
JP2009245161A (ja) リンクチェック装置、リンクチェック方法及びリンクチェックプログラム
JP2015176528A (ja) 表示制御装置及び表示制御プログラム