JP6775935B2 - 文書処理装置、方法、およびプログラム - Google Patents

文書処理装置、方法、およびプログラム Download PDF

Info

Publication number
JP6775935B2
JP6775935B2 JP2015216705A JP2015216705A JP6775935B2 JP 6775935 B2 JP6775935 B2 JP 6775935B2 JP 2015216705 A JP2015216705 A JP 2015216705A JP 2015216705 A JP2015216705 A JP 2015216705A JP 6775935 B2 JP6775935 B2 JP 6775935B2
Authority
JP
Japan
Prior art keywords
document
difference
content
component
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015216705A
Other languages
English (en)
Other versions
JP2017091000A (ja
Inventor
昌之 岡本
昌之 岡本
折原 良平
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015216705A priority Critical patent/JP6775935B2/ja
Priority to US15/343,914 priority patent/US10936806B2/en
Publication of JP2017091000A publication Critical patent/JP2017091000A/ja
Application granted granted Critical
Publication of JP6775935B2 publication Critical patent/JP6775935B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、文書処理装置、方法、およびプログラムに関する。
従来、改正前後の法令文書や、類似技術を対象とした特許明細書など、類似する複数の文書における共通点および相違点を分析するための技術が提案されている。例えば、現行の法令文書と新しい法令文書とを比較して、差分を抽出する方法が提案されている。係る方法は、文書間の編集履歴を確認する目的で利用される行単位の差分を検出したり、文書に含まれる単語集合および文書ベクトルの比較による共通する語彙の集合、或いは相違する語彙の集合などに基づく文書間類似度を算出したりする分析が主であった。
しかしながら、特許文書間における原出願の請求項と分割出願の請求項との差分を分析する場合などにおいて、単純な語句や文字列に基づく共通点や相違点を検出するだけでは、どのような内容で分割をしたかの把握が難しいという問題がある。
また、発明の引用関係に基づく複数の特許文書間の関係を可視化する方法が提案されているが、特許文書間の関係の内容まで把握することは困難である。
特開平7−334574号公報 特開2002−24211号公報 米国特許第8316001号明細書
本発明が解決しようとする課題は、比較した文書間の内容を容易に把握することができる文書処理装置、方法、およびプログラムを提供することである。
実施形態によれば、文書処理装置は、取得部と、抽出部と、検出部とを備える。取得部は、第1の文書および当該第1の文書とは異なる第2の文書を取得する。抽出部は、第1の文書おける構成要素の単語依存関係を示す第1の構造を抽出し、第2の文書における構成要素の単語依存関係を示す第2の構造を抽出する。検出部は、第1の構造および第2の構造から、構成要素毎の相違点を検出する。
第1の実施形態に係る文書処理装置を例示するブロック図。 図1の文書処理装置の動作を例示するフローチャート。 請求項の構造を抽出する例を示す図。 構造同士の比較を例示する図。 抽象度の大小を例示する図。 サポート箇所に基づく関係を例示する図。 比較結果の表示例を示す図。 相違点の内容を例示する図。 第2の実施形態に係る文書処理装置を例示するブロック図。 比較結果の表示例を示す図。 第3の実施形態に係る文書処理装置の検索例を示す図。 比較結果の表示例を示す図。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
以降において、「文書」は、「自然言語文」で書かれたものを想定しており、これらは相互に読み替えられてもよい。また、以下では、主に異なる2つの文書の比較について述べられているが、文書は3以上でもよく、1つの文書に対して2以上の文書を比較してもよい。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る文書処理装置100は、文書取得部101と、構造抽出部102と、検出部103と、分類部104と、生成部105とを含む。文書処理装置100は、文書間の相違点を検出し、相違点に応じて、文書を分類し、相違点の内容を含んだ比較結果を生成する。文書取得部101、構造抽出部102、検出部103、分類部104、および生成部105は、中央演算処理装置(CPU)およびCPUが用いるメモリによって実現されてもよい。即ち、文書処理装置は、文書を入力可能な端末および端末上で利用されるアプリケーションまたはサービスで用いることができる。
文書取得部101は、第1の文書および当該第1の文書とは異なる第2の文書を取得する。文書は、ユーザから入力されることによって取得してもよいし、図示されない記憶装置から取得してもよい。本実施形態における文書は、例えば、特許明細書、特許請求の範囲の請求項(以下では単に「請求項」と呼ぶ)、および法令文書などの予め決められた構成を持つテキストデータを想定する。しかしながら、文書は、それらに限らず、比較可能なテキストデータであればよい。文書取得部101は、第1の文書および第2の文書を構造抽出部102へと出力する。
構造抽出部102は、文書取得部101から第1の文書および第2の文書が入力される。構造抽出部102は、第1の文書および第2の文書をそれぞれ解析することによって、第1の文書における構成要素の単語依存関係を示す第1の構造を抽出し、第2の文書における構成要素の単語依存関係を示す第2の構造を抽出する。構造抽出部102は、第1の構造および第2の構造を検出部103へと出力する。尚、構造抽出部102は、文書における構成要素間の単語間の依存関係をさらに参照して構造を抽出してもよい。
本実施形態における構成要素は、例えば、文書における見出しや段落で分けられた要素、特許明細書における各項目の要素、請求項における各構成要件、および法令文書や契約書などにおける条文を構成する要素など、文書を解釈するために必要となる文書の一部(文または句など)を想定する。ここで、本実施形態における「構成要素の単語依存関係」は、「構成要素内の単語間の依存関係」および「構成要素間の単語間の依存関係」の少なくとも一方を含む。また、本実施形態における構成要素内の単語間の依存関係は、例えば、請求項における一つの構成要件中での単語間の依存関係を想定する。さらに、本実施形態における構成要素間の単語間の依存関係は、例えば、請求項におけるある構成要件中の単語と別の構成要件中の単語との間における依存関係を想定する。
尚、本実施形態における単語間の依存関係は、例えば、主語、述語および目的語などに対応する単語同士の係り受け関係を想定する。また、本実施形態における構造は、単語間の依存関係が示されていればよく、表示方法、或いは表示の有無については限定されない。
検出部103は、構造抽出部102から第1の構造および第2の構造が入力される。検出部103は、第1の構造および第2の構造から、構成要素毎の相違点を検出する。例えば、検出部103は、第1の構造および第2の構造を比較することによって、構成要素毎の相違点を検出する。本実施形態における相違点は、例えば、第1の構造および第2の構造との間の構成要素の有無などを想定する。検出部103は、相違点を示す情報を分類部104へと出力する。尚、検出部103は、第1の構造および第2の構造を比較することによって、構成要素毎の共通点を検出してもよい。また、検出部103は、構成要素の一部を指定することによって、指定された構成要素の相違点を検出してもよい。
分類部104は、検出部103から相違点を示す情報が入力される。分類部104は、相違点の内容を特定することによって、第2の文書を分類し、分類結果を得る。本実施形態における相違点の内容は、例えば、差分(追記、削除)、および変更などを想定する。分類部104は、分類結果を生成部105へと出力する。
また、分類部104は、相違点の内容に対して意味を持たせたラベルをさらに用いて、第2の自然言語文を分類し、分類結果を得てもよい。本実施形態におけるラベルは、例えば、「他の構成要件に変更」「権利範囲拡大」「方式詳細化」などを想定する。
生成部105は、分類部104から分類結果が入力される。生成部105は、分類結果を用いて、相違点の内容を含んだ比較結果を生成する。比較結果の具体例は後述される。生成部105は、比較結果を図示されない画面表示装置へと出力する。
文書処理装置100は、図2に例示されるように動作する。以下では、具体例として請求項同士を比較する場合について説明する。
ステップS201において、文書取得部101は、複数の文書を取得する。具体的には、文書取得部101は、比較元の請求項および比較対象の請求項を取得する。
ステップS202において、構造抽出部102は、文書における構成要素の単語依存関係を示す構造を抽出する。具体的には、構造抽出部102は、請求項を解析することによって主語、述語および目的語などを特定する。また、構造抽出部102は、請求項を「○○部」および「○○手段」などの構成要素ごとに分割する。構造抽出部102は、請求項における構成要素内の単語間の依存関係を示す構造を抽出する。尚、解析技術は、形態素解析、構文解析、述語項構造解析、固有表現抽出、および照応解析といった既存の自然言語処理技術を用いればよい。
図3において、請求項を解析して構造を抽出する例を示す。構造抽出部102は、請求項を解析することによって、図3(a)の下線で示されるように、請求項の主要な要素を特定した構造を抽出する。また、構造抽出部102は、図3(b)に例示されるように、構成要素ごとに主語、述語、および目的語などの簡潔な表現で示した構造を抽出してもよい。尚、構造抽出部102は、ある単語が「前記○○部」などのように他の構成要素を参照していたり、ある単語を代名詞で表現していたりした場合に、対応する単語同士の照応関係を明確化するような解析をしてもよい。
ステップS203において、検出部103は、構造同士から、構成要素毎の相違点を検出する。具体的には、検出部103は、図4に例示されるように、比較元の請求項の構造(以降、比較元の構造401と呼ぶ)および比較対象の請求項の構造(以降、比較対象の構造402と呼ぶ)を比較することによって、相違点を検出する。比較元の構造401は、前述の図3(b)に示した構造と同様である。図4における相違点は、比較元の構造401の構成要素[3][5][6]が該当し、比較対象の構造402の構成要素[3]が該当する。尚、検出部103は、共通する単語の有無によって相違点を検出する以外に、類義語辞書、オントロジ、および概念辞書など、単語の関係性を示す辞書などを用いることによって、相違点を検出してもよい。
ステップS204において、分類部104は、相違点の内容を特定することによって、文書を分類し、分類結果を得る。具体的には、分類部104は、相違点の内容として変更403および差分404を特定する。変更403は、比較元の構造401の構成要素[3]が、比較対象の構造402では別の内容に変更されていることを示す。差分404は、比較対象の構造402において、比較元の構造401の構成要素[5],[6]が削除されていることを示す。
また、分類部104は、相違点の内容に対して予め指定したラベルを付けてもよい。分類部104は、相違点の内容に変更403が含まれているため、相違点の内容に「他の構成要件に変更」をラベル付けする。仮に、相違点として変更403が特定されず、差分404(この場合は、削除のみ)だけが特定された場合には、分類部104は、相違点の内容に「権利範囲拡大」をラベル付けする。即ち、分類部104は、相違点の内容に「変更」が含まれていれば、相違点の内容に「他の構成要件に変更」をラベル付けする。また、分類部104は、相違点の内容に「変更」が含まれていない場合に、相違点の内容の「差分」に含まれる削除の項目が支配的であれば、相違点の内容に「権利範囲拡大」をラベル付けし、相違点の内容の「差分」に含まれる追記の項目が支配的であれば、相違点の内容に「方式詳細化」をラベル付けする。
ステップS205において、生成部105は、分類部104の分類結果を用いて、相違点の内容を含んだ比較結果を生成する。具体的には、生成部105は、図6Aに例示される比較結果を生成する。
図6Aでは、分割出願前後の請求項における相違点の内容を「方式詳細化」「他の構成要件に変更」「権利範囲拡大」に分類(ラベル付け)して表示に反映している。例えば、請求項601は、「方式詳細化」および「他の構成要件に変更」されてそれぞれ請求項602および請求項607へと分割出願されたことを示す。
図6Aの請求項602および請求項603は、それぞれ図4の比較元の請求項401および図4の比較対象の請求項402に相当する。相違点610のラベルである「他の構成要件に変更」を選択することによって、図6Bに例示されるような相違点の具体的な内容を確認できる。図6Bの内容は、図4の変更403および差分404に相当する。
以上説明したように、第1の実施形態に係る文書処理装置は、構造を抽出した文書間の相違点を検出し、相違点の内容に応じて、文書を分類し、相違点の内容を含んだ比較結果を生成する。従って、この文書処理装置は、比較した文書間の相違点の内容を容易に把握することができる。
(第2の実施形態)
前述の第1の実施形態に係る文書処理装置は、文書間の相違点を検出し、相違点の内容に応じて、文書を分類し、相違点の内容を含んだ比較結果を生成する。第2の実施形態に係る文書処理装置は、相違点の大きさも考慮した比較結果を生成する。
図7に例示されるように、第2の実施形態に係る文書処理装置700は、文書取得部101と、構造抽出部102と、検出部103と、分類部104と、生成部105と、算出部701とを含む。文書処理装置700は、文書処理装置100と比べて、検出部103、分類部104、および生成部105の動作の一部において異なり、算出部701が追加される点において異なる。
検出部103は、構造抽出部102から第1の構造および第2の構造が入力される。検出部103は、第1の構造および第2の構造から、構成要素毎の相違点を検出する。検出部103は、相違点を示す情報を算出部701へと出力する。
算出部701は、検出部103から相違点を示す情報が入力される。算出部701は、相違点の大きさを算出する。本実施形態における相違点の大きさは、例えば、削除または追記された文字数(分量)、構成要素の数の差、記載されている単語の関係(例えば、類義語、階層概念および抽象度など)、共通する引例の有無、および明細書中の特許分類番号の共通性などに応じて算出される。算出部701は、相違点を示す情報と相違点の大きさとを分類部104へと出力する。尚、算出部701は、分類部104と並列に実行されてもよく、分類部104の後に実行されてもよい。
算出部701は、以下に説明するように単語の抽象度を判定してもよい。例えば、分類部104は、一方の文書に存在する単語Aが、他方の文書に存在する単語Bの意味、或いは概念を包含する場合に、単語Aは単語Bよりも抽象度が大きいと判定してもよい。具体的には、図5Aに例示されるように、「法」という単語は、「憲法」「私法」「条例」などの単語を意味的に包含する。また、「私法」という単語は、「民法」「特許法」などの単語を意味的に包含する。即ち、「法」という単語は抽象度が大きく(即ち、広い意味)、「特許法」という単語は抽象度が小さい(即ち、具体的、狭い意味)といえる。
他にも、算出部701は、サポート箇所に基づく関係を考慮してもよい。具体的には、分類部104は、図5B(a)に例示される請求項に記載された「文書」という単語について、図5B(b)に例示される明細書に記載された「文書とは、例えばインターネット上のWebページ」という箇所を参照し、「インターネット上のWebページ」が「文書」の具体的な表現であるとみなしてもよい。
分類部104は、算出部701から相違点を示す情報と相違点の大きさとが入力される。分類部104は、相違点の内容に応じて、第2の文書を分類する。分類部104は、分類結果と相違点の大きさとを生成部105へと出力する。
生成部105は、分類部104から分類結果と相違点の大きさとが入力される。生成部105は、分類結果と相違点の大きさとを用いて、相違点の内容を含んだ比較結果を生成する。具体的には、生成部105は、図8に例示されるように、分類結果を分析目的に応じて配置内容を決定した比較結果を生成する。
図8では、請求項801(特許A)の分割出願に関連する請求項802〜806(特許B〜F)を、「権利範囲拡大」および「権利範囲詳細化」の評価軸で表示に反映している。例えば、「権利範囲拡大」は、請求項801から構成要件などを削除した請求項802〜804が該当し、相違点が大きいほど権利範囲が広いことを示す。また、「権利範囲詳細化」は、請求項801から構成要件などを追加した請求項805,806が該当し、相違点が大きいほど権利範囲が狭いことを示す。
以上説明したように、第2の実施形態に係る文書処理装置は、第1の実施形態に係る文書処理装置に算出部を備える。この文書処理装置は、相違点の大きさを算出することができるため、分析目的に応じた配置内容を決定した比較結果を生成することができる。従って、この文書処理装置は、比較した文書間の相違点の内容を容易に把握することができる。
(第3の実施形態)
前述の第2の実施形態は、文書間の相違点を検出し、相違点の大きさを算出し、相違点の内容に応じて、文書を分類し、相違点の内容を含んだ比較結果を生成する。第3の実施形態に係る文書処理装置は、文書間の共通点を検出し、共通点の大きさを算出し、共通点の大きさに基づく比較結果を生成する。
第3の実施形態に係る文書処理装置は、文書処理装置700と比べて、検出部103、生成部105、および算出部701の動作の一部において異なる。尚、第3の実施形態に係る文書処理装置は、図7に例示した構成を用いればよい。
検出部103は、構造抽出部102から第1の構造および第2の構造が入力される。検出部103は、第1の構造および第2の構造から、第1の構造の構成要素毎の共通点を検出する。本実施形態における共通点は、例えば、単語間の依存関係が構造同士で共通、或いは類似するものを想定する。具体的には、検出部103は、第1の構造における「話題をクラスタリング」という関係が、第2の構造における「話題毎に分類」という関係と類似するものとして、これらの情報を共通点として検出する。検出部103は、共通点を示す情報を算出部701へと出力する。
算出部701は、検出部103から共通点を示す情報が入力される。算出部701は、共通点の大きさを算出する。本実施形態における共通点の大きさは、例えば、記載されている単語の関係(例えば、類義語や階層概念)などに応じて算出される。算出部701は、共通点を示す情報と共通点の大きさとを分類部104へと出力する。
分類部104は、算出部701から共通点を示す情報と共通点の大きさとが入力される。分類部104は、共通点の内容と共通点の大きさとに応じて、第2の文書を分類する。分類部104は、分類結果と共通点の大きさとを生成部105へと出力する。
生成部105は、分類部104から分類結果と共通点の大きさとが入力される。生成部105は、分類結果と共通点の大きさとを用いて、共通点の内容を含んだ比較結果を生成する。
尚、分類部104の処理が省略された場合は以下の動作を行ってもよい。算出部701は、共通点を示す情報と共通点の大きさとを生成部105へと出力する。生成部105は、算出部701から共通点を示す情報と共通点の大きさとが入力される。生成部105、共通点の大きさを用いて、比較結果を生成する。
以下では、検索クエリを第1の文書として入力し、検索対象の特許文書(特開○○○)を第2の文書として入力した場合の例について図9を参照して説明する。
構造抽出部102は、検索クエリと特許文書とを解析することによって、構成要素内の単語間の依存関係を示す構造をそれぞれ構造901および構造902として抽出する。構造抽出部102は、構造902において構成要素間の依存関係も検出することができる。例えば、構造抽出部102は、構造902における構成要素904の「日時情報を属性として持つ文書」について、段落903の「属性として日時情報を持つ文書」「ニュース記事」を参照し、「日時情報を属性として持つ文書」と「ニュース記事」とは同義の関係であることを検出する。
検出部103は、構造901および構造902を比較することによって、構造901の構成要素毎の共通点を検出する。例えば、構造901の「話題をクラスタリング」に対応する構成要素905の「話題毎に分類」を検出し、構造901の「代表キーワードを表示」に対応する構成要素906の「キーワード群を・・・提示」を検出する。また、検出部103は、構造901の「ニュース記事を入力」の場合は、段落903の「ニュース記事」と構成要素904の「日時情報を属性として持つ文書」とが同義の関係であると検出されているので、構成要素904の「日時情報を属性として持つ文書を入力」を検出する。
算出部701は、構造901の構成要素毎の共通点にスコアを付与することによって、共通点の大きさを算出する。スコアの付与は、単語の類似性などに基づいてスコアを決定してもよいし、既存の技術を用いてもよい。
生成部106は、共通点のスコアに基づいて、図10に例示されるような比較結果を生成する。図10の比較結果は、検索クエリに類似する特許文書が順位付けされていることを示す。
尚、第3の実施形態に係る文書処理装置は、第1の構造および第2の文書を比較してもよい。例えば、検出部は、第1の構造における「ニュース記事を入力」という関係ではなく、単純に「ニュース記事」、「入力」という2つの単語を用いて共通点を検出する。算出部は、上記2つの単語が別々の構成要素に含まれている方の共通点よりも、上記2つの単語が1つの構成要素に含まれている方の共通点に高いスコアを付与する。
以上説明したように、第3の実施形態に係る文書処理装置は、第2の実施形態に係る文書処理装置を用いて文書間の共通点を検出することができる。従って、この文書処理装置は、比較した文書間の共通点の内容を容易に把握することができる。
上記実施形態の処理の少なくとも一部は、コンピュータをハードウェアとして用いることでも実現可能である。ここで、コンピュータは、パーソナルコンピュータに限られず、例えば演算処理装置、マイクロコントローラなどのプログラムを実行可能な任意の装置であってもよい。また、コンピュータは、1つの装置に限らず、複数の装置が例えばインターネット、LANなどのネットワークで接続されたシステムであってもよい。また、コンピュータにインストールされたプログラム内の指示に基づいて、当該コンピュータのミドルウェア(例えば、OS、データベース管理ソフトウェア、ネットワークなど)が上記各実施形態の処理の少なくとも一部を行ってもよい。
上記処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に保存されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に保存される。プログラムは、1つの記憶媒体にまとめて保存されてもよいし、複数の記憶媒体に分割して保存されてもよい。記憶媒体は、プログラムを保存可能であって、かつ、コンピュータによって読み取り可能であればよい。記憶媒体は、例えば、磁気ディスク、フレキシブルディスク、ハードディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。
また、上記処理を実現するプログラムを、ネットワークに接続されたコンピュータ(サーバ)上に保存し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,700・・・文書処理装置、101・・・文書取得部、102・・・構造抽出部、103・・・検出部、104・・・分類部、105・・・生成部、401・・・比較元の構造、402・・・比較対象の構造、403・・・変更、404・・・差分、601,602,603,604,605,606,607,608,609,801,802,803,804,805,806・・・請求項、610・・・相違点、701・・・算出部、901,902・・・構造、903・・・段落、904,905,906・・・構成要素。

Claims (12)

  1. 第1の文書および当該第1の文書とは異なる第2の文書を取得する取得部と、
    前記第1の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第1の構造を抽出し、前記第2の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第2の構造を抽出する抽出部と、
    前記第1の構造および前記第2の構造から、前記第1の文書と前記第2の文書との間での構成要素毎の相違点を検出する検出部と、
    前記相違点の内容に、構成要素が別の内容に変更されていることが含まれている場合には、他の構成要素変更のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる削除された構成要素の数が追記された構成要素の数より多い場合には、権利範囲拡大のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる追記された構成要素の数削除された構成要素の数より多い場合には、方式詳細化のラベルを前記第2の文書に付与し、特許文書に関連する前記ラベルを用いて、前記第2の文書を分類し、分類結果を得る分類部と、
    を具備する、文書処理装置。
  2. 前記相違点の内容には、単語の追記、削除、および変更が含まれ、
    前記分類部は、前記相違点の内容が前記追記、前記削除、および前記変更のいずれに該当するかに応じて、前記第2の文書を分類する請求項1に記載の文書処理装置。
  3. 前記分類結果を用いて、前記相違点の内容を含んだ比較結果を生成する生成部
    をさらに具備する、請求項1または請求項2に記載の文書処理装置。
  4. 前記相違点の大きさを算出する算出部
    をさらに具備し、
    前記生成部は、前記相違点の大きさをさらに用いて、前記比較結果を生成する、請求項3に記載の文書処理装置。
  5. 前記生成部は、前記分類結果を分析目的に応じて配置内容を決定した比較結果を生成する、請求項3または請求項4に記載の文書処理装置。
  6. 前記検出部は、前記相違点として、前記第1の構造と前記第2の構造との間の構成要素の有無を検出する、請求項1または請求項2に記載の文書処理装置。
  7. 前記検出部は、前記第1の構造および前記第2の構造を比較することによって、構成要素毎の共通点を検出する、請求項1乃至請求項5のいずれか1項に記載の文書処理装置。
  8. 前記検出部は、前記構成要素の一部を指定することによって、指定された構成要素の相違点を検出する、請求項1乃至請求項6のいずれか1項に記載の文書処理装置。
  9. 前記抽出部は、前記構成要素の単語依存関係として、構成要素内の単語間の依存関係、および、構成要素間の単語間の依存関係の少なくとも一方を含む、前記第1の構造および前記第2の構造を抽出する、請求項1乃至請求項8のいずれか1項に記載の文書処理装置。
  10. 前記取得部は、自然言語文で書かれている前記第1の文書および前記第2の文書を取得する、請求項1乃至請求項9のいずれか1項に記載の文書処理装置。
  11. 取得部が、第1の文書および当該第1の文書とは異なる第2の文書を取得することと、
    抽出部が、前記第1の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第1の構造を抽出し、前記第2の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第2の構造を抽出することと、
    検出部が、前記第1の構造および前記第2の構造から、前記第1の文書と前記第2の文書との間での構成要素毎の相違点を検出することと、
    分類部が、前記相違点の内容に、構成要素が別の内容に変更されていることが含まれている場合には、他の構成要素変更のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる削除された構成要素の数が追記された構成要素の数より多い場合には、権利範囲拡大のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる追記された構成要素の数削除された構成要素の数より多い場合には、方式詳細化のラベルを前記第2の文書に付与し、特許文書に関連する前記ラベルを用いて、前記第2の文書を分類すること、
    を具備する、文書処理方法。
  12. コンピュータを、
    第1の文書および当該第1の文書とは異なる第2の文書を取得する手段と、
    前記第1の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第1の構造を抽出し、前記第2の文書に含まれる1以上の構成要素毎に含まれる単語同士の係り受け関係を示す第2の構造を抽出する手段と、
    前記第1の構造および前記第2の構造から、前記第1の文書と前記第2の文書との間での構成要素毎の相違点を検出する手段と、
    前記相違点の内容に、構成要素が別の内容に変更されていることが含まれている場合には、他の構成要素変更のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる削除された構成要素の数が追記された構成要素の数より多い場合には、権利範囲拡大のラベルを前記第2の文書に付与し、前記相違点の内容に変更が含まれず、かつ前記相違点の内容の差分に含まれる追記された構成要素の数削除された構成要素の数より多い場合には、方式詳細化のラベルを前記第2の文書に付与し、特許文書に関連する前記ラベルを用いて、前記第2の文書を分類する手段
    として機能させる、文書処理プログラム。
JP2015216705A 2015-11-04 2015-11-04 文書処理装置、方法、およびプログラム Active JP6775935B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015216705A JP6775935B2 (ja) 2015-11-04 2015-11-04 文書処理装置、方法、およびプログラム
US15/343,914 US10936806B2 (en) 2015-11-04 2016-11-04 Document processing apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015216705A JP6775935B2 (ja) 2015-11-04 2015-11-04 文書処理装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017091000A JP2017091000A (ja) 2017-05-25
JP6775935B2 true JP6775935B2 (ja) 2020-10-28

Family

ID=58635532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015216705A Active JP6775935B2 (ja) 2015-11-04 2015-11-04 文書処理装置、方法、およびプログラム

Country Status (2)

Country Link
US (1) US10936806B2 (ja)
JP (1) JP6775935B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6602243B2 (ja) 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
JP2017215893A (ja) * 2016-06-02 2017-12-07 株式会社アイ・アール・ディー 特許情報処理装置、特許情報処理方法、プログラム
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
JP7010538B2 (ja) * 2018-03-29 2022-01-26 Necソリューションイノベータ株式会社 ファイル管理装置、ファイル管理方法、及びプログラム
CN111859896B (zh) * 2019-04-01 2022-11-25 长鑫存储技术有限公司 配方文档检测方法、装置、计算机可读介质及电子设备
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912063A (en) 1987-10-26 1990-03-27 North Carolina State University Growth of beta-sic thin films and semiconductor devices fabricated thereon
JP3384016B2 (ja) 1993-02-19 2003-03-10 富士ゼロックス株式会社 文書編集管理装置
JP3020803B2 (ja) * 1994-06-08 2000-03-15 株式会社日立製作所 法令文書検索改正システム
JP4278011B2 (ja) 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体
JP3936453B2 (ja) 1997-12-04 2007-06-27 富士通株式会社 文書校正装置
JP2001134600A (ja) 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002024211A (ja) 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
JP2002056354A (ja) 2000-08-14 2002-02-20 Toshiba Corp 光学的文字読取装置および同装置のデータ修正方法
JP3832281B2 (ja) 2001-06-27 2006-10-11 日本電気株式会社 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
JP4861573B2 (ja) 2001-08-02 2012-01-25 株式会社 ワールドフュージョン 研究遺伝子産物の重要性を予測するシステム
JP2003167870A (ja) * 2001-11-29 2003-06-13 Fujitsu Ltd 文書処理装置、およびプログラム
US8316001B1 (en) 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
JP4186774B2 (ja) 2003-09-25 2008-11-26 沖電気工業株式会社 情報抽出装置,情報抽出方法,およびプログラム
US20050144177A1 (en) * 2003-11-26 2005-06-30 Hodes Alan S. Patent analysis and formulation using ontologies
JP2005190338A (ja) 2003-12-26 2005-07-14 Toshiba Corp 情報抽出装置および情報抽出方法
JP4534666B2 (ja) 2004-08-24 2010-09-01 富士ゼロックス株式会社 テキスト文検索装置及びテキスト文検索プログラム
JP4713870B2 (ja) 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
KR20080021017A (ko) * 2005-05-13 2008-03-06 커틴 유니버시티 오브 테크놀로지 텍스트 기반의 문서 비교
WO2006126409A1 (ja) * 2005-05-26 2006-11-30 Sharp Kabushiki Kaisha 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体
JP4565106B2 (ja) 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
US7809551B2 (en) 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US20070073653A1 (en) * 2005-09-29 2007-03-29 Caterpillar Inc. Patent related search method and system
JP2007279978A (ja) * 2006-04-05 2007-10-25 Hitachi Ltd 文書検索装置及び文書検索方法
WO2008120030A1 (en) 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]
JP2009075733A (ja) 2007-09-19 2009-04-09 Toshiba Corp 候補表示装置及び方法
WO2009041661A1 (ja) * 2007-09-28 2009-04-02 Intellectual Property Bank Corp. 情報処理装置、及びプログラム
US9384175B2 (en) * 2008-02-19 2016-07-05 Adobe Systems Incorporated Determination of differences between electronic documents
US8645391B1 (en) 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5238418B2 (ja) 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
WO2010030794A1 (en) 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
US8346534B2 (en) 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5359389B2 (ja) 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
JP4897846B2 (ja) 2009-03-17 2012-03-14 ヤフー株式会社 関連情報提供装置、そのシステム、そのプログラム、および、その方法
JP5424001B2 (ja) 2009-04-15 2014-02-26 日本電気株式会社 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
JP2011108085A (ja) 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
JP5356197B2 (ja) 2009-12-01 2013-12-04 株式会社日立製作所 単語意味関係抽出装置
JP5566674B2 (ja) * 2009-12-15 2014-08-06 株式会社東芝 読影レポート作成支援システム
JP2011232871A (ja) 2010-04-26 2011-11-17 Sony Corp 情報処理装置、テキスト選択方法及びプログラム
EP2390793B8 (en) * 2010-05-27 2013-12-04 Códice Software S.L Parque Tecnológico de Boecillo Method for determining similarity of text portions
US8566360B2 (en) 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
JP5640773B2 (ja) 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
CN102820253B (zh) 2011-06-08 2014-04-16 中国科学院上海微***与信息技术研究所 一种基于soi衬底的高迁移率双沟道材料的制备方法
US9176949B2 (en) * 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
US9098600B2 (en) 2011-09-14 2015-08-04 International Business Machines Corporation Deriving dynamic consumer defined product attributes from input queries
KR101127883B1 (ko) 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
US20130086093A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg System and method for competitive prior art analytics and mapping
JP2013105321A (ja) * 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
JP2013143039A (ja) 2012-01-11 2013-07-22 Canon Inc 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9858609B2 (en) 2012-06-27 2018-01-02 Rakuten, Inc. Information processing apparatus, information processing method, and information processing program
JP6025520B2 (ja) 2012-11-26 2016-11-16 株式会社日立製作所 データ分析支援処理システム及び方法
JP6061337B2 (ja) 2013-01-17 2017-01-18 Kddi株式会社 規則生成装置及び抽出装置
WO2014169334A1 (en) * 2013-04-15 2014-10-23 Contextual Systems Pty Ltd Methods and systems for improved document comparison
KR101485940B1 (ko) 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
EP3151131A1 (en) 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム

Also Published As

Publication number Publication date
JP2017091000A (ja) 2017-05-25
US10936806B2 (en) 2021-03-02
US20170124067A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
JP6775935B2 (ja) 文書処理装置、方法、およびプログラム
AU2016277558B2 (en) Generating a semantic network based on semantic connections between subject-verb-object units
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
AU2016269573B2 (en) Input entity identification from natural language text information
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
Freire et al. A metadata geoparsing system for place name recognition and resolution in metadata records
RU2491622C1 (ru) Способ классификации документов по категориям
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
US20120317125A1 (en) Method and apparatus for identifier retrieval
US12020175B2 (en) Building training data and similarity relations for semantic space
Ali et al. Arabic keyphrases extraction using a hybrid of statistical and machine learning methods
US8195458B2 (en) Open class noun classification
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Sarika et al. Hindi word sense disambiguation using cosine similarity
CN107220249B (zh) 基于分类的全文搜索
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Efremova et al. A geo-tagging framework for address extraction from web pages
Makrynioti et al. Sentiment extraction from tweets: multilingual challenges
Talebpour et al. Plagiarism detection based on a novel trie-based approach
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Jena et al. Semantic desktop search application for Hindi-English code-mixed user query with query sequence analysis
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
JP5903171B2 (ja) データ加工システムおよびデータ加工方法
WO2021049485A1 (ja) 法律分析装置、及び法律分析方法
Eger Designing and comparing G2P-type lemmatizers for a morphology-rich language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200618

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201007

R151 Written notification of patent or utility model registration

Ref document number: 6775935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151