JP6976178B2

JP6976178B2 - 抽出装置、抽出方法、及び抽出プログラム

Info

Publication number: JP6976178B2
Application number: JP2018004684A
Authority: JP
Inventors: 雅二郎岩崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-12-08
Anticipated expiration: 2038-01-16
Also published as: JP2019125124A

Description

本発明は、抽出装置、抽出方法、及び抽出プログラムに関する。

従来、種々の情報を抽出する技術が提供されている。例えば、他の検索ユーザの検索履歴を利用して、現在の検索ユーザに対し、ユーザ間距離が最も近い他の検索ユーザが閲覧した特許文献の中で、現在の検索ユーザが閲覧していない特許文献を抽出する技術が提供されている。

特開２００７−２１３１５１号公報

岩崎雅二郎 "木構造型インデックスを利用した近似k最近傍グラフによる近傍検索", 情報処理学会論文誌, 2011/2, Vol. 52, No. 2. pp.817-828.

しかしながら、上記の従来技術では、類似の特許文献を適切に抽出することが難しい場合がある。例えば、ユーザ間の類似度に基づくだけでは、特許文献間の類似性が反映されているとは限らず、所望の特許文献を抽出することが難しい場合がある。

本願は、上記に鑑みてなされたものであって、類似の特許文献を適切に抽出する抽出装置、抽出方法、及び抽出プログラムを提供することを目的とする。

本願に係る抽出装置は、複数の特許文献の各々に対応する複数のノードが、前記複数の特許文献の類似性に応じて連結されたグラフ情報と、一の発明に関する情報を取得する取得部と、前記取得部により取得された前記グラフ情報の前記複数のノードのうち、所定の基準に基づいて決定された前記グラフ情報の検索の起点となる起点ノードを起点として前記グラフ情報を検索することにより、前記複数の特許文献のうち、前記一の発明に類似する特許文献である類似特許文献を抽出する抽出部と、を備えたことを特徴とする。

実施形態の一態様によれば、類似の特許文献を適切に抽出することができるという効果を奏する。

図１は、実施形態に係る抽出処理の一例を示す図である。図２は、実施形態に係る抽出システムの構成例を示す図である。図３は、実施形態に係る抽出装置の構成例を示す図である。図４は、実施形態に係る特許情報記憶部の一例を示す図である。図５は、実施形態に係るインデックス情報記憶部の一例を示す図である。図６は、実施形態に係るグラフ情報記憶部の一例を示す図である。図７は、実施形態に係るモデル情報記憶部の一例を示す図である。図８は、実施形態に係る抽出処理の一例を示すフローチャートである。図９は、実施形態に係る生成処理の一例を示すフローチャートである。図１０は、実施形態に係る特徴量の抽出の一例を示す図である。図１１は、グラフ情報を用いた検索処理の一例を示すフローチャートである。図１２は、実施形態に係る抽出処理の一例を示す図である。図１３は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る抽出装置、抽出方法、及び抽出プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法、及び抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．抽出処理〕
図１を用いて、実施形態に係る抽出処理の一例について説明する。図１は、実施形態に係る抽出処理の一例を示す図である。図１では、抽出装置１００が特許文献（単に「特許」ともいう）をグラフ構造化したグラフデータ（グラフ情報）を検索することにより、類似する特許文献である類似特許文献（以下、「類似特許」ともいう）を抽出する場合を示す。図１では、抽出装置１００は、各特許に対応するベクトルデータ（「ベクトル情報」や、単に「ベクトル」ともいう）を用いて特許をグラフ構造化したグラフ情報を用いる。なお、抽出装置１００が用いる情報は、ベクトルに限らず、各特許文献の類似性を表現可能な情報であれば、どのような形式の情報であってもよい。例えば、抽出装置１００は、各特許に対応する所定のデータや値を用いて特許をグラフ構造化したグラフ情報を用いてもよい。例えば、抽出装置１００は、各特許から生成された所定の数値（例えば２進数の値や１６進数の値）を用いて特許をグラフ構造化したグラフ情報を用いてもよい。また、図１の例では、特許文献として特許の書類のうち、種類「要約書」を対象とする場合を一例として示すが、特許の書類は、要約書のみに限らず、図面や明細書や特許請求の範囲（以下、「クレーム」とする場合がある）等の各種類に対応する書類であってもよい。すなわち、対象とする特許（オブジェクト）は、各特許間の類似性を表現可能であれば、どのような特許（情報）であってもよい。

〔１−１．グラフ情報について〕
また、抽出装置１００は、図１中のグラフ情報ＧＲ１１に示すように、各ベクトル（ノード）が有向エッジにより連結されたグラフデータを対象に抽出処理を行う。なお、図１中のグラフ情報ＧＲ１１に示すようなグラフ情報は、抽出装置１００が生成してもよいし、抽出装置１００は、図１中のグラフ情報ＧＲ１１に示すようなグラフ情報を情報提供装置５０（図２参照）等の他の外部装置から取得してもよい。なお、グラフ情報ＧＲ１１は、特許の書類のうち、種類「要約書」に対応する要約情報（要約データ）をグラフ構造化したグラフ情報である。

また、ここでいう、有向エッジとは、一方向にしかデータを辿れないエッジを意味する。以下では、エッジにより辿る元、すなわち始点となるノードを参照元とし、エッジにより辿る先、すなわち終点となるノードを参照先とする。例えば、所定のノード「Ａ」から所定のノード「Ｂ」に連結される有向エッジとは、参照元をノード「Ａ」とし、参照先をノード「Ｂ」とするエッジであることを示す。なお、各ノードを連結するエッジは、有向エッジに限らず、種々のエッジであってもよい。例えば、各ノードを連結するエッジは、ノードを連結する方向のないエッジであってもよい。例えば、各ノードを連結するエッジは、相互に参照可能なエッジであってもよい。例えば、各ノードを連結するエッジは、全て双方向エッジであってもよい。

例えば、このようにノード「Ａ」を参照元とするエッジをノード「Ａ」の出力エッジという。また、例えば、このようにノード「Ｂ」を参照先とするエッジをノード「Ｂ」の入力エッジという。すなわち、ここでいう出力エッジ及び入力エッジとは、一の有向エッジをその有向エッジが連結する２つのノードのうち、いずれのノードを中心として捉えるかの相違であり、一の有向エッジが出力エッジ及び入力エッジになる。すなわち、出力エッジ及び入力エッジは、相対的な概念であって、一の有向エッジについて、参照元となるノードを中心として捉えた場合に出力エッジとなり、参照先となるノードを中心として捉えた場合に入力エッジとなる。なお、本実施形態においては、エッジについては、出力エッジや入力エッジ等の有向エッジを対象とするため、以下では、有向エッジを単に「エッジ」と記載する場合がある。

例えば、抽出装置１００は、数百万〜数億単位の特許文献に対応するノードを対象に処理を行うが、図面においてはその一部のみを図示する。図１の例では、説明を簡単にするために、８個のノードを図示して処理の概要を説明する。例えば、抽出装置１００は、図１中のグラフ情報ＧＲ１１に示すように、ノードＮ１、Ｎ２、Ｎ３等に示すような複数のノード（ベクトル）を含むグラフ情報を取得する。また、図１の例では、グラフ情報ＧＲ１１における各ノードは、そのノードとの間の距離が近い方から所定数のノードへのエッジ（出力エッジ）が連結される。例えば、所定数は、目的や用途等に応じて、２や５や１０や１００等の種々の値であってもよい。例えば、所定数が２である場合、ノードＮ１からは、ノードＮ１からの距離が最も近いノード及び２番目に距離が近い２つのノードに出力エッジが連結される。

また、このように「ノードＮ＊（＊は任意の数値）」と記載した場合、そのノードはノードＩＤ「Ｎ＊」により識別されるノードであることを示す。例えば、「ノードＮ１」と記載した場合、そのノードはノードＩＤ「Ｎ１」により識別されるノードである。

また、図１中のグラフ情報ＧＲ１１では、ノードＮ１０は、ノードＮ７へ向かう有向エッジであるエッジＥ７が連結される。すなわち、ノードＮ１０は、ノードＮ７とエッジＥ７により連結される。このように「エッジＥ＊（＊は任意の数値）」と記載した場合、そのエッジはエッジＩＤ「Ｅ＊」により識別されるエッジであることを示す。例えば、「エッジＥ１１」と記載した場合、そのエッジはエッジＩＤ「Ｅ１１」により識別されるエッジである。例えば、ノードＮ１０を参照元とし、ノードＮ７を参照先として連結されるエッジＥ７により、ノードＮ１０からノードＮ７に辿ることが可能となる。この場合、有向エッジであるエッジＥ７は、ノードＮ１０を中心として識別される場合、出力エッジとなり、ノードＮ７を中心として識別される場合、入力エッジとなる。また、図１のグラフ情報ＧＲ１１中の双方向矢印は、両方のノードから他方のノードへの有向エッジが連結されることを示す。例えば、グラフ情報ＧＲ１１中のノードＮ２とノードＮ４５１との間の双方向矢印は、ノードＮ２からノードＮ４５１へ向かう有向エッジと、ノードＮ４５１からノードＮ２へ向かう有向エッジとの２つのエッジが連結されることを示す。

また、図１中のグラフ情報ＧＲ１１は、ユークリッド空間であってもよい。また、図１に示すグラフ情報ＧＲ１１は、各ベクトル間の距離等の説明のための概念的な図であり、グラフ情報ＧＲ１１は、多次元空間である。例えば、図１に示すグラフ情報ＧＲ１１は、平面上に図示するため２次元の態様にて図示されるが、例えば１００次元や１０００次元等の多次元空間であるものとする。

ここで、ベクトルデータ間の距離は、特許文献の類似性を示し、距離が近いほど類似している。本実施形態においては、グラフ情報ＧＲ１１における各ノードの距離を対応する各オブジェクト間の類似度とする。例えば、各ノードに対応する対象（特許文献）の類似性が、グラフ情報ＧＲ１１内におけるノード間の距離として写像されているものとする。例えば、各ノードに対応する概念間の類似度が各ノード間の距離に写像されているものとする。ここで、図１に示す例においては、グラフ情報ＧＲ１１における各ノード間の距離が短いオブジェクト同士の類似度が高く、グラフ情報ＧＲ１１における各ノード間の距離が長いオブジェクト同士の類似度が低い。例えば、図１中のグラフ情報ＧＲ１１において、ノードＩＤ「Ｎ３５」により識別されるノードと、ノードＩＤ「Ｎ６９３」により識別されるノードとは近接している、すなわち距離が短い。そのため、ノードＩＤ「Ｎ３５」により識別されるノードに対応するオブジェクトと、ノードＩＤ「Ｎ６９３」により識別されるノードに対応するオブジェクトとは類似度が高いことを示す。

また、例えば、図１中のグラフ情報ＧＲ１１において、ノードＩＤ「Ｎ７」により識別されるノードと、ノードＩＤ「Ｎ２」により識別されるノードとは遠隔にある、すなわち距離が長い。そのため、ノードＩＤ「Ｎ７」により識別されるノードに対応するオブジェクトと、ノードＩＤ「Ｎ２」により識別されるノードに対応するオブジェクトとは類似度が低いことを示す。

〔１−２．ベクトルの生成例〕
また、ここでいう、各ノード（ベクトル）は、各オブジェクト（特許）に対応する。図１の例では、各特許の特許文献データ（特許文献情報）から抽出された特徴量により生成された多次元（Ｎ次元）のベクトルがオブジェクトであってもよい。図１の例では、抽出装置１００は、特許文献情報に含まれる書類の種類ごとに生成されるベクトルを用いる。すなわち、抽出装置１００は、各特許について、要約書、図面、明細書、及びクレームごとに生成された多次元（Ｎ次元）のベクトルを用いる。この場合、抽出装置１００は、各種類について生成される複数のグラフ情報を用いる。図１の例では、説明を簡単にするために、抽出装置１００は、各特許の要約書から抽出された特徴量により生成された多次元（Ｎ次元）のベクトルがグラフ構造化されたグラフ情報ＧＲ１１を用いる場合を示す。以下、特許の一の書類の種類である要約書を基に説明する。なお、抽出装置１００は、特許文献情報全体から抽出された特徴量により生成された多次元（Ｎ次元）のベクトルをオブジェクトとして用いてもよい。

例えば、抽出装置１００は、特許文献情報の特徴を抽出するモデルを用いて各特許文献情報からＮ次元ベクトルを生成してもよい。図１の例では、抽出装置１００は、モデル情報記憶部１２４（図７参照）に示すように、モデルＩＤ「Ｍ１」により識別されるモデル（モデルＭ１）を用いて、各特許の要約データからベクトルを生成する。上記のように、「モデルＭ＊（＊は任意の数値）」と記載した場合、そのモデルはモデルＩＤ「Ｍ＊」により識別されるモデルであることを示す。例えば、「モデルＭ１」と記載した場合、そのモデルはモデルＩＤ「Ｍ１」により識別されるモデルである。また、モデル情報記憶部１２４に示すように、モデルＭ１は用途「特徴抽出（要約書）」、すなわち要約書（要約）のデータからの特徴抽出のために用いられるモデルであり、その具体的なモデルデータが「モデルデータＭＤＴ１」であることを示す。

例えば、抽出装置１００は、モデルＭ１に要約書の要約情報を入力することにより、モデルＭ１中の各要素（ニューロン）の値を演算し、入力した要約情報と同様の情報を出力する。例えば、抽出装置１００は、中間層の各要素（ニューロン）の値を特徴量として抽出し、各特許の要約書に対応するＮ次元のベクトルデータを生成してもよい。

ここで、図１０を用いて、各特許の要約書に対応するベクトルデータの生成の一例を示す。図１０は、実施形態に係る特徴量の抽出の一例を示す図である。図１０は、モデルＭ１の概念図である。なお、図１０では、各要素（ニューロン）の各接続関係を示す線の図示を省略する。図１０に示すように、モデルＭ１は、入力層ＩＬと、中間層ＣＬと、出力層ＯＬとを含む。例えば、モデルＭ１の入力層ＩＬは、要約書の要約情報が入力される層である。また、出力層ＯＬは、入力層ＩＬへの入力に応じて、入力された要約情報と同様の情報を出力される層である。

また、例えば、中間層ＣＬの中央部の最も圧縮された圧縮層ＲＰは、入力された要約情報の特徴を表現する層である。例えば、モデルＭ１の中間層ＣＬにおいて、入力層ＩＬから圧縮層ＲＰまでの間は、エンコードの処理を行う部分に対応する。モデルＭ１の中間層ＣＬにおいて、入力層ＩＬから圧縮層ＲＰまでの間は、入力された要約情報の特徴を圧縮する処理を行う部分に対応する。例えば、モデルＭ１の中間層ＣＬにおいて、圧縮層ＲＰから出力層ＯＬまでの間は、デコードの処理を行う部分に対応する。モデルＭ１の中間層ＣＬにおいて、圧縮層ＲＰから出力層ＯＬまでの間は、圧縮された要約情報を復元する処理を行う部分に対応する。

例えば、抽出装置１００は、圧縮層ＲＰに含まれるニューロンＮＬ１やニューロンＮＬ２等の情報をベクトルに用いてもよい。例えば、抽出装置１００は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ１に対応する値ＶＥ１やニューロンＮＬ２に対応する値ＶＥ２をベクトルの要素（一の次元の値）として抽出してもよい。例えば、抽出装置１００は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ１に対応する値ＶＥ１をその要約書のベクトルの１次元目の要素として抽出してもよい。また、例えば、抽出装置１００は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ２に対応する値ＶＥ２をその要約書のベクトルの２次元目の要素として抽出してもよい。このように、抽出装置１００は、各要約書の要約情報をモデルＭ１に入力することにより、各要約書に対応するベクトルを生成してもよい。なお、抽出装置１００は、各要約書に対応するベクトルを情報提供装置５０等の他の外部装置から取得してもよい。なお、抽出装置１００は、ベクトルの各要素として、各ニューロンに対応する値自体を用いてもよいし、各ニューロンに対応する値に所定の係数を乗算した値を用いてもよい。また、図１の例では説明を簡単にするために、ベクトルの各要素（値）が整数である場合を示すが、ベクトルの各要素（値）は、小数点以下の数値を含む実数であってもよい。

なお、抽出装置１００は、圧縮層ＲＰの要素（ニューロン）に限らず、中間層ＣＬ中の他の要素（ニューロン）の情報をベクトルに用いてもよい。例えば、抽出装置１００は、エンコード部分のニューロンＮＬ３やデコード部分のニューロンＮＬ４等の情報をベクトルに用いてもよい。例えば、抽出装置１００は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ３に対応する値ＶＥ３やニューロンＮＬ４に対応する値ＶＥ４をベクトルの要素（一の次元の値）として抽出してもよい。なお、上記は、一例であり、抽出装置１００は、オートエンコーダに限らず、種々のモデルを用いて、要約情報からの特徴抽出を行ってもよい。また、例えば、トリプレットロス（triplet loss）といった類似性を学習する方法によりモデルを生成してもよい。また、抽出装置１００は、モデルを用いずに、特徴抽出を行ってもよい。例えば、抽出装置１００は、抽出装置１００の管理者等が設定して特徴（素性）に対応する情報を要約情報から抽出し、ベクトルを生成してもよい。例えば、抽出装置１００は、技術分野や解決手段や効果等の特徴（素性）に対応する情報を要約情報から抽出し、ベクトルを生成してもよい。

また、例えば、抽出装置１００は、情報提供装置５０等の他の外部装置からモデルＭ１を取得してもよい。なお、抽出装置１００は、特許情報記憶部１２１（図４参照）に記憶された各特許の要約書の要約情報ＡＤ１、ＡＤ２、ＡＤ４５１等を入力として、モデルＭ１を生成してもよい。例えば、要約情報ＡＤ１、ＡＤ２、ＡＤ４５１等は、対応する特許文献中の要約書の文章全体であってもよい。また、例えば、要約情報ＡＤ１、ＡＤ２、ＡＤ４５１等は、対応する特許文献中の要約書の文章から抽出された各要素、例えば要約書に含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。また、例えば、要約情報ＡＤ１、ＡＤ２、ＡＤ４５１等が、文章や単語群である場合、抽出装置１００は、Ｗｏｒｄ２ＶｅｃやＤｏｃ２Ｖｅｃのようなアルゴリズム等を用いて、ベクトルを生成してもよい。例えば、抽出装置１００は、要約情報ＡＤ１、ＡＤ２、ＡＤ４５１等から、Ｄｏｃ２Ｖｅｃを用いてベクトルを生成してもよい。

抽出装置１００は、要約書の要約情報（要約データ）が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力されたログ情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するモデルＭ１を生成してもよい。なお、抽出装置１００は、他のモデルＭ２〜Ｍ４についても同様の処理により生成する。例えば、抽出装置１００は、モデルＭ２に特許の図面（選択図）の画像情報（画像データ）を入力することにより、モデルＭ２中の各要素（ニューロン）の値を演算し、入力した画像情報と同様の情報を出力する。例えば、抽出装置１００は、中間層の各要素（ニューロン）の値を特徴量として抽出し、各特許に対応する図面に関するＮ次元のベクトルデータを生成してもよい。また、抽出装置１００は、ベクトル生成に用いるモデルを情報提供装置５０等の他の外部装置から取得してもよい。

〔１−３．処理例〕
ここから、抽出装置１００は、ユーザから一の発明（特許）の要約書の要約情報を取得し、一の特許に類似する特許に関する情報提供を行う場合を一例として説明する。図１の例では、端末装置１０は、類似特許の検索を所望するユーザＵ１が利用する。例えば、ユーザＵ１は、自身や所属する事業体（企業）等が発明し作成した特許出願書類（特許文献）に類似する特許を検索することを所望するものとする。また、図１の例では、説明を簡単にするために、特許書類のうち、種類「要約書」のみを用いて類似特許の検索を行う場合を示す。なお、複数の種類の書類を用いて検索を行う場合は図１２において後述する。

まず、ユーザＵ１は、端末装置１０を操作することにより、端末装置１０から一の発明に関する情報（発明情報）として、特許Ｘの要約情報ＡＤ１１を抽出装置１００へ送信する。例えば、要約情報ＡＤ１１は、特許Ｘの要約書の文章全体であってもよい。また、例えば、要約情報ＡＤ１１は、特許Ｘの要約書の文章から抽出された各要素、例えば特許Ｘの要約書に含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。

そして、抽出装置１００は、一の発明に関する特許文献情報を取得する（ステップＳ１１）。図１の例では、抽出装置１００は、端末装置１０から特許Ｘに関する要約情報ＡＤ１１を取得する。

そして、抽出装置１００は、一の発明に対応する要約情報からグラフ情報の探索に用いるベクトルを生成する。図１の例では、抽出装置１００は、処理群ＰＳ１１に示すような処理により、特許Ｘに対応するベクトルを生成する。抽出装置１００は、特許Ｘに関する要約情報ＡＤ１１をモデルＭ１に入力する（ステップＳ１２）。具体的には、抽出装置１００は、端末装置１０から取得した特許Ｘの要約情報ＡＤ１１をモデルＭ１に入力する。そして、抽出装置１００は、要約情報ＡＤ１１の入力後のモデルＭ１中の情報を用いて、ベクトルを生成する（ステップＳ１３）。例えば、抽出装置１００は、要約情報ＡＤ１１が入力されたモデルＭ１中の各要素を用いて、ベクトルデータを生成する。

図１の例では、抽出装置１００は、要約情報ＡＤ１１が入力されたモデルＭ１中の各要素の値を用いて、ベクトルデータＶＤ１１（単に「ベクトルＶＤ１１」ともいう）を生成する。例えば、抽出装置１００は、特許Ｘの要約情報ＡＤ１１が入力された場合における、モデルＭ１のニューロンＮＬ１に対応する値ＶＥ１（図１０参照）やニューロンＮＬ２に対応する値ＶＥ２（図１０参照）を用いて、ベクトルを生成する。例えば、抽出装置１００は、特許Ｘの要約情報ＡＤ１１が入力された場合に、算出されるニューロンＮＬ１に対応する値ＶＥ１をベクトルＶＤ１１の１次元目の要素として抽出してもよい。また、例えば、抽出装置１００は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ２に対応する値ＶＥ２をベクトルＶＤ１１の２次元目の要素として、ベクトルＶＤ１１を生成する。図１の例では、抽出装置１００は、１次元目の要素が「３５」であり、２次元目の要素が「６３」であるようなベクトルＶＤ１１を生成する。

そして、抽出装置１００は、特許Ｘに類似する特許（類似特許）を検索する（ステップＳ１４）。例えば、抽出装置１００は、非特許文献１に開示されるような近傍検索の技術等の種々の従来技術を適宜用いて、特許Ｘの類似特許を検索してもよい。

図１の例では、抽出装置１００は、情報群ＩＮＦ１１に示すように、グラフ情報ＧＲ１１やインデックス情報ＩＮＤ１１を用いて特許Ｘの類似特許を検索する。例えば、抽出装置１００は、グラフ情報記憶部１２３（図６参照）から特許の要約書に関するグラフ情報ＧＲ１１を取得する。具体的には、抽出装置１００は、グラフデータセット１２３−１（図６参照）から特許の要約書に関するグラフ情報ＧＲ１１を取得する。また、例えば、抽出装置１００は、インデックス情報記憶部１２２（図５参照）から、グラフ情報ＧＲ１１における検索の起点となるノード（以下、「起点ベクトル」ともいう）の決定に用いるインデックス情報ＩＮＤ１１を取得する。具体的には、抽出装置１００は、インデックスデータセット１２２−１（図５参照）から特許の要約書に関するインデックス情報ＩＮＤ１１を取得する。なお、インデックス情報ＩＮＤ１１は、抽出装置１００が生成してもよいし、抽出装置１００は、インデックス情報ＩＮＤ１１を情報提供装置５０等の他の外部装置から取得してもよい。

そして、抽出装置１００は、一の要約書（クエリ）に対応する起点ベクトルを決定（特定）するために、インデックス情報ＩＮＤ１１を用いる。図１の例では、抽出装置１００は、特許ＸのベクトルＶＤ１１に対応する起点ベクトルを決定（特定）するために、インデックス情報ＩＮＤ１１を用いる。すなわち、抽出装置１００は、ベクトルＶＤ１１とインデックス情報ＩＮＤ１１とを用いて、グラフ情報ＧＲ１１における起点ベクトルを決定する。

図１中のインデックス情報ＩＮＤ１１は、図５中のインデックス情報記憶部１２２に示す階層構造を有する。例えば、インデックス情報ＩＮＤ１１は、ルートＲＴの直下に位置する第１階層のノード（ベクトル）が、節点ＶＴ１、ＶＴ２等であることを示す。また、例えば、インデックス情報ＩＮＤ１１は、節点ＶＴ２の直下の第２階層のノードが、節点ＶＴ２−１〜ＶＴ２−４（図示せず）であることを示す。また、例えば、インデックス情報ＩＮＤ１１は、節点ＶＴ２−２の直下の第３階層のノードが、ノードＮ３５、ノードＮ４５１、ノードＮ６９３、すなわちグラフ情報ＧＲ１１中のノード（ベクトル）であることを示す。

例えば、抽出装置１００は、図１中のインデックス情報ＩＮＤ１１に示すような木構造型のインデックス情報を用いて、グラフ情報ＧＲ１１における起点ベクトルを決定する（ステップＳ１５）。図１の例では、抽出装置１００は、ベクトルＶＤ１１を生成した後、インデックス情報ＩＮＤ１１を上から下へ辿ることにより、インデックス情報ＩＮＤ１１の近傍候補となる起点ベクトルを特定することにより、効率的に検索クエリ（一の要約書）に対応する起点ベクトルを決定することができる。

例えば、抽出装置１００は、インデックス情報ＩＮＤ１１をルートＲＴからリーフノード（グラフ情報ＧＲ１１中のノード（ベクトル））まで辿ることにより、ベクトルＶＤ１１に対応する起点ベクトルを決定してもよい。図１の例では、例えば、抽出装置１００は、インデックス情報ＩＮＤ１１をルートＲＴからノードＮ４５１まで辿ることにより、ノードＮ４５１を起点ベクトルとして決定する。例えば、抽出装置１００は、木構造に関する種々の従来技術を適宜用いて、インデックス情報ＩＮＤ１１をルートＲＴからリーフノードまで辿ることにより、辿りついたリーフノードを起点ベクトルとして決定してもよい。例えば、抽出装置１００は、ベクトルＶＤ１１との類似度に基づいて、インデックス情報ＩＮＤ１１を下へ辿ることにより、起点ベクトルを決定してもよい。例えば、抽出装置１００は、ルートＲＴから節点ＶＴ１、ＶＴ２等のいずれの節点に辿るかを、ベクトルＶＤ１１と節点ＶＴ１、ＶＴ２との類似度に基づいて決定してもよい。例えば、抽出装置１００は、ルートＲＴから節点ＶＴ１、ＶＴ２等のうち、ベクトルＶＤ１１との類似度が最も高い節点ＶＴ２へ辿ると決定してもよい。また、例えば、抽出装置１００は、節点ＶＴ２から節点ＶＴ２−１〜ＶＴ２−４等のうち、ベクトルＶＤ１１との類似度が最も高い節点ＶＴ２−２へ辿ると決定してもよい。また、例えば、抽出装置１００は、節点ＶＴ２−２からノードＮ３５、Ｎ４５１、Ｎ６９３等のうち、ベクトルＶＤ１１との類似度が最も高い節点ノードＮ４５１へ辿ると決定してもよい。なお、図１の例では、説明を簡単にするために、起点ベクトルを１つ決定する場合を示すが、抽出装置１００は、複数個の起点ベクトルを決定してもよい。例えば、抽出装置１００は、ノードＮ４５１、Ｎ３５、Ｎ６９３、Ｎ２等の複数個のベクトル（ノード）を起点ベクトルとして決定してもよい。なお、インデックス情報ＩＮＤ１１を用いずに、検索開始時にグラフ情報ＧＲ１１からランダムに１つ以上のノードを選択し、それを起点ベクトルとしてもよいし、または、予め指定された１つ以上のノードを起点ベクトルとしてもよい。

そして、抽出装置１００は、グラフ情報ＧＲ１１を検索することにより、特許Ｘの類似特許を抽出する（ステップＳ１６）。例えば、抽出装置１００は、ノードＮ４５１の近傍に位置するノードを類似特許として抽出する。例えば、抽出装置１００は、ノードＮ４５１からの距離が近いノードを類似特許として抽出する。例えば、抽出装置１００は、ノードＮ４５１を起点として、エッジを辿ることにより、ノードＮ４５１から到達可能なノードを類似特許として抽出する。例えば、抽出装置１００は、所定数（例えば、２個や１０個等）のノードを類似特許として抽出する。例えば、抽出装置１００は、図１１に示すような検索処理により、特許Ｘの類似特許を抽出してもよいが、詳細は後述する。図１の例では、抽出装置１００は、ノードＮ４５１を起点として、グラフ情報ＧＲ１１を探索することにより、ノードＮ４５１やノードＮ３５を類似特許として抽出する。

そして、抽出装置１００は、抽出した類似特許に関する情報を提供する（ステップＳ１７）。図１の例では、抽出装置１００は、ノードＮ４５１に対応する特許＃４５１や、ノードＮ３５に対応する特許＃３５を特許Ｘに類似する特許文献としてユーザＵ１が利用する端末装置１０に提供する。

上述したように、抽出装置１００は、グラフ情報ＧＲ１１やインデックス情報ＩＮＤ１１を用いて、ユーザＵ１から取得した特許Ｘの類似特許を抽出する。例えば、抽出装置１００は、インデックス情報ＩＮＤ１１を用いて、特許Ｘの類似特許を抽出する際のグラフ情報ＧＲ１１における起点ベクトルを決定する。そして、抽出装置１００は、決定した起点ベクトルを起点としてグラフ情報ＧＲ１１を探索することにより、特許Ｘの類似特許を抽出する。これにより、抽出装置１００は、類似の特許文献を適切に抽出することができる。また、抽出装置１００は、グラフ情報ＧＲ１１を探索することにより、類似の特許文献を高速に抽出することができる。

〔１−４．複数の書類〕
〔１−４−１．処理例〕
図１の例では、１つの書類（要約書）による抽出の例を示したが、抽出装置１００は、複数の書類の情報に基づいて類似特許を抽出（決定）してもよい。この点について、図１２を用いて説明する。図１２は、実施形態に係る抽出処理の一例を示す図である。なお、図１２における抽出処理については、図１で説明した処理は適宜説明を省略する。

図１２では、あるユーザ（例えばユーザＵ１）が端末装置１０を用いる場合を示す。図１２では、抽出装置１００は、端末装置１０から書類「要約書」、「図面」、「明細書」、「特許請求の範囲」等の複数の書類の情報を取得し、各情報に基づいて類似特許を抽出（決定）する場合を一例として説明する。

まず、端末装置１０は、特許Ｙに関する特許書類「要約書」、「図面」、「明細書」、「特許請求の範囲」等の複数の書類の情報を抽出装置１００へ送信する（ステップＳ５１）。図１２の例では、端末装置１０は、特許Ｙの要約情報ＡＤ５１、図面情報ＳＩＤ５１、明細書情報ＰＳＤ５１、及びクレーム情報ＣＬＤ５１等を含む特許Ｙに関する特許書類を抽出装置１００へ送信する。

要約情報ＡＤ５１は、特許Ｙの要約書の文章全体であってもよい。また、要約情報ＡＤ５１は、特許Ｙの要約書の文章から抽出された各要素、例えば特許Ｙの要約書に含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。

また、図面情報ＳＩＤ５１は、特許Ｙの選択図の画像データ等であってもよい。また、図面情報ＳＩＤ５１は、特許Ｙの図１や全図面であってもよい。

また、明細書情報ＰＳＤ５１は、特許Ｙの課題の文章全体であってもよい。また、明細書情報ＰＳＤ５１は、特許Ｙの課題の文章から抽出された各要素、例えば特許Ｙの課題に含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。また、明細書情報ＰＳＤ５１は、特許Ｙの明細書の文章全体であってもよい。また、明細書情報ＰＳＤ５１は、特許Ｙの明細書の文章から抽出された各要素、例えば特許Ｙの明細書に含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。

また、クレーム情報ＣＬＤ５１は、特許Ｙのメインクレームの文章全体であってもよい。また、クレーム情報ＣＬＤ５１は、特許Ｙのメインクレームの文章から抽出された各要素、例えば特許Ｙのメインクレームに含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。また、クレーム情報ＣＬＤ５１は、特許Ｙのクレームの文章全体であってもよい。また、クレーム情報ＣＬＤ５１は、特許Ｙのクレームの文章から抽出された各要素、例えば特許Ｙのクレームに含まれる単語の一覧や単語の出現頻度等を示す情報であってもよい。

そして、端末装置１０から特許Ｙに関する特許書類を取得した抽出装置１００は、対象書類「要約書」の要約情報ＡＤ５１に基づく特許Ｙの類似特許を抽出する処理を行う。まず、抽出装置１００は、特許Ｙの要約情報ＡＤ５１からグラフ情報の探索に用いるベクトルを生成する。例えば、抽出装置１００は、要約情報ＡＤ５１を要約情報からベクトルを生成するモデルに入力する。例えば、抽出装置１００は、要約情報ＡＤ５１をモデルＭ１に入力する。そして、抽出装置１００は、要約情報ＡＤ５１の入力後のモデルＭ１中の情報を用いて、ベクトルを生成する（ステップＳ５２）。例えば、抽出装置１００は、要約情報ＡＤ５１が入力されたモデルＭ１中の各要素を用いて、ベクトルデータを生成する。

図１２の例では、抽出装置１００は、要約情報ＡＤ５１が入力されたモデルＭ１中の各要素の値を用いて、ベクトルデータＶＤ５１を生成する。例えば、抽出装置１００は、特許Ｙの要約情報ＡＤ５１が入力された場合における、モデルＭ１のニューロンＮＬ１に対応する値ＶＥ１（図１０参照）やニューロンＮＬ２に対応する値ＶＥ２（図１０参照）を用いて、ベクトルを生成する。

そして、抽出装置１００は、対象書類「要約書」に対応するグラフ情報ＧＲ１１やインデックス情報ＩＮＤ１１を含む情報群ＩＮＦ１１やベクトルデータＶＤ５１を用いて、対応類似特許を抽出する（ステップＳ５３）。例えば、抽出装置１００は、対象書類「要約書」に対応するグラフ情報ＧＲ１１をグラフ情報記憶部１２３（図６参照）から取得し、インデックス情報ＩＮＤ１１をインデックス情報記憶部１２２（図５参照）から取得する。例えば、抽出装置１００は、グラフ情報ＧＲ１１を検索することにより、要約情報ＡＤ５１に基づく特許Ｙの類似特許として、ノードＮ４５１やノードＮ３５を抽出する。そして、抽出装置１００は、グラフ情報記憶部１２３（図６参照）中のノードと特許との対応付けを示す情報に基づいて、図１２中の類似特許一覧ＰＬ５１に示すように、ノードＮ４５１に対応する特許＃４５１やノードＮ３５に対応する特許＃３５を類似特許として抽出する。

次に、抽出装置１００は、対象書類「図面」の図面情報ＳＩＤ５１に基づく特許Ｙの類似特許を抽出する処理を行う。まず、抽出装置１００は、特許Ｙの図面情報ＳＩＤ５１からグラフ情報の探索に用いるベクトルを生成する。例えば、抽出装置１００は、図面情報ＳＩＤ５１を図面情報からベクトルを生成するモデルに入力する。例えば、抽出装置１００は、図面情報ＳＩＤ５１をモデルＭ２に入力する。そして、抽出装置１００は、図面情報ＳＩＤ５１の入力後のモデルＭ２中の情報を用いて、ベクトルを生成する（ステップＳ５４）。例えば、抽出装置１００は、図面情報ＳＩＤ５１が入力されたモデルＭ２中の各要素を用いて、ベクトルデータを生成する。

図１２の例では、抽出装置１００は、図面情報ＳＩＤ５１が入力されたモデルＭ２中の各要素の値を用いて、ベクトルデータＶＤ５２を生成する。例えば、抽出装置１００は、特許Ｙの図面情報ＳＩＤ５１が入力された場合における、モデルＭ２の特徴抽出の対象となる各ニューロンの値（図示せず）を用いて、ベクトルを生成する。例えば、抽出装置１００は、モデルＭ２の中間層の中央部の最も圧縮された圧縮層の各ニューロンの値を用いて、ベクトルを生成してもよい。

そして、抽出装置１００は、対象書類「図面」に対応するグラフ情報ＧＲ１２やインデックス情報ＩＮＤ１２を含む情報群ＩＮＦ１２やベクトルデータＶＤ５２を用いて、対応類似特許を抽出する（ステップＳ５５）。例えば、抽出装置１００は、対象書類「図面」に対応するグラフ情報ＧＲ１２をグラフ情報記憶部１２３（図６参照）から取得し、インデックス情報ＩＮＤ１２をインデックス情報記憶部１２２（図５参照）から取得する。例えば、抽出装置１００は、グラフ情報ＧＲ１２を検索することにより、図面情報ＳＩＤ５１に基づく特許Ｙの類似特許として、ノードＮ１やノードＮ３５を抽出する。そして、抽出装置１００は、グラフ情報記憶部１２３（図６参照）中のノードと特許との対応付けを示す情報に基づいて、図１２中の類似特許一覧ＰＬ５２に示すように、ノードＮ１に対応する特許＃１やノードＮ３５に対応する特許＃３５を類似特許として抽出する。

そして、抽出装置１００は、対象書類「明細書」の明細書情報ＰＳＤ５１に基づく特許Ｙの類似特許を抽出する処理を行う。まず、抽出装置１００は、特許Ｙの明細書情報ＰＳＤ５１からグラフ情報の探索に用いるベクトルを生成する。例えば、抽出装置１００は、明細書情報ＰＳＤ５１を明細書情報からベクトルを生成するモデルに入力する。例えば、抽出装置１００は、明細書情報ＰＳＤ５１をモデルＭ３に入力する。そして、抽出装置１００は、明細書情報ＰＳＤ５１の入力後のモデルＭ３中の情報を用いて、ベクトルを生成する（ステップＳ５６）。例えば、抽出装置１００は、明細書情報ＰＳＤ５１が入力されたモデルＭ３中の各要素を用いて、ベクトルデータを生成する。

図１２の例では、抽出装置１００は、明細書情報ＰＳＤ５１が入力されたモデルＭ３中の各要素の値を用いて、ベクトルデータＶＤ５３を生成する。例えば、抽出装置１００は、特許Ｙの明細書情報ＰＳＤ５１が入力された場合における、モデルＭ３の特徴抽出の対象となる各ニューロンの値（図示せず）を用いて、ベクトルを生成する。例えば、抽出装置１００は、モデルＭ３の中間層の中央部の最も圧縮された圧縮層の各ニューロンの値を用いて、ベクトルを生成してもよい。

そして、抽出装置１００は、対象書類「明細書」に対応するグラフ情報ＧＲ１３やインデックス情報ＩＮＤ１３を含む情報群ＩＮＦ１３やベクトルデータＶＤ５３を用いて、対応類似特許を抽出する（ステップＳ５７）。例えば、抽出装置１００は、対象書類「明細書」に対応するグラフ情報ＧＲ１３をグラフ情報記憶部１２３（図６参照）から取得し、インデックス情報ＩＮＤ１３をインデックス情報記憶部１２２（図５参照）から取得する。例えば、抽出装置１００は、グラフ情報ＧＲ１３を検索することにより、明細書情報ＰＳＤ５１に基づく特許Ｙの類似特許として、ノードＮ３５やノードＮ８９を抽出する。そして、抽出装置１００は、グラフ情報記憶部１２３（図６参照）中のノードと特許との対応付けを示す情報に基づいて、図１２中の類似特許一覧ＰＬ５３に示すように、ノードＮ３５に対応する特許＃３５やノードＮ８９に対応する特許＃８９を類似特許として抽出する。

また、抽出装置１００は、対象書類「特許請求の範囲」のクレーム情報ＣＬＤ５１に基づく特許Ｙの類似特許を抽出する処理を行う。まず、抽出装置１００は、特許Ｙのクレーム情報ＣＬＤ５１からグラフ情報の探索に用いるベクトルを生成する。例えば、抽出装置１００は、クレーム情報ＣＬＤ５１をクレーム情報からベクトルを生成するモデルに入力する。例えば、抽出装置１００は、クレーム情報ＣＬＤ５１をモデルＭ４に入力する。そして、抽出装置１００は、クレーム情報ＣＬＤ５１の入力後のモデルＭ４中の情報を用いて、ベクトルを生成する（ステップＳ５８）。例えば、抽出装置１００は、クレーム情報ＣＬＤ５１が入力されたモデルＭ４中の各要素を用いて、ベクトルデータを生成する。

図１２の例では、抽出装置１００は、クレーム情報ＣＬＤ５１が入力されたモデルＭ４中の各要素の値を用いて、ベクトルデータＶＤ５４を生成する。例えば、抽出装置１００は、特許Ｙのクレーム情報ＣＬＤ５１が入力された場合における、モデルＭ４の特徴抽出の対象となる各ニューロンの値（図示せず）を用いて、ベクトルを生成する。例えば、抽出装置１００は、モデルＭ４の中間層の中央部の最も圧縮された圧縮層の各ニューロンの値を用いて、ベクトルを生成してもよい。

そして、抽出装置１００は、対象書類「特許請求の範囲」に対応するグラフ情報ＧＲ１４やインデックス情報ＩＮＤ１４を含む情報群ＩＮＦ１４やベクトルデータＶＤ５４を用いて、対応類似特許を抽出する（ステップＳ５９）。例えば、抽出装置１００は、対象書類「特許請求の範囲」に対応するグラフ情報ＧＲ１４をグラフ情報記憶部１２３（図６参照）から取得し、インデックス情報ＩＮＤ１４をインデックス情報記憶部１２２（図５参照）から取得する。例えば、抽出装置１００は、グラフ情報ＧＲ１４を検索することにより、クレーム情報ＣＬＤ５１に基づく特許Ｙの類似特許として、ノードＮ５７１やノードＮ３５を抽出する。そして、抽出装置１００は、グラフ情報記憶部１２３（図６参照）中のノードと特許との対応付けを示す情報に基づいて、図１２中の類似特許一覧ＰＬ５４に示すように、ノードＮ５７１に対応する特許＃５７１やノードＮ３５に対応する特許＃３５を類似特許として抽出する。

次に、抽出装置１００は、４つの種類の書類ごとに抽出した類似特許の情報に基づいて、特許Ｙの類似特許を決定（抽出）する（ステップＳ６０）。図１２の例では、抽出装置１００は、図１２中の類似特許一覧ＰＬ５１〜ＰＬ５４に示すように、４つの種類の全書類の類似特許に含まれる特許＃３５を特許Ｙの類似特許として決定（抽出）する。

そして、抽出装置１００は、類似特許情報を端末装置１０へ送信する（ステップＳ６１）。図１２の例では、抽出装置１００は、特許＃３５が特許Ｙの類似特許であることを示す情報を端末装置１０へ送信する。これにより、抽出装置１００は、特許Ｙの複数の種類の類似性を加味した類似特許を抽出することができる。

〔１−４−２．他の抽出例〕
上述した例では、抽出装置１００が４つの種類の全書類の類似特許に含まれる特許＃３５を特許Ｙの類似特許として決定（抽出）する場合を示したが、抽出装置１００は、他の基準に基づいて抽出を行ってもよい。例えば、抽出装置１００は、複数の書類に基づいて類似特許が抽出された場合、各書類の類似特許として含まれる割合に応じて、類似特許を決定（抽出）してもよい。例えば、抽出装置１００は、一の発明（特許）の複数の書類に対応する抽出のうち、所定の閾値（例えば５０％や８０％等）以上の抽出で類似特許として抽出された特許（特許ＡＡ）がある場合、その特許（特許ＡＡ）を一の発明（特許）の類似特許としてもよい。

例えば、抽出装置１００は、書類の種類数が４であり、閾値が５０％であり、一の発明（特許）の３つの種類の書類において類似特許として抽出された特許（特許ＡＢ）がある場合、その特許（特許ＡＢ）を一の発明（特許）の類似特許としてもよい。上述のように、抽出装置１００は、一の発明（特許）の複数の書類全体での抽出された割合に応じて、一の発明（特許）の類似特許を決定することにより、より適切に類似特許を抽出することができる。

〔１−５．インデックス情報〕
図１の例に示すインデックス情報（インデックスデータ）は一例であり、抽出装置１００は、種々のインデックス情報を用いて、グラフ情報を検索してもよい。また、例えば、抽出装置１００は、検索時に用いるインデックスデータを生成してもよい。例えば、抽出装置１００は、高次元ベクトルを検索する検索インデックスをインデックスデータとして生成する。ここでいう高次元ベクトルとは、例えば、数百次元から数千次元のベクトルであってもよいし、それ以上の次元のベクトルであってもよい。

例えば、抽出装置１００は、図１に示すようなツリー構造（木構造）に関する検索インデックスをインデックスデータとして生成してもよい。例えば、抽出装置１００は、ｋｄ木（k-dimensional tree）に関する検索インデックスをインデックスデータとして生成してもよい。例えば、抽出装置１００は、ＶＰ木（Vantage-Point tree）に関する検索インデックスをインデックスデータとして生成してもよい。

また、例えば、抽出装置１００は、その他の木構造を有するインデックスデータとして生成してもよい。例えば、抽出装置１００は、木構造のインデックスデータのリーフがグラフデータに接続する種々のインデックスデータを生成してもよい。例えば、抽出装置１００は、木構造のインデックスデータのリーフがグラフデータ中のノードに対応する種々のインデックスデータを生成してもよい。また、抽出装置１００は、このようなインデックスデータを用いて検索を行う場合、インデックスデータを辿って到達したリーフ（ノード）からグラフデータを探索してもよい。

なお、上述したようなインデックスデータは一例であり、抽出装置１００は、グラフデータ中のクエリを高速に特定することが可能であれば、どのようなデータ構造のインデックスデータを生成してもよい。例えば、抽出装置１００は、クエリに対応するグラフ情報中のノードを高速に特定することが可能であれば、バイナリ空間分割に関する技術等の種々の従来技術を適宜用いて、インデックスデータを生成してもよい。例えば、抽出装置１００は、高次元ベクトルの検索に対応可能なインデックスであれば、どのようなデータ構造のインデックスデータを生成してもよい。例えば、抽出装置１００は、非特許文献１に記載されるようなグラフ型の検索インデックスに関する情報をインデックス情報として用いてもよい。抽出装置１００は、上述のようなインデックスデータとグラフデータとを用いることにより、所定の対象に関するより効率的な検索を可能にすることができる。

〔２．抽出システムの構成〕
図２に示すように、抽出システム１は、端末装置１０と、情報提供装置５０と、抽出装置１００とが含まれる。端末装置１０と、情報提供装置５０と、抽出装置１００とは所定のネットワークＮを介して、有線または無線により通信可能に接続される。図２は、実施形態に係る抽出システムの構成例を示す図である。なお、図２に示した抽出システム１には、複数台の端末装置１０や、複数台の情報提供装置５０や、複数台の抽出装置１００が含まれてもよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、ユーザによる種々の操作を受け付ける。なお、以下では、端末装置１０をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置１０と読み替えることもできる。なお、上述した端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。例えば、端末装置１０は、所定のサーバシステムを管理者が利用する情報処理装置であってもよい。

抽出装置１００は、起点ベクトルを起点としてグラフ情報を検索することにより、複数の特許文献のうち、一の発明に類似する特許文献である類似特許を抽出する情報処理装置である。例えば、抽出装置１００は、一の発明に関する要約情報を取得し、要約書に対応するグラフ情報を取得する。例えば、抽出装置１００は、一の発明に関する要約情報を取得し、特許文献情報と、グラフ情報の検索の起点となる起点ベクトルに関する情報とに基づいて、起点ベクトルを決定する。

抽出装置１００は、ユーザ等に種々の情報提供を行うための情報が格納された情報処理装置である。例えば、抽出装置１００は、端末装置１０から一の発明の発明情報（以下、「クエリ情報」や「クエリ」ともいう）を取得すると、クエリに類似する特許（ベクトル情報等）を検索し、検索結果を端末装置１０に提供する。図１の例では、抽出装置１００は、端末装置１０から一の発明（特許）の要約情報を取得すると、一の特許に類似する特許を検索し、検索結果を類似の特許として端末装置１０に提供する。また、例えば、抽出装置１００が端末装置１０に提供するデータは、特許の名称や特許文献自体であってもよいし、ＵＲＬ（Uniform Resource Locator）等の対応するデータを参照するための情報であってもよい。

情報提供装置５０は、抽出装置１００に種々の情報提供を行うための情報が格納された情報処理装置である。例えば、情報提供装置５０は、ウェブサーバ等の種々の外部装置から収集した特許情報等が格納されてもよい。例えば、情報提供装置５０は、グラフ情報やインデックス情報やモデル等の種々の情報を抽出装置１００に提供する情報処理装置である。

〔３．抽出装置の構成〕
次に、図３を用いて、実施形態に係る抽出装置１００の構成について説明する。図３は、実施形態に係る抽出装置の構成例を示す図である。図３に示すように、抽出装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、抽出装置１００は、抽出装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワーク（例えば図２中のネットワークＮ）と有線または無線で接続され、端末装置１０や情報提供装置５０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図３に示すように、特許情報記憶部１２１と、インデックス情報記憶部１２２と、グラフ情報記憶部１２３と、モデル情報記憶部１２４とを有する。

（特許情報記憶部１２１）
実施形態に係る特許情報記憶部１２１は、特許文献（オブジェクト）に関する各種情報を記憶する。例えば、特許情報記憶部１２１は、特許ＩＤやベクトルデータを記憶する。図４は、実施形態に係る特許情報記憶部の一例を示す図である。図４に示す特許情報記憶部１２１は、「特許ＩＤ」、「特許」、「特許書類情報」といった項目が含まれる。「特許書類情報」には、特許文献に含まれる各種類の書類情報（特許文献情報）が含まれる。図４の例では、「特許書類情報」には、「要約書」、「図面」、「明細書」、「特許請求の範囲」といった項目が含まれる。

また、「要約書」には、「要約情報」、「ベクトル情報」といった項目が含まれる。また、「図面」には、「図面情報（選択図）」、「ベクトル情報」といった項目が含まれる。また、「明細書」には、「明細書情報（課題）」、「ベクトル情報」といった項目が含まれる。また、「特許請求の範囲」には、「クレーム情報（メインクレーム）」、「ベクトル情報」といった項目が含まれる。

「特許ＩＤ」は、特許文献（オブジェクト）を識別するための識別情報を示す。また、「特許」は、特許ＩＤにより識別される特許文献の具体的な名称や内容等を示す。なお、図４の例では、特許を「特許＃１」といった抽象的な符号で示すが、各特許は、発明の名称や、出願番号や公開番号等が含まれてもよい。

「要約書」中の「要約情報」は、特許ＩＤにより識別される特許文献の要約書の情報を示す。なお、図４の例では、要約情報を「ＡＤ１」といった抽象的な符号で示すが、各要約情報は、要約書の文章全体や要約書の文章から抽出された各要素、例えば要約書に含まれる単語の一覧や単語の出現頻度等を示す情報等が含まれてもよい。「ベクトル情報」とは、特許ＩＤにより識別される特許文献（オブジェクト）の要約書に対応するベクトル情報を示す。すなわち、図４の例では、特許文献（オブジェクト）を識別する特許ＩＤに対して、オブジェクトに対応する要約書のベクトルデータ（ベクトル情報）が対応付けられて登録されている。

「図面」中の「図面情報（選択図）」は、特許ＩＤにより識別される特許文献の選択図の情報を示す。なお、図４の例では、図面情報を「ＳＩＤ１」といった抽象的な符号で示すが、各図面情報は、選択図の画像データ等が含まれてもよい。また、図面情報は、選択図に限らず、全図面が含まれてもよい。「ベクトル情報」とは、特許ＩＤにより識別される特許文献（オブジェクト）の選択図に対応するベクトル情報を示す。すなわち、図４の例では、特許文献（オブジェクト）を識別する特許ＩＤに対して、オブジェクトに対応する選択図のベクトルデータ（ベクトル情報）が対応付けられて登録されている。

「明細書」中の「明細書情報（課題）」は、特許ＩＤにより識別される特許文献の課題の情報を示す。なお、図４の例では、明細書情報を「ＰＳＤ１」といった抽象的な符号で示すが、各明細書情報は、課題の文章全体や課題の文章から抽出された各要素、例えば課題に含まれる単語の一覧や単語の出現頻度等を示す情報等が含まれてもよい。また、明細書情報は、課題に限らず、明細書全体が含まれてもよい。「ベクトル情報」とは、特許ＩＤにより識別される特許文献（オブジェクト）の課題に対応するベクトル情報を示す。すなわち、図４の例では、特許文献（オブジェクト）を識別する特許ＩＤに対して、オブジェクトに対応する課題のベクトルデータ（ベクトル情報）が対応付けられて登録されている。

「特許請求の範囲」中の「クレーム情報（メインクレーム）」は、特許ＩＤにより識別される特許文献のメインクレーム（請求項１）の情報を示す。なお、図４の例では、クレーム情報を「ＣＬＤ１」といった抽象的な符号で示すが、各クレーム情報は、メインクレームの文章全体やメインクレームの文章から抽出された各要素、例えばメインクレームに含まれる単語の一覧や単語の出現頻度等を示す情報等が含まれてもよい。また、クレーム情報は、メインクレームに限らず、クレーム全体が含まれてもよい。「ベクトル情報」とは、特許ＩＤにより識別される特許文献（オブジェクト）のメインクレームに対応するベクトル情報を示す。すなわち、図４の例では、特許文献（オブジェクト）を識別する特許ＩＤに対して、オブジェクトに対応するメインクレームのベクトルデータ（ベクトル情報）が対応付けられて登録されている。

例えば、図４の例では、特許ＩＤ「ＩＰ１」により識別される特許文献（オブジェクト）は、「１０，２４，５４，２．．．」の多次元（Ｎ次元）の要約書のベクトル情報が対応付けられることを示す。例えば、特許＃１については、モデルＭ１等により、特許＃１の要約書の特徴を示す「１０，２４，５４，２．．．」の多次元（Ｎ次元）のベクトル情報が要約情報ＡＤ１から抽出されたことを示す。

なお、特許情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（インデックス情報記憶部１２２）
実施形態に係るインデックス情報記憶部１２２は、インデックスに関する各種情報を記憶する。図５は、実施形態に係るインデックス情報記憶部の一例を示す図である。具体的には、図５の例では、インデックス情報記憶部１２２は、ツリー構造のインデックス情報を示す。図５の例では、インデックス情報記憶部１２２は、インデックスデータセット１２２−１やインデックスデータセット１２２−２やインデックスデータセット１２２−３やインデックスデータセット１２２−４等のように対象書類ごとに情報（テーブル）を記憶する。図５に示すインデックスデータセット１２２−１〜１２２−４等は、「対象書類」、「ルート階層」、「第１階層」、「第２階層」、「第３階層」等といった項目を含む。なお、「第１階層」〜「第３階層」に限らず、インデックスの階層数に応じて、「第４階層」、「第５階層」、「第６階層」等が含まれてもよい。

図５の例では、インデックスデータセット１２２−１は、書類ＩＤ「ＴＩＤ１」により識別される書類「要約書」に対応し、インデックスデータセット１２２−２は、書類ＩＤ「ＴＩＤ２」により識別される書類「図面（選択図）」に対応する。例えば、書類「要約書」は、特許文献のうち、要約書を対象とするグラフ情報のインデックス情報であることを示す。例えば、書類「図面（選択図）」は、図面のうち、選択図を対象とするグラフ情報のインデックス情報であることを示す。

また、インデックスデータセット１２２−３は、書類ＩＤ「ＴＩＤ３」により識別される書類「明細書（課題）」に対応し、インデックスデータセット１２２−４は、書類ＩＤ「ＴＩＤ４」により識別される書類「特許請求の範囲（メインクレーム）」に対応する。例えば、書類「明細書（課題）」は、明細書のうち、課題を対象とするグラフ情報のインデックス情報であることを示す。例えば、書類「特許請求の範囲（メインクレーム）」は、クレームのうち、メインクレーム（請求項１）を対象とするグラフ情報のインデックス情報であることを示す。

具体的には、インデックスデータセット１２２−１には、対象書類「要約書」に対応するインデックスに関する情報（インデックス情報ＩＮＤ１１）が記憶される。また、インデックスデータセット１２２−２には、対象書類「図面（選択図）」に対応するインデックスに関する情報（インデックス情報ＩＮＤ１２）が記憶される。また、インデックスデータセット１２２−３には、対象書類「明細書（課題）」に対応するインデックスに関する情報（インデックス情報ＩＮＤ１３）が記憶される。また、インデックスデータセット１２２−４には、対象書類「特許請求の範囲（メインクレーム）」に対応するインデックスに関する情報（インデックス情報ＩＮＤ１４）が記憶される。

「対象書類」は、対応するインデックスデータセットが対象とする書類を示す。「ルート階層」は、インデックスを用いた起点ノードの決定の開始点となるルート（最上位）の階層を示す。「第１階層」は、インデックスの第１階層に属するノード（節点またはグラフ情報中のベクトル）を識別（特定）する情報が格納される。「第１階層」に格納されるノードは、インデックスの根（ルート）に直接結ばれる階層に対応するノードとなる。

「第２階層」は、インデックスの第２階層に属するノード（節点またはグラフ情報中のベクトル）を識別（特定）する情報が格納される。「第２階層」に格納されるノードは、第１階層のノードに結ばれる直下の階層に対応するノードとなる。「第３階層」は、インデックスの第３階層に属するノード（節点またはグラフ情報中のベクトル）を識別（特定）する情報が格納される。「第３階層」に格納されるノードは、第２階層のノードに結ばれる直下の階層に対応するノードとなる。

例えば、図５に示す例においては、インデックス情報記憶部１２２のうち、インデックスデータセット１２２−１には、図１中のインデックス情報ＩＮＤ１１に対応する情報が記憶される。例えば、インデックスデータセット１２２−１は、第１階層のノードが、節点ＶＴ１〜ＶＴ３等であることを示す。また、各節点の下の括弧内の数値は、各節点に対応するベクトルの値を示す。

また、例えば、インデックスデータセット１２２−１は、節点ＶＴ２の直下の第２階層のノードが、節点ＶＴ２−１〜ＶＴ２−４であることを示す。また、例えば、インデックスデータセット１２２−１は、節点ＶＴ２−２の直下の第３階層のノードが、ノードＮ３５、ノードＮ４５１、ノードＮ６９３のグラフ情報ＧＲ１１中のノード（ベクトル）であることを示す。

なお、インデックス情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（グラフ情報記憶部１２３）
実施形態に係るグラフ情報記憶部１２３は、グラフ情報に関する各種情報を記憶する。図６は、実施形態に係るグラフ情報記憶部の一例を示す図である。図６の例では、グラフ情報記憶部１２３は、グラフデータセット１２３−１やグラフデータセット１２３−２やグラフデータセット１２３−３やグラフデータセット１２３−４等のように対象書類ごとに情報（テーブル）を記憶する。図６に示すグラフデータセット１２３−１〜１２３−４等は、「対象書類」、「ノードＩＤ」、「特許ＩＤ」、および「エッジ情報」といった項目を有する。また、「エッジ情報」には、「エッジＩＤ」や「参照先」といった情報が含まれる。

図６の例では、グラフデータセット１２３−１は、書類ＩＤ「ＴＩＤ１」により識別される書類「要約書」に対応し、グラフデータセット１２３−２は、書類ＩＤ「ＴＩＤ２」により識別される書類「図面（選択図）」に対応する。例えば、書類「要約書」は、特許文献のうち、要約書を対象とするグラフ情報のインデックス情報であることを示す。すなわち、グラフデータセット１２３−１に記憶されるグラフ情報（図１中のグラフ情報ＧＲ１１）は、特許書類のうち要約書がベクトル化されグラフ構造化された情報であることを示す。また、例えば、書類「図面（選択図）」は、図面のうち、選択図を対象とするグラフ情報のインデックス情報であることを示す。すなわち、グラフデータセット１２３−２に記憶されるグラフ情報は、特許書類のうち図面中の選択図がベクトル化されグラフ構造化された情報であることを示す。

また、グラフデータセット１２３−３は、書類ＩＤ「ＴＩＤ３」により識別される書類「明細書（課題）」に対応し、グラフデータセット１２３−４は、書類ＩＤ「ＴＩＤ４」により識別される書類「特許請求の範囲（メインクレーム）」に対応する。例えば、書類「明細書（課題）」は、明細書のうち、課題を対象とするグラフ情報であることを示す。すなわち、グラフデータセット１２３−３に記憶されるグラフ情報は、特許書類のうち明細書中の課題がベクトル化されグラフ構造化された情報であることを示す。例えば、書類「特許請求の範囲（メインクレーム）」は、クレームのうち、メインクレーム（請求項１）を対象とするグラフ情報であることを示す。すなわち、グラフデータセット１２３−４に記憶されるグラフ情報は、特許書類のうちクレーム中の請求項１がベクトル化されグラフ構造化された情報であることを示す。

具体的には、グラフデータセット１２３−１には、対象書類「要約書」に対応するグラフに関する情報（グラフ情報ＧＲ１１）が記憶される。また、グラフデータセット１２３−２には、対象書類「図面（選択図）」に対応するグラフに関する情報（グラフ情報ＧＲ１２）が記憶される。また、グラフデータセット１２３−３には、対象書類「明細書（課題）」に対応するグラフに関する情報（グラフ情報ＧＲ１３）が記憶される。また、グラフデータセット１２３−４には、対象書類「特許請求の範囲（メインクレーム）」に対応するグラフに関する情報（グラフ情報ＧＲ１４）が記憶される。

「対象書類」は、対応するグラフデータセットが対象とする書類を示す。「ノードＩＤ」は、グラフデータにおける各ノード（対象）を識別するための識別情報を示す。また、「特許ＩＤ」は、特許を識別するための識別情報を示す。

また、「エッジ情報」は、対応するノードに接続されるエッジに関する情報を示す。図６の例では、「エッジ情報」は、エッジが有向エッジである場合を示し、対応するノードから出力される出力エッジに関する情報を示す。また、「エッジＩＤ」は、ノード間を連結するエッジを識別するための識別情報を示す。また、「参照先」は、エッジにより連結された参照先（ノード）を示す情報を示す。すなわち、図６の例では、ノードを識別するノードＩＤに対して、そのノードに対応するオブジェクト（対象）を識別する情報やそのノードからの有向エッジ（出力エッジ）が連結される参照先（ノード）が対応付けられて登録されている。

例えば、図６の例では、グラフ情報記憶部１２３のうち、グラフデータセット１２３−１においては、ノードＩＤ「Ｎ１」により識別されるノード（ベクトル）は、特許ＩＤ「ＩＰ１」により識別される特許（オブジェクト）に対応することを示す。また、グラフデータセット１２３−１においては、ノードＩＤ「Ｎ１」により識別されるノードからは、エッジＩＤ「Ｅ１１」により識別されるエッジが、ノードＩＤ「Ｎ２５」により識別されるノード（ベクトル）に連結されることを示す。すなわち、図６の例では、グラフデータセット１２３−１においては、ノードＩＤ「Ｎ１」により識別されるノード（ベクトル）からはノードＩＤ「Ｎ２５」により識別されるノード（ベクトル）に辿ることができることを示す。

なお、グラフ情報記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、グラフ情報記憶部１２３は、各ノード（ベクトル）間を連結するエッジの長さが記憶されてもよい。すなわち、グラフ情報記憶部１２３は、各ノード（ベクトル）間の距離を示す情報が記憶されてもよい。

（モデル情報記憶部１２４）
実施形態に係るモデル情報記憶部１２４は、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２４は、生成処理により生成されたモデル情報（モデルデータ）を記憶する。図７は、実施形態に係るモデル情報記憶部の一例を示す図である。図７に示すモデル情報記憶部１２４は、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。なお、図７では、モデルＭ１〜Ｍ４のみを図示するが、各用途（書類の種類）に応じて多数のモデル情報が記憶されてもよい。例えば、モデル情報記憶部１２４には、特許文献全体を対象とするモデルＭ２１が記憶されてもよい。

「モデルＩＤ」は、モデルを識別するための識別情報を示す。例えば、モデルＩＤ「Ｍ１」により識別されるモデルは、図１の例に示したモデルＭ１に対応する。「用途」は、対応するモデルの用途を示す。また、「モデルデータ」は、対応付けられた対応するモデルのデータを示す。例えば、「モデルデータ」には、各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。

例えば、図７に示す例において、モデルＩＤ「Ｍ１」により識別されるモデル（モデルＭ１）は、用途が「特徴抽出（要約書）」であり、入力された特許の要約書の要約情報からの特徴の抽出に用いられることを示す。また、モデルＭ１のモデルデータは、モデルデータＭＤＴ１であることを示す。

モデルＭ１（モデルデータＭＤＴ１）は、特許の要約書の要約情報（要約データ）が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された要約情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するよう、コンピュータを機能させるためのモデルである。

また、モデルＭ１〜Ｍ４等がＤＮＮ（Deep Neural Network）等、１つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、例えば、モデルＭ１〜Ｍ４が含む第１要素は、入力層または中間層が有するいずれかのノードに対応する。また、第２要素は、第１要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第１要素の重みは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。

ここで、モデルＭ１〜Ｍ４等が「ｙ＝ａ１＊ｘ１＋ａ２＊ｘ２＋・・・＋ａｉ＊ｘｉ」で示す回帰モデルで実現されるとする。この場合、例えば、モデルＭ１〜Ｍ４等が含む第１要素は、ｘ１やｘ２等といった入力データ（ｘｉ）に対応する。また、第１要素の重みは、ｘｉに対応する係数ａｉに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。

なお、モデル情報記憶部１２４は、上記に限らず、目的に応じて種々のモデル情報を記憶してもよい。

（制御部１３０）
図３の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、抽出装置１００内部の記憶装置に記憶されている各種プログラム（抽出プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。例えば、制御部１３０は、モデル情報記憶部１２４に記憶されているモデルＭ１に従った情報処理により、特許の要約書の要約情報（要約データ）が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力されたログ情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力する。

図３に示すように、制御部１３０は、取得部１３１と、生成部１３２と、決定部１３３と、抽出部１３４と、提供部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（取得部１３１）
取得部１３１は、各種情報を取得する。例えば、取得部１３１は、記憶部１２０から各種情報を取得する。例えば、取得部１３１は、特許情報記憶部１２１や、インデックス情報記憶部１２２や、グラフ情報記憶部１２３や、モデル情報記憶部１２４等から各種情報を取得する。また、取得部１３１は、各種情報を外部の情報処理装置から取得する。取得部１３１は、端末装置１０や情報提供装置５０から各種情報を取得する。

取得部１３１は、複数の特許文献の各々に対応する複数のノードが、複数の特許文献の類似性に応じて連結されたグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に対応する複数のベクトルが類似性に応じて連結されたグラフ情報と、一の発明に関する情報を取得する。また、取得部１３１は、複数の特許文献の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。また、取得部１３１は、所定のモデルを用いて複数の特許文献の各々から抽出された特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。取得部１３１は、所定のモデルを用いて複数の特許文献の各々から抽出された特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。取得部１３１は、所定のモデルを用いて複数の特許文献の各々から抽出された特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。取得部１３１は、複数の特許文献に関する情報を所定のモデルに入力することにより、抽出される複数の特許文献の各々の特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。

また、取得部１３１は、複数の特許文献に関する情報を所定のモデルに入力することにより、抽出される複数の特許文献の各々の特徴量を要素とする複数のベクトルが、類似性に応じて連結されたグラフ情報を取得する。また、取得部１３１は、複数の特許文献に含まれる書類の各種類に対応する複数のグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に含まれる各要約書に対応する複数のベクトルの類似性に応じて、各要約書に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に含まれる各図面に対応する複数のベクトルの類似性に応じて、各図面に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に含まれる各明細書に対応する複数のベクトルの類似性に応じて、各明細書に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルの類似性に応じて、各特許請求の範囲に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。取得部１３１は、複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルの類似性に応じて、各特許請求の範囲に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。

また、取得部１３１は、複数の特許文献の各々に含まれる各要約書に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を含む複数のグラフ情報を取得する。また、取得部１３１は、複数の特許文献の各々に含まれる各図面に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を含む複数のグラフ情報を取得する。また、取得部１３１は、複数の特許文献の各々に含まれる各明細書に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を含む複数のグラフ情報を取得する。また、取得部１３１は、複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルが類似性に応じて連結されたグラフ情報を含む複数のグラフ情報を取得する。

また、取得部１３１は、ユーザが利用する端末装置１０から一の発明に関する情報を取得する。また、取得部１３１は、一の発明に関する情報として、一の発明の特許文献に関する情報を取得する。また、取得部１３１は、一の発明に関する情報として、一の発明の特許文献のうち、一の種類の書類に関する情報を取得する。

例えば、取得部１３１は、データ検索の対象となる複数のノード（ベクトル）を取得する。例えば、取得部１３１は、複数のノードと、複数のノードの各々を連結する複数の有向エッジを含む有向エッジ群を取得する。

例えば、取得部１３１は、外部の情報処理装置からグラフ情報（グラフデータ）を取得する。例えば、取得部１３１は、グラフ情報記憶部１２３からグラフ情報を取得する。例えば、取得部１３１は、グラフ情報を取得する。図１の例では、取得部１３１は、グラフ情報ＧＲ１１を取得する。

例えば、取得部１３１は、外部の情報処理装置からインデックス情報（インデックスデータ）を取得する。例えば、取得部１３１は、インデックス情報記憶部１２２からインデックス情報を取得する。例えば、取得部１３１は、木構造型のインデックス情報を取得する。図１の例では、取得部１３１は、インデックス情報ＩＮＤ１１を取得する。

また、取得部１３１は、ユーザが利用する端末装置１０から一の発明に関する特許情報を取得する。例えば、取得部１３１は、検索クエリとして、一の発明の要約情報を取得する。

取得部１３１は、一の発明に関する特許文献情報（要約情報）を取得する。図１の例では、取得部１３１は、端末装置１０から特許Ｘに関する要約情報ＡＤ１１を取得する。

図１の例では、取得部１３１は、情報群ＩＮＦ１１に示すように、グラフ情報ＧＲ１１やインデックス情報ＩＮＤ１１を用いて特許Ｘの類似特許を検索する。例えば、取得部１３１は、グラフ情報記憶部１２３（図６参照）から特許の要約書に関するグラフ情報ＧＲ１１を取得する。具体的には、取得部１３１は、グラフデータセット１２３−１（図６参照）から特許の要約書に関するグラフ情報ＧＲ１１を取得する。また、例えば、取得部１３１は、インデックス情報記憶部１２２（図５参照）から、グラフ情報ＧＲ１１における検索の起点となるノードの決定に用いるインデックス情報ＩＮＤ１１を取得する。具体的には、取得部１３１は、インデックスデータセット１２２−１（図５参照）から特許の要約書に関するインデックス情報ＩＮＤ１１を取得する。なお、インデックス情報ＩＮＤ１１は、取得部１３１が生成してもよいし、取得部１３１は、インデックス情報ＩＮＤ１１を情報提供装置５０等の他の外部装置から取得してもよい。

（生成部１３２）
生成部１３２は、各種情報を生成する。例えば、生成部１３２は、特許情報記憶部１２１に記憶された学習データ（ログ情報）を用いて、モデル情報記憶部１２４に示すようなモデルを生成する。例えば、生成部１３２は、取得部１３１により取得された学習データに基づいて、入力したログ情報と同様の情報を出力するモデル（オートエンコーダ）を生成する。例えば、生成部１３２は、入力するログ情報自体を正解情報として、入力したログ情報と同様の情報を出力するモデル（オートエンコーダ）を生成する。

例えば、生成部１３２は、モデルＭ１等を生成し、生成したモデルＭ１等をモデル情報記憶部１２４に格納する。なお、生成部１３２は、いかなる学習アルゴリズムを用いてモデルＭ１を生成してもよい。例えば、生成部１３２は、ニューラルネットワーク（neural network）等の学習アルゴリズムを用いてモデルＭ１を生成する。一例として、生成部１３２がニューラルネットワークを用いてモデルＭ１等を生成する場合、モデルＭ１等は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

生成部１３２は、発明や特許に関する情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力されたログ情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力される情報と同様の情報を出力層から出力するモデルを生成する。

例えば、生成部１３２は、学習データに基づいてモデルを生成する。例えば、生成部１３２は、学習データに基づいてモデルを生成する。例えば、生成部１３２は、特許情報記憶部１２１中の要約情報ＡＤ１、ＡＤ２等を学習データ（教師データ）として、学習を行なうことにより、モデルを生成する。

例えば、生成部１３２は、要約情報ＡＤ１が入力された場合に、モデルＭ１が要約情報ＡＤ１と同様の情報を出力するように、学習処理を行う。例えば、生成部１３２は、要約情報ＡＤ２が入力された場合に、モデルＭ１が要約情報ＡＤ２と同様の情報を出力するように、学習処理を行う。生成部１３２は、モデルを生成し、生成したモデルをモデル情報記憶部１２４に格納する。なお、抽出装置１００は、情報提供装置５０等の他の外部装置からモデルを取得する場合、生成部１３２を有しなくてもよい。

なお、生成部１３２は、モデルＭ１に限らず、特許の図面に対応するモデルＭ２や特許の明細書に対応するモデルＭ３や特許のクレームに対応するモデルＭ４等を生成してもよい。例えば、生成部１３２は、種々の学習アルゴリズムを用いてモデルを生成してもよい。例えば、生成部１３２は、ニューラルネットワーク（neural network）、サポートベクターマシン（ＳＶＭ）、クラスタリング、強化学習等の学習アルゴリズムを用いてモデルＭ２１、Ｍ２２等を生成する。一例として、生成部１３２がニューラルネットワークを用いてモデルＭ２１、Ｍ２２等を生成する場合、モデルＭ２１、Ｍ２２等は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

図１の例では、生成部１３２は、一の発明に対応する要約情報からグラフ情報の探索に用いるベクトルを生成する。図１の例では、生成部１３２は、処理群ＰＳ１１に示すような処理により、特許Ｘに対応するベクトルを生成する。生成部１３２は、特許Ｘに関する要約情報ＡＤ１１をモデルＭ１に入力する。具体的には、生成部１３２は、端末装置１０から取得した特許Ｘの要約情報ＡＤ１１をモデルＭ１に入力する。そして、生成部１３２は、要約情報ＡＤ１１の入力後のモデルＭ１中の情報を用いて、ベクトルを生成する。例えば、生成部１３２は、要約情報ＡＤ１１が入力されたモデルＭ１中の各要素を用いて、ベクトルデータを生成する。

図１の例では、生成部１３２は、要約情報ＡＤ１１が入力されたモデルＭ１中の各要素の値を用いて、ベクトルデータＶＤ１１を生成する。例えば、生成部１３２は、特許Ｘの要約情報ＡＤ１１が入力された場合における、モデルＭ１のニューロンＮＬ１に対応する値ＶＥ１（図１０参照）やニューロンＮＬ２に対応する値ＶＥ２（図１０参照）を用いて、ベクトルを生成する。例えば、生成部１３２は、特許Ｘの要約情報ＡＤ１１が入力された場合に、算出されるニューロンＮＬ１に対応する値ＶＥ１をベクトルＶＤ１１の１次元目の要素として抽出してもよい。また、例えば、生成部１３２は、要約書の要約情報が入力された場合に、算出されるニューロンＮＬ２に対応する値ＶＥ２をベクトルＶＤ１１の２次元目の要素として、ベクトルＶＤ１１を生成する。図１の例では、生成部１３２は、１次元目の要素が「３５」であり、２次元目の要素が「６３」であるようなベクトルＶＤ１１を生成する。

（決定部１３３）
決定部１３３は、各種情報を決定する。決定部１３３は、起点ノードの決定に用いるインデックス情報に基づいて、起点ノードを決定する。決定部１３３は、木構造型のインデックス情報に基づいて、起点ノードを決定する。例えば、決定部１３３は、取得部１３１により取得された一の発明に関する情報と、グラフ情報の検索の起点となる起点ベクトルに関する情報とに基づいて、起点ベクトルを決定する。また、決定部１３３は、起点ベクトルの決定に用いるインデックス情報に基づいて、起点ベクトルを決定する。また、決定部１３３は、木構造型のインデックス情報に基づいて、起点ベクトルを決定する。

図１の例では、決定部１３３は、一の要約書（クエリ）に対応する起点ベクトルを決定（特定）するために、インデックス情報ＩＮＤ１１を用いる。図１の例では、決定部１３３は、特許ＸのベクトルＶＤ１１に対応する起点ベクトルを決定（特定）するために、インデックス情報ＩＮＤ１１を用いる。すなわち、決定部１３３は、ベクトルＶＤ１１とインデックス情報ＩＮＤ１１とを用いて、グラフ情報ＧＲ１１における起点ベクトルを決定する。

例えば、決定部１３３は、図１中のインデックス情報ＩＮＤ１１に示すような木構造型のインデックス情報を用いて、グラフ情報ＧＲ１１における起点ベクトルを決定する。図１の例では、決定部１３３は、ベクトルＶＤ１１を生成した後、インデックス情報ＩＮＤ１１を上から下へ辿ることにより、インデックス情報ＩＮＤ１１の近傍候補となる起点ベクトルを特定することにより、効率的に検索クエリ（一の要約書）に対応する起点ベクトルを決定することができる。

例えば、決定部１３３は、インデックス情報ＩＮＤ１１をルートＲＴからリーフノード（グラフ情報ＧＲ１１中のノード（ベクトル））まで辿ることにより、ベクトルＶＤ１１に対応する起点ベクトルを決定してもよい。図１の例では、例えば、決定部１３３は、インデックス情報ＩＮＤ１１をルートＲＴからノードＮ４５１まで辿ることにより、ノードＮ４５１を起点ベクトルとして決定する。

（抽出部１３４）
抽出部１３４は、各種情報を抽出する。抽出部１３４は、取得部１３１により取得されたグラフ情報の複数のノードのうち、所定の基準に基づいて決定されたグラフ情報の検索の起点となる起点ノードを起点としてグラフ情報を検索することにより、複数の特許文献のうち、一の発明に類似する特許文献である類似特許文献を抽出する。抽出部１３４は、決定部１３３により決定された起点ノードを起点として、類似特許を抽出する。抽出部１３４は、取得部１３１により取得されたグラフ情報の複数のベクトルのうち、所定の基準に基づいて決定されたグラフ情報の検索の起点となる起点ベクトルを起点としてグラフ情報を検索することにより、複数の特許文献のうち、一の発明に類似する特許文献である類似特許を抽出する。例えば、抽出部１３４は、決定部１３３により決定された起点ベクトルを起点としてグラフ情報を検索することにより、複数の特許文献のうち、一の発明に類似する特許文献である類似特許を抽出する。例えば、抽出部１３４は、グラフ情報記憶部１２３に記憶された各ノード（ベクトル）間を連結するエッジの長さ（距離）の情報を用いてもよいし、各ノードのベクトル情報から各ノード（ベクトル）間を連結するエッジの長さ（距離）の情報を算出し、算出した長さ（距離）の情報を用いてもよい。

図１の例では、抽出部１３４は、グラフ情報ＧＲ１１を検索することにより、特許Ｘの類似特許を抽出する。例えば、抽出部１３４は、ノードＮ４５１の近傍に位置するノードを類似特許として抽出する。例えば、抽出部１３４は、ノードＮ４５１からの距離が近いノードを類似特許として抽出する。例えば、抽出部１３４は、ノードＮ４５１を起点として、エッジを辿ることにより、ノードＮ４５１から到達可能なノードを類似特許として抽出する。例えば、抽出部１３４は、所定数（例えば、２個や１０個等）のノードを類似特許として抽出する。例えば、抽出部１３４は、図１１に示すような検索処理により、特許Ｘの類似特許を抽出してもよいが、詳細は後述する。図１の例では、抽出部１３４は、ノードＮ４５１を起点として、グラフ情報ＧＲ１１を探索することにより、ノードＮ４５１やノードＮ３５を類似特許として抽出する。

（提供部１３５）
提供部１３５は、各種情報を提供する。例えば、提供部１３５は、端末装置１０や情報提供装置５０に各種情報を送信する。例えば、提供部１３５は、端末装置１０や情報提供装置５０に各種情報を配信する。例えば、提供部１３５は、端末装置１０や情報提供装置５０に各種情報を提供する。提供部１３５は、抽出部１３４により抽出された類似特許に基づいて、所定のサービスを提供する。また、提供部１３５は、類似特許に関する情報提供サービスを提供する。提供部１３５は、端末装置１０に類似特許に関する情報を提供する。

例えば、提供部１３５は、クエリに対応するオブジェクトＩＤを検索結果として提供する。例えば、提供部１３５は、抽出部１３４により選択されたオブジェクトＩＤを情報提供装置５０へ提供する。提供部１３５は、抽出部１３４により選択されたオブジェクトＩＤをクエリに対応するベクトルを示す情報として情報提供装置５０に提供する。また、提供部１３５は、生成部１３２により生成されたモデルを外部の情報処理装置へ提供してもよい。

図１の例では、提供部１３５は、抽出部１３４により抽出された類似特許に関する情報を提供する。例えば、提供部１３５は、ノードＮ４５１に対応する特許＃４５１や、ノードＮ３５に対応する特許＃３５を特許Ｘに類似する特許文献としてユーザＵ１が利用する端末装置１０に提供する。

〔４．抽出処理のフロー〕
次に、図８を用いて、実施形態に係る抽出システム１による抽出処理の手順について説明する。図８は、実施形態に係る抽出処理の一例を示すフローチャートである。

図８に示すように、抽出装置１００は、一の発明に関する情報を取得する（ステップＳ１０１）。例えば、抽出装置１００は、一の発明に関する要約情報を取得する。図１の例では、抽出装置１００は、端末装置１０から特許Ｘに関する要約情報ＡＤ１１を取得する。

抽出装置１００は、一の発明に関する情報に対応する種類の特許書類のグラフ情報を取得する（ステップＳ１０２）。例えば、抽出装置１００は、グラフ情報記憶部１２３のうち、対象書類「要約書」に対応するグラフデータセット１２３−１から、対象書類「要約書」に関するグラフ情報ＧＲ１１を取得する。

そして、抽出装置１００は、モデルを用いて一の発明に関する情報からベクトルを生成する（ステップＳ１０３）。例えば、抽出装置１００は、モデルを用いて一の発明の要約情報からベクトルを生成する。図１の例では、抽出装置１００は、モデル情報記憶部１２４に記憶されたモデルＭ１を用いて、要約情報ＡＤ１１からベクトルＶＤ１１を生成する。

そして、抽出装置１００は、生成したベクトルとインデックス情報を用いて起点ベクトルを決定する（ステップＳ１０４）。図１の例では、抽出装置１００は、ベクトルＶＤ１１と、インデックス情報記憶部１２２に記憶されたインデックス情報ＩＮＤ１１とを用いて、起点ベクトルをノードＮ４５１に決定する。

そして、抽出装置１００は、グラフ情報を検索することにより、一の発明の類似特許を抽出する（ステップＳ１０５）。図１の例では、抽出装置１００は、ノードＮ４５１を起点として、グラフ情報ＧＲ１１を探索することにより、ノードＮ４５１やノードＮ３５を類似特許として抽出する。

そして、抽出装置１００は、抽出した類似特許に関する情報を提供する（ステップＳ１０６）。図１の例では、抽出装置１００は、ノードＮ４５１に対応する特許＃４５１や、ノードＮ３５に対応する特許＃３５を特許Ｘに類似する特許文献としてユーザＵ１が利用する端末装置１０に提供する。

〔５．生成処理のフロー〕
次に、図９を用いて、実施形態に係る抽出システム１による生成処理の手順について説明する。図９は、実施形態に係る生成処理の一例を示すフローチャートである。

図９に示すように、抽出装置１００は、学習データを取得する（ステップＳ２０１）。例えば、抽出装置１００は、特許情報記憶部１２１から学習データを取得する。例えば、抽出装置１００は、特許情報記憶部１２１から要約情報ＡＤ１、ＡＤ２等を学習データとして取得する。

その後、抽出装置１００は、学習データに基づきモデルを生成する（ステップＳ２０２）。例えば、抽出装置１００は、特許情報記憶部１２１から学習データを用いてモデルＭ１を生成する。例えば、抽出装置１００は、入力層に入力される情報（要約情報）と同様の情報（要約情報）を出力層から出力するようにモデルＭ１を生成する。例えば、抽出装置１００は、特許の書類の種類「要約書」の要約情報（要約データ）を入力とするオートエンコーダとしてのモデルＭ１を生成する。

〔６．検索例〕
ここで、上述したグラフ情報を用いた検索の一例を示す。なお、グラフ情報（グラフデータ）を用いた検索は下記に限らず、種々の手順により行われてもよい。この点について、図１１を一例として説明する。図１１は、グラフデータ（グラフ情報）を用いた検索処理の一例を示すフローチャートである。また、以下でいうオブジェクトは、ベクトルやノードと読み替えてもよい。なお、以下では、抽出装置１００が検索処理を行うものとして説明するが、検索処理は他の装置により行われてもよい。例えば、抽出装置１００は、検索クエリとして、一の発明の要約情報（要約データ）から生成されたベクトルデータを用いる。例えば、抽出装置１００は、一の発明の要約情報（要約データ）から生成されたベクトルデータとインデックス情報とに基づいて決定された起点ベクトルを起点としてグラフデータを検索する。図１の例では、抽出装置１００は、特許ＸのベクトルＶＤ１１とインデックス情報ＩＮＤ１１とに基づいて決定された起点ベクトルであるノードＮ４５１を起点としてグラフ情報ＧＲ１１を検索する。

ここでは、近傍オブジェクト集合Ｎ（Ｇ，ｙ）は、ノードｙに付与されているエッジにより関連付けられている近傍のオブジェクトの集合である。「Ｇ」は、所定のグラフデータ（例えば、グラフ情報ＧＲ１１等）であってもよい。例えば、抽出装置１００は、ｋ近傍検索処理を実行する。

例えば、抽出装置１００は、超球の半径ｒを∞（無限大）に設定し（ステップＳ３００）、既存のオブジェクト集合から部分集合Ｓを抽出する（ステップＳ３０１）。例えば、抽出装置１００は、ルートノード（起点ベクトル）として選択されたオブジェクト（ノード）を部分集合Ｓとして抽出してもよい。図１の例では、抽出装置１００は、起点ベクトルであるノードＮ４５１等を部分集合Ｓとして抽出してもよい。また、例えば、超球とは、検索範囲を示す仮想的な球である。なお、ステップＳ３０１において抽出されたオブジェクト集合Ｓに含まれるオブジェクトは、同時に検索結果のオブジェクト集合Ｒの初期集合にも含められる。

次に、抽出装置１００は、オブジェクト集合Ｓに含まれるオブジェクトの中で、検索クエリオブジェクトをｙとするとオブジェクトｙとの距離が最も短いオブジェクトを抽出し、オブジェクトｓとする（ステップＳ３０２）。図１の例では、抽出装置１００は、オブジェクト集合Ｓに含まれるオブジェクトの中で、検索クエリオブジェクトであるベクトルＶＤ１１との距離が最も短いオブジェクトを抽出し、オブジェクトｓとする。例えば、抽出装置１００は、オブジェクト集合Ｓに含まれるオブジェクトの中で、ベクトルＶＤ１１との距離が最も短いノードＮ４５１を抽出し、オブジェクトｓとする。例えば、抽出装置１００は、ルートノード（起点ベクトル）として選択されたオブジェクト（ノード）のみがオブジェクト集合Ｓの要素の場合には、結果的にルートノード（起点ベクトル）がオブジェクトｓとして抽出される。次に、抽出装置１００は、オブジェクトｓをオブジェクト集合Ｓから除外する（ステップＳ３０３）。

次に、抽出装置１００は、オブジェクトｓとオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超えるか否かを判定する（ステップＳ３０４）。ここで、εは拡張要素であり、ｒ（１＋ε）は、探索範囲（この範囲内のノードのみを探索する。検索範囲よりも大きくすることで精度を高めることができる）の半径を示す値である。オブジェクトｓとオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超える場合（ステップＳ３０４：Ｙｅｓ）、抽出装置１００は、オブジェクト集合Ｒをオブジェクトｙの近傍オブジェクト集合として出力し（ステップＳ３０５）、処理を終了する。

オブジェクトｓと検索クエリオブジェクトｙとの距離ｄ（ｓ，ｙ）がｒ（１＋ε）を超えない場合（ステップＳ３０４：Ｎｏ）、抽出装置１００は、オブジェクトｓの近傍オブジェクト集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトの中からオブジェクト集合Ｃに含まれないオブジェクトを一つ選択し、選択したオブジェクトｕを、オブジェクト集合Ｃに格納する（ステップＳ３０６）。オブジェクト集合Ｃは、重複検索を回避するために便宜上設けられるものであり、処理開始時には空集合に設定される。

次に、抽出装置１００は、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ（１＋ε）以下であるか否かを判定する（ステップＳ３０７）。オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ（１＋ε）以下である場合（ステップＳ３０７：Ｙｅｓ）、抽出装置１００は、オブジェクトｕをオブジェクト集合Ｓに追加する（ステップＳ３０８）。

次に、抽出装置１００は、オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ以下であるか否かを判定する（ステップＳ３０９）。オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒを超える場合（ステップＳ３０９：Ｎｏ）、抽出装置１００は、ステップＳ３１５の判定（処理）を行う。

オブジェクトｕとオブジェクトｙとの距離ｄ（ｕ，ｙ）がｒ以下である場合（ステップＳ３０９：Ｙｅｓ）、抽出装置１００は、オブジェクトｕをオブジェクト集合Ｒに追加する（ステップＳ３１０）。そして、抽出装置１００は、オブジェクト集合Ｒに含まれるオブジェクト数がｋｓを超えるか否かを判定する（ステップＳ３１１）。所定数ｋｓは、任意に定められる自然数である。例えば、ｋｓ＝２やｋｓ＝１０等の種々の設定であってもよい。

オブジェクト集合Ｒに含まれるオブジェクト数がｋｓを超える場合（ステップＳ３１１：Ｙｅｓ）、抽出装置１００は、オブジェクト集合Ｒに含まれるオブジェクトの中でオブジェクトｙとの距離が最も長い（遠い）オブジェクトを、オブジェクト集合Ｒから除外する（ステップＳ３１２）。

次に、抽出装置１００は、オブジェクト集合Ｒに含まれるオブジェクト数がｋｓと一致するか否かを判定する（ステップＳ３１３）。オブジェクト集合Ｒに含まれるオブジェクト数がｋｓと一致する場合（ステップＳ３１３：Ｙｅｓ）、抽出装置１００は、オブジェクト集合Ｒに含まれるオブジェクトの中でオブジェクトｙとの距離が最も長い（遠い）オブジェクトと、オブジェクトｙとの距離を、新たなｒに設定する（ステップＳ３１４）。

そして、抽出装置１００は、オブジェクトｓの近傍オブジェクト集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Ｃに格納し終えたか否かを判定する（ステップＳ３１５）。オブジェクトｓの近傍オブジェクト集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Ｃに格納し終えていない場合（ステップＳ３１５：Ｎｏ）、抽出装置１００は、ステップＳ３０６に戻って処理を繰り返す。

オブジェクトｓの近傍オブジェクト集合Ｎ（Ｇ，ｓ）の要素であるオブジェクトから全てのオブジェクトを選択してオブジェクト集合Ｃに格納し終えた場合（ステップＳ３１５：Ｙｅｓ）、抽出装置１００は、オブジェクト集合Ｓが空集合であるか否かを判定する（ステップＳ３１６）。オブジェクト集合Ｓが空集合でない場合（ステップＳ３１６：Ｎｏ）、抽出装置１００は、ステップＳ３０２に戻って処理を繰り返す。また、オブジェクト集合Ｓが空集合である場合（ステップＳ３１６：Ｙｅｓ）、抽出装置１００は、オブジェクト集合Ｒを出力し、処理を終了する（ステップＳ３１７）。例えば、抽出装置１００は、オブジェクト集合Ｒに含まれるオブジェクト（ノード）を検索クエリ（入力オブジェクトｙ）に対応する検索結果として、検索を行った端末装置１０等へ提供してもよい。図１の例では、抽出装置１００は、オブジェクト集合Ｒに含まれるノードＮ４５１やノードＮ３５を検索クエリ（特許ＸのベクトルＶＤ１１）に対応する検索結果として、検索を行った端末装置１０等へ提供してもよい。例えば、抽出装置１００は、ノードＮ４５１に対応する特許＃４５１や、ノードＮ３５に対応する特許＃３５を特許Ｘに類似する特許文献としてユーザＵ１が利用する端末装置１０に提供する。

〔７．効果〕
上述してきたように、実施形態に係る抽出装置１００は、取得部１３１と、抽出部１３４とを有する。取得部１３１は、複数の特許文献の各々に対応する複数のノードが、複数の特許文献の類似性に応じて連結されたグラフ情報と、一の発明に関する情報を取得する。抽出部１３４は、取得部１３１により取得されたグラフ情報の複数のノードのうち、所定の基準に基づいて決定されたグラフ情報の検索の起点となる起点ノードを起点としてグラフ情報を検索することにより、複数の特許文献のうち、一の発明に類似する特許文献である類似特許文献を抽出する。

このように、実施形態に係る抽出装置１００は、起点ノードを起点としてグラフ情報を検索し、複数の特許文献のうち、一の発明に類似する特許文献である類似特許文献を抽出することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００は、決定部１３３を有する。決定部１３３は、起点ノードの決定に用いるインデックス情報に基づいて、起点ノードを決定する。抽出部１３４は、決定部１３３により決定された起点ノードを起点として、類似特許を抽出する。

このように、実施形態に係る抽出装置１００は、起点ノードの決定に用いるインデックス情報に基づいて、起点ノードを決定することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、決定部１３３は、木構造型のインデックス情報に基づいて、起点ノードを決定する。

このように、実施形態に係る抽出装置１００は、木構造型のインデックス情報に基づいて、起点ノードを決定することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々の特徴を示す複数のベクトルが類似性に応じて連結されたグラフ情報を取得することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々の特徴を示す複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々の特徴を示す複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、所定のモデルを用いて複数の特許文献の各々から抽出された特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、所定のモデルを用いて複数の特許文献の各々から抽出された特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献に関する情報を所定のモデルに入力することにより、抽出される複数の特許文献の各々の特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献に関する情報を所定のモデルに入力することにより、抽出される複数の特許文献の各々の特徴量を要素とする複数のベクトルの類似性に応じて、複数のノードが連結されたグラフ情報を取得することにより、類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献に含まれる書類の各種類に対応する複数のグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献に含まれる書類の各種類に対応する複数のグラフ情報を取得することにより、書類の各種類に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々に含まれる各要約書に対応する複数のベクトルの類似性に応じて、各要約書に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々に含まれる各要約書に対応する複数のベクトルが類似性に応じて、各要約書に対応する複数のノードが連結されたグラフ情報を取得することにより、各特許文献の要約書に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々に含まれる各図面に対応する複数のベクトルの類似性に応じて、各図面に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々に含まれる各図面に対応する複数のベクトルの類似性に応じて、各図面に対応する複数のノードが連結されたグラフ情報を取得することにより、各特許文献の図面に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々に含まれる各明細書に対応する複数のベクトルの類似性に応じて、各明細書に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々に含まれる各明細書に対応する複数のベクトルの類似性に応じて、各明細書に対応する複数のノードが連結されたグラフ情報を取得することにより、各特許文献の明細書に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルの類似性に応じて、各特許請求の範囲に対応する複数のノードが連結されたグラフ情報を含む複数のグラフ情報を取得する。

このように、実施形態に係る抽出装置１００は、複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルの類似性に応じて、各特許請求の範囲に対応する複数のノードが連結されたグラフ情報を取得することにより、各特許文献の特許請求の範囲に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００は、提供部１３５を有する。提供部１３５は、抽出部１３４により抽出された類似特許文献に基づいて、所定のサービスを提供する。

このように、実施形態に係る抽出装置１００は、抽出した類似特許文献に基づいて、所定のサービスを提供することにより、類似の特許文献に関する情報を用いたサービスを適切に提供することができる。

また、実施形態に係る抽出装置１００において、提供部１３５は、類似特許文献に関する情報提供サービスを提供する。

このように、実施形態に係る抽出装置１００は、類似特許文献に関する情報提供サービスを提供することにより、類似の特許文献に関する情報を用いたサービスを適切に提供することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、ユーザが利用する端末装置１０から一の発明に関する情報を取得する。提供部１３５は、端末装置１０に類似特許文献に関する情報を提供する。

このように、実施形態に係る抽出装置１００は、ユーザが利用する端末装置１０から一の発明に関する情報を取得する。提供部１３５は、端末装置１０に類似特許文献に関する情報を提供することにより、抽出した類似の特許文献に関する情報を適切にユーザに提供することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、一の発明に関する情報として、一の発明の特許文献に関する情報を取得する。

このように、実施形態に係る抽出装置１００は、一の発明の特許文献に関する情報を取得することにより、一の発明の特許文献に応じて類似の特許文献を適切に抽出することができる。

また、実施形態に係る抽出装置１００において、取得部１３１は、一の発明に関する情報として、一の発明の特許文献のうち、一の種類の書類に関する情報を取得する。

このように、実施形態に係る抽出装置１００は、一の発明に関する情報として、一の発明の特許文献のうち、一の種類の書類に関する情報を取得することにより、一の発明の一の種類の書類に関する情報に応じて類似の特許文献を適切に抽出することができる。

〔８．ハードウェア構成〕
上述してきた実施形態に係る抽出装置１００は、例えば図１３に示すような構成のコンピュータ１０００によって実現される。図１３は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータをネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る抽出装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムまたはデータ（例えば、モデルＭ１（モデルデータＭＤＴ１））を実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムまたはデータ（例えば、モデルＭ１（モデルデータＭＤＴ１））を記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔９．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた各実施形態に記載された各処理は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１抽出システム
１００抽出装置
１２１特許情報記憶部
１２２インデックス情報記憶部
１２３グラフ情報記憶部
１２４モデル情報記憶部
１３０制御部
１３１取得部
１３２生成部
１３３決定部
１３４抽出部
１３５提供部
１０端末装置
５０情報提供装置
Ｎネットワーク

Claims

複数の特許文献の各々に対応する複数のノードが、前記複数の特許文献の第１の要素の類似性に応じて連結されたグラフ情報と、前記複数の特許文献の各々に対応する他の複数のノードが、前記第１の要素とは異なる前記複数の特許文献の第２の要素の類似性に応じて連結された他のグラフ情報と、一の発明に関する情報を取得する取得部と、
前記取得部により取得された前記グラフ情報の前記複数のノードのうち、所定の基準に基づいて決定された前記グラフ情報の検索の起点となる起点ノードを起点として前記グラフ情報を検索することにより抽出した第１の候補特許文献と、前記他のグラフ情報を検索することにより抽出した第２の候補特許文献とを用いて、前記複数の特許文献のうち、前記一の発明に類似する特許文献である類似特許文献を抽出する抽出部と、
を備えたことを特徴とする抽出装置。
前記起点ノードの決定に用いるインデックス情報に基づいて、前記起点ノードを決定する決定部、
をさらに備え、
前記抽出部は、
前記決定部により決定された前記起点ノードを起点として、前記特許文献を抽出する
ことを特徴とする請求項１に記載の抽出装置。
前記決定部は、
木構造型の前記インデックス情報に基づいて、前記起点ノードを決定する
ことを特徴とする請求項２に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々に対応する複数のベクトルの類似性に応じて、前記複数のノードが連結されたグラフ情報を取得する
ことを特徴とする請求項１〜３のいずれか１項に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々の特徴を示す前記複数のベクトルの類似性に応じて、前記複数のノードが連結された前記グラフ情報を取得する
ことを特徴とする請求項４に記載の抽出装置。
前記取得部は、
所定のモデルを用いて前記複数の特許文献の各々から抽出された特徴量を要素とする前記複数のベクトルの類似性に応じて、前記複数のノードが連結された前記グラフ情報を取得する
ことを特徴とする請求項４または請求項５に記載の抽出装置。
前記取得部は、
前記複数の特許文献に関する情報を所定のモデルに入力することにより、抽出される前記複数の特許文献の各々の特徴量を要素とする前記複数のベクトルの類似性に応じて、前記複数のノードが連結された前記グラフ情報を取得する
ことを特徴とする請求項４〜６のいずれか１項に記載の抽出装置。
前記取得部は、
前記複数の特許文献に含まれる書類の各種類に対応する複数のグラフ情報を取得する
ことを特徴とする請求項１〜７のいずれか１項に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々に含まれる各要約書に対応する複数のベクトルの類似性に応じて、前記各要約書に対応する複数のノードが連結されたグラフ情報を含む前記複数のグラフ情報を取得する
ことを特徴とする請求項８に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々に含まれる各図面に対応する複数のベクトルの類似性に応じて、前記各図面に対応する複数のノードが連結されたグラフ情報を含む前記複数のグラフ情報を取得する
ことを特徴とする請求項８または請求項９に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々に含まれる各明細書に対応する複数のベクトルの類似性に応じて、前記各明細書に対応する複数のノードが連結されたグラフ情報を含む前記複数のグラフ情報を取得する
ことを特徴とする請求項８〜１０のいずれか１項に記載の抽出装置。
前記取得部は、
前記複数の特許文献の各々に含まれる各特許請求の範囲に対応する複数のベクトルの類似性に応じて、前記各特許請求の範囲に対応する複数のノードが連結されたグラフ情報を含む前記複数のグラフ情報を取得する
ことを特徴とする請求項８〜１１のいずれか１項に記載の抽出装置。
前記抽出部により抽出された前記類似特許文献に基づいて、所定のサービスを提供する提供部、
をさらに備えたことを特徴とする請求項１〜１２のいずれか１項に記載の抽出装置。
前記提供部は、
前記類似特許文献に関する情報提供サービスを提供する
ことを特徴とする請求項１３に記載の抽出装置。
前記取得部は、
ユーザが利用する端末装置から前記一の発明に関する情報を取得し、
前記提供部は、
前記端末装置に前記類似特許文献に関する情報を提供する
ことを特徴とする請求項１３または請求項１４に記載の抽出装置。
前記取得部は、
前記一の発明に関する情報として、前記一の発明の特許文献に関する情報を取得する
ことを特徴とする請求項１〜１５のいずれか１項に記載の抽出装置。
前記取得部は、
前記一の発明に関する情報として、前記一の発明の特許文献のうち、一の種類の書類に関する情報を取得する
ことを特徴とする請求項１〜１６のいずれか１項に記載の抽出装置。
コンピュータが実行する抽出方法であって、
複数の特許文献の各々に対応する複数のノードが、前記複数の特許文献の第１の要素の類似性に応じて連結されたグラフ情報と、前記複数の特許文献の各々に対応する他の複数のノードが、前記第１の要素とは異なる前記複数の特許文献の第２の要素の類似性に応じて連結された他のグラフ情報と、一の発明に関する情報を取得する取得工程と、
前記取得工程により取得された前記グラフ情報の前記複数のノードのうち、所定の基準に基づいて決定された前記グラフ情報の検索の起点となる起点ノードを起点として前記グラフ情報を検索することにより抽出した第１の候補特許文献と、前記他のグラフ情報を検索することにより抽出した第２の候補特許文献とを用いて、前記複数の特許文献のうち、前記一の発明に類似する特許文献である類似特許文献を抽出する抽出工程と、
を含んだことを特徴とする抽出方法。
複数の特許文献の各々に対応する複数のノードが、前記複数の特許文献の第１の要素の類似性に応じて連結されたグラフ情報と、前記複数の特許文献の各々に対応する他の複数のノードが、前記第１の要素とは異なる前記複数の特許文献の第２の要素の類似性に応じて連結された他のグラフ情報と、一の発明に関する情報を取得する取得手順と、
前記取得手順により取得された前記グラフ情報の前記複数のノードのうち、所定の基準に基づいて決定された前記グラフ情報の検索の起点となる起点ノードを起点として前記グラフ情報を検索することにより抽出した第１の候補特許文献と、前記他のグラフ情報を検索することにより抽出した第２の候補特許文献とを用いて、前記複数の特許文献のうち、前記一の発明に類似する特許文献である類似特許文献を抽出する抽出手順と、
をコンピュータに実行させることを特徴とする抽出プログラム。