JP6053131B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6053131B2
JP6053131B2 JP2012266084A JP2012266084A JP6053131B2 JP 6053131 B2 JP6053131 B2 JP 6053131B2 JP 2012266084 A JP2012266084 A JP 2012266084A JP 2012266084 A JP2012266084 A JP 2012266084A JP 6053131 B2 JP6053131 B2 JP 6053131B2
Authority
JP
Japan
Prior art keywords
identification information
search
feature vector
unit
unrelated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012266084A
Other languages
English (en)
Other versions
JP2014112283A (ja
Inventor
稔也 鶴原
稔也 鶴原
明洋 東
明洋 東
芳文 鈴木
芳文 鈴木
義則 三木
義則 三木
由紀子 中村
由紀子 中村
美里 酒井
美里 酒井
谷川 英和
英和 谷川
Original Assignee
株式会社アイ・アール・ディー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社アイ・アール・ディー filed Critical 株式会社アイ・アール・ディー
Priority to JP2012266084A priority Critical patent/JP6053131B2/ja
Publication of JP2014112283A publication Critical patent/JP2014112283A/ja
Application granted granted Critical
Publication of JP6053131B2 publication Critical patent/JP6053131B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特許調査の選別結果を用いて、特許書類を選択する情報処理装置等に関するものである。
従来、特許調査の結果を管理する装置等が開発されている(例えば、特許文献1参照)。さらに、特定の特許書類に類似する特許書類を収集するための検索式を作成する装置等が開発されている(例えば、特許文献2参照)。
特開2007−242004号公報 特開2011−59843号公報
しかしながら、従来の特許調査においては、人手により関連特許と非関連特許とを分類しており、それは、非常に時間のかかる作業である。さらに、一度非関連特許と分類された特許書類に誤りがあったとしても、それが再考されることは希であり、誤った分類結果が残ってしまうという問題があった。
本第一の発明の情報処理装置は、特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である関連特許識別情報が1以上格納される関連特許識別情報格納部と、関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する検索式生成部と、検索式生成部が生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する検索特許識別情報取得部と、関連特許識別情報格納部に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、検索特許識別情報取得部が取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する特徴ベクトル取得部と、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する選択部と、選択部が選択した結果に関する情報を出力する出力部とを具備する情報処理装置である。
かかる構成により、情報処理装置は、特許調査で関連特許に選別された関連特許書類に類似する特許書類を検索し、その類似特許書類が関連特許書類かどうかを選択できる。これにより、例えば、情報処理装置は、特許調査における選別作業で調査していなかった特許書類のうち関連特許書類に類似する特許書類を効率的に取得し、取得した特許書類から関連特許を選択できる。
また、本第二の発明の情報処理装置は、第一の発明に対して、選択部で選択された検索特許識別情報のうち、関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報が多いほど低い評価をする評価部をさらに具備し、出力部は、評価部が評価した結果を出力する、情報処理装置である。
かかる構成により、情報処理装置は、特許調査における選別作業で調査していなかった、関連特許書類に類似する特許書類の件数が多いほど低い評価が行える。これにより、情報処理装置は、例えば、特許調査において、調査対象に含められていなかった関連特許が多いほど低い評価が行える。
また、本第三の発明の情報処理装置は、第一または第二の発明に対して、選択部は、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部に格納されている関連特許識別情報で識別される特許書類と対応する検索特許識別情報も選択する、情報処理装置である。
かかる構成により、情報処理装置は、特許調査で関連特許に選別された関連特許書類も選択の対象にできる。これにより、例えば、情報処理装置は、特許調査における選別作業において、誤って関連特許に選別された特許書類を選択しないことができる。
また、本第四の発明の情報処理装置は、第二の発明に対して、選択部は、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部に格納されている関連特許識別情報で識別される特許書類と対応する検索特許識別情報も選択し、評価部は、検索特許識別情報取得部が取得した検索特許識別情報であって、かつ、選択部が選択した検索特許識別情報と一致しない、関連特許識別情報格納部に格納されている関連特許識別情報が多いほど低い評価をする、情報処理装置である。
かかる構成により、情報処理装置は、特許調査で関連特許に選別された関連特許書類も評価の対象にできる。これにより、例えば、情報処理装置は、特許調査において、誤って関連特許書類に選別された特許書類の件数が多いほど低い評価が行える。
また、本第五の発明の情報処理装置は、第一から第四のいずれか1つの発明に対して、特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、検索式生成部は、非関連特許識別情報格納部に格納されている1以上の非関連特許識別情報で識別される特許書類に含まれる要素をさらに用いて、非関連特許識別情報格納部に格納されている1以上の非関連特許書類のうち少なくとも一部を取得しない検索式を生成する、情報処理装置である。
かかる構成により、情報処理装置は、非関連特許を考慮した検索式を生成できる。これにより、例えば、情報処理装置は、不要な特許書類を検索結果から省くことができる。
また、本第六の発明の情報処理装置は、第五の発明に対して、特徴ベクトル取得部は、非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、選択部は、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルが有する特徴と類似しない検索特許特徴ベクトルに対応する検索特許識別情報を選択する、情報処理装置である。
かかる構成により、情報処理装置は、非関連特許を考慮して、検索特許書類が関連特許かどうかの選択ができる。これにより、例えば、情報処理装置は、非関連特許特徴ベクトルも用いることによって、より正確な選択を行うことができる。
また、本第七の発明の情報処理装置は、第一から第四のいずれか1つの発明に対して、特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、特徴ベクトル取得部は、非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、選択部は、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルが有する特徴と類似しない検索特許特徴ベクトルに対応する検索特許識別情報を選択する、情報処理装置である。
かかる構成により、情報処理装置は、非関連特許を考慮して、検索特許書類が関連特許かどうかの選択ができる。これにより、例えば、情報処理装置は、非関連特許特徴ベクトルも用いることによって、より正確な選択を行うことができる。
また、本第八の発明の情報処理装置は、第六または第七の発明に対して、選択部は、特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴に類似し、特徴ベクトル取得部が取得した1以上非関連特許特徴ベクトルが有する特徴に類似しない、非関連特許特徴ベクトルに対応する非関連特許識別情報も選択する、情報処理装置である。
かかる構成により、情報処理装置は、特許調査で非関連特許に選別された特許書類も選択の対象にできる。これにより、例えば、情報処理装置は、特許調査における選別作業で非関連特許書類に選別されているが、非関連特許ではない可能性のある特許書類をも選択できる。
また、本第九の発明の情報処理装置は、第二または第三の発明に対して、特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、特徴ベクトル取得部は、非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、選択部は、特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴に類似し、特徴ベクトル取得部が取得した1以上非関連特許特徴ベクトルが有する特徴に類似しない、非関連特許特徴ベクトルに対応する非関連特許識別情報も選択し、評価部は、選択部で選択された非関連特許識別情報が多いほど低い評価をする、情報処理装置である。
かかる構成により、情報処理装置は、特許調査で非関連特許に選別された特許書類も評価の対象にできる。これにより、例えば、情報処理装置は、特許調査における選別作業で非関連特許書類に選別されているが、非関連特許ではない可能性のある特許書類の件数が多いほど低い評価が行える。
また、本第十の発明の情報処理装置は、第一から第九のいずれか1つの発明に対して、特徴ベクトル取得部は、各特許書類を特定する情報で識別される各特許書類を取得し、各特許書類から1以上の要素を取得し、1以上の要素を用いて各特徴ベクトルを取得する、情報処理装置である。
かかる構成により、情報処理装置は、特許書類に記載された要素を基にして特徴ベクトルを作成できる。これにより、例えば、情報処理装置は、外部のサーバ等を用いなくても特徴ベクトルを取得できる。
また、本第十一の発明の情報処理装置は、第一から第十のいずれか1つの発明に対して、特徴ベクトル取得部は、各特許書類から取得された類似する要素を同じベクトル要素に対応する要素とした各特徴ベクトルを取得する、情報処理装置である。
かかる構成により、情報処理装置は、特許書類に記載されている要素のうち、同じ意味を有する別の表現を同じベクトル要素とした特徴ベクトルを取得できる。これにより、例えば、異なる表現を用いて作成された類似文書から、類似する特徴ベクトルを取得できる。
本発明による情報処理装置等によれば、特許書類が関連特許である場合に選択できる。
実施の形態1における情報処理装置を含むシステムの概念図 同実施の形態における情報処理装置のブロック図 同実施の形態における情報処理装置の動作を示すフローチャート 同実施の形態における情報処理装置の検索式を生成する処理に関する動作を示すフローチャート 同実施の形態における情報処理装置の特徴ベクトルを取得する処理に関する動作を示すフローチャート 同実施の形態における情報処理装置の関連特許書類を選択する処理に関する動作を示すフローチャート 同実施の形態における特許書類格納部に格納されている特許書類の一例を示す図 同実施の形態における類似要素格納部に格納されている類似要素の一例を示す図 同実施の形態における各特許識別情報格納部に格納されている特許書類を特定する情報の一例を示す図 同実施の形態における特徴ベクトル取得部が取得した各特許書類の特徴ベクトルの一例を示す図 同実施の形態における情報処理装置の表示の一例を示す図 同実施の形態における各特許書類の関係を説明するための図 上記実施の形態におけるコンピュータシステムの外観の一例を示す図 上記実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、特許調査における選別作業の結果を用いて関連特許を選択する情報処理装置1について説明する。
図1は、本実施の形態における情報処理装置1を含むシステムの概念図である。図1において、情報処理装置1と1または2以上のユーザ端末2とは、ネットワーク100を介して接続されている。ネットワーク100は、有線、または無線の通信回線であり、例えば、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線等である。また、ユーザ端末2は、ネットワーク100に接続可能な端末であれば何でも良い。例えば、ユーザ端末2は、デスクトップパソコン、ノートパソコン、スマートフォン、またはPDA等であっても良い。
図2は、本実施の形態における情報処理装置1のブロック図である。情報処理装置1は、受付部101、関連特許識別情報格納部102、非関連特許識別情報格納部103、検索式生成部104、特許書類格納部105、検索特許識別情報取得部106、類似要素格納部107、特徴ベクトル取得部108、選択部109、評価部110、および出力部111を備える。
受付部101は、1または2以上の関連特許書類を特定する情報である関連特許識別情報を受け付ける。また、受付部101は、1または2以上の非関連特許書類を特定する情報である非関連特許識別情報を受け付けても良い。また、受付部101は、関連特許書類と非関連特許書類を取得するために使用した検索式を受け付けても良い。また、受付部101は、特許調査の種類を受け付けても良い。特許調査の種類は、特許調査の種類を識別する情報であっても良い。関連特許書類とは、調査対象の技術や発明に関連する特許書類である。非関連特許書類とは、調査対象の技術や発明等に関連しない特許書類である。受付部101が受け付ける関連特許識別情報、および非関連特許識別情報は、通常、人手で行った特許調査における選別作業の結果、関連する、または関連しないと判断された特許書類を特定する情報であるが、情報処理装置1またはその他の装置等で自動的に選別された結果であっても良い。特許書類とは、特許庁に出願された特許等の出願書類等に関する情報である。特許書類の種類は、公開特許公報、特許公報、実用新案公開公報、実用新案登録公報、公表特許公報、公表実用新案公報、再公表特許公報、再公表実用新案公報等である。また、特許書類の発行国は、日本、米国、中国、欧州、韓国等、問わない。また、特許書類の言語やデータ形式等は、問わない。特許書類を特定する情報は、特許書類を1つに特定できる情報であれば何でも良い。特許書類を特定する情報は、例えば、特許書類そのものであっても良く、特許書類を特定する特許書類IDであっても良い。特許書類IDは、出願番号であっても良く、公開番号であっても良く、登録番号等であっても良く、特許書類が格納されている格納装置等で管理されているID等であっても良い。特許調査とは、ある技術やある発明等に関連した文献を調査することである。例えば、特許調査は、その目的に応じていくつかの種類がある。特許調査の種類は、例えば、先行技術調査、侵害予防調査や無効化資料調査等である。先行技術調査は、特許出願前に先行技術が存在するか否かを調査することをいう。侵害予防調査は、商品やサービスを市場に出す前に他者特許を侵害するか否かを調査することをいう。無効化資料調査は、他者の登録特許を無効にするために調査することをいう。なお、特許調査は、関連特許書類と非関連特許書類を選別する作業のみを示す表現であっても良く、検索式を構築し、選別する特許書類を収集することも含めて示す表現であっても良く、調査対象を分析することもさらに含めて示す表現であっても良い。
検索式は、データベース等に格納されている特許書類を特定するために用いられる情報である。検索式は、検索する対象を絞り込むための要素を含む。また、検索式は、2以上の要素を関係づけたり、要素を否定したりする論理演算子をさらに含んでも良く、1または2以上の論理演算子と1または2以上の要素とを一つのブロックとして扱うための情報であるブロック区切り要素を含んでも良い。なお、検索式のデータ構造、データ形式、および定義方法等は問わない。
要素は、用語であっても良く、特許分類であっても良く、書誌情報を絞り込む情報であっても良く、後述するブロック要素であっても良い。用語は、調査対象を特定するキーワードであることが好適であるが、どのような用語であっても良い。また、用語は、検索フィールドが対応付けられていても良い。検索フィールドとは、検索式中の用語を検索する対象である。例えば、「要約」、「特許請求の範囲」、「要約+特許請求の範囲」、または「全文」等である。特許分類は、特許書類を分類し、検索時に利用可能な情報であれば何でも良い。例えば、特許分類は、IPC、FI、Fターム、USクラス、ECLA、PCP等のコードのいずれかであっても良く、または、上記コードの一部分であっても良い。コードの一部分とは、例えば、IPCであればセクション、クラス、サブクラス、またはメイングループ等であっても良い。また、コードの一部分は、例えば、Fタームであれば、テーマコード、またはテーマコードと観点等のことであっても良い。書誌情報とは、文献を特定するために必要な情報である。例えば、書誌情報は、出願番号であっても良く、公開番号であっても良く、登録番号であっても良く、代理人名等の代理人に関する情報であっても良く、出願人名等の出願人に関する情報であっても良く、発明者名等の発明者に関する情報であっても良く、出願日であっても良く、公開日であっても良く、その他の情報であっても良い。書誌情報を絞り込む情報は、書誌情報の値そのものであっても良く、範囲を有する値であっても良い。範囲を有する値とは、例えば、出願日「2010.1.1〜2010.3.1」のように、2010年に出願された特許書類を指定する値である。
論理演算子は、例えばAND演算子であっても良く、OR演算子であっても良く、NOT演算子であっても良い。AND演算子とOR演算子とは、2以上の要素を関係づけたりする論理演算子である。例えば、AND演算子は、2つの要素の積集合を求める演算子である。OR演算子は、2つの要素の和集合を求める演算子である。例えば、NOT演算子は、要素を否定する演算子である。例えば、NOT演算子は、特定の要素の集合が含まない集合を求める演算子である。ブロック区切り要素は、例えば、括弧であっても良く、グラフィカルユーザインタフェース上におけるテキストボックスであっても良い。ブロック区切り要素で区切られた領域をブロック要素とする。例えば、「(用語A OR 用語B) AND 用語C」の括弧で区切られた「(用語A OR 用語B)」は、ブロック要素であり、「(」と「)」とは、ブロック区切り要素である。
また、受付部101は、関連特許識別情報を関連特許識別情報格納部102に蓄積する。また、非関連特許識別情報を受け付けた場合は、受付部101は、その非関連特許識別情報を非関連特許識別情報格納部103に蓄積する。
受付部101は、通常、ネットワーク100を介してユーザ端末2から送信された情報を受け付けるが、キーボードやマウス、タッチパネル等の入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリ等の記録媒体から読み出された情報の受け付けであっても良い。
関連特許識別情報格納部102には、1または2以上の関連特許識別情報が格納される。関連特許識別情報は、特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である。関連特許識別情報格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
非関連特許識別情報格納部103には、1または2以上の非関連特許識別情報が格納される。非関連特許識別情報は、特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である。非関連特許識別情報格納部103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
検索式生成部104は、関連特許識別情報格納部102に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、関連特許識別情報格納部102に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する。なお、検索式生成部104は、関連特許識別情報格納部102に格納されている関連特許識別情報で識別される特許書類(以下、格納済み関連特許書類ということもある)をすべて取得する検索式を生成することが好適であるが、格納済み関連特許書類の一部を取得する検索式を生成しても良い。例えば、検索式生成部104は、格納済み関連特許書類から要素を取得し、取得した各要素をOR演算子で接続して検索式を生成しても良い。
また、検索式生成部104は、非関連特許識別情報格納部103に格納されている1以上の非関連特許識別情報で識別される特許書類に含まれる要素をさらに用いて、非関連特許識別情報格納部103に格納されている1以上の非関連特許書類のうち少なくとも一部を取得しない検索式を生成しても良い。なお、検索式生成部104は、非関連特許識別情報格納部103に格納されている非関連特許識別情報で識別される特許書類(以下、格納済み非関連特許書類ということもある)をすべて取得しない検索式を生成することが好適であるが、格納済み非関連特許書類の一部を取得しない検索式を生成しても良い。例えば、検索式生成部104は、格納済み非関連特許書類から要素を取得し、取得した各要素をOR演算子で接続した要素をブロック区切り要素でブロック要素にし、ブロック要素にNOT演算子を適用して生成した検索式を、格納済み関連特許書類を用いて生成した検索式をブロック区切り要素でブロック要素にしたものにAND演算子で接続して検索式を生成しても良い。なお、検索式を生成する際に、格納済み関連特許書類、および格納済み非関連特許書類に含まれている要素は、生成する検索式に含めなくても良く、NOT演算子を適用するブロック要素にのみ含めなくても良い。このように、検索式生成部104は、関連特許書類のすべてを含み、非関連特許書類を可能な限り含まない検索式を生成する。
なお、検索式生成部104は、検索式に含める要素を重要な用語のみを選択して、生成する検索式に含めても良い。重要な要素とは、たとえば、閾値以上の割合の特許書類に記載されている要素であっても良く、1の特許書類内で閾値以上の回数記載されている要素であっても良く、IDF値が閾値以下の要素であっても良く、TF・IDF値が閾値以上の要素であっても良く、上記条件のうち2以上の条件の組み合わせを満たす要素であっても良い。なお、各閾値は、ユーザが任意に設定する値であっても良く、開発者が経験的に設定する値であっても良い。また、閾値は、要素の種類ごとに設定しても良い。また、IDF値を算出する対象となる文書は、特許書類格納部105に格納されている前特許書類であっても良く、格納済み関連特許書類と格納済み非関連特許書類とであっても良い。また、閾値以上の件数の特許書類に記載されている要素とは、閾値以上の格納済み関連特許書類に記載されている要素であっても良く、閾値以上の格納済み非関連特許書類に記載されている要素であっても良く、閾値以上の双方の特許書類に記載されている要素であっても良い。なお、格納済み関連特許書類と格納済み非関連特許書類とに記載されている要素は、NOT演算子を適用するブロック要素に含めないことが好適であるが、NOT演算子を適用するブロック要素に含めても良い。
検索式生成部104は、検索式の要素に、特許書類から取得した要素に類似する要素を取得して含めても良い。例えば、検索式生成部104は、取得した要素に類似する要素を、類似要素格納部107から取得しても良く、類似要素を提供する外部の装置等から、ネットワーク100を介して取得しても良い。検索式生成部104が取得する類似する要素は、後述する類似要素格納部107の類似要素と同様のものとする。また、検索式生成部104は、検索式に含める要素の数が最小になるよう選択しても良い。検索式に含める要素の数を最小にするのは、要素が特許分類である場合に好適であるが、要素が用語である場合であっても良く、要素が書誌情報である場合であっても良く、上記各要素を組み合わせた場合であっても良い。
受付部101が検索式を受け付ける場合で、受け付けた検索式の用語に検索フィールドが対応付けられているときは、検索式生成部104は、生成する検索式の用語に検索フィールドを対応付けても良く、生成する検索式の用語にその検索フィールドを広げて対応付けても良く、対応付けなくても良い。検索フィールドを広げるとは、検索対象の特許書類を増やすようにすることである。具体的には、検索フィールドを広げるとは、受け付けた検索式の用語に対応付いている検索フィールドが「要約+請求項」である場合に、検索フィールドを「全文」にすることであっても良い。また、受付部101が特許調査の種類を受け付ける場合は、検索式生成部104は、特許調査の種類に合った検索フィールドを用語に対応付けても良く、特許調査の種類に合った書誌情報を検索式に含めても良い。例えば、検索式生成部104は、特許調査の種類が無効化資料調査であった場合に、用語に検索フィールド「全文」が対応付けられ、かつ出願日が本日から20年前までの特許書類を検索する検索式を生成しても良い。受付部101が検索式を受け付ける場合で、書誌情報を有しているときは、検索式生成部104は、その書誌情報を生成する検索式に含めても良く、その書誌情報を生成する検索式に含めなくても良い。なお、検索式生成部104は、生成する検索式の用語に対してあらかじめ設定されている検索フィールドを対応付けて検索式を生成しても良い。また、検索式生成部104は、あらかじめ設定されている書誌情報を含む検索式を生成しても良い。あらかじめ設定するとは、ユーザが任意に設定しても良く、開発者が経験から設定しても良い。なお、検索式に含める要素の数を最小にする方法等、検索式を生成する方法について、本説明で詳細に記載されていないものは、特開2011−59843号公報を参照されたい。検索式生成部104は、通常、MPUやメモリ等から実現され得る。検索式生成部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許書類格納部105には、1または2以上の特許書類が格納される。特許書類格納部105に格納される特許書類は、その特許書類の少なくとも一部を含む情報であっても良く、全部であっても良い。特許書類格納部105には、特許書類を特定する情報で特許書類が特定できるように特許書類が格納されている。特許書類は、特許書類格納部105に、特許書類に含まれる情報で特許書類を特定する情報から特定できるように格納されていても良く、特許書類に特許書類を特定する情報を対応付けて、特許書類を特定する情報から特定できるように格納されていても良い。特許書類格納部105は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。特許書類格納部105に特許書類が格納される過程は問わない。例えば、特許書類格納部105は、記録媒体を介して特許書類が格納されるようになっても良く、通信回線等を介して送信された特許書類が格納されるようになっても良く、あるいは、入力デバイスを介して入力された特許書類が格納されるようになっても良い。
検索特許識別情報取得部106は、検索式生成部104が生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する。つまり、検索特許識別情報取得部106は、検索式生成部104が生成した検索式で検索し、ヒットした特許書類を特定し、その特許書類を特定するである検索特許識別情報を取得する。なお、検索特許識別情報取得部106は、特許書類格納部105から検索特許識別情報を取得しても良く、特許書類を特定する情報を提供する外部の装置から検索特許識別情報を取得しても良い。なお、結果的に検索特許識別情報は、関連特許識別情報格納部102に格納されている関連特許識別情報、または非関連特許識別情報格納部103に格納されている非関連特許識別情報と重複しても良く、重複しなくても良い。つまり、検索式生成部104が生成する検索式は、格納済み非関連特許書類を検索する検索式であっても良い。検索特許識別情報取得部106は、通常、MPUやメモリ等から実現され得る。検索特許識別情報取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
類似要素格納部107には、1または2以上の類似する要素である類似要素が格納される。類似要素は、同義語であっても良く、上位語と下位語の関係の語であっても良く、同じ技術分野を示す特許分類であっても良く、特許分類の変遷において移行または統合された特許分類等であっても良い。なお、類似要素格納部107には、見出しとなる要素と、見出しとなる要素と類似する要素とを対応づけて格納されることが好適であるが、1以上の類似要素が1対1で対応づけられていても良い。類似要素格納部107は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。類似要素格納部107に類似要素が格納される過程は問わない。例えば、類似要素格納部107は、記録媒体を介して類似要素が格納されるようになっても良く、通信回線等を介して送信された類似要素が格納されるようになっても良く、あるいは、入力デバイスを介して入力された類似要素が格納されるようになっても良い。
特徴ベクトル取得部108は、関連特許識別情報格納部102に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、検索特許識別情報取得部106が取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する。また、特徴ベクトル取得部108は、非関連特許識別情報格納部103に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得しても良い。なお、特徴ベクトル取得部108は、図示しない特徴ベクトル格納部から特許書類を特定する情報等を用いて特徴ベクトルを取得しても良く、図示しない外部の装置から特許書類を特定する情報等を用いて特徴ベクトルを取得しても良く、特許書類から特徴ベクトルを作成して取得しても良い。なお、図示しない外部の装置から特徴ベクトルを取得する場合は、外部の装置は、特徴ベクトル取得部108の要求に応じて特徴ベクトルを生成しても良く、あらかじめ生成された特徴ベクトルを格納していても良い。特許書類から特徴ベクトルを作成して取得する場合は、特徴ベクトル取得部108は、各特許書類を特定する情報で識別される各特許書類を取得し、各特許書類から1以上の要素を取得し、その1以上の要素を用いて各特徴ベクトルを取得する。要素は、用語であっても良く、特許分類であっても良く、書誌情報であっても良い。
要素が用語である場合は、特徴ベクトル取得部108が各特許書類から取得する用語は、例えば、あらかじめ決められた品詞(例えば、名詞等)であっても良く、予め決められた品詞の連続であっても良く、専門用語であっても良く、あるいは、その他の用語であっても良い。用語が専門用語である場合には、例えば、図示しない記録媒体に専門用語が記憶されており、その専門用語が関連特許書類に含まれているかどうか判断することによって用語の取得が行われても良く、文書から専門用語を抽出するアルゴリズムを用いることによって用語の取得が行われても良い。後者の方法については、例えば、次の文献を参照されたい。大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126。中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月。なお、その用語の取得の際に、特徴ベクトル取得部108は、TF値やTF・IDF値を重要度として利用し、重要度の低い用語を除いて用語を取得しても良い。また、IDF値を算出する対象となる文書は、特許書類格納部105に格納されている全特許書類であっても良く、格納済み関連特許書類と格納済み非関連特許書類と検索特許識別情報で識別される特許書類(以下、検索特許書類ということもある)とであっても良い。なお、非関連特許特徴ベクトルを取得しない場合は、格納済み非関連特許書類をIDF値を算出する対象としなくても良い。重要度の低い用語とは、重要度の値が閾値以下である用語であっても良く、重要度順に並べて上位から所定の個数の用語であっても良い。なお、閾値は、例えば、予め決められた値であっても良く、重要度の最大値に1より小さい数(例えば、0.9や0.8等)を掛けた値であっても良い。また、その所定の個数は、例えば、予め決められた個数であっても良く、特徴ベクトル取得部108が取得した用語の総数に1より小さい値(例えば、0.01や0.001等)を掛けた個数であっても良い。また、特徴ベクトル取得部108は、特許の書類の少なくとも一部を含む文字列から用語を取得する。特許の書類の少なくとも一部を含む文字列とは、例えば、特許の書類に記載された全文であっても良く、見出しによって識別される文字列であっても良く、複数の見出しの組み合わせによって識別される文字列であっても良い。見出しとは、例えば、発明の名称、特許請求の範囲、または要約等の特許の書類内の領域を識別するものであれば何でも良い。
特徴ベクトル取得部108は、各特許書類から取得された、類似する要素を同じベクトル要素とした各特徴ベクトルを取得しても良い。類似する要素を同じベクトル要素とする場合は、特徴ベクトル取得部108は、類似要素格納部107に格納されている情報を用いて、類似する要素を同じベクトル要素にしても良く、図示しない類似する要素を提供する外部の装置からネットワークを介して類似する要素を取得し、その情報を用いて類似する要素を同じベクトル要素にしても良い。具体的には、特徴ベクトル取得部108は、類似要素格納部107に、「データベース、データーベース、DB、リポジトリ、辞書」が格納されている場合に、「データベース」と「データーベース」と「DB」と「リポジトリ」、「辞書」はすべて同一の用語として処理を行う。
特徴ベクトル取得部108が取得する各特徴ベクトルは、特徴ベクトル取得部108が取得したすべての要素数分の次元を持つベクトルであっても良く、各特許書類ごとに次元数が異なっていても良い。特徴ベクトルの要素は、例えば、用語の出現回数であっても良く、用語のTF値であっても良く、用語のTF・IDF値であっても良く、用語が特許の書類内に存在するかどうかを示す数字、具体的には「1(存在する)」「−1(存在しない)」等であっても良い。
また、特徴ベクトル取得部108は、特許書類全体(全文)から特徴ベクトルを取得しても良く、特許書類の一部分から特徴ベクトルを取得しても良い。特許書類の一部分とは、例えば、国際特許分類、要約書、特許請求の範囲等であっても良く、それらの組み合わせであっても良い。
なお、特徴ベクトル取得部108は、同じ特許書類の特徴ベクトルを算出する場合は、2回以上同じ特徴ベクトルを取得する処理を行っても良く、1度算出した特徴ベクトルを図示しない格納部に蓄積することで、同じ処理を行わずに取得しても良い。具体的には、特徴ベクトル取得部108は、格納済み関連特許書類、および格納済み非関連特許書類と検索特許書類が重複した場合に、一度のみ特徴ベクトルを取得する処理を行っても良く、2度特徴ベクトルを取得する処理を行っても良い。特徴ベクトル取得部108は、通常、MPUやメモリ等から実現され得る。特徴ベクトル取得部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
選択部109は、特徴ベクトル取得部108が取得した1または2以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部108が取得した1または2以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部102に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する。つまり、選択部109は、特許調査における選別作業で関連特許書類に選別されていなかった、検索特許識別情報から関連特許の可能性のある特許書類を特定する情報を選択する。また、選択部109は、特徴ベクトル取得部108が取得した1または2以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部108が取得した1または2以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部102に格納されている関連特許識別情報で識別される特許書類と対応する検索特許識別情報も選択しても良い。つまり、選択部109は、格納済み関連特許書類から、関連特許書類として正しく分類された特許書類を特定する情報を選択しても良い。また、選択部109は、特徴ベクトル取得部108が取得した1または2以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部108が取得した1または2以上の非関連特許特徴ベクトルが有する特徴と類似しない検索特許特徴ベクトルに対応する検索特許識別情報を選択しても良い。つまり、選択部109は、非関連特許書類の特徴を有する検索特許書類を特定する情報を選択しなくても良い。また、選択部109は、特徴ベクトル取得部108が取得した1または2以上の非関連特許特徴ベクトルのうち、特徴ベクトル取得部108が取得した1または2以上の関連特許特徴ベクトルが有する特徴に類似し、特徴ベクトル取得部108が取得した1以上非関連特許特徴ベクトルが有する特徴に類似しない、非関連特許特徴ベクトルに対応する非関連特許識別情報も選択する。つまり、選択部109は、特許調査における選別作業で非関連特許書類と判断された、特許書類のうち、関連特許書類の可能性の高い特許書類を選択しても良い。特徴ベクトルが有する特徴と類似するとは、1または2以上の特徴ベクトルが構成するクラスに含まれることと考えても良い。以下、クラスを用いて説明する。なお、選択部109は、各特許書類を特定する情報を選択するが、各特許書類を選択しても良い。
クラスとは、1または2以上の特徴ベクトルが算出されたものの集合である。クラスには、異なる種類の特徴ベクトルを含まない。異なる種類の特徴ベクトルを含まないとは、例えば、関連特許特徴ベクトルのクラスには、関連特許特徴ベクトルではない特徴ベクトルを含まないということである。なお、非関連特許識別情報格納部103がない場合は、選択部109は、関連特許特徴ベクトルのクラスの補集合を非関連特許特徴ベクトルの集合と判断しても良い。また、関連特許特徴ベクトルのクラスと非関連特許特徴ベクトルのクラスの和集合の補集合を、関連特許書類でも非関連特許書類でもない特許書類と判断しても良い。なお、クラスは、後述する機械学習を用いて、学習器が分類した結果である集合であっても良い。
選択部109が、特徴ベクトルを用いて、特許書類を選択する方法は問わない。例えば、選択部109は、ベクトルの類似度を用いて選択しても良く、機械学習を用いて選択しても良い。以下、選択部109が(A)ベクトルの類似度を用いて選択する方法、(B)機械学習を用いて選択する方法、の2つに分けて説明する。なお、選択部109は、各特許特徴ベクトルを各々2以上のクラスに分類しても良い。
(A)特徴ベクトルの類似度を用いて選択
特徴ベクトルの類似度を用いて選択するとは、判断する対象の特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとの類似度が閾値以下である場合に、判断する対象の特許特徴ベクトルが関連特許であると判断して選択しても良く、判断する対象の特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとの類似度が、非関連特許特徴ベクトルのクラスの代表ベクトルの類似度より小さい場合に、判断する対象の特許特徴ベクトルが関連特許であると判断して選択しても良く、判断する対象の特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとの類似度が閾値以下である場合で、非関連特許特徴ベクトルのクラスの代表ベクトルの類似度より小さいときに、判断する対象の特許特徴ベクトルが関連特許であると判断して選択しても良い。なお、類似度の算出方法は、COS尺度を用いても良く、ピアソンの相関係数を用いても良く、偏差パターン類似度等のベクトル間の類似度を算出する他の計算方法を用いても良い。各類似度を算出する計算方法については、公知技術であるため、説明を省略する。また、関連特許特徴ベクトルのクラスは1であっても良く、2以上であっても良い。クラスを2以上作成する場合は、例えば、分割最適化クラスタリング(k−means法等)を用いて特徴ベクトルをクラスタリングしても良く、階層的クラスタリング(最短距離法等)を用いて特徴ベクトルをクラスタリングしても良く、その他の公知なクラスタリング手法を用いて特徴ベクトルをクラスタリングしても良い。なお、各クラスタリング法の詳細は公知技術であるため、説明を省略する。また、非関連特許特徴ベクトルのクラスについても同様である。代表ベクトルは、クラス内の最も頻出する特徴ベクトルであっても良く、クラスの平均ベクトルであっても良い。なお、平均ベクトルは、通常のベクトル平均であっても良く、すべてを単位ベクトルとして扱って算出する単位ベクトル平均であっても良い。また、選択部109は、代表ベクトルを決定する際に、一度代表ベクトルを算出し、その代表ベクトルとの類似度が閾値以上高い特徴ベクトルをクラスから除外して再度算出した代表ベクトルを選択の際に使用しても良い。この際に使用する閾値は、最初に作成した代表ベクトルとその代表ベクトルを作成するのに用いた特徴ベクトルの類似度の平均値に、1以上の値(例えば、1.5や2.0)を掛けた値であっても良く、ユーザまたは開発者が任意に設定した値であっても良い。なお、類似かどうかを判断する閾値は、あらかじめ決められた値であっても良く、選択部109が算出した値であっても良い。閾値があらかじめ決められた値である場合は、閾値は、ユーザまたは開発者が任意に設定した値であっても良い。閾値が選択部109が算出した値である場合は、各クラスの代表ベクトルと、そのクラスに属する最も類似しない特徴ベクトルとの類似度であっても良く、各クラスの代表ベクトルと、そのクラスに属する最も類似しない特徴ベクトルとの類似度の平均値であっても良く、各クラスの代表ベクトルと、そのクラスに属する最も類似しない特徴ベクトルとの類似度の最小値であっても良く、各クラスの代表ベクトルと、そのクラスに属する最も類似しない特徴ベクトルとの類似度の最大値であっても良い。
(B)機械学習を用いて選択
機械学習を用いて選択するとは、ニューラルネットワークやSVM(Support Vector Machine)やSVR(Support Vector Regression)等の学習器を用いて学習し、学習が完了した学習器に対して、判断する対象の特許特徴ベクトルを分類させて関連特許特徴ベクトルのクラスに属するかどうかを判断し、選択することである。ニューラルネットワークとは、脳機能におけるいくつかの特性を計算機上のシミュレーションによって表現することを目指した学習モデルである。ニューラルネットワークには、様々な種類のモデルや方法があるが、そのどれを採用しても良い。例えば、ニューラルネットワークの種類は、パーセプトロンを採用しても良く、バックプロパケーションを採用しても良く、ボルツマンマシン等を採用しても良い。SVMとは、教師データを用いて分類パターンを学習し、分類の境界線を設定し、分類を行う学習モデルである。SVRとは、教師データを用いて分類パターンを学習し、3以上のクラスに分類する学習モデルである。各機械学習のアルゴリズムは、公知技術であるため説明を省略する。選択部109が機械学習を用いて選択する場合、関連特許識別情報格納部102と非関連特許識別情報格納部103に格納されている特許の書類の特徴ベクトルを教師データとして学習させる。選択部109が学習に使用する素性は、特徴ベクトル取得部108が取得した各要素に対応した値である。学習が完了した後、判断する対象の特許特徴ベクトルが関連特許特徴ベクトルと判断された場合に、選択部109は、その判断する対象の特許特徴ベクトルが関連特許特徴ベクトルが有する特徴と類似する、および、または 非関連特許特徴ベクトルが有する特徴と類似しないと判断し、その判断する対象の特許特徴ベクトルを選択する。
なお、各特徴ベクトルの次元数が異なる場合は、選択部109は、次元数を統一する。選択部109は、通常、MPUやメモリ等から実現され得る。選択部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価部110は、選択部109で選択された検索特許識別情報のうち、関連特許識別情報格納部102に格納されている関連特許識別情報と一致しない検索特許識別情報が多いほど低い評価をする。評価をするとは、評価値を取得する事であっても良い。つまり、評価部110は、特許調査における選別作業で選別していなかった検索特許書類が多いほど低い評価値を取得する事であっても良い。また、選択部109が格納済み関連特許書類も選択の対象とする場合は、評価部110は、検索特許識別情報取得部106が取得した検索特許識別情報であって、かつ、選択部109が選択した検索特許識別情報と一致しない、関連特許識別情報格納部102に格納されている関連特許識別情報が多いほど低い評価をしても良い。つまり、評価部110は、特許調査における選別作業で、誤って関連特許書類と判断した非関連特許書類が多いほど低い評価値を取得しても良い。また、選択部109が格納済み非関連特許書類も選択の対象とする場合は、評価部110は、選択部109で選択された非関連特許識別情報が多いほど低い評価をしても良い。つまり、評価部110は、特許調査における選別作業で、誤って非関連特許書類と判断した関連特許書類が多いほど低い評価値を取得しても良い。なお、評価値を取得する方法は、選択部109が選択した結果を用いて計算することで算出した評価値を取得しても良く、評価テーブルを用いて、選択部109が選択した結果に対応した評価値を取得しても良い。評価テーブルは、選択部109の選択結果と減点する値とが対応付けられているテーブルであっても良く、選択部109の選択結果と加点する値とが対応付けられているテーブルであっても良い。選択部109の選択結果とは、選択部109が選択した検索特許識別情報の件数であっても良く、選択部109が選択しなかった格納済み関連特許書類を特定する情報の件数であっても良く、選択部109が選択した格納済み非関連特許書類を特定する情報の件数であっても良い。
評価部110は、適合率、再現率、またはF値を用いて評価を行っても良い。適合率は、例えば「(特許調査における選別作業で選別された関連特許書類+選択部109で選択された関連特許書類)/検索特許書類」としても良く、「(特許調査における選別作業で選別された関連特許書類+選択部109でのみ選択された関連特許書類)/(検索特許書類を含まない特許調査における選別作業での選別対象の特許書類+検索特許書類)」であっても良い。また、再現率は、「特許調査における選別作業で選別された関連特許書類/(特許調査における選別作業で選別された関連特許書類+選択部109でのみ選択された関連特許書類)」であっても良い。F値は、(2×適合率×再現率)/(適合率+再現率)としても良い。なお、評価部110は、1つの値を評価値として出力しても良く、複数の値をそれぞれ評価値として出力しても良い。
評価部110は、通常、MPUやメモリ等から実現され得る。評価部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部111は、選択部109が選択した結果に関する情報を出力する。選択部109が選択した結果に関する情報は、選択部109が選択した結果を評価部110が評価した情報であっても良い。出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。出力部111は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部111は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
図2は、本実施の形態における情報処理装置1の動作の一例を示すフローチャートである。以下、図3を用いて動作について説明する。
(ステップS201)受付部101は、特許調査結果である、関連特許識別情報と非関連特許識別情報を受け付けたかどうかを判断する。特許調査結果を受け付けた場合は、ステップS202へ進み、受け付けなかった場合は、ステップS201を繰り返す。
(ステップS202)受付部101は、受け付けた特許調査結果から関連特許識別情報を取得し、取得した関連特許識別情報を関連特許識別情報格納部102に蓄積する。
(ステップS203)受付部101は、受け付けた特許調査結果から非関連特許識別情報を取得し、取得した非関連特許識別情報を非関連特許識別情報格納部103に蓄積する。
(ステップS204)検索式生成部104は、関連特許書類と非関連特許書類を用いて検索式を生成する。検索式を生成する方法の詳細は図4のフローチャートを用いて後述する。
(ステップS205)検索特許識別情報取得部106は、ステップS204で作成した検索式を用いて、検索特許識別情報を取得する。
(ステップS206)特徴ベクトル取得部108は、関連特許識別情報格納部102に格納されている関連特許識別情報を用いて、関連特許特徴ベクトルを取得する。関連特許特徴ベクトルを取得する方法の詳細は、図5のフローチャートを用いて後述する。
(ステップS207)特徴ベクトル取得部108は、非関連特許識別情報格納部103に格納されている非関連特許識別情報を用いて、非関連特許特徴ベクトルを取得する。非関連特許特徴ベクトルを取得する方法の詳細は、図5のフローチャートを用いて後述する。
(ステップS208)特徴ベクトル取得部108は、ステップS205で取得した検索特許識別情報を用いて、検索特許特徴ベクトルを取得する。検索特許特徴ベクトルを取得する方法の詳細は、図5のフローチャートを用いて後述する。
(ステップS209)選択部109は、各特徴ベクトルの次元を統一する。
(ステップS210)選択部109は、関連特許特徴ベクトルの平均ベクトルを取得する。
(ステップS211)選択部109は、非関連特許特徴ベクトルの平均ベクトルを取得する。
(ステップS212)選択部109は、ステップS205で取得した検索特許書類のうち、本来の関連特許を選択する。本来の関連特許を選択する方法の詳細は、図6のフローチャートを用いて後述する。
(ステップS213)選択部109は、あらかじめ関連特許識別情報格納部102に格納されている関連特許識別情報のうち、本来の関連特許を選択する。本来の関連特許を選択する方法の詳細は、図6のフローチャートを用いて後述する。
(ステップS214)選択部109は、あらかじめ非関連特許識別情報格納部103に格納されている非関連特許識別情報のうち、本来の関連特許を選択する。本来の関連特許を選択する方法の詳細は、図6のフローチャートを用いて後述する。
(ステップS215)評価部110は、ステップS201で受け付けた特許調査結果の選別が適切であったかどうかを、ステップS212からステップS214の選択結果を用いて評価する。
(ステップS216)出力部111は、ステップS215で評価した結果を出力する。
図4は、図3の検索式の生成(ステップS204)の動作の一例を示すフローチャートである。以下図4を用いて、検索式を生成する処理について説明する。
(ステップS301)検索式生成部104は、関連特許識別情報格納部102に格納されている関連特許識別情報を用いて、特許書類格納部105から関連特許書類を取得する。
(ステップS302)検索式生成部104は、非関連特許識別情報格納部103に格納されている非関連特許識別情報を用いて、特許書類格納部105から非関連特許書類を取得する。
(ステップS303)検索式生成部104は、カウンタmに1を代入する。
(ステップS304)検索式生成部104は、ステップS301で取得した関連特許書類に、m番目の関連特許書類があるかどうか判断する。m番目の関連特許書類がある場合はステップS305へ進み、無い場合は、ステップS307へ進む。
(ステップS305)検索式生成部104は、m番目の関連特許書類から要素を取得する。
(ステップS306)検索式生成部104は、カウンタmを1だけインクリメントする。そして、ステップS304に戻る。
(ステップS307)検索式生成部104は、カウンタnに1を代入する。
(ステップS308)検索式生成部104は、ステップS302で取得した非関連特許書類に、n番目の非関連特許書類があるかどうか判断する。n番目の非関連特許書類がある場合はステップS309へ進み、無い場合は、ステップS311へ進む。
(ステップS309)検索式生成部104は、n番目の非関連特許書類から要素を取得する。
(ステップS310)検索式生成部104は、カウンタnを1だけインクリメントする。そして、ステップS308に戻る。
(ステップS311)検索式生成部104は、ステップS305で取得した関連特許書類の要素を含む特許書類を取得し、ステップS309で取得した非関連特許書類の要素を含む特許書類を取得しない検索式を生成する。そして、上位の処理に戻る。
図5は、図3の特徴ベクトルの取得(ステップS206、ステップS207、ステップS208)の動作の一例を示すフローチャートである。以下図5を用いて、検索式を生成する処理について説明する。なお、図5におけるXには、ステップS206から呼び出された場合は、「関連特許」が代入され、ステップS207から呼び出された場合は、「非関連特許」が代入され、ステップS208から呼び出された場合は、「検索特許」が代入されるものとする。以下は、Xに「関連特許」が代入されたステップS206から呼び出されたものとして説明する。ステップS207、およびステップS208については、それぞれ読み替えるものとする。
(ステップS401)特徴ベクトル取得部108は、関連特許識別情報格納部102に格納されている関連特許識別情報を用いて、特許書類格納部105から関連特許書類を取得する。
(ステップS402)特徴ベクトル取得部108は、カウンタpに1を代入する。
(ステップS403)特徴ベクトル取得部108は、ステップS401で取得した関連特許書類に、p番目の関連特許書類があるかどうか判断する。p番目の関連特許書類がある場合はステップS404へ進み、無い場合は、上位の処理に戻る。
(ステップS404)特徴ベクトル取得部108は、p番目の関連特許書類から要素を取得する。
(ステップS405)特徴ベクトル取得部108は、類似要素格納部107に格納されている類似要素を用いて、類似する要素を統一要素に変換する。
(ステップS406)特徴ベクトル取得部108は、ステップS405で取得した要素のTF・IDF値を取得する。
(ステップS407)特徴ベクトル取得部108は、ステップS405で取得した次元数を有し、各次元の値がステップS406で取得したTF・IDF値であるp番目の関連特許特徴ベクトルを取得する。
(ステップS408)特徴ベクトル取得部108は、カウンタmを1だけインクリメントする。そして、ステップS403に戻る。
図6は、図3の関連特許を選択する(ステップS212、ステップS213、ステップS214)の動作の一例を示すフローチャートである。以下図6を用いて、関連特許を選択する処理について説明する。なお、図5におけるYには、ステップS212から呼び出された場合は、「検索特許」が代入され、ステップS213から呼び出された場合は、「あらかじめ関連特許に選別された特許」が代入され、ステップS214から呼び出された場合は、「あらかじめ非関連特許に選別された特許」が代入されるものとする。以下は、Yに「検索特許」が代入されたステップS212から呼び出されたものとして説明する。ステップS213、およびステップS214については、それぞれ読み替えるものとする。
(ステップS501)選択部109は、カウンタqに1を代入する。
(ステップS502)選択部109は、q番目の検索特許書類があるかどうか判断する。q番目の関連特許書類がある場合はステップS503へ進み、無い場合は、上位の処理に戻る。
(ステップS503)選択部109は、q番目の検索特許の特徴ベクトルと、関連特許特徴ベクトルの平均ベクトルとの類似度を算出する。
(ステップS504)選択部109は、q番目の検索特許の特徴ベクトルと、非関連特許特徴ベクトルの平均ベクトルとの類似度を算出する。
(ステップS505)選択部109は、ステップS504で取得した非関連特許特徴ベクトルの平均ベクトルとの類似度より、ステップS503で取得した関連特許特徴ベクトルの平均ベクトルとの類似度の方が高いかどうかを判断する。高い場合は、ステップS506へ進み、低い場合はステップS502へ戻る。
(ステップS506)選択部109は、ステップS503で取得した関連特許特徴ベクトルの平均ベクトルとの類似度が、閾値未満であるかどうかを判断する。閾値以下である場合は、ステップS507へ進み、閾値以上である場合は、ステップS502へ戻る。
(ステップS507)選択部109は、q番目の検索特許を特定する情報を図示しない格納部に蓄積する。そして、ステップS502へ戻る。
以下、本実施の形態における情報処理装置1の具体的な動作について説明する。なお、本具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。また、本具体例において、受付部101が受け付ける「特許調査結果.file」は、関連特許識別情報と、非関連特許識別情報とを含むファイルであるものとする。また、本具体例において、特許書類を特定する情報は、公開番号であるものとする。また、本具体例において、検索式生成部104が作成する検索式は、専門用語のみの検索式であるものとする。
本具体例において、特許書類格納部105に格納されている特許書類は、図7で示されているものであるとする。図7のテーブルは、特許書類を特定する情報と特許書類とを有している。特許書類は、発明の名称、国際特許分類、要約、特許請求の範囲、および背景技術等を有している。例えば、特許書類ID「1」のレコードには、発明の名称「検索式生成装置、…((以下省略))」と、国際特許分類「G06F 17/30」と、公開番号「特開2011−AAAAAA」と、要約「GPSによる位置情報を…(以下省略)」と、特許請求の範囲「第一特許公報を示す…(以下省略)」と背景技術「本発明による特許調査支援装置によれば…(以下省略)」と、その他の情報とが対応付けて登録されている。
また、本具体例において、類似要素格納部107に格納されている類似要素は、図8で示されているものであるとする。図8のテーブルは、統一要素と、その統一要素に統一される類似要素を有している。例えば、統一要素「世界測位システム」のレコードには、類似要素「GPS,全地球測位,…(以下省略)」が対応付けて登録されている。
ユーザ端末2のユーザが、ポインティングデバイスやキーボード等を操作し、特許調査結果が記載されているファイルを選択した後、「実行」ボタンをクリックしたとする。すると、ネットワーク100を介して、受付部101が「特許調査結果.file」を受け付ける(ステップS201)。受付部101は、「特許調査結果.file」から関連特許識別情報と非関連特許識別情報とを取得し、関連特許識別情報を関連特許識別情報格納部102に、非関連特許識別情報を非関連特許識別情報格納部103にそれぞれ蓄積する(ステップS202、S203)。その結果、図9(a)のように、関連特許識別情報が関連特許識別情報格納部102に格納される。また、図9(b)のように非関連特許識別情報が非関連特許識別情報格納部103にも同様に格納される。
検索式生成部104は、関連特許識別情報格納部102、および非関連特許識別情報格納部103に特許書類を特定する情報が格納されると、検索式を生成する(ステップS204)。検索式生成部104は、関連特許識別情報格納部102に格納されている関連特許識別情報「特開2011−AAAAAA」を用いて、特許書類格納部105から、特許書類ID「1」の特許書類を取得する(ステップS301)。検索式生成部104は、関連特許識別情報格納部102に格納されているすべての関連特許識別情報を用いて、同様に関連特許書類を取得する。次に、検索式生成部104は、非関連特許識別情報格納部103に格納されている非関連特許識別情報「特開2012−DDDDDD」を用いて、特許書類格納部105から、特許書類ID「4」の特許書類を取得する(ステップS302)。検索式生成部104は、非関連特許識別情報格納部103に格納されているすべての非関連特許識別情報を用いて、同様に非関連特許書類を取得する。そして、検索式生成部104は、1件目の関連特許書類である特許書類ID「1」の特許書類に記載されている専門用語「GPS」や「位置情報」や「特許公報」等を取得する(ステップS303からS306)。検索式生成部104は、同様に取得したすべての関連特許書類から専門用語を取得する。さらに、検索式生成部104は、1件目の非関連特許書類である特許書類ID「4」の特許書類に記載されている専門用語「特許調査」や「調査対象」や「特許公報」等を取得する(ステップS307からS310)。検索式生成部104は、同様に取得したすべての非関連特許書類から専門用語を取得する。最後に検索式生成部104は、取得した専門用語を用いて、関連特許書類をすべて検索し、非関連特許書類を検索しない検索式「(GPS OR 位置情報 OR 特許公報 OR ・・・) AND (NOT(特許調査 OR 調査対象 OR ・・・))」を生成する(ステップS311)。検索式生成部104は、検索式の生成が終了すると検索特許識別情報取得部106に生成した検索式を通知する。
検索特許識別情報取得部106は、検索式生成部104から検索式を取得すると、特許書類格納部105に対して、検索を行う。そして、検索特許識別情報取得部106は、その検索式で検索される特許書類を特定する情報である検索特許識別情報「特開2012−GGGGGG」や「特開2011−HHHHHH」等を取得する(ステップS205)。
特徴ベクトル取得部108は、格納済み関連特許書類から特徴ベクトルを作成する(ステップS206)。すなわち、特徴ベクトル取得部108は、関連特許識別情報格納部102に格納されている関連特許識別情報「特開2011−AAAAAA」を用いて、特許書類格納部105から、特許書類ID「1」の特許書類を取得する(ステップS401)。特徴ベクトル取得部108は、関連特許識別情報格納部102に格納されているすべての関連特許識別情報を用いて、同様に関連特許書類を取得する。次に、特徴ベクトル取得部108は、1件目の関連特許書類である特許書類ID「1」の特許書類に記載されている専門用語「GPS」や「位置情報」や「特許公報」等を取得する(ステップS402、S403)。そして、特徴ベクトル取得部108は、「GPS」を統一要素の「世界測位システム」に置換する(ステップS405)。さらに、特徴ベクトル取得部108は、1件目の関連特許書類である特許書類ID「1」の特許書類から取得した専門用語ごとに「世界測位システム:0.0272」等ように、TF・IDF値を算出し(ステップS406)、専門用語の数だけの次元を有し、算出したTF・IDF値を値にもつ関連特許特徴ベクトルを取得する(ステップS407、S408)。そして、特徴ベクトル取得部108は、同様に全ての関連特許書類に対して関連特許特徴ベクトルを取得する。特徴ベクトル取得部108は、関連特許特徴ベクトルを取得すると、同様の方法で非関連特許特徴ベクトルと検索特許特徴ベクトルを取得する(ステップS207、S208)。その結果、図10のような特徴ベクトルが取得される。特徴ベクトル取得部108は、すべてのベクトルを取得し終えると、取得した特徴ベクトルを選択部109に渡す。
選択部109は、特徴ベクトル取得部108から特徴ベクトルを受け取ると、すべての特徴ベクトルが同じ次元数のベクトルになるよう次元数を統一する(ステップS209)。次に、選択部109は、関連特許特徴ベクトルの平均ベクトル、および非関連特許特徴ベクトルの平均ベクトルを取得する(ステップS210、S211)。この際、選択部109は、特許書類を特定する情報「特開2011−AAAAAA」の関連特許特徴ベクトルと平均ベクトルとの類似度が、他の関連特許特徴ベクトルとの類似度の平均の2倍より高かったものとして、特許書類を特定する情報「特開2011−AAAAAA」の関連特許特徴ベクトルを除いた関連特許特徴ベクトルの平均ベクトルを取得するものとする。また、非関連特許特徴ベクトルの平均ベクトルを取得する際も、選択部109は、同様にして、特許書類を特定する情報「特開2011−EEEEEE」等を除外した非関連特許特徴ベクトルの平均ベクトルを取得したものとする。そして、選択部109は、検索特許のうちの関連特許を選択する(ステップS212)。すなわち、選択部109は、1件目の検索特許書類である特許書類を特定する情報「特開2012−GGGGGG」に対応する検索特許特徴ベクトルと、関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する(ステップS501からS503)。そして、選択部109は、特許書類を特定する情報「特開2012−GGGGGG」に対応する検索特許特徴ベクトルと、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する(ステップS504)。この際、特許書類を特定する情報「特開2012−GGGGGG」に対応する検索特許特徴ベクトルは、関連特許特徴ベクトルとの類似度の方が高く、かつ関連特許特徴ベクトルの平均ベクトルから最も類似度の低い関連特許特徴ベクトルよりも類似度が高いものとする。よって、選択部109は、特許書類を特定する情報「特開2012−GGGGGG」を関連特許であると判断して選択する(ステップS505からS506)。選択部109は、選択した特許書類を特定する情報を図示しない格納部に蓄積する。選択部109は、同様の処理を残りの検索特許特徴ベクトル、関連特許特徴ベクトル、および非関連特許特徴ベクトルに対しても行い、特許書類を特定する情報「特開2012−GGGGGG」以外にもいくつかの検索特許識別情報と、関連特許識別情報「特開2011−AAAAAA」を除くすべての関連特許識別情報と、非関連特許識別情報「特開2011−EEEEEE」を選択したものとする(ステップS213、S214)。選択部109は、関連特許の選択が完了したことを評価部110に通知する。なお、図11は、選択部109の選択の際の各特許書類の関係をわかりやすくするために、2次元上にマッピングしたものである。図11では、格納済み関連特許に類似する範囲に、特許書類を特定する情報「特開2012−GGGGGG」と非関連特許識別情報「特開2011−EEEEEE」とが含まれており、関連特許識別情報「特開2011−AAAAAA」が非関連特許に類似する範囲に含まれている様子を示している。なお、図11では、格納済み関連特許書類を特定する情報であり、かつ検索特許書類を特定する情報でもあるものは、円を四角が囲んだ図で示している。
評価部110は、選択部109の選択が終了すると、図示しない格納部に格納されている特許書類を特定する情報を用いて、適合率0.85と再現率0.94とを算出し、評価値であるF値0.89を算出したものとする(ステップS215)。評価部110は、評価結果を出力部111へ通知する。
出力部111は、評価部110から受け取った評価結果と、図示しない格納部に格納されている特許書類を特定する情報とを出力する(ステップS216)。すると、図12の結果以下に情報が表示される。
以上、本実施の形態によれば、特許調査で選別された関連特許書類に特許書類を用いて、関連特許の可能性のある特許書類を自動で選択できる。また、本実施の形態によれば、特許調査で選別された関連特許書類と、非関連特許とを用いて、関連特許の可能性のある特許書類を自動で選択できる。また、本実施の形態によれば、関連特許書類から検索式を作成して類似する関連特許の可能性の高い特許書類を選択の対象にできる。また、本実施の形態によれば、関連特許書類と非関連特許書類から検索式を作成して類似する関連特許の可能性のさらに高い特許書類を選択の対象にできる。また、本実施の形態によれば、人手で行った特許調査の選別作業を評価できる。
また、本実施の形態において、評価部110を備える場合について説明したが、情報処理装置1は、評価部110を備えていなくても良い。評価部110を備えていない場合には、出力部111は、評価を行わずに選択部109の結果のみ出力しても良い。
また、本実施の形態において、類似要素格納部107を備える場合について説明したが、情報処理装置1は、類似要素格納部107を備えていなくても良い。類似要素格納部107を備えていない場合には、検索式生成部104、および特徴ベクトル取得部108は、類似要素を提供している外部の装置からネットワーク100を介して類似要素を取得して使用しても良く、類似要素を使用しなくても良い。
また、本実施の形態において、特許書類格納部105を備える場合について説明したが、情報処理装置1は、特許書類格納部105を備えていなくても良い。特許書類格納部105を備えていない場合には、検索式生成部104、検索特許識別情報取得部106、および特徴ベクトル取得部108は、特許書類を提供している外部の装置からネットワーク100を介して特許書類を取得して使用しても良い。
また、本実施の形態において、検索式生成部104と検索特許識別情報取得部106とを備える場合について説明したが、情報処理装置1は、検索式生成部104と検索特許識別情報取得部106とを備えていなくても良い。検索式生成部104と検索特許識別情報取得部106とを備えていない場合には、特徴ベクトル取得部108は、存在するすべての特許書類から特徴ベクトルを取得しても良く、受付部101がネットワーク100を介して受け付けた、特許書類から特徴ベクトルを取得しても良い。
また、本実施の形態における情報処理装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である関連特許識別情報が1以上格納される関連特許識別情報格納部にアクセス可能なコンピュータを、関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する検索式生成部、検索式生成部が生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する検索特許識別情報取得部、関連特許識別情報格納部に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、検索特許識別情報取得部が取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する特徴ベクトル取得部、特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する選択部、選択部が選択した結果に関する情報を出力する出力部として機能させるためのプログラムである。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図13は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。
図13において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図14は、コンピュータシステム1100の内部構成を示す図である。図14において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを記憶するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。
コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置等は、特許書類から関連特許を自動で選択できるという効果を有し、例えば、関連特許書類を選択する装置等として有用である。
1 情報処理装置
101 受付部
102 関連特許識別情報格納部
103 非関連特許識別情報格納部
104 検索式生成部
105 特許書類格納部
106 検索特許識別情報取得部
107 類似要素格納部
108 特徴ベクトル取得部
109 選択部
110 評価部
111 出力部

Claims (13)

  1. 特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である関連特許識別情報が1以上格納される関連特許識別情報格納部と、
    前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する検索式生成部と、
    前記検索式生成部が生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する検索特許識別情報取得部と、
    前記関連特許識別情報格納部に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、前記検索特許識別情報取得部が取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する特徴ベクトル取得部と、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、前記関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する選択部と、
    前記選択部が選択した結果に関する情報を出力する出力部とを具備する情報処理装置。
  2. 前記選択部で選択された検索特許識別情報のうち、前記関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報が多いほど低い評価をする評価部をさらに具備し、
    前記出力部は、
    前記評価部が評価した結果を出力する、請求項1記載の情報処理装置。
  3. 前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、前記関連特許識別情報格納部に格納されている関連特許識別情報で識別される特許書類と対応する検索特許識別情報も選択する、請求項1または請求項2記載の情報処理装置。
  4. 前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、前記関連特許識別情報格納部に格納されている関連特許識別情報で識別される特許書類と対応する検索特許識別情報も選択し、
    前記評価部は、
    前記検索特許識別情報取得部が取得した検索特許識別情報であって、かつ、前記選択部が選択した検索特許識別情報と一致しない、前記関連特許識別情報格納部に格納されている関連特許識別情報が多いほど低い評価をする、請求項2記載の情報処理装置。
  5. 特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、
    前記検索式生成部は、
    前記非関連特許識別情報格納部に格納されている1以上の非関連特許識別情報で識別される特許書類に含まれる要素をさらに用いて、前記非関連特許識別情報格納部に格納されている1以上の非関連特許識別情報で識別される特許書類のうち少なくとも一部を取得しない検索式を生成する、請求項1から請求項4のいずれか一項に記載の情報処理装置。

  6. 前記特徴ベクトル取得部は、
    前記非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、
    前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルが有する特徴と類似しない検索特許特徴ベクトルに対応する検索特許識別情報を選択する、請求項5記載の情報処理装置。
  7. 特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、
    前記特徴ベクトル取得部は、
    前記非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、
    前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルが有する特徴と類似しない検索特許特徴ベクトルに対応する検索特許識別情報を選択する、請求項1から請求項4のいずれか一項に記載の情報処理装置。
  8. 前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴に類似し、前記特徴ベクトル取得部が取得した1以上非関連特許特徴ベクトルが有する特徴に類似しない、非関連特許特徴ベクトルに対応する非関連特許識別情報も選択する、請求項6または請求項7記載の情報処理装置。
  9. 特許調査における選別作業の結果、関連しないと判断された特許書類である非関連特許書類を特定する情報である非関連特許識別情報が1以上格納される非関連特許識別情報格納部をさらに具備し、
    前記特徴ベクトル取得部は、
    前記非関連特許識別情報格納部に格納されている各非関連特許識別情報で識別される非関連特許書類の特徴ベクトルである1以上の非関連特許特徴ベクトルをさらに取得し、
    前記選択部は、
    前記特徴ベクトル取得部が取得した1以上の非関連特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴に類似し、前記特徴ベクトル取得部が取得した1以上非関連特許特徴ベクトルが有する特徴に類似しない、非関連特許特徴ベクトルに対応する非関連特許識別情報も選択し、
    前記評価部は、
    前記選択部で選択された非関連特許識別情報が多いほど低い評価をする、請求項2または請求項3記載の情報処理装置。
  10. 前記特徴ベクトル取得部は、
    前記各特許書類を特定する情報で識別される各特許書類を取得し、当該各特許書類から1以上の要素を取得し、当該1以上の要素を用いて各特徴ベクトルを取得する、請求項1から請求項9のいずれか一項に記載の情報処理装置。
  11. 前記特徴ベクトル取得部は、
    当該各特許書類から取得された類似する要素を同じベクトル要素に対応する要素とした各特徴ベクトルを取得する、請求項1から請求項10のいずれか一項に記載の情報処理装置。
  12. 特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である関連特許識別情報が1以上格納される関連特許識別情報格納部と、検索式生成部と、検索特許識別情報取得部と、特徴ベクトル取得部と、選択部と、出力部とを用いて処理される情報処理方法であって、
    前記検索式生成部が、前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する検索式生成ステップと、
    前記検索特許識別情報取得部が、前記検索式生成ステップで生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する検索特許識別情報取得ステップと
    前記特徴ベクトル取得部が、前記関連特許識別情報格納部に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、前記検索特許識別情報取得ステップで取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する特徴ベクトル取得ステップと、
    前記選択部が、前記特徴ベクトル取得ステップで取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得ステップで取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、前記関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する選択ステップと、
    前記出力部が、前記選択ステップで選択した結果に関する情報を出力する出力ステップとを具備する情報処理方法。
  13. 特許調査における選別作業の結果、関連すると判断された特許書類である関連特許書類を特定する情報である関連特許識別情報が1以上格納される関連特許識別情報格納部にアクセス可能なコンピュータを、
    前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類に含まれる要素を用いて、前記関連特許識別情報格納部に格納されている1以上の関連特許識別情報で識別される特許書類を取得可能な検索式を生成する検索式生成部、
    前記検索式生成部が生成した検索式を用いて取得される特許書類である検索特許書類を特定する情報である検索特許識別情報を取得する検索特許識別情報取得部、
    前記関連特許識別情報格納部に格納されている各関連特許識別情報で識別される関連特許書類の特徴ベクトルである1以上の関連特許特徴ベクトルを取得し、かつ、前記検索特許識別情報取得部が取得した各検索特許識別情報で識別される検索特許書類の特徴ベクトルである1以上の検索特許特徴ベクトルを取得する特徴ベクトル取得部、
    前記特徴ベクトル取得部が取得した1以上の検索特許特徴ベクトルのうち、前記特徴ベクトル取得部が取得した1以上の関連特許特徴ベクトルが有する特徴と類似する検索特許特徴ベクトルに対応する検索特許識別情報であり、かつ、前記関連特許識別情報格納部に格納されている関連特許識別情報と一致しない検索特許識別情報を、少なくとも選択する選択部、
    前記選択部が選択した結果に関する情報を出力する出力部として機能させるためのプログラム。
JP2012266084A 2012-12-05 2012-12-05 情報処理装置、情報処理方法、およびプログラム Active JP6053131B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012266084A JP6053131B2 (ja) 2012-12-05 2012-12-05 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012266084A JP6053131B2 (ja) 2012-12-05 2012-12-05 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014112283A JP2014112283A (ja) 2014-06-19
JP6053131B2 true JP6053131B2 (ja) 2016-12-27

Family

ID=51169390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012266084A Active JP6053131B2 (ja) 2012-12-05 2012-12-05 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6053131B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125310A1 (ja) * 2015-02-06 2016-08-11 株式会社Ubic データ分析システムおよびデータ分析方法並びにデータ分析プログラム
JP7038499B2 (ja) * 2016-07-29 2022-03-18 株式会社野村総合研究所 分類システム、分類システムの制御方法、およびプログラム
JP2018037068A (ja) * 2017-07-26 2018-03-08 株式会社ゴールドアイピー サーバ装置、通信方法およびプログラム
KR102410825B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
JP6306786B1 (ja) * 2017-08-17 2018-04-04 株式会社ゴールドアイピー 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム
JP6973733B2 (ja) * 2017-11-07 2021-12-01 株式会社アイ・アール・ディー 特許情報処理装置、特許情報処理方法およびプログラム
JP6457058B1 (ja) * 2017-12-06 2019-01-23 株式会社ゴールドアイピー 知的財産システム、知的財産支援方法および知的財産支援プログラム
JP6555673B2 (ja) * 2018-03-08 2019-08-07 株式会社AI Samurai 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム
JP7246690B2 (ja) * 2018-12-10 2023-03-28 アイ・ピー・ファイン株式会社 特許調査支援方法
JP7081859B1 (ja) 2021-09-08 2022-06-07 アイ・ピー・ファイン株式会社 評価済文献診断システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3862059B2 (ja) * 2001-01-22 2006-12-27 Kddi株式会社 検索式拡張方法および検索システム
JP2004151959A (ja) * 2002-10-30 2004-05-27 Kddi Corp 類似検索方法およびシステム
JP4484957B1 (ja) * 2009-09-08 2010-06-16 有限会社アイ・アール・ディー 検索式生成装置、検索式生成方法、およびプログラム

Also Published As

Publication number Publication date
JP2014112283A (ja) 2014-06-19

Similar Documents

Publication Publication Date Title
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN111046221B (zh) 歌曲推荐方法、装置、终端设备以及存储介质
US7769771B2 (en) Searching a document using relevance feedback
RU2664481C1 (ru) Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения
US10198497B2 (en) Search term clustering
US11379527B2 (en) Sibling search queries
CN112417133A (zh) 排序模型的训练方法和装置
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐***和方法
US10698971B2 (en) Method and apparatus for storing access log based on keyword
JP2009271659A (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
CN111950265A (zh) 一种领域词库构建方法和装置
WO2021051587A1 (zh) 基于语意识别的搜索结果排序方法、装置、电子设备及存储介质
US20230273964A1 (en) Apparatus and method for evaluating search engine performance, and dashboard
JP2009295097A (ja) 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
JP5790820B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
JP5971794B2 (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP5912813B2 (ja) 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
JP2001014333A (ja) 画像検索システムおよび画像データベース管理装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
CN112307295A (zh) 结合rpa和ai的语料泛化方法、装置和电子设备
JP6712521B2 (ja) 検索式提示システム、検索式提示方法、およびプログラム
JP2005025465A (ja) 文書検索方法及び文書検索装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161128

R150 Certificate of patent or registration of utility model

Ref document number: 6053131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250