実施の形態1.
図1はこの発明の実施の形態1に係る情報調査装置である、例えばパソコンを使用した構成を説明するシステム説明図である。図1において情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。
制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。この抽出結果は特定人物選択手段11にて著者や発明者など個人毎に分類されて、出力纏め手段13にて、文献投稿日、出願日、発行日など発表内容を作成したり纏めたりした日時に最も近い公表日付順に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。纏められた結果や他の情報調査装置から送られて来た情報は、記録手段15に記録され、更に例えば通信手段9を介して他の情報調査装置2やデータベース23への送信も可能である。この文献情報を纏めた出力結果は結果表示・記録制御手段14を介して入出力装置8から外部の表示手段6やディスク状などの記録媒体7へ送られて記録や次段階の調査のため、あるいは情報調査を行う操作者の調査見直しや報告用に使用される。
本発明の図1における一つの特徴は文献の著者や出願の発明者である文献作成者である個人の情報を特定し、この特定された個人情報に関連する個人の文献内容をこの内容を完成させたと第3者が理解できる日付をもとに時系列的に纏めるものである。論文のような文献には著作権があり、出願した発明には発明者の発明権がある如く、論文、特許等はアイデア、分析内容、技術内容等は個人と結びつくもので、出願人のように権利者を追及しても、あるいは権利の内容を把握しても、個人活動である個人が情報を集め分析検討し、実験やシミュレーション他で確認した個々の具体的内容とその経過である流れは把握できない。この個人活動を特定するためには、入力手段5から分かっている特定人物の氏名を入力する人名検索による文献調査でも良いし、あるいは調査対象である分野や調査したい具体的な内容を特定項目として指定して文献件数の多い順番や、特定の研究所、会社など選択しやすい形で発明者を複数名抽出し纏めるものでも良い、この発明者を抽出する際に共同著者や共同発明者等の関係者を優先的に抽出し特定した個人のチームとして把握して纏める。このチームに含まれない次に文献件数の多い個人を特定し再び共同著者や共同発明者を次のチームとして纏めることを繰り返す。この各チームに属する抽出した文献情報を特定の技術項目、例えば特定の技術課題に関するものとそれとは違うものとに振り分けて特定技術課題のものが一目で分かる様にしておけば、さまざまな分野の複数の特定個人の活動成果である技術動向が記載された文献情報の時系列流れの中で特定の技術課題に関する動向や方向性を把握することが出来る。
本発明の図1における別の特徴は先ず1次検索により個人を特定して或いはもし検討すべき人員が多いようであればこの特定する個人の人数を制限して調査しやすい母集団に抽出結果を選択し特定個人の全体の文献情報と知りたい技術内容とが区分けされて纏められることである。これにより先ず概括的な調査が効率的に行える。もし1次検索で調査結果が不充分と判断するならこの特定個人、但し既に調査された個人は除くが、に絞った母集団の調査を複数回に亙り繰り返して精度を高める、技術テーマを変更し調査漏れを防止する、より的確な技術内容に絞るなど直列的な複数層の調査により、再度個人を特定する検索をし直すものである。これにより調査を確実で信頼性の高いものとすることが出来る。なお、氏名や技術等のテーマを最初に入力した場合で、既に抽出され登録された人物以外の残された共同著者分の文献件数などが少なくなるとき、或いは技術テーマに関する既に登録した個人の検索件数を除く検索件数が少なくなったことが表示手段6にて読み取れれば、入力手段5から入力してそのままそのほかの雑文献として登録して終了しても良い。また、既に登録された出力纏め結果のリストを読み出して内容を検討し情報調査者の狙いが含まれていれば終了を入力してもよい。
更に調査依頼側と調査実行側にて打合せ、もしくは最初から設定して、再検索するものにしておく。これは残された件数が多い場合や、調査したいポイントが含まれていない場合に行うと確実になり、手動にて入力しても良いが、途中のチェック無しに自動的に行う事でも良くその場合の一つの例として最初に入力する指定範囲内容を多層化することにより行われる。1次検索の指定内容をIPCコードの上位のものやキーワードの広い語句とした場合、次に行う2次検索として文章を入力する、或いは関連する語句、動作や課題など具体的な内容を記載して調査範囲を絞ることにより調査件数をコントロールできる。一方、最初から具体的な内容を1次検索とした場合は、その上位概念の語句や関連する語句などを2次検索として、ノイズを絞る調査からスタートして抜け防止対策を行うことが出来る。このように調査範囲や対象を制限した母集団での調査を繰り返して絞っていくことで、同一特定個人を何回も検索するという無駄を省き、且つ調査しやすい形で情報を纏めることが出来る。即ち本発明の別の特徴として、特定項目での文献調査で先ず人名を特定し、この特定した人の文献情報を時系列、且つ、特定項目を区分可能に纏めることにある。したがって、繰り返される調査では既に出現した人名を除くため、残された人の文献調査に限られていき調査範囲はどんどん限定され調査が簡単になることである。
この階層入力方式の入力内容は調査依頼時に簡単に扱える様にフォーム化されていて、そのまま入力すれば検索式生成手段10にて生成されるとともに、特定人物選択手段11にてリストアップされた人物が、次の検索では除かれることになり、そのまま次の個人特定する場合、登録済みの個人の件数が除かれるので2次、3次と検索対象件数が絞られていく。しかも各段階、各階層毎の人数、文献をチェックする件数を絞ることにより、途中チェックの調査母集団は文献情報を読み取れる範囲に抑えられるとともに、この限定した母集団チェックを繰り返し最後にはほとんど全件をチェックすることが出来、且つ途中で残された文献の全体件数や書誌事項も掴めるので早い調査が可能であるだけでなく徹底的な調査が確実に行えるという信頼性が高く効率的な調査が可能になる。
次に図2の特定項目検索フローにて、今まで説明した検索の手順を具体的に説明する。先ずSTARTで情報調査装置1が検索可能な体制、例えばパソコンの電源が入れられ、通信線3を介して情報サーバー21、22と接続される。入力手段5から特定項目が入力される。この特定項目の一例は図4の調査内容を依頼するフォームを説明する図に記載されている。図4の調査依頼書は、調査依頼側である発信元から調査実行側であるあて先に依頼する文書もしくは画面上に表示された依頼書の一例で、調査目的など調査を行う側への連絡記入欄1項と検索式生成手段にて検索式を生成する特定項目記入欄2項が記載されている。この2項の1次検索用として目的語の欄には、検索の対象期間を指定するため例えば最近5年の調査期間(イ)と、特定範囲(ロ)の例と、調査テーマである技術課題(ハ)を記載するようになっている。この中の期間の記入はアクセスする情報サーバーによっては期間を記入する必要が無い、あるいは機械検索可能な全範囲となるかもしれない。あるいは最近の技術動向を得たい場合は最近3年間などとしても良い。特定範囲(ロ)の例には、例1のようにA社とB社の公開特許公報にするという指定や、例3のように個人の名前から調査する、あるいはこの範囲指定を止めるなどでも良い。一方技術課題には1項の調査目的に出来るだけ対応して技術課題を分類コードやキーワードなどで記載しておく。
更にこの調査依頼書の例で複数層検索する2次以降の検索である下位層としては、1次検索と同一期間の検索で、1次検索技術課題の関連語や概念検索用などの文章などが記載されている。もちろん上位や下位の分類コードを持ってきても良い。この例1として上位概念語や関連状況語や関連動作性質語を記載して1次検索より広げた範囲、即ち1次検索の技術課題で個人を特定した時の調査範囲の周辺まで調査を広げ個人を選択することを狙い特定範囲を記載しているケースがある。次に例2としては1次の技術課題で抜けている範囲を調査しようというもので先に述べた英数字の違いなどの同一範疇語や下位概念語を記載する例である。例3としては狙いがずれているような場合に行い概念検索による文章を元に再び最初から技術課題を求めるために行うものである。なお当然ながら1次検索で特定人物抽出が更に必要なケースでは、2次検索の前に1次検索を何回繰り返してもよい。以上特定個人として共同著者や共同発明者の例で説明したが個々の文献に個人名など個人情報が含まれる場合はその情報から得るものである。例えば文献類、書籍などには感謝の言葉とともに個人名の追加が記載してあるし、個人情報としては本名に限定されないし、個人が主体的に関係する研究室、部門などの狭い範囲の組織であれば特定の研究室名なども本発明の個人情報として役に立つ。
先ず図2(イ)で1次、2次検索用の特定項目、例えば最近の動向調査ということで過去3〜5年程度という期間、次に複数社の公開特許という如く文献の種類を特定し、更に技術課題として炭酸ガス冷媒・超臨界冷媒、あるいは別の調査での必要なキーワードを入力するST1。この入力手段5から入力された特定項目に対し検索式生成手段10にて検索式が生成され情報サーバー21・22から通信手段9を介して、例えば最近4年間の指定された特定範囲における技術課題が記載された文献がピックアップされ、抽出結果記録手段12に一時的に蓄えられる。この貯えられた文献情報から人名毎の件数が抽出されST2、人名の数、即ち特定個人の1番目としてST3、件数の多い順番の人名が特定個人選択手段11にて特定されるST4。
図2では次に最多件数人物の文献情報に記載されている共同著者・共同発明者が順番に特定されるST5、ST6。この件数多数人物の特定は例えば20人程度以下を先ず調査することにするが、共同発明者をも含めるため4年間での上位10名、最新年度における上位10名から共通上位者などを選択すれば略簡単に調査可能な母集団が得られることになる。即ちここでの最大人数をn=10〜20名程度としておく。なお技術課題が最初から絞られていること及び4年間のためこの人数に達しない事になり、そのまま2次検索に移つる。又1次検索で広げた検索、上位概念の検索や長期間の検索とする場合は、このST4〜ST7を設定した最大人数のみの繰り返しとし、2次検索で更に絞っていく。ここで抽出された特定人物が纏められ次の工程である図2(ロ)のST21に引き継がれるST8。ここでは1次検索をi、2次検索をKという区分記号を使用しており、これにより例えば出力のまとめでも内容の区分けが可能になる。
次に2次検索として1次検索の条件、例えば過去3〜5年程度という期間、複数社の公開特許という如く文献の種類を特定等は同一として、漏れ防止の場合は、2次以下の検索階層をKにて設定しST9、ST10、同一範疇語であるCO2などや下位概念語として炭酸ガス冷媒を使用した装置名など、限定される言葉により再び検索式生成手段10にて検索式を生成して情報サーバーにアクセスして人名・件数抽出を行うST11。この階層式抽出構成は予め2次以下を設定してあっても良いし、1次の結果を表示させ検討してから再度手動で設定しなおしても良い。この2次以下の人名・件数抽出時に上位階層の検索、例えば1次検索で抽出された特定人物名は除くことになるST11。ここで残りの件数が所定数以下、例えば数件程度のように少なければST14そのまま出力しても良いST15。これらの階層検索の場合、1次検索での検索結果、2次検索での検索結果がそれぞれ、もしくは両方を包含する形で出力纏め手段13にて纏められこの出力纏め手段13に設けられた記憶素子に、或いは記録手段15に記録されている。
期間が長期での検索や広い技術課題の場合は、先ず1次検索で一つの母集団から複数の特定人物を抽出し、次に下位概念語という関連語で検索する2次検索での残りの件数が多くなるが、再びST1〜ST7が繰り返され特定人物の抽出が行われる。この階層の人数はKにて設定されST12〜ST13、更に図で説明するように再度入力する場合ST16、あらかじめ指示された3次以上の検索する場合ST17なども可能であり、ST10〜ST17がST11に記載した検索として繰り返される。これにより設定期間が20年という長期の設定でも技術課題は同一範疇を検索し且つ絞っていけば新規に登録される特定人物名は前の段階で抽出された人物が除かれるので一人1件の文献まで抽出できゼロへ近づく。この階層式にて技術課題を検討していけば関連する特定人物の抽出はほとんど全員が網羅されることになる。
特定人物の抽出が特定個人選択手段11にて行われた後ST8、図2(ロ)ST21の如く、出力纏め手段13にて特定人物が作成し抽出結果記録手段12に記憶された文献が時系列データベースとして作成される。人名調査を2次階層で行うときは特定個人選択手段11からそれにて抽出された特定個人を入出力装置8を介して、再度検索式生成手段10にてST1の特定項目の技術課題を除き特定個人を指定して検索が行われ、情報サーバー21、22などからの文献情報が抽出結果記録手段12へ貯えられる。但し先に抽出された技術課題を満足する案件は、階層ごとの調査であり区分けのために、この技術課題を有することが別途記号やあるいはその関連する言葉がピックアップされてその特定個人の文献情報ではあるが技術課題に関係するものであるかしないかが区分けされる。なおこの特定個人の文献情報として出力にまとめられる出力結果は、前に記載された特定個人の入っている文献情報は次の特定個人の文献情報から除かれていくので出力もだんだん絞られていくことになる。
この区分けは1次検索等の技術課題を含む検索の記録と特定人物作成文献抽出ST21とを組合せて求めても良いし、後者のものに対しST22の様に1次以下の技術課題の目的語、関連語に対し類似語検索や文章類似度から再度検索しなおすものでも良い。これら各検索や出力纏めの指示が入力手段5から行われ入出力装置8に記録されて検索式生成手段10や特定個人選択手段11および結果表示・記録制御手段14を介して出力纏め手段13へ指示される。又この選択を特許マップのような出力内容を指定することで入力手段5から指示し入出力装置8、結果表示・記録制御手段14を介して出力纏め手段13にて行うことも出来る。この結果の一部を図5の文献調査要約表とするリスト説明図に示す。この文献調査結果要約表は調査実行者である発信元から調査依頼者であるあて先へ発送されるものの一つであっても良いし、時系列データベースとしても良いもので、先ず文献情報の作成者である最多件数発明者Dを中心とするメンバーにて時系列、即ち文献作成日としての出願日順に纏められている。このリストのNo1から8の後に、次の発明者例えばE、Fなどの共同発明者分で、既に登録されているDを含めたものをのぞく分が、あるいはP、Qの様に次に多い件数の発明者分として新しい名前が登場することになる。このリストには出願日、発明者以外の文献番号のような書誌事項や内容、更には代表図だけでなく、技術課題に関係するかどうかの区分けが米印で記載されている。ここにはその関連する言葉を記載しても良い。このリストでも作成者が絞られていくので重複が排除され必要最小限の文献情報が出力纏め手段13にてまとめられることになるST23。
但し図5のリストでは、発明者や著者など特定個人毎の時系列は一目でわかるが、抽出した全特定人物が順番に記載されているため全体の時系列を把握することが難しい。ただし、図5における内容欄には文献の要約や代表図をそのまま載せると文献理解が早くなり分かりやすい。したがって図6の特許マップの様に多次元の時系列図に纏め直すと良いST23。図6では横軸に調査した期間が記載され、縦軸に抽出された特定個人である中心メンバー毎にチームとして記載された特定人物と出願の関係が記載されている。チームとして分けにくい状態であれば個人名毎でも良い。図5、図6は一例として示したものであって他の形式、例えば2次元の表現で無く3次元やそれ以上の表現でも良い。更に出力纏め手段13で纏めた結果は制御手段14を介して表示手段6に表示させた後で、例えば図のリストに記載された文献情報の内容を図のマップ内の空白部に転記する、調査期間、キーワード等或いは生成された検索式など入力に関連する事項をマップの空白部に自動的に記載する、記号の追加や消去を入力手段から行うなどにより、使い易い資料が得られる装置にでき、且つ、出力結果である文献情報纏めの報告書の内容を自分の思うとおりの内容、より正確な内容、調査依頼者の希望する内容等に変えて報告できることになる。
この横軸縦軸に対応した個所に、文献件数が、そのチームなど全体のものと、技術課題に対応したものとの両方が記載されている。この件数の代わりに文献Noを記載してもよいし、更にくわえて図5の文献内容を画面上で呼び出せて表示できると更に時系列の動きがこのマップだけで分かるようになる。出力纏め手段で纏められた図5のようなリストや図6のような時系列マップは記録手段15に記録され、必要に応じて通信手段9より外部に発信可能となる。更に結果表示・記録制御手段14、入出力装置8を介して、表示手段6へ表示する、或いは、記録媒体7への記録も行うことができる。時系列マップの抽出した件数を図のように各月ごとに記載しているが、更に例えば最下欄に各月の各チームを総計した件数を記載しておくと更に使いやすいものができる。
図2(イ)(ロ)は技術課題をキーワードで検索すると言う広い狭いがあっても同じ種類の区分けを直列調査にて行う階層フローで、両方の検索における特定人物を抽出しこの特定人物が作成した文献情報を纏め出力する手順を説明したが、図2にてキーワードが1次で人名等が2次、人名などが1次でキーワードか2次、或いはこれらを組合せた3次以上というさまざまな目的や追求方法に応じた検索が可能である。次に図3、図7、図8にて技術課題や人名などにて抽出する文献情報を含め複数の異なる分析を行いその組合せを出力する手順を説明する。
図3はこの発明の図1とは異なる構成を説明するシステム説明図である。図3において図1と同様に情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。
制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。この抽出結果は既に説明したように文献毎に特定人物選択手段11にて著者や発明者など個人毎に分類され図9のような出力リスト、図10の発明者一覧表のように出力纏め手段にて纏められる。図10は抽出結果記録手段12に記憶された全文献に対する共同著者、共同発明者などの人名を特定人物選択手段11にて抽出してから纏めたもので人名全体の人数や特定された個人名リスト、チーム構成などを記載するとともに、この検索を行った書誌事項、例えば期間、検索キーワードなどを記載しておくと便利である。なお個人情報として文献作成する際に関係した者として文献から得られる共同著者を含める説明をしてきたが、分権作成の際密接に情報交換を行いながら関与したもの、たとえば研究室、ゼミ、課などの関係が文献から得られれば人名以外でも構わないのでその関係者が含まれる図10の発明者一覧表のリストは個人情報リストということになる。
またこのサーバーからの抽出結果である文献全文の内容により類似文献を判断するために先ず用語を図3の用語抽出手段16にて抽出する。文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により言語解析を行うことが有効である。但し助詞や助動詞などは文書の内容を直接表しているものではなくこのような文字は言語解析を行わず或いは言語解析してからに不要語として除くと簡単になる。ここでは用語抽出の一例として名詞を選択するものとし、この抽出する名詞として複数の漢字文字、連接したカタカナ文字等を名詞として定義し、一文字の漢字文字とその連接しているひらがな、或いは独立した連接ひらがな、数字などは非抽出用語とする。当然ながら名詞辞書を設けてこの辞書と用語を比較しながらその中にある用語から選択しても良いが、その場合は別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となる。特別な辞書を設けずに不要語をリストとして記憶させる簡単な構成にすると処理が便利である。また文献として特許公開公報全文、論文集など取扱量が多いような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくる出現数も1から多数回までさまざまに分布することとなる。したがって、定義された名詞だけを抽出する場合、この抽出された名詞の出現数分布を0−1値で表す。すなわち最多出現数を1とし、出現しない数をゼロとしておく。文献に記載された文章の特徴ベクトルを演算するため先ず数の少ないゼロに近い少ない出現数の部分を閾値を設定し除く。例えば出現数分布0.4−1.0である出現数中間部、多数部の名詞を抽出し、この名詞を用いてこの文献のほかの文献との関連度をベクトル生成手段17にてベクトル演算し、類似分類手段18にて類似文献通しを纏めなおす。この得られた一つの類似文献群の表示は一文献のほかの文献との関連度の近い文献から集められた名詞群の中から新たなキーワードとなる名詞を選択し図9の類似用語欄に記載して表示する、或いは各類似文献群の複数の名詞をそのままもしくは類義語の選択などあらかじめ設定された方法で選択して類似文献の類似用語として図9出力リスト等の各文献欄に表示しても良い。閾値で設定される出現数分布として出現数中間数0.4を選択したが、この閾値は文献の種類、一般書籍のような広い範囲を網羅する文献情報は広い範囲の用語を抽出し類似用語に纏めることが適しており中間値0.5に近い数値を選択している。技術範囲が限定された論文のような文献情報では、0.2−03程度でよいし、更に発明のポイントが絞られる特許公開公報では、0.07−0.13ぐらいの、例えば0.1の閾値とすればよい。この閾値は入力手段5により選択できるようにしておくと使い勝手の良い装置が得られるが、ただし、類似文献抽出時には出現数が多くなるほうにしておくと纏めが簡単になるので多い数の方向に隔たらせた中関数であらかじめ設定しておくと良い。
また用語抽出手段16にて排除され抽出されなかった用語、出現数分布の閾値より少ない出現数の名詞、さらには、名詞閾値を利用するなどして選択される出現数の少ない一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などであって、出現回数が2、3回よりも多い、などを非類似用語として非類似用語分類手段19にて別に抽出する。或いは文章全部を使用しないで要約や纏めなどの一部或いはこれらを組合せて選択する際には文章量にもよるが回数で言うと10回以下程度などの閾値を有する用語を非類似用語として非類似用語分類手段19にて別に抽出し、この用語をその文献の出力纏め手段13にて図9の出願リストの非類似用語欄に記載する。なおこの回数設定に対しては文献の文章量などに応じたものとしても良い。すなわち類似文献を分析する場合や文章の大意を掴む際に用語抽出手段16にて抽出され類似分類手段にて類似性が分類された用語である名詞列の利用が有効であるが、各文献毎の特徴的な内容はそれよりも少ない出現数である非類似用語として抽出され特徴ベクトルにより分類された範囲に存在する可能性が高い。この様に図9出力リストに非類似用語を記載する場合、既に説明したようにあまりにしばしば現れる用語、例えば英語では代名詞やbe動詞、冠詞、或いは日本語外国語を問わず文章形式によりあらかじめ約束事として決められている言葉である段落番号や前記などは特徴を示すことにならないため不要語として除かれ、且つ出現数の多い名詞列も最初から除いた上で出現数の少ない方を選択する。不要語や類似用語から排除された用語で且つ閾値よりも少ない出現数であるため類似の中での違いを示す特徴用語であり、しかも特徴を強調するため少なくとも2、3回等の所定数を越える出現数として選択している。しかも、用語抽出手段16にて排除されたものの後で非類似用語分類手段19にて選択しており、類似用語として抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。出力纏め手段13では特定個人選択手段11、類似分類手段18.非類似用語分類手段19で求められた個人名や各用語を図9の出力リスト、図10の人名リスト、図11のマップなどの形態に纏めなおすことになる。なお図9、図10、図11は一例であってこの中の一部を省略することや、内容を入れ替えることや、更に内容を追加する、例えば文献内容に図面を主体にするなどをしても良い。すなわち文献投稿日や出願日など発表内容を作成したり纏めたりした日時に最も近い日付順、すなわち時系列軸に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。この場合外部のデータベースに表示されている要約や文章中の特定個所、図面などから要約内容を纏めても良い。
図9は文献時系列データベースとして作成(図2、図7、図8などのST21、ST38、ST53等)されたデータ集を要約した文献調査結果要約表であるが内容欄を拡大して図面、試験データ一覧表等の詳細なものとし、且つ、書誌事項を漏れなく記載して特定個人ごとの時系列軸にて纏められた文献時系列データベースそのものとしても良い。図10は記憶された文献情報から特定個人選択手段にて特定人物が抽出された結果を纏めた一例であって、1次検索という区分け記号iで区分けされる特定個人選択フローという検索モジュールにて選択された特定個人のリストであって、左端の1searchlistと記載された発明者集計表は特許公開公報に対しキーワード検索され抽出結果記録手段に記録されていた全文献132件に対する全発明者、但し共同発明者も含め350人の名前が記載されている。但し、ここでは50名分の名前を記載した図になっているがこの人数は入力の設定を変更することにより自由に調整できる。このリストに続き発明者チームごとの人名が記載されている。すなわちA氏チームの場合はA氏といずれかの特許の中で共同発明者となっているメンバーの名前が全て含まれる。更に次のチームの場合は前のチームにて既に記載された人名は全て除かれていく。図9におけるデータベースでもこのチームの順番で、且つ、チーム内においては時系列順に記載された形式例が示されている。このようなデータベース他の出力内容の形式は文献の量があまりに多いときは時系列を先にしてチーム名を後にする纏め方など自由に設定できる。いずれにしろ本発明は時系列軸で関連する個人の文献が順番に並べられるため文献内容の分析が簡単で効率的に行える。更にチームに分けて順番に人を区分けして人を減らしながら纏めていく、或いは言い換えると検討すべき文献件数を区分けして減らしながら順次検討するというごとく、母集団を順次削減しながら文献情報を分析できる母集団削減方式を使用するため文献内容分析や調査が非常に行いやすい方法であって、しかも次から次へと検討していくときに残りの文献件数が大幅に減少し且つ残り数値の把握ができるので調査者の負担が大幅に軽減される。特に最後は1人1件というような残件であり抽出され記録された文献全数の調査が容易に行えるので無効化調査のように徹底した文献情報調査でも従来のように根気と忍耐だけとされること無く簡単に行える。図10の調査の進め方に記載したように、図2における1次検索、図7における第1回目文献調査のようにキーワード検索した文献情報から特定個人を選択するフローについてはステップ1の検索フローとして1searchlistと記載する。更に検索式としてキーワードでないもの、例えば図2の2次検索や図7の第2回目検索などの場合、或いは情報サーバーから文献情報を抽出する際にキーワードの代わりに人名にて文献を抽出し記録した場合はステップ2の検索フローとして2searchlistと記載する。もちろんこのステップ1、ステップ2の数を増やす、言い換えると各検索フローである検索モジュールの数を増やしても良い。例えば複数の情報サーバーから例えば同一のキーワード検索式で文献情報を抽出し記録したものを特定個人などに区分けするような場合でもこの検索モジュールを区分けすることができる。
図12は図6と同様な文献マップであって横軸の時系列での纏めは図6と同様であるが。縦軸は類似分類手段18にて類似文献群が検索(ST33、ST46−49)され、設定された類似用語(ST50)にて区分けされている。なお各類似文献群の件数が時系列に表示されている下部には非抽出用語分類手段19にて抽出(ST51)され設定された非類似用語(ST52)が、各文献毎の特徴を示すために記載されている。ただしこの図12の縦軸で類似用語と記載された個所に複数の抽出された類似用語例えば出現回数の多い順に記載しても良いし、さらには類似用語と非類似用語については図9のデータベースにまとめられた類似用語と非類似用語の全ての言葉を記載せず一部の内容の記載でも良いし、記号を使用しても良い。文献マップはデータベースの記載では調査分析すべき文献情報の全貌が見やすいようにすればよく、且つ、マップ情報が一瞥できるように纏めればよい。マップの表示画面を利用してデータベースの必要部分を呼び出せるようにしておけば、これらは例えば表記などのパソコン上で簡単に行える技術であり、使いやすい装置が得られる。なお文献マップに関しては図6、図12とも上記母集団削減方式を利用して纏めたものを表示させる説明であるが、類似群ごとに呼び出して表示させる場合は呼び出した類似群に対し全ての類似文献を表示させるほうが見やすくなるなど出力形式変更を選択できるようにしておく。纏められた結果や他の情報調査装置から送られて来た情報は、記録手段15に記録され、更に例えば通信手段9を介して他の情報調査装置2やデータベース23への送信も可能である。この文献情報を纏めた出力結果は結果表示・記録制御手段14を介して入出力装置8から外部の表示手段6やディスク状などの記録媒体7へ送られて記録や次段階の調査のため、あるいは情報調査を行う操作者の調査見直しや報告用に使用される。
以上の説明に対し図7にて図2と同様に図3の装置における具体的な処理フローで説明する。STARTで図1の情報調査装置1が検索可能な体制、例えばパソコンの電源が入れられ、通信線3を介して情報サーバー21、22と接続され、入力手段5から特定項目が入力可能になり、且つ、入力された指示内容は入出力装置8を介して検索式生成手段10、通信手段9、抽出結果記録手段12などへ伝えられるとともに、結果表示・記録制御手段14を介して出力纏め手段13や記録手段15へ伝えられる。入力された特定項目は既に図4のような調査内容を依頼するフォームで説明している1次検索のものであれば良く、図4には検索式生成手段10にて検索式を生成する特定項目記入欄項があり、この項の1次検索用として目的語の欄には、検索の対象期間を指定するため例えば最近3年間とか20年間の様な調査期間(イ)と、特定範囲(ロ)の例と、調査テーマである技術課題(ハ)を記載するようになっている。この中の期間の記入はアクセスする情報サーバーによっては期間を記入する必要が無い、あるいは機械検索可能な全範囲である20年間となるかもしれない。あるいは最近の技術動向を得たい場合は最近3年間などとしても良い。特定範囲(ロ)の例には、例1のようにA社とB社の公開公報にするという指定や、例3のように個人の名前から調査する、あるいはこの範囲指定を止めるなどでも良い。一方技術課題には1項の調査目的に出来るだけ対応した技術課題を分類コードやキーワードなどで記載しておくと調査がやりやすい。
更に図4の調査依頼書の例では複数層検索する2次以降の検索である下位層が記載してあるが、図7の例は、キーワード検索した後で情報サーバーに再度接触して人名に基づく検索迄ST38を自動的に行う設定としてあるが、その続きの検索はそれまでの検査結果により調査依頼側と調査実行側が相談するもの、或いは1次調査結果を見て検索の内容を設定するものであらかじめ入力することはしない等各種検索のルートが可能である。或いは図7においてST37まで繰り返して個人やチームを特定した後にST38の特定人物抽出による第2回目文献調査を行わず、特定人物抽出だけとしてそのまま時系列データベース作成させる、すなわち人名に基づく検索を省略させるフローであっても良い。すなわち図7では、第1にキーワード検索した文献に表れる特定された個人に関係し且つ既に検索したキーワードに無関係な文献、言い換えるとキーワードに関係した特定個人のこのキーワード以外の文献を含めた特定個人の作成した文献を抽出し分析することができる。更に第2にキーワードだけで文献を抽出し分析することもできる。この第1と第2の選択はあらかじめ入力手段からの入力で指示しておいても良いし、第1と第2のフローに基づく抽出結果をそれぞれデータベースST39に記憶させておいても良い。
先ず図7で検索用の特定項目、例えば最近の技術開発の動向調査ということであれば過去3〜5年程度の期間、次に対象としたい複数社の公開特許という如く文献の種類を特定し、更に技術課題として例えば燃料電池というキーワードを入力するST31。あるいは権利化された特許の無効化調査ということであれば検索可能な全範囲という期間、次に公開特許公報だけにとらわれず一般文献を含め、先ず技術課題としてそれほど上位概念まで広げずに調査として狙いたい内容を、炭酸ガス冷媒・超臨界冷媒等のように必要なキーワードを入力するST31。この入力手段5から入力された特定項目に対し検索式生成手段にて検索式が生成され情報サーバーから通信手段9を介して、指定された特定範囲における技術課題が記載された文献がピックアップされ、抽出結果記録手段12に一時的に蓄えられる。この貯えられた文献情報から人名毎の件数が抽出されST32、特定個人の1番目がST33設定され、件数の多い順番の人名が特定個人設定手段にて特定されるST34。
図7では次に最多件数人物の文献情報に記載されている共同著者・共同発明者が順番に特定されるST35、ST36。この件数や多数人物の特定は調査しやすい、即ち文献内容を把握しやすい件数等とするため、母集団である人数を設定するST37。nが最大調査人数であって、人数の多い順に特定された人物とその共同発明者、著者を含めるため文献情報の数はこの最大値を基準に制限を受けることになるが、場合によってはその半分以下になることもある。例えば20人程度以下を先ず調査することにするが、共同発明者をも含めるため4年間での上位10名、最新年度における上位10名を先ず選択し、共通上位者などから順番に選択すれば調査可能な母集団が簡単に得られる。即ちここでの最大人数をn=20名程度としておくと良い。なお技術課題が最初からそのものに絞られているような場合は期間が短期間の場合はこの人数に達しない事もあるし、記憶された件数から人物が特定された件数は常に表示手段6へ表示させておけば残りの件数を把握しながら、この最大人数nを入力手段5からインプットしなおして抽出した全件数の人物特定も可能になる。ST34〜ST37が繰り返され特定人物が纏められ次の工程に引き継がれる。
図7では検索特定項目入力にて抽出され記録手段12に記録された第1回目の文献情報、すなわち図10におけるステップ1で先ず特定人物が纏められその後、この特定人物を対象に再びサーバーから第2回目の文献情報すなわち図10におけるステップ2の抽出が特定個人選択手段11にて人物名と文献名から行われるST38。以上は図3における特定個人選択手段11にて抽出結果記録手段12に記録された各文献に対し処理が行われることになる。更に図3の出力纏め手段13にて図7のST39の如く、第1回目と第2回目の文献情報を含めた特定人物が作成した文献情報が時系列データベースとして作成され所定場所に保存される。ST43にて示すようにST38の第2回目のサーバー検索に対し若干検索式が変更される指令が設定されている場合は、特定個人選択手段11にて抽出された特定個人を基に、入出力装置8、検索式生成手段10にてST31の特定項目の技術課題を除いた再度の同一指定期間の検索が行われ、情報サーバーからの文献情報が抽出結果記録手段12へ先の調査より多くの文献を含むものとして貯えられることになる。以上のように図7におけるフローは主として図3の構成における特定個人選択手段11と出力まとめ手段13にての処理を説明するものである。図10は特定個人選択手段11にて抽出された特定個人を基に、出力纏め手段13にて纏められた人名リストであって、図2、図7におけるST2からST7、或いはST32からST37の1次或いは第1回目検索フロー等のステップ1の範囲にて抽出された特定人物のリストである。2次検索や第2回目文献調査などのST11やST38はステップ2の範囲とする。
このようにST31、ST32で行われた技術課題を含む検索の記録と特定人物作成文献抽出の技術課題を含まない検索ST38、ST39の記録とを組合せ同一の文献は第2回目のものから除くと第1回目の文献に第1回目の文献を含まないが第2回目に調査した文献が少なくとも数パーセントという若干はプラスされるのでより多くなり、これを図9文献調査結果要約表の要約リストや図11文献マップなどに分かりやすく表示するため第2回目に追加されたことを示す記号などを付加しても良い。後者のもので例えば技術課題を含まない文献情報に対してST40の様に技術課題に対し類似語検索や文章類似度から再度検索しなおすものを追加した場合は更に別の符号をつけても良い。又これらの選択を入力手段から指示することも出来る。この結果の出力リストの一例を図9の要約リスト、図10の人名リスト、図11の文献マップ(件数)に示す。この図9要約表は文献情報の作成者である最多件数発明者Dを中心とするメンバーにて時系列軸、即ち文献作成日としての出願日順に纏められ、出願日、発明者以外の文献番号のような書誌事項や内容だけでなく、後ほど図8にて詳しく説明する類似文献であるかどうか、その特徴は何かが纏められ各文献の位置付けが一目で見分けられるようにしてある。類似文献かどうかの欄では類似用語が記載されるとともに同一の代表類似用語に対しては*1、*2などの記号で纏められ見やすい表示になっている。このリストでも文献作成者が最多件数順、時系列順に絞られ、且つ、後に記載されるものは既に登録済みの文献情報が除かれるので必要最小限の文献情報が出力纏め手段13にてまとめられることになるST41。なおなお文献時系列データベースに文献情報が纏められているため要約表に記載された順番等は、別の発明者Eで纏めなおされる、或いは同一類似用語、すなわち記号の類似文献群で纏めなおされることが入力指示により簡単に行われる。但し、時系列表示、新しいもの順もしくは古いもの順であることには変わりない。
また図11の文献マップは時系列的に文献作成者チームにおける作成件数が纏められているST41。図11では横軸に調査した期間が記載され、縦軸に抽出された特定個人である中心メンバー毎にチームとして記載された特定人物が記載されているが、横軸縦軸のパラメータの種類や2次元で無く多次元に纏めるなど取り方を変えても良いことは当然である。文献マップ上には類似用語にて代表される類似文献群を示す記号が表示されるとともに、その類似文献群に対応する各文献にはその文献の特徴である非類似用語がそのまま表示される。この類似文献群の表示は入力指示により閾値などの範囲を広げる或いは狭くして他の群へ表示変更可能である。また発明者や著者など各チーム名も指定した特定個人によるチームへ変更できるとともにそれに応じて縦軸の名前や順番も変更できる。特に文献マップの場合、共同作成者を含むため、呼び出したい特定個人名を一番上に持ってくるとマップ読み取りに便利である。これらの変更は各検索において記憶されている時系列データベースを基にして簡単に行うことができる。
図11文献マップの横軸縦軸に対応した個所に、文献件数や文献Noと対応する位置に類似文献記号や文献内容の特徴を記載すると時系列の動きが分かり易くなる。出力纏め手段13で纏められた図10のような人名リスト、図9のような要約リスト、図11のような時系列マップは記録手段15に表示内容変更できるように記録され、必要に応じて通信手段9より外部に発信可能となる。これにより調査依頼者が図3に記載された情報調査装置2であり、調査実行者がネットワーク3で接続された情報調査装置1とすると、ネットワーク3を介して調査依頼者と調査実行者が送受信可能となるST42。なお両方の情報調査装置1、2にて結果表示・記録制御手段14、入出力装置8を介して、表示手段6へ表示される、或いは移動可能な記録媒体7への記録も行うことができる。
なお本発明の特徴として述べた様に図2の1次検索や図7の調査依頼側と相談する前の段階はトライアル的な段階とすることが出来、図9、図10、図11の如く見やすい形で、且つ、焦点を変更可能なように生成されたリストやマップを使用して調査結果を検討して技術動向の流れを分析して纏めることや徹底的な検索を行うための次の検索に繋げることが出来る。
図7では調査依頼側と調査実行側が送受信してST42、検索特定項目を見なおすことによりST43、精度の高い検索を再びST31から繰り返すことが出来る。又検索特定項目の見直しが必要無しとして、更に人数・件数が抽出されST32、まだ特定人物が抽出されていない件数分を継続調査させても良い。しかもこれらの作業は調査依頼者、調査実行者の送受信による相談ST42無しに自動的に連続させる設定でも構わない。即ち、文献マップなどの結果を生成した後で、残りの件数の調査ST44を行い、調査調査残しの件数や検索設定項目が存在すればこの情報調査装置1は自動的に調査継続するかST43−ST45、出力して終了ENDにする。これらは全て単独でトライアルとその後の継続調査を含めあらかじめ入力にて指定されている項目、或いは要求される出力内容などにより連続的な動作として行える。又図4の調査依頼書を貰った調査実行側が単独で調査目的など連絡記入欄を判断しながら全て単独でトライアルとその後の継続調査を含め行える。又調査依頼側はトライアルの結果を貰うだけで情報調査装置2を使用して精度の高い検索を依頼とは別個に後で行うことでもよい。また継続した調査を後ほど期間だけ変えて行うことでもよい。即ち本発明の検索は、何時でも、何処でも、誰でも簡単に且つ精度のよい検索、開発経過を把握する検索を行うことが出来る。更に検索が繰返し継続できるのでサーバーから抽出した全件の調査まで自動的に行うことが出来る。
この様に本発明では、開発を継続して担当している個人の活動、あるいはその個人と関連する複数の個人の活動に注目して、技術課題を含む検索・含まない検索に関係無く特定個人の業績結果である文献情報を時系列で纏めている。この結果、技術課題を含むと区分けされた文献情報の前後に渡り、別の検索フローを組合せてその技術課題に関係するが検索式では抽出されなかった文献情報等を検索の種類を変えるなどにより検討することが出来る。また図2のように異なるキーワードなどの検索式を変えて直列に複数の検索を連続的に行い、或いは図7のようにキーワードで検出した後でその抽出された文献作成者の名前で再度検索するなど検索条件や種類を変えて直列に複数の検索を行い、より厳密な文献調査を行うことが出来る。例えば炭酸ガス冷媒という特定項目では類似語の範囲を検索できたとしても、更に上位の自然冷媒のような用語を使用したり、冷媒の種類を記載せずに装置発明として扱うような場合は従来の検索システムでは調査できなかったり、この範囲まで求めようと分類コード範囲を広げすぎると、あまりに多くのノイズを含む調査となり検討件数が増えて期間、費用などの負担ばかりが大きくなっていた。更に燃料電池の検索では、関連する用語などを含まないイオン交換膜のような部品や材料単独の文献情報、水蒸気改質技術に使用する水蒸気透過膜単独技術の文献情報や発熱対策の構造など、文献内に燃料電池に関する用語が無いものでも、時系列で個人の開発活動をフォローしていく過程を調査していくことにより簡単に把握することが出来る。
なおこの発明で調べたい特定人物が存在する場合はトライアルである1次として先ずその人物名を特定項目としておけば人名・件数抽出以下図2、図7の検索が行われることになる。その場合共同著者などを含めリストが求められることになる。又トライアルで技術課題を燃料電池としておき、このトライアルの抽出した技術課題を含む文献情報の中から、良く使われている用語、例えば水蒸気透過膜という言葉が1つの文献中に複数使用される、或いは複数の文献に使用されることを図2のST22にて自動的に抽出しその言葉を次の検索段階の特定項目や特定技術課題として追加し再検索を継続させることも可能である。即ち、これら再検索に付いては人が行っても、あるいは、自動的に言葉を抽出させる方法でも良い。
調査実行側が調査を商売として行う時でも、図2や図7のフローチャートで述べた検索システムのプログラムをネットワーク3にて配信する様にしても構わない。プログラム利用者側で、配信された検索プログラムにて配信した調査実行側のデータベースにアクセスして自由に検索が行える。この場合ST42、ST43のような調査実行側との通信により調査のエキスパートに相談して検索の精度を高めることが出来る。なお図2、図7に対し階層検索を直列的に行う例で説明したが、図4の入力次第で1次検索だけの検索を行う、或いはそれぞれの検索結果を単独でデータベースとするなどが可能なことは当然である。
図7の情報調査の動作を説明するフローチャートは図3の構成図における情報サーバー21、22から入手し抽出結果記録手段12に記憶させた文献の書誌事項や全文内容などの文献情報を、特定個人選択手段11にて処理する動作のものであるが、次にこの記憶された文献情報が用語抽出手段16を介して処理される動作を図8のフローチャートで説明する。図8においてST31−ST33までは図7のものであって、抽出結果記録手段12に記憶させた文献を用語抽出手段16、ベクトル生成手段17、類似分類手段18にて全数文章の類似度を算出する。上記で説明した様に情報サーバー21、22などから単数もしくは複数種類の検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶され、図8のST46のように抽出結果である文献全文の内容により類似文献を判断するため文献内の全文章に使用されている用語の出現数分布を用語抽出手段16にて求める。ここでは用語の一例として名詞を選択するものとし、この名詞を予め記憶させた名詞辞書とつき合わせ求める、あるいはこの辞書を学習により内容増加なども可能であるが、ここでは一文字で無い複数の漢字文字、連接したカタカナ文字、連接した外国文字等を名詞として定義し抽出する。但し、出現数分布算定を行う前に語と語の関係を表す機能語、即ち助詞や助動詞、あるいは内容を示す語句であっても文章の特徴づけには直接関与しない言葉で、ある、ない、する、成る等の動詞は不要語のリストを設けそれらの不要語は用語抽出手段16にて予め除去しておく。記憶装置に設けた不要語リストにはとして、て、に、を、は、で、等の助詞や、有する、得る、した、される等の動詞類は説明したが、文言、文章の接続に使用される、おいて、対し、関し、例えば、次に、ともに、更に、様な、若しくは、すなわちなどの接続詞や文章の意味をつなぐ言葉、これら、それ、もの、こと、それぞれ、上記、前記、該や文言、文章を強調する言葉、特に、その上、ほぼ、大略、等を含むものとし、文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析をしてこれらの不要語をリストと参照して除くことになる。
名詞辞書、類義語辞書等リストや辞書を設ける場合はこの辞書と用語を比較しながらその中にある用語から選択するが、その場合は記憶容量の大きな別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となるしまたどの分野の調査を行うかで辞書の選択が必要になるなどの問題が残る。このため先ず不要語を除き名詞を選択することにする。文献として論文や特許公開公報全文のような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくるため出現数も1から多数回までさまざまに分布することとなる。したがって、文献の文章数が多くてもノイズや無駄を省き効率良く特徴ベクトルを演算するため、この出現数分布を0−1値で表し、ゼロに近い少ない出現数の部分を、例えば閾値等を設定し抽出しない。即ち中程度以上の頻度を類似用語抽出に選択すると共にこの閾値を設定変更可能なものとする。例えば出現数分布0.4−1.0である出現数中間部以上の定義された名詞を抽出し、この分布設定は入力手段5により変更できるが、一つの文献に対し抽出されたこの一群の名詞列を用いてこの文献のほかの文献との関連度を索引語・文書行列から求める。この際出現数、即ち出現頻度にて重み付けしたベクトル演算ST47を行うベクトル生成手段17にて類似度を求める。次に類似分類手段18にて類似文献を纏めるが、この得られた一つの類似文献群の表示は一つの文献とほかの文献との関連度の近い文献群から集められた名詞群から、或いはベクトル運算結果である類似後から新たなキーワードとなる名詞を選択し図9の類似用語欄に記載して表示する。例えば各類似文献群の頻度の高い複数の名詞をそのまま類似文献の代表類似用語として図9出力リストの各文献欄に表示しても良い。
ベクトル生成手段17にて文書を複数の名詞の重みベクトルで表現し列ベクトルを一つの文書とすると複数の文書であるこの列ベクトル同士の類似度を余弦などで計算して求める。なお定義された名詞を抽出するのではなく形態素解析によりキーワードを抽出すると共にキーワード間の関係を抽出しても良い。この場合は文献全数に対しキーワード数とキーワード間の間係数の次元を有するベクトルが得られ上記と同様に出現頻度から特徴ベクトルを求め各文献の間の類似度が計算できその結果からクラスタリングが可能になる。キーワード間の関係は構文解析の結果として得られる係り受けの関係やキーワード間の距離の近いものとする。一例としてキーワード間の距離の近いもの、例えばキーワード間の文字数、形態素数、文節数、文数、段数、方向などを求め、ベクトル生成手段17に同一キーワード群に含まれるキーワードやキーワード間の関係を記憶させる、或いは学習させる機能を設けておけば、そのカテゴリを代表するキーワードやキーワード間の関係の出現頻度として纏めることが出来る。これらにより類似度計算の精度が向上し検索を効率化することが出来る。このようなST46-ST49を各文書毎ごとに繰返し抽出され記憶された全文献のベクトルが生成されると類似分類手段18にて各類似文献群が区分けされ各類似文献群を表す記号と代表類似用語が設定される。この区分けに対し外部入力により固定された閾値を変化させて行う説明を行ってきたが、例えばファジー推論を用いてこの閾値を設定するようにしても良い。形態要素などの解析が行われ不要語が除去されて特定用語を抽出する際に、この特定用語が定義された名詞であろうと除かれた以外の全ての用語であろうと出現頻度を演算されてその出現数分布が求められる。特許の公開公報や公表公報、或いは論文など類似文献群を纏めるための類似用語設定は例えば所定閾値以上の出現頻度の特定用語が使用される。この閾値を推論する推論エンジンとして、特許文献対応、論文対応などに分けてもよいし、特定個人で纏める場合はその特定個人対応のエンジンに分けても良い。なお特許文献対応に対し類似特許調査と類似特許の中での差異である特徴部分を調査する場合とではエンジンを分けると良い。推論におけるIF-THENルールのIF横軸には文献文章量、例えば文献ペ−ジ数などをとる。THEN横軸には閾値をとり、過去の文献にて採用し文章量に対応したその精度を確認済みの閾値が新しい文献の分析に使用できることになる。この様にファジー推論の場合には2値判断よりも、エキスパートが設定し確認済みの閾値を採用することができ誰でも同じような分析が可能になる。なお推論に使用するメンバーシップ関数の設定調整などが可能であり対象文献の種類、調査目的等に応じて、あるいは誰でもが調査専門家の考えで有用な調査を行うことも出来る。
更に図8のフローでは用語抽出手段16にて類似用語を抽出し、不要語などを除去した後で各文献を類似群に区分けすることなく類似用語を抽出する際に排除された範囲で各文献から非抽出用語の抽出を行うST51。用語抽出手段16にて不要語として除去された後で閾値や名詞ではないとして排除され抽出されなかった用語である、出現数分布が閾値より小さな名詞、一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などであって、出現回数が1、2回等の極少数回よりも多く、且つ、出現数分布が0.4以下などの閾値を有する用語を非類似用語として非類似用語分類手段19にて別に抽出し、この用語をその文献の出力纏め手段13にて図9の出願リストの非類似用語欄に記載する。すなわち類似文献群の中で各文献のおのおの特徴的な内容を示す非類似用語を抽出することにより類似文献群の中の文献毎による違いを知ることが出来る。この違いを図9出力リストに記載する場合、あまりにしばしば現れる用語では一つの文献特有なほかとは違う特徴を示すことにならないため名詞でないと判断された用語を名詞と判断されたものと同様に出現数の少ない方を選択し、且つ、類似用語から排除された用語、即ち類似の判断に使用されていないで且つ少ない出現数でありこのため類似の中での違いを示すそれざれの文献に特有な特徴用語であり、しかも特徴を強調するため少なくとも2回を越える出現数として選択している。しかも用語抽出手段16にて排除され、不要後が除去されたものの後で非類似用語分類手段19にて選択しており、抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。更にこの非類似用語を抽出する閾値にメンバーシップ関数などを用いても良いし、これらの選択を行う閾値を外部入力により変更できるものとしておくと、文献の対象の種類に応じて変更でき、あるいは専門家が検索に複数回トライして設定した条件を使用することにより誰でもが精度の良い調査を効率的に行うことが可能になる。なお英語などの区切りのある言語に対しては文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により辞書との関係で言語解析を行うことが有効である。
図8のフローでは類似文献群に分類され代表類似用語が各文献に付けられた後で、各文献から図7で説明したST38にて特定人物が抽出される。この場合図7におけるST34-ST37の繰り返しにより全文献に対しチームとして纏めても良いし、単に各文献毎に文献作成者と文献作成日時を纏めるだけでも良い。次に特定人物作成文献時系列データベースが作成されるST53。この後のフローは図7ST41へと続く。この特定人物作成文献時系列データベースは出力纏め手段13にて作成され出力纏め手段13もしくは記録手段15内の記憶装置に記録されており、この内容を基に入力手段5の指示により図9ないし図11のような出力がそれぞれ順番や記載内容を変更できる様に例えば記録手段15から出力纏め手段13に呼び出されて纏められ結果表示・記録制御手段14、入出力装置8を介して表示手段6あるいは記録媒体へ出力される。図2のST21や図7のST39と図8のST53にて作成され記録された特定人物文献時系列データを組合せたものから出力纏め手段13で図11の文献マップを作成することが出来る。もちろん図8のST53のみにて作成され記録された特定人物文献時系列データから図12の文献マップを得ても良い。なお、図11と12の文献マップでは類似文献群を対象に非類似用語を記載しているが非類似用語の分類と設定を行わない場合や非抽出用語分類手段19を設けない場合にはこの各文献特有な情報は記載されない。図8は図7の一部を並列に処理するフローチャートとして示し、これを纏めた場合直列の処理フローと並列の処理フローが組み合わされたものを説明している。図7と図8の検索フローは並列に設けられ抽出結果記録手段12二記録された同一の調査データをもとにそれぞれ検索フローにおける検索が平行して行われ、それぞれの文献時系列データベースが作成される。この別々の時系列データベースが合成されて図9の要約表のようなものとしてST41リストが纏められる。この2つのフローにて得られるデータベースとして図5の要約表に図8から得られた類似用語などが追加されただけである。これは、抽出結果記録手段に記録された文献の文献情報が図7と図8では全く同一か、或いは特定人物抽出による第2回目文献調査を含めても文献の大半が同一のものであり、キーとなる文献作成日時、作成者、文献番号などが共通であり簡単に合成できるためである。文献時系列データベース作成として、ST39とST53に分けて説明しなくとも後から得られるデータを追加するだけでも良いが、それぞれ独立し異なる種類の検索モジュールとして、更にその上アクセスする情報サーバーまでが違うケースもありうるため検索処理を行わせるケースを想定しそれぞれの検索フローごとに文献時系列データベースを設けたものである。
この様にこの図7と図8がそれぞれ独立したフローの処理を行うものであっても良いし、また図7のST33乃至ST37の検索フローである特定個人選択手段11と図8のST33乃至ST49の検索フローである用語を抽出しベクトルを生成する手段16、17を並列や直列に接続することにより大量の文献情報に対しても簡単に且つ誰でも理解しやすい出力を得ることができる。このように各検索フローをモジュール化して並列処理、直列処理、独立処理に切り替えることが、装置の接続変更により、或いは、入力設定からの自動的な回路選択により、或いは、要求出力からの自動的な回路選択により、或いは全ての検索処理回路を切換ずに接続し、常に動作させておくことにより検索処理を実行できる便利な装置が得られる。しかもそれぞれの検索フローの得られた処理結果を蓄える文献時系列データベースST21、ST39、ST53を設けることにより、或いはキーとなる文献作成日時、作成者、文献番号などを記載した基本のデータベースを設けておきこれに各検索フローからのデータを追加記載していくことにより、出力を得るためのデータベースが簡単に合成できる。文献時系列データベース作成として、それぞれ分けてもよいし後から得られるデータを追加するだけでも良いことになる。
すなわち図2のフローチャートや図7と図8のフローチャートはそれぞれ複数の検索フローが直列や並列に処理を行う様に組合されたフローチャートを説明したが、各検索フローである検索を処理し結果を纏める各モジュールをそれぞれ独立させたものを単独にて保有する情報調査装置1、2等を設ける構造でも良い。あるいは情報調査装置1に図1や図3の検索フローを直列や並列接続しこの接続した回路に情報を流す構成のように独立させた図2と図7と図8のフローを設ける構成でその処理を入力手段5にて選択する、或いは複数のモジュールである各検索フローによる調査をそれぞれ行わせることも可能である。あるいは図2他を全部一体に組み合わされたフローとしても良い。この様にこの発明の別々の構成で異なる検索処理を行う図2、図7、図8で示すような各フローをそれぞれの単独或いは直列接続された部分フロー、或いは3次以上の検索フローに一体に組合せ情報を流す回路にする構成が可能であり、例えば図13のように各検索フローであるモジュールを一つの網目状に纏めた検索ネットワークに組合せることができる。図13は例として示す一つの検索ネットワーク構造図を示し、この検索ネットワークは1台のパソコン内に形成させても良いし、複数のパソコンで通信により接続して構成するものでも良くいずれにしろ今まで説明してきたように文献情報の検索を同一処理や異なる処理などの複数の検索フローをモジュールとして結び付けてネットワーク回路を形成している。図13、図14、図15にこのようなそれぞれ検索処理内容や検索する情報範囲が同一や異なる各検索フローである1次キーワード検索、1次人名検索、2次キーワード検索、2次人名検索、類似文献群検索、非類似用語検索103−108等の検索フローモジュールをネットワーク回路のノードとし、入力側ノードである検索特定項目入力手段101とサーバーから文献情報入手手段102から、出力側ノードである時系列データベース作成手段109と出力手段110へ接続されてネットとワーク回路を形成している。
図13乃至図15はそれぞれ文献情報を処理する方法、内容が同一や異なる各検索フローをネットワーク接続した構成図である。すなわちキーワード検索により抽出し記録させた文献情報から特定人物抽出しデータベース化する際の検索フロー(図2ではST3−7、ST8、ST11等)である1次キーワード検索、2次キーワード検索、等一番目の検索モジュールがある。なお人名検索により抽出し記録させた文献情報から特定人物抽出しデータベース化する際の検索フロー(図2ではST3−7、ST8、ST11等)である1次人名検索、2次人名検索という等、特定人物を選択するという処理手順の点では前のものと同一フローであるが起点102である分析すべき文献情報が異なる検索モジュールもある。更に、図3に示す用語抽出手段などの構成による類似文献群検索フローおよび非類似用語検索フロー(図8ではST33、ST46−ST50、ST51、ST52、ST38等)である一番目とは異なる検索処理の手順を有するニ番目の検索モジュールがある。なお非類似用語検索フローを三番目の検索モジュールとしても良いし、類似文献群検索フローの言語構成解析の方法を変えたものとして別の四番目、五番目の検索モジュールを設けるネットワークでも構わない。すなわち情報調査装置における情報を処理する手段では異なる複数の検索モジュールと、また更にこれらのモジュールを更に細かい区分けとして上記で説明した起点における文献情報入手にキーワードにて抽出したモジュール1aと人名で抽出したモジュール1bを区分けする、或いは1つの情報サーバーからモジュール1aとは異なるキーワードで抽出し記録させたモジュール1cを区分けする、或いは複数の情報サーバーから同じキーワードで抽出し記録させたものを区分けするモジュール1dであっても良い。このように検索処理の手順が異なるモジュールをそれぞれ組合せて文献情報を処理することにより検索処理を行うネットワーク構造が形成される。また、検索処理の手順は同じでも処理すべき文献情報を変化させるモジュールを複数設けることにより別の網目状のネットワーク構造が形成される。更にこのような両方のネットワークを組合せても良い。次にこのような検索ネットワーク構造について説明する。
図13乃至15はそれぞれ検索構成や検索範囲が同一や異なる各検索フロー、103−108等の検索フローモジュールをネットワークのノードとし、入力側ノードである検索特定項目入力手段101とサーバーから文献情報入手手段102から、出力側ノードである時系列データベース作成手段109と出力手段110へ接続されて情報を流すネットワーク回路を形成している。図13乃至図15における起点となる検索特定項目入力手段101、111,121は、図1、図3における入出力装置8、検索式生成手段10の処理を行うものである。またネット構造の網目の一端であるサーバーが文献情報入手手段102、112,122とは図1、図3における通信手段9と抽出結果記録手段12での処理を行うもので、図2におけるST2、ST11や図7におけるST32、ST38等の文献抽出動作を含むものである。検索ネット構造の網目の他端となる時系列データベース作成手段109、119,129は出力纏め手段13に設けられ出口となる出力処理手段110、120,130と接続され、図2のST21、図7のST39、図8のST53を示す。図13における網目の接点、すなわちノードを形成し具体的な検索処理を行う各検索フローモジュールは図2、図7、図8にて説明してきたそれぞれ個別のモジュールである検索フローであって、起点102とはそれぞれ異なる検索モジュールの各種類103,104,105,106が接続される。主たる検索となりうる1次キーワード検索103、1次人名検索104、類似文献群検索105の各検索フローモジュールは網目の起点102から文献情報を受けて各検索フローでの処理を平行して行うことができ、ここの検索内容を図9などのようにそれぞれ纏め時系列データベース109に記録する、或いは各検索フロー結果を一つに纏めて記録することができる。また図13における各2次検索フロー各種は主たる検索フローと直列的に接続され、全ての検索フローはネット構造の網目の他端となる時系列データベース作成に接続されている。なお図13では類似文献群検索フローとして1次だけを記載したがこれは複数設けても良い。図13のネットワーク構造では調査範囲を変更しながら1次と2次にて行うような複雑な処理が簡単に行える。
図13の各検索フローモジュールの接続を変更し図14のように起点112と主たるフロー113,114,115などとの間を往復可能、すなわち1次キーワード検索113を実行した後で再び文献情報を取り直して他の種類の検索を行うこともできる。一方非類似用語検索フロー116だけは起点112との間で一方通行の情報の流れであるが類似文献群フロー115からのルートが存在している。なお図14は1次検索フローだけのモジュールで文献情報の纏めを行うネットワーク構造を形成している。更に図15のネットワーク構造では同一種類の検索である1次検索と2次検索を直列接続せずに並列接続し処理能力を増大させている。図13は第1のモジュールを複数の並列にそれぞれ直列の回路を設けたもので入口から出口に一方向に情報が流れる検索ネット構造でありどのような情報に対しても容易に対応できる構成を示している。図14のものは第1のモジュール、第2のモジュールなどをそれぞれ複数並列に設け、入口との間の情報の流れを双方向としたものでフローチャートにて一連の動作処理を終えた後で何処に戻すかだけの選択であり簡単な構造が可能である。もちろん図14のネットワーク構造で一方向とすると更に簡単になる。図15のものは大量の情報に対してもさまざまな出力が可能な構成を示している。
図13等に示す検索ネットワーク構造は入力側特に起点102、112,122にてネット3からダウンロードされて記憶された文献情報が網目であるネットワーク構造へ供給され、各モジュールにて情報が処理されて出力側109、119,129にてデータベースが作成される。このネットワーク構造は各モジュールであるノードが入力から出力にかけてほぼ規則的に設けられた構造であり、キーワード検索フロー、人名検索フロー、類似文献群検索フローは1次、2次だけでなく更に高次のものも可能である。但し非類似用語検索のフローを接続するノードを変則的に設けており、情報流れ方向が不規則な流れとなる構造が含まれることも示している。また図13乃至図15は検索処理の手順が異なるモジュールをそれぞれ組合せて文献情報を処理する処理内容で説明しているが例えば図13の各検索モジュールを全て個人情報に基づく処理であるキーワード検索としても良い。その場合は非類似用語検索のフローを接続するノードのような変則的なものはなくなるが、図13に記載した出口である終点までを通過するノードの数が異なる、すなわち規則的なネットワークとせずに長い経路と短い経路のパスとなる回路を設けると情報処理の内容が増え、伝達の効率が良い。ただし長い回路は少なくしておくと構成が簡単になる。このように情報調査を行う装置に各検索フローをノードとする一部アンバランスなネットワーク構造を取り入れて、既に説明したように全てに文献情報を流すものとしている。ただし入力手段5の設定による制御装置4の制御にて各検索フローを選択したり、或いは切り離したり、或いは文献情報の流れを制御せずに自由に流したりが可能な構成でも良い。また網目構造を拡大したり縮小したりするなど図2、図7、図8のようなフローチャートを組合せたり或いはそれぞれを独立させたりして特定の通路の処理によりあるいは同時に複数の通路を生かす処理により異なる範囲の調査、異なる内容の調査、異なる目的の調査、など調査が異なるのみならず異なる結果の表示あるいは複数の異なる結果の表示を可能にする検索ネットワーク構造が出来あがる。また更に少なくとも網目の出口である時系列データベース109、119,129にはこの検索ネットワークの全てのノードを接続させたまま同時に検索処理を行なった結果である個別の検索結果を、或いは全検索結果の必要最小限の情報が纏められた状態で記録されているので、さまざまな出力内容を出力させたり表示させたりすることができる。この場合、文献作成日時、作成者、文献番号等が共通の符号が存在し簡単に纏められる。或いは各検索フローであるノードからの検索処理されたデータは時系列データベース作成109、119,129に集められ、集められたここのデータから共通部分とそれぞれのノードにて追加などされた部分が出力に纏められ、要求される出力フォームもしくは標準出力フォームにて出力される構成も可能である。
例えばこのネットワーク構造におけるノード全通路や部分切換などの検索フローである通路選択により目的の情報を得る効率的な調査、目的の情報を記載した文献を得る徹底的な調査、広い問題や特定の問題など、あるいは特定個人の過去情報の流れを得るなどの動向調査、等多くの異なる検索を可能にする装置が得られる。このような通路選択は入力手段5にて通路を指定する、出力内容を指定する、入力の種類を区分けする、あるいは何も指定せずにあらかじめ設定されている標準出力とするなどが何でも可能である。これらの指定や区分けにより検索ネットワーク内を文献情報が流れて処理され出力される。なお図13にては1次と2次の階層としているがこれを3次以上の複数階層構成にしても良いし、或いは図14のように1次だけ並列処理構成或いはどれか一つの検索モジュール1つと他の検索モジュール1つを並列にするなどという簡素な網目にしても良い。また更に図15等に対し起点102などに記憶された情報を複数設け同一や異なる種類の複数のモジュールにより並行処理させることも可能である。この場合複数の情報サーバー21、22から入手した、同一検索式の異なる文献情報を区分けして情報検索処理を1次と2次に自動的に区分けする、或いは時間差を設けて空いているフローへ流して個別に処理させるなどフレキシブルな処理が可能になる。この構成をとることにより本発明の調査装置をインターネットなどに接続したまま自動的に情報の入手を行わせ、情報の入手のたびに異なるモジュールにて処理させる手順を繰り返し、その得られた情報を図図11や図12のような情報時系列マップに表示させておくことにより常に最新のデータが纏められる装置や方法が得られる。この様な連続的な動作により継続した情報調査が自動的に行える。
さらにはまた類似文献群検索105はサーバー文献情報入手に対し各1次検索フローに並列に設ける構成で説明しているが、各1次検索フローの前後に設け直列接続などの構成でも良い。更には図では示していないがエキスパートシステムである図7に示すST42などの相談を行う送受信パスの有無を随時組み込むノード構成により形成される検索ネットワーク構造でも良い。図13の構成にて例えば図2の同一内容の技術課題に対してもキーワード設定の広い狭いなど複数の階層の調査が行える、或いは単一階層だけの調査の選択が出来る。図7のように例えば技術課題と人名の調査および類似用語抽出による調査の選択が出来る。図2と図7の組合せも可能であり、キーワードと人名を多層にて検索することが可能である。但し、非類似用語検索106は類似文献群検索105と組合せて使用している。更には各ノードを生かす検索をさまざまな状態で行わせて特定人物作成文献時系列デーベースを記録媒体に記録しておき、この記録媒体を持ち運んでさまざまな場所、あるいは複数の調査メンバーにて異なる調査を同時に平行に進めることなども可能になる。また図13の検索ネットワーク構造では起点102とノード103,104他と往復できる構造を説明したが入口から出口への一方的な流れの構造でも良いし、各ノードと出口との間で往復させても良い。これらはフローチャート図2、図7、図8にて形成できるものであれば良い。
図13乃至図15では分かりやすくするため各手段や検索フローモジュールの番号を変えて説明しているが、図13、図14、図15は文献情報が流れる通路が切り替えられている状態を示すものであって、すなわちあたかも網目接続を変えた形のようになっている状態を示すものであり、例えば多くのモジュールを設ける構造で出力内容によりこのように網目状態に変化させても良い。出力図6に対して図13の例ではフロー103だけ、フロー104だけ、フロー103経由107または108のものなど、図14の例ではフロー113経由114のものなど、図15の例ではフロー123経由128や124経由で127などのもの、等多くの選択パターが存在する。更に図12の文献マップに対しては、図13の例ではフロー105経由107や108など、図14の例ではフロー113経由115から116、或いは115経由116から114へなど、図15の例ではフロー125,126,127が、或いは125,126,128などが選択可能である。これらパターンの選択を入力手段5を設定して切り替えても良いし、このようなパターン図とそのパターンにおける出力内容を画面に表示させてどのパターンが得たいかを選択させることも可能である。各パターンを情報の流れに応じて自由に平行に動作させ処理しそれぞれ時系列データベースを作成させてこの時系列データベースの上で合成させても良い。さらには各パターンを平行に動作させ処理しそれぞれ時系列データベースを作成させて要求された出力内容が得られるデータベースが得られた時点で他の処理を中止させるなどの最短処理を優先させるものでも良い。あるいは各処理における時系列データベースを全て記録させ、出力内容の要求変更に対処できるものでも良い。出力図11に対してもフロー103経由フロー105のもの、或いはこの逆のフローのもの等、或いは出力図12に対しては、フロー105経由106のものなど多くのパターンが形成可能である。この発明におけるネットワーク構造の特徴として各フローである検索モジュールに時系列データベースを融資、各検索モジュールで纏められたものが次のモジュールで前のものに無いデータが追加されて出口の終点の時系列データベースに図9のように全ての情報が集約されるので自由な情報の流れによる処理結果でも最終的な出力としては要求の形式のものが速く得られることになる。
もっと単純な構成のネットワーク構造としては図14を参考にすると、始点112と終点119の間を1次キーワード検索モジュール113が一方向であって、且つ、同じ113を2並列にするか、或いは始点と終点の間に113と114を2並列にする。或いは始点と終点の間を115と116という図14の一部省略した構造のものだけにするということが言える。図16にこのような構成の場合の概略構成図を示す。図16はこの発明の図1や図3とは異なる構成を説明するシステム説明図である。図16において図3と同様に情報調査装置1はLAN、インターネットなどのネットワーク3に接続され、このネットワーク3に接続された文献情報サーバー21や特許情報サーバー22、あるいは情報データベース23などにアクセスして文献情報を引き出す、あるいは加工した情報を情報調査装置2やデータベース23へ送り出す様に構成されている。情報調査装置1は情報の検索やマップ作成などを行う制御装置4である、例えばパソコンの演算部や記憶部などと、検索に必要なデータを入力する入力手段5、検索する検索式や検索結果である抽出したリストなどを表示可能な表示手段6、入出力結果を記憶する記憶媒体7から構成されている。
制御装置4にはネットワーク3など外部との通信のやり取りを行うインターフェースである通信手段9、入出力の処理を行う入出力装置8、入力手段5などから入力された検索すべき中身を入出力装置8を介して受け取り検索式を生成して外部のサーバーへ通信接続させて検索を行う検索式生成手段10が存在する。情報サーバー21、22などから検索式に基づいて抽出した文献情報や他の情報調査装置2や情報サーバデータベース23で纏められた情報は抽出結果記録手段12に一時的に記憶させる。図16では図3に示された特定個人選択手段11が外されたものとして記載されている。サーバーからの抽出結果である文献全文が抽出結果記録手段12から順次引き出され、その内容により類似文献を判断するために先ず用語を図16の用語抽出手段16にて抽出する。文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析により言語解析を行なっているが、先ず不要語を除く。例えば助詞や助動詞などは文章の内容を直接表しているものではなくこのような文字は言語解析を行わずに不要語として除くと解析が簡単になる。ここでは用語抽出手段16で抽出する言葉の一例として名詞を選択するものとし、この抽出する名詞として複数の漢字文字、連接したカタカナ文字等を定義し、一文字の漢字文字とその連接しているひらがな、或いは独立した連接ひらがな、数字などは非抽出用語とする。当然ながら名詞辞書を設けてこの辞書と用語を比較しながらその中にある用語から選択しても良いが、その場合は別のマイコンや記憶装置に辞書を設けその辞書とのやり取りが必要となる。特別な辞書を設けずに不要語のみをマイコンなどの記憶装置にリストとして記憶させる簡単な構成にすると処理が便利である。また文献として特許公開公報全文、論文集など取扱量が多いような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくる。その出現数は1回から多数回までさまざまに分布することとなる。したがって、不要語を除き、定義された名詞だけを抽出する場合、この抽出された名詞の出現数分布を0−1値で表す。すなわち最多出現数を1とし、出現しない数をゼロとしておく。抽出された名詞列から類似文献調査のため各文献に記載された文章の特徴ベクトルを演算するため先ず出現数の少ない名詞を閾値により除く。例えば出現数分布0.4−1.0である出現数中間部から多数部に欠けての名詞を抽出し、この名詞を用いてこの文献のほかの文献との関連度をベクトル生成手段17にてベクトル演算し、類似分類手段18にて類似文献通しを纏めなおす。この得られた一つの類似文献群の表示は一文献のほかの文献との関連度の近い文献から集められた名詞群の中から新たなキーワードとなる名詞を選択するなどが考えられる。用語抽出手段16にて不要語が除かれた後で、抽出されなかった用語から非抽出用語を更に非抽出用語抽出手段29にて抽出してこの文献の特徴語として纏めることが出来る。なお文章量の少ない公開公報など特許文献の場合は閾値を無くして非抽出用語の抽出を行わない、或いは閾値を1桁の少ない複数回として非抽出用語の抽出を行わないなど、すなわち類似用語を分類するだけで分析可能であり有効である。
図16の情報処理装置構成にて処理する文献情報の具体的な処理内容を図17のフローチャートで説明する。図16において検索特定項目入力、人名件数抽出、文献ナンバーであるiを設定するST31−ST33までは従来と同じでデータベース作成時に必要なキーと成る各文献毎の書誌事項を得ることが出来る。抽出結果記録手段12に記憶させた文献を用語抽出手段16、ベクトル生成手段17、類似分類手段18にて文章の類似度を算出すべく、文書を形態要素解析しST61、不要語を除去しST62、文献内の全部の文章から定義された名詞が使用されている数を得るため名詞出現数分布を算定するST46。この名詞を予め記憶させた名詞辞書とつき合わせ求める、あるいはこの辞書を学習により内容増加なども可能である。ここでは簡単化のため一文字で無い複数の漢字文字、連接したカタカナ文字、連接した外国文字等を名詞として定義し抽出する。但し、出現数分布算定を行う前に語と語の関係を表す機能語、あるいは内容を示す語句であっても文章の特徴づけには直接関与しない言葉等は不要語のリストを設け予め除去しておく。不要語リストとして、て、に、を、は、で、等の助詞や、成る、有する、得る、した、される等の動詞類、文言、文章の接続に使用される、おいて、対し、関し、例えば、次に、ともに、更に、様な、若しくは、すなわちなどの接続詞や文章の意味をつなぐ言葉、これら、それ、もの、こと、それぞれ、上記、前記、該や文言、文章を強調する言葉、特に、その上、ほぼ、大略、等を含むものとし、文献の文章から意味を持つ最小単位である形態素の同定と形態素の品詞の同定を行う形態素解析をして、これらの不要語をリストと参照して除くことになる。
文献として論文や特許公開公報全文のような場合、文章数が多く名詞の量も膨大で同じ言葉が何回も出てくるため出現数も1から多数回までさまざまに分布する。文献の文章数が多くてもノイズや無駄を省き効率良く特徴ベクトルを演算するため、この出現数分布を0−1値で表し、ゼロに近い少ない出現数の部分を、例えば閾値等を設定し抽出させないなどの出現率を判断するST63。この出現率が大きい場合、例えば中程度以上の頻度を類似用語抽出に選択すると共に、出現率の小さい名詞や名詞と定義されないため抽出されなかった用語を非抽出用語として別途抽出するST64。出現率判断ST63のため簡単な閾値を設定し、且つその閾値を自由に変更可能なものとする。例えば出現数分布0.4−1.0である出現数中間部以上の定義された名詞を抽出し、一つの文献に対し抽出されたこの一群の名詞列を用いてこの文献と他の文献との関連度を索引語・文書行列から求める。この際出現回数、即ち出現頻度にて重み付けした文献文章ベクトル演算ST47を行い文献相互間の類似度を求める。全文献に対し類似度が求められ類似文献を纏められると、この得られた類似文献群の表示のため類似用語が設定されるST70。この類似語として一つの文献とほかの文献との関連度の近い文献群から集められた名詞群から、或いはベクトル運算結果である類似語から新たなキーワードとなる名詞を選択しても良いし、出現率のより高い抽出された明熾烈の用語をそのまま使用しても良い。又、抽出された出現率の低い名詞列などの非抽出語も設定されST65、図8の特定人物作成時系列データベース作成ST53と共通項目を有して相互に纏め可能に同様な形式で用語データベースとして纏められるST66。例えば各類似文献群の頻度の高い複数の名詞をそのまま類似文献の代表類似用語として纏めた例であって、且つ、一つの文献内の用語を纏めた例を図18、図19に示す。なお、閾値で設定される出現数分布として出現数中間数0.4を選択したが、この閾値は文献の種類、例えば一般書籍のような広い範囲を網羅する文献情報は広い範囲の用語を抽出し類似用語に纏めることが適しており中間値0.5に近い数値を選択している。技術範囲が限定された論文のような文献情報では、0.1−03程度でよいし、更に発明のポイントが絞られる特許公開公報では、0.07−0.13ぐらいの、例えば0.1の閾値とすればよい。更に、後に説明する様に1つの文献情報の内容を纏めるような場合も小さな閾値が望ましい。この出現率の判断は閾値でも良いが、0-1値ということでファジー推論などを使用しても良い。その場合入力手段5によりその数値を選択できるようにしておくと使い勝手が良い。
また用語抽出手段16にて排除され抽出されなかった不要語以外の用語、例えば出現数分布の閾値より少ない出現回数の定義された名詞、さらには、名詞の定義範囲外として排除された動詞などで一文字の漢字文字とその連接ひらがな、或いは独立した連接ひらがな、数字などである。これらは出現回数が2、3回よりも多い、などを条件として非抽出用語抽出手段29にて別に抽出する。すなわち類似文献を分析する場合や文章の大意を掴む際に用語抽出手段16にて抽出され類似分類手段にて類似性が分類された用語である名詞列の利用が有効であるが、各文献毎の特徴的な内容はそれよりも少ない出現数である非類似用語として抽出され特徴ベクトルにより分類された範囲に存在する可能性が高い。したがって名詞の定義範囲外として抽出されなかった動詞なども説明図見の閾値などに関連させて出現回数を少ない方を選択すると良い。この様に非抽出用語を抽出する場合、既に説明したようにあまりにしばしば現れる用語、例えば英語では代名詞やbe動詞、冠詞、或いは日本語外国語を問わず文章形式によりあらかじめ約束事として決められている言葉である段落番号や前記などは特徴を示すことにならないため不要語として除かれ、且つ出現数の多い名詞列も最初から除いた上で出現数の少ない方を選択する。不要語や類似用語から排除された用語で且つ閾値よりも少ない出現数であるため既に抽出された類似用語で代表される類似の中で違いを示す特徴用語として扱うことが出来る。しかも特徴を強調するため少なくとも2、3回等の所定数を越える出現数として選択している。用語抽出手段16にて排除されたものの後で非抽出用語抽出手段19にて選択しており、類似用語として抽出の際採用されなかったものから選択できるので簡単な構成で実現できる。出力纏め手段13ではデータベースを作成しST66、且つ、既に説明済みの文献マップ他が作成されるST67。データベースには文献情報から求められた個人名や各用語を図9の出力リスト、図10の人名リスト、図11のマップなどの形態に纏めなおすことになる。なお図9、図10、図11は一例であってこの中の一部を省略することや、内容を入れ替えることや、更に内容を追加する、例えば文献内容に図面を主体にするなどをしても良い。すなわち文献投稿日や出願日など発表内容を作成したり纏めたりした日時に最も近い日付順、すなわち時系列軸に文献内容や文献書誌事項とともに出力結果を見やすくしたマップや要約内容を纏めたリストに纏められる。この場合外部のデータベースに表示されている要約や文章中の特定個所、図面などから要約内容を纏めても良い。
図18、図19は図16の装置構成にて作成されたデータベースの代表例を説明する図であるが、簡単化のため類似用語などを求めるベクトル計算をしない状態の抽出した用語をそのまま使用している。また図18は複数の文献を処理する場合の例であるが、図19は一つの書籍を例として、文章の区切りである省毎の類似用語と非抽出用語とで書籍内容を紹介できるデータベースが成り立つことを説明している。図18はデータベースとしての用語調査結果であって、図9の文献調査結果要約表と同様に文献作成日時、文献番号というような書誌事項が存在し、特定個人である作成者の記載がなくとも他の種類の検索結果と一緒に共通のデータベースに纏めることが出来る。内容欄には出現率大と判断された名詞である抽出用語と抽出範囲外から抽出された非抽出用語が記載されているが、既に説明した様に、これらの用語として類似分類して類似用語で表現することも出来る。更にこの文献が特許公開公報であり、その代表図も記載されている。この文献情報1における語句出現回数として、最多のものはキーワードであって、且つ、出現頻度の閾値0.2以上のものを順次抽出用語名詞列としており、この文献の内容はおおよそ掴むことが出来る。抽出用語の範囲外から選択する非抽出用語は閾値0.1以下で6回以上の出現頻度のものを選択したが、計算して処理する内容は理解できる程度のものであった。結局この文献に対しては語句解析し類似分類すれば、この文献として主張したい、キーワード・キーワード間の関係の出現頻度にて特徴ベクトルを計算する、ことは把握できるものとこのデータベースから分かる。図表を主体にする文献情報であっても図表内の用語を基に本発明のシステムを利用することができ、更に、類似用語主体の図表を文献内容として記載すればよい。
図19は図18と同様な文献データベースではあるが書籍燃料電池の内容を調査する用語調査結果のマップで、時系列ではなく書籍の内容を区切る章毎に抽出用語と非抽出用語にて文献情報を調査したものである。抽出用語の名詞を得る閾値は0.1-0.2程度のものとし、非抽出用語を得るにはこの閾値より少ない出現回数を選択している。第1章では水素の出現回数であって、このマップから第1章は燃料電池の一般説明と、更に特性関係が記載されていることが分かる。第2章では特許、バラート社、燃料電池がほぼ同じくらいの出現回数で、しかもそんなに多くない分布状態であって燃料電池開発における特許や自動車各社との関連説明があることが分かる。第3章は自動車の出現回数が多く車と燃料電池との具体的な関係を説明していることがわかる。第4では水素の出現回数が飛びぬけているが、それ以外の抽出用語と非抽出用語から燃料電池の製造や自動車に利用する場合の水素インフラについて記載されていることが分かるが、全体として利用方法やインフラ等に分けられる水素、燃料としての天然ガスや製造時に発生するガスなどに分けられるガス、さまざまな説明に使われるエネルギーなどの用語と関係する文章解析を行い類似用語として纏めることにより各章の内容がより正確に把握できることがわかった。即ち電子書籍に対して文章の区分け毎に類似用語と非抽出用語を纏めることにより当該書籍の目次機能を果たせるだけでなく、情報調査装置1を手元に置くことにより、且つ、記録させた書籍に対し各章を呼び出す構成にすれば読みたいところを読むことが出来る検索機能つきの電子書籍様装置として何処でも誰でもが使用できることになる。即ちこの発明の情報調査装置は時系列での纏めだけでなく、又縦軸は類似分類手段18にて類似文献群が検索するだけでなく、類似用語や非抽出用語の区分を利用して文献の内容をより精度良く把握できるものでもある。なお文章全体の類似性を見るために出現頻度の多い用語を抽出して類似用語を求める一方、類似文献や類似文章中から特徴的な内容を掴む場合には類似用語全体から判断できる場合と、出現頻度の少ない用語を抽出し判断する方法があることが分かった。したがってこの類似用語と非抽出用語の両方が記載されているマップにより文献情報の内容把握は有効である。なおデータベースにまとめられる類似用語と非抽出用語は全ての言葉を記載せず一部の内容の記載でも良いし、記号を使用しても良い。文献マップはデータベースの記載では調査分析すべき文献情報の全貌が見やすいようにすればよく、且つ、マップ情報が一瞥できるように纏めればよい。
以上の様に本発明は単一種類の検索モジュールからなるネットワーク、もしくは異なる検索処理を含むモジュールの組合せネットワーク構造は簡単な構成であるが、本発明の特徴である個人に注目しあるいは類似文献群から時系列に纏めるということ、出現頻度から特定用語を抽出し類似用語を得ると共にこの抽出の範囲外から非抽出用語を抽出するということ、等を得ることが出来る構成であって、絞込みが簡単で見やすい分かりやすいなど膨大な情報の調査や、徹底的な調査に役に立つ。更に複数の情報源から同時に調査する、或いは、自動的な連続調査など従来考えられなかった調査方法や情報纏めが可能である。また図14における始点112である文献情報入手と終点119であるデータベース作成との間に類似用語検索もしくは類似文献群検索フロー115と非類似用語検索もしくは非類似用語抽出フロー116が一方向に接続される、すなわち、始点からフロー115へ、115から116と終点119へ、最後の116からも終点へという簡素化したネットワーク構造により別の利用も可能である。すなわち1冊の契約書のような複雑な法律文書、或いは膨大な書籍、取扱説明書等文献情報としては1つであるが内容が簡単に読み取れないような対象の情報、大量の情報などに対し、本発明のこのネットワークを介して出力として時系列の代わりに頁数、或いは、文章を区分けする章数や項目数、契約条文数などにより置き換えることができる。この出力として横軸に頁数、縦軸に文章における類似内容を纏めて文言、および頁や条文ごとに記載した非類似用語のような図19文献マップと同等な表示内容が得られる。すなわちこの形式の1文献の内容が分かりやすい、或いは分析しやすい形で表示される。これにより、電子商取引における複雑な契約や、電子情報による書籍などの分析用の目次としてこの様な出力が利用できるので電子情報処理に対応して短時間の分析が可能になる。或いは忙しい合間合間に電子図書を読みたいときのガイドや電子索引、必要なところをクリックすればその部分が表示されその頁の後を続いて読むことができるなど有効な電子データ出力装置や文献情報調査方法が得られる。このように本発明は1つの文献情報に対しても処理可能であり、更に本発明は検索ネットワーク構造を使用しているのでこの様な1文献ずつの処理を継続処理させたり、連続処理させたりすることもできる。
以上の様に本発明は、複数の検索モジュールを組合せて得られる時系列データベース等から所望の内容を有する文献を徹底的に調査する、特定期間毎に投入されるある会社の開発の展開力を調査する、特定個人の業績を文献作成経過に基づき分析する、等多くの分析が可能になる。また各出力の内容とそのフローとを比較して調査すれば効率的な検索フローの確立も簡単に行える。開発部門においては先進技術に対する技術回転時間を時系列により求めることができるし、技術力の評価の一手法として先行技術文献として引用された回数から評価した数値を文献マップに表示することもできる。この特定人物作成文献時系列デーベース109等は例えば図5、図9の文献調査結果要約表内容のものであれば良く、特にその内容として特許であれば請求項、明細書の要約などの一部、図面がその内容欄に記載してあり、且つ、出力可能であると利用しやすい。人文学文献や経済指標などが含まれる文献、あるいは医学的な学術報告等でも要約やまとめ欄、更には特徴的なデータである写真、図表などが含まれることが望ましい。すなわちこのような多くの情報が含まれるデータベースにアクセスすることが望ましく、言い換えると、このように多くの文献情報が含まれる複数のデータベースに対しても簡単にその検索が行え、さらには最も効率的な情報の流れ、すなわちどのノードを通過したら良いかが得られる検索ネットワーク構造や検索システムを本発明により得られることになる。なお図10、図11、図12、図18、図19の文献マップや人名リストは出力の一例であってこの一例で示した内容にはとらわれない。即ち文献件数、作成者人数、作成日のみならず文献発行元や作成者の所属組織など文献の書誌事項さえあればまとめられ調査の参考になるものであれば良い。しかしながら時系列的に文献内容、あるいは文献数が一目でチェックできる出力があることが望ましい。これらの文献情報のまとめは一つの出力でなくとも良いことは当然である。
図7のST42等に記載したように調査のエキスパートに相談できるシステムであれば調査目的と検索特定項目、更には希望する出力内容を依頼側がメール発信するだけで図2、図7、図8、図13の検索フローは調査側が行い回答をメール添付にて貰うことが出来る。類似用語設定や非類似用語設定時の文献の表示を依頼側が希望する場合、内容を絞る、或いは拡大する等の要望で再び調査側が検索特定項目や閾値の設定などを変更し調査し直すことが出来る。あるいは配信されたプログラムから一般のサーバーがネットワーク3に接続し調査しても構わない。これにより一般文献に関するデータベース、外国に設けられているデータベースのように広く且つ内容の多いデータベースに簡単に接続でき、その場合、プログラム配信側はダウンロードに対し入会費用を徴収したり、広告費用で徴収したり、調査内容や調査範囲について相談される毎に、あるいは会員制で安い費用で答えを出すなどのシステム化が可能である。もちろん広告費用を聴取し無料にしても良い。
このようなアプリケーションソフトウェアプロバイダーが存在すれば、理科系文科系等学問の区別無く、大学、高校或いは小中学校などの学生或いは研究機関の研究者、或いは個人の誰もが知りたいことを自由に検索できるシステムが可能になり安い費用でデータベースを有効に利用でき研究の進歩や情報交換の有効性を一層向上させることが出来る。
以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、特定個人選択手段にて選択された特定個人の作成した複数の文献情報を時系列軸にて纏め出力すると共に特定個人の個人情報を出力する出力纏め手段と、を備え、特定個人は文献情報に含まれ、且つ、文献作成者が文献作成する際に関係した者を含むものであるので、絞込みが容易で手間の掛からないな情報調査装置が得られる。
以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に複数の文献の中で類似している類似文献群を分類若しくは文章の中で類似している類似用語を分類若しくは出現頻度の多い分布範囲の特定用語である抽出用語を抽出する類似分類手段と、特定用語を抽出した前記分布範囲を含まない範囲から非類似用語を抽出する若しくは非抽出用語を抽出する非類似用語抽出手段と、類似文献群若しくは類似用語若しくは抽出用語及び非類似用語若しくは非抽出用語を表示可能に出力する出力纏め手段と、を備えたので、文献情報の内容が分かりやすい情報調査装置が得られる。
以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度から類似文献群を分類する類似文献群分類手段と、類似文献群分類手段にて類似文献であると分類された特定の文献情報を時系列にて纏める出力纏め手段と、を備え、出力纏め手段にて得られた文献情報の内容を時系列軸に対応して表示するので、文献情報の内容が分かりやすくみやすい情報調査装置が得られる。
以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に文章の中で類似している類似用語を分類する若しくは出現頻度の多い分布範囲の特定用語を抽出する類似分類手段と、文献情報に含まれる文章から抽出された特定用語を抽出した分布範囲を含まない範囲から非類似用語若しくは非抽出用語を抽出する非類似用語抽出手段と、文献の文章若しくは図表を文献情報の内容に基づき区分けする文章区分手段と、を備え、類似用語及び前記抽出用語及び非類似用語及び非抽出用語の少なくともいずれかを文章区分手段にて区分けされた区分に表示するので、読解困難な文献条や膨大な量の文献情報であっても見やすく分かりやすいものとすることが出来る。又本発明は、文献情報に含まれる文章から抽出される特定用語の出現頻度分布範囲は、類似文献若しくは類似用語を分類する若しくは抽出用語を分類する特定用語の出現頻度分布範囲を最多出現回数とゼロ出現回数の間の中間範囲以上とし、非類似用語若しくは非抽出用語を抽出する出現頻度分布範囲は中間範囲以下であって且つ複数の出現回数の分布範囲であるので、内容を判断しやすい情報調査装置が得られる。
以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類手段と、特定個人選択手段にて選択された特定個人の作成した特定の文献情報及び文献群分類手段にて類似文献であると分類された特定の文献情報を時系列軸にて纏める出力纏め手段と、を備えたので、出力内容が理解しやすい情報調査装置が得られる。
以上の様に本発明は、出力纏め手段が纏めた文献情報は、文献内容、各特定個人の表示、文献件数、複数文献の内での各文献相互間の関係及び文献情報に含まれる文章から抽出される用語間の関係の少なくともいずれかを時系列軸に2次元以上で表示するので、見やすく分かりやすい情報調査装置が得られる。又本発明は、出力纏め手段に纏められた文献相互間の関係又は文献情報に含まれる文章から抽出される用語間の関係は、文献の文章から得られた文献情報に含まれる内容が類似している若しくは用語の意味が類似している若しくは抽出された文章の区分けされた範囲が異なるものであること、又は非類似である若しくは抽出される分布範囲が異なるので、一層分かりやすいものに成る情報調査装置が得られる。
以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する手順を有する複数の第1の検索モジュールと、第1の検索モジュールにて選択された特定個人の作成した特定の文献情報を時系列軸にて纏める出力纏め手段と、を備え、出力纏め手段にて前記複数の第1の検索モジュールで異なる検索条件にて検索した複数データの内同一のデータが重複しない様に纏めたので、簡単な構成で実用的な情報調査装置が得られる。
以上の様に本発明は、文献作成日の情報を含む複数の文献情報と、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類を行う第2の検索モジュールと、第2の検索モジュールにて分類された類似文献群を時系列軸にて纏める出力纏め手段と、を備えたので、簡単な構成で分かりやすい情報調査装置が得られる。又本発明は、文献作成者の情報である個人情報を含む文献情報と、文献情報に含まれる文献を作成した特定個人を選択する手順を有する第1の検索モジュールと、検索モジュールと異なる手順にて文献情報に含まれる個人情報以外の別情報を検索する第3の検索モジュールと、第1の検索モジュールにて選択された特定個人の作成した特定の文献情報及び第3の検索モジュールにて検索された別情報を時系軸にて纏める出力纏め手段と、を備えたので、多くの種類の処理が可能な情報調査装置が得られる。更に本発明の第2の検索モジュール若しくは第3の検索モジュールでの検索は文献情報の文章に含まれる用語もしくは文言内容が類似かどうかであるので、見やすい情報調査装置が得られる。又更に本発明は、文献情報を入手する入口部と出力纏め手段の間を接続する複数配置された第1の検索モジュール及び第2の検索モジュール及び第3の検索モジュールの少なくともいずれかは入口部と前記出力纏め手段の間を並列若しくは直列若しくは直列と並列が混合された状態にて接続されるので、フレキシブルな利用が出来る情報調査装置が得られる。又更に、本発明は、文献情報を入手する入口部と出力纏め手段の間にそれぞれ複数が接続される第1の検索モジュール若しくは第2の検索モジュール若しくは第3の検索モジュールをノードとしてネットワーク状態に接続するので、例えば各検索モジュールをそれぞれ設けた複数のパソコンをインターネットやLANにて常時接続させて相互に通信させて形成するシステムも利用できる実用的な情報調査装置が得られる。これにより多数の人が何時でも何処からでも自由に望んでいる検索結果が得られる。
以上の様に本発明は、文献作成者の情報である個人情報を含む文献情報と、前記文献情報に含まれる文献を作成した特定個人を選択する特定個人選択手段と、前記文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似文献群を分類する類似文献群分類手段と、前記特定個人選択手段にて選択された前記特定個人の作成した特定の文献情報及び前記類似文献群分類手段にて類似文献であると分類された文献情報を時系列軸にて纏める出力纏め手段と、を備え、情報サーバー等から前記文献情報を入手した入口部と前記出力纏め手段の間に前記特定個人選択手段と前記類似文献群分類手段を配置しネットワーク状態に接続したので、通信にて形成するシステムも利用できる実用的な情報調査装置が得られる。
以上の様に本発明の、文献情報は一つまたは複数の情報サーバーから入手するものであって、1つ若しくは複数の文献の情報であるので、用途の広い範囲に使用できる。又本発明の、文献情報に記載してある個人情報は出力纏め手段が纏める出力に含まれるので使い易いものと成る。更に本発明は、出力纏め手段が纏める時系列軸の代わりに文献情報を区分けする頁数、章数、項目数、条文数、等の文章区分軸を使用するのて、分かりやすいものに出来る。
以上の様に本発明の情報調査装置の文献情報を入手する入口部から出力纏め手段への回路にて検索処理する際、複数の検索モジュールで検索処理を行うので、どのような文献情報の調査に対しても実用的な情報調査方法が得られる。又本発明の、文献情報は入口部から出力纏め手段への回路を主として流れるとともに、入口方向に逆流もしくは並列方向に流れて検索処理することが可能であるので、効率的な処理が可能な情報調査方法が得られる。更に本発明は、入口部から出力纏め手段への回路にて検索処理する際、特定の回路選択が可能であるので、一層効率的な処理が可能な情報調査方法が得られる。
以上の様に本発明は、調査を行う情報を抽出する文献情報からこの文献を作成した特定個人を選択する個人選択ステップと、文献情報に含まれる文章から特定の用語を抽出しこの特定の用語の出現頻度から類似分類する類似分類ステップと、選択された特定個人の作成した特定文献の情報と類似分類した情報を時系列で纏める時系列纏めステップと、を備えたので、文献調査に有効で実用的な情報調査方法が得られる。
又本発明は、個人選択ステップにて選択された特定個人若しくはあらかじめ入力された特定個人毎に、時系列纏めステップにて特定文献の情報を纏める際に共同著者若しくは共同発明者を含むチームとして纏める代わりに共同著者若しくは共同発明者を個々に独立させて纏めるので、分析しやすい情報調査方法が得られる。
以上の様に本発明は、文献情報に含まれる文章から特定用語を抽出しこの特定用語の出現頻度を基に前記文章の中で類似している類似用語若しくは出現頻度の多い分布範囲の特定用語である抽出用語を分類する分類ステップと、文献情報に含まれる文章から抽出された特定用語を抽出した分布範囲を含まない範囲から非類似用語若しくは非抽出用語を抽出する抽出ステップと、分類ステップにて得られた類似用語若しくは抽出用語及び抽出ステップにて得られた非類似用語若しくは非抽出用語を文献情報に記載されている文献作成の順に若しくは文献情報を内容毎に区分けする文章区分毎に纏める纏めステップと、を備えたので、実用的で分析しやすい情報調査方法が得られる。
以上の様に本発明は、文献情報から選択された複数の特定個人の作成した特定の文献情報を抽出した結果を時系列上に特定の文献情報の内容を含め記載するデータベース及び複数の特定個人を示すリストを記録するので、何処ででも使用できる記録媒体が得られる。
この発明は、検索式を生成する特定項目を入力する入力手段5と、生成された検索式に基づきサーバーから抽出した文献情報を記録する抽出結果記録手段12と、抽出され記録された文献情報から著者もしくは発明者である特定個人を選択する特定個人選択手段11や用語抽出手段などを設け、特定個人選択手段にて選択された特定個人の作成した文献情報の内容やる維持文献をサーバーから抽出して時系列にて纏め出力する出力纏め手段13と、を備えたので、個人の或いはその関係者の活動の成果を一瞥することが出来る。更にこの個人として複数の個人を纏めるためより確実な開発動向を掴むことが出来る。この発明は特定の研究内容を文言や文章で部分を目的に検索するのではなく、個人を追及して個人の研究内容を全体から特定のものに時系列で絞って行くものであり、即ち、個人の追及とその研究の検索から対象を全体から部分に絞っていくものであり、更に、その絞る過程で検討する範囲を制限しながら、結果的に全てを追及することも可能なものとしており、簡単な手順で確実、且つ、効率的にほしいものが手に入るという調査装置、方法が得られる。
この発明は、入力手段5の入力する特定項目に、少なくとも予め設定可能な特定個人の氏名もしくは調査すべき技術等の課題、特に調査したい内容を具体的に含めることが出来、調査の範囲を絞りやすく簡単に検討できる結果が得られる。更に本発明は各種検索フローをノードとして自由に接続する検索ネットワーク構造を形成させることができるので効率的で処理が著しく早い検索システムとすることができる。
この発明は、少なくとも予め設定可能な特定個人の氏名もしくは調査すべき技術等の課題、特に調査したい内容を拡大或いは絞るという検索対象に対し、各種検索フローをモジュール化した複数の階層のネットワーク構造におけるノードとして自由に接続する検索ネットワーク構造全体に情報を流し、且つ、検索を実施することができるので、大規模な調査範囲であっても効率的で処理が著しく早い検索システムとすることができる。
この発明の各検索フローはその検索対象やその検索範囲が異なるものを検索できるため、各種検索フローをモジュール構成としたものをノードとして自由に接続する検索ネットワーク構造を形成させ文献時系列データベースを作成するので、要望どおりの各種内容の出力を入手することができる使い勝手の良い検索システムとすることができる。更にこの検索ネットワーク構造を有する情報調査装置では多くの異なる情報にアクセスし、それぞれダウンロードした文献情報を並列に設けたモジュールでの平行処理或いは時間差処理、或いは時間差をおいた自動適な間隔処理により、より効率的な検索や情報纏めが可能になる。さらにはこのような情報調査装置をネット3に接続させたまま間隔をおいた継続的な調査を行うことにより、時系列データベースを継続的に更新させ、細切れではない連続した情報を常に入手し最新のデータによる分析を行うこともできる。
本発明は、特定個人選択手段11にて、文献件数の多い順番で特定個人を複数選択し、出力纏め手段13へ予め設定された人数分の特定個人の抽出を行うので、一つの段階での検討範囲、即ち文献の量を絞ることが出来検索を簡単なものとすることが可能になる。また特定個人として文献作成者、例えば共同著者などという範囲で説明してきたが既に説明したように氏名という個人情報以外であっても良く、ペンネームやA研究室、或いは共同著者以外でも文献作成に協力した、実験データを採取した等の人のように関係した者を含めることにより確実な検索作業を遂行できる。又この発明における特定個人は共同著者もしくは共同発明者を含むので、開発や研究の経過や技術動向が把握しやすく抜けを防止できる。更に個人や同じ仲間が使用している言葉の意味はほぼ同じであり、しかも時系列的に調査を進められるので用語抽出が効率的に行えるとともに文献内容が理解しやすく調査や分析が容易になる。
この発明は、特定個人選択手段11における特定個人の選択は複数回繰り返し可能に設けられるとともに、特定個人選択手段11における特定個人の選択で前回選択された特定個人は次回には除かれるので、検索を継続しても文献情報の量が絞られ検討が容易なものとすることが出来る。なおこの特定個人選択手段11は技術課題で選択された文献情報の中から人名で検索されて抽出された文献が把握されるものや、あるいは特定範囲に関係無く件数の多い特定人物の選択や、指定された特定人物や抽出された人物と関連する人物を選択していけば良いので、しかも人物特定のみに絞って検索されるので検索が容易、且つ確実に行うことが出来る。
本発明の入力手段の入力する特定項目は、複数の階層にて入力可能に形成され前の階層の特定項目で検索された後で、前階層の技術等の課題とは異なるが関連する技術等の課題である特定項目で次の検索を行い文献を抽出し、選択済みの特定個人を除く特定個人を選択するので、検索の母集団を絞ることが出来、調査が簡単になる。
本発明の出力纏め手段13が纏めた結果は、時系列とともに、文献内容もしくは特定個人毎の文献情報内容もしくは件数を含めるので、見やすい形式や、判断容易な出力が得られる。本発明は文献の種類や分野等無関係に纏めることができ、且つさまざまな出力内容を分かりやすい状態で示すので、たとえ個人であっても分析可能な有用な装置・方法が得られる。
本発明は文献から個人情報を集めてくるので出力纏め手段が纏めた特定個人に関する出力は、特定項目が記載された文献であることが判別可能であるし、かつ個人毎、チーム毎、あるいは特定項目で指定された大学や研究所ごと、複数の会社毎に纏められるので研究動向、開発動向が判別しやすく、継続調査が簡単である。
本発明は、調査を行う情報に関する特定項目により生成された検索式に基づき文献情報を抽出し、抽出された文献情報から著者もしくは発明者である特定個人を選択し、選択された特定個人の作成した文献情報を時系列で纏め、特定個人が複数人もしくは複数人からなる複数のチームであるので、検索の手順が少なく簡単な調査が可能になる。この手順に類似文献群を抽出させて組合せることにより、非常に見やすい出力内容が得られる。
本発明は、特定個人を選択する際、選択する人数を制限して情報調査量を押さえながら検索することもできるので文献情報の内容把握が短時間で確実に行える。又本発明の文献情報を抽出する際、複数段階で検索し、次段階で検索する特定項目は前段階よりも上位概念もしくは関連動作などの用語を用いて調査の範囲を広げるので、調査漏れの防止を簡単に行える。また文献情報を抽出する際、複数段階で検索し、次段階で検索する特定項目は前段階よりも下位概念用語もしくは組合せ用語を用いて調査の範囲を狭めるので、最初の段階、即ちトライアルで人名・件数があまりに多く調査困難な場合でも、範囲を絞り、調査を分けて行うことが出来るので検索に支障無く目的の調査を行うことが出来る。
本発明は複数の文献から類似文献群を検索し時系列的他で纏められた文献群を表示するのでどのような経過で類似文献群が発表されているかが分かるので、文献内容の理解が簡単になるだけでなく展開に対する纏めがしやすいなどの効果が得られる。更に1つの文献情報に対しても分析しやすく纏めた出力を得ることができる。時系列の代わりに頁数、或いは、文章を区分けする章数や項目数、契約条文数などにより置き換えることで、出力として図12のような形式の1つの文献であるが内容を示すマップが得られる。すなわち電子商取引における複雑な契約や、電子情報による書籍などの目次としてこの様な検索装置を利用すれば短時間の処理が必要である、或いは合間合間に電子図書を読みたいときのガイドになり有効である。このように本発明は1つの文献情報に対しても処理可能であり、更に本発明はネットワーク構造を有する検索モジュールの組合せであり複雑な処理が可能であり、大量の文献であっても、或いは、1つずつの文献であっても一括処理や継続処理、或いは連続処理させたりすることができる。
本発明は、調査を行う情報の検索式を生成する特定項目を複数層入力可能として、先に上位の層の特定項目により生成された検索式に基づき文献情報を抽出し、抽出された文献情報から著者もしくは発明者である複数の特定個人を選択し、選択されたこの特定個人の作成した文献情報を時系列で纏め、次に下位の層の特定項目により生成された検索式に基づき、且つ、既に選択された特定個人を除く特定個人の作成した文献情報を抽出するので取り扱い易い検索システムが得られる。また本発明の各段階もしくは各層の文献情報抽出量は選択される特定個人の人数により制限される。更に特定項目を複数の層で設定する際、下位の層の特定項目は上位の層の特定入力と同一時期に入力するか、上位の層の特定項目による文献抽出後に入力するかのいずれかを選択可能である。これにより使い勝手の良い調査が行える。又本発明の、情報調査を調査側に依頼する依頼側は特定項目を設定すると共に、複数段階の内の次段階もしくは複数層特定項目内の下位層の検索開始について調査側に通信可能とするので、調査したい内容を確実に調査することが出来る。また本発明の情報調査を行う調査側は複数段階の内の次段階もしくは複数層特定項目内の下位層の検索を行う前に特定項目の見なおしを依頼側に通信可能であるので、確実、且つ、ユーザーの要望どおりの調査が可能で、最短時間での処理が可能になる。
本発明は文献情報の中の個人情報と、この個人情報以外の別情報である文章が類似かどうかなどの情報を時系列的にまとめることにより文献情報の分析を簡単にしようとしたものである。しかもこれら纏めた情報、例えば時系列上にその内容を記載したものや個人名リストがどんなに膨大なものでも一つの記録媒体に記録させて持ち運べるようにしており、誰でもが、何処ででもパソコンさえあれば分析できる。さらには文献マップを大型画面に表示させれば多くの人が集まる検討会で分析や発表も可能になる。
本発明は、技術等の課題を含む検索式に基づき抽出された文献情報から選択された複数の特定個人の作成した文献情報を纏めて記録する記録媒体であって、この纏めた結果は複数の軸で表示するとともにその一つの軸は、文献の投稿日もしくは発表日、又は出願特許の出願日を基にした時系列軸であり、常に経過や動向を把握しながら検索を行うことが容易である。更に時系列軸以外の軸は、文献情報の件数、文献情報の内容及び複数の特定個人名の少なくとも一つであり、分かりやすい文献情報記録が得られる。これらの文献情報記録は情報調査装置の内部に記録したり、外部のデータベースに記録したり、記録媒体に記録したりすることが出来、使い方により、あるいは使用時期により区分けして用いることが出来る。
更に本発明はネット3などで接続される複数のパソコンを組合せて検索や分析が可能になる。しかもその組合せを図13のような検索ネットワーク構造とすることができるので、インターネットを飛び交う非常に多数の情報を各サーバーとする、或いは時々刻々出版される数文献を1サーバーとするような多くのサーバーと検索モジュールを多く使用した本検索ネットワークの組合せ接続を行うことにより、常に最新の分析が可能になるだけでなく、より専門的となる情報により例えば地球規模、宇宙規模のような複雑な課題、医学や生物学の各遺伝子操作によって得られる複数の反応を纏める集合フィードバック構造のような複雑な分析などに対しても調査できる有用な検索システムとすることができる。これにより研究者にとって情報を入手するという手間が減り研究時間を更に有効活用できるとともに有効なアイデア創造にも役に立つ装置が得られる。
1、2 情報調査装置、 3 ネットワーク、 4 制御装置、 5 入力手段、 6 表示手段、 7 記録媒体、 8 入出力装置、 9 通信手段、 10 検索式生成手段、 11 特定個人選択手段、 12 抽出結果記録手段、 13 出力纏め手段、 14 結果表示・記録制御手段、 15 記録手段、 21、22 情報サーバ、 23 データベース。