JP2010218216A - 類似文書検索システム、方法及びプログラム - Google Patents

類似文書検索システム、方法及びプログラム Download PDF

Info

Publication number
JP2010218216A
JP2010218216A JP2009064285A JP2009064285A JP2010218216A JP 2010218216 A JP2010218216 A JP 2010218216A JP 2009064285 A JP2009064285 A JP 2009064285A JP 2009064285 A JP2009064285 A JP 2009064285A JP 2010218216 A JP2010218216 A JP 2010218216A
Authority
JP
Japan
Prior art keywords
electronic document
keyword
search
relevance
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009064285A
Other languages
English (en)
Inventor
Masaaki Matsubara
真章 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chugoku Electric Power Co Inc
Original Assignee
Chugoku Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chugoku Electric Power Co Inc filed Critical Chugoku Electric Power Co Inc
Priority to JP2009064285A priority Critical patent/JP2010218216A/ja
Publication of JP2010218216A publication Critical patent/JP2010218216A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】目的文書と強い関連性を有する電子文書を抽出する類似文書検索システム、方法及びプログラムを提供すること。
【解決手段】入力された検索語との関連性に基づいて電子文書を検索する電子文書検索システムは、検索語の入力を受け付ける検索語受付手段と、複数の電子文書を蓄積する電子文書蓄積手段と、複数のキーワードを記憶するキーワード記憶手段と、電子文書蓄積手段に蓄積された電子文書から複数のキーワードを検索するキーワード検索手段と、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出手段と、関連度算出手段により算出された関連度を記憶する関連度記憶手段と、関連度記憶手段に記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索手段と、を備える。
【選択図】図1

Description

本発明は、関連性の強いキーワードを含む類似文書を検索するシステム、方法及びプログラムに関する。特に本発明は、事業見積査定や予算想定のために過去の類似実績を効率的に検索するシステム、方法及びプログラムに関する。
従来、情報システム開発の見積査定や予算想定のために過去類似実績を調べたい場合には、組織名、開発技術、開発規模、利用者数等、様々な属性情報を用意し、これらの属性情報に基づいて類似実績の候補を絞り込むことが一般的であった。しかし、事業組織の体制変更等により、同一業務を継続しているにも関わらず組織名が変更され、又は異なる業務が同一の組織に集約される等の状況が発生する場合があり、組織名等の属性情報に基づく類似実績の検索においては、一定の結果が得られるとは限らなかった。
また、従来、大量の言語情報から類似性又は関連性の強さを定量的に把握し、類似した事業実績を検索することは手作業では困難であった。従って、過去の類似した事業実績を簡単に検索するためのシステム等が求められていた。
このようなシステムに係る従来技術として、例えば、プロジェクトの規模及び作業期間の条件により作業高実績値を抽出可能な仕組みとするプロジェクト作業高予算策定支援システムに係る技術が知られている(特許文献1)。当該技術においては、過去の統計から新規事業の作業高予算値を自動作成し、プロジェクトの月々の作業の予算値策定の最適値を予測できるとしている。
特開2006−163962号公報
しかしながら、従来技術に係るプロジェクト作業高予算策定支援システム等においては、過去の統計から最適値を予測することは可能であるが、必ずしも最適とは限らない類似した結果を得ることは想定されていなかった。
本発明は、特定事業の予算策定等に係る過去実績を含む電子文書群から、目的文書との関連性を有する電子文書を検索し、類似性に従ってユーザに提示することが可能な類似文書検索システム、方法及びプログラムを提供することを目的とする。また、本発明は、当該検索のためのキーワードを、当該特定事業に基づいてユーザが指定することが可能な、類似文書検索システム、方法及びプログラムを提供することを目的とする。
本発明は、次のような手段を提供する。
(1)入力された検索語との関連性に基づいて電子文書を検索する電子文書検索システムであって、検索語の入力を受け付ける検索語受付手段と、複数の電子文書を蓄積する電子文書蓄積手段と、複数のキーワードを記憶するキーワード記憶手段と、電子文書蓄積手段に蓄積された電子文書から複数のキーワードを検索するキーワード検索手段と、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出手段と、関連度算出手段により算出された関連度を記憶する関連度記憶手段と、関連度記憶手段に記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索手段と、を備える、電子文書検索システム。
本発明に係る電子文書検索システムは、電子文書蓄積手段を用いて、すでに作成された電子文書を蓄積することが可能である。また、本発明に係る電子文書検索システムは、キーワード記憶手段を用いて、ユーザが所望する検索のためのキーワードを記憶することが可能である。また、本発明に係る電子文書検索システムは、関連度記憶手段を用いて、蓄積された電子文書に出現するキーワードどうしの関連性を記憶することが可能である。さらに、本発明に係る電子文書検索システムは、関連電子文書検索手段を用いて、ユーザの検索語に対応するキーワードを含む電子文書を検索することが可能である。
本発明に係る電子文書検索システムのユーザは、前述の蓄積手段、記憶手段及び検索手段を備え、検索語を受け付ける電子文書検索システムを利用する。例えば、前述の蓄積手段及び2種類の記憶手段により、ユーザが属する事業組織内で作成された電子文書、当該電子文書に含まれる事業組織に特有のキーワード、当該特有のキーワードどうしの関連性のそれぞれが記憶されうる。
本発明に係る電子文書検索システムの関連電子文書検索手段は、ユーザから受け付けた検索語に対応するキーワードを決定する。ここに、キーワードは前述のキーワード記憶手段を用いて記憶されるキーワードでありうる。例えば、関連電子文書検索手段が決定するキーワードは、ユーザが属する事業組織に特有のキーワードでありうる。さらに、関連電子文書検索手段は、決定したキーワードを含む電子文書を検索する。ここに、電子文書は、前述の電子文書蓄積手段に蓄積された、事業組織内で作成された電子文書でありうる。従って、本発明に係る電子文書検索システムにおいては、ユーザから受け付けた検索語に対応する特有のキーワードを含む電子文書が検索される。すなわち、ユーザから受け付けた検索語が表す意味又は概念と一致又は類似する所定の二つのキーワードが出現する電子文書が検索されうる。
キーワード記憶手段を用いて記憶されるキーワード、特に事業組織等に特有のキーワードとしては、事業体の組織に特有のキーワード、業界用語、略語等が挙げられるが、これらに限定しない。キーワード記憶手段を用いて、事業体の組織に特有のキーワード等を記憶することにより、本発明に係る電子文書検索システムは、ユーザが指定する検索語に誤記又は事業組織の名称変更等による検索語の変化があっても、キーワード記憶手段に記憶された一定のキーワードを常に電子文書検索のために用いることが可能になる。従って、本発明においては、電子文書の検索を一定の条件で実施することが可能である。さらに、ユーザが指定する検索語が、まだ文書の形態に至らないアイデア等を表す場合であっても、キーワード記憶手段に記憶された一定のキーワードを電子文書検索のために用いることにより、検索語との関連性が高い電子文書を検索することが可能である。例えば、ユーザが、要求仕様の一部が曖昧なアイデア等に対して過去の類似案件を検索する場合等において、本発明に係る電子文書検索システムは、キーワード記憶手段に記憶された一定のキーワードを電子文書検索のために用いることが可能である。
(2)さらに、関連電子文書検索手段により検索された電子文書を表示する関連電子文書表示手段を備える、(1)に記載の電子文書検索システム。
(3)さらに、関連電子文書検索手段により複数の電子文書が検索された場合、該複数の電子文書を関連度に従った順序で並び替える関連電子文書並び替え手段を備える、(1)に記載の電子文書検索システム。
このようにすることで、本発明に係る電子文書検索システムにおいては、ユーザから受け付けた検索語との関連度に従った順序で、検索結果をユーザに示すことが可能である。ユーザは、自己が想定する目的文書に対して、より類似性が高い電子文書を検索結果として得ることが可能になる。
(4)キーワード記憶手段は、事業体の属性情報を表すキーワードを記憶する、(1)に記載の電子文書検索システム。
(5)電子文書蓄積手段は、事業体の事業実績又は事業予定を含む電子文書を蓄積する、(1)に記載の電子文書検索システム。
(6)事業体の事業実績又は事業予定を含む電子文書は、事業体の見積査定又は予算計画の情報を含む、(5)に記載の電子文書検索システム。
(7)入力された検索語との関連性に基づいて電子文書を検索する電子文書検索方法であって、検索語の入力を受け付ける検索語受付ステップと、複数の電子文書を蓄積する電子文書蓄積ステップと、複数のキーワードを記憶するキーワード記憶ステップと、電子文書蓄積ステップにより蓄積された電子文書から複数のキーワードを検索するキーワード検索ステップと、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、関連度記憶ステップにより記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索ステップと、を含む、電子文書検索方法。
(8)コンピュータを用いて、入力された検索語との関連性に基づいて電子文書を検索する電子文書検索プログラムであって、検索語の入力を受け付ける検索語受付ステップと、複数の電子文書を蓄積する電子文書蓄積ステップと、複数のキーワードを記憶するキーワード記憶ステップと、電子文書蓄積ステップにより蓄積された電子文書から複数のキーワードを検索するキーワード検索ステップと、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、関連度記憶ステップにより記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索ステップと、をコンピュータに実行させる電子文書検索プログラム。
本発明に係る電子文書検索方法又は電子文書検索プログラムは、コンピュータ・ネットワーク資源の情報検索技術等の、既存の技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む電子文書検索装置等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、電子文書を検索する方法のいずれかのステップを任意の記憶媒体に記憶して提供し得る。具体的には、磁気記憶媒体、電気的記憶媒体、光学ディスク等のコンピュータ可読媒体に記憶されたコンピュータ・プログラムの形態も、本発明の技術範囲に含まれる。
本発明によれば、特定事業の予算策定等に係る過去実績を含む電子文書群から、目的文書との関連性を有する電子文書を検索し、客観的な数値として比較しうる関連度としての類似性に従ってユーザに提示することが可能な情報検索システム、方法及びプログラムを提供することが可能になる。また、本発明によれば、当該検索のためのキーワードを、当該特定事業に基づいてユーザが指定することが可能な、情報検索システム、方法及びプログラムを提供することが可能になる。
従って、本発明に係る電子文書検索システムにおいては、キーワード記憶手段を用いる電子文書検索により、事業組織内の特有のキーワードを一元管理すること、蓄積された電子文書を、新規開発案件を査定するための情報として用いること、曖昧な要求仕様又は実績のない新規開発案件等に対して適正な見積値又は見積値の範囲に関する過去実績を抽出すること等が可能になる。さらに、本発明に係る電子文書検索システムにおいては、数値として比較可能な関連度を用いる電子文書検索により、担当者の勘や経験則に依存しない、客観的かつ信憑性のある電子文書検索が可能である。
本発明の一実施形態に係る、類似文書検索システム100の構成要素の関係を示すブロック図である。 本発明の一実施形態に係る、類似文書検索システム100のシステム構成を示す図である。 本発明の一実施形態に係る、類似文書検索システム100の動作の諸段階を表すフロー図である。 本発明の一実施形態に係る、キーワード辞書データ構造120を示す図である。 本発明の一実施形態に係る、電子文書データベースデータ構造140を示す図である。 本発明の一実施形態に係る、関連度辞書データ構造150を示す図である。 本発明の一実施形態に係る、類似文書検索システム100の検索結果表示230の例を示す図である。
以下、本発明の実施形態について、図面を併用して説明する。なお、これらはあくまでも一例であって、本発明の技術的範囲はこれらに限られるものではない。
[類似文書検索システム100の構成要素の関係]
図1は、本発明の一実施形態に係る、類似文書検索システム100の構成要素の関係を示すブロック図である。一実施形態において、類似文書検索システム100の構成要素には、キーワード記憶手段としてのキーワード辞書20、電子文書42、関連度記憶手段としての関連度辞書50、検索語70、及び関連電子文書表示手段としての検索結果表示230が含まれる。検索結果表示230は、さらに関連電子文書並び替え手段を備えてもよい。リンク22は、キーワード辞書20と電子文書42に含まれる語句との関連付けである。この関連付けについては、電子文書42を蓄積するデータベースのデータ構造として、図5を用いて後述する。
キーワード辞書20は、事業体の属性情報を表すキーワード等の、事業組織等に特有の組織名、属性、略語等を含み、事業組織内で頻繁に用いられる様々な用語を記憶するために用いられる。これらの用語は、事業組織内で作成される様々な文書に含まれうる。キーワード辞書20として記憶される用語の選択は、電子データからの自動抽出等でもよく、ユーザが手操作で語句を入力してもよい。キーワード辞書20に記憶される語句は、ユーザにより適宜、取捨選択されてもよい。従って、ユーザは、事業組織等に特有の語句を含むキーワード辞書20を作成することが可能である。例えば、あるユーザが、資産管理のためのシステム開発に関する文書管理を必要とする場合に、キーワード辞書20に「固定資産」等の語句が記憶されうる。
電子文書42は、事業組織等が生成した電子データの形態を有する文書でありうる。例えば、電子文書42は、事業組織等の事業実績又は事業予定等の事業活動における、事業体の事業実績又は事業予定、見積査定又は予算計画、通知、規則、手続の説明、事業計画、予算提案、決算報告、成果報告等のための文書を含むが、これらに限定しない。また、電子文書42は、適宜、検索のための分類に用いる情報を含んでもよい。それぞれの分類は、事業組織の活動等に基づいて、適宜設計しうる。
例えば、電子文書42には、分類としての「マニュアル」、「要則」、「通知通達」等の情報を含んでもよい。さらに、それぞれの分類は、任意の数の文書を含んでもよい。従って、後述する関連度の算出において、電子文書42の分類に含まれる個々の文書が対象となりうる。すなわち、ユーザは、本発明に係る検索の結果として、個々の文書の情報を得ることが可能である。
あるいは、電子文書42は、「マニュアル」、「要則」、「通知通達」等の分類のそれぞれを一つの文書として扱ってもよい。従って、後述する関連度の算出において、一つの分類に含まれる複数の文書が対象となりうる。すなわち、ユーザは、本発明に係る検索の結果として、複数の文書を含む分類の情報を得ることも可能である。
関連度辞書50は、電子文書42に所定の二つのキーワードが出現する関連度を算出して記憶する。ここで、所定の二つのキーワードとは、キーワード辞書20に記憶された二つのキーワードを指す。典型的には、類似文書検索システム100は、電子文書42内の全ての文書に対して、所定の二つのキーワードが出現する文書の数を累計する。例えば、電子文書42に含まれる全ての文書に対して、文、図、表、数式等に含まれる、所定の二つのキーワードが出現する文書の数が累計される。これに限定せず、電子文書42には、複数の文書を含む分類を適宜設けてもよい。類似文書検索システム100は、特定の分類に含まれる文書に対して、所定の二つのキーワードが出現する回数を累計し、分類ごとに関連度を算出してもよい。
このような関連度辞書50の動作により累計された文書の数又は回数は、所定の二つのキーワードの関連度として扱われる。すなわち、本発明に係る電子文書検索システムにおいては、累計された文書の数又は回数の値により、電子文書42の中における当該二つのキーワードの関連性の高さを表すことが可能である。
検索語70は、本発明に係る電子文書検索システムのユーザが端末装置等を用いて入力する語句でありうる。本発明に係る電子文書検索システムは、検索語70を受け付け、受け付けられた検索語70と対応するキーワードを、関連度辞書50に記憶された関連度に基づいて決定する。検索語70は、単語単位に分割されてもよい。
ここで、関連度に基づくキーワードの決定は、ユーザが指定した検索語70に対して、所定の二つのキーワードを決定することを指す。所定の二つのキーワードは、いずれもキーワード辞書20に記憶されたキーワードに含まれる。さらに、所定の二つのキーワードは、特定の電子文書に同時に出現するキーワードでありうる。すなわち、ユーザが検索語70を指定することにより、本発明に係る類似文書検索システム100は、当該検索語70が表す意味又は概念と一致又は類似するキーワードの対が、繰り返して出現する電子文書42を検索しうる。
例えば、検索語70が「固定資産管理システム開発」である場合に、本発明に係る類似文書検索システム100は、当該検索語70に一致するキーワードをキーワード辞書20から選択してもよい。また、本発明に係る類似文書検索システム100は、当該検索語70を単語単位に分割し、例えば「固定資産」という用語に一致するキーワードをキーワード辞書20から選択してもよい。あるいは、本発明に係る類似文書検索システム100は、キーワード辞書20に「システム開発案」というキーワードが記憶されている場合に、当該検索語70に類似するキーワードとして「システム開発案」を選択してもよい。このようにして選択されたキーワードについて、本発明に係る類似文書検索システム100は、事業組織に特有のもう一つのキーワードと共に繰り返して出現する電子文書42を検索しうる。
検索結果表示230は、前述のように検索された、決定したキーワードを含む電子文書の情報である。検索結果表示230は、検索された電子文書の題名等を表示してもよく、検索された電子文書に対するハイパーリンク情報等を表示してもよく、適宜設計しうる。さらに、検索結果表示230は、関連電子文書並び替え手段を備えて、検索された電子文書の題名等を、関連度の大きさに従って、昇順又は降順に並び替えて表示してもよい。
例えば、ユーザは検索語70を入力し、本発明に係る電子文書検索システムの検索結果表示230には、当該検索語70との関連度の値が大きな所定の二つのキーワードを含む電子文書42のタイトル等の情報が示される。従って、ユーザは、まだ文書の形態に至らないアイデア段階の用語を検索語70として入力し、当該検索語70との関連度を有する電子文書42の情報を、蓄積された電子文書42の中から得ることが可能である。
このように構成することにより、本発明に係る類似文書検索システム100は、事業組織に特有なキーワードを記憶したキーワード辞書20、蓄積した電子文書42、電子文書42に含まれるキーワードの関連度を記憶した関連度辞書50を連動させることにより、ユーザが入力した検索語70との関連性が高い電子文書42を検索して、ユーザに示すことが可能になる。
[類似文書検索システム100のシステム構成]
図2は、本発明の一実施形態に係る、類似文書検索システム100のシステム構成を示す図である。一実施形態において、類似文書検索システム100のシステム構成には、文書検索装置10、キーワード辞書20、電子文書データベース40、関連度辞書50、端末装置60、ネットワーク80が含まれる。好適には、ネットワーク80は、例えば、事業組織内のローカル・エリア・ネットワークであるが、これに限定しない。類似文書検索システム100のシステム構成に含まれるそれぞれの装置又はデータベース等は、互いに独立していてもよく、他の装置に内蔵されていてもよく、全体を一つのサーバ装置等で構成してもよい。キーワード辞書20、電子文書データベース40、及び関連度辞書50の形態は、それぞれが単独のデータベース装置等でもよく、一つのサーバ装置内に設けられた記憶領域等を用いてもよい。
端末装置60は、検索語70を入力可能なコンピュータ機器等であればよい。端末装置60は単独の情報処理装置等でもよく、例えば文書検索装置10を端末装置60として用いてもよい。すなわち、端末装置60又は文書検索装置10は、本発明に係る類似文書検索システム100における電子文書の表示手段として用いることが可能である。例えば、電子文書42を電子文書データベース40に蓄積する場合に、当該電子文書42の表示手段として端末装置60又は文書検索装置10を用いることが可能である。また、例えば、本発明に係る類似文書検索システム100の検索結果を、前述の検索結果表示230等として表示するために、端末装置60又は文書検索装置10を用いることが可能である。
文書検索装置10は、本発明に係る電子文書検索システムが動作するコンピュータ等の情報処理装置でありうる。すなわち、本発明に係る電子文書検索システムは、キーワード辞書20、電子文書データベース40、及び関連度辞書50を連動させるコンピュータ・プログラムを、文書検索装置10において動作させることにより、端末装置60から入力された検索語70との関連性を有する電子文書42を検索することが可能になる。
さらに、文書検索装置10は、複数の電子文書を所定の順序で並び替える電子文書並び替え手段を備える。例えば、文書検索装置10は、本発明に係る類似文書検索システム100の検索結果に含まれる複数の電子文書42の情報を、算出されたそれぞれの関連度の値に従って、昇順又は降順等の規則を用いて並び替えてもよい。
[電子文書検索方法の諸段階]
図3は、本発明の一実施形態に係る、類似文書検索システム100の動作の諸段階を表すフロー図である。
ステップS110では、類似文書検索システム100は、電子文書を蓄積する。具体的には、図2に示した電子文書データベース40を用いて、事業組織の活動における様々な文書等が蓄積される。
ステップS120では、類似文書検索システム100は、キーワードを記憶する。具体的には、図2に示したキーワード辞書20を用いて、事業組織に特有の組織名、属性、略語等を含み、事業組織内で頻繁に用いられる様々な用語が記憶される。なお、これらのキーワードは、適宜、ユーザにより追加又は削除等の編集が行われてもよい。
ステップS130では、類似文書検索システム100は、電子文書からキーワードを検索する。すなわち、キーワード辞書20に含まれるキーワードが、電子文書データベース40内のそれぞれの電子文書42に対して検索される。例えば、それぞれの電子文書42について、事業組織に特有の組織名、属性、略語等の、事業組織内で頻繁に用いられる様々な用語のうちのどれがいくつ含まれているかという情報が生成されうる。生成された情報は、典型的には個々の電子文書42と関連付けて電子文書データベース40に記憶されるが、これに限定せず、キーワード辞書20に記憶されてもよく、関連度辞書50に記憶されてもよく、文書検索装置10に記憶されてもよい。生成される情報の形態は、キーワード辞書20に含まれるキーワード自体でもよく、当該キーワードを参照するための情報でもよい。当該キーワードを参照するための情報は、図1に示したリンク22でありうる。リンク22の形態は、データベース構造における任意のフィールドを用いる関連付けでもよく、ハイパーリンク等でもよい。
ステップS140では、類似文書検索システム100は、所定の二つのキーワードが出現する関連度を算出する。ここに、所定の二つのキーワードは、キーワード辞書20に記憶される任意の二つのキーワードでありうる。典型的には、類似文書検索システム100は、電子文書42に含まれる全ての文書に対して、任意の二つのキーワードが同時に出現する文書の数を関連度として算出する。従って、ステップS130の動作により生成される情報に加えて、ステップS140の動作により、キーワード辞書20に記憶される任意の二つのキーワードが同時に出現する情報が生成される。生成された情報は、典型的には関連度辞書50に記憶されうるが、他の記憶媒体対等が用いられてもよい。
一実施形態において、ステップS140の動作において、類似文書検索システム100は、電子文書42に含まれる全ての文書に対して、所定の二つのキーワードが出現する文書の数を累計する。当該文書の数は、関連度として関連度辞書50に記憶される。例えば、電子文書42内の、文、図、表、数式等に含まれる、所定の二つのキーワードが出現する文書の数が、関連度辞書50に累計される。
別の実施形態において、類似文書検索システム100は、電子文書42内に分類を適宜設け、当該分類に属する複数の文書に対して、所定の二つのキーワードが出現する回数を累計する。
これらのステップS140の動作により累計された文書の数又は回数は、所定の二つのキーワードの関連度として扱われる。すなわち、本発明に係る電子文書検索システムにおいては、累計された文書の数又は回数の値により、当該二つのキーワードの関連性の高さが表されうる。
ステップS150では、類似文書検索システム100は、関連度辞書50を用いて、ステップS140において生成された関連度を記憶する。ここまでの動作は、電子文書データベース40に蓄積された電子文書42のそれぞれについて、キーワード辞書20に含まれるキーワードが検索される諸段階である。これらのステップS110からステップS150の諸段階は、例えば、電子文書データベース40に新たに電子文書42が追加されることに応答して、実施されてもよい。
ステップS160では、類似文書検索システム100は、検索語を受け付ける。具体的には、類似文書検索システム100は、図2に示した端末装置60等を用いて、検索語70を受け付ける。
ステップS170では、類似文書検索システム100は、検索語70に対応するキーワードを決定する。
検索語70それ自体が、キーワード辞書20に含まれるキーワードである場合は、類似文書検索システム100は、検索語70を電子文書検索に用いてもよい。例えば、電子文書データベース40が様々な資産管理システム開発に関する設計仕様書を蓄積し、キーワード辞書20が各種の資産及び会計業務の用語を記憶し、関連度辞書50が複数の設計仕様書ごとに用語「固定資産」と同時に出現する他の用語の回数を記憶している場合を考える。検索語70が「固定資産」である場合に、本発明に係る類似文書検索システム100は、この検索語70である「固定資産」を、関連度に基づく電子文書検索に用いうる。
検索語70が、キーワード辞書20に含まない用語である場合は、類似文書検索システム100は、公知の類義語検索等を用いて、検索語70に最も類似したキーワードを、キーワード辞書20から選択し、電子文書検索に用いてもよい。
ステップS180では、類似文書検索システム100は、決定したキーワードを含む電子文書を検索する。例えば、関連度辞書50が、特定のキーワードを含むキーワード対を含む文書の数を記憶している場合を考える。類似文書検索システム100は、当該文書の数が所定以上の場合に、当該キーワード対を含む文書を検索結果としうる。検索結果の表示は、検索された文書のタイトル等を表示してもよく、当該キーワード対が用いられている文書の一部を表示してもよい。
さらに、類似文書検索システム100は、特定のキーワードを含むキーワード対が含まれる回数のより多い文書を優先して検索結果としてもよい。これに限定せず、検索結果の表示等は適宜設計しうる。
[キーワード辞書20のデータ構造]
図4は、本発明の一実施形態に係る、キーワード辞書データ構造120を示す図である。具体的には、キーワード辞書データ構造120は、キーワード辞書20が情報を記憶するために用いられる。一実施形態において、キーワード辞書20は、キーワード辞書データ構造120を用いて、キーワード識別子125、キーワード126の情報を、相互に関連付けて記憶しうる。
キーワード識別子125は、キーワード126を識別するための情報であればよく、書式等は適宜設計しうる。キーワード126のそれぞれは、典型的には単語であるが、事業組織の活動等に基づく連語、複合語、又は略語等でもよい。
図4の例においては、キーワード辞書データ構造120を用いて、「固定資産」というキーワード126には「A000010」というキーワード識別子125が関連付けられる。同様に、「建仮精算」というキーワード126には「A00020」というキーワード識別子125が関連付けられる。他のキーワード126及びキーワード識別子125の対に関しても同様である。
図4に示すキーワード辞書データ構造120の内容は、電子的な形態の文書から自動的に単語を抽出する技法等により作成されてもよく、ユーザが手操作で入力するものでもよい。例えば、ユーザは、個々のキーワード126を手作業で入力し、本発明に係る類似文書検索システム100がそれぞれのキーワード126ごとにキーワード識別子125を割り当ててもよい。
[電子文書データベース40のデータ構造]
図5は、本発明の一実施形態に係る、電子文書データベースデータ構造140を示す図である。具体的には、電子文書データベースデータ構造140は、電子文書データベース40が、本発明に係る電子文書検索のための情報を記憶するために用いられる。一実施形態において、電子文書データベース40は、電子文書データベースデータ構造140を用いて、電子文書識別子145、電子文書名146、抽出されたキーワード147の情報を、相互に関連付けて記憶しうる。これらに限定せず、電子文書データベースデータ構造140には適宜フィールドを追加してもよい。例えば、電子文書識別子145だけでなく、電子文書識別子145により特定される電子文書42それ自体を、電子文書データベースデータ構造140に取り入れてもよい。
電子文書識別子145は、電子文書42を識別するための情報であればよく、前述のキーワード識別子125と同様に、書式等は適宜設計しうる。
電子文書名146は、典型的には個々の電子文書42の題名でもよいが、これに限定しない。例えば、電子文書名146として、電子文書42の題名に加えて、当該電子文書の冒頭の部分を含めてもよく、要約文等の一部を含めてもよい。
抽出されたキーワード147は、電子文書識別子145により特定される電子文書42から抽出された、キーワード辞書20に含まれるキーワードである。すなわち、前述のキーワード辞書データ構造120に含まれるキーワード126のうち、ある特定の電子文書42に含まれるものが、抽出されたキーワード147として記憶される。抽出されたキーワード147の形態は、具体的な個別の語句でもよく、キーワード辞書20に含まれるキーワード126を参照するための情報でもよく、キーワード辞書20に含まれるキーワード識別子125又は当該キーワード識別子125を参照するための情報でもよい。すなわち、抽出されたキーワード147に含まれる情報は、キーワード辞書20を参照するために用いることが可能である。例えば、図1に示すリンク22として、このような抽出されたキーワード147とキーワード辞書20との関連付けを用いてもよい。これらの関連付けには、ポインタ、ショートカット、ハイパーリンク等、情報の関連付けに使用可能な公知の手法を任意に用いることが可能である。
図5の例においては、電子文書データベースデータ構造140を用いて、電子文書名146が「マニュアル」である電子文書42に対して、「B000010」という電子文書識別子145が関連付けられ、当該電子文書42は、「建仮精算」「固定資産」「決算」等の抽出されたキーワード147を有することが、電子文書データベース40により記憶される。他の電子文書識別子145を有するそれぞれの電子文書42についても同様である。
[関連度辞書50のデータ構造]
図6は、本発明の一実施形態に係る、関連度辞書データ構造150を示す図である。具体的には、関連度辞書データ構造150は、関連度辞書50が情報を記憶するために用いられる。一実施形態において、関連度辞書50は、関連度辞書データ構造150を用いて、第一のキーワード156、第二のキーワード157、関連度158の情報を、相互に関連付けて記憶しうる。以下、必要に応じて図5も参照して説明する。
図6に示す関連度辞書データ構造150は、典型的には、電子文書42に含まれる全ての文書に対して、本発明に係る類似文書検索システム100が関連度を算出することにより生成されうる。さらに、本発明に係る類似文書検索システム100は、電子文書42内に適宜分類を設け、特定の分類に属する文書に対して関連度を算出してもよい。
第一のキーワード156及び第二のキーワード157は、図5に示した抽出されたキーワード147でありうる。すなわち、第一のキーワード156及び第二のキーワード157は、いずれもキーワード辞書20に記憶されたキーワード126に含まれ、同一の電子文書識別子145を有する電子文書42に含まれる。
例えば、図6に示すように、電子文書42に含まれる全ての文書において、キーワード辞書20に記憶されたキーワード126でありうる「固定資産」「管理」「建仮精算」「勘定」「決算」「財務」等が含まれる場合に、これらのキーワード126は、第一のキーワード156及び第二のキーワード157として記憶される。
第一のキーワード156及び第二のキーワード157の組み合わせは、図5に示した抽出されたキーワード147に含まれる語句のうちの、二つの語句の組み合わせである。当該組み合わせの数は、次式により算出される。
Figure 2010218216
図5を用いて説明する。式中、Qは電子文書42、N(Q)は電子文書42が含むキーワード147の語句の数、Cは組み合わせを算出する関数である。例えば、電子文書42に含まれる文書の全体がキーワード147として「固定資産、管理、建仮精算、勘定、決算、財務、予算、納期」等の語句を含み、これらの語句の数が8個である場合、上式により組み合わせの数は28である。従って、この場合に、図6に示す第一のキーワード156及び第二のキーワード157の対は28個である。
図6に示す関連度158は、第一のキーワード156及び第二のキーワード157の組み合わせのそれぞれが、電子文書42内の全ての文書に同時に出現する回数を累計した値でありうる。あるいは、類似文書検索システム100は電子文書42内に適宜分類を設け、特定の分類に属する文書に対して、第一のキーワード156及び第二のキーワード157の組み合わせのそれぞれが出現する回数を累計してもよい。
関連度158は、参照された文書の情報を伴ってもよい。すなわち、関連度158として、例えば、参照された文書の電子文書識別子145が累積して記憶されてもよい。このようにすることで、前述の図5に示した電子文書データベースデータ構造140における電子文書識別子145と電子文書名146との関連付けを用いて、対応する電子文書名146を参照することが可能である。従って、本発明に係る類似文書検索システム100は、電子文書識別子145が累積して記憶されている関連度158を参照することにより、関連度辞書データ構造150に含まれる関連度158から、対応する電子文書名146を利用することが可能になる。
図6に示す例において、電子文書42に含まれる全ての文書に対して、第一のキーワード156及び第二のキーワード157の組み合わせが出現する文書の数を累計して、関連度158の値とする場合を考える。当該電子文書42に含まれる複数の文書のうち、「固定資産」及び「建仮精算」が同時に出現する文書の数が3個であるならば、これらの語句の関連度158として値「3」が記憶される。同様に、「固定資産」及び「勘定」が同時に出現する文書の数が1個であるならば、これらの語句の関連度158として値「1」が記憶される。同様に、「固定資産」及び「決算」が同時に出現する文書の数が2個であるならば、これらの語句の関連度158として値「2」が記憶される。他の関連度158についても同様である。
図6に示す例においては、前述のように、第一のキーワード156及び第二のキーワード157の組み合わせにおいて、一方が「固定資産」である複数の組み合わせのうちでは、「固定資産」と「建仮精算」との組み合わせにおける関連度158が最も大きな値「3」であることが示されている。
また、図6に示す例においては、キーワードを「固定資産」に限定しない場合は、「管理」及び「予算」の組み合わせに対する関連度158として値「6」が記憶され、この関連度158が最も大きな値であることが示されている。従って、これらの「管理」及び「予算」というキーワード126が同時に出現する文書の数が、他のキーワード126の組み合わせが出現する文書の数よりも多いと言える。
このように、本発明に係る電子文書検索システムは、関連度辞書データ構造150の関連度158に記憶される値を用いて、電子文書42に含まれる文書に出現するキーワード126どうしの関連性の程度を、数値として表すことが可能である。従って、関連度辞書データ構造150を用いることにより、本発明に係る類似文書検索システム100においては、ユーザが指定する検索語70に該当するキーワード126と関連付けられた、関連度158が参照され、より関連度158の値が大きな文書を、自動的に検索結果とすることが可能である。
[検索結果表示230の例]
図7は、本発明の一実施形態に係る、類似文書検索システム100の検索結果表示230の例を示す図である。検索結果表示230は、本発明に係る類似文書検索システム100による電子文書検索の結果220を示すために用いられる。典型的には、検索結果表示230は、ディスプレイ装置等の画面表示手段の表示範囲内における情報の配列でありうる。例えば、検索結果表示230は、電子文書検索の結果220を含む情報を、画面表示のための所定のタグ情報を含むハイパーテキストの形態に変換し、ブラウザ等のアプリケーション・ソフトウェアによりレンダリングさせるものでもよい。
例えば、ユーザがまだ文書の形態に至らない何らかのアイデアを有し、このアイデアとの関連性が高く、すでに電子文書データベース40に蓄積されている電子文書42を検索したい場合を考える。
ユーザは、端末装置60を用いて検索語70を入力する。図7に示す例においては、検索語70として「固定資産システム開発」という語句が指定されることが示されている。入力した検索語70は、問い合わせ210として本発明に係る類似文書検索システム100に送信される。電子文書42内に分類が設けられる場合は、ユーザは、適宜、自己の検索対象を特定の分類に絞り込んでもよい。
次いで、類似文書検索システム100は、当該問い合わせ210を受け付ける。さらに、類似文書検索システム100は、キーワード辞書20、電子文書データベース40、関連度辞書50を連動させ、関連度の高い電子文書42を検索する。このような電子文書42の検索のために、例えば文書検索装置10が用いられる。
最初に、類似文書検索システム100は、受け付けた問い合わせ210に含まれる検索語70に基づいて、キーワード辞書20に記憶されたキーワードを選択する。類似文書検索システム100は、前述の図4に示したキーワード辞書データ構造120を参照し、キーワード126を選択してもよい。例えば、検索語70としての「固定資産システム開発」という語句に含まれる「固定資産」「システム開発」等の部分的な語句がキーワード126に一致することにより、類似文書検索システム100は文書検索のためのキーワード126を選択することが可能である。
次いで、類似文書検索システム100は、前述の図6に示した関連度辞書データ構造150を参照し、選択された文書検索のためのキーワード126が、第一のキーワード156又は第二のキーワード157のいずれかに含まれる関連度158を検索する。図6に示した関連度辞書データ構造150の例においては、「固定資産」という語句が第一のキーワード156又は第二のキーワード157のいずれかに含まれる関連度158が検索される。従って、「固定資産」及び「建仮精算」の組み合わせ、「固定資産」及び「勘定」の組み合わせ、「固定資産」及び「決算」の組み合わせが抽出されうる。
次いで、類似文書検索システム100は、これらのキーワードの組み合わせごとに関連度158を参照する。関連度158は、文書の数でもよく、電子文書識別子145の累積でもよい。図6に示した関連度辞書データ構造150の例においては、「固定資産」及び「建仮精算」の組み合わせの関連度158の値は「3」であり、「固定資産」及び「勘定」の組み合わせの関連度158の値は「1」であり、「固定資産」及び「決算」の組み合わせの関連度158の値は「2」である。類似文書検索システム100は、これらの値の大小に基づいて、検索結果を並び替えてもよい。
あるいは、類似文書検索システム100は、関連度158が累積した電子文書識別子145である場合に、それぞれの電子文書識別子145の数を取得してもよい。例えば、「固定資産」及び「建仮精算」の組み合わせにおける電子文書識別子145の数は「3」であり、「固定資産」及び「勘定」の組み合わせにおける電子文書識別子145の数は「1」であり、「固定資産」及び「決算」の組み合わせにおける電子文書識別子145の数は「2」でありうる。類似文書検索システム100は、これらの数の大小に基づいて、検索結果を並び替えてもよく、さらにそれぞれの電子文書識別子145に対応する電子文書名146の情報を取得してもよい。
次いで、類似文書検索システム100は、検索された電子文書42の情報を、結果220とする。結果220は、適切な表示手段又は出力手段(図示せず)により、ユーザに示される。当該結果220をユーザに示すための書式として、検索結果表示230が用いられる。すなわち、検索結果表示230は、表示手段又は出力手段のための書式等でありうる。
一実施形態において、検索結果表示230は、「実績の検索結果」等の題名、文書名及び関連度を示すことの情報、具体的な結果220に含まれる個々の文書名及び関連度の情報を適宜含む。関連度の情報は任意の形態でユーザに示すことが可能である。例えば、図6に示した関連度辞書データ構造150に含まれる関連度158の値をそのままユーザに示してもよい。あるいは、一つの検索において抽出された複数の関連度158の値を統計処理し、適宜正規化した関連度158の値に従って、大きさの順に「高い」「中程度」「低い」等の大まかな程度を表す語句又はこれらの略称等を用いて示してもよい。あるいは、大小関係を視認可能な図形又は画像等を用いて示してもよく、限定しない。関連度158の値に従った表示の並び替えをしてもよい。表示の装飾等を追加してもよい。
このようにすることで、本発明に係る類似文書検索システム100は、検索結果表示230を用いて、本発明に係る電子文書検索の結果をユーザに示すことが可能である。図7に示す例においては、検索語70として「固定資産管理システム開発」を指定したユーザは、関連度158の高い順に、「建仮精算システム開発」「決算整理システム開発」「修繕費管理システム」等の文書名の情報を得ることが可能である。
以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
10 文書検索装置
20 キーワード辞書
22 リンク
40 電子文書データベース
42 電子文書
50 関連度辞書
60 端末装置
70 検索語
80 ネットワーク
100 類似文書検索システム
120 キーワード辞書データ構造
125 キーワード識別子
126 キーワード
140 電子文書データベースデータ構造
145 電子文書識別子
146 電子文書名
147 抽出されたキーワード
150、161 関連度辞書データ構造
156 第一のキーワード
157 第二のキーワード
158 関連度
210 問い合わせ
220 結果
230 検索結果表示

Claims (8)

  1. 入力された検索語との関連性に基づいて電子文書を検索する電子文書検索システムであって、
    前記検索語の入力を受け付ける検索語受付手段と、
    複数の電子文書を蓄積する電子文書蓄積手段と、
    複数のキーワードを記憶するキーワード記憶手段と、
    前記電子文書蓄積手段に蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索手段と、
    前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出手段と、
    前記関連度算出手段により算出された関連度を記憶する関連度記憶手段と、
    前記関連度記憶手段に記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索手段と、を備える、
    電子文書検索システム。
  2. さらに、前記関連電子文書検索手段により検索された前記電子文書を表示する関連電子文書表示手段を備える、請求項1に記載の電子文書検索システム。
  3. さらに、前記関連電子文書検索手段により複数の電子文書が検索された場合、該複数の電子文書を前記関連度に従った順序で並び替える関連電子文書並び替え手段を備える、請求項1に記載の電子文書検索システム。
  4. 前記キーワード記憶手段は、事業体の属性情報を表すキーワードを記憶する、請求項1に記載の電子文書検索システム。
  5. 前記電子文書蓄積手段は、事業体の事業実績又は事業予定を含む前記電子文書を蓄積する、請求項1に記載の電子文書検索システム。
  6. 前記事業体の事業実績又は事業予定を含む前記電子文書は、前記事業体の見積査定又は予算計画の情報を含む、請求項5に記載の電子文書検索システム。
  7. 入力された検索語との関連性に基づいて電子文書を検索する電子文書検索方法であって、
    前記検索語の入力を受け付ける検索語受付ステップと、
    複数の電子文書を蓄積する電子文書蓄積ステップと、
    複数のキーワードを記憶するキーワード記憶ステップと、
    前記電子文書蓄積ステップにより蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索ステップと、
    前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、
    前記関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、
    前記関連度記憶ステップにより記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索ステップと、を含む、
    電子文書検索方法。
  8. コンピュータを用いて、入力された検索語との関連性に基づいて電子文書を検索する電子文書検索プログラムであって、
    前記検索語の入力を受け付ける検索語受付ステップと、
    複数の電子文書を蓄積する電子文書蓄積ステップと、
    複数のキーワードを記憶するキーワード記憶ステップと、
    前記電子文書蓄積ステップにより蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索ステップと、
    前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、
    前記関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、
    前記関連度記憶ステップにより記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索ステップと、を
    コンピュータに実行させる電子文書検索プログラム。
JP2009064285A 2009-03-17 2009-03-17 類似文書検索システム、方法及びプログラム Pending JP2010218216A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009064285A JP2010218216A (ja) 2009-03-17 2009-03-17 類似文書検索システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009064285A JP2010218216A (ja) 2009-03-17 2009-03-17 類似文書検索システム、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010218216A true JP2010218216A (ja) 2010-09-30

Family

ID=42977001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009064285A Pending JP2010218216A (ja) 2009-03-17 2009-03-17 類似文書検索システム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010218216A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170145A (ja) * 2014-03-07 2015-09-28 Kddi株式会社 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2018072983A (ja) * 2016-10-26 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230372A (ja) * 1989-03-02 1990-09-12 Canon Inc 電子ファイルシステム
JPH09204432A (ja) * 1996-01-24 1997-08-05 Sharp Corp 電子機器
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JP2004110386A (ja) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd 連想検索システム
JP4128212B1 (ja) * 2007-10-17 2008-07-30 株式会社野村総合研究所 キーワード間の関連度算出システム及び関連度算出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230372A (ja) * 1989-03-02 1990-09-12 Canon Inc 電子ファイルシステム
JPH09204432A (ja) * 1996-01-24 1997-08-05 Sharp Corp 電子機器
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JP2004110386A (ja) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd 連想検索システム
JP4128212B1 (ja) * 2007-10-17 2008-07-30 株式会社野村総合研究所 キーワード間の関連度算出システム及び関連度算出方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND199900404001; 高橋 三雄: 'ビジネスソフト実践活用研究(27) 会社四季報CD-ROMの多目的検索法と表計算/地図ソフトへのファ' OAビジネスパソコン 第17巻 第1号, 19990101, pp.132-137, 電波新聞社 *
JPN6012033230; 高橋 三雄: 'ビジネスソフト実践活用研究(27) 会社四季報CD-ROMの多目的検索法と表計算/地図ソフトへのファ' OAビジネスパソコン 第17巻 第1号, 19990101, pp.132-137, 電波新聞社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2015170145A (ja) * 2014-03-07 2015-09-28 Kddi株式会社 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
JP2018072983A (ja) * 2016-10-26 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US7562088B2 (en) Structure extraction from unstructured documents
US8429159B1 (en) System and method for providing information navigation and filtration
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN109074383B (zh) 文档背景内可视化的文档搜索
US20080162455A1 (en) Determination of document similarity
JP5168961B2 (ja) 最新評判情報通知プログラム、記録媒体、装置及び方法
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US8959079B2 (en) Method and system for providing relationships in search results
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
US10002187B2 (en) Method and system for performing topic creation for social data
US20150032747A1 (en) Method for systematic mass normalization of titles
US9760600B2 (en) Serving recurrent calendar events
CN114706882A (zh) 结构化信息卡的搜索和检索
CN113544689A (zh) 为文档的来源观点生成并提供附加内容
JP2018538603A (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
Geiß et al. Neckar: A named entity classifier for wikidata
US9996529B2 (en) Method and system for generating dynamic themes for social data
US20100205200A1 (en) Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
CN114065058B (zh) 城市推荐方法、装置、电子设备及计算机可读存储介质
JP2007011604A (ja) 不具合診断システム及びプログラム
JP2010218216A (ja) 類似文書検索システム、方法及びプログラム
CN112100216A (zh) 创意关键词的处理方法和装置
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
KR20100088892A (ko) 문서 분류 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130226