JP2010218216A - Similar document retrieval system, method and program - Google Patents

Similar document retrieval system, method and program Download PDF

Info

Publication number
JP2010218216A
JP2010218216A JP2009064285A JP2009064285A JP2010218216A JP 2010218216 A JP2010218216 A JP 2010218216A JP 2009064285 A JP2009064285 A JP 2009064285A JP 2009064285 A JP2009064285 A JP 2009064285A JP 2010218216 A JP2010218216 A JP 2010218216A
Authority
JP
Japan
Prior art keywords
electronic document
keyword
search
relevance
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009064285A
Other languages
Japanese (ja)
Inventor
Masaaki Matsubara
真章 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chugoku Electric Power Co Inc
Original Assignee
Chugoku Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chugoku Electric Power Co Inc filed Critical Chugoku Electric Power Co Inc
Priority to JP2009064285A priority Critical patent/JP2010218216A/en
Publication of JP2010218216A publication Critical patent/JP2010218216A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a similar document retrieval system, a method and a program for extracting an electronic document having a strong relation with an objective document. <P>SOLUTION: The electronic document retrieval system for retrieving the electronic document based on a relation with an input retrieval word includes a retrieval word receiving means for receiving an input of the retrieval word, an electronic document accumulating means for accumulating the plurality of electronic documents, a keyword storage means for storing a plurality of keywords, a keyword retrieving means for retrieving the plurality of keywords from the electronic documents accumulated in the electronic document accumulating means, a relation degree calculating means for calculating a relation degree with prescribed two keywords appearing simultaneously in one electronic document out of a plurality of keywords, a relation degree storage means for storing the relation degree calculated by the relation degree calculating means, and a related electronic document retrieving means for determining the keyword corresponding to the retrieval word based on the relation degree stored in the relation degree storage means, and retrieving the electronic document including the determined keyword. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、関連性の強いキーワードを含む類似文書を検索するシステム、方法及びプログラムに関する。特に本発明は、事業見積査定や予算想定のために過去の類似実績を効率的に検索するシステム、方法及びプログラムに関する。   The present invention relates to a system, a method, and a program for searching for similar documents including keywords that are strongly related. In particular, the present invention relates to a system, method, and program for efficiently retrieving past similar achievements for business estimate assessment and budget assumption.

従来、情報システム開発の見積査定や予算想定のために過去類似実績を調べたい場合には、組織名、開発技術、開発規模、利用者数等、様々な属性情報を用意し、これらの属性情報に基づいて類似実績の候補を絞り込むことが一般的であった。しかし、事業組織の体制変更等により、同一業務を継続しているにも関わらず組織名が変更され、又は異なる業務が同一の組織に集約される等の状況が発生する場合があり、組織名等の属性情報に基づく類似実績の検索においては、一定の結果が得られるとは限らなかった。   Conventionally, if you want to examine past similar performance for information system development estimate assessment or budget assumption, prepare various attribute information such as organization name, development technology, development scale, number of users, etc., and these attribute information It is common to narrow down similar candidate candidates based on. However, due to changes in the structure of the business organization, the organization name may be changed even though the same business is continued, or different business operations may be consolidated into the same organization. In a similar performance search based on attribute information such as, a certain result is not always obtained.

また、従来、大量の言語情報から類似性又は関連性の強さを定量的に把握し、類似した事業実績を検索することは手作業では困難であった。従って、過去の類似した事業実績を簡単に検索するためのシステム等が求められていた。   Conventionally, it has been difficult to manually grasp the similarity or strength of relevance quantitatively from a large amount of language information and search for similar business results. Therefore, a system for easily searching for past similar business results has been demanded.

このようなシステムに係る従来技術として、例えば、プロジェクトの規模及び作業期間の条件により作業高実績値を抽出可能な仕組みとするプロジェクト作業高予算策定支援システムに係る技術が知られている(特許文献1)。当該技術においては、過去の統計から新規事業の作業高予算値を自動作成し、プロジェクトの月々の作業の予算値策定の最適値を予測できるとしている。   As a conventional technique related to such a system, for example, a technique related to a project work high budget formulation support system that makes it possible to extract a work high actual value based on conditions of a project scale and a work period is known (Patent Literature). 1). According to the technology, a work high budget value for a new business is automatically created from past statistics, and an optimal value for formulating a budget value for monthly work of a project can be predicted.

特開2006−163962号公報JP 2006-163962 A

しかしながら、従来技術に係るプロジェクト作業高予算策定支援システム等においては、過去の統計から最適値を予測することは可能であるが、必ずしも最適とは限らない類似した結果を得ることは想定されていなかった。   However, in the project work high budget formulation support system related to the prior art, it is possible to predict the optimum value from the past statistics, but it is not expected to obtain a similar result that is not necessarily optimum. It was.

本発明は、特定事業の予算策定等に係る過去実績を含む電子文書群から、目的文書との関連性を有する電子文書を検索し、類似性に従ってユーザに提示することが可能な類似文書検索システム、方法及びプログラムを提供することを目的とする。また、本発明は、当該検索のためのキーワードを、当該特定事業に基づいてユーザが指定することが可能な、類似文書検索システム、方法及びプログラムを提供することを目的とする。   The present invention provides a similar document search system capable of searching an electronic document having relevance with a target document from an electronic document group including past results relating to budget formulation of a specific business and presenting it to a user according to the similarity. It is an object to provide a method and a program. It is another object of the present invention to provide a similar document search system, method, and program in which a user can specify keywords for the search based on the specific business.

本発明は、次のような手段を提供する。   The present invention provides the following means.

(1)入力された検索語との関連性に基づいて電子文書を検索する電子文書検索システムであって、検索語の入力を受け付ける検索語受付手段と、複数の電子文書を蓄積する電子文書蓄積手段と、複数のキーワードを記憶するキーワード記憶手段と、電子文書蓄積手段に蓄積された電子文書から複数のキーワードを検索するキーワード検索手段と、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出手段と、関連度算出手段により算出された関連度を記憶する関連度記憶手段と、関連度記憶手段に記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索手段と、を備える、電子文書検索システム。   (1) An electronic document search system for searching an electronic document based on a relationship with an input search word, a search word receiving means for receiving an input of a search word, and an electronic document storage for storing a plurality of electronic documents Means, keyword storage means for storing a plurality of keywords, keyword search means for searching for a plurality of keywords from an electronic document stored in the electronic document storage means, and a predetermined two keywords out of the plurality of keywords being one electronic Relevance level calculating means for calculating the relevance level appearing simultaneously in the document, relevance level storing means for storing the relevance level calculated by the relevance level calculating means, and searching based on the relevance level stored in the relevance level storage means An electronic document search system comprising: related electronic document search means for determining a keyword corresponding to a word and searching for an electronic document including the determined keyword.

本発明に係る電子文書検索システムは、電子文書蓄積手段を用いて、すでに作成された電子文書を蓄積することが可能である。また、本発明に係る電子文書検索システムは、キーワード記憶手段を用いて、ユーザが所望する検索のためのキーワードを記憶することが可能である。また、本発明に係る電子文書検索システムは、関連度記憶手段を用いて、蓄積された電子文書に出現するキーワードどうしの関連性を記憶することが可能である。さらに、本発明に係る電子文書検索システムは、関連電子文書検索手段を用いて、ユーザの検索語に対応するキーワードを含む電子文書を検索することが可能である。   The electronic document search system according to the present invention can store an already created electronic document using electronic document storage means. Further, the electronic document search system according to the present invention can store a keyword for a search desired by a user using a keyword storage unit. In addition, the electronic document search system according to the present invention can store the relevance between keywords appearing in the stored electronic document using the relevance degree storage means. Furthermore, the electronic document search system according to the present invention can search for an electronic document including a keyword corresponding to a user's search word by using related electronic document search means.

本発明に係る電子文書検索システムのユーザは、前述の蓄積手段、記憶手段及び検索手段を備え、検索語を受け付ける電子文書検索システムを利用する。例えば、前述の蓄積手段及び2種類の記憶手段により、ユーザが属する事業組織内で作成された電子文書、当該電子文書に含まれる事業組織に特有のキーワード、当該特有のキーワードどうしの関連性のそれぞれが記憶されうる。   A user of the electronic document search system according to the present invention uses the electronic document search system that includes the above-described storage means, storage means, and search means, and that accepts search terms. For example, each of the electronic document created in the business organization to which the user belongs, the keyword specific to the business organization included in the electronic document, and the relevance between the specific keywords by the storage means and the two types of storage means described above. Can be stored.

本発明に係る電子文書検索システムの関連電子文書検索手段は、ユーザから受け付けた検索語に対応するキーワードを決定する。ここに、キーワードは前述のキーワード記憶手段を用いて記憶されるキーワードでありうる。例えば、関連電子文書検索手段が決定するキーワードは、ユーザが属する事業組織に特有のキーワードでありうる。さらに、関連電子文書検索手段は、決定したキーワードを含む電子文書を検索する。ここに、電子文書は、前述の電子文書蓄積手段に蓄積された、事業組織内で作成された電子文書でありうる。従って、本発明に係る電子文書検索システムにおいては、ユーザから受け付けた検索語に対応する特有のキーワードを含む電子文書が検索される。すなわち、ユーザから受け付けた検索語が表す意味又は概念と一致又は類似する所定の二つのキーワードが出現する電子文書が検索されうる。   The related electronic document search means of the electronic document search system according to the present invention determines a keyword corresponding to the search word received from the user. Here, the keyword may be a keyword stored using the keyword storage unit described above. For example, the keyword determined by the related electronic document search means may be a keyword specific to the business organization to which the user belongs. Further, the related electronic document search means searches for an electronic document including the determined keyword. Here, the electronic document may be an electronic document created in the business organization and stored in the electronic document storage means. Therefore, in the electronic document search system according to the present invention, an electronic document including a unique keyword corresponding to the search word received from the user is searched. That is, an electronic document in which two predetermined keywords that match or are similar to the meaning or concept represented by the search word received from the user can be searched.

キーワード記憶手段を用いて記憶されるキーワード、特に事業組織等に特有のキーワードとしては、事業体の組織に特有のキーワード、業界用語、略語等が挙げられるが、これらに限定しない。キーワード記憶手段を用いて、事業体の組織に特有のキーワード等を記憶することにより、本発明に係る電子文書検索システムは、ユーザが指定する検索語に誤記又は事業組織の名称変更等による検索語の変化があっても、キーワード記憶手段に記憶された一定のキーワードを常に電子文書検索のために用いることが可能になる。従って、本発明においては、電子文書の検索を一定の条件で実施することが可能である。さらに、ユーザが指定する検索語が、まだ文書の形態に至らないアイデア等を表す場合であっても、キーワード記憶手段に記憶された一定のキーワードを電子文書検索のために用いることにより、検索語との関連性が高い電子文書を検索することが可能である。例えば、ユーザが、要求仕様の一部が曖昧なアイデア等に対して過去の類似案件を検索する場合等において、本発明に係る電子文書検索システムは、キーワード記憶手段に記憶された一定のキーワードを電子文書検索のために用いることが可能である。   Keywords stored using the keyword storage means, particularly keywords specific to business organizations and the like, include, but are not limited to, keywords, industry terms, abbreviations and the like specific to business organizations. By storing a keyword or the like peculiar to the organization of the business entity using the keyword storage means, the electronic document search system according to the present invention can search the search term specified by the user by mistake or by changing the name of the business organization. Even if there is a change, it becomes possible to always use a certain keyword stored in the keyword storage means for electronic document search. Therefore, in the present invention, it is possible to search for electronic documents under certain conditions. Furthermore, even when the search term designated by the user represents an idea or the like that has not yet reached the form of a document, the search term can be obtained by using a certain keyword stored in the keyword storage means for electronic document search. It is possible to search for electronic documents that are highly relevant to. For example, in the case where the user searches for past similar cases for ideas whose part of the required specifications is ambiguous, the electronic document search system according to the present invention uses a certain keyword stored in the keyword storage means. It can be used for electronic document retrieval.

(2)さらに、関連電子文書検索手段により検索された電子文書を表示する関連電子文書表示手段を備える、(1)に記載の電子文書検索システム。   (2) The electronic document search system according to (1), further comprising related electronic document display means for displaying the electronic document searched by the related electronic document search means.

(3)さらに、関連電子文書検索手段により複数の電子文書が検索された場合、該複数の電子文書を関連度に従った順序で並び替える関連電子文書並び替え手段を備える、(1)に記載の電子文書検索システム。   (3) Furthermore, when a plurality of electronic documents are searched by the related electronic document search unit, the electronic document is provided with a related electronic document rearrangement unit that rearranges the plurality of electronic documents in an order according to the degree of relevance. Electronic document search system.

このようにすることで、本発明に係る電子文書検索システムにおいては、ユーザから受け付けた検索語との関連度に従った順序で、検索結果をユーザに示すことが可能である。ユーザは、自己が想定する目的文書に対して、より類似性が高い電子文書を検索結果として得ることが可能になる。   By doing in this way, in the electronic document search system according to the present invention, it is possible to show the search results to the user in the order according to the degree of association with the search word received from the user. The user can obtain, as a search result, an electronic document having higher similarity to the target document assumed by the user.

(4)キーワード記憶手段は、事業体の属性情報を表すキーワードを記憶する、(1)に記載の電子文書検索システム。   (4) The electronic document search system according to (1), wherein the keyword storage unit stores a keyword representing attribute information of the business entity.

(5)電子文書蓄積手段は、事業体の事業実績又は事業予定を含む電子文書を蓄積する、(1)に記載の電子文書検索システム。   (5) The electronic document search system according to (1), wherein the electronic document storage unit stores an electronic document including a business performance or a business schedule of the business entity.

(6)事業体の事業実績又は事業予定を含む電子文書は、事業体の見積査定又は予算計画の情報を含む、(5)に記載の電子文書検索システム。   (6) The electronic document search system according to (5), wherein the electronic document including the business performance or business schedule of the business entity includes information on an estimate assessment or budget plan of the business entity.

(7)入力された検索語との関連性に基づいて電子文書を検索する電子文書検索方法であって、検索語の入力を受け付ける検索語受付ステップと、複数の電子文書を蓄積する電子文書蓄積ステップと、複数のキーワードを記憶するキーワード記憶ステップと、電子文書蓄積ステップにより蓄積された電子文書から複数のキーワードを検索するキーワード検索ステップと、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、関連度記憶ステップにより記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索ステップと、を含む、電子文書検索方法。   (7) An electronic document search method for searching an electronic document based on a relationship with an input search word, a search word receiving step for receiving an input of the search word, and an electronic document storage for storing a plurality of electronic documents A keyword storage step for storing a plurality of keywords, a keyword search step for searching for a plurality of keywords from the electronic document stored in the electronic document storage step, and two predetermined keywords among the plurality of keywords Relevance level calculating step for calculating the relevance level appearing simultaneously in the document, relevance level storing step for storing the relevance level calculated by the relevance level calculating step, and searching based on the relevance level stored by the relevance level storing step A related electronic document search module that determines a keyword corresponding to a word and searches for an electronic document including the determined keyword. Tsu including and up, the electronic document search method.

(8)コンピュータを用いて、入力された検索語との関連性に基づいて電子文書を検索する電子文書検索プログラムであって、検索語の入力を受け付ける検索語受付ステップと、複数の電子文書を蓄積する電子文書蓄積ステップと、複数のキーワードを記憶するキーワード記憶ステップと、電子文書蓄積ステップにより蓄積された電子文書から複数のキーワードを検索するキーワード検索ステップと、複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、関連度記憶ステップにより記憶された関連度に基づいて検索語に対応するキーワードを決定し、決定したキーワードを含む電子文書を検索する関連電子文書検索ステップと、をコンピュータに実行させる電子文書検索プログラム。   (8) An electronic document search program for searching an electronic document based on a relationship with an input search word using a computer, a search word receiving step for receiving an input of the search word, and a plurality of electronic documents An electronic document storage step for storing, a keyword storage step for storing a plurality of keywords, a keyword search step for searching for a plurality of keywords from the electronic document stored by the electronic document storage step, and a predetermined two of the plurality of keywords Relevance level calculating step for calculating a relevance level in which keywords appear in one electronic document at the same time, a relevance level storing step for storing the relevance level calculated in the relevance level calculating step, and a relevance level stored in the relevance level storing step An electronic document that determines the keyword corresponding to the search term based on the degree and includes the determined keyword Electronic document search program to be executed and associated electronic document search step of searching, to the computer.

本発明に係る電子文書検索方法又は電子文書検索プログラムは、コンピュータ・ネットワーク資源の情報検索技術等の、既存の技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む電子文書検索装置等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、電子文書を検索する方法のいずれかのステップを任意の記憶媒体に記憶して提供し得る。具体的には、磁気記憶媒体、電気的記憶媒体、光学ディスク等のコンピュータ可読媒体に記憶されたコンピュータ・プログラムの形態も、本発明の技術範囲に含まれる。   The electronic document search method or electronic document search program according to the present invention can be combined with existing technologies such as information retrieval technology for computer network resources, and such combined technologies are also within the technical scope of the present invention. included. Similarly, an electronic document search apparatus including the technique of the present invention is also included in the technical scope of the present invention. Further, the techniques of the present invention may provide any step of the method for retrieving an electronic document stored on any storage medium. Specifically, a form of a computer program stored in a computer readable medium such as a magnetic storage medium, an electrical storage medium, or an optical disk is also included in the technical scope of the present invention.

本発明によれば、特定事業の予算策定等に係る過去実績を含む電子文書群から、目的文書との関連性を有する電子文書を検索し、客観的な数値として比較しうる関連度としての類似性に従ってユーザに提示することが可能な情報検索システム、方法及びプログラムを提供することが可能になる。また、本発明によれば、当該検索のためのキーワードを、当該特定事業に基づいてユーザが指定することが可能な、情報検索システム、方法及びプログラムを提供することが可能になる。   According to the present invention, an electronic document having relevance with a target document is retrieved from an electronic document group including past results related to budget formulation of a specific business, and the similarity as a relevance that can be compared as an objective numerical value. It is possible to provide an information search system, method, and program that can be presented to the user according to the sex. In addition, according to the present invention, it is possible to provide an information search system, method, and program in which a user can specify a keyword for the search based on the specific business.

従って、本発明に係る電子文書検索システムにおいては、キーワード記憶手段を用いる電子文書検索により、事業組織内の特有のキーワードを一元管理すること、蓄積された電子文書を、新規開発案件を査定するための情報として用いること、曖昧な要求仕様又は実績のない新規開発案件等に対して適正な見積値又は見積値の範囲に関する過去実績を抽出すること等が可能になる。さらに、本発明に係る電子文書検索システムにおいては、数値として比較可能な関連度を用いる電子文書検索により、担当者の勘や経験則に依存しない、客観的かつ信憑性のある電子文書検索が可能である。   Accordingly, in the electronic document search system according to the present invention, the unique keywords in the business organization are centrally managed by the electronic document search using the keyword storage means, and the newly developed project is evaluated for the accumulated electronic documents. It is possible to extract past estimated results or past results related to the range of estimated values for new development projects with no vague required specifications or actual results. Furthermore, in the electronic document search system according to the present invention, an objective and credible electronic document search that does not depend on the intuition or rule of thumb of the person in charge is possible by electronic document search using a degree of relevance that can be compared as numerical values. It is.

本発明の一実施形態に係る、類似文書検索システム100の構成要素の関係を示すブロック図である。It is a block diagram which shows the relationship of the component of the similar document search system 100 based on one Embodiment of this invention. 本発明の一実施形態に係る、類似文書検索システム100のシステム構成を示す図である。It is a figure which shows the system configuration | structure of the similar document search system 100 based on one Embodiment of this invention. 本発明の一実施形態に係る、類似文書検索システム100の動作の諸段階を表すフロー図である。It is a flowchart showing the various steps of the operation of the similar document search system 100 according to an embodiment of the present invention. 本発明の一実施形態に係る、キーワード辞書データ構造120を示す図である。FIG. 4 is a diagram illustrating a keyword dictionary data structure 120 according to an embodiment of the present invention. 本発明の一実施形態に係る、電子文書データベースデータ構造140を示す図である。FIG. 3 is a diagram illustrating an electronic document database data structure 140, according to one embodiment of the present invention. 本発明の一実施形態に係る、関連度辞書データ構造150を示す図である。It is a figure which shows the relevance dictionary data structure 150 based on one Embodiment of this invention. 本発明の一実施形態に係る、類似文書検索システム100の検索結果表示230の例を示す図である。It is a figure which shows the example of the search result display 230 of the similar document search system 100 based on one Embodiment of this invention.

以下、本発明の実施形態について、図面を併用して説明する。なお、これらはあくまでも一例であって、本発明の技術的範囲はこれらに限られるものではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. These are merely examples, and the technical scope of the present invention is not limited to these.

[類似文書検索システム100の構成要素の関係]
図1は、本発明の一実施形態に係る、類似文書検索システム100の構成要素の関係を示すブロック図である。一実施形態において、類似文書検索システム100の構成要素には、キーワード記憶手段としてのキーワード辞書20、電子文書42、関連度記憶手段としての関連度辞書50、検索語70、及び関連電子文書表示手段としての検索結果表示230が含まれる。検索結果表示230は、さらに関連電子文書並び替え手段を備えてもよい。リンク22は、キーワード辞書20と電子文書42に含まれる語句との関連付けである。この関連付けについては、電子文書42を蓄積するデータベースのデータ構造として、図5を用いて後述する。
[Relationships between components of similar document search system 100]
FIG. 1 is a block diagram showing the relationship of components of a similar document search system 100 according to an embodiment of the present invention. In one embodiment, the components of the similar document search system 100 include a keyword dictionary 20 as a keyword storage unit, an electronic document 42, a relevance dictionary 50 as a relevance degree storage unit, a search word 70, and a related electronic document display unit. A search result display 230 is included. The search result display 230 may further include related electronic document sorting means. The link 22 is an association between the keyword dictionary 20 and a word / phrase included in the electronic document 42. This association will be described later with reference to FIG. 5 as the data structure of the database that stores the electronic document 42.

キーワード辞書20は、事業体の属性情報を表すキーワード等の、事業組織等に特有の組織名、属性、略語等を含み、事業組織内で頻繁に用いられる様々な用語を記憶するために用いられる。これらの用語は、事業組織内で作成される様々な文書に含まれうる。キーワード辞書20として記憶される用語の選択は、電子データからの自動抽出等でもよく、ユーザが手操作で語句を入力してもよい。キーワード辞書20に記憶される語句は、ユーザにより適宜、取捨選択されてもよい。従って、ユーザは、事業組織等に特有の語句を含むキーワード辞書20を作成することが可能である。例えば、あるユーザが、資産管理のためのシステム開発に関する文書管理を必要とする場合に、キーワード辞書20に「固定資産」等の語句が記憶されうる。   The keyword dictionary 20 includes organization names, attributes, abbreviations, and the like unique to the business organization, such as keywords representing the attribute information of the business entity, and is used to store various terms frequently used in the business organization. . These terms can be included in various documents created within a business organization. Selection of a term stored as the keyword dictionary 20 may be automatic extraction from electronic data or the like, and a user may manually input a phrase. The words and phrases stored in the keyword dictionary 20 may be appropriately selected by the user. Therefore, the user can create the keyword dictionary 20 including words unique to the business organization or the like. For example, when a user needs document management related to system development for asset management, a phrase such as “fixed asset” may be stored in the keyword dictionary 20.

電子文書42は、事業組織等が生成した電子データの形態を有する文書でありうる。例えば、電子文書42は、事業組織等の事業実績又は事業予定等の事業活動における、事業体の事業実績又は事業予定、見積査定又は予算計画、通知、規則、手続の説明、事業計画、予算提案、決算報告、成果報告等のための文書を含むが、これらに限定しない。また、電子文書42は、適宜、検索のための分類に用いる情報を含んでもよい。それぞれの分類は、事業組織の活動等に基づいて、適宜設計しうる。
例えば、電子文書42には、分類としての「マニュアル」、「要則」、「通知通達」等の情報を含んでもよい。さらに、それぞれの分類は、任意の数の文書を含んでもよい。従って、後述する関連度の算出において、電子文書42の分類に含まれる個々の文書が対象となりうる。すなわち、ユーザは、本発明に係る検索の結果として、個々の文書の情報を得ることが可能である。
あるいは、電子文書42は、「マニュアル」、「要則」、「通知通達」等の分類のそれぞれを一つの文書として扱ってもよい。従って、後述する関連度の算出において、一つの分類に含まれる複数の文書が対象となりうる。すなわち、ユーザは、本発明に係る検索の結果として、複数の文書を含む分類の情報を得ることも可能である。
The electronic document 42 may be a document having a form of electronic data generated by a business organization or the like. For example, the electronic document 42 includes business results or business schedules of business entities, business assessments, budget plans, notifications, rules, explanations of procedures, business plans, budget proposals in business activities such as business organizations or business schedules. Including, but not limited to, documents for financial reports, results reports, etc. Further, the electronic document 42 may appropriately include information used for classification for search. Each classification can be designed as appropriate based on the activities of the business organization.
For example, the electronic document 42 may include information such as “manual”, “rules”, and “notification notification” as classifications. Further, each classification may include any number of documents. Accordingly, individual documents included in the classification of the electronic document 42 can be targeted in the calculation of the relevance described later. That is, the user can obtain information on individual documents as a result of the search according to the present invention.
Alternatively, the electronic document 42 may treat each of classifications such as “manual”, “rules”, and “notification notification” as one document. Accordingly, a plurality of documents included in one classification can be targeted in calculating the relevance described later. That is, the user can obtain classification information including a plurality of documents as a result of the search according to the present invention.

関連度辞書50は、電子文書42に所定の二つのキーワードが出現する関連度を算出して記憶する。ここで、所定の二つのキーワードとは、キーワード辞書20に記憶された二つのキーワードを指す。典型的には、類似文書検索システム100は、電子文書42内の全ての文書に対して、所定の二つのキーワードが出現する文書の数を累計する。例えば、電子文書42に含まれる全ての文書に対して、文、図、表、数式等に含まれる、所定の二つのキーワードが出現する文書の数が累計される。これに限定せず、電子文書42には、複数の文書を含む分類を適宜設けてもよい。類似文書検索システム100は、特定の分類に含まれる文書に対して、所定の二つのキーワードが出現する回数を累計し、分類ごとに関連度を算出してもよい。   The relevance level dictionary 50 calculates and stores the relevance level at which two predetermined keywords appear in the electronic document 42. Here, the predetermined two keywords refer to two keywords stored in the keyword dictionary 20. Typically, the similar document search system 100 accumulates the number of documents in which two predetermined keywords appear for all the documents in the electronic document 42. For example, for all documents included in the electronic document 42, the number of documents in which two predetermined keywords appear in sentences, diagrams, tables, mathematical formulas, and the like are accumulated. However, the electronic document 42 may be appropriately provided with a classification including a plurality of documents. The similar document search system 100 may accumulate the number of times that two predetermined keywords appear for documents included in a specific category, and calculate the degree of association for each category.

このような関連度辞書50の動作により累計された文書の数又は回数は、所定の二つのキーワードの関連度として扱われる。すなわち、本発明に係る電子文書検索システムにおいては、累計された文書の数又は回数の値により、電子文書42の中における当該二つのキーワードの関連性の高さを表すことが可能である。   The number or number of documents accumulated by the operation of the relevance dictionary 50 is treated as the relevance of two predetermined keywords. That is, in the electronic document search system according to the present invention, the degree of relevance between the two keywords in the electronic document 42 can be expressed by the number of accumulated documents or the number of times.

検索語70は、本発明に係る電子文書検索システムのユーザが端末装置等を用いて入力する語句でありうる。本発明に係る電子文書検索システムは、検索語70を受け付け、受け付けられた検索語70と対応するキーワードを、関連度辞書50に記憶された関連度に基づいて決定する。検索語70は、単語単位に分割されてもよい。   The search term 70 may be a phrase that a user of the electronic document search system according to the present invention inputs using a terminal device or the like. The electronic document search system according to the present invention accepts a search word 70 and determines a keyword corresponding to the accepted search word 70 based on the degree of association stored in the association degree dictionary 50. The search term 70 may be divided into word units.

ここで、関連度に基づくキーワードの決定は、ユーザが指定した検索語70に対して、所定の二つのキーワードを決定することを指す。所定の二つのキーワードは、いずれもキーワード辞書20に記憶されたキーワードに含まれる。さらに、所定の二つのキーワードは、特定の電子文書に同時に出現するキーワードでありうる。すなわち、ユーザが検索語70を指定することにより、本発明に係る類似文書検索システム100は、当該検索語70が表す意味又は概念と一致又は類似するキーワードの対が、繰り返して出現する電子文書42を検索しうる。   Here, the determination of the keyword based on the degree of relevance indicates that two predetermined keywords are determined for the search term 70 designated by the user. The two predetermined keywords are both included in the keywords stored in the keyword dictionary 20. Further, the two predetermined keywords may be keywords that appear simultaneously in a specific electronic document. That is, when the user designates the search word 70, the similar document search system 100 according to the present invention allows the electronic document 42 in which a pair of keywords that match or similar to the meaning or concept represented by the search word 70 appears repeatedly. Can be searched.

例えば、検索語70が「固定資産管理システム開発」である場合に、本発明に係る類似文書検索システム100は、当該検索語70に一致するキーワードをキーワード辞書20から選択してもよい。また、本発明に係る類似文書検索システム100は、当該検索語70を単語単位に分割し、例えば「固定資産」という用語に一致するキーワードをキーワード辞書20から選択してもよい。あるいは、本発明に係る類似文書検索システム100は、キーワード辞書20に「システム開発案」というキーワードが記憶されている場合に、当該検索語70に類似するキーワードとして「システム開発案」を選択してもよい。このようにして選択されたキーワードについて、本発明に係る類似文書検索システム100は、事業組織に特有のもう一つのキーワードと共に繰り返して出現する電子文書42を検索しうる。   For example, when the search term 70 is “development of fixed asset management system”, the similar document search system 100 according to the present invention may select a keyword that matches the search term 70 from the keyword dictionary 20. Further, the similar document search system 100 according to the present invention may divide the search word 70 into units of words, and select, for example, a keyword that matches the term “fixed asset” from the keyword dictionary 20. Alternatively, when the keyword “system development plan” is stored in the keyword dictionary 20, the similar document search system 100 according to the present invention selects “system development plan” as a keyword similar to the search term 70. Also good. With respect to the keyword selected in this way, the similar document search system 100 according to the present invention can search the electronic document 42 that repeatedly appears together with another keyword specific to the business organization.

検索結果表示230は、前述のように検索された、決定したキーワードを含む電子文書の情報である。検索結果表示230は、検索された電子文書の題名等を表示してもよく、検索された電子文書に対するハイパーリンク情報等を表示してもよく、適宜設計しうる。さらに、検索結果表示230は、関連電子文書並び替え手段を備えて、検索された電子文書の題名等を、関連度の大きさに従って、昇順又は降順に並び替えて表示してもよい。
例えば、ユーザは検索語70を入力し、本発明に係る電子文書検索システムの検索結果表示230には、当該検索語70との関連度の値が大きな所定の二つのキーワードを含む電子文書42のタイトル等の情報が示される。従って、ユーザは、まだ文書の形態に至らないアイデア段階の用語を検索語70として入力し、当該検索語70との関連度を有する電子文書42の情報を、蓄積された電子文書42の中から得ることが可能である。
The search result display 230 is information of an electronic document including the determined keyword searched as described above. The search result display 230 may display the title or the like of the searched electronic document, may display hyperlink information or the like for the searched electronic document, and may be designed as appropriate. Further, the search result display 230 may include a related electronic document rearranging unit, and may display the titles and the like of the searched electronic documents by rearranging them in ascending or descending order according to the degree of relevance.
For example, the user inputs a search term 70, and the search result display 230 of the electronic document search system according to the present invention includes an electronic document 42 including two predetermined keywords having a large degree of association with the search term 70. Information such as the title is displayed. Accordingly, the user inputs an idea stage term that has not yet reached the form of a document as the search term 70, and information on the electronic document 42 having a degree of association with the search term 70 is stored from the stored electronic document 42. It is possible to obtain.

このように構成することにより、本発明に係る類似文書検索システム100は、事業組織に特有なキーワードを記憶したキーワード辞書20、蓄積した電子文書42、電子文書42に含まれるキーワードの関連度を記憶した関連度辞書50を連動させることにより、ユーザが入力した検索語70との関連性が高い電子文書42を検索して、ユーザに示すことが可能になる。   With this configuration, the similar document search system 100 according to the present invention stores the keyword dictionary 20 that stores keywords specific to a business organization, the stored electronic document 42, and the degree of relevance of keywords included in the electronic document 42. By linking the related degree dictionary 50, it is possible to search the electronic document 42 highly relevant to the search word 70 input by the user and show it to the user.

[類似文書検索システム100のシステム構成]
図2は、本発明の一実施形態に係る、類似文書検索システム100のシステム構成を示す図である。一実施形態において、類似文書検索システム100のシステム構成には、文書検索装置10、キーワード辞書20、電子文書データベース40、関連度辞書50、端末装置60、ネットワーク80が含まれる。好適には、ネットワーク80は、例えば、事業組織内のローカル・エリア・ネットワークであるが、これに限定しない。類似文書検索システム100のシステム構成に含まれるそれぞれの装置又はデータベース等は、互いに独立していてもよく、他の装置に内蔵されていてもよく、全体を一つのサーバ装置等で構成してもよい。キーワード辞書20、電子文書データベース40、及び関連度辞書50の形態は、それぞれが単独のデータベース装置等でもよく、一つのサーバ装置内に設けられた記憶領域等を用いてもよい。
[System Configuration of Similar Document Search System 100]
FIG. 2 is a diagram showing a system configuration of the similar document search system 100 according to an embodiment of the present invention. In one embodiment, the system configuration of the similar document search system 100 includes a document search device 10, a keyword dictionary 20, an electronic document database 40, a relevance dictionary 50, a terminal device 60, and a network 80. Preferably, the network 80 is, for example, a local area network within a business organization, but is not limited thereto. Each device or database included in the system configuration of the similar document search system 100 may be independent from each other, may be incorporated in another device, or may be configured as a single server device or the like as a whole. Good. The keyword dictionary 20, the electronic document database 40, and the association degree dictionary 50 may each be a single database device or the like, or may use a storage area provided in one server device.

端末装置60は、検索語70を入力可能なコンピュータ機器等であればよい。端末装置60は単独の情報処理装置等でもよく、例えば文書検索装置10を端末装置60として用いてもよい。すなわち、端末装置60又は文書検索装置10は、本発明に係る類似文書検索システム100における電子文書の表示手段として用いることが可能である。例えば、電子文書42を電子文書データベース40に蓄積する場合に、当該電子文書42の表示手段として端末装置60又は文書検索装置10を用いることが可能である。また、例えば、本発明に係る類似文書検索システム100の検索結果を、前述の検索結果表示230等として表示するために、端末装置60又は文書検索装置10を用いることが可能である。   The terminal device 60 may be a computer device or the like that can input the search word 70. The terminal device 60 may be a single information processing device or the like. For example, the document search device 10 may be used as the terminal device 60. That is, the terminal device 60 or the document search device 10 can be used as an electronic document display unit in the similar document search system 100 according to the present invention. For example, when the electronic document 42 is stored in the electronic document database 40, the terminal device 60 or the document search device 10 can be used as a display unit for the electronic document 42. For example, the terminal device 60 or the document search device 10 can be used to display the search result of the similar document search system 100 according to the present invention as the search result display 230 described above.

文書検索装置10は、本発明に係る電子文書検索システムが動作するコンピュータ等の情報処理装置でありうる。すなわち、本発明に係る電子文書検索システムは、キーワード辞書20、電子文書データベース40、及び関連度辞書50を連動させるコンピュータ・プログラムを、文書検索装置10において動作させることにより、端末装置60から入力された検索語70との関連性を有する電子文書42を検索することが可能になる。   The document search apparatus 10 can be an information processing apparatus such as a computer on which the electronic document search system according to the present invention operates. That is, the electronic document search system according to the present invention is input from the terminal device 60 by operating a computer program that links the keyword dictionary 20, the electronic document database 40, and the relevance dictionary 50 in the document search device 10. It is possible to search for the electronic document 42 having a relationship with the search term 70.

さらに、文書検索装置10は、複数の電子文書を所定の順序で並び替える電子文書並び替え手段を備える。例えば、文書検索装置10は、本発明に係る類似文書検索システム100の検索結果に含まれる複数の電子文書42の情報を、算出されたそれぞれの関連度の値に従って、昇順又は降順等の規則を用いて並び替えてもよい。   Furthermore, the document search apparatus 10 includes an electronic document rearranging unit that rearranges a plurality of electronic documents in a predetermined order. For example, the document search apparatus 10 applies rules such as ascending order or descending order to the information of the plurality of electronic documents 42 included in the search result of the similar document search system 100 according to the present invention according to the calculated relevance values. You may rearrange using.

[電子文書検索方法の諸段階]
図3は、本発明の一実施形態に係る、類似文書検索システム100の動作の諸段階を表すフロー図である。
[Stages of electronic document search method]
FIG. 3 is a flow diagram illustrating stages of operation of the similar document search system 100 according to one embodiment of the present invention.

ステップS110では、類似文書検索システム100は、電子文書を蓄積する。具体的には、図2に示した電子文書データベース40を用いて、事業組織の活動における様々な文書等が蓄積される。   In step S110, the similar document search system 100 stores electronic documents. Specifically, various documents and the like in the activities of the business organization are accumulated using the electronic document database 40 shown in FIG.

ステップS120では、類似文書検索システム100は、キーワードを記憶する。具体的には、図2に示したキーワード辞書20を用いて、事業組織に特有の組織名、属性、略語等を含み、事業組織内で頻繁に用いられる様々な用語が記憶される。なお、これらのキーワードは、適宜、ユーザにより追加又は削除等の編集が行われてもよい。   In step S120, the similar document search system 100 stores the keyword. Specifically, using the keyword dictionary 20 shown in FIG. 2, various terms frequently used in the business organization are stored, including organization names, attributes, abbreviations, and the like peculiar to the business organization. Note that these keywords may be appropriately edited by the user such as addition or deletion.

ステップS130では、類似文書検索システム100は、電子文書からキーワードを検索する。すなわち、キーワード辞書20に含まれるキーワードが、電子文書データベース40内のそれぞれの電子文書42に対して検索される。例えば、それぞれの電子文書42について、事業組織に特有の組織名、属性、略語等の、事業組織内で頻繁に用いられる様々な用語のうちのどれがいくつ含まれているかという情報が生成されうる。生成された情報は、典型的には個々の電子文書42と関連付けて電子文書データベース40に記憶されるが、これに限定せず、キーワード辞書20に記憶されてもよく、関連度辞書50に記憶されてもよく、文書検索装置10に記憶されてもよい。生成される情報の形態は、キーワード辞書20に含まれるキーワード自体でもよく、当該キーワードを参照するための情報でもよい。当該キーワードを参照するための情報は、図1に示したリンク22でありうる。リンク22の形態は、データベース構造における任意のフィールドを用いる関連付けでもよく、ハイパーリンク等でもよい。   In step S130, the similar document search system 100 searches for keywords from the electronic document. That is, a keyword included in the keyword dictionary 20 is searched for each electronic document 42 in the electronic document database 40. For example, for each electronic document 42, information indicating how many of various terms frequently used in the business organization, such as an organization name, an attribute, an abbreviation, and the like specific to the business organization can be generated. . The generated information is typically associated with each electronic document 42 and stored in the electronic document database 40, but is not limited thereto, and may be stored in the keyword dictionary 20 or stored in the relevance dictionary 50. Or may be stored in the document search device 10. The form of the information to be generated may be the keyword itself included in the keyword dictionary 20 or information for referring to the keyword. The information for referring to the keyword may be the link 22 shown in FIG. The form of the link 22 may be an association using an arbitrary field in the database structure, or may be a hyperlink or the like.

ステップS140では、類似文書検索システム100は、所定の二つのキーワードが出現する関連度を算出する。ここに、所定の二つのキーワードは、キーワード辞書20に記憶される任意の二つのキーワードでありうる。典型的には、類似文書検索システム100は、電子文書42に含まれる全ての文書に対して、任意の二つのキーワードが同時に出現する文書の数を関連度として算出する。従って、ステップS130の動作により生成される情報に加えて、ステップS140の動作により、キーワード辞書20に記憶される任意の二つのキーワードが同時に出現する情報が生成される。生成された情報は、典型的には関連度辞書50に記憶されうるが、他の記憶媒体対等が用いられてもよい。   In step S <b> 140, the similar document search system 100 calculates the degree of association in which two predetermined keywords appear. Here, the two predetermined keywords may be any two keywords stored in the keyword dictionary 20. Typically, the similar document search system 100 calculates the number of documents in which any two keywords appear simultaneously as the relevance level for all the documents included in the electronic document 42. Therefore, in addition to the information generated by the operation in step S130, information in which any two keywords stored in the keyword dictionary 20 appear simultaneously is generated by the operation in step S140. The generated information can typically be stored in the relevance dictionary 50, but other storage medium pairs or the like may be used.

一実施形態において、ステップS140の動作において、類似文書検索システム100は、電子文書42に含まれる全ての文書に対して、所定の二つのキーワードが出現する文書の数を累計する。当該文書の数は、関連度として関連度辞書50に記憶される。例えば、電子文書42内の、文、図、表、数式等に含まれる、所定の二つのキーワードが出現する文書の数が、関連度辞書50に累計される。
別の実施形態において、類似文書検索システム100は、電子文書42内に分類を適宜設け、当該分類に属する複数の文書に対して、所定の二つのキーワードが出現する回数を累計する。
これらのステップS140の動作により累計された文書の数又は回数は、所定の二つのキーワードの関連度として扱われる。すなわち、本発明に係る電子文書検索システムにおいては、累計された文書の数又は回数の値により、当該二つのキーワードの関連性の高さが表されうる。
In one embodiment, in the operation of step S140, the similar document search system 100 accumulates the number of documents in which two predetermined keywords appear for all documents included in the electronic document 42. The number of documents is stored in the relevance level dictionary 50 as a relevance level. For example, the number of documents in which two predetermined keywords appear in sentences, diagrams, tables, mathematical expressions, etc. in the electronic document 42 is accumulated in the relevance dictionary 50.
In another embodiment, the similar document search system 100 appropriately classifies the electronic document 42 and accumulates the number of times that two predetermined keywords appear for a plurality of documents belonging to the class.
The number or number of documents accumulated by the operation of step S140 is treated as the degree of association between two predetermined keywords. That is, in the electronic document search system according to the present invention, the high degree of relevance between the two keywords can be expressed by the number of accumulated documents or the number of times.

ステップS150では、類似文書検索システム100は、関連度辞書50を用いて、ステップS140において生成された関連度を記憶する。ここまでの動作は、電子文書データベース40に蓄積された電子文書42のそれぞれについて、キーワード辞書20に含まれるキーワードが検索される諸段階である。これらのステップS110からステップS150の諸段階は、例えば、電子文書データベース40に新たに電子文書42が追加されることに応答して、実施されてもよい。   In step S150, the similar document search system 100 stores the relevance degree generated in step S140 using the relevance degree dictionary 50. The operations so far are the stages in which keywords included in the keyword dictionary 20 are searched for each of the electronic documents 42 stored in the electronic document database 40. These stages from step S110 to step S150 may be performed in response to the addition of a new electronic document 42 to the electronic document database 40, for example.

ステップS160では、類似文書検索システム100は、検索語を受け付ける。具体的には、類似文書検索システム100は、図2に示した端末装置60等を用いて、検索語70を受け付ける。   In step S160, the similar document search system 100 accepts a search term. Specifically, the similar document search system 100 accepts the search term 70 using the terminal device 60 shown in FIG.

ステップS170では、類似文書検索システム100は、検索語70に対応するキーワードを決定する。
検索語70それ自体が、キーワード辞書20に含まれるキーワードである場合は、類似文書検索システム100は、検索語70を電子文書検索に用いてもよい。例えば、電子文書データベース40が様々な資産管理システム開発に関する設計仕様書を蓄積し、キーワード辞書20が各種の資産及び会計業務の用語を記憶し、関連度辞書50が複数の設計仕様書ごとに用語「固定資産」と同時に出現する他の用語の回数を記憶している場合を考える。検索語70が「固定資産」である場合に、本発明に係る類似文書検索システム100は、この検索語70である「固定資産」を、関連度に基づく電子文書検索に用いうる。
検索語70が、キーワード辞書20に含まない用語である場合は、類似文書検索システム100は、公知の類義語検索等を用いて、検索語70に最も類似したキーワードを、キーワード辞書20から選択し、電子文書検索に用いてもよい。
In step S <b> 170, the similar document search system 100 determines a keyword corresponding to the search word 70.
When the search term 70 itself is a keyword included in the keyword dictionary 20, the similar document search system 100 may use the search term 70 for electronic document search. For example, the electronic document database 40 stores design specifications related to the development of various asset management systems, the keyword dictionary 20 stores terms of various assets and accounting operations, and the relevance dictionary 50 stores terms for each of a plurality of design specifications. Consider the case of memorizing the number of other terms that appear at the same time as “fixed assets”. When the search word 70 is “fixed asset”, the similar document search system 100 according to the present invention can use the “fixed asset” that is the search word 70 for electronic document search based on the degree of association.
If the search term 70 is a term not included in the keyword dictionary 20, the similar document search system 100 selects a keyword most similar to the search term 70 from the keyword dictionary 20 using a known synonym search or the like, You may use for an electronic document search.

ステップS180では、類似文書検索システム100は、決定したキーワードを含む電子文書を検索する。例えば、関連度辞書50が、特定のキーワードを含むキーワード対を含む文書の数を記憶している場合を考える。類似文書検索システム100は、当該文書の数が所定以上の場合に、当該キーワード対を含む文書を検索結果としうる。検索結果の表示は、検索された文書のタイトル等を表示してもよく、当該キーワード対が用いられている文書の一部を表示してもよい。   In step S180, the similar document search system 100 searches for an electronic document including the determined keyword. For example, consider a case where the relevance dictionary 50 stores the number of documents including keyword pairs including specific keywords. The similar document search system 100 can use a document including the keyword pair as a search result when the number of the documents is a predetermined number or more. The search result may be displayed by displaying the title of the retrieved document or the like, or by displaying a part of the document in which the keyword pair is used.

さらに、類似文書検索システム100は、特定のキーワードを含むキーワード対が含まれる回数のより多い文書を優先して検索結果としてもよい。これに限定せず、検索結果の表示等は適宜設計しうる。   Furthermore, the similar document search system 100 may give priority to a document having a larger number of times that a keyword pair including a specific keyword is included as a search result. However, the present invention is not limited to this, and the display of search results can be designed as appropriate.

[キーワード辞書20のデータ構造]
図4は、本発明の一実施形態に係る、キーワード辞書データ構造120を示す図である。具体的には、キーワード辞書データ構造120は、キーワード辞書20が情報を記憶するために用いられる。一実施形態において、キーワード辞書20は、キーワード辞書データ構造120を用いて、キーワード識別子125、キーワード126の情報を、相互に関連付けて記憶しうる。
[Data structure of keyword dictionary 20]
FIG. 4 is a diagram illustrating a keyword dictionary data structure 120 according to an embodiment of the present invention. Specifically, the keyword dictionary data structure 120 is used for the keyword dictionary 20 to store information. In one embodiment, the keyword dictionary 20 may store information on the keyword identifier 125 and the keyword 126 in association with each other using the keyword dictionary data structure 120.

キーワード識別子125は、キーワード126を識別するための情報であればよく、書式等は適宜設計しうる。キーワード126のそれぞれは、典型的には単語であるが、事業組織の活動等に基づく連語、複合語、又は略語等でもよい。
図4の例においては、キーワード辞書データ構造120を用いて、「固定資産」というキーワード126には「A000010」というキーワード識別子125が関連付けられる。同様に、「建仮精算」というキーワード126には「A00020」というキーワード識別子125が関連付けられる。他のキーワード126及びキーワード識別子125の対に関しても同様である。
The keyword identifier 125 may be any information for identifying the keyword 126, and the format and the like can be designed as appropriate. Each of the keywords 126 is typically a word, but may be a collocation, a compound word, an abbreviation, or the like based on the activity of the business organization.
In the example of FIG. 4, the keyword identifier 125 “A000010” is associated with the keyword 126 “fixed asset” using the keyword dictionary data structure 120. Similarly, a keyword identifier 125 of “A00020” is associated with the keyword 126 of “tentative payment”. The same applies to other keyword 126 and keyword identifier 125 pairs.

図4に示すキーワード辞書データ構造120の内容は、電子的な形態の文書から自動的に単語を抽出する技法等により作成されてもよく、ユーザが手操作で入力するものでもよい。例えば、ユーザは、個々のキーワード126を手作業で入力し、本発明に係る類似文書検索システム100がそれぞれのキーワード126ごとにキーワード識別子125を割り当ててもよい。   The contents of the keyword dictionary data structure 120 shown in FIG. 4 may be created by a technique of automatically extracting words from a document in electronic form, or may be input manually by a user. For example, the user may input each keyword 126 manually, and the similar document search system 100 according to the present invention may assign the keyword identifier 125 to each keyword 126.

[電子文書データベース40のデータ構造]
図5は、本発明の一実施形態に係る、電子文書データベースデータ構造140を示す図である。具体的には、電子文書データベースデータ構造140は、電子文書データベース40が、本発明に係る電子文書検索のための情報を記憶するために用いられる。一実施形態において、電子文書データベース40は、電子文書データベースデータ構造140を用いて、電子文書識別子145、電子文書名146、抽出されたキーワード147の情報を、相互に関連付けて記憶しうる。これらに限定せず、電子文書データベースデータ構造140には適宜フィールドを追加してもよい。例えば、電子文書識別子145だけでなく、電子文書識別子145により特定される電子文書42それ自体を、電子文書データベースデータ構造140に取り入れてもよい。
[Data Structure of Electronic Document Database 40]
FIG. 5 is a diagram illustrating an electronic document database data structure 140 according to an embodiment of the present invention. Specifically, the electronic document database data structure 140 is used by the electronic document database 40 to store information for electronic document search according to the present invention. In one embodiment, the electronic document database 40 may store the electronic document identifier 145, the electronic document name 146, and the extracted keyword 147 information in association with each other using the electronic document database data structure 140. The field is not limited to these, and a field may be added to the electronic document database data structure 140 as appropriate. For example, not only the electronic document identifier 145 but also the electronic document 42 itself specified by the electronic document identifier 145 may be incorporated into the electronic document database data structure 140.

電子文書識別子145は、電子文書42を識別するための情報であればよく、前述のキーワード識別子125と同様に、書式等は適宜設計しうる。   The electronic document identifier 145 may be information for identifying the electronic document 42, and the format and the like can be designed as appropriate, similar to the keyword identifier 125 described above.

電子文書名146は、典型的には個々の電子文書42の題名でもよいが、これに限定しない。例えば、電子文書名146として、電子文書42の題名に加えて、当該電子文書の冒頭の部分を含めてもよく、要約文等の一部を含めてもよい。   The electronic document name 146 may typically be the title of each electronic document 42, but is not limited thereto. For example, as the electronic document name 146, in addition to the title of the electronic document 42, the beginning part of the electronic document may be included, or a part of a summary sentence or the like may be included.

抽出されたキーワード147は、電子文書識別子145により特定される電子文書42から抽出された、キーワード辞書20に含まれるキーワードである。すなわち、前述のキーワード辞書データ構造120に含まれるキーワード126のうち、ある特定の電子文書42に含まれるものが、抽出されたキーワード147として記憶される。抽出されたキーワード147の形態は、具体的な個別の語句でもよく、キーワード辞書20に含まれるキーワード126を参照するための情報でもよく、キーワード辞書20に含まれるキーワード識別子125又は当該キーワード識別子125を参照するための情報でもよい。すなわち、抽出されたキーワード147に含まれる情報は、キーワード辞書20を参照するために用いることが可能である。例えば、図1に示すリンク22として、このような抽出されたキーワード147とキーワード辞書20との関連付けを用いてもよい。これらの関連付けには、ポインタ、ショートカット、ハイパーリンク等、情報の関連付けに使用可能な公知の手法を任意に用いることが可能である。   The extracted keyword 147 is a keyword included in the keyword dictionary 20 extracted from the electronic document 42 specified by the electronic document identifier 145. That is, among the keywords 126 included in the keyword dictionary data structure 120 described above, those included in a specific electronic document 42 are stored as the extracted keyword 147. The form of the extracted keyword 147 may be a specific individual phrase, or information for referring to the keyword 126 included in the keyword dictionary 20, and the keyword identifier 125 included in the keyword dictionary 20 or the keyword identifier 125 It may be information for reference. In other words, information included in the extracted keyword 147 can be used to refer to the keyword dictionary 20. For example, such an association between the extracted keyword 147 and the keyword dictionary 20 may be used as the link 22 shown in FIG. For these associations, a known method that can be used for association of information, such as a pointer, a shortcut, and a hyperlink, can be arbitrarily used.

図5の例においては、電子文書データベースデータ構造140を用いて、電子文書名146が「マニュアル」である電子文書42に対して、「B000010」という電子文書識別子145が関連付けられ、当該電子文書42は、「建仮精算」「固定資産」「決算」等の抽出されたキーワード147を有することが、電子文書データベース40により記憶される。他の電子文書識別子145を有するそれぞれの電子文書42についても同様である。   In the example of FIG. 5, the electronic document identifier 145 “B000010” is associated with the electronic document 42 whose electronic document name 146 is “manual” using the electronic document database data structure 140, and the electronic document 42 Are stored in the electronic document database 40 to have the extracted keywords 147 such as “tentative settlement”, “fixed assets”, “financial settlement”, and the like. The same applies to each electronic document 42 having other electronic document identifiers 145.

[関連度辞書50のデータ構造]
図6は、本発明の一実施形態に係る、関連度辞書データ構造150を示す図である。具体的には、関連度辞書データ構造150は、関連度辞書50が情報を記憶するために用いられる。一実施形態において、関連度辞書50は、関連度辞書データ構造150を用いて、第一のキーワード156、第二のキーワード157、関連度158の情報を、相互に関連付けて記憶しうる。以下、必要に応じて図5も参照して説明する。
[Data structure of relevance dictionary 50]
FIG. 6 is a diagram illustrating a relevance dictionary data structure 150 according to an embodiment of the present invention. Specifically, the relevance level dictionary data structure 150 is used for the relevance level dictionary 50 to store information. In one embodiment, the relevance dictionary 50 may store information on the first keyword 156, the second keyword 157, and the relevance 158 in association with each other using the relevance dictionary data structure 150. Hereinafter, description will be made with reference to FIG. 5 as necessary.

図6に示す関連度辞書データ構造150は、典型的には、電子文書42に含まれる全ての文書に対して、本発明に係る類似文書検索システム100が関連度を算出することにより生成されうる。さらに、本発明に係る類似文書検索システム100は、電子文書42内に適宜分類を設け、特定の分類に属する文書に対して関連度を算出してもよい。   The relevance level dictionary data structure 150 shown in FIG. 6 can typically be generated by calculating the relevance level by the similar document search system 100 according to the present invention for all documents included in the electronic document 42. . Furthermore, the similar document search system 100 according to the present invention may appropriately classify the electronic document 42 and calculate the relevance level for documents belonging to a specific class.

第一のキーワード156及び第二のキーワード157は、図5に示した抽出されたキーワード147でありうる。すなわち、第一のキーワード156及び第二のキーワード157は、いずれもキーワード辞書20に記憶されたキーワード126に含まれ、同一の電子文書識別子145を有する電子文書42に含まれる。   The first keyword 156 and the second keyword 157 may be the extracted keyword 147 shown in FIG. That is, the first keyword 156 and the second keyword 157 are both included in the keyword 126 stored in the keyword dictionary 20 and included in the electronic document 42 having the same electronic document identifier 145.

例えば、図6に示すように、電子文書42に含まれる全ての文書において、キーワード辞書20に記憶されたキーワード126でありうる「固定資産」「管理」「建仮精算」「勘定」「決算」「財務」等が含まれる場合に、これらのキーワード126は、第一のキーワード156及び第二のキーワード157として記憶される。   For example, as shown in FIG. 6, in all documents included in the electronic document 42, the “fixed asset”, “management”, “establishment settlement”, “account”, “financial settlement” that can be the keyword 126 stored in the keyword dictionary 20. When “finance” or the like is included, these keywords 126 are stored as the first keyword 156 and the second keyword 157.

第一のキーワード156及び第二のキーワード157の組み合わせは、図5に示した抽出されたキーワード147に含まれる語句のうちの、二つの語句の組み合わせである。当該組み合わせの数は、次式により算出される。

Figure 2010218216
図5を用いて説明する。式中、Qは電子文書42、N(Q)は電子文書42が含むキーワード147の語句の数、Cは組み合わせを算出する関数である。例えば、電子文書42に含まれる文書の全体がキーワード147として「固定資産、管理、建仮精算、勘定、決算、財務、予算、納期」等の語句を含み、これらの語句の数が8個である場合、上式により組み合わせの数は28である。従って、この場合に、図6に示す第一のキーワード156及び第二のキーワード157の対は28個である。 The combination of the first keyword 156 and the second keyword 157 is a combination of two phrases among the phrases included in the extracted keyword 147 shown in FIG. The number of the combinations is calculated by the following formula.
Figure 2010218216
This will be described with reference to FIG. In the formula, Q is the electronic document 42, N (Q) is the number of keywords 147 included in the electronic document 42, and C is a function for calculating a combination. For example, the entire document included in the electronic document 42 includes phrases such as “fixed asset, management, construction provisional settlement, account, settlement, finance, budget, delivery date” as the keyword 147, and the number of these phrases is eight. In some cases, the number of combinations is 28 according to the above equation. Therefore, in this case, there are 28 pairs of the first keyword 156 and the second keyword 157 shown in FIG.

図6に示す関連度158は、第一のキーワード156及び第二のキーワード157の組み合わせのそれぞれが、電子文書42内の全ての文書に同時に出現する回数を累計した値でありうる。あるいは、類似文書検索システム100は電子文書42内に適宜分類を設け、特定の分類に属する文書に対して、第一のキーワード156及び第二のキーワード157の組み合わせのそれぞれが出現する回数を累計してもよい。   The degree of association 158 shown in FIG. 6 may be a value obtained by accumulating the number of times each combination of the first keyword 156 and the second keyword 157 appears simultaneously in all the documents in the electronic document 42. Alternatively, the similar document search system 100 appropriately classifies the electronic document 42 and accumulates the number of times each combination of the first keyword 156 and the second keyword 157 appears for a document belonging to a specific classification. May be.

関連度158は、参照された文書の情報を伴ってもよい。すなわち、関連度158として、例えば、参照された文書の電子文書識別子145が累積して記憶されてもよい。このようにすることで、前述の図5に示した電子文書データベースデータ構造140における電子文書識別子145と電子文書名146との関連付けを用いて、対応する電子文書名146を参照することが可能である。従って、本発明に係る類似文書検索システム100は、電子文書識別子145が累積して記憶されている関連度158を参照することにより、関連度辞書データ構造150に含まれる関連度158から、対応する電子文書名146を利用することが可能になる。   The relevance 158 may be accompanied by information on the referenced document. That is, as the relevance 158, for example, the electronic document identifiers 145 of the referenced documents may be accumulated and stored. By doing so, it is possible to refer to the corresponding electronic document name 146 using the association between the electronic document identifier 145 and the electronic document name 146 in the electronic document database data structure 140 shown in FIG. is there. Therefore, the similar document search system 100 according to the present invention corresponds from the relevance 158 included in the relevance dictionary data structure 150 by referring to the relevance 158 in which the electronic document identifier 145 is accumulated and stored. The electronic document name 146 can be used.

図6に示す例において、電子文書42に含まれる全ての文書に対して、第一のキーワード156及び第二のキーワード157の組み合わせが出現する文書の数を累計して、関連度158の値とする場合を考える。当該電子文書42に含まれる複数の文書のうち、「固定資産」及び「建仮精算」が同時に出現する文書の数が3個であるならば、これらの語句の関連度158として値「3」が記憶される。同様に、「固定資産」及び「勘定」が同時に出現する文書の数が1個であるならば、これらの語句の関連度158として値「1」が記憶される。同様に、「固定資産」及び「決算」が同時に出現する文書の数が2個であるならば、これらの語句の関連度158として値「2」が記憶される。他の関連度158についても同様である。   In the example shown in FIG. 6, for all documents included in the electronic document 42, the number of documents in which the combination of the first keyword 156 and the second keyword 157 appears is accumulated. Consider the case. If the number of documents in which “fixed assets” and “settlement payment” appear at the same time among the plurality of documents included in the electronic document 42 is three, the value “3” is set as the relevance 158 of these phrases. Is memorized. Similarly, if the number of documents in which “fixed asset” and “account” appear simultaneously is 1, the value “1” is stored as the relevance 158 of these phrases. Similarly, if the number of documents in which “fixed assets” and “financial settlement” appear simultaneously is two, the value “2” is stored as the relevance 158 of these phrases. The same applies to other relevance levels 158.

図6に示す例においては、前述のように、第一のキーワード156及び第二のキーワード157の組み合わせにおいて、一方が「固定資産」である複数の組み合わせのうちでは、「固定資産」と「建仮精算」との組み合わせにおける関連度158が最も大きな値「3」であることが示されている。   In the example shown in FIG. 6, as described above, among the combinations of the first keyword 156 and the second keyword 157, one of which is “fixed asset”, “fixed asset” and “building” It is indicated that the degree of association 158 in the combination with “provisional settlement” is the largest value “3”.

また、図6に示す例においては、キーワードを「固定資産」に限定しない場合は、「管理」及び「予算」の組み合わせに対する関連度158として値「6」が記憶され、この関連度158が最も大きな値であることが示されている。従って、これらの「管理」及び「予算」というキーワード126が同時に出現する文書の数が、他のキーワード126の組み合わせが出現する文書の数よりも多いと言える。   In the example shown in FIG. 6, when the keyword is not limited to “fixed assets”, the value “6” is stored as the relevance 158 for the combination of “management” and “budget”, and this relevance 158 is the highest. It is shown to be a large value. Therefore, it can be said that the number of documents in which the keywords “management” and “budget” appear simultaneously is larger than the number of documents in which the combination of other keywords 126 appears.

このように、本発明に係る電子文書検索システムは、関連度辞書データ構造150の関連度158に記憶される値を用いて、電子文書42に含まれる文書に出現するキーワード126どうしの関連性の程度を、数値として表すことが可能である。従って、関連度辞書データ構造150を用いることにより、本発明に係る類似文書検索システム100においては、ユーザが指定する検索語70に該当するキーワード126と関連付けられた、関連度158が参照され、より関連度158の値が大きな文書を、自動的に検索結果とすることが可能である。   As described above, the electronic document search system according to the present invention uses the value stored in the relevance level 158 of the relevance level dictionary data structure 150 to determine the relevance of the keywords 126 that appear in the document included in the electronic document 42. The degree can be expressed as a numerical value. Therefore, by using the relevance level dictionary data structure 150, in the similar document search system 100 according to the present invention, the relevance level 158 associated with the keyword 126 corresponding to the search word 70 specified by the user is referred to. A document having a large relevance value 158 can be automatically set as a search result.

[検索結果表示230の例]
図7は、本発明の一実施形態に係る、類似文書検索システム100の検索結果表示230の例を示す図である。検索結果表示230は、本発明に係る類似文書検索システム100による電子文書検索の結果220を示すために用いられる。典型的には、検索結果表示230は、ディスプレイ装置等の画面表示手段の表示範囲内における情報の配列でありうる。例えば、検索結果表示230は、電子文書検索の結果220を含む情報を、画面表示のための所定のタグ情報を含むハイパーテキストの形態に変換し、ブラウザ等のアプリケーション・ソフトウェアによりレンダリングさせるものでもよい。
[Example of search result display 230]
FIG. 7 is a diagram showing an example of the search result display 230 of the similar document search system 100 according to an embodiment of the present invention. The search result display 230 is used to indicate the result 220 of the electronic document search by the similar document search system 100 according to the present invention. Typically, the search result display 230 may be an arrangement of information within the display range of screen display means such as a display device. For example, the search result display 230 may convert information including the electronic document search result 220 into a hypertext form including predetermined tag information for screen display and render it by application software such as a browser. .

例えば、ユーザがまだ文書の形態に至らない何らかのアイデアを有し、このアイデアとの関連性が高く、すでに電子文書データベース40に蓄積されている電子文書42を検索したい場合を考える。   For example, consider a case where the user has some idea that has not yet been in the form of a document and wants to search for an electronic document 42 that is highly relevant to the idea and is already stored in the electronic document database 40.

ユーザは、端末装置60を用いて検索語70を入力する。図7に示す例においては、検索語70として「固定資産システム開発」という語句が指定されることが示されている。入力した検索語70は、問い合わせ210として本発明に係る類似文書検索システム100に送信される。電子文書42内に分類が設けられる場合は、ユーザは、適宜、自己の検索対象を特定の分類に絞り込んでもよい。   The user inputs the search term 70 using the terminal device 60. In the example illustrated in FIG. 7, the phrase “development of fixed asset system” is designated as the search term 70. The input search word 70 is transmitted as an inquiry 210 to the similar document search system 100 according to the present invention. When a classification is provided in the electronic document 42, the user may narrow down his search target to a specific classification as appropriate.

次いで、類似文書検索システム100は、当該問い合わせ210を受け付ける。さらに、類似文書検索システム100は、キーワード辞書20、電子文書データベース40、関連度辞書50を連動させ、関連度の高い電子文書42を検索する。このような電子文書42の検索のために、例えば文書検索装置10が用いられる。   Next, the similar document search system 100 accepts the inquiry 210. Further, the similar document search system 100 searches the electronic document 42 having a high degree of relevance by linking the keyword dictionary 20, the electronic document database 40, and the relevance degree dictionary 50. For example, the document search apparatus 10 is used for searching the electronic document 42.

最初に、類似文書検索システム100は、受け付けた問い合わせ210に含まれる検索語70に基づいて、キーワード辞書20に記憶されたキーワードを選択する。類似文書検索システム100は、前述の図4に示したキーワード辞書データ構造120を参照し、キーワード126を選択してもよい。例えば、検索語70としての「固定資産システム開発」という語句に含まれる「固定資産」「システム開発」等の部分的な語句がキーワード126に一致することにより、類似文書検索システム100は文書検索のためのキーワード126を選択することが可能である。   First, the similar document search system 100 selects a keyword stored in the keyword dictionary 20 based on the search word 70 included in the received inquiry 210. The similar document search system 100 may select the keyword 126 with reference to the keyword dictionary data structure 120 shown in FIG. For example, when the partial words such as “fixed asset” and “system development” included in the phrase “fixed asset system development” as the search term 70 match the keyword 126, the similar document search system 100 performs the document search. It is possible to select a keyword 126 for the purpose.

次いで、類似文書検索システム100は、前述の図6に示した関連度辞書データ構造150を参照し、選択された文書検索のためのキーワード126が、第一のキーワード156又は第二のキーワード157のいずれかに含まれる関連度158を検索する。図6に示した関連度辞書データ構造150の例においては、「固定資産」という語句が第一のキーワード156又は第二のキーワード157のいずれかに含まれる関連度158が検索される。従って、「固定資産」及び「建仮精算」の組み合わせ、「固定資産」及び「勘定」の組み合わせ、「固定資産」及び「決算」の組み合わせが抽出されうる。   Next, the similar document search system 100 refers to the relevance degree dictionary data structure 150 shown in FIG. 6 described above, and the keyword 126 for the selected document search is the first keyword 156 or the second keyword 157. The degree of relevance 158 included in any one is searched. In the example of the relevance level dictionary data structure 150 shown in FIG. 6, a relevance level 158 in which the word “fixed asset” is included in either the first keyword 156 or the second keyword 157 is searched. Accordingly, a combination of “fixed assets” and “foundation settlement”, a combination of “fixed assets” and “accounts”, and a combination of “fixed assets” and “financial settlement” can be extracted.

次いで、類似文書検索システム100は、これらのキーワードの組み合わせごとに関連度158を参照する。関連度158は、文書の数でもよく、電子文書識別子145の累積でもよい。図6に示した関連度辞書データ構造150の例においては、「固定資産」及び「建仮精算」の組み合わせの関連度158の値は「3」であり、「固定資産」及び「勘定」の組み合わせの関連度158の値は「1」であり、「固定資産」及び「決算」の組み合わせの関連度158の値は「2」である。類似文書検索システム100は、これらの値の大小に基づいて、検索結果を並び替えてもよい。   Next, the similar document search system 100 refers to the degree of association 158 for each combination of these keywords. The relevance 158 may be the number of documents or the accumulation of electronic document identifiers 145. In the example of the relevance level dictionary data structure 150 shown in FIG. 6, the value of the relevance level 158 of the combination of “fixed asset” and “construction settlement” is “3”, and “fixed asset” and “account” The value of the relevance 158 of the combination is “1”, and the value of the relevance 158 of the combination of “fixed asset” and “financial settlement” is “2”. The similar document search system 100 may sort the search results based on the magnitude of these values.

あるいは、類似文書検索システム100は、関連度158が累積した電子文書識別子145である場合に、それぞれの電子文書識別子145の数を取得してもよい。例えば、「固定資産」及び「建仮精算」の組み合わせにおける電子文書識別子145の数は「3」であり、「固定資産」及び「勘定」の組み合わせにおける電子文書識別子145の数は「1」であり、「固定資産」及び「決算」の組み合わせにおける電子文書識別子145の数は「2」でありうる。類似文書検索システム100は、これらの数の大小に基づいて、検索結果を並び替えてもよく、さらにそれぞれの電子文書識別子145に対応する電子文書名146の情報を取得してもよい。   Alternatively, the similar document search system 100 may acquire the number of each electronic document identifier 145 when the relevance 158 is the accumulated electronic document identifier 145. For example, the number of electronic document identifiers 145 in the combination of “fixed assets” and “foundation settlement” is “3”, and the number of electronic document identifiers 145 in the combination of “fixed assets” and “accounts” is “1”. In addition, the number of electronic document identifiers 145 in the combination of “fixed assets” and “financial settlement” may be “2”. The similar document search system 100 may sort the search results based on the number of these numbers, and may acquire information on the electronic document name 146 corresponding to each electronic document identifier 145.

次いで、類似文書検索システム100は、検索された電子文書42の情報を、結果220とする。結果220は、適切な表示手段又は出力手段(図示せず)により、ユーザに示される。当該結果220をユーザに示すための書式として、検索結果表示230が用いられる。すなわち、検索結果表示230は、表示手段又は出力手段のための書式等でありうる。   Next, the similar document search system 100 sets the information of the searched electronic document 42 as a result 220. The result 220 is shown to the user by appropriate display means or output means (not shown). A search result display 230 is used as a format for showing the result 220 to the user. That is, the search result display 230 may be a format for display means or output means.

一実施形態において、検索結果表示230は、「実績の検索結果」等の題名、文書名及び関連度を示すことの情報、具体的な結果220に含まれる個々の文書名及び関連度の情報を適宜含む。関連度の情報は任意の形態でユーザに示すことが可能である。例えば、図6に示した関連度辞書データ構造150に含まれる関連度158の値をそのままユーザに示してもよい。あるいは、一つの検索において抽出された複数の関連度158の値を統計処理し、適宜正規化した関連度158の値に従って、大きさの順に「高い」「中程度」「低い」等の大まかな程度を表す語句又はこれらの略称等を用いて示してもよい。あるいは、大小関係を視認可能な図形又は画像等を用いて示してもよく、限定しない。関連度158の値に従った表示の並び替えをしてもよい。表示の装飾等を追加してもよい。   In one embodiment, the search result display 230 displays a title such as “result search result”, information indicating the document name and the degree of association, and information on individual document names and degrees of association included in the specific result 220. As appropriate. Relevance information can be shown to the user in any form. For example, the value of the degree of association 158 included in the degree of association dictionary data structure 150 shown in FIG. 6 may be shown to the user as it is. Alternatively, statistical processing is performed on a plurality of relevance values 158 extracted in a single search, and rough values such as “high”, “medium”, and “low” in order of magnitude according to appropriately normalized relevance values 158 You may show using the word or phrase which represents a grade, or these abbreviations. Alternatively, the magnitude relationship may be shown using a visually recognizable figure or image, and is not limited. The display may be rearranged according to the value of the relevance 158. Display decorations may be added.

このようにすることで、本発明に係る類似文書検索システム100は、検索結果表示230を用いて、本発明に係る電子文書検索の結果をユーザに示すことが可能である。図7に示す例においては、検索語70として「固定資産管理システム開発」を指定したユーザは、関連度158の高い順に、「建仮精算システム開発」「決算整理システム開発」「修繕費管理システム」等の文書名の情報を得ることが可能である。   In this way, the similar document search system 100 according to the present invention can use the search result display 230 to show the user the result of the electronic document search according to the present invention. In the example shown in FIG. 7, a user who has designated “fixed asset management system development” as the search term 70 is in the descending order of relevance 158 “construction provisional settlement system development” “financial settlement system development” “repair cost management system”. It is possible to obtain document name information such as “”.

以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。   As mentioned above, although demonstrated using embodiment of this invention, the technical scope of this invention is not limited to the range as described in the said embodiment. Various modifications or improvements can be added to the above embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.

10 文書検索装置
20 キーワード辞書
22 リンク
40 電子文書データベース
42 電子文書
50 関連度辞書
60 端末装置
70 検索語
80 ネットワーク
100 類似文書検索システム
120 キーワード辞書データ構造
125 キーワード識別子
126 キーワード
140 電子文書データベースデータ構造
145 電子文書識別子
146 電子文書名
147 抽出されたキーワード
150、161 関連度辞書データ構造
156 第一のキーワード
157 第二のキーワード
158 関連度
210 問い合わせ
220 結果
230 検索結果表示
DESCRIPTION OF SYMBOLS 10 Document search device 20 Keyword dictionary 22 Link 40 Electronic document database 42 Electronic document 50 Relevance dictionary 60 Terminal device 70 Search word 80 Network 100 Similar document search system 120 Keyword dictionary data structure 125 Keyword identifier 126 Keyword 140 Electronic document database data structure 145 Electronic document identifier 146 Electronic document name 147 Extracted keyword 150, 161 Relevance degree dictionary data structure 156 First keyword 157 Second keyword 158 Relevance 210 Inquiry 220 Result 230 Search result display

Claims (8)

入力された検索語との関連性に基づいて電子文書を検索する電子文書検索システムであって、
前記検索語の入力を受け付ける検索語受付手段と、
複数の電子文書を蓄積する電子文書蓄積手段と、
複数のキーワードを記憶するキーワード記憶手段と、
前記電子文書蓄積手段に蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索手段と、
前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出手段と、
前記関連度算出手段により算出された関連度を記憶する関連度記憶手段と、
前記関連度記憶手段に記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索手段と、を備える、
電子文書検索システム。
An electronic document search system that searches an electronic document based on a relationship with an input search word,
Search word receiving means for receiving input of the search word;
Electronic document storage means for storing a plurality of electronic documents;
Keyword storage means for storing a plurality of keywords;
Keyword search means for searching for the plurality of keywords from the electronic document stored in the electronic document storage means;
Relevance calculating means for calculating relevance that two predetermined keywords of the plurality of keywords appear simultaneously in one electronic document;
Relevance storage means for storing the relevance calculated by the relevance calculation means;
Relevance electronic document search means for determining a keyword corresponding to the search word based on the relevance degree stored in the relevance degree storage means, and searching for an electronic document including the determined keyword.
Electronic document search system.
さらに、前記関連電子文書検索手段により検索された前記電子文書を表示する関連電子文書表示手段を備える、請求項1に記載の電子文書検索システム。   The electronic document search system according to claim 1, further comprising related electronic document display means for displaying the electronic document searched by the related electronic document search means. さらに、前記関連電子文書検索手段により複数の電子文書が検索された場合、該複数の電子文書を前記関連度に従った順序で並び替える関連電子文書並び替え手段を備える、請求項1に記載の電子文書検索システム。   2. The electronic device according to claim 1, further comprising a related electronic document rearranging unit that rearranges the plurality of electronic documents in an order according to the degree of relevance when the plurality of electronic documents are retrieved by the related electronic document retrieval unit. Electronic document search system. 前記キーワード記憶手段は、事業体の属性情報を表すキーワードを記憶する、請求項1に記載の電子文書検索システム。   The electronic document search system according to claim 1, wherein the keyword storage unit stores a keyword representing attribute information of a business entity. 前記電子文書蓄積手段は、事業体の事業実績又は事業予定を含む前記電子文書を蓄積する、請求項1に記載の電子文書検索システム。   The electronic document search system according to claim 1, wherein the electronic document storage unit stores the electronic document including business results or business plans of a business entity. 前記事業体の事業実績又は事業予定を含む前記電子文書は、前記事業体の見積査定又は予算計画の情報を含む、請求項5に記載の電子文書検索システム。   The electronic document search system according to claim 5, wherein the electronic document including a business performance or a business schedule of the business entity includes information on an estimate assessment or a budget plan of the business entity. 入力された検索語との関連性に基づいて電子文書を検索する電子文書検索方法であって、
前記検索語の入力を受け付ける検索語受付ステップと、
複数の電子文書を蓄積する電子文書蓄積ステップと、
複数のキーワードを記憶するキーワード記憶ステップと、
前記電子文書蓄積ステップにより蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索ステップと、
前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、
前記関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、
前記関連度記憶ステップにより記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索ステップと、を含む、
電子文書検索方法。
An electronic document search method for searching an electronic document based on a relationship with an input search word,
A search word reception step for receiving input of the search word;
An electronic document storage step for storing a plurality of electronic documents;
A keyword storage step for storing a plurality of keywords;
A keyword search step of searching for the plurality of keywords from the electronic document stored in the electronic document storage step;
A relevance level calculating step of calculating a relevance level in which two predetermined keywords of the plurality of keywords appear simultaneously in one electronic document;
A relevance storage step for storing the relevance calculated in the relevance calculation step;
A related electronic document search step of determining a keyword corresponding to the search word based on the relevance stored in the relevance storage step, and searching for an electronic document including the determined keyword.
Electronic document search method.
コンピュータを用いて、入力された検索語との関連性に基づいて電子文書を検索する電子文書検索プログラムであって、
前記検索語の入力を受け付ける検索語受付ステップと、
複数の電子文書を蓄積する電子文書蓄積ステップと、
複数のキーワードを記憶するキーワード記憶ステップと、
前記電子文書蓄積ステップにより蓄積された前記電子文書から前記複数のキーワードを検索するキーワード検索ステップと、
前記複数のキーワードのうち所定の二つのキーワードが一つの電子文書内に同時に出現する関連度を算出する関連度算出ステップと、
前記関連度算出ステップにより算出された関連度を記憶する関連度記憶ステップと、
前記関連度記憶ステップにより記憶された関連度に基づいて前記検索語に対応するキーワードを決定し、決定した前記キーワードを含む電子文書を検索する関連電子文書検索ステップと、を
コンピュータに実行させる電子文書検索プログラム。
An electronic document search program for searching an electronic document based on a relationship with an input search word using a computer,
A search word reception step for receiving input of the search word;
An electronic document storage step for storing a plurality of electronic documents;
A keyword storage step for storing a plurality of keywords;
A keyword search step of searching for the plurality of keywords from the electronic document stored in the electronic document storage step;
A relevance level calculating step of calculating a relevance level in which two predetermined keywords of the plurality of keywords appear simultaneously in one electronic document;
A relevance storage step for storing the relevance calculated in the relevance calculation step;
An electronic document that causes a computer to execute a related electronic document search step of determining a keyword corresponding to the search word based on the relevance stored in the relevance storage step and searching for an electronic document including the determined keyword Search program.
JP2009064285A 2009-03-17 2009-03-17 Similar document retrieval system, method and program Pending JP2010218216A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009064285A JP2010218216A (en) 2009-03-17 2009-03-17 Similar document retrieval system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009064285A JP2010218216A (en) 2009-03-17 2009-03-17 Similar document retrieval system, method and program

Publications (1)

Publication Number Publication Date
JP2010218216A true JP2010218216A (en) 2010-09-30

Family

ID=42977001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009064285A Pending JP2010218216A (en) 2009-03-17 2009-03-17 Similar document retrieval system, method and program

Country Status (1)

Country Link
JP (1) JP2010218216A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170145A (en) * 2014-03-07 2015-09-28 Kddi株式会社 Program, device, and server for estimating simple sentence symbolizing target sentence
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2018072983A (en) * 2016-10-26 2018-05-10 ヤフー株式会社 Retrieval device, retrieval method and retrieval program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230372A (en) * 1989-03-02 1990-09-12 Canon Inc Electronic filing system
JPH09204432A (en) * 1996-01-24 1997-08-05 Sharp Corp Electronic equipment
JPH10162008A (en) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval
JP2004110386A (en) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd Associative retrieval system
JP4128212B1 (en) * 2007-10-17 2008-07-30 株式会社野村総合研究所 Relevance calculation system between keywords and relevance calculation method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230372A (en) * 1989-03-02 1990-09-12 Canon Inc Electronic filing system
JPH09204432A (en) * 1996-01-24 1997-08-05 Sharp Corp Electronic equipment
JPH10162008A (en) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval
JP2004110386A (en) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd Associative retrieval system
JP4128212B1 (en) * 2007-10-17 2008-07-30 株式会社野村総合研究所 Relevance calculation system between keywords and relevance calculation method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND199900404001; 高橋 三雄: 'ビジネスソフト実践活用研究(27) 会社四季報CD-ROMの多目的検索法と表計算/地図ソフトへのファ' OAビジネスパソコン 第17巻 第1号, 19990101, pp.132-137, 電波新聞社 *
JPN6012033230; 高橋 三雄: 'ビジネスソフト実践活用研究(27) 会社四季報CD-ROMの多目的検索法と表計算/地図ソフトへのファ' OAビジネスパソコン 第17巻 第1号, 19990101, pp.132-137, 電波新聞社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2015170145A (en) * 2014-03-07 2015-09-28 Kddi株式会社 Program, device, and server for estimating simple sentence symbolizing target sentence
JP2018072983A (en) * 2016-10-26 2018-05-10 ヤフー株式会社 Retrieval device, retrieval method and retrieval program

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US7562088B2 (en) Structure extraction from unstructured documents
US9535911B2 (en) Processing a content item with regard to an event
US8429159B1 (en) System and method for providing information navigation and filtration
JP5647508B2 (en) System and method for identifying short text communication topics
CN109074383B (en) Document search with visualization within the context of a document
US20080162455A1 (en) Determination of document similarity
JP5168961B2 (en) Latest reputation information notification program, recording medium, apparatus and method
KR101524889B1 (en) Identification of semantic relationships within reported speech
US8959079B2 (en) Method and system for providing relationships in search results
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
US10002187B2 (en) Method and system for performing topic creation for social data
US20150032747A1 (en) Method for systematic mass normalization of titles
US9760600B2 (en) Serving recurrent calendar events
JP2018538603A (en) Identify query patterns and related total statistics between search queries
Geiß et al. Neckar: A named entity classifier for wikidata
CN113544689A (en) Generating and providing additional content for a source view of a document
US9996529B2 (en) Method and system for generating dynamic themes for social data
JP4631795B2 (en) Information search support system, information search support method, and information search support program
US20100205200A1 (en) Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
CN114065058B (en) City recommendation method and device, electronic equipment and computer readable storage medium
JP2007011604A (en) Fault diagnostic system and program
KR20140081721A (en) System and method for deducting imporant keyword using textmining, and a medium having computer readable program for executing the method
JP2010218216A (en) Similar document retrieval system, method and program
CN112100216A (en) Creative keyword processing method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130226