JP5463494B2 - Technology trend information generator - Google Patents

Technology trend information generator Download PDF

Info

Publication number
JP5463494B2
JP5463494B2 JP2012157433A JP2012157433A JP5463494B2 JP 5463494 B2 JP5463494 B2 JP 5463494B2 JP 2012157433 A JP2012157433 A JP 2012157433A JP 2012157433 A JP2012157433 A JP 2012157433A JP 5463494 B2 JP5463494 B2 JP 5463494B2
Authority
JP
Japan
Prior art keywords
information
document
technical
term
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012157433A
Other languages
Japanese (ja)
Other versions
JP2012226768A (en
Inventor
英嗣 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hiroshima City University
Original Assignee
Hiroshima City University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hiroshima City University filed Critical Hiroshima City University
Priority to JP2012157433A priority Critical patent/JP5463494B2/en
Publication of JP2012226768A publication Critical patent/JP2012226768A/en
Application granted granted Critical
Publication of JP5463494B2 publication Critical patent/JP5463494B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、例えば、ある用語に関連する関連用語を取得する関連用語取得装置等や、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成装置等に関する。   The present invention is, for example, a related term acquisition device that acquires a related term related to a certain term, or a technical trend information that creates technical trend information that is information that associates a technical term with a period related to a technical document including the technical term. It relates to a creation device.

従来の情報処理装置は、Web上のWebページを検索し、関連用語を自動収集する(例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4参照)。一般に、Webからある専門用語tに関連する用語を収集するには、まず、ある用語tに関する記述を収集し、そこからtと関連する用語を抽出するという手順が必要になる。ここで、用語tに関する適切な記述を収集する方法が、ポイントのひとつとなる。例えば、非特許文献1において、次に述べる方法で、用語tに関する記述を収集している。ある用語tに対して、まず「tとは」、「tという」、「tは」、「t」の4種類のクエリを検索エンジンに入力し、得られたURLのそれぞれ上位100ページを入手する。次に、入手したページを整形して文に分割し、用語tを含む文のみを抽出し、そこから関連用語の収集を行う。   A conventional information processing apparatus searches a Web page on the Web and automatically collects related terms (see, for example, Non-Patent Document 1, Non-Patent Document 2, Non-Patent Document 3, and Non-Patent Document 4). In general, in order to collect a term related to a certain technical term t from the Web, a procedure of first collecting descriptions related to the term t and extracting a term related to t therefrom is required. Here, one of the points is a method of collecting an appropriate description regarding the term t. For example, in Non-Patent Document 1, descriptions relating to the term t are collected by the method described below. For a certain term t, first, four types of queries “t”, “t”, “t” and “t” are input to the search engine, and the top 100 pages of the obtained URL are obtained. To do. Next, the obtained page is shaped and divided into sentences, only sentences including the term t are extracted, and related terms are collected therefrom.

なお、従来技術において、論文間の参照情報を考慮したサーベイ論文作成支援システムが存在する(非特許文献5)。
また、近年、ある用語に関連する用語をテキスト集合から自動的に収集する研究が活発に行われている(非特許文献1,3,4,6参照)。
In the prior art, there is a survey paper creation support system that takes into account reference information between papers (Non-Patent Document 5).
In recent years, research on automatically collecting terms related to a certain term from a text set has been actively performed (see Non-Patent Documents 1, 3, 4, and 6).

佐藤理史、他1名,「ウェブを利用した関連用語の自動収集」、情報処理学会研究報告 自然言語処理,NL−153、p.57−64、2003年Risa Sato, 1 other, "Automatic collection of related terms using the web", IPSJ Research Report, Natural Language Processing, NL-153, p. 57-64, 2003 佐々木靖弘、他2名、「用語間の関連度を測る指標の提案」、言語処理学会第10回年次大会,p.25−28、2004年Yasuhiro Sasaki, two others, “Proposal of an index for measuring the degree of association between terms”, 10th Annual Conference of the Association for Natural Language Processing, p. 25-28, 2004 白井清昭、他3名、「ポータルサイト自動作成の試み」、言語処理学会第10回年次大会、p.624−627、2004年Kiyoaki Shirai and three others, “Attempts to Create Portal Sites Automatically”, 10th Annual Conference of the Association for Natural Language Processing, p. 624-627, 2004 小原恭介、他3名、「ウェブを利用した関連用語収集」、第3回情報科学技術フォーラム(FIT2004),2004年Yusuke Ohara and three others, “Gathering Related Terms Using the Web”, 3rd Information Science and Technology Forum (FIT 2004), 2004 難波英嗣、他1名,「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理,Vol.6,No.5,p.43−62、1999年Eizo Namba and 1 other, “Development of survey paper creation support system considering reference information between papers”, Natural Language Processing, Vol. 6, no. 5, p. 43-62, 1999 難波英嗣、「論文間の引用情報を利用した関連用語の自動収集」、言語処理学会 第11回年次大会、2005年Eiwa Namba, “Automatic Collection of Related Terms Using Citation Information Between Papers”, 11th Annual Conference of the Association for Natural Language Processing, 2005

しかしながら、従来の情報処理装置においては、文献の引用関係に着目しておらず、用語ごとに、Webサーチエンジンを使って関連ページを収集し、そこから関連用語を抽出するため、関連用語の収集に時間がかかる、という問題があった。また、従来の情報処理装置においては、文献の引用関係に着目していないために、関連用語収集の精度が低い、という問題があった。   However, the conventional information processing apparatus does not focus on the citation relationship between documents, and collects related terms for each term by collecting related pages using a Web search engine and extracting related terms therefrom. There was a problem that it took time. Further, the conventional information processing apparatus has a problem that the accuracy of collecting related terms is low because it does not pay attention to the citation relationship of documents.

また、ある研究分野において、「どのような技術がいつ頃から使われているのか」、と言う情報を収集して整理することは、その分野の研究動向を概観するために必要不可欠である。しかしながら、そのような情報を収集するには、その研究分野に精通した人の多大な労力と時間を必要とする、と言う問題があった。   In addition, it is indispensable to collect and organize information such as “what kind of technology has been used since” in a research field in order to overview research trends in that field. However, there has been a problem that collecting such information requires a great deal of labor and time for a person familiar with the research field.

また、上述の非特許文献等では、前述のように、ある用語に関連する用語を自動的に収集することはできる。しかしながら、上述の非特許文献等では、技術用語がいつ頃から使われているのかを示す情報を作成することができなかった。   Further, in the above-mentioned non-patent documents and the like, as described above, terms related to a certain term can be automatically collected. However, in the above non-patent documents and the like, it has not been possible to create information indicating when technical terms have been used.

本発明は、上記問題の少なくとも一つを解決するためになされたものであり、文献の引用関係を用いることにより、適切な関連用語の取得を行うことができる関連用語取得装置等を提供することを目的とする。   The present invention has been made to solve at least one of the above problems, and provides a related term acquisition device and the like that can acquire appropriate related terms by using a citation relationship between documents. With the goal.

また、本発明は、上記問題点の少なくとも一つを解決するためになされたものであり、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる技術動向情報作成装置等を提供することを目的とする。   In addition, the present invention has been made to solve at least one of the above-described problems, and it is possible to create technical trend information that is information associating a technical term with a period related to a technical document including the technical term. An object of the present invention is to provide a technical trend information creation device and the like.

上記目的の少なくとも一つを達成するため、本発明による関連用語取得装置は、文献を示す情報である文献情報が2以上記憶される文献情報記憶部と、用語を示す情報である用語情報を受け付ける用語情報受付部と、前記用語情報受付部が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得部と、前記引用文献情報取得部が取得した引用文献情報の一部から、前記用語情報受付部が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得部と、前記関連用語情報取得部が取得した関連用語情報を出力する関連用語情報出力部と、を備えたものである。   In order to achieve at least one of the above objects, a related term acquisition apparatus according to the present invention receives a reference information storage unit that stores two or more reference information that is information indicating a reference, and term information that is information indicating a term. Search the document information having the term indicated by the term information received by the term information receiving unit and the term information received by the term information receiving unit from all or a part of the document information from the two or more document information stored in the document information storage unit. , Having at least cited document identification information that is information for identifying another document cited in the retrieved document information, which is the entire retrieved document information or a part of the retrieved document information The document information acquisition unit that acquires the part from the document information storage unit and the cited document identification information included in all or part of the document information acquired by the document information acquisition unit Cited reference information, which is information indicating the contribution, is searched from two or more reference information stored in the reference information storage unit, and corresponds to a predetermined item that is a part of the searched reference information. Related to the term indicated by the term information received by the term information receiving unit from a part of the cited document information acquired by the cited document information acquiring unit and the cited document information acquiring unit that acquires the portion to be acquired from the document information storage unit The related term information acquisition part which acquires the related term information which is the information which shows related term, and the related term information output part which outputs the related term information which the said related term information acquisition part acquired.

このような構成により、用語情報に関連する関連用語情報を取得することができる。特に、引用文献情報取得部が引用文献情報の一部を取得することによって、より適切な関連用語情報の取得を行うことができうる。   With such a configuration, related term information related to term information can be acquired. In particular, when the cited document information acquisition unit acquires a part of the cited document information, more appropriate related term information can be acquired.

また、本発明による関連用語取得装置では、前記文献情報は、当該文献情報の構造を記述する情報である構造記述情報を有し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、前記構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。   In the related term acquisition device according to the present invention, the document information includes structure description information that is information describing a structure of the document information, and the cited document information acquisition unit is acquired by the document information acquisition unit. A part of cited document information indicating a cited document identified by the cited document identification information included in all or a part of the document information, and is associated with a predetermined item by the structure description information. Part may be acquired.

このような構成により、文献情報は構造記述情報を有するため、引用文献情報取得部は、あらかじめ決められている項目に対応する部分を容易に取得することができうる。   With such a configuration, since the document information includes the structure description information, the cited document information acquisition unit can easily acquire a portion corresponding to a predetermined item.

また、本発明による関連用語取得装置では、前記引用文献情報の1以上の部分と、当該部分の項目との対応を示す情報である引用文献構造情報を取得する引用文献構造情報取得部をさらに備え、前記引用文献情報取得部は、前記引用文献構造情報取得部が取得した引用文献構造情報を用いて、前記引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得してもよい。   The related term acquisition device according to the present invention further includes a cited document structure information acquisition unit that acquires cited document structure information that is information indicating correspondence between one or more parts of the cited document information and items of the part. The cited document information acquisition unit acquires a part of the cited document information corresponding to a predetermined item using the cited document structure information acquired by the cited document structure information acquisition unit. May be.

このような構成により、引用文献情報取得部は、引用文献構造情報取得部が取得した引用文献構造情報を用いて、あらかじめ決められている項目に対応する部分を容易に取得することができうる。   With such a configuration, the cited document information acquisition unit can easily acquire a portion corresponding to a predetermined item using the cited document structure information acquired by the cited document structure information acquisition unit.

また、本発明による関連用語取得装置では、前記文献情報取得部は、文献情報の一部を取得する場合に、前記引用文献識別情報を少なくとも有する部分であって、前記引用文献識別情報で識別される文献についての記述を示す情報である引用情報を少なくとも有する部分を取得し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得してもよい。   In the related vocabulary acquisition apparatus according to the present invention, the document information acquisition unit, when acquiring a part of the document information, is a part having at least the cited document identification information, and is identified by the cited document identification information. The cited document identification information included in all or part of the document information acquired by the document information acquisition unit is acquired. It is a part of cited document information that is information indicating the document identified by, and is determined in advance according to the citation format in the citation information included in all or part of the document information acquired by the document information acquisition unit You may acquire the part corresponding to the item.

このような構成により、引用形式に応じた項目に対応する部分を、引用文献情報取得部が取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より適切な関連用語情報の取得が可能となりうる。   With such a configuration, the cited document information acquisition unit can acquire the part corresponding to the item according to the citation format, and acquires a part of the cited document information corresponding to which item according to the citation format. By appropriately setting whether or not, it is possible to obtain more appropriate related term information.

また、本発明による関連用語取得装置では、前記関連用語情報取得部は、前記引用文献情報取得部が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を取得する関連用語候補情報取得手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報の示す用語の関連度を前記関連用語候補情報ごとに算出する関連度算出手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を関連用語情報に決定する関連用語情報決定手段と、を備えてもよい。
このような構成により、引用文献情報取得部によって取得された引用文献情報の一部から、適切に関連用語情報を取得することができうる。
In the related term acquisition device according to the present invention, the related term information acquisition unit acquires related term candidate information that is information that is a candidate for a related term in a part of the cited reference information acquired by the cited reference information acquisition unit. Related term candidate information acquiring means, a related degree calculating means for calculating the degree of association of terms indicated by the related term candidate information acquired by the related term candidate information acquiring means for each related term candidate information, and the related term candidate information Related term information determining means for determining related term candidate information having a higher corresponding degree of related term information as related term information among the related term candidate information acquired by the acquiring unit may be provided.
With such a configuration, related term information can be appropriately acquired from a part of the cited document information acquired by the cited document information acquisition unit.

また、本発明による関連用語取得装置では、前記文献情報記憶部では、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶され、前記文献情報取得部は、前記文献情報記憶部で記憶されている前記第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、前記引用文献情報取得部は、前記文献情報記憶部で記憶されている前記第2の種類の文献情報から、引用文献情報の一部を取得してもよい。   Moreover, in the related vocabulary acquisition apparatus by this invention, in the said literature information storage part, 1st type literature information and 2nd type literature information are memorize | stored at least, The said literature information acquisition part is said literature information. All or part of the first type of document information is acquired from the first type of document information stored in the storage unit, and the cited document information acquisition unit is stored in the document information storage unit. A part of the cited document information may be acquired from the second type document information.

このような構成により、ある用語に関連する関連用語であって、その用語と異なる分野の関連用語を取得することができうる。例えば、学術文献で使用される用語に関連する特許用語を取得することができうる。   With such a configuration, it is possible to obtain related terms related to a certain term and related terms in a field different from the term. For example, patent terms related to terms used in academic literature can be obtained.

また、上記目的の少なくとも一つを達成するため、本発明による技術動向情報作成装置は、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、前記文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、を備えたものである。   In order to achieve at least one of the above objects, the technical trend information creation device according to the present invention includes a plurality of document information that is information indicating at least a part of a technical document, and a period related to the technical document indicated by the document information. A document information storage unit that stores at least time information that is information to be displayed, and a document that acquires all or a part of at least some document information among a plurality of document information stored in the document information storage unit Corresponding to an information acquisition unit, a technical term extraction unit that extracts technical terms from all or part of the reference information acquired by the reference information acquisition unit, and reference information including the technical terms extracted by the technical term extraction unit Using a time information acquisition unit that acquires time information from the document information storage unit, a technical term extracted by the technical term extraction unit, and a time information acquired by the time information acquisition unit A technical trend information creating unit that creates technical trend information, which is information that associates technical terms with a period related to technical literature including the technical terms, and an output unit that outputs the technical trend information created by the technical trend information creating unit; , With.

このような構成により、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。   With such a configuration, it is possible to create technical trend information that is information for associating a technical term with a period related to a technical document including the technical term. As a result, by using the created technology trend information, it is possible to easily know the transition of technology used in a certain research field. In addition, there is an advantage that it is not necessary to spend a great deal of labor and time for those who are familiar with the research field in order to create the technology trend information.

また、本発明による技術動向情報作成装置では、検索用語を受け付ける検索用語受付部と、前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索部と、をさらに備え、前記文献情報取得部は、検索された文献情報の全部または一部を取得してもよい。
このような構成により、検索用語によって、技術動向情報を作成する研究分野を指定することができうる。
The technical trend information creation device according to the present invention further includes a search term receiving unit that receives a search term, and a search unit that searches the document information storage unit using the search term received by the search term receiving unit. The document information acquisition unit may acquire all or part of the retrieved document information.
With such a configuration, it is possible to specify a research field in which technology trend information is created by a search term.

また、本発明による技術動向情報作成装置では、2以上の検索用語が記憶される検索用語記憶部と、前記検索用語記憶部で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける検索用語選択受付部と、をさらに備え、前記検索用語受付部は、前記検索用語選択受付部が受け付けた選択で示される検索用語を受け付けてもよい。   In the technical trend information creation device according to the present invention, a search term storage unit storing two or more search terms, and any one of the two or more search terms stored in the search term storage unit A search term selection accepting unit that accepts the selection, and the search term accepting unit may accept the search term indicated by the selection accepted by the search term selection accepting unit.

このような構成により、検索用語として適切な用語(例えば、研究分野を示す用語など)を検索用語記憶部において記憶しておくことにより、不適切な検索用語が入力される事態を回避することができうる。その結果として、適切な検索を行うことができ、適切な技術動向情報を作成することができるようになる。   With such a configuration, it is possible to avoid a situation in which an inappropriate search term is input by storing an appropriate term (for example, a term indicating a research field) as a search term in the search term storage unit. It can be done. As a result, an appropriate search can be performed and appropriate technical trend information can be created.

また、本発明による技術動向情報作成装置では、前記文献情報記憶部で記憶されている文献情報から専門用語を抽出する専門用語抽出部と、所定の接尾語が記憶される接尾語記憶部と、前記専門用語抽出部が抽出した専門用語に前記接尾語記憶部で記憶されている接尾語を付けた用語が、前記文献情報記憶部で記憶されている文献情報に含まれる場合に、当該専門用語を検索用語として前記検索用語記憶部に蓄積する検索用語蓄積部と、をさらに備えてもよい。
このような構成により、ユーザ等が検索用語を検索用語記憶部に蓄積する処理を行わなくても、自動的に検索用語を検索用語記憶部に蓄積することができる。
Further, in the technical trend information creation device according to the present invention, a technical term extraction unit that extracts technical terms from the literature information stored in the literature information storage unit, a suffix storage unit that stores a predetermined suffix, When a term obtained by adding a suffix stored in the suffix storage unit to the technical term extracted by the technical term extraction unit is included in the document information stored in the document information storage unit, the technical term And a search term storage unit that stores the search term as a search term in the search term storage unit.
With such a configuration, the search terms can be automatically stored in the search term storage unit without the user performing processing for storing the search terms in the search term storage unit.

また、本発明による技術動向情報作成装置では、前記検索部は、前記検索用語受付部が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索してもよい。
このような構成により、検索用語をメイントピックとする分野の技術動向情報を作成することができうる。
In the technical trend information creation device according to the present invention, the search unit may search for document information corresponding to a technical document whose search term received by the search term receiving unit is a main topic.
With such a configuration, it is possible to create technical trend information in a field whose search term is a main topic.

また、本発明による技術動向情報作成装置では、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部をさらに備え、前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報記憶部から取得してもよい。   The technical trend information creation device according to the present invention further includes a specifying unit that specifies document information having the same field as the document information searched by the search unit, and the document information acquiring unit is specified by the specifying unit. All or part of the document information may be acquired from the document information storage unit.

このような構成により、検索用語を用いた検索によって取得することができない文献情報であるが、その検索によって取得された文献情報と分野が同一の他の文献情報を取得することができうる。その結果、より多くの文献情報を収集することができ、より適切な技術動向情報を作成することができると考えられる。   With such a configuration, although it is document information that cannot be acquired by a search using a search term, other document information having the same field as the document information acquired by the search can be acquired. As a result, it is considered that more literature information can be collected and more appropriate technical trend information can be created.

また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得し、当該引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。
このような構成により、引用関係を用いて文献情報の特定を行うことができうる。
Further, in the technical trend information creation device according to the present invention, the specifying unit is cited document identification information which is information for identifying another technical document cited in the document information from the document information searched by the search unit. And using the cited document identification information, document information having the same field as the document information searched by the search unit may be specified.
With such a configuration, it is possible to specify document information using citation relationships.

また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得し、当該引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合に、当該引用情報で記述されている技術文献を識別する引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。   Further, in the technical trend information creation device according to the present invention, the specifying unit is citation information that is information indicating a description of another technical document cited in the document information from the document information searched by the search unit. If the citation format indicated by the citation information is a problem-pointing citation format that points out the problem of the cited technical document, the technical document described in the citation information is identified. The cited document identification information may be used to identify document information having the same field as the document information searched by the search unit.

このような構成により、引用情報をも用いて、文献情報の特定を行うことができる。特に、引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合には、引用された文献情報と、引用した文献情報との分野が似ていることが発明者らの研究によってわかっており、適切な文献情報の特定を行うことができうる。   With such a configuration, it is possible to specify document information using citation information. In particular, when the citation format is a problem-pointing citation format that points out the problem of the cited technical document, the fields of the cited document information and the cited document information are similar. Is known by the inventors' research, and appropriate literature information can be specified.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句を用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue phrase searching unit for searching for the clue phrase and a technical term extracting unit for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase searching unit as a technical term.
With such a configuration, it is possible to extract technical terms from all or part of the acquired document information using the clue words / phrases.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記検索用語受付部が受け付けた検索用語と、前記手がかり語句検索手段が検索した手がかり語句によって対応付けられている用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句と検索用語とを用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. , A technical term for extracting as a technical term a clue phrase search means for searching for the clue phrase, a search term received by the search term acceptance unit, and a term associated with the clue phrase searched by the clue phrase search means Extraction means.
With such a configuration, technical terms can be extracted from all or part of the acquired document information using the clue phrases and the search terms.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、2以上の専門用語が記憶される専門用語記憶手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、技術用語抽出手段が一般名詞や非専門用語等を技術用語として抽出することを回避することができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue word / phrase search means for searching for the clue word / phrase, a technical term storage means for storing two or more technical terms, and a term having a predetermined relationship with the clue word / phrase searched by the clue word / phrase search means. When the technical term memorize | stored in the memory | storage means is contained, you may provide the technical term extraction means which extracts the said technical term as a technical term.
With such a configuration, it can be avoided that the technical term extraction means extracts general nouns, non-technical terms and the like as technical terms.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えてもよい。
このような構成により、まず手がかり語句を用いて技術用語候補を抽出し、その後に、技術用語候補から適切な技術用語を選択することができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes a clue word storage unit that stores one or more clue words, and all or a part of the document information acquired by the document information acquisition unit. A clue phrase searching means for searching for the clue phrase, a technical term candidate extracting means for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase search means, and the technical term candidate extraction Technical term selection means for selecting all or part of technical term candidates extracted by the means as technical terms.
With such a configuration, it is possible to first extract technical term candidates using the clue words and then select an appropriate technical term from the technical term candidates.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段をさらに備え、前記技術用語選択手段は、前記技術用語接尾語記憶手段で記憶されている接尾語を有する技術用語候補を技術用語として選択してもよい。   In the technical trend information creation device according to the present invention, the technical term extraction unit further includes technical term suffix storage means for storing one or more suffixes that can be taken by the technical term, and the technical term selection means includes: A technical term candidate having a suffix stored in the technical term suffix storage means may be selected as a technical term.

このような構成により、所定の接尾語を有する用語は、技術用語として適切であると考えられるところ、その接尾語を用いた技術用語の選択を行うことによって、適切な技術用語を選択することができうる。   With such a configuration, a term having a predetermined suffix is considered to be appropriate as a technical term. By selecting a technical term using the suffix, an appropriate technical term can be selected. It can be done.

また、本発明による技術動向情報作成装置では、前記技術用語選択手段は、前記文献情報記憶部で記憶されているいずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択してもよい。   In the technical trend information creation device according to the present invention, the technical term selection means selects a technical term candidate used as a main topic in any document information stored in the document information storage unit as a technical term. May be.

このような構成により、いずれの文献情報においてもメイントピックとして用いられていない用語は、技術用語として好適でないと考えられるところ、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択することにより、適切な技術用語を選択することができうる。   With such a configuration, a term that is not used as a main topic in any document information is considered to be unsuitable as a technical term, but a technical term candidate used as a main topic in any document information is technically used. By selecting as a term, an appropriate technical term can be selected.

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択してもよい。
このような構成により、適切な技術用語の選択をすることができうる。
In the technical trend information creation device according to the present invention, the technical term extraction unit includes literature information from which the technical term candidates are extracted, literature information identification means for identifying literature information in the same field, and the technical terms. A technical term suffix storage unit that stores one or more possible suffixes, and the document information acquisition unit also acquires all or part of the document information specified by the document information specifying unit, The technical vocabulary selection means includes all or a part of one document information acquired by the document information acquisition unit and the document information specified by the document information specifying means that the field is the same as the one document information. When at least one of the technical term candidates extracted from all or part of the technical term candidates has the suffix stored in the suffix storage means, it is extracted from all or part of the one document information. It may select technical term candidates as technical terms.
With such a configuration, it is possible to select an appropriate technical term.

また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であり、前記出力部は、前記技術動向情報を表示出力してもよい。
このような構成により、表示出力された技術動向情報の画像をユーザが見ることにより、技術の動向を容易にとらえることができうる。
Further, in the technical trend information creation device according to the present invention, the technical trend information is an image indicating a timing indicated by timing information corresponding to document information including the technical term for each technical term, and the output unit includes the output Technology trend information may be displayed and output.
With such a configuration, the technology trend can be easily grasped by the user viewing the displayed image of the technology trend information.

また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する図形である文献図形が、当該文献情報に対応する時期情報の示す時期に応じて表示される画像であり、前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成してもよい。   In the technical trend information creation device according to the present invention, the technical trend information indicates, for each technical term, a reference graphic corresponding to the reference information including the technical term is indicated by time information corresponding to the reference information. It is an image that is displayed according to time, a graphic selection receiving unit that accepts selection of a literature graphic in the technical trend information, and information related to literature information corresponding to the literature graphic that the graphic selection receiving unit has accepted selection, A display information acquisition unit that acquires display information that is information to be displayed on the image of the technical trend information from the literature information storage unit, and the technical trend information creation unit displays the display acquired by the display information acquisition unit You may create the technical trend information which displays information.

このような構成により、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。   With such a configuration, for example, the user viewing the technical trend information image can easily know the predetermined information about the document information including the technical term displayed in the technical trend information image. As a result, the convenience of the user is improved.

本発明による関連用語取得装置等によれば、用語情報に関連する関連用語情報を取得することができる。また、例えば、引用形式に応じた項目に対応する部分を取得して関連用語情報を取得することによって、より適切な関連用語情報の取得が可能となりうる。   According to the related term acquisition device or the like according to the present invention, related term information related to term information can be acquired. In addition, for example, it is possible to acquire more appropriate related term information by acquiring the portion corresponding to the item corresponding to the citation format and acquiring the related term information.

本発明による技術動向情報作成装置等によれば、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。したがって、その技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。   According to the technical trend information creation device and the like according to the present invention, it is possible to create technical trend information that is information that associates technical terms with the time related to technical literature including the technical terms. Therefore, by using the technology trend information, it is possible to easily know the transition of the technology used in a certain research field.

本発明の実施の形態1による関連用語取得装置の構成を示すブロック図The block diagram which shows the structure of the related vocabulary acquisition apparatus by Embodiment 1 of this invention. 同実施の形態による関連用語情報取得部の構成を示すブロック図The block diagram which shows the structure of the related vocabulary information acquisition part by the embodiment 同実施の形態による関連用語取得装置の動作を示すフローチャートThe flowchart which shows operation | movement of the related vocabulary acquisition apparatus by the embodiment 同実施の形態による関連用語取得装置の動作を示すフローチャートThe flowchart which shows operation | movement of the related vocabulary acquisition apparatus by the embodiment 同実施の形態による関連用語取得装置の動作を示すフローチャートThe flowchart which shows operation | movement of the related vocabulary acquisition apparatus by the embodiment 同実施の形態による関連用語取得装置の動作を示すフローチャートThe flowchart which shows operation | movement of the related vocabulary acquisition apparatus by the embodiment 同実施の形態における実験例について説明するための図The figure for demonstrating the example of an experiment in the embodiment 同実施の形態における実験例について説明するための図The figure for demonstrating the example of an experiment in the embodiment 本発明の実施の形態2による関連用語取得装置の構成を示すブロック図The block diagram which shows the structure of the related vocabulary acquisition apparatus by Embodiment 2 of this invention. 同実施の形態による関連用語情報取得部の構成を示すブロック図The block diagram which shows the structure of the related vocabulary information acquisition part by the embodiment 同実施の形態による関連用語情報取得部の構成を示すブロック図The block diagram which shows the structure of the related vocabulary information acquisition part by the embodiment 本発明の実施の形態3による関連用語情報取得部の動作を示すフローチャートThe flowchart which shows operation | movement of the related vocabulary information acquisition part by Embodiment 3 of this invention. 同実施の形態におけるタイプC用手がかり句辞書の一例を示す図The figure which shows an example of the clue phrase dictionary for type C in the embodiment 同実施の形態におけるタイプB用手がかり句辞書の一例を示す図The figure which shows an example of the clue phrase dictionary for type B in the embodiment 同実施の形態における文献情報の書誌情報の一例を示す図The figure which shows an example of the bibliographic information of the literature information in the embodiment 本発明の実施の形態4による技術動向情報作成装置の構成を示すブロック図The block diagram which shows the structure of the technical trend information preparation apparatus by Embodiment 4 of this invention. 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態における技術用語抽出部の構成を示すブロック図The block diagram which shows the structure of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の構成を示すブロック図The block diagram which shows the structure of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の構成を示すブロック図The block diagram which shows the structure of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の構成を示すブロック図The block diagram which shows the structure of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の構成を示すブロック図The block diagram which shows the structure of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における技術用語抽出部の動作を示すフローチャートThe flowchart which shows operation | movement of the technical vocabulary extraction part in the embodiment 同実施の形態における構造タグと手がかり語句との対応の一例を示す図The figure which shows an example of a response | compatibility with the structure tag and clue word phrase in the embodiment 同実施の形態における文献情報記憶部で記憶されている情報の一例を示す図The figure which shows an example of the information memorize | stored in the literature information storage part in the embodiment 同実施の形態におけるタイプCの手がかり語句と手がかり語句の位置との対応の一例を示す図The figure which shows an example of a response | compatibility with the position of the clue phrase of type C and the clue phrase in the embodiment 同実施の形態における文献情報取得部が取得した文献情報の一例を示す図The figure which shows an example of the literature information which the literature information acquisition part in the embodiment acquired 同実施の形態における手がかり語句記憶手段で記憶されている手がかり語句の一例を示す図The figure which shows an example of the clue word phrase memorize | stored in the clue word phrase memory | storage means in the embodiment 同実施の形態における抽出された技術用語の一例を示す図The figure which shows an example of the technical vocabulary extracted in the embodiment 同実施の形態における取得された時期情報の一例を示す図The figure which shows an example of the acquired time information in the embodiment 同実施の形態における出力された技術動向情報の一例を示す図The figure which shows an example of the technical trend information output in the same embodiment 同実施の形態における技術動向情報の一例を示す図The figure which shows an example of the technical trend information in the embodiment 同実施の形態における専門用語記憶手段で記憶されている専門用語の一例を示す図The figure which shows an example of the technical term memorize | stored in the technical term memory | storage means in the embodiment 本発明の実施の形態5による技術動向情報作成装置の構成を示すブロック図The block diagram which shows the structure of the technical trend information creation apparatus by Embodiment 5 of this invention. 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 本発明の実施の形態6による技術動向情報作成装置の構成を示すブロック図The block diagram which shows the structure of the technical trend information creation apparatus by Embodiment 6 of this invention. 同実施の形態による技術動向情報作成装置の動作を示すフローチャートThe flowchart which shows operation | movement of the technical trend information preparation apparatus by the embodiment 同実施の形態における出力された技術動向情報の一例を示す図The figure which shows an example of the technical trend information output in the same embodiment 実験結果を示す図Figure showing experimental results 実験結果を示す図Figure showing experimental results 実験結果を示す図Figure showing experimental results 他の形態による技術動向情報作成装置の構成を示すブロック図The block diagram which shows the structure of the technical trend information preparation apparatus by another form. 他の形態における分類結果情報の一例を示す図The figure which shows an example of the classification result information in another form 他の形態における出力された技術動向情報の一例を示す図The figure which shows an example of the technical trend information output in other forms コンピュータシステムの外観一例を示す模式図Schematic diagram showing an example of the appearance of a computer system コンピュータシステムの構成の一例を示す図The figure which shows an example of a structure of a computer system

以下、本発明による関連用語取得装置、及び技術動向情報作成装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。   Hereinafter, a related term acquisition device and a technical trend information creation device according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.

(実施の形態1)
本発明の実施の形態1による関連用語取得装置について、図面を参照しながら説明する。
図1は、本実施の形態による関連用語取得装置1の構成を示すブロック図である。図1において、本実施の形態による関連用語取得装置1は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16とを備える。
(Embodiment 1)
A related term acquisition apparatus according to Embodiment 1 of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a related term acquisition device 1 according to this embodiment. In FIG. 1, the related term acquisition device 1 according to the present embodiment includes a document information storage unit 11, a term information reception unit 12, a document information acquisition unit 13, a cited document information acquisition unit 14, and a related term information acquisition unit. 15 and a related term information output unit 16.

文献情報記憶部11では、2以上の文献情報が記憶される。ここで、文献情報とは、文献を示す情報である。文献は、論文、特許書類(例えば、出願公開公報、特許公報等)、Webページ、官報、書籍等の何らかのまとまりを有する文書であればどのようなものでもよい。一の文献情報には、対応する一の文献の情報(データ)が含まれる。ただし、一の文献情報には、後の処理で必要となる範囲の情報が含まれているだけであってもよい。例えば、学術論文の文献情報である場合に、その学術論文の参考文献とタイトルのみを後の処理で用いる場合には、文献情報記憶部11で記憶される文献情報は、参考文献とタイトルのみを有する情報であってもよい。文献情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報がテキストファイルである場合に、そのテキストファイルでは、タグを用いて文書を記述するマークアップ言語によって記述されていてもよく、あるいは、対応する文献の内容が単にテキストデータによって示されていてもよい。文献情報は、少なくともその一部に構造を有するものとする。ここで、その構造は、タグや見出し等によって明示されていてもよく、あるいは、明示されていなくてもよい。後者の場合には、例えば、文献情報で示される文献のあるパラグラフを読むことによって、そこに要約が記載されていることがわかり、他のパラグラフを読むことによって、そこに目的が記載されていることがわかる、というものでもよい。構造が明示されている場合に、その構造は、文献情報の有する情報であり、文献情報の構造を記述する情報である構造記述情報によって示されてもよく、そうでなくてもよい。ここで、構造記述情報とは、例えば、日本の特許明細書で使用されている見出しのタグや、HTMLファイルで使用されているタグ等である。構造記述情報以外によって文献情報の構造が記述されている場合としては、例えば、通常の論文のように、「要約」や、「参考文献」等の見出しのテキストデータが文献情報に含まれる場合がある。文献情報記憶部11で記憶される2以上の文献情報には、少なくとも、他の文献を引用している文献を示す文献情報が含まれるものとする。ある文献情報において引用されている他の文献のことを引用文献と呼ぶことにする。他の文献を引用している文献を示す文献情報には、引用文献を識別する情報である引用文献識別情報が含まれる。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。文献情報記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部11にユーザ属性対応情報が記憶される過程は問わない。例えば、記録媒体を介して文献情報が文献情報記憶部11で記憶されるようになってもよく、通信回線等を介して送信された文献情報が文献情報記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報が文献情報記憶部11で記憶されるようになってもよい。   The document information storage unit 11 stores two or more document information. Here, the document information is information indicating a document. The document may be any document as long as it has a certain unit such as a paper, a patent document (for example, an application publication gazette, a patent gazette, etc.), a web page, an official gazette, and a book. One document information includes information (data) of a corresponding one document. However, one piece of document information may only include information in a range necessary for later processing. For example, in the case of literature information of an academic paper, when only the reference literature and title of the academic paper are used in the subsequent processing, the literature information stored in the literature information storage unit 11 includes only the reference literature and title. It may be information. The document information may be a text file, or may be a file of a unique format such as word processing software. When the document information is a text file, the text file may be described in a markup language that describes a document using tags, or the content of the corresponding document is simply indicated by text data. Also good. The document information has a structure in at least a part thereof. Here, the structure may be specified by a tag, a heading, or the like, or may not be specified. In the latter case, for example, by reading a paragraph in the document indicated by the document information, it is found that the summary is described there, and by reading the other paragraph, the purpose is described there It can be understood. When the structure is specified, the structure is information included in the document information, and may or may not be indicated by the structure description information that is information describing the structure of the document information. Here, the structure description information is, for example, a heading tag used in a Japanese patent specification, a tag used in an HTML file, or the like. As a case where the structure of the document information is described other than the structure description information, for example, as in a normal paper, there may be a case where the text data of a headline such as “summary” or “reference document” is included in the document information. is there. The two or more document information stored in the document information storage unit 11 includes at least document information indicating a document that cites another document. Other documents cited in certain document information are referred to as cited documents. The document information indicating a document that cites another document includes cited document identification information that is information for identifying the cited document. Here, the content of the cited document identification information is not limited as long as it is information that can identify the cited document. The cited document identification information may be, for example, an ID for identifying a cited document such as a patent number, an application publication number of a patent application, or a PMID (PubMed Identifier), and relates to an author name, title, date of writing, and medium It may be bibliographic information of a document that can identify a cited document such as information (magazine name, publisher name, URL, etc.). The document information storage unit 11 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which the user attribute correspondence information is stored in the document information storage unit 11 does not matter. For example, document information may be stored in the document information storage unit 11 via a recording medium, and document information transmitted via a communication line or the like is stored in the document information storage unit 11. Alternatively, the document information input via the input device may be stored in the document information storage unit 11.

用語情報受付部12は、用語情報を受け付ける。ここで、用語情報とは、用語を示す情報である。この用語情報は、一般に用語のテキストを示す情報であるが、用語を示す情報であればそれ以外であってもよい。関連用語取得装置1では、この用語情報受付部12で受け付けられた用語情報で示される用語に関連する用語である関連用語が取得される。用語情報受付部12は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報を受け付けてもよい。なお、用語情報受付部12は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、用語情報受付部12は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The term information receiving unit 12 receives term information. Here, the term information is information indicating a term. This term information is generally information indicating the text of a term, but may be other than that as long as it is information indicating a term. In the related term acquisition device 1, a related term that is a term related to the term indicated by the term information received by the term information receiving unit 12 is acquired. For example, the term information reception unit 12 may receive information input from an input device (for example, a keyboard, a mouse, a touch panel, etc.), or may receive information transmitted via a wired or wireless communication line. Alternatively, information read from a predetermined recording medium (for example, an optical disk, a magnetic disk, a semiconductor memory, etc.) may be received. The term information receiving unit 12 may or may not include a device (for example, a modem or a network card) for receiving. The term information receiving unit 12 may be realized by hardware, or may be realized by software such as a driver that drives a predetermined device.

なお、用語情報受付部12は、用語情報以外の情報を受け付けてもよい。例えば、関連用語取得装置1によって取得された関連用語情報によって何らかの検索等を行う場合に、その検索で用いる検索キー(例えば、検索で用いる国際特許分類等)を用語情報と共に受け付けてもよい。そのような場合でも、以下の文献情報の取得等の処理は、用語情報受付部12の受け付けた用語情報を用いてなされるものとする。   The term information receiving unit 12 may receive information other than the term information. For example, when performing some kind of search or the like based on the related term information acquired by the related term acquisition device 1, a search key used in the search (for example, an international patent classification used in the search) may be received together with the term information. Even in such a case, processing such as acquisition of the following document information is performed using the term information received by the term information receiving unit 12.

文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。用語を文献情報の全部に有する文献情報とは、その用語が文献情報のいずれかの箇所に含まれていることをいう。一方、用語を文献情報の一部に有する文献情報とは、その用語が文献情報の一部の領域、例えば、タイトルや、特許請求の範囲等のあらかじめ決められている領域に含まれることをいう。文献情報取得部13が用語情報の示す用語を文献情報の一部に有する文献情報を検索する場合には、例えば、その文献情報の一部に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、上記の検索を行ってもよい。   The document information acquisition unit 13 retrieves document information having the term indicated by the term information received by the term information reception unit 12 in all or part of the document information from two or more document information stored in the document information storage unit 11. To do. Document information having a term in all document information means that the term is included in any part of the document information. On the other hand, the document information having a term as part of the document information means that the term is included in a part of the document information, for example, a predetermined region such as a title or a claim. . When the document information acquisition unit 13 retrieves document information having the term indicated by the term information as a part of the document information, for example, information indicating an item corresponding to the part of the document information is stored in a recording medium (not illustrated). Thus, the literature information acquisition unit 13 may read the information indicating the item from the recording medium and perform the above search.

文献情報取得部13は、検索された文献情報の全部、またはその検索された文献情報の一部を文献情報記憶部11から取得する。文献情報取得部13が、検索された文献情報の一部を取得する場合には、その文献情報の一部は、検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分である。したがって、文献情報取得部13によって、少なくとも引用文献識別情報を含む文献情報の全部または一部が取得されることになる。文献情報取得部13が文献情報の一部を取得する場合には、例えば、文献情報取得部13は、引用文権識別情報を少なくとも含むと考えられる参考文献(Reference)の欄や、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を特定し、その領域を含む文献情報の一部を取得してもよい。前者の場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の一部を取得してもよい。また、後者の場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって文献情報の一部を取得してもよい。文献情報取得部13が、用語情報の示す用語を文献情報の一部に有する文献情報を検索し、また、文献情報取得部13が、検索された文献情報の一部を取得する場合に、その検索で用いる文献情報の一部と、取得対象となる文献情報の一部とは、文献情報の同じ部分であってもよく、文献情報の異なる部分であってもよい。   The document information acquisition unit 13 acquires all of the retrieved document information or a part of the retrieved document information from the document information storage unit 11. When the document information acquisition unit 13 acquires a part of the retrieved document information, a part of the document information is information that identifies other documents cited in the retrieved document information. It is a part having at least document identification information. Therefore, all or part of the document information including at least the cited document identification information is acquired by the document information acquisition unit 13. When the document information acquisition unit 13 acquires a part of the document information, for example, the document information acquisition unit 13 includes a column of a reference document (Reference) that is considered to include at least cited text identification information, a patent document, You may acquire the column of nonpatent literature, or you may specify the area | region where cited reference identification information exists using techniques, such as pattern matching, and may acquire a part of literature information including the area | region. . In the former case, for example, information indicating an item corresponding to the part to be acquired is stored in a recording medium (not shown), and the literature information acquisition unit 13 reads the information indicating the item from the recording medium, and the item A part of the document information corresponding to may be acquired. In the latter case, for example, information indicating a pattern used for pattern matching or the like is stored in a recording medium (not shown), and the literature information acquisition unit 13 reads the pattern from the recording medium and performs pattern matching or the like. A part of the document information may be acquired by performing the above. When the document information acquisition unit 13 searches for document information having the term indicated by the term information as part of the document information, and when the document information acquisition unit 13 acquires a part of the searched document information, The part of the document information used in the search and the part of the document information to be acquired may be the same part of the document information, or may be a part of the document information different.

引用文献情報取得部14は、引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。ここで、引用文献情報とは、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す文献情報である。そして、引用文献情報取得部14は、その検索された引用文献情報の一部を文献情報記憶部11から取得する。引用文献情報取得部14が取得する引用文献情報の一部は、あらかじめ決められている項目に対応する引用文献情報の部分である。あらかじめ決められている項目に対応する部分とは、その項目について記載されている部分のことである。項目とは、文書において区分されうる領域のことであり、例えば、タイトル、発明の名称、要約(アブストラクト)、特許請求の範囲、請求項、請求項の前提部(プリアンブル)、1番目に記載されている請求項(以下、「第1請求項」とする)、第1請求項に従属する請求項、発明の目的、発明の効果等である。あらかじめ決められている項目は、単一の項目であってもよく、2以上の項目であってもよい。その項目は、引用文献情報において顕在化していてもよく、あるいは、顕在化していなくてもよい。項目が顕在化しているとは、その項目に対応する部分が引用文献情報において明示されていることである。例えば、項目名がテキストで表示されることによって項目が顕在化していてもよく、あるいは、タグが用いられることにより、項目が顕在化していてもよい。項目が顕在化していないとは、項目が顕在化している場合のように項目に対応する部分が引用文献情報において明示されていないことである。例えば、項目立てをしないで文書が記載されている場合などが該当する。そのような場合であっても、引用文献情報取得部14は、文書の所定の部分にどのような項目の記載がなされているのかを知ることができうる。   The cited document information acquisition unit 14 searches the cited document information from two or more document information stored in the document information storage unit 11. Here, the cited document information is document information indicating a document identified by the cited document identification information included in all or part of the document information acquired by the document information acquisition unit 13. The cited document information acquisition unit 14 acquires a part of the retrieved cited document information from the document information storage unit 11. A part of the cited document information acquired by the cited document information acquiring unit 14 is a part of the cited document information corresponding to a predetermined item. A part corresponding to a predetermined item is a part described for the item. An item is an area that can be classified in a document. For example, a title, a title of the invention, an abstract (abstract), a claim, a claim, a claim, a preamble of a claim (preamble), and first described Claims (hereinafter referred to as “first claim”), claims subordinate to the first claim, the object of the invention, the effects of the invention, and the like. The predetermined item may be a single item or two or more items. The item may be manifested in the cited document information or may not be manifested. The fact that an item is actualized means that a portion corresponding to the item is clearly indicated in the cited document information. For example, the item may be manifested by displaying the item name in text, or the item may be manifested by using a tag. The fact that the item is not actualized means that the part corresponding to the item is not clearly shown in the cited document information as in the case where the item is actualized. For example, a case where a document is described without setting items is applicable. Even in such a case, the cited document information acquisition unit 14 can know what items are described in a predetermined part of the document.

ここで、引用文献情報取得部14が、あらかじめ決められている項目に対応する引用文献情報の部分を取得する処理について説明する。あらかじめ決められている項目を示す情報が、引用文献情報取得部14がアクセス可能な図示しない記録媒体において記憶されている場合に、引用文献情報取得部14は、その記録媒体にアクセスして項目を示す情報を読み出す。そして、項目が引用文献情報において顕在化している場合には、引用文献情報取得部14は、その読み出した項目に対応する引用文献情報の部分を取得する。一方、項目が引用文献情報において顕在化していない場合には、引用文献情報取得部14は、その項目に対応する引用文献情報の部分を特定し、その特定した引用文献情報の部分を取得する。次に、項目に対応する引用文献情報の部分の特定について説明する。例えば、引用文献情報取得部14は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、引用文献情報取得部14は、ある項目に対応する引用文献情報の部分を特定する場合には、その項目に対応する条件情報を取得し、その条件情報に対応する引用文献情報の部分を特定する。   Here, the process in which the cited document information acquisition part 14 acquires the part of the cited document information corresponding to the predetermined item is demonstrated. When information indicating a predetermined item is stored in a recording medium (not shown) accessible by the cited document information acquiring unit 14, the cited document information acquiring unit 14 accesses the recording medium and selects the item. Read the indicated information. And when the item is actualized in cited reference information, the cited reference information acquisition part 14 acquires the cited reference information part corresponding to the read item. On the other hand, when the item is not manifested in the cited document information, the cited document information acquisition unit 14 specifies the cited document information part corresponding to the item, and acquires the specified cited document information part. Next, identification of the cited document information corresponding to the item will be described. For example, the cited document information acquisition unit 14 holds condition information indicating conditions corresponding to each item to be specified in a recording medium (not shown). When the cited document information acquisition unit 14 specifies a cited document information portion corresponding to a certain item, the cited document information acquisition unit 14 acquires condition information corresponding to the item, and obtains the cited document information portion corresponding to the condition information. Identify.

なお、文献情報に構造記述情報が含まれる場合には、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。   When the structure information is included in the document information, the cited document information acquisition unit 14 is identified by the cited document identification information included in all or part of the document information acquired by the document information acquisition unit 13. A part of cited document information indicating a document, which is associated with a predetermined item may be acquired by structure description information.

また、引用文献情報取得部14が、結果として上述のような引用文献情報の一部を取得することができるのであれば、その過程は問わない。例えば、文献情報取得部13が引用文献識別情報として引用文献のタイトルを含む情報を取得し、引用文献情報取得部14が項目「タイトル」に対応する引用文献情報の一部を取得する場合には、引用文献情報取得部14は、文献情報取得部13が取得した引用文献識別情報から、引用文献情報のタイトルに対応する部分を取得することによって、引用文献情報の一部を取得してもよい。   Moreover, if the cited reference information acquisition part 14 can acquire a part of above cited reference information as a result, the process will not be ask | required. For example, when the document information acquisition unit 13 acquires information including the title of the cited document as the cited document identification information, and the cited document information acquisition unit 14 acquires a part of the cited document information corresponding to the item “title”. The cited document information acquisition unit 14 may acquire a part of the cited document information by acquiring a part corresponding to the title of the cited document information from the cited document identification information acquired by the document information acquisition unit 13. .

関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、関連用語情報を取得する。ここで、関連用語情報とは、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である。関連用語情報取得部15の詳細な構成については、図2を用いて後述する。   The related term information acquisition unit 15 acquires related term information from a part of the cited document information acquired by the cited document information acquisition unit 14. Here, the related term information is information indicating related terms related to the term indicated by the term information received by the term information receiving unit 12. The detailed configuration of the related term information acquisition unit 15 will be described later with reference to FIG.

関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、関連用語情報出力部16は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、関連用語情報出力部16は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The related term information output unit 16 outputs the related term information acquired by the related term information acquisition unit 15. Here, the output may be, for example, display on a display device (for example, a CRT or a liquid crystal display), transmission via a communication line to a predetermined device, printing by a printer, or audio output by a speaker. However, it may be stored in a recording medium. The related term information output unit 16 may or may not include an output device (for example, a display device or a printer). The related term information output unit 16 may be realized by hardware, or may be realized by software such as a driver that drives these devices.

図2は、関連用語情報取得部15の構成を示すブロック図である。図2において、関連用語情報取得部15は、関連用語候補情報取得手段21と、関連度算出手段22と、関連用語情報決定手段23とを備える。   FIG. 2 is a block diagram illustrating a configuration of the related term information acquisition unit 15. In FIG. 2, the related term information acquisition unit 15 includes a related term candidate information acquisition unit 21, a related degree calculation unit 22, and a related term information determination unit 23.

関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を、引用文献情報取得部14が取得した引用文献情報の一部から取得する。関連用語候補情報取得手段21は、取得した関連用語候補情報を図示しない記録媒体に蓄積してもよい。ここで、関連用語候補情報を取得する種々の方法についてここで説明する。   The related term candidate information acquisition unit 21 obtains the citation obtained by the cited document information acquisition unit 14 as related term candidate information which is information as a candidate for a related term in a part of the cited document information acquired by the cited document information acquisition unit 14. Acquired from a part of literature information. The related term candidate information acquisition unit 21 may store the acquired related term candidate information in a recording medium (not shown). Here, various methods for acquiring the related term candidate information will be described here.

[関連用語候補情報の取得方法1]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部について形態素解析を行い、単名詞、及び/または、複合名詞を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、単名詞等を示す情報に加えて、未知語を示す情報も関連用語候補情報として取得してもよい。ここで、形態素解析とは、自然言語の文書を形態素に分割し、その形態素の品詞を見分ける処理である。形態素解析を行うソフトウェアとして、日本では奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。茶筌を用いることにより、例えば、名詞類を示す情報を取得することができる。ここで、名詞類とは、単名詞や未知語、またはこれらが連接した複合名詞である。また、英単語に品詞を付与するソフトウェアとしては、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。単名詞等を示す情報を関連用語候補情報として取得する方法については、上記非特許文献4等で開示されており、従来から知られているため、その詳細な説明を省略する。
[Method 1 of obtaining related term candidate information]
The related term candidate information acquisition unit 21 performs morphological analysis on a part of the cited reference information acquired by the cited reference information acquisition unit 14, and acquires information indicating a single noun and / or compound noun as related term candidate information. May be. The related term candidate information acquisition unit 21 may acquire information indicating an unknown word as related term candidate information in addition to information indicating a single noun or the like. Here, the morpheme analysis is a process of dividing a natural language document into morphemes and recognizing parts of speech of the morphemes. As software for performing morphological analysis, “ChaSen” (http://chasen.naist.jp) developed at Nara Institute of Science and Technology is known in Japan. By using a tea bowl, for example, information indicating nouns can be acquired. Here, the nouns are simple nouns, unknown words, or compound nouns in which these are connected. In addition, examples of software that gives parts of speech to English words include “TnT” (http://www.coli.uni-saarland.de/˜thorsten/tnt/) and “Brill Tagger” (http: //www.cs. .Jhu.edu / ˜brill /) and the like are known. The method for acquiring information indicating a single noun or the like as related term candidate information is disclosed in Non-Patent Document 4 and the like and has been known in the art, and thus detailed description thereof is omitted.

[関連用語候補情報の取得方法2]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部から、専門用語を示す情報を関連用語候補情報として取得してもよい。ここで、専門用語を示す情報を取得する方法について説明する。まず、関連用語候補情報取得手段21は、上記の「関連用語候補情報の取得方法1」と同様にして、引用文献情報取得部14が取得した引用文献情報の一部から、単名詞等を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語候補情報として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。
[Method 2 of obtaining related term candidate information]
The related term candidate information acquisition unit 21 may acquire information indicating technical terms as related term candidate information from a part of the cited reference information acquired by the cited reference information acquisition unit 14. Here, a method for acquiring information indicating technical terms will be described. First, the related term candidate information acquisition unit 21 indicates a single noun or the like from a part of the cited reference information acquired by the cited reference information acquisition unit 14 in the same manner as the “related term candidate information acquisition method 1” described above. Extract information. Then, scoring indicating the possibility of being a technical term is performed for each single noun and the like, and information indicating a single noun or the like given a high score is acquired as related term candidate information. Here, a plurality of types are known as methods for assigning scores.

(造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。
(Scoring based on word-making ability)
The word-making ability is a scale indicating the ease of composing a single noun compound word. A high score is given to information indicating a single noun including a noun with high word-making ability. Here, the connection frequency may be used as an index indicating the word-making ability. The concatenation frequency is the number of different words connected to a certain word and the number of types of words appearing immediately before or after a certain word. That is, the articulation frequency is a scale indicating how many words are easily included in a compound noun, in other words, how easy it is to compose a compound noun. In this way, a score can be given to each single noun or the like based on the coined word ability. In compound nouns, a geometric mean of the scores of single nouns that are constituent elements may be given as the score of the compound noun.

(出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)
(Scoring based on appearance frequency)
Let t be a single noun or the like of interest. The number of constituent words of t is n. In that case, the score corresponding to t is calculated as follows.
score of t = (appearance frequency of t) / (average appearance frequency of single nouns etc. where the number of words is n)

ここで、上記式中の「単名詞等」とは、関連用語候補情報取得手段21が抽出した単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度は、引用文献情報取得部14が取得した引用文献情報の一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。   Here, “single noun etc.” in the above formula is a single noun etc. extracted by the related term candidate information acquisition means 21. Here, the appearance frequency of t and the average appearance frequency of a single noun having n as the number of words are calculated in a part of the cited document information acquired by the cited document information acquiring unit 14. Note that “t appearance frequency” may be simply used as the score of t.

また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語候補情報として取得してもよい。専門用語を示す情報を関連用語候補情報として取得する方法については、上記非特許文献1、上記非特許文献3、並びに下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。   In addition, scoring may be performed using a method other than the above description, and information indicating technical terms may be acquired as related term candidate information using a method other than the above description. The method of acquiring information indicating technical terms as related term candidate information is disclosed in Non-Patent Document 1, Non-Patent Document 3, and the following documents, and has been conventionally known. Detailed description is omitted.

文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000   Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000

文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126
References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003

[関連用語候補情報の取得方法3]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。ここで、名詞のまとまりとは、1以上の単名詞を含むまとまりである。例えば、引用文献情報取得部14が取得した引用文献情報の一部が、次に示されるような特許出願書類の請求項であったとする。
[Method 3 of obtaining related term candidate information]
The related term candidate information acquisition unit 21 analyzes a part of the structure of the cited document information acquired by the cited document information acquisition unit 14 to identify a group of nouns, and finds a single noun included in the identified group of nouns. The information shown may be acquired as related term candidate information. Here, the group of nouns is a group including one or more single nouns. For example, it is assumed that a part of the cited document information acquired by the cited document information acquiring unit 14 is a claim of a patent application document as shown below.

『操作手段によりアクチュエータを駆動して所望の作業を行う作業機において,前記作業の作業機構に作成する負荷を検出する負荷検出手段と,この負荷検出手段の検出値に応じた周波数の信号を出力する第1の周波数変換器と,当該負荷検出手段の検出値に応じた周波数のパルスを出力する第2の周波数変換器と,前記第1の周波数変換器から出力される信号を前記第2の周波数変換器からのパルスの出力期間だけ間欠的に出力する変調手段と,この変調手段の出力に応じて振動を発生する振動発生手段とを設けたことを特徴とする作業機の操作用仮想振動生成装置。』   “In a working machine that drives an actuator by an operation means to perform a desired work, a load detection means for detecting a load created in the work mechanism of the work and a signal of a frequency corresponding to a detection value of the load detection means are output. A first frequency converter, a second frequency converter for outputting a pulse having a frequency corresponding to a detection value of the load detecting means, and a signal output from the first frequency converter as the second frequency converter. A virtual vibration for operating a work machine, characterized by comprising a modulation means for intermittently outputting only a pulse output period from the frequency converter and a vibration generating means for generating a vibration in accordance with the output of the modulation means Generator. ]

請求項では、一般に次のような構造的特徴が存在する。一つ目は、請求項の末尾に「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機の操作用仮想振動生成装置」がその名詞のまとまりに該当する。二つ目は、「において、」や「であって、」などの文字列によって請求項が前半部と後半部に分割される場合に、「において、」や「であって、」の直前にも、末尾と同様の「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機」がその名詞のまとまりに該当する。したがって、関連用語候補情報取得手段21は、請求項の末尾の名詞のまとまりと、「において、」等の直前の名詞のまとまりとを取得し、それらの名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、「において、」等の直前の名詞のまとまりの場所を、「において、」等を手がかり句として特定することができる。ここでは、特許出願書類の請求項について説明したが、それ以外の構造が設定されている文書においても、同様にして名詞のまとまりを特定することができ、関連用語候補情報を取得することができる。   The claims generally have the following structural features: The first feature is that there is a “group of nouns” at the end of the claim. In the above example, “virtual vibration generating device for operating a work machine” corresponds to the group of nouns. Secondly, when the claim is divided into the first half and the second half by a character string such as “in” or “and”, immediately before “in” or “in” Is also characterized by the existence of a “group of nouns” similar to that at the end. In the above example, “work machine” corresponds to a group of the nouns. Therefore, the related term candidate information acquisition means 21 acquires a group of nouns at the end of the claim and a group of immediately preceding nouns such as “in”, and indicates single nouns included in the group of these nouns. Information may be acquired as related term candidate information. The related term candidate information acquisition means 21 can specify the location of a group of immediately preceding nouns such as “in” and “in” as a clue phrase. Although claims of patent application documents have been described here, a group of nouns can be specified in a similar manner in documents with other structures, and related term candidate information can be acquired. .

なお、文書の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を取得する方法については、下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。   In addition, a method for analyzing a document structure, specifying a group of nouns, and acquiring information indicating a single noun included in the specified group of nouns is disclosed in the following documents, and has been disclosed in the past. Therefore, detailed description thereof is omitted.

文献:新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年
文献:特開2004−164054号公報
References: Akihiro Niimori, Manabu Okumura, Yuzo Marukawa, Makoto Iwayama, “Structural analysis of patent claims using clue phrases”, Transactions of Information Processing Society of Japan, Vol. 45, no. 3, p. 891-905, 2004 Document: Japanese Patent Application Laid-Open No. 2004-164054.

なお、関連用語候補情報取得手段21は、頻出する一般的な名詞等を示す情報を、関連用語候補情報から除外してもよい。例えば、関連用語候補情報取得手段21は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、関連用語候補情報として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語候補情報から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。   The related term candidate information acquisition unit 21 may exclude information indicating common nouns that frequently appear from the related term candidate information. For example, the related term candidate information acquisition unit 21 holds one or more pieces of information indicating nouns to be excluded in a recording medium (not shown), and indicates the nouns to be excluded in the information acquired as the related term candidate information. When any of the information is included, the information may be excluded from the related term candidate information. Examples of nouns to be excluded are methods, descriptions, publications, literatures, and the like.

関連度算出手段22は、関連用語候補情報取得手段21が取得した関連用語候補情報の示す用語の関連度を、関連用語候補情報ごとに算出する。関連度算出手段22は、その算出した関連度と、関連用語候補情報取得手段21が取得した関連用語候補情報とを対応付けて図示しない記録媒体に蓄積してもよい。   The degree-of-association calculating unit 22 calculates the degree of association of terms indicated by the related term candidate information acquired by the related term candidate information acquiring unit 21 for each related term candidate information. The degree-of-association calculating unit 22 may store the calculated degree of association in association with the related term candidate information acquired by the related term candidate information acquiring unit 21 in a recording medium (not shown).

ここで、関連度の算出方法について説明する。関連度算出手段22は、関連用語候補情報の関連度を、その関連用語候補情報の示す用語が、引用文献情報取得部14が取得した引用文献情報の一部(なお、引用文献情報の一部が1以上取得されている場合には、それらの集合)に出現する頻度としてもよい。また、関連度算出手段22は、各関連用語候補情報について、「関連用語候補情報の取得方法2」で説明した、専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。なお、この場合において、関連用語候補情報取得手段21においてスコアがすでに算出されている場合には、関連度算出手段22は、そのスコアを関連用語候補情報取得手段21から取得してもよく、あるいは、新たにスコアの算出を行ってもよい。したがって、関連度算出手段22による関連度の算出には、関連度の取得を含むものとする。また、関連度算出手段22は、関連用語候補情報の示す用語の出現頻度と、上記のスコアとの両方を用いて関連度を算出してもよい。例えば、その両者を加算して関連度を算出してもよく、その両者を乗算して関連度を算出してもよい。   Here, a method for calculating the degree of association will be described. The degree-of-relevance calculating means 22 indicates the degree of relevance of the related term candidate information, and the term indicated by the related term candidate information is a part of the cited reference information acquired by the cited reference information acquisition unit 14 (a part of the cited reference information). If one or more is acquired, it may be the frequency of appearing in the set). In addition, the degree-of-relevance calculation unit 22 calculates, for each related term candidate information, a score indicating the possibility of being a technical term described in “Related Term Candidate Information Acquisition Method 2”, for example, a score based on word-making ability, appearance frequency Or a score based on the connection frequency may be calculated, and the score may be used as the relevance level. In this case, when the score is already calculated in the related term candidate information acquisition unit 21, the relevance degree calculation unit 22 may acquire the score from the related term candidate information acquisition unit 21, or A new score may be calculated. Accordingly, the calculation of the degree of association by the degree-of-relevance calculation unit 22 includes acquisition of the degree of association. The degree-of-association calculating unit 22 may calculate the degree of association using both the appearance frequency of the term indicated by the related term candidate information and the score. For example, the degree of association may be calculated by adding the two, or the degree of association may be calculated by multiplying the two.

関連用語情報決定手段23は、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を、関連用語情報に決定する。関連用語情報決定手段23は、例えば、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位から一定数量(例えば、30個等)、あるいは一定割合(例えば、30%等)の関連用語候補情報を関連用語情報に決定してもよく、対応する関連度が所定のしきい値以上の関連用語候補情報を関連用語情報に決定してもよく、あるいは、その他の方法により、対応する関連度が上位の関連用語候補情報を関連用語情報に決定してもよい。より具体的には、関連用語情報決定手段23は、関連度算出手段22が算出した関連度をソートし、そのソートした関連度の上位に対応する関連用語候補情報を選択して、図示しない記録媒体に関連用語情報として蓄積することによって、関連用語情報の決定を行う。この図示しない記録媒体に蓄積された関連用語情報が、関連用語情報出力部16によって出力される関連用語情報である。関連用語情報決定手段23は、関連用語情報を図示しない記録媒体に蓄積してもよい。この場合には、その蓄積された関連用語情報が関連用語情報出力部16によって読み出され、出力されることになる。   The related term information determining unit 23 determines related term candidate information having a higher related degree as related term information among the related term candidate information acquired by the related term candidate information acquiring unit 21. For example, the related term information determining unit 23 has a certain number of related terms (for example, 30) from the top of the related term candidate information acquired by the related term candidate information acquiring unit 21 or a certain ratio (for example, (30% etc.) related term candidate information may be determined as related term information, and related term candidate information whose corresponding degree of association is a predetermined threshold value or more may be determined as related term information, or other According to the method, related term candidate information having a higher corresponding degree of association may be determined as related term information. More specifically, the related term information determination unit 23 sorts the relevance level calculated by the relevance level calculation unit 22, selects related term candidate information corresponding to a higher rank of the sorted relevance level, and records it (not shown). The related term information is determined by accumulating the related term information on the medium. The related term information stored in the recording medium (not shown) is the related term information output by the related term information output unit 16. The related term information determining means 23 may store the related term information in a recording medium (not shown). In this case, the stored related term information is read and output by the related term information output unit 16.

次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。図3は、関連用語取得装置1の全体動作を示すフローチャートである。   Next, operation | movement of the related vocabulary acquisition apparatus 1 by this Embodiment is demonstrated using a flowchart. FIG. 3 is a flowchart showing the overall operation of the related term acquisition device 1.

(ステップS101)用語情報受付部12は、用語情報を受け付けたかどうか判断する。そして、用語情報を受け付けた場合には、ステップS102に進み、そうでない場合には、用語情報を受け付けるまで、ステップS101の処理を繰り返す。   (Step S101) The term information receiving unit 12 determines whether term information has been received. If the term information is accepted, the process proceeds to step S102. If not, the process of step S101 is repeated until the term information is accepted.

(ステップS102)文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、またはその検索された文献情報の一部であって、その検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を文献情報記憶部11から取得する。この処理の詳細については、図4のフローチャートを用いて後述する。   (Step S <b> 102) The document information acquisition unit 13 stores two or more document information that is stored in the document information storage unit 11 with document information having the term indicated by the term information received by the term information receiving unit 12 in all or part of the document information. A cited document that is searched from the document information and is information that identifies all of the retrieved document information or a part of the retrieved document information and identifies other documents cited in the retrieved document information. A part having at least identification information is acquired from the document information storage unit 11. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS103)引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する。この処理の詳細については、図5のフローチャートを用いて後述する。   (Step S <b> 103) The cited document information obtaining unit 14 obtains cited document information that is information indicating a document identified by cited document identification information included in all or part of the document information obtained by the document information obtaining unit 13. A search is performed from two or more pieces of document information stored in the storage unit 11, and a part of the retrieved cited document information that corresponds to a predetermined item is acquired from the document information storage unit 11. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS104)関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する。この処理の詳細については、図6のフローチャートを用いて後述する。   (Step S104) The related term information acquisition unit 15 indicates information related to a term related to the term indicated by the term information received by the term information reception unit 12 from a part of the cited reference information acquired by the cited reference information acquisition unit 14. Get related term information. Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS105)関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S105) The related term information output unit 16 outputs the related term information acquired by the related term information acquisition unit 15. Then, the process returns to step S101.
In the flowchart of FIG. 3, the process ends when the power is turned off or the process is terminated.

図4は、図2のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートである。
(ステップS201)文献情報取得部13は、用語情報受付部12で受け付けられた用語情報を全部または一部に含む文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。
FIG. 4 is a flowchart showing details of the document information acquisition process in step S102 in the flowchart of FIG.
(Step S <b> 201) The document information acquisition unit 13 searches for document information including all or part of the term information received by the term information receiving unit 12 from two or more document information stored in the document information storage unit 11. .

(ステップS202)文献情報取得部13は、カウンタiを1に設定する。
(ステップS203)文献情報取得部13は、ステップS201で検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS204に進み、存在しない場合には、一連の処理は終了となり、図3のフローチャートのステップS103に進む。
(Step S202) The literature information acquisition unit 13 sets the counter i to 1.
(Step S203) The document information acquisition unit 13 determines whether or not the i-th document information searched in step S201 exists. If it exists, the process proceeds to step S204. If it does not exist, the series of processing ends, and the process proceeds to step S103 in the flowchart of FIG.

(ステップS204)文献情報取得部13は、検索されたi番目の文献情報の全部または一部を取得する。検索されたi番目の文献情報の一部を取得する場合には、前述のように、引用文献識別情報を少なくとも含む部分を取得するものとする。なお、検索されたi番目の文献情報において、引用文献識別情報が全く含まれない場合には、文献情報取得部13は、何も取得しなくてもよい。
(ステップS205)文献情報取得部13は、カウンタiを1だけインクリメントして、ステップS203に戻る。
(Step S204) The document information acquisition unit 13 acquires all or part of the searched i-th document information. When a part of the searched i-th document information is acquired, as described above, a part including at least the cited document identification information is acquired. Note that in the searched i-th document information, when the cited document identification information is not included at all, the document information acquisition unit 13 does not need to acquire anything.
(Step S205) The literature information acquisition unit 13 increments the counter i by 1, and returns to Step S203.

図5は、図2のフローチャートにおけるステップS103の引用文献情報の取得処理の詳細について示すフローチャートである。
(ステップS301)引用文献情報取得部14は、カウンタiを1に設定する。
FIG. 5 is a flowchart showing details of the cited document information acquisition process in step S103 in the flowchart of FIG.
(Step S301) The cited document information acquisition unit 14 sets the counter i to 1.

(ステップS302)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS303に進み、存在しない場合には、一連の処理は終了となり、図2のフローチャートのステップS104に進む。   (Step S302) The cited document information acquisition unit 14 determines whether or not the i-th document information acquired by the document information acquisition unit 13 exists. If it exists, the process proceeds to step S303. If it does not exist, the series of processing ends, and the process proceeds to step S104 in the flowchart of FIG.

(ステップS303)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報を取得する。
(ステップS304)引用文献情報取得部14は、カウンタjを1に設定する。
(Step S303) The cited document information acquisition unit 14 acquires all the cited document identification information included in the i-th document information acquired by the document information acquisition unit 13.
(Step S304) The cited document information acquisition unit 14 sets the counter j to 1.

(ステップS305)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS307に進み、存在しない場合には、ステップS306に進む。
(ステップS306)引用文献情報取得部14は、カウンタiを1だけインクリメントする。そして、ステップS302に戻る。
(Step S305) The cited document information acquisition unit 14 determines whether or not the j-th cited document identification information acquired in step S303 exists. If it exists, the process proceeds to step S307. If it does not exist, the process proceeds to step S306.
(Step S306) The cited document information acquisition unit 14 increments the counter i by one. Then, the process returns to step S302.

(ステップS307)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報のあらかじめ決められている部分を文献情報記憶部11から取得する。   (Step S307) The cited document information acquisition unit 14 searches the document information storage unit 11 for cited document information identified by the j-th cited document identification information acquired in step S303, and obtains the retrieved cited document information in advance. The determined part is acquired from the document information storage unit 11.

(ステップS308)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部がすでに取得されたものであるかどうか判断する。そして、すでに取得されたものである場合には、ステップS310に進み、そうでない場合には、ステップS309に進む。   (Step S308) The cited document information acquisition unit 14 determines whether a part of the cited document information acquired in step S307 has already been acquired. If it has already been acquired, the process proceeds to step S310. If not, the process proceeds to step S309.

(ステップS309)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部を一時的に記憶する。このステップS309において追記されていく引用文献情報の一部が、最終的に引用文献情報取得部14によって取得された引用文献情報の一部となる。
(ステップS310)引用文献情報取得部14は、カウンタjを1だけインクリメントする。そして、ステップS305に戻る。
(Step S309) The cited document information acquisition unit 14 temporarily stores a part of the cited document information acquired in step S307. A part of the cited document information that is additionally written in step S309 becomes a part of the cited document information finally acquired by the cited document information acquiring unit 14.
(Step S310) The cited document information acquisition unit 14 increments the counter j by 1. Then, the process returns to step S305.

図6は、図2のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートである。
(ステップS401)関連用語候補情報取得手段21は、引用文献情報取得部14によって取得された引用文献情報の一部(引用文献情報の一部が2以上取得されている場合には、その引用文献情報の一部の2以上の集合)、すなわち、ステップS309において一時的に記憶された引用文献情報の一部から関連用語候補情報を取得する。
FIG. 6 is a flowchart showing details of the related term information acquisition processing in step S104 in the flowchart of FIG.
(Step S401) The related term candidate information acquisition unit 21 obtains a part of the cited document information acquired by the cited document information acquisition unit 14 (if two or more of the cited document information are acquired, the cited document). Related term candidate information is acquired from a part of the cited document information temporarily stored in step S309.

(ステップS402)関連度算出手段22は、カウンタiを1に設定する。
(ステップS403)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS404に進み、存在しない場合には、ステップS407に進む。
(Step S402) The relevance calculation means 22 sets the counter i to 1.
(Step S403) The degree-of-association calculating unit 22 determines whether or not the i-th related term candidate information acquired from a part of the cited document information by the related term candidate information acquiring unit 21 exists. If it exists, the process proceeds to step S404. If it does not exist, the process proceeds to step S407.

(ステップS404)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報の関連度を算出する。   (Step S404) The degree-of-association calculating unit 22 calculates the degree of association of the i-th related term candidate information acquired from a part of the cited document information by the related term candidate information acquiring unit 21.

(ステップS405)関連用語情報決定手段23は、ステップS404で算出された関連度を、対応する関連用語候補情報に対応付けて一時記憶する。ここで、ステップS404で算出された関連度に対応する関連用語候補情報とは、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報のことである。   (Step S405) The related term information determination unit 23 temporarily stores the degree of association calculated in step S404 in association with the corresponding related term candidate information. Here, the related term candidate information corresponding to the degree of relevance calculated in step S404 is the i-th related term candidate information acquired from a part of the cited document information by the related term candidate information acquiring unit 21. .

(ステップS406)関連度算出手段22は、カウンタiを1だけインクリメントする。そして、ステップS403に戻る。
(ステップS407)関連用語情報決定手段23は、ステップS405で一時記憶した関連度をソートする。
(Step S406) The relevance calculation means 22 increments the counter i by 1. Then, the process returns to step S403.
(Step S407) The related term information determination means 23 sorts the relevance level temporarily stored in step S405.

(ステップS408)関連用語情報決定手段23は、ステップS407でソートした上位の関連度に対応する関連用語候補情報を、関連用語情報に決定する。そして、一連の処理は終了となり、図2のフローチャートのステップS105に進む。   (Step S408) The related term information determining means 23 determines related term candidate information corresponding to the higher related degree sorted in step S407 as related term information. Then, the series of processing ends, and the process proceeds to step S105 in the flowchart of FIG.

次に、本実施の形態による関連用語取得装置1によって得られる具体的な効果を示す実験例について説明する。この実験例では、文献情報取得部13が取得する文献情報は学術論文であるとする。一方、引用文献情報取得部14が取得する引用文献情報は特許に関する文献情報であるとする。したがって、関連用語取得装置1に学術論文用語を示す用語情報を入力することにより、その学術論文用語に関連する特許用語を示す関連用語情報が出力されることになる。ここで、学術論文用語とは、学術論文において比較的多く用いられる用語(例えば、DRAMやワードプロセッサなどの具体的な下位の用語)であり、特許用語とは、特許書類において比較的多く用いられる用語(例えば、半導体記憶装置や文書編集装置などの抽象的な上位の用語)である。   Next, experimental examples showing specific effects obtained by the related term acquisition device 1 according to the present embodiment will be described. In this experimental example, it is assumed that the document information acquired by the document information acquisition unit 13 is an academic paper. On the other hand, it is assumed that the cited document information acquired by the cited document information acquisition unit 14 is document information related to a patent. Therefore, by inputting the term information indicating the academic paper term to the related term acquisition device 1, the related term information indicating the patent term related to the academic paper term is output. Here, academic paper terms are terms that are relatively frequently used in academic papers (for example, specific subordinate terms such as DRAM and word processor), and patent terms are terms that are relatively frequently used in patent documents. (For example, an abstract upper term such as a semiconductor storage device or a document editing device).

この実験例では、特許公開公報(1993年〜2002年)の情報が文献情報記憶部11で記憶される文献情報に含まれる。また、その特許公開公報中の引用論文の書誌情報約85000件も文献情報記憶部11で記憶される文献情報に含まれる。なお、特許公開公報から、その特許公開公報で引用されている論文の書誌情報を抽出する方法としては、次の文献で開示されている方法を用いた。   In this experimental example, the information of the patent publication (1993 to 2002) is included in the document information stored in the document information storage unit 11. Further, the bibliographic information of about 85,000 bibliographic information of cited papers in the patent publication is also included in the bibliographic information stored in the bibliographic information storage unit 11. As a method of extracting bibliographic information of a paper cited in the patent publication from the patent publication, a method disclosed in the following document was used.

文献:安善奈津美、難波英嗣、相沢輝昭、奥村学、「特許、論文データベースを統合した検索環境の構築」、情報処理学会研究報告、NL−168、p.21−26、2005年   References: Natsumi Anzen, Hideaki Namba, Teruaki Aizawa, Manabu Okumura, “Construction of a Search Environment that Integrates Patents and Article Databases”, Information Processing Society of Japan Research Report, NL-168, p. 21-26, 2005

まず、用語情報受付部12が受け付ける用語情報について説明する。文献情報記憶部11で記憶されている特許公開公報の情報から名詞を抽出する。そして、その抽出した名詞を頻度順に並べ、その頻度の高いものから論文用語25語を人手で選択する。具体的には、「CPU」、「半導体レーザ」、「DRAM」、「メモリセル」、「ワードプロセッサ」、「ノボラック樹脂」、「CD」等を選択した。   First, term information received by the term information receiving unit 12 will be described. Nouns are extracted from the information of the patent publications stored in the document information storage unit 11. Then, the extracted nouns are arranged in order of frequency, and the 25 paper terms are selected manually from those with the highest frequency. Specifically, “CPU”, “semiconductor laser”, “DRAM”, “memory cell”, “word processor”, “novolak resin”, “CD” and the like were selected.

この実験例において、引用文献情報取得部14が取得する引用文献情報の箇所のパターンは以下の通りである。   In this experimental example, the pattern of the portion of the cited document information acquired by the cited document information acquiring unit 14 is as follows.

(パターン1)引用文献の第1請求項、すなわち、特許請求の範囲の1番目に記載されている請求項を示す情報を引用文献情報の一部として取得する。   (Pattern 1) Information indicating the first claim of the cited document, that is, information indicating the claim described in the first of the claims is acquired as a part of the cited document information.

(パターン2)引用文献の全請求項、すなわち、特許請求の範囲に記載されているすべての請求項を示す情報を引用文献情報の一部として取得する。   (Pattern 2) All the claims of the cited document, that is, information indicating all claims described in the claims is acquired as a part of the cited document information.

(パターン3)引用文献の第1請求項を示す情報と、その第1請求項に従属する請求項である従属請求項を示す情報とを引用文献情報の一部として取得する。ここで、第1請求項に従属する請求項には、第1請求項に直接従属する請求項だけでなく、第1請求項に他の請求項を介して従属している請求項も含まれる。   (Pattern 3) Information indicating the first claim of the cited document and information indicating the dependent claim which is a claim subordinate to the first claim are acquired as part of the cited document information. Here, claims dependent on the first claim include not only claims directly dependent on the first claim but also claims dependent on the first claim through other claims. .

また、この実験例において、関連用語候補情報取得手段21が関連用語候補情報を取得するパターンは以下の通りである。   In this experimental example, the pattern in which the related term candidate information acquisition unit 21 acquires the related term candidate information is as follows.

(パターンA)関連用語候補情報の取得方法1で説明したように、引用文献情報の一部について形態素解析を行い、名詞を関連用語候補として取得する。   (Pattern A) As explained in the method 1 for acquiring related term candidate information, morphological analysis is performed on a part of the cited document information, and nouns are acquired as related term candidates.

(パターンB)関連用語候補情報の取得方法3で説明したように、引用文献情報の一部から名詞のまとまりを特定し、その名詞のまとまりに含まれる名詞を関連用語候補として取得する。   (Pattern B) As described in the method 3 for acquiring related term candidate information, a group of nouns is specified from a part of cited document information, and nouns included in the group of nouns are acquired as related term candidates.

なお、関連用語候補情報取得手段21は、所定の不要語句リストを用いて、その不要語句リストに含まれる語句と一致する関連用語候補を取得しないものとする。「方法」や「記載」等の用語は、分野を問わず多くの特許請求項に出現するため、そのような用語を関連用語候補から除外するためである。不要語句リストは、10年分の特許公開公報に含まれる名詞を出現頻度順に並べ、頻度の高いものの中から人手で不要語句リストに含める語句を選択した。例えば、方法、記載、発行、文献、使用、利用、詳細、製造、提案、製造方法、データ等の合計350個の不要語句が不要語句リストに含まれる。   It is assumed that the related term candidate information acquisition unit 21 does not acquire a related term candidate that matches a phrase included in the unnecessary phrase list by using a predetermined unnecessary phrase list. Terms such as “method” and “description” appear in many claims regardless of the field, so that such terms are excluded from the related term candidates. In the unnecessary word / phrase list, nouns included in the patent publications for 10 years are arranged in the order of appearance frequency, and the words / phrases to be included in the unnecessary word / phrase list are selected manually from those having the highest frequency. For example, a total of 350 unnecessary words / phrases such as method, description, publication, literature, use, use, details, manufacturing, proposal, manufacturing method, data, etc. are included in the unnecessary word / phrase list.

また、この実験例においては、引用文献情報の一部を取得することについての効果を検証するため、関連度算出手段22における関連度の算出は行わないものとする。また、関連用語情報決定手段23において、関連用語候補情報取得手段21が取得した関連用語候補情報をそのまま関連用語情報に決定するものとする。   Further, in this experimental example, in order to verify the effect of acquiring a part of the cited document information, the relevance calculation means 22 does not calculate the relevance. The related term information determining unit 23 determines the related term candidate information acquired by the related term candidate information acquiring unit 21 as the related term information as it is.

このような状況の下、上述の25個の各用語情報を用語情報受付部12が受け付け、その用語情報に関連する関連用語情報を関連用語情報出力部16が出力するまでの処理を実行した。関連用語情報出力部16は、関連用語情報を所定の記録媒体に蓄積するものとする。その後、その関連用語情報を用いて、検証を行った。   Under such circumstances, the term information receiving unit 12 receives each of the 25 pieces of term information described above, and a process is executed until the related term information output unit 16 outputs related term information related to the term information. The related term information output unit 16 accumulates related term information in a predetermined recording medium. After that, the related term information was used for verification.

この検証では、以下の基準により、関連用語情報の正否の判定を行った。
(基準1)概念的に最も近い用語のみ正解
例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」を正解とし、ワードプロセッサの構成要素である関連用語情報「表示装置」は不正解とした。
In this verification, whether the related term information is correct or not was determined according to the following criteria.
(Criteria 1) Only the term that is conceptually closest is correct. For example, for the term information “word processor”, the related term information “document editing device” is correct, and the related term information “display device” that is a component of the word processor is not correct. The answer was correct.

(基準2)特許データベース中の出現頻度
ある用語の出現頻度が特許データベース中で極端に低い場合は、その用語は特許の関連用語の取得を行う上で有用でないと考え、不正解とした。
(Criteria 2) Frequency of appearance in patent database When the frequency of occurrence of a certain term is extremely low in the patent database, the term is considered to be inaccurate because it is not useful for acquiring related terms of the patent.

(基準3)基準1で選択されたものとの比較
ある用語が上記(基準2)を満たさない場合でも、その用語が上記(基準1)で選択されたものと概念的にほぼ等しいと判断される場合には、低頻度でも正解とした。例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」と概念的にほぼ等しい関連用語情報「文書作成装置」も正解であるとした。「レーザ」と「レーザー」のような表記のゆれについても、一方の関連用語情報が正解と判定されていれば、もう一方も正解とした。
(Criteria 3) Comparison with the one selected in Criteria 1 Even if a term does not meet the above (Criteria 2), it is judged that the term is conceptually almost equal to the one selected in (Criteria 1) above. The answer was correct even at low frequency. For example, for the term information “word processor”, the related term information “document creation device” conceptually substantially equivalent to the related term information “document editing device” is also correct. Regarding fluctuations of notation such as “laser” and “laser”, if one related term information is determined to be correct, the other is also correct.

また、この検証では、次式の評価尺度εを用いた。これは、質問応答システムの評価において一般的に用いられるMRR(mean reciprocal rank)を拡張したものであり、次の文献で開示されている。   In this verification, the following evaluation scale ε was used. This is an extension of MRR (mean reprocratic rank) generally used in the evaluation of question answering systems, and is disclosed in the following document.

文献:清田陽司、黒橋禎夫、木戸冬子、「自動抽出した換喩表現を用いた係り受け関係のずれの解消」、自然言語処理、Vol.11、No.4、p.127−145、2004年

Figure 0005463494
Literature: Yoji Kiyota, Ikuo Kurohashi, Toko Kido, “Resolving Dependency Displacement Using Automatically Extracted Metaphor Expressions”, Natural Language Processing, Vol. 11, no. 4, p. 127-145, 2004
Figure 0005463494

ここで、nは入力に対する正解の数である。Rは出力されたリスト中の正解順位番号の集合である。εは正解がすべて最上位に順位付けされたときに、最大値1をとる。   Here, n is the number of correct answers for the input. R is a set of correct answer rank numbers in the output list. ε takes a maximum value of 1 when all correct answers are ranked at the top.

図7は、この実験例の結果を示す表である。図7において、IDは、各実験例を識別するために設定されている。ID6の実験例は、他の実験例でのベースラインとなる実験例であり、用語情報と高頻度で共起する名詞を抽出し、その名詞を関連用語としたものである。このベースラインとなるID6の実験例が、従来からの関連用語の取得において用いられている手法である。図7の表からわかるように、ID1の実験例とID2の実験例とを比較すると、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が優れていることがわかる。また、ID3の実験例と、ID4の実験例とを比較すると、やはり単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が勝っている。このことから、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得することが有効であることがわかる。   FIG. 7 is a table showing the results of this experimental example. In FIG. 7, ID is set to identify each experimental example. The experimental example of ID6 is an experimental example serving as a baseline in the other experimental examples, in which nouns that co-occur with the term information at a high frequency are extracted and the nouns are used as related terms. The experimental example of ID6 serving as the baseline is a method used in acquiring related terms from the past. As can be seen from the table in FIG. 7, when comparing the experimental example of ID1 and the experimental example of ID2, it is better not only to acquire a noun but also to acquire a noun from a group of nouns in the claims. Recognize. Moreover, when comparing the experimental example of ID3 and the experimental example of ID4, it is better not only to acquire a noun but also to acquire a noun from a group of nouns in the claims. From this, it is understood that it is effective not only to acquire a noun but also to acquire a noun from a group of nouns in the claims.

次に、請求項間の関係を考慮することが有効であるかどうかについて検討する。ID2,4,5の実験結果を比較すると、第1請求項とその従属請求項を用いたID5の実験結果が最もすぐれており、第1請求項しか用いないID2の実験結果が最も悪い結果となった。ID2の実験結果が悪い原因は、引用文献の一部を取得する箇所の制限が強すぎ、ノイズが減るだけでなく、取得できた正解数も減ったことである。全請求項を使ったID3の実験例は、ID2の実験例と比べると抽出できた正解の数は大きいものの、不正解のものも数多く抽出してしまっているため、ID5の実験例に劣る結果となっている。   Next, it is examined whether it is effective to consider the relationship between claims. Comparing the experimental results of IDs 2, 4, and 5, the experimental result of ID5 using the first claim and its dependent claims is the best, and the experimental result of ID2 using only the first claim is the worst result. became. The reason why the experimental result of ID2 is bad is that the restriction on the part from which a part of the cited document is acquired is too strong, not only noise is reduced, but also the number of correct answers that can be acquired is reduced. The ID3 experiment example using all the claims has a larger number of correct answers than the ID2 experiment example, but a large number of incorrect answers have been extracted, resulting in inferior results to the ID5 experiment example. It has become.

各手法において、1つの特許公開公報から名詞を抜き出す際に、請求項をいくつ用いているのか調べたところ、図8で示される結果となった。ID5の実験例は、ID4の実験例と比べて取得対象となる請求項の数が4割未満であるにもかかわらず、精度がID4の実験例よりも高くなっていることから、第1請求項とその従属請求項内に高い確率で正解が含まれていることがわかる。   In each method, when extracting nouns from one patent publication gazette, the number of claims used was examined, and the result shown in FIG. 8 was obtained. The ID5 experiment example has a higher accuracy than the ID4 experiment example even though the number of claims to be acquired is less than 40% compared to the ID4 experiment example. It can be seen that the correct answer is included in the term and its dependent claims with high probability.

以上のように、本実施の形態による関連用語取得装置1によれば、引用文献情報の一部を取得することによって、効果的な関連用語情報の取得を行うことができうる。したがって、受け付けられた用語情報に関連する関連用語情報を適切に取得することができる関連用語取得装置1を提供することができる。   As described above, according to the related term acquisition device 1 according to the present embodiment, it is possible to acquire effective related term information by acquiring a part of the cited document information. Therefore, the related term acquisition device 1 that can appropriately acquire the related term information related to the accepted term information can be provided.

なお、引用文献情報取得部14が取得する引用文献情報の一部は、関連用語情報を適切に取得できる部分であれば、どのような部分であってもよい。例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、独立請求項の部分であってもよい。独立請求項とは、他の請求項に従属しない請求項のことである。引用文献情報取得部14は、ある請求項が独立請求項であるかどうかを、例えば、次のようにして判断してもよい。引用文献情報取得部14は、注目している請求項に他の請求項を参照する記載、すなわち、「請求項N」の記載が存在するかどうか判断し、存在する場合には、その注目している請求項が独立請求項でないと判断し、存在しない場合には、その注目している請求項が独立請求項であると判断する。ここで、「N」は1以上の任意の整数である。また、例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、発明の効果を記載している部分であってもよい。発明の効果を記載している部分は、例えば、項目「発明の効果」に対応する部分であってもよく、文書の内容から発明の効果が記載されていると判断される部分であってもよい。後者の場合に、その発明の効果を記載している部分を特定する方法としては、例えば、「以上のように」か「このように」から始まり、「効果」、「可能」、「できる」のいずれかの言葉が含まれているパラグラフを発明の効果を記載している部分として特定する方法などがある。また、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、請求項の前提部以外の部分であってもよい。請求項の前提部とは、請求項のいわゆるプリアンブルと呼ばれる部分であって、一般に、請求項中の「において」や「であって」よりも以前に記載される部分である。したがって、請求項の前提部以外の部分とは、請求項の特徴的な記載のなされている部分であって、一般に、請求項中の「において」や「であって」よりも後に記載されている部分である。請求項にプリアンブルが記載されていない場合には、請求項の全体が前提部以外の部分となる。   The cited document information acquired by the cited document information acquiring unit 14 may be any part as long as the related term information can be appropriately acquired. For example, the cited document information is information indicating a patent document, and the portion of the cited document information corresponding to the predetermined item acquired by the cited document information acquisition unit 14 may be a part of an independent claim. . An independent claim is a claim that is not dependent on other claims. The cited document information acquisition unit 14 may determine whether a certain claim is an independent claim, for example, as follows. The cited document information acquisition unit 14 determines whether or not there is a description referring to another claim, that is, the description of “Claim N” in the claim of interest. It is determined that the current claim is not an independent claim, and if it does not exist, it is determined that the current claim is an independent claim. Here, “N” is an arbitrary integer of 1 or more. Further, for example, the cited document information is information indicating a patent document, and the cited document information part corresponding to a predetermined item acquired by the cited document information acquiring unit 14 describes the effect of the invention. It may be a part. The portion describing the effect of the invention may be, for example, a portion corresponding to the item “effect of the invention” or a portion where it is determined from the contents of the document that the effect of the invention is described. Good. In the latter case, for example, as a method for specifying the portion describing the effect of the invention, it starts with “as above” or “like this”, and “effect”, “possible”, “can” There is a method of specifying a paragraph including any of the above words as a part describing the effect of the invention. The cited document information is information indicating a patent document, and the cited document information part corresponding to the predetermined item acquired by the cited document information acquisition unit 14 is a part other than the premise part of the claims. May be. The premise part of a claim is a part called a so-called preamble of the claim, and is generally a part described before “in” or “being” in the claim. Therefore, the part other than the premise part of the claim is a part where the characteristic description of the claim is made, and is generally described after “in” or “being” in the claim. It is a part. When the preamble is not described in the claim, the entire claim is a part other than the premise part.

(実施の形態2)
本発明の実施の形態2による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、引用文献構造情報取得部をさらに備えたものである。
(Embodiment 2)
A related term acquisition apparatus according to Embodiment 2 of the present invention will be described with reference to the drawings. The related term acquisition device according to the present embodiment further includes a cited document structure information acquisition unit.

図9は、本実施の形態による関連用語取得装置2の構成を示すブロック図である。図9において、本実施の形態による関連用語取得装置2は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16と、引用文献構造情報取得部31とを備える。引用文献構造情報取得部31以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。   FIG. 9 is a block diagram showing the configuration of the related term acquisition device 2 according to this embodiment. In FIG. 9, the related term acquisition device 2 according to the present embodiment includes a document information storage unit 11, a term information reception unit 12, a document information acquisition unit 13, a cited document information acquisition unit 14, and a related term information acquisition unit. 15, a related term information output unit 16, and a cited document structure information acquisition unit 31. Configurations and operations other than the cited document structure information acquisition unit 31 are the same as those in the first embodiment, and a description thereof will be omitted.

引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報の1以上の部分と、その部分の項目との対応を示す情報である引用文献構造情報を取得する。引用文献構造情報は、項目と、その項目に対応する引用文献情報の部分とを対応付けることができる情報であれば、その情報の構造は問わない。例えば、引用文献構造情報は、タグによって項目と、その項目に対応する部分とを示してもよい。すなわち、引用文献情報において、<効果>と、</効果>とで挟まれた領域が、項目「効果」に対応する部分であってもよい。この場合には、引用文献構造情報は、文献情報記憶部11で記憶されてもよい。また、例えば、引用文献構造情報は、項目「効果」に対応付けて、その項目「効果」に対応する引用文献情報の部分を示す情報を有してもよい。この場合には、引用文献構造情報は、文献情報記憶部11で引用文献情報に対応付けられて保持されてもよく、あるいは、引用文献構造情報取得部31や他の構成要素が有する図示しない記録媒体において保持されてもよい。後者の場合には、引用文献識別情報に対応付けて引用文献構造情報を保持することが好適である。引用文献情報の部分を示す情報とは、例えば、引用文献情報の部分の先端の位置と、後端の位置とを示す情報であってもよい。先端や後端の位置は、例えば、引用文献情報の先端からのバイト数で示されてもよく、あるいは、ページ数と行数などで示されてもよい。   The cited document structure information acquisition unit 31 acquires cited document structure information that is information indicating correspondence between one or more parts of the cited document information stored in the document information storage unit 11 and items of the parts. If the cited document structure information is information that can associate an item with the portion of the cited document information corresponding to the item, the structure of the information is not limited. For example, the cited document structure information may indicate an item by a tag and a portion corresponding to the item. That is, in the cited document information, a region sandwiched between <effect> and </ effect> may be a portion corresponding to the item “effect”. In this case, the cited document structure information may be stored in the document information storage unit 11. Further, for example, the cited document structure information may include information indicating the portion of the cited document information corresponding to the item “effect” in association with the item “effect”. In this case, the cited document structure information may be held in association with the cited document information in the document information storage unit 11, or a record (not shown) included in the cited document structure information acquisition unit 31 and other components. It may be held in a medium. In the latter case, it is preferable to store the cited document structure information in association with the cited document identification information. The information indicating the cited document information part may be, for example, information indicating the position of the leading end and the position of the trailing end of the cited document information part. The positions of the leading edge and the trailing edge may be indicated by the number of bytes from the leading edge of the cited document information, or may be indicated by the number of pages and the number of lines, for example.

ここで、引用文献構造情報取得部31がある項目に対応する部分をどのように特定するのかについて説明する。例えば、引用文献構造情報取得部31は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、その条件情報に対応する引用文献情報の部分を特定し、その部分に項目を対応付けることによって引用文献構造情報を取得する。例えば、項目「効果」に対応する条件情報が、「以上のように」か「このように」からパラグラフが始まり、そのパラグラフに「効果」、「可能」、「できる」のいずれかの言葉が含まれていることであるとする。すると、引用文献構造情報取得部31は、その条件にあうパラグラフを特定し、そのパラグラフを項目「効果」に対応付けることによって引用文献構造情報を取得することができる。また、例えば、項目「請求項の特徴的記載」に対応する条件情報が、請求項に含まれている部分であって、「であって」や「において」に続く部分であり、句点「。」で終わる部分であるとする。すると、引用文献構造情報取得部31は、その条件にあう部分を特定し、その部分を項目「請求項の特徴的記載」に対応付けることによって引用文献構造情報を取得することができる。なお、請求項の特徴的記載を取得する方法などについては、前述の文献『新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年』に記載されている。   Here, how the cited document structure information acquisition unit 31 specifies a part corresponding to an item will be described. For example, the cited document structure information acquisition unit 31 holds condition information indicating conditions corresponding to each item to be specified in a recording medium (not shown). Then, the portion of the cited document information corresponding to the condition information is specified, and the cited document structure information is acquired by associating the item with the portion. For example, the condition information corresponding to the item “effect” starts with a paragraph starting with “as above” or “like this”, and the word “effect”, “possible”, or “can” is included in the paragraph. Suppose that it is included. Then, the cited document structure information acquisition part 31 can acquire the cited document structure information by specifying the paragraph which meets the conditions and associating the paragraph with the item “effect”. In addition, for example, the condition information corresponding to the item “characteristic description of claim” is a part included in the claim, which is a part following “is” or “in”, and a punctuation mark “. ”. Then, the cited document structure information acquisition unit 31 can acquire the cited document structure information by specifying a portion that satisfies the condition and associating the portion with the item “characteristic description of claim”. As for the method of obtaining the characteristic description of claims, the above-mentioned literature “Akihiro Niimori, Manabu Okumura, Yuzo Marukawa, Makoto Iwayama,“ Structural analysis of patent claims using clue phrases ”, Information Processing Society of Japan Journal, Vol. 45, no. 3, p. 891-905, 2004 ”.

次に、本実施の形態による関連用語取得装置2の全体動作について、図10のフローチャートを用いて説明する。なお、ステップS501、S502以外の処理は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。ただし、ステップS103において、引用文献情報取得部14は、引用文献構造情報取得部31が取得した引用文献構造情報を用いて、引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得するものとする。   Next, the overall operation of the related term acquisition apparatus 2 according to the present embodiment will be described using the flowchart of FIG. The processes other than steps S501 and S502 are the same as those in the flowchart of FIG. 3 of the first embodiment, and the description thereof is omitted. However, in step S103, the cited document information acquisition unit 14 uses the cited document structure information acquired by the cited document structure information acquisition unit 31 and corresponds to a predetermined item that is part of the cited document information. The part to be acquired shall be acquired.

(ステップS501)引用文献構造情報取得部31は、引用文献構造情報をすでに取得しているかどうか判断する。そして、取得していない場合には、ステップS502に進み、すでに取得している場合には、ステップS102に進む。   (Step S501) The cited document structure information acquisition unit 31 determines whether or not the cited document structure information has already been acquired. If it has not been acquired, the process proceeds to step S502. If it has already been acquired, the process proceeds to step S102.

(ステップS502)引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報のすべてについて、引用文献構造情報を取得する。ここで、文献情報記憶部11で記憶されている文献情報のうち、いずれが引用文献情報であるのかについては、文献情報を取得するまではわからないため、引用文献構造情報取得部31は、文献情報記憶部11で記憶されているすべての文献情報について引用文献構造情報を取得するものとする。   (Step S502) The cited document structure information acquisition unit 31 acquires the cited document structure information for all of the cited document information stored in the document information storage unit 11. Here, among the document information stored in the document information storage unit 11, which is cited document information is unknown until the document information is acquired. It is assumed that cited document structure information is acquired for all document information stored in the storage unit 11.

なお、図10のフローチャートでは、引用文献構造情報を一括して取得する場合について説明したが、ある引用文献情報の一部を取得する場合であって、その引用文献情報の引用文献構造情報がまだ取得されていない場合に、その引用文献情報の引用文献構造情報のみを取得するようにしてもよい。このようにする方が、不要な引用文献構造情報の取得を行わないこととなり、処理負荷が軽減されることになる。   In the flowchart of FIG. 10, the case where the cited document structure information is acquired collectively has been described. However, a case where a part of the cited document information is acquired, and the cited document structure information of the cited document information is not yet obtained. If it is not acquired, only the cited document structure information of the cited document information may be acquired. In this way, unnecessary cited document structure information is not acquired, and the processing load is reduced.

また、引用文献構造情報の取得は、関連用語取得装置2において関連用語の取得処理を行っていないとき、すなわち、関連用語取得装置2における処理負荷の大きくないときにあらかじめ行っていてもよい。   The cited reference structure information may be acquired in advance when the related term acquisition device 2 does not perform related term acquisition processing, that is, when the processing load on the related term acquisition device 2 is not large.

このように、本実施の形態による関連用語取得装置2によれば、引用文献構造情報を用いて引用文献情報の一部を取得するため、引用文献情報において文献の構造が顕在化していない場合であっても、引用文献構造情報を用いることによって、引用文献の所望の部分の取得を容易に行うことができうることになる。   Thus, according to the related vocabulary acquisition apparatus 2 according to the present embodiment, a part of the cited document information is acquired using the cited document structure information, and therefore the structure of the document is not revealed in the cited document information. Even if it exists, acquisition of the desired part of a cited reference can be easily performed by using cited reference structure information.

(実施の形態3)
本発明の実施の形態3による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、文献情報における引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得するものである。
(Embodiment 3)
A related term acquisition apparatus according to Embodiment 3 of the present invention will be described with reference to the drawings. The related term acquisition device according to the present embodiment acquires a part of cited document information corresponding to an item corresponding to the cited format of the cited document in the document information.

本実施の形態による関連用語取得装置の構成は、実施の形態1の図1,図2で示されるものと同様であり、その説明を省略する。なお、文献情報取得部13は、文献情報の一部を取得する場合に、引用文献識別情報を少なくとも有する部分であって、引用情報を少なくとも有する部分を取得する。また、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得する。また、引用文献情報取得部14が引用形式に応じてあらかじめ決められている項目に対応する部分を取得することには、引用形式が所定の形式である場合には、引用文献情報の一部の取得を行わない場合を含むものとする。   The configuration of the related term acquisition apparatus according to the present embodiment is the same as that shown in FIGS. 1 and 2 of the first embodiment, and the description thereof is omitted. In addition, when acquiring a part of literature information, the literature information acquisition part 13 is a part which has cited reference identification information at least, Comprising: The part which has at least cited information. The cited document information acquisition unit 14 is a part of cited document information that is information indicating a document identified by the cited document identification information included in all or part of the document information acquired by the document information acquisition unit 13. Thus, the part corresponding to the item determined in advance according to the citation format in the citation information included in all or part of the document information acquired by the document information acquisition unit 13 is acquired. In addition, the cited document information acquisition unit 14 acquires a part corresponding to an item determined in advance according to the citation format. When the citation format is a predetermined format, a part of the cited document information is obtained. This includes cases where no acquisition is made.

ここで、引用情報とは、引用文献識別情報で識別される文献についての記述を示す情報である。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。文献情報において、引用情報と引用文献識別情報とが異なる領域に存在する場合であって、文献情報取得部13が文献情報の一部を取得する場合には、文献情報取得部13は、両者を含むひとまとまりの文献情報の部分を取得してもよく、あるいは、両者をそれぞれ含む2以上の文献情報の部分を取得してもよい。また、文献情報取得部13が引用情報を有する文献情報の全部または一部を取得する場合に、その引用情報は文献情報の全部または一部において顕在化していてもよく、あるいは、顕在化していなくてもよい。前者の場合には、文献情報の全部または一部において引用情報の部分が容易にわかることになる。   Here, the citation information is information indicating a description of a document identified by the cited document identification information. In the document information, for example, the citation information may exist in the same area as the cited document identification information, and the citation information may exist in a different area from the cited document identification information. In the former case, for example, cited document identification information is described in the background art area, and the cited document is cited by the cited document identification information itself. Such citations may be made in patent specifications and the like. On the other hand, in the latter case, for example, the cited document identification information is collectively described in the column of the reference, and in the text of the document, the predetermined reference corresponding to the cited document identification information described in the column of the reference is given. This is a case where the cited document is cited by the index. In academic literature, such citations are often made. Here, the index is, for example, 1, 2, 3 ..., 1), 2), 3) ..., [1], [2], [3] ..., [A], [B], [C ], Patent Document 1, Patent Document 2, Patent Document 3,..., Non-Patent Document 1, Non-Patent Document 2, Non-Patent Document 3,... It may be a thing. When a cited document is cited by the cited document identification information itself, the cited information is information including the cited document identification information. The information including the cited document identification information is, for example, information on a predetermined area including the cited document identification information. The predetermined area may be, for example, a sentence, a paragraph, or a group of other documents. When a cited document is cited by a predetermined index corresponding to the cited document identification information, the cited information is information including the index. The information including the index is, for example, information on a predetermined area including the index. The predetermined area may be, for example, a sentence, a paragraph, or a group of other documents. In the document information, when the citation information and the cited document identification information exist in different areas, and the document information acquisition unit 13 acquires a part of the document information, the document information acquisition unit 13 A part of the document information including a part of the document information may be acquired, or two or more parts of the document information including both may be acquired. Further, when the document information acquisition unit 13 acquires all or a part of the document information having the citation information, the citation information may be manifested in all or a part of the document information, or may not be manifested. May be. In the former case, the citation information part can be easily understood in all or part of the document information.

次に、引用情報における引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。引用文献情報取得部14は、例えば、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり句が含まれるかどうかによって、各引用形式を決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法であってもよい。   Next, the citation format in the citation information will be described. The citation format includes, for example, a problem-pointing citation format (hereinafter also referred to as a “type C” citation format) that points out the problem of the cited document, and a format that takes the cited document as the basis of the editorial. There are certain editorial-based citation formats (hereinafter also referred to as “type B” citation formats) and other citation formats (hereinafter also referred to as “type O” citation formats). The type B citation format is a citation format used when a new theory is proposed or a system is constructed using existing research results. It should be noted that other citation formats may be used. The cited document information acquisition unit 14 holds, for example, one or more clue phrases corresponding to each citation format in a recording medium (not shown), and determines whether each of the citation information includes a clue phrase at a predetermined position. The citation format may be determined. The predetermined position may be, for example, the beginning of the citation information, the end of the citation information, or all of the citation information. Any method other than this may be used as long as the citation format can be determined from the citation information.

次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。本実施の形態による関連用語取得装置1の全体動作は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。また、図3のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートも、実施の形態1の図4のフローチャートと同様であり、その説明を省略する。ただし、図4のステップS204において、文献情報取得部13は、引用情報も取得するものとする。また、図3のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートも、実施の形態1の図6のフローチャートと同様であり、その説明を省略する。   Next, operation | movement of the related vocabulary acquisition apparatus 1 by this Embodiment is demonstrated using a flowchart. The overall operation of the related term acquisition apparatus 1 according to the present embodiment is the same as that of the flowchart of FIG. 3 is also the same as the flowchart of FIG. 4 of the first embodiment, and a description thereof will be omitted. However, it is assumed that the document information acquisition unit 13 also acquires citation information in step S204 of FIG. Also, the flowchart showing the details of the related term information acquisition process in step S104 in the flowchart of FIG. 3 is the same as the flowchart of FIG.

図11は、図3のフローチャートにおけるステップS103の引用文献の取得処理の詳細について示すフローチャートである。なお、ステップS601〜S603以外の処理は、実施の形態1の図5のフローチャートと同様であり、その説明を省略する。   FIG. 11 is a flowchart showing details of the cited document acquisition processing in step S103 in the flowchart of FIG. The processes other than steps S601 to S603 are the same as those in the flowchart of FIG. 5 of the first embodiment, and the description thereof is omitted.

(ステップS601)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報と、その引用文献識別情報に対応する引用情報とを取得する。なお、文献情報取得部13が取得した文献情報の全部または一部において、引用情報の部分が顕在化していない場合には、文献情報取得部13による引用情報の取得処理での説明と同様にして、引用文献情報取得部14は、引用情報の部分を特定することができる。   (Step S601) The cited document information acquisition unit 14 acquires all the cited document identification information included in the i-th document information acquired by the document information acquisition unit 13 and the cited information corresponding to the cited document identification information. . In addition, when the part of the citation information is not obvious in all or a part of the document information acquired by the document information acquisition unit 13, it is the same as the description in the citation information acquisition process by the document information acquisition unit 13. The cited document information acquisition unit 14 can specify the portion of the cited information.

(ステップS602)引用文献情報取得部14は、j番目の引用文献識別情報に対応する引用情報における引用形式を決定する。引用形式を決定するとは、例えば、j番目の引用文献識別情報と、引用形式を示す情報とを対応付けて図示しない記録媒体に蓄積することであってもよい。この処理の詳細については、図12のフローチャートを用いて後述する。   (Step S602) The cited document information acquisition unit 14 determines a citation format in the citation information corresponding to the j-th cited document identification information. Determining the citation format may be, for example, storing the j-th cited document identification information and information indicating the citation format in association with each other in a recording medium (not shown). Details of this processing will be described later with reference to the flowchart of FIG.

(ステップS603)引用文献情報取得部14は、ステップS601で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報の一部であって、ステップS602で決定した引用形式に対応する部分を文献情報記憶部11から取得する。   (Step S603) The cited document information acquisition unit 14 searches the document information storage unit 11 for cited document information identified by the j-th cited document identification information acquired in step S601, and sets one of the retrieved cited document information. A portion corresponding to the citation format determined in step S602 is acquired from the document information storage unit 11.

図12は、図11のフローチャートにおけるステップS602の引用形式の決定処理の詳細について示すフローチャートである。なお、前述のように、引用文献情報取得部14は、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しているものとする。   FIG. 12 is a flowchart showing details of the citation format determination process in step S602 in the flowchart of FIG. As described above, the cited document information acquisition unit 14 holds one or more clue phrases corresponding to each citation format in a recording medium (not shown).

(ステップS701)引用文献情報取得部14は、カウンタkを1に設定する。
(ステップS702)引用文献情報取得部14は、引用情報がタイプCのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS703に進み、そうでない場合には、ステップS704に進む。
(Step S701) The cited document information acquisition unit 14 sets a counter k to 1.
(Step S702) The cited document information acquisition unit 14 determines whether or not the cited information includes the k-th cue phrase of type C. If so, the process proceeds to step S703; otherwise, the process proceeds to step S704.

(ステップS703)引用文献情報取得部14は、引用形式をタイプCに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS704)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(Step S703) The cited document information acquisition unit 14 determines the citation format as type C. Then, the series of processing ends, and the process proceeds to step S603 in the flowchart of FIG.
(Step S704) The cited document information acquisition unit 14 increments the counter k by 1.

(ステップS705)引用文献情報取得部14は、k番目のタイプCの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS702に戻り、存在しない場合には、ステップS706に進む。
(ステップS706)引用文献情報取得部14は、カウンタkを1に設定する。
(Step S705) The cited document information acquisition unit 14 determines whether or not a k-th type C clue phrase exists. And when it exists, it returns to step S702, and when it does not exist, it progresses to step S706.
(Step S706) The cited document information acquisition unit 14 sets the counter k to 1.

(ステップS707)引用文献情報取得部14は、引用情報がタイプBのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS708に進み、そうでない場合には、ステップS709に進む。   (Step S707) The cited document information acquisition unit 14 determines whether the cited information includes the k-th cue phrase of type B. If so, the process proceeds to step S708; otherwise, the process proceeds to step S709.

(ステップS708)引用文献情報取得部14は、引用形式をタイプBに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS709)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(Step S708) The cited document information acquisition unit 14 determines the citation format as type B. Then, the series of processing ends, and the process proceeds to step S603 in the flowchart of FIG.
(Step S709) The cited document information acquisition unit 14 increments the counter k by 1.

(ステップS710)引用文献情報取得部14は、k番目のタイプBの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS707に戻り、存在しない場合には、ステップS711に進む。   (Step S710) The cited document information acquisition unit 14 determines whether or not a k-th type B clue phrase exists. And when it exists, it returns to step S707, and when it does not exist, it progresses to step S711.

(ステップS711)引用文献情報取得部14は、引用形式をタイプOに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。   (Step S711) The cited document information acquisition unit 14 determines the citation format as type O. Then, the series of processing ends, and the process proceeds to step S603 in the flowchart of FIG.

次に、本実施の形態による関連用語取得装置1の動作について、具体例を用いて説明する。この具体例において、文献情報記憶部11は、Postscript及びPDF形式の自然言語処理分野を中心とするフルテキスト論文(文献情報)約12000件を記憶している。これらのうち、約8000件は、ACLが提供するACL Anthologyに含まれるものであり、残りの約4000件は、国内外の自然言語処理研究者や自然言語処理系研究室のWebページから収集したものや、国際会議の予稿集(CD−ROM)から抽出した論文データ(文献情報)等である。このように、この具体例における文献情報記憶部11で記憶されている文献情報は、学術論文という一種類の文献情報である。   Next, operation | movement of the related vocabulary acquisition apparatus 1 by this Embodiment is demonstrated using a specific example. In this specific example, the document information storage unit 11 stores about 12,000 full-text papers (document information) centered on the natural language processing field in Postscript and PDF format. Of these, approximately 8000 are included in the ACL Anology provided by ACL, and the remaining approximately 4000 were collected from natural language processing researchers and natural language processing laboratory laboratories in Japan and overseas. And article data (document information) extracted from a collection of international conference proceedings (CD-ROM). As described above, the document information stored in the document information storage unit 11 in this specific example is one type of document information called an academic paper.

また、この具体例において、文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語がタイトルに含まれる文献情報から、その文献情報の参考文献の欄の情報と、対応する引用情報とを取得するものとする。   Further, in this specific example, the document information acquisition unit 13 corresponds to the information in the column of the reference document of the document information from the document information in which the term indicated by the term information received by the term information receiving unit 12 is included in the title. Citation information shall be obtained.

また、この具体例において、引用文献情報取得部14は、タイプCに応じた手がかり句を有する情報であるタイプC用手がかり句辞書と、タイプBに応じた手がかり句を有する情報であるタイプB用手がかり句辞書とを図示しない記録媒体において保持している。図13は、タイプC用手がかり句辞書の一例を示す図である。図14は、タイプB用手がかり句辞書の一例を示す図である。引用文献情報取得部14は、引用情報にタイプC用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプCであると決定し、引用情報にタイプB用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプBであると決定する。   In this specific example, the cited document information acquisition unit 14 is a type C clue phrase dictionary that is information having a clue phrase corresponding to type C, and type B that is information having a clue phrase corresponding to type B. The clue phrase dictionary is held in a recording medium (not shown). FIG. 13 is a diagram illustrating an example of a type C clue phrase dictionary. FIG. 14 is a diagram illustrating an example of a type B clue phrase dictionary. The cited document information acquisition unit 14 determines that the citation format is type C when any of the clue phrases in the type C clue phrase dictionary is included in the citation information, and any of the type B clue phrase dictionaries is included in the citation information. If the clue phrase is included, it is determined that the citation format is type B.

また、この具体例において、引用文献情報取得部14は、引用文献の一部として、引用文献のタイトルを取得するものとする。
まず、ユーザが用語情報「terminology」を関連用語取得装置1に入力したとする。すると、その用語情報「terminology」は用語情報受付部12で受け付けられる(ステップS101)。そして、文献情報取得部13は、その用語情報「terminology」をタイトルに含む各文献情報の参考文献(Reference)の欄の部分と、引用情報とを取得する(ステップS102、S201〜S205)。
In this specific example, the cited document information acquisition unit 14 acquires the title of the cited document as a part of the cited document.
First, it is assumed that the user inputs the term information “terminology” to the related term acquisition device 1. Then, the term information “terminology” is accepted by the term information accepting unit 12 (step S101). Then, the document information acquisition unit 13 acquires a reference field (Reference) column portion of each document information including the term information “terminology” in the title and citation information (steps S102 and S201 to S205).

具体的には、文献情報取得部13は、用語情報「terminology」をタイトルに含む各文献情報を検索し、その検索された文献情報の書誌情報を取得する(ステップS201)。図15は、その取得された文献情報の書誌情報の一例を示す図である。図15で示されるように、その書誌情報には「著者」、「タイトル」、「その他」が含まれる。「著者」は論文の著者(1名以上)の情報であり、「タイトル」は論文のタイトルの情報であり、「その他」は論文誌の名称や著作年などの情報である。なお、図15において、各レコードに「ID」が対応付けられているが、この「ID」は、表におけるレコード管理のために存在する。   Specifically, the document information acquisition unit 13 searches each document information including the term information “terminology” in the title, and acquires the bibliographic information of the searched document information (step S201). FIG. 15 is a diagram illustrating an example of the bibliographic information of the acquired document information. As shown in FIG. 15, the bibliographic information includes “author”, “title”, and “other”. “Author” is information on the author (one or more) of the paper, “Title” is information on the title of the paper, and “Other” is information such as the name and year of the journal. In FIG. 15, “ID” is associated with each record. This “ID” exists for record management in the table.

文献情報取得部13は、図15で示される各レコードで識別される文献情報から、参考文献(Reference)の欄の部分と、その参考文献の欄に含まれる引用文献識別情報に対応する引用情報とを取得する(ステップS204)。   The document information acquisition unit 13 obtains from the document information identified by each record shown in FIG. 15 the citation information corresponding to the reference document (Reference) column part and the cited document identification information included in the reference document column. Are acquired (step S204).

ここで、この具体例における引用情報の取得方法について説明する。文献情報取得部13は、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索する。次に、文献情報取得部13は、そのインデックスを含む文とつながりの深い文を以下の(1)〜(6)の手がかり句を用いて抽出する。すなわち、文献情報取得部13は、インデックスを含む文の次の文に、以下の(1)〜(6)の手がかり句のいずれかが含まれる場合に、その手がかり句の含まれる文がインデックスを含む文とつながりが深い文であるとして抽出する。文献情報取得部13は、インデックスを含む文と、そのインデックスを含む文とつながりの深い文とを引用情報として取得する。   Here, a method for obtaining citation information in this specific example will be described. As described above, the document information acquisition unit 13 acquires a predetermined index corresponding to the cited document identification information described in the reference literature column from the reference literature column, and searches for a sentence including the index. Next, the document information acquisition unit 13 extracts a sentence closely related to the sentence including the index using the clue phrases (1) to (6) below. In other words, the document information acquisition unit 13, when any of the following clue phrases (1) to (6) is included in the sentence following the sentence including the index, the sentence including the clue phrase includes the index. Extracted as a sentence closely related to the sentence it contains. The document information acquisition unit 13 acquires a sentence including an index and a sentence closely related to the sentence including the index as citation information.

(1)照応詞に関する手がかり:In this、On this,Such
(2)接続詞に関する手がかり:But、However、Although
(3)1人称に関する手がかり:We、we、Our、our、us、I
(4)3人称に関する手がかり:They、they、Their、their、them
(5)副詞に関する手がかり:Furthermore、Additionally、Still
(6)その他の手がかり:In particular、follow、For example
(1) Clues on anaphor: In this, On this, Such
(2) Clues related to conjunctions: But, However, Although
(3) First person clues: We, we, Our, our, us, I
(4) A clue about the third person: They, thee, Their, their, them
(5) Clues about adverbs: Furthermore, Additionally, Still
(6) Other clues: In particular, follow, For example

次に、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の一部(すなわち、参考文献の部分と各引用文献識別情報に対応する引用情報)に基づいて、引用形式を決定し、引用形式に応じた引用文献の部分を取得する(ステップS103、図11、図12のフローチャート)。   Next, the cited document information acquisition unit 14 determines the citation format based on a part of the document information acquired by the document information acquisition unit 13 (that is, the citation information corresponding to the reference document part and each cited document identification information). The part of the cited document corresponding to the citation format is acquired (step S103, flowcharts of FIGS. 11 and 12).

引用形式の決定では、前述のように、図13で示されるタイプC用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプCに決定し、図14で示されるタイプB用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプBに決定し、タイプC、タイプBのいずれでもない場合には、引用形式をタイプOに決定する(ステップS701〜S711)。そして、引用文献情報取得部14は、引用形式がタイプCである場合には、引用文献情報の一部として、引用文献情報のタイトルを示す情報を取得する。一方、引用文献情報取得部14は、引用形式がタイプBである場合には、引用文献情報の一部として、引用文献情報の要約(アブストラクト)を示す情報を取得する。なお、引用文献情報取得部14は、引用形式がタイプOである場合には、引用文献情報の一部の取得を行わない。   In the determination of the citation format, as described above, when any of the clue phrases in the type C clue phrase dictionary shown in FIG. 13 is included in the citation information, the citation format is determined as type C, and FIG. When any cue phrase in the type B cue phrase dictionary shown is included in the citation information, the citation format is determined as type B, and if it is neither type C nor type B, the citation format is typed. O is determined (steps S701 to S711). Then, when the citation format is type C, the cited document information acquisition unit 14 acquires information indicating the title of the cited document information as a part of the cited document information. On the other hand, when the citation format is type B, the cited document information acquisition unit 14 acquires information indicating a summary (abstract) of the cited document information as a part of the cited document information. The cited document information acquisition unit 14 does not acquire a part of the cited document information when the citation format is type O.

この後、関連用語情報出力部16は、引用文献情報取得部14によって取得された引用文献情報の一部の集合から関連用語情報を取得し(ステップS104、図6のフローチャート)、関連用語情報出力部16は、その取得された関連用語情報を出力する(ステップS105)。   Thereafter, the related term information output unit 16 acquires related term information from a partial set of cited reference information acquired by the cited reference information acquisition unit 14 (step S104, flowchart of FIG. 6), and outputs related term information. The unit 16 outputs the acquired related term information (step S105).

なお、引用情報を取得する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用情報を取得する他の方法について説明する。文献情報取得部13は、例えば、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索し、そのインデックスが含まれる文を特定する。そして、文献情報取得部13は、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。   Needless to say, the method for obtaining the citation information is not limited to the specific description described above. Here, another method for acquiring citation information will be described. For example, as described above, the document information acquisition unit 13 acquires a predetermined index corresponding to the cited document identification information described in the reference column from the reference column, and searches for a sentence including the index. Identify the sentence that contains the index. Then, the document information acquisition unit 13 acquires a sentence including the index and a sentence closely related to the sentence as citation information. Here, a method for identifying a sentence closely related to the sentence including the index will be described.

文献情報取得部13は、あらかじめ図示しない記録媒体で記憶されている下記の2種類の手がかり語句にアクセス可能であるとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
It is assumed that the document information acquisition unit 13 can access the following two types of clue words and phrases stored in advance on a recording medium (not shown).
(A) Pre-extended cue phrases In this, On this, Such, But, However ...
(B) Cue phrases for post-expansion We, we, They, they, Our, our, Inthis, Onthis, Such, Bute, However ...

文献情報取得部13は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。文献情報取得部13は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、文献情報取得部13は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。文献情報取得部13は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。文献情報取得部13は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。   First, the document information acquisition unit 13 sets a sentence including an index as a candidate sentence for citation information. Then, when at least one of the preceding extension clue words / phrases is included in the first sentence of the candidate sentence, the sentence one sentence before the candidate sentence is included in the candidate sentence. The literature information acquisition unit 13 repeats the process of extending the candidate sentence before the first sentence of the candidate sentence does not include all the (A) pre-extended clue words. In addition, the document information acquisition unit 13 includes (B) a post-extension clue phrase in a sentence next to the candidate sentence (a sentence adjacent to the candidate sentence and not included in the candidate sentence). In the case, the sentence following the candidate sentence is included in the candidate sentence. The document information acquisition unit 13 repeats the process of expanding the candidate sentence later until the next sentence after the candidate sentence does not include all of the post-expansion clue words (B). The candidate sentence at the time when the process of extending the candidate sentence is completed becomes the citation information. The literature information acquisition unit 13 acquires the citation information. Note that (A) the pre-extension cue word / phrase and (B) the post-extension cue word / phrase are examples, and if the sentence closely related to the sentence including the index can be appropriately extracted, A clue word may be used. In addition, here, attention is focused on the sentence including the index. However, in the technical document that directly refers to the cited document by the cited document identification information, the sentence including the cited document identification information is changed to the sentence including the index. It will be used instead.

また、引用形式を判断する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用形式を判断する他の方法について説明する。文献情報取得部13は、例えば、引用情報に所定の手がかり句が含まれるかどうかのみによって引用形式を判断するのではなく、引用情報に含まれる手がかり句の位置も考慮して引用形式を判断してもよい。より具体的には、例えば、タイプC用手がかり句辞書では、図20で示されるように、タイプCの手がかり句(図20では、「手がかり語句」としている)と、手がかり句の位置とを対応付けられているものとする。図20の「手がかり句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり句の位置=3)までの3個の文を意味している。手がかり句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。文献情報取得部13は、タイプCの手がかり句が、対応する手がかり句の位置で示される文に含まれる場合に、その引用情報の引用形式を、タイプCであると判断してもよい。より具体的には、文献情報取得部13は、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合に、その引用情報の引用形式をタイプCであると判断してもよい。なお、ここでは、引用形式がタイプCであるかどうかの判断方法について説明したが、引用形式がタイプBであるかどうかの判断方法についても同様である。   Needless to say, the method of determining the citation format is not limited to the specific description described above. Here, another method for determining the citation format will be described. For example, the document information acquisition unit 13 determines the citation format in consideration of the position of the cue phrase included in the citation information, not only based on whether or not the citation information includes a predetermined clue phrase. May be. More specifically, for example, in the type C cue phrase dictionary, as shown in FIG. 20, the type C cue phrase (in FIG. 20, “cue phrase”) corresponds to the position of the cue phrase. It shall be attached. The “position of the clue phrase” in FIG. 20 is information indicating the number of sentences in the citation information with the sentence including the index and the cited document identification information as a reference (0). For example, in the case of the position “1 to 3” of the clue phrase, the index or the cited document identification information is started from the sentence (position of the clue phrase = 1) after the sentence including the index or the cited document identification information in the citation information. Means three sentences from the sentence including the first sentence to the third sentence (cue phrase position = 3). When the position of the clue phrase is negative, it means a sentence before the sentence including the index and the cited document identification information. When the type C clue phrase is included in the sentence indicated by the position of the corresponding clue phrase, the document information acquisition unit 13 may determine that the citation format of the citation information is type C. More specifically, the document information acquisition unit 13 adds “in the citation information to any sentence from the sentence (first sentence) to the third sentence after the sentence including the index and the cited document identification information”. When “However” is included, the citation format of the citation information may be determined to be type C. Here, the determination method for determining whether or not the citation format is type C has been described, but the determination method for determining whether or not the citation format is type B is the same.

このように、本実施の形態による関連用語取得装置1によれば、引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より精度の高い関連用語情報の取得が可能となりうる。   Thus, according to the related vocabulary acquisition apparatus 1 according to the present embodiment, a part of cited document information corresponding to an item corresponding to a citation format of a cited document can be acquired. By appropriately setting whether to obtain a part of cited reference information corresponding to an item, it is possible to obtain related term information with higher accuracy.

なお、本実施の形態では、上記の具体例のように、引用形式がタイプCである場合には、引用文献情報のタイトルを示す情報を取得し、引用形式がタイプBである場合には、引用文献情報の要約を示す情報を取得する場合について説明したが、これはその他の設定であってもよい。例えば、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が問題指摘型引用形式である場合には、引用文献情報における背景的な項目を有する部分を取得し、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が論説根拠型引用形式である場合には、引用文献情報における特徴的な項目を有する部分を取得してもよい。ここで、背景的な項目とは、例えば、特許文献であれば、「従来技術」や「背景技術」等であってもよく、学術文献であれば、「イントロダクション」や「関連研究」等であってもよい。また、特徴的な項目とは、例えば、特許文献であれば、「実施の形態」や「効果」等であってもよく、学術文献であれば、「終わりに」や「結論」等であってもよい。これらの項目に対応する引用文献情報の部分を取得する方法としては、実施の形態1、2で説明した方法を用いることができる。
また、引用形式に応じた引用文献情報の部分を取得する処理を、実施の形態2における関連用語取得装置2において実行してもよいことは言うまでもない。
In the present embodiment, as in the above specific example, when the citation format is type C, information indicating the title of the cited document information is acquired, and when the citation format is type B, Although the case where information indicating the summary of cited document information is acquired has been described, this may be another setting. For example, when the citation format in the citation information included in all or part of the document information acquired by the document information acquisition unit 13 is the problem-pointing citation format, the cited document information acquisition unit 14 When the citation format in the citation information included in all or part of the document information acquired by the document information acquisition unit 13 is an editorial basis citation format, A portion having a typical item may be acquired. Here, the background item may be, for example, “prior art” or “background technology” if it is a patent document, and “introduction” or “related research” if it is an academic document. There may be. The characteristic item may be, for example, “embodiment” or “effect” in the case of patent documents, and “at the end” or “conclusion” in the case of academic literature. May be. The method described in the first and second embodiments can be used as a method of obtaining the cited document information portion corresponding to these items.
Further, it goes without saying that the process of acquiring the portion of the cited document information corresponding to the citation format may be executed in the related term acquisition device 2 in the second embodiment.

また、上記各実施の形態において、文献情報記憶部11で記憶されている文献情報は2以上の種類のものであってもよい。例えば、文献情報記憶部11において、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶されており、文献情報取得部13は、文献情報記憶部11で記憶されている第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、引用文献情報取得部14は、文献情報記憶部11で記憶されている第2の種類の文献情報から、引用文献情報の一部を取得してもよい。例えば、第1の種類の文献情報が学術論文に関する情報であり、第2の種類の文献情報が特許書類の情報であってもよく、その逆であってもよい。一般に学術論文に慣れているユーザは、特許書類で用いられる用語に精通していない場合が多いが、このような関連用語取得装置を用いることにより、学術論文で用いられる用語から、その用語に関連する特許書類で用いられる関連用語を取得することができる。また、第1の種類の文献情報が第1の種類の言語の情報であり、第2の種類の文献情報が第2の種類の言語の情報であってもよい。第1の種類の言語、第2の種類の言語は、例えば、英語、日本語、中国語、フランス語、ドイツ語等、どのような言語であってもよい。このようにすることで、例えば、日本語の用語に関連する英語の関連用語を取得することが可能となりうる。   Further, in each of the above embodiments, the document information stored in the document information storage unit 11 may be two or more types. For example, in the document information storage unit 11, at least a first type of document information and a second type of document information are stored, and the document information acquisition unit 13 is stored in the document information storage unit 11. All or part of the first type of document information is acquired from the first type of document information, and the cited document information acquisition unit 14 stores the second type of document information stored in the document information storage unit 11. From the above, a part of the cited document information may be acquired. For example, the first type of document information may be information relating to academic papers, and the second type of document information may be information on patent documents, or vice versa. In general, users who are accustomed to academic papers are often not familiar with the terms used in patent documents. However, by using such a related term acquisition device, the terms used in academic papers can be related to those terms. Related terms used in patent documents. Further, the first type of document information may be information of the first type of language, and the second type of document information may be information of the second type of language. The first type language and the second type language may be any language such as English, Japanese, Chinese, French, German, and the like. In this way, for example, it may be possible to acquire English related terms related to Japanese terms.

(実施の形態4)
本発明の実施の形態4による技術動向情報作成装置について、図面を参照しながら説明する。
図16は、本実施の形態による技術動向情報作成装置の構成を示すブロック図である。図16において、本実施の形態による技術動向情報作成装置1001は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019とを備える。
(Embodiment 4)
A technical trend information creating apparatus according to Embodiment 4 of the present invention will be described with reference to the drawings.
FIG. 16 is a block diagram showing the configuration of the technical trend information creation device according to this embodiment. In FIG. 16, the technical trend information creation device 1001 according to the present embodiment includes a search term receiving unit 1011, a document information storage unit 1012, a search unit 1013, a specifying unit 1014, a document information acquisition unit 1015, and technical terms. An extraction unit 1016, a time information acquisition unit 1017, a technology trend information creation unit 1018, and an output unit 1019 are provided.

検索用語受付部1011は、検索用語を受け付ける。検索用語とは、後述する検索部1013での検索において、検索キーワードとして用いられる情報である。検索用語受付部1011が受け付ける検索用語は、実際には検索用語を示す情報であるが、単に検索用語と呼ぶことにする。技術動向情報作成装置1001では、この検索用語受付部1011が受け付けた検索用語によって、技術文献が検索され、その検索された技術文献を示す情報が取得されて、その情報をもとに技術動向情報が作成されることになる。このように、この検索用語は、技術動向情報を作成する分野等を決めるために用いられるものである。この検索用語は、一般にテキストデータであるが、その他の情報であってもよい。また、この検索用語は、例えば、作成される技術動向情報の分野を示す情報であってもよく、作成される技術動向情報の期間を示す情報であってもよい。検索用語が技術動向情報の分野を示す情報である場合には、その検索用語は、例えば、その分野の名称でもよく、その分野に対応付けられた記号等であってもよい。分野に対応付けられた記号としては、例えば、IPC(国際特許分類)や、USクラス(米国特許分類)等がある。本実施の形態では、検索用語受付部1011が、技術動向情報の分野の名称を示す検索用語を受け付ける場合について説明する。   The search term receiving unit 1011 receives a search term. A search term is information used as a search keyword in a search in the search unit 1013 described later. The search term accepted by the search term acceptance unit 1011 is actually information indicating the search term, but is simply referred to as a search term. In the technical trend information creation device 1001, the technical literature is searched based on the search term received by the search term receiving unit 1011. Information indicating the searched technical literature is acquired, and the technical trend information is obtained based on the information. Will be created. As described above, the search term is used to determine a field or the like in which the technical trend information is created. This search term is generally text data, but may be other information. Further, this search term may be, for example, information indicating a field of created technical trend information, or information indicating a period of the generated technical trend information. When the search term is information indicating a technical trend information field, the search term may be, for example, the name of the field or a symbol associated with the field. Examples of symbols associated with the fields include IPC (international patent classification) and US class (US patent classification). In the present embodiment, a case will be described in which the search term receiving unit 1011 receives a search term indicating the name of the field of technology trend information.

ここで、検索用語受付部1011による検索用語の受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、検索用語受付部1011は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語受付部1011は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   Here, the search term acceptance by the search term acceptance unit 1011 may be, for example, acceptance of information input from an input device (for example, a keyboard, a mouse, a touch panel, etc.), which is transmitted via a wired or wireless communication line. May be received, or information read from a predetermined recording medium (for example, an optical disk, a magnetic disk, a semiconductor memory, etc.) may be received. Note that the search term receiving unit 1011 may or may not include a device (for example, a modem or a network card) for receiving. In addition, the search term receiving unit 1011 may be realized by hardware, or may be realized by software such as a driver that drives a predetermined device.

文献情報記憶部1012では、複数の文献情報と、複数の時期情報とが少なくとも記憶される。ここで、文献情報とは、技術文献の少なくとも一部を示す情報である。技術文献とは、例えば、技術論文や、特許・実用新案の公報、公開技報、技術関連の書籍や記事、技術に関するウェブページ等である。一の文献情報には、対応する一の技術文献の少なくとも一部の情報(データ)が含まれる。技術文献の一部とは、技術文献のうち、後の処理で必要となる範囲が少なくとも含まれる部分である。例えば、技術文献のタイトルと参考文献とを後の処理で用いる場合には、文献情報は、技術文献のタイトルと参考文献とを示す情報であってもよい。なお、文献情報は、技術文献の全部を示す情報であってもよい。また、時期情報とは、文献情報の示す技術文献に関する時期を示す情報である。時期情報は、例えば、文献情報の作成された時期を示す情報であってもよく、文献情報の公開された時期を示す情報であってもよく、文献情報に関するその他の時期を示す情報であってもよい。時期情報は、例えば、文献情報に関する年を示す情報でもよく、年月を示す情報でもよく、年月日を示す情報であってもよく、その他の時期を示す情報であってもよい。文献情報と、時期情報とは、どの技術文献がどの時期のものであるかがわかるように、直接的に、あるいは、間接的に対応付けられているものとする。前者の場合には、例えば、互いに対応する文献情報と時期情報とが同じレコードに含まれてもよい。後者の場合には、例えば、技術文献を識別する文献ID等を介して、文献情報と、時期情報とが対応付けられていてもよい。文献情報、及び時期情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報と時期情報とは、データとして一体に構成されてもよく、別々のデータであってもよい。   The document information storage unit 1012 stores at least a plurality of document information and a plurality of time information. Here, the literature information is information indicating at least a part of the technical literature. The technical literature includes, for example, technical papers, patent / utility model publications, published technical bulletins, technical-related books and articles, technical web pages, and the like. One document information includes at least a part of information (data) of the corresponding one technical document. The part of the technical document is a part of the technical document that includes at least a range necessary for subsequent processing. For example, when the title of a technical document and a reference document are used in a later process, the document information may be information indicating the title of the technical document and the reference document. Note that the document information may be information indicating all technical documents. Moreover, time information is information which shows the time regarding the technical literature which literature information shows. The time information may be, for example, information indicating the time when the document information was created, information indicating the time when the document information was released, or information indicating other time related to the document information. Also good. The time information may be, for example, information indicating a year regarding document information, information indicating a date, information indicating a date, or information indicating another time. It is assumed that the document information and the time information are associated directly or indirectly so that it can be understood which technical document is at which time. In the former case, for example, document information and time information corresponding to each other may be included in the same record. In the latter case, for example, the document information and the time information may be associated with each other via a document ID for identifying a technical document. The document information and the time information may be a text file, or may be a file of a unique format such as word processing software. The document information and the time information may be integrated as data, or may be separate data.

文献情報記憶部1012において、これ以外の情報が記憶されてもよいことは言うまでもない。例えば、技術文献の著者名、出版社名、媒体名(例えば、雑誌名、書籍名等)、技術文献の分野を示す情報(例えば、IPC等)、技術文献の要約等の書誌情報が文献情報記憶部1012で記憶されてもよい。また、文献情報には、例えば、引用文献識別情報や、引用情報が含まれてもよい。引用文献識別情報とは、文献情報において引用している他の技術文献(以下、この技術文献を「引用文献」と呼ぶこともある)を識別する情報である。引用情報とは、引用情報の含まれる文献情報において引用している他の技術文献についての記述を示す情報である。技術文献についての記述とは、例えば、その技術文献の問題点を指摘するための記述や、その技術文献を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。本実施の形態では、文献情報に少なくともタイトルと、引用文献識別情報と、引用情報とが含まれるものとする。   It goes without saying that other information may be stored in the document information storage unit 1012. For example, bibliographic information such as author name, publisher name, medium name (eg, magazine name, book name, etc.), technical literature field (eg, IPC), technical literature summary, etc. It may be stored in the storage unit 1012. The document information may include, for example, cited document identification information or citation information. The cited document identification information is information for identifying another technical document cited in the document information (hereinafter, this technical document may be referred to as “cited document”). The citation information is information indicating a description of another technical document cited in the document information including the citation information. The description about a technical document is, for example, a description for pointing out a problem of the technical document, a description for proposing a new theory based on the technical document, or constructing a system. Here, the content of the cited document identification information is not limited as long as it is information that can identify the cited document. The cited document identification information may be, for example, an ID for identifying a cited document such as a patent number, an application publication number of a patent application, or a PMID (PubMed Identifier), and relates to an author name, title, date of writing, and medium It may be bibliographic information of a document that can identify a cited document such as information (magazine name, publisher name, URL, etc.). In the present embodiment, it is assumed that the document information includes at least a title, cited document identification information, and cited information.

ここで、引用文献識別情報と引用情報とについてさらに詳細に説明する。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応するインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。   Here, the cited document identification information and the cited information will be described in more detail. In the document information, for example, the citation information may exist in the same area as the cited document identification information, and the citation information may exist in a different area from the cited document identification information. In the former case, for example, cited document identification information is described in the background art area, and the cited document is cited by the cited document identification information itself. Such citations may be made in patent specifications and the like. On the other hand, in the latter case, for example, the cited document identification information is collectively described in the column of the reference, and in the text of the document, the predetermined reference corresponding to the cited document identification information described in the column of the reference is given. This is a case where the cited document is cited by the index. In academic literature, such citations are often made. Here, the index is, for example, 1, 2, 3 ..., 1), 2), 3) ..., [1], [2], [3] ..., [A], [B], [C ], Patent Document 1, Patent Document 2, Patent Document 3,..., Non-Patent Document 1, Non-Patent Document 2, Non-Patent Document 3,... It may be a thing. When a cited document is cited by the cited document identification information itself, the cited information is information including the cited document identification information. The information including the cited document identification information is, for example, information on a predetermined area including the cited document identification information. The predetermined area may be, for example, a sentence, a paragraph, or a group of other documents. When a cited document is cited by an index corresponding to the cited document identification information, the cited information is information including the index. The information including the index is, for example, information on a predetermined area including the index. The predetermined area may be, for example, a sentence, a paragraph, or a group of other documents. This predetermined area may be determined based on a predetermined rule, as will be described later.

次に、引用情報における引用文献の引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。   Next, the citation format of the cited document in the citation information will be described. The citation format includes, for example, a problem-pointing citation format (hereinafter also referred to as a “type C” citation format) that points out the problem of the cited document, and a format that takes the cited document as the basis of the editorial. There are certain editorial-based citation formats (hereinafter also referred to as “type B” citation formats) and other citation formats (hereinafter also referred to as “type O” citation formats). The type B citation format is a citation format used when a new theory is proposed or a system is constructed using existing research results. It should be noted that other citation formats may be used. Here, the citation form of the above description is described in the following document.

文献:難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Vol.6、No.5、p.43−62、1999年   References: Eiwa Namba, Manabu Okumura, “Development of Survey Paper Creation Support System Considering Reference Information Between Papers”, Natural Language Processing, Vol. 6, no. 5, p. 43-62, 1999

なお、文献情報記憶部1012は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部1012に文献情報等が記憶される過程は問わない。例えば、記録媒体を介して文献情報等が文献情報記憶部1012で記憶されるようになってもよく、通信回線等を介して送信された文献情報等が文献情報記憶部1012で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報等が文献情報記憶部1012で記憶されるようになってもよい。   The document information storage unit 1012 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process of storing document information or the like in the document information storage unit 1012 is not limited. For example, document information or the like may be stored in the document information storage unit 1012 via a recording medium, and document information or the like transmitted via a communication line or the like may be stored in the document information storage unit 1012. Alternatively, the document information or the like input via the input device may be stored in the document information storage unit 1012.

検索部1013は、検索用語受付部1011が受け付けた検索用語を用いて、文献情報記憶部1012を検索する。検索部1013は、検索用語受付部1011が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索することが好適である。「技術文献に対応する文献情報」とは、技術文献の少なくとも一部を示す文献情報の意味である。メイントピックとは、ある研究分野の名称である。その範囲の広狭は注目している範囲によって異なりうる。例えば、「形態素解析」はメイントピックとなりうるが、それを含む「自然言語処理」もメイントピックとなりうる。   The search unit 1013 searches the document information storage unit 1012 using the search term received by the search term receiving unit 1011. The search unit 1013 preferably searches for document information corresponding to a technical document whose search term received by the search term receiving unit 1011 is the main topic. “Literature information corresponding to technical literature” means literature information indicating at least a part of the technical literature. The main topic is the name of a research field. The extent of the range can vary depending on the range of interest. For example, “morphological analysis” can be a main topic, but “natural language processing” including it can also be a main topic.

そのような検索のために、検索部1013は、文献情報記憶部1012で記憶されている各文献情報の全体を検索してもよく、各文献情報の一部(例えば、タイトルのみ等)を検索してもよく、あるいは、文献情報以外の情報を検索してもよい。文献情報の一部を検索する場合には、文献情報は、その文献情報の一部を特定することができる構造を有しているものとする。例えば、文献情報の部分ごとに項目名が記載されていてもよく、あるいは、マークアップ言語のタグ等を用いて項目が特定できるようにされていてもよい。「文献情報以外の情報」とは、例えば、時期情報であってもよく、その他の書誌情報であってもよい。   For such a search, the search unit 1013 may search the entire document information stored in the document information storage unit 1012, or search for a part of each document information (for example, only the title). Alternatively, information other than literature information may be searched. When searching a part of the document information, the document information has a structure capable of specifying a part of the document information. For example, the item name may be described for each part of the document information, or the item may be specified using a markup language tag or the like. “Information other than document information” may be, for example, time information or other bibliographic information.

また、検索用語がメイントピックである技術文献に対応する文献情報を検索するために、検索部1013は、例えば、その検索用語が所定の回数以上記載されている文献情報を検索してもよく、あるいは、所定の複数の領域(例えば、タイトルと要約など)にその検索用語が記載されている文献情報を検索してもよい。このように、ある検索用語がメイントピックである技術文献に対応する文献情報を検索する方法はすでに次の文献等で知られており、その詳細な説明を省略する。   Further, in order to search for document information corresponding to the technical document whose search term is the main topic, the search unit 1013 may search for document information in which the search term is described more than a predetermined number of times, Or you may search the literature information in which the search term is described in the predetermined several area | region (for example, a title, summary, etc.). As described above, a method for searching for document information corresponding to a technical document in which a certain search term is a main topic is already known in the following documents and the like, and detailed description thereof will be omitted.

文献:Ricardo Baeza−Yates, Berthier Ribeiro−Neto、「Modern Information Retrieval」、Addison−Wesley Pub、ISBN:020139829X、1999年   Literature: Richard Baeza-Yates, Bertier Ribeiro-Neto, “Modern Information Retrieval”, Addison-Wesley Pub, ISBN: 0201339829X, 1999.

文献:徳永健伸、「情報検索と言語処理」、東京大学出版会、ISBN:4130654055、1999年   Literature: Takenobu Tokunaga, “Information Retrieval and Language Processing”, University of Tokyo Press, ISBN: 4130654055, 1999

文献:Nitin Indurkhya, Tong Zhang, Fred J. Damerau、「Text Mining:Predictive Methods For Analyzing Unstructured Information」、Springer、ISBN:0387954333、2004年   Literature: Nitin Indurkhya, Tong Zhang, Fred J. Damerau, “Text Mining: Predictive Methods for Analyzing Information”, Springer, ISBN: 0387954333, 2004.

また、文献情報が技術文献のタイトルを少なくとも含む情報である場合に、検索部1013は、文献情報記憶部1012で記憶されている文献情報の示す技術文献のタイトルにおけるメイントピックを示す領域に、検索用語受付部1011が受け付けた検索用語が含まれている文献情報を検索してもよい。このようにすることで、検索用語がメイントピックである技術文献に対応する文献情報を検索しうると考えられる。タイトルにおいてメイントピックを示す領域は、例えば、日本語のタイトルにおいては、タイトルの最後の領域であってもよく、英語のタイトルにおいては、タイトルの最初の領域であってもよい。   When the document information is information including at least the title of the technical document, the search unit 1013 searches the area indicating the main topic in the title of the technical document indicated by the document information stored in the document information storage unit 1012. The document information including the search term received by the term receiving unit 1011 may be searched. By doing in this way, it is thought that the literature information corresponding to the technical literature whose search term is the main topic can be searched. The area indicating the main topic in the title may be the last area of the title in a Japanese title, for example, and may be the first area of the title in an English title.

なお、検索部1013が行う検索処理そのものについては、すでに公知であるため、その詳細な説明を省略する。この検索部1013による検索の結果、一般に1以上の文献情報が検索結果として特定されることになる。その特定は、例えば、その文献情報を識別する情報を一時記憶メモリ等の記録媒体に蓄積することによって行われてもよく、その文献情報に対応付けてフラグを設定することによって行われてもよい。   Note that the search processing itself performed by the search unit 1013 is already known, and thus detailed description thereof is omitted. As a result of the search by the search unit 1013, generally one or more document information is specified as the search result. The identification may be performed, for example, by accumulating information identifying the document information in a recording medium such as a temporary storage memory, or by setting a flag in association with the document information. .

特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この特定部1014による特定を行うことで、検索部1013が検索しなかった文献情報であるが、検索部1013が検索した文献情報と分野が同一である文献情報も、技術動向情報の作成に用いることができるようになる。ここで、その特定方法としては、例えば、(1)引用関係を用いる方法、(2)文書分類や文書クラスタリングを用いる方法等がある。   The specifying unit 1014 specifies the document information having the same field as the document information searched by the search unit 1013. By specifying by the specifying unit 1014, the document information that the search unit 1013 has not searched for is also used to create the technical trend information. Will be able to. Here, as the identification method, there are, for example, (1) a method using citation relationships, (2) a method using document classification and document clustering, and the like.

(1)引用関係を用いる方法
引用関係を用いる方法では、検索部1013が検索した文献情報において引用されている技術文献に対応する文献情報は、検索部1013が検索した文献情報と分野が同一であると仮定して文献情報の特定を行う方法である。その文献情報の特定において、例えば、(1−1)引用文献識別情報のみを用いる方法と、(1−2)引用文献識別情報と引用形式とを用いる方法とがある。
(1) Method Using Citation Relationship In the method using citation relationship, the document information corresponding to the technical document cited in the document information searched by the search unit 1013 has the same field as the document information searched by the search unit 1013. This is a method of identifying document information on the assumption that there is. In specifying the document information, there are, for example, (1-1) a method using only cited document identification information and (1-2) a method using cited document identification information and a citation format.

(1−1)引用文献識別情報のみを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、その文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得する。そして、その取得した引用文献識別情報で文献情報を特定する。
(1-1) Method using only cited document identification information The identifying unit 1014 is a document identification that is information for identifying other technical documents cited in the document information from the document information retrieved by the retrieval unit 1013. Get information. Then, the document information is specified by the acquired cited document identification information.

引用文献識別情報の取得において、特定部1014は、引用文献識別情報を含むと考えられる参考文献(Reference)の欄を取得してもよく、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を取得してもよい。参考文献の欄や、特許文献等を取得する場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を取得してもよい。また、パターンマッチング等の技術を用いて引用文献識別情報を取得する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文献情報における引用文献識別情報を含む領域を取得してもよい。特定部1014が取得した引用文献識別情報は、図示しない記録媒体に一時的に蓄積されてもよい。   In the acquisition of the cited document identification information, the specifying unit 1014 may acquire a column of a reference document (Reference) that is considered to include the cited document identification information, or may acquire a column of patent documents and non-patent documents. Alternatively, a region where the cited document identification information exists may be acquired by using a technique such as pattern matching. When acquiring a reference column, patent document, or the like, for example, information indicating an item corresponding to a part to be acquired is stored in a recording medium (not shown), and the specifying unit 1014 extracts an item from the recording medium. Information indicated may be read out, and an area of literature information corresponding to the item may be acquired. Further, when the cited document identification information is acquired using a technique such as pattern matching, for example, information indicating a pattern used for pattern matching or the like is stored in a recording medium (not shown), and the specifying unit 1014 An area including the cited document identification information in the document information may be acquired by reading a pattern or the like from the recording medium and performing pattern matching or the like. The cited document identification information acquired by the specifying unit 1014 may be temporarily stored in a recording medium (not shown).

(1−2)引用文献識別情報と引用形式とを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、引用文献識別情報を取得すると共に、その文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得する。そして、その取得した引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式(タイプCの引用形式)である場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定する。
(1-2) Method of Using Cited Document Identification Information and Citation Format The specifying unit 1014 acquires the cited document identification information from the document information searched by the search unit 1013, and is cited in the document information. Citation information, which is information indicating a description of the technical document, is also acquired. If the citation format indicated by the obtained citation information is a problem indication type citation format (type C citation format) that indicates the problem of the cited technical document, it is described in the citation information. The document information is specified by the cited document identification information for identifying the technical document being read.

例えば、ある技術文献Aにおいて技術文献Bが引用されている場合に、技術文献Bの問題を指摘する形式(タイプCの引用形式)で技術文献Bが引用されている場合には、技術文献Aと技術文献Bとの分野が同じである可能性の高いことが発明者らの研究によってわかっている(前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照)。   For example, when the technical document B is cited in a technical document A, the technical document A is cited when the technical document B is cited in a format (type C citation format) that points out the problem of the technical document B. And the technical literature B are found to be likely to have the same field (see the above-mentioned literature “Development of Survey Paper Creation Support System Considering Reference Information Between Papers”).

したがって、引用情報によって示される技術文献の引用形式がタイプCの引用形式である場合に、その技術文献を識別する引用文献識別情報で文献情報を特定し、そうでない場合に、文献情報を特定しなくてもよい。   Therefore, when the citation format of the technical document indicated by the citation information is a type C citation format, the document information is specified by the cited document identification information for identifying the technical document, and if not, the document information is specified. It does not have to be.

特定部1014は、例えば、タイプCの引用形式に応じた1以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプCであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文(例えば、引用文献識別情報を含む文や、引用文献識別情報に対応するインデックスを含む文など)を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。   The specifying unit 1014 holds, for example, one or more clue words / phrases according to the type C citation format in a recording medium (not shown), and the citation format depends on whether the cued word / phrase is included in a predetermined position of the citation information. May be determined to be type C. The predetermined position may be, for example, the beginning of the citation information, the end of the citation information, or all of the citation information, or a sentence ( For example, a predetermined range may be used based on a sentence including cited document identification information or a sentence including an index corresponding to the cited document identification information. The predetermined position may be set for each clue word. Note that other methods may be used as long as the citation format can be determined from the citation information.

引用情報の取得において、特定部1014は、例えば、引用文献識別情報について言及している領域を、引用文献識別情報等を用いて特定し、その特定した領域を含む引用情報を取得してもよく、あるいは、引用文献識別情報に対応するインデックスについて言及している領域を、引用文献識別情報に対応するインデックスを用いて特定し、その特定した領域を含む引用情報を取得してもよい。特定部1014が取得した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。   In the acquisition of the citation information, the specifying unit 1014 may specify, for example, an area referring to the cited document identification information using the cited document identification information, and acquire the citation information including the specified area. Alternatively, an area referring to the index corresponding to the cited document identification information may be specified using the index corresponding to the cited document identification information, and the citation information including the specified area may be acquired. The citation information acquired by the specifying unit 1014 may be temporarily stored in a recording medium (not shown).

特定部1014は、引用情報を取得し、その引用情報における引用形式がタイプCであると判断した場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定することになる。例えば、引用情報において、引用文献識別情報によって引用文献についての言及が行われている場合には、その引用文献識別情報で文献情報を特定すればよい。一方、引用情報において、インデックスによって引用文献についての言及が行われている場合には、そのインデックスに対応する引用文献識別情報を特定し、その特定した引用文献識別情報で文献情報を特定すればよい。   When the identifying unit 1014 acquires the citation information and determines that the citation format in the citation information is type C, the identifying unit 1014 identifies the document information with the cited document identification information that identifies the technical document described in the citation information. Will do. For example, in the cited information, when the cited document is referred to by the cited document identification information, the document information may be specified by the cited document identification information. On the other hand, in the cited information, when the cited document is referred to by the index, the cited document identification information corresponding to the index is identified, and the document information is identified by the identified cited document identification information. .

なお、上記(1−1)、(1−2)における引用文献識別情報や引用情報の取得において、特定部1014は、文献情報記憶部1012から引用文献識別情報等を取得してもよく、あるいは、後述する文献情報取得部1015が引用文献識別情報等を含む文献情報を取得している場合には、その文献情報取得部1015が取得した文献情報から引用情報を取得してもよい。本実施の形態では、前者の場合について説明する。   In the acquisition of the cited document identification information and the cited information in the above (1-1) and (1-2), the specifying unit 1014 may acquire the cited document identification information or the like from the document information storage unit 1012. When the document information acquisition unit 1015 described later acquires document information including cited document identification information and the like, the citation information may be acquired from the document information acquired by the document information acquisition unit 1015. In the present embodiment, the former case will be described.

(2)文書分類や文書クラスタリングを用いる方法
複数の文献情報を分類したりクラスタリングしたりする方法は、従来から知られている。例えば、上述の文献「Modern Information Retrieval」、「情報検索と言語処理」、「Text Mining:Predictive Methods For Analyzing Unstructured Information」等において開示されている。この方法では、同一のグループに分類されたり、クラスタリングされたりした文献情報は、分野が同一の文献情報であると仮定して、文献情報を特定する。より具体的には、検索部1013によって検索された文献情報と同一のグループに分類されたり、クラスタリングされたりした文献情報を、特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この場合における文献情報の特定は、例えば、文献情報を識別する文献IDや、文献情報の書誌情報(タイトル、発表年、筆頭著者名、文献の掲載された媒体名等)によってなされてもよい。
(2) Method Using Document Classification or Document Clustering A method for classifying or clustering a plurality of document information has been conventionally known. For example, it is disclosed in the above-mentioned documents “Modern Information Retrieval”, “Information Retrieval and Language Processing”, “Text Mining: Predictive Methods for Analyzing Information”, and the like. In this method, the document information classified into the same group or clustered is identified on the assumption that the document information is the same field. More specifically, the document information classified into the same group as the document information searched by the search unit 1013 or clustered is specified, and the specifying unit 1014 has the same field as the document information searched by the search unit 1013. The literature information of is specified. The identification of the document information in this case may be performed by, for example, a document ID for identifying the document information or bibliographic information of the document information (title, publication year, first author name, medium name on which the document is published, etc.).

文献情報取得部1015は、文献情報取得部1015で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する。文献情報取得部1015は、検索部1013によって検索された文献情報の全部または一部を取得する。文献情報取得部1015が文献情報の一部を取得する場合に、その文献情報の一部は、例えば、文献情報のタイトルや要約等であってもよい。例えば、その取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部1015は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を、文献情報の一部として取得してもよい。文献情報取得部1015が文献情報の一部を取得し、検索部1013が文献情報の一部を検索する場合に、その取得する文献情報の一部と、検索で用いる文献情報の一部とは、文献情報の同じ部分であってもよく、あるいは、文献情報の異なる部分であってもよい。   The document information acquisition unit 1015 acquires all or a part of at least a part of the document information among the plurality of document information stored in the document information acquisition unit 1015. The document information acquisition unit 1015 acquires all or part of the document information searched by the search unit 1013. When the document information acquisition unit 1015 acquires part of the document information, the part of the document information may be, for example, a title or summary of the document information. For example, information indicating an item corresponding to the part to be acquired is stored in a recording medium (not shown), and the document information acquiring unit 1015 reads information indicating the item from the recording medium, and the document information corresponding to the item May be acquired as part of the document information. When the document information acquisition unit 1015 acquires a part of the document information and the search unit 1013 searches for a part of the document information, a part of the document information to be acquired and a part of the document information used in the search The same part of the document information may be used, or a different part of the document information may be used.

文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部も文献情報記憶部1012から取得する。例えば、引用文献識別情報によって文献情報が特定されている場合には、文献情報取得部1015は、引用文献識別情報を用いて文献情報記憶部1012を検索して、その検索された文献情報の全部または一部を取得する。ここで、文献情報取得部1015が特定部1014による特定結果を用いて取得する文献情報の領域は、文献情報取得部1015が検索部1013による検索結果を用いて取得する文献情報の領域と同様であるとする。例えば、文献情報取得部1015が検索結果を用いて文献情報のタイトルを取得する場合には、文献情報取得部1015は、特定された文献情報のタイトルを取得するものとする。
文献情報取得部1015は、検索結果や特定結果に応じて取得した文献情報の全部または一部を、図示しない記録媒体において一時的に記憶してもよい。
The document information acquisition unit 1015 also acquires all or part of the document information specified by the specifying unit 1014 from the document information storage unit 1012. For example, when the document information is specified by the cited document identification information, the document information acquisition unit 1015 searches the document information storage unit 1012 using the cited document identification information, and all of the retrieved document information. Or get some. Here, the document information area acquired by the document information acquisition unit 1015 using the specified result by the specifying unit 1014 is the same as the document information area acquired by the document information acquiring unit 1015 using the search result by the search unit 1013. Suppose there is. For example, when the document information acquisition unit 1015 acquires the title of the document information using the search result, the document information acquisition unit 1015 acquires the title of the specified document information.
The document information acquisition unit 1015 may temporarily store all or part of the document information acquired according to the search result or the specific result in a recording medium (not shown).

技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する。文献情報取得部1015が取得した文献情報とは、文献情報取得部1015が、その一部または全部を取得した文献情報のことである。ここで、技術用語とは、検索部1013が検索した技術文献の分野において用いられる用語である。この技術用語は、検索部1013が検索した技術文献の分野における要素となる技術用語であることが好ましい。この技術用語の変遷を見ることにより、技術動向を知ることができうる。技術用語抽出部1016が抽出する技術用語は、実際には技術用語を示す情報であるが、単に技術用語と呼ぶことにする。技術用語抽出部1016が技術用語を抽出する方法については後述する。技術用語抽出部1016は、抽出した技術用語を図示しない記録媒体において一時的に記憶してもよい。   The technical term extraction unit 1016 extracts technical terms from all or part of the document information acquired by the document information acquisition unit 1015. The document information acquired by the document information acquisition unit 1015 is the document information acquired by the document information acquisition unit 1015 partially or entirely. Here, the technical term is a term used in the technical literature field searched by the search unit 1013. This technical term is preferably a technical term that is an element in the technical literature field searched by the search unit 1013. By looking at the transition of this technical term, it is possible to know the technical trend. The technical term extracted by the technical term extraction unit 1016 is actually information indicating the technical term, but is simply referred to as a technical term. A method by which the technical term extraction unit 1016 extracts technical terms will be described later. The technical term extraction unit 1016 may temporarily store the extracted technical terms in a recording medium (not shown).

時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報取得部1015から取得する。例えば、文献情報取得部1015が取得した文献情報に対応する時期情報を時期情報取得部1017が取得することにより、時期情報取得部1017は、前述の時期情報を取得することができる。この場合に、ある文献情報から技術用語が抽出されなかった場合には、その文献情報に対応する時期情報を取得しなくてもよく、あるいは、その文献情報に対応する時期情報を後述する技術動向情報の作成で用いないようにしてもよい。   The time information acquisition unit 1017 acquires time information corresponding to the document information including the technical term extracted by the technical term extraction unit 1016 from the document information acquisition unit 1015. For example, when the time information acquisition unit 1017 acquires time information corresponding to the document information acquired by the document information acquisition unit 1015, the time information acquisition unit 1017 can acquire the above-described time information. In this case, when a technical term is not extracted from certain document information, it is not necessary to acquire time information corresponding to the document information, or a technical trend that describes time information corresponding to the document information later. It may not be used in the creation of information.

技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて技術動向情報を作成する。ここで、技術動向情報とは、技術用語と、その技術用語を含む技術文献に関する時期とを対応付ける情報である。すなわち、技術動向情報によって、ある技術用語がどの時期に使用されていたのかを知ることができうる。技術動向情報において、技術用語と対応付けられる時期は、時期情報そのもの(例えば、年月等の数値そのもの)であってもよく、あるいは、時期情報とは異なるもの(例えば、年月等に対応した図形等)であってもよい。後者の場合には、例えば、時期を示す座標軸を用いて、技術情報と対応付けられる時期が示されてもよい。この技術動向情報は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とが対応付けられた情報であれば、そのデータ形式を問わない。例えば、テキストファイルであってもよく、スプレッドシート形式のファイルであってもよく、画像ファイルであってもよく、その他の形式のファイルであってもよい。この技術動向情報は、例えば、技術用語ごとに、その技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であってもよい。技術動向情報には、検索用語受付部1011が受け付けた検索用語が含まれてもよい。   The technical trend information creation unit 1018 creates technical trend information using the technical terms extracted by the technical term extraction unit 1016 and the timing information acquired by the timing information acquisition unit 1017. Here, the technical trend information is information that associates a technical term with a period related to a technical document including the technical term. That is, it is possible to know when a certain technical term was used by the technology trend information. In the technical trend information, the time associated with the technical term may be the time information itself (for example, the numerical value itself such as the year or month), or different from the time information (for example, the year, month, etc.) Graphic etc.). In the latter case, for example, a time associated with the technical information may be indicated using a coordinate axis indicating the time. The technical trend information may be in any data format as long as the technical term extracted by the technical term extraction unit 1016 and the time information acquired by the time information acquisition unit 1017 are associated with each other. For example, it may be a text file, a spreadsheet format file, an image file, or another format file. This technical trend information may be, for example, an image indicating the time indicated by the time information corresponding to the document information including the technical term for each technical term. The technical trend information may include a search term accepted by the search term acceptance unit 1011.

出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、出力部1019は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部1019は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。例えば、技術動向情報が画像である場合には、出力部1019は、その技術動向情報を表示出力する。   The output unit 1019 outputs the technology trend information created by the technology trend information creation unit 1018. Here, the output may be, for example, display on a display device (for example, a CRT or a liquid crystal display), transmission via a communication line to a predetermined device, printing by a printer, or output to a recording medium. It may be accumulated. The output unit 1019 may or may not include an output device (for example, a display device or a printer). The output unit 1019 may be realized by hardware, or may be realized by software such as a driver that drives these devices. For example, when the technology trend information is an image, the output unit 1019 displays and outputs the technology trend information.

なお、この技術動向情報作成装置1001において用いられる言語は問わない。例えば、日本語であってもよく、英語であってもよく、フランス語であってもよく、中国語であってもよく、韓国語であってもよい。   In addition, the language used in this technical trend information creation apparatus 1001 is not ask | required. For example, the language may be Japanese, English, French, Chinese, Korean.

次に、本実施の形態による技術動向情報作成装置1001の動作について、図17のフローチャートを用いて説明する。
(ステップS1101)検索用語受付部1011は、検索用語を受け付けたかどうか判断する。そして、検索用語を受け付けた場合には、ステップS1102に進み、そうでない場合には、検索用語を受け付けるまでステップS1101の処理を繰り返す。
Next, the operation of the technical trend information creation apparatus 1001 according to this embodiment will be described using the flowchart of FIG.
(Step S1101) The search term receiving unit 1011 determines whether a search term has been received. If a search term is accepted, the process proceeds to step S1102, and if not, the process of step S1101 is repeated until a search term is accepted.

(ステップS1102)検索部1013は、検索用語受付部1011が受け付けた検索用語で、文献情報記憶部1012を検索する。検索部1013は、例えば、検索された文献情報を識別する文献IDを取得してもよい。   (Step S1102) The search unit 1013 searches the document information storage unit 1012 with the search terms received by the search term receiving unit 1011. For example, the search unit 1013 may acquire a document ID that identifies the searched document information.

(ステップS1103)特定部1014は、検索部1013が検索した文献情報と分野が同一の文献情報を特定する。なお、この処理の詳細については後述する。   (Step S1103) The identifying unit 1014 identifies document information having the same field as the document information searched by the search unit 1013. Details of this process will be described later.

(ステップS1104)文献情報取得部1015は、検索部1013が検索した文献情報の全部または一部と、特定部1014が特定した文献情報の全部または一部とを文献情報記憶部1012から取得する。なお、この処理の詳細については後述する。   (Step S1104) The document information acquisition unit 1015 acquires all or part of the document information searched by the search unit 1013 and all or part of the document information specified by the specifying unit 1014 from the document information storage unit 1012. Details of this process will be described later.

(ステップS1105)技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から、技術用語を抽出する。この処理の詳細については後述する。   (Step S1105) The technical term extraction unit 1016 extracts technical terms from all or a part of the document information acquired by the document information acquisition unit 1015. Details of this processing will be described later.

(ステップS1106)時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報記憶部1012から取得する。   (Step S1106) The time information acquisition unit 1017 acquires the time information corresponding to the document information including the technical term extracted by the technical term extraction unit 1016 from the document information storage unit 1012.

(ステップS1107)技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて、技術動向情報を作成する。   (Step S1107) The technical trend information creation unit 1018 creates technical trend information using the technical terms extracted by the technical term extraction unit 1016 and the timing information acquired by the timing information acquisition unit 1017.

(ステップS1108)出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。そして、ステップS1101に戻る。なお、技術動向情報の出力が、表示出力のように継続して行うことができる場合には、一定の時間の経過後に、その出力を終了してもよく、あるいは、終了する指示や割り込み処理等の受け付け等をトリガーとして、その出力を終了してもよい。
なお、図17のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
(Step S1108) The output unit 1019 outputs the technology trend information created by the technology trend information creation unit 1018. Then, the process returns to step S1101. If the technology trend information can be output continuously as in the case of display output, the output may be terminated after a certain period of time has passed, or the termination instruction, interrupt processing, etc. The output may be terminated with the reception of the message as a trigger.
In the flowchart of FIG. 17, the process ends when the power is turned off or the process ends.

また、図17のフローチャートにおける検索処理(ステップS1102)や、文献情報の取得処理(ステップS1104)、技術用語の抽出処理(ステップS1105)、時期情報の取得処理(ステップS1106)等において、何も検索されなかったり、文献情報等が取得されなかったりした場合などには、エラーであるとしてステップS1101に戻るようにしてもよい。   Also, nothing is searched in the search process (step S1102), the document information acquisition process (step S1104), the technical term extraction process (step S1105), the time information acquisition process (step S1106), etc. in the flowchart of FIG. If no information is obtained or no document information is acquired, it may be determined that an error has occurred, and the process may return to step S1101.

また、文献情報の特定処理(ステップS1103)において文献情報が特定されなかった場合でも、ステップS1104に進んでもよく、ステップS1101に戻ってもよい。本実施の形態では、前者の場合について説明する。   Even when the document information is not specified in the document information specifying process (step S1103), the process may proceed to step S1104 or may return to step S1101. In the present embodiment, the former case will be described.

また、図17のフローチャートの処理の順序は、ある程度、任意である。例えば、時期情報を取得する処理は、文献情報の特定処理の後であれば、文献情報の取得処理や技術用語の抽出処理よりも以前に行われてもよい。   Further, the order of processing in the flowchart of FIG. 17 is arbitrary to some extent. For example, the process for acquiring the time information may be performed before the process for acquiring the document information or the process for extracting the technical terms as long as it is after the process for specifying the document information.

次に、図17のフローチャートにおける文献情報の特定処理(ステップS1103)の詳細な処理について、図18のフローチャートを用いて説明する。なお、文献情報の特定の方法には前述のように各種の方法が存在するが、ここでは、引用文献識別情報と引用形式とを用いて文献情報を特定する方法について説明する。
(ステップS1201)特定部1014は、カウンタiを1に設定する。
Next, detailed processing of the document information identification processing (step S1103) in the flowchart of FIG. 17 will be described with reference to the flowchart of FIG. As described above, there are various methods for specifying document information. Here, a method for specifying document information using cited document identification information and a cited format will be described.
(Step S1201) The identifying unit 1014 sets the counter i to 1.

(ステップS1202)特定部1014は、検索部1013が検索したi番目の文献情報から、すべての引用文献識別情報と、各引用文献識別情報に対応する引用情報とを取得する。なお、前述のように、引用文献識別情報は、引用情報に含まれていてもよく、そうでなくてもよい。また、このステップにおいて、検索部1013が検索したi番目の文献情報に引用文献識別情報がまったく含まれなかった場合には、引用文献識別情報等の取得を行わないでステップS1203に進む。   (Step S1202) The identifying unit 1014 acquires all the cited document identification information and the cited information corresponding to each cited document identification information from the i-th document information searched by the search unit 1013. As described above, the cited document identification information may or may not be included in the cited information. Further, in this step, when the cited document identification information is not included at all in the i-th document information searched by the search unit 1013, the process proceeds to step S1203 without acquiring the cited document identification information.

(ステップS1203)特定部1014は、カウンタjを1に設定する。
(ステップS1204)特定部1014は、検索されたi番目の文献情報から取得されたj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS1205に進み、そうでない場合には、ステップS1208に進む。
(Step S1203) The identifying unit 1014 sets the counter j to 1.
(Step S1204) The identifying unit 1014 determines whether or not the j-th cited document identification information acquired from the searched i-th document information exists. If it exists, the process proceeds to step S1205; otherwise, the process proceeds to step S1208.

(ステップS1205)特定部1014は、j番目の引用文献識別情報に対応する引用情報の引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS1206に進み、そうでない場合には、ステップS1207に進む。   (Step S1205) The identifying unit 1014 determines whether the citation format of the citation information corresponding to the j-th cited document identification information is type C. If it is type C, the process proceeds to step S1206. If not, the process proceeds to step S1207.

(ステップS1206)特定部1014は、j番目の引用文献識別情報を図示しない記録媒体において一時記憶する。この一時記憶された引用文献識別情報で識別される文献情報が、特定された文献情報となる。   (Step S1206) The specifying unit 1014 temporarily stores the j-th cited document identification information in a recording medium (not shown). The document information identified by the temporarily stored cited document identification information becomes the identified document information.

(ステップS1207)特定部1014は、カウンタjを1だけインクリメントする。そして、ステップS1204に戻る。
(ステップS1208)特定部1014は、カウンタiを1だけインクリメントする。
(Step S1207) The identifying unit 1014 increments the counter j by 1. Then, the process returns to step S1204.
(Step S1208) The identifying unit 1014 increments the counter i by 1.

(ステップS1209)特定部1014は、検索部1013によって検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1202に戻り、そうでない場合には、文献情報を特定する一連の処理は終了となり、ステップS1104に進む。   (Step S1209) The specifying unit 1014 determines whether or not the i-th document information searched by the search unit 1013 exists. If it exists, the process returns to step S1202, and if not, the series of processes for specifying the document information ends, and the process proceeds to step S1104.

次に、図17のフローチャートにおける文献情報の取得処理(ステップS1104)の詳細な処理について、図19のフローチャートを用いて説明する。
(ステップS1301)文献情報取得部1015は、検索部1013による検索結果の示す各文献情報の全部または一部を取得する。この処理の詳細については後述する。
Next, detailed processing of the document information acquisition processing (step S1104) in the flowchart of FIG. 17 will be described using the flowchart of FIG.
(Step S1301) The document information acquisition unit 1015 acquires all or part of each document information indicated by the search result by the search unit 1013. Details of this processing will be described later.

(ステップS1302)文献情報取得部1015は、特定部1014によって文献情報が特定されたかどうか判断する。そして、文献情報が特定された場合には、ステップS1303に進み、そうでない場合には、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。   (Step S1302) The document information acquisition unit 1015 determines whether or not the document information is specified by the specifying unit 1014. If the document information is specified, the process proceeds to step S1303. If not, the series of processes for obtaining the document information ends, and the process proceeds to step S1105.

(ステップS1303)文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部を取得する。なお、この処理の詳細については後述する。この処理が終了すると、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。   (Step S1303) The document information acquisition unit 1015 acquires all or part of the document information specified by the specifying unit 1014. Details of this process will be described later. When this process ends, a series of processes for acquiring document information ends, and the process proceeds to step S1105.

次に、図19のフローチャートにおける検索結果の示す各文献情報の全部または一部を取得する処理について、図20のフローチャートを用いて説明する。   Next, processing for acquiring all or part of each piece of document information indicated by the search result in the flowchart of FIG. 19 will be described with reference to the flowchart of FIG.

(ステップS1401)文献情報取得部1015は、カウンタiを1に設定する。
(ステップS1402)文献情報取得部1015は、i番目の検索結果の示す文献情報の全部または一部を取得する。
(Step S1401) The literature information acquisition unit 1015 sets the counter i to 1.
(Step S1402) The document information acquisition unit 1015 acquires all or part of the document information indicated by the i-th search result.

(ステップS1403)文献情報取得部1015は、ステップS1402で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(ステップS1404)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(Step S1403) The document information acquisition unit 1015 temporarily stores all or part of the document information acquired in Step S1402 in a recording medium (not shown). This recording medium may be included in the document information acquisition unit 1015 or may be included in other components.
(Step S1404) The document information acquisition unit 1015 increments the counter i by 1.

(ステップS1405)文献情報取得部1015は、i番目の検索結果が存在するかどうか判断する。そして、存在する場合には、ステップS1402に戻り、そうでない場合には、検索結果の示す各文献情報の全部または一部を取得する一連の処理は終了となり、ステップS1302に進む。   (Step S1405) The document information acquisition unit 1015 determines whether or not the i-th search result exists. If it exists, the process returns to step S1402. If not, the series of processes for acquiring all or part of each document information indicated by the search result ends, and the process proceeds to step S1302.

次に、図18のフローチャートにおける特定された文献情報の全部または一部の取得処理について、図21のフローチャートを用いて説明する。
(ステップS1501)文献情報取得部1015は、カウンタiを1に設定する。
Next, processing for acquiring all or part of the specified document information in the flowchart of FIG. 18 will be described with reference to the flowchart of FIG.
(Step S1501) The literature information acquisition unit 1015 sets the counter i to 1.

(ステップS1502)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部をまだ取得していないかどうか判断する。そして、取得していない場合には、ステップS1503に進み、取得している場合には、ステップS1505に進む。この判断は、例えば、ステップS1403で文献情報取得部1015によって取得された文献情報の一時記憶されている図示しない記録媒体を参照することによって行うことができる。   (Step S1502) The document information acquisition unit 1015 determines whether all or a part of the i-th document information specified by the specifying unit 1014 has not been acquired yet. If not acquired, the process proceeds to step S1503. If acquired, the process proceeds to step S1505. This determination can be made, for example, by referring to a recording medium (not shown) in which the document information acquired by the document information acquisition unit 1015 in step S1403 is temporarily stored.

(ステップS1503)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部を取得する。
(ステップS1504)文献情報取得部1015は、ステップS1503で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(Step S1503) The document information acquisition unit 1015 acquires all or part of the i-th document information specified by the specifying unit 1014.
(Step S1504) The document information acquisition unit 1015 temporarily stores all or part of the document information acquired in Step S1503 in a recording medium (not shown). This recording medium may be included in the document information acquisition unit 1015 or may be included in other components.

(ステップS1505)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(ステップS1506)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1502に戻り、そうでない場合には、特定された文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
(Step S1505) The literature information acquisition unit 1015 increments the counter i by 1.
(Step S1506) The document information acquisition unit 1015 determines whether or not the i-th document information specified by the specifying unit 1014 exists. If it exists, the process returns to step S1502, and if not, the series of processes for acquiring the specified document information ends, and the process proceeds to step S1105.

次に、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する方法について説明する。
まず、技術用語を抽出する基本的な原理について説明する。文献情報取得部1015が取得した文献情報の全部または一部には、検索や特定されたメイントピックの分野における技術用語が含まれていると仮定している。そして、その技術用語は一般的に、所定の手がかり語句と対応していることが多いと考えられる。特に、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称も含まれる場合には、技術用語は、メイントピックの名称と所定の手がかり語句を介して対応付けられていることが多いと考えられる。
Next, a method for extracting technical terms from all or part of the document information acquired by the document information acquisition unit 1015 will be described.
First, the basic principle of extracting technical terms will be described. It is assumed that all or a part of the document information acquired by the document information acquisition unit 1015 includes technical terms in the field of the main topic that has been searched or specified. The technical terms are generally considered to often correspond to predetermined clue phrases. In particular, when the name of the main topic is also included in all or part of the document information acquired by the document information acquisition unit 1015, the technical term is associated with the name of the main topic via a predetermined clue phrase. It is thought that there are many cases.

例えば、メイントピックの名称が「文抽出」である場合に、文献情報取得部1015が文献情報の一部「SVMを用いた文抽出」を取得したとすると、メイントピックの名称「文抽出」と、その分野における技術用語「SVM」とが、手がかり語句「を用いた」を介して対応付けられていることがわかる。また、例えば、メイントピックの名称が「字幕生成」である場合に、文献情報取得部1015が文献情報の一部「字幕生成のための文短縮」を取得したとすると、メイントピックの名称「字幕生成」と、その分野における技術用語「文短縮」とが、手がかり語句「のための」を介して対応付けられていることがわかる。また、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称が含まれない場合であっても、手がかり語句を用いることによって、技術用語を特定することは可能であると考えられる。   For example, when the name of the main topic is “sentence extraction” and the document information acquisition unit 1015 acquires part of the document information “sentence extraction using SVM”, the name of the main topic “sentence extraction” The technical term “SVM” in that field is associated with the clue word “using”. Further, for example, when the name of the main topic is “caption generation” and the document information acquisition unit 1015 acquires a part of the document information “sentence reduction for caption generation”, the name of the main topic “caption” It can be seen that the “generation” is associated with the technical term “sentence shortening” in the field via the clue word “for”. In addition, even when the name of the main topic is not included in all or part of the document information acquired by the document information acquisition unit 1015, it is possible to specify the technical term by using the clue word / phrase. Conceivable.

したがって、それらの手がかり語句を特定し、その手がかり語句で文献情報取得部1015が取得した文献情報の全部または一部を検索し、その検索された手がかり語句に対応する用語を技術用語として抽出することができうる。なお、それだけの方法であれば、適切でない技術用語を抽出する可能性もありうるため、発明者らは、より精度を上げるための方策についても考えている。以下、具体的に、技術用語抽出部1016の構成及び動作について説明する。   Therefore, identifying those clue words, searching all or part of the document information acquired by the document information acquisition unit 1015 using the clue words, and extracting the terms corresponding to the searched clue words as technical terms Can be done. In addition, if it is only that method, there is a possibility that an inappropriate technical term may be extracted, so the inventors have also considered a measure for increasing the accuracy. Hereinafter, the configuration and operation of the technical term extraction unit 1016 will be specifically described.

[パターン1]
図22は、パターン1における技術用語抽出部1016の構成を示すブロック図である。図22において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語抽出手段1023とを備える。なお、文献情報取得部1015が取得した文献情報の全部または一部は、文献情報一時記憶手段1020で記憶されているものとする。この文献情報一時記憶手段1020は、例えば、文献情報取得部1015が有してもよく、技術用語抽出部1016が有してもよく、あるいは、その他の構成要素が有してもよい。
[Pattern 1]
FIG. 22 is a block diagram illustrating a configuration of the technical term extraction unit 1016 in the pattern 1. In FIG. 22, the technical term extraction unit 1016 includes a clue phrase storage unit 1021, a clue phrase search unit 1022, and a technical term extraction unit 1023. Note that all or part of the document information acquired by the document information acquisition unit 1015 is stored in the document information temporary storage unit 1020. For example, the document information temporary storage unit 1020 may be included in the document information acquisition unit 1015, the technical term extraction unit 1016, or may be included in other components.

手がかり語句記憶手段1021では、1以上の手がかり語句が記憶される。この手がかり語句は、上記説明のように、技術用語の抽出で用いられるための手がかり語句であり、適切な技術用語の抽出を行うことができるようにあらかじめ決められているものである。なお、この手がかり語句は、実際には手がかり語句を示す情報であるが、単に手がかり語句と呼ぶことにする。手がかり語句記憶手段1021は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。手がかり語句記憶手段1021に手がかり語句が記憶される過程は問わない。例えば、記録媒体を介して手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、通信回線等を介して送信された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよい。   The clue phrase storage unit 1021 stores one or more clue phrases. As described above, this clue word / phrase is a clue word / phrase to be used for extracting technical terms, and is determined in advance so that appropriate technical terms can be extracted. Note that this clue word is actually information indicating the clue word, but is simply referred to as a clue word. The clue word storage means 1021 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process of storing the clue word / phrase in the clue word / phrase storage unit 1021 is not limited. For example, a clue word / phrase may be stored in the clue word / phrase storage means 1021 via a recording medium, and a clue word / phrase transmitted via a communication line or the like is stored in the clue word / phrase storage means 1021. Alternatively, the clue word / phrase input via the input device may be stored in the clue word / phrase storage unit 1021.

手がかり語句検索手段1022は、文献情報取得部1015が取得した文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されている手がかり語句を検索する。   The clue phrase search unit 1022 searches for clue phrases stored in the clue phrase storage unit 1021 in all or part of the document information acquired by the document information acquisition unit 1015.

技術用語抽出手段1023は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を技術用語として抽出する。手がかり語句と所定の関係を有する用語とは、例えば、手がかり語句の前にある用語や、手がかり語句の後にある用語等である。この関係は、手がかり語句ごとに決まっていてもよく、手がかり語句の属性ごとに決まっていてもよい。手がかり語句の属性とは、例えば、その手がかり語句が技術用語とメイントピックとを関係付ける関係であってもよい。例えば、手がかり語句の属性として、「Method」や、「Goal」等がある。属性「Method」を有する手がかり語句としては、例えば、「による」、「に基づく」、「を用いた」等が存在する。属性「Goal」を有する手がかり語句としては、例えば、「のための」、「に向けて」等がある。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。   The technical term extraction unit 1023 extracts a term having a predetermined relationship with the clue phrase searched by the clue phrase search unit 1022 as a technical term. The term having a predetermined relationship with the clue word / phrase is, for example, a term before the clue word / phrase or a term after the clue word / phrase. This relationship may be determined for each clue word, or may be determined for each attribute of the clue word. The attribute of the clue word / phrase may be, for example, a relationship in which the clue word / phrase relates the technical term to the main topic. For example, there are “Method”, “Goal”, and the like as attributes of clue words. Examples of clue words having the attribute “Method” include “by”, “based on”, “using”, and the like. Examples of clue words having the attribute “Goal” include “for” and “toward”. The technical term extraction means 1023 may temporarily store the extracted technical terms on a recording medium (not shown).

技術用語抽出手段1023は、例えば、手がかり語句と所定の関係を有する連続した名詞句を技術用語として抽出してもよく、あるいは、あらかじめ技術用語となりうる用語の候補を図示しない記録媒体において保持しておき、手がかり語句と所定の関係を有する用語であって、その保持している技術用語の候補と一致するものを技術用語として抽出してもよい。   The technical term extraction unit 1023 may extract, for example, a continuous noun phrase having a predetermined relationship with a clue word phrase as a technical term, or hold a candidate word that can be a technical term in advance on a recording medium (not shown). Alternatively, terms that have a predetermined relationship with a clue word and that match a technical term candidate held therein may be extracted as a technical term.

次に、パターン1における技術用語抽出部1016の動作について、図23のフローチャートを用いて説明する。この図23のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。
(ステップS1601)技術用語抽出部1016は、カウンタiを1に設定し、カウンタjを1に設定する。
Next, the operation of the technical term extraction unit 1016 in Pattern 1 will be described using the flowchart of FIG. The process of the flowchart of FIG. 23 corresponds to the technical term extraction process (step S1105) in the flowchart of FIG.
(Step S1601) The technical term extraction unit 1016 sets the counter i to 1 and sets the counter j to 1.

(ステップS1602)手がかり語句検索手段1022は、文献情報取得部1015が取得したi番目の文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されているj番目の手がかり語句を検索する。そして、検索された場合には、ステップS1603に進み、そうでない場合には、ステップS1606に進む。   (Step S1602) The clue phrase search unit 1022 searches the j-th clue phrase stored in the clue phrase storage unit 1021 in all or part of the i-th document information acquired by the document information acquisition unit 1015. If a search is made, the process proceeds to step S1603. If not, the process proceeds to step S1606.

(ステップS1603)技術用語抽出手段1023は、検索された手がかり語句と所定の関係にある用語を技術用語として抽出する。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。   (Step S1603) The technical term extraction unit 1023 extracts a term having a predetermined relationship with the searched clue phrase as a technical term. The technical term extraction means 1023 may temporarily store the extracted technical terms on a recording medium (not shown).

(ステップS1604)技術用語抽出部1016は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(ステップS1605)技術用語抽出部1016は、文献情報取得部1015が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、技術用語を抽出する一連の処理は終了となり、ステップS1106に進む。
(Step S1604) The technical term extraction unit 1016 increments the counter i by 1, and sets the counter j to 1.
(Step S1605) The technical term extraction unit 1016 determines whether or not the i-th document information acquired by the document information acquisition unit 1015 exists. If it exists, the process returns to step S1602, and if not, the series of processes for extracting the technical term ends, and the process proceeds to step S1106.

(ステップS1606)技術用語抽出部1016は、カウンタjを1だけインクリメントする。
(ステップS1607)技術用語抽出部1016は、手がかり語句記憶手段1021にj番目の手がかり語句が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、ステップS1604に進む。
(Step S1606) The technical term extraction unit 1016 increments the counter j by 1.
(Step S1607) The technical term extraction unit 1016 determines whether or not the j-th clue phrase exists in the clue phrase storage unit 1021. If it exists, the process returns to step S1602, and if not, the process proceeds to step S1604.

なお、このフローチャートでは、手がかり語句のみを用いて技術用語の抽出を行う場合について説明したが、手がかり語句と共に、検索用語を用いて技術用語の抽出を行ってもよい。そのようにすることで、技術用語の抽出精度を向上させることができうる。例えば、文献情報の一部「SVMを用いた文抽出」から技術用語を抽出する場合に、検索用語が「文抽出」であれば、その検索用語「文抽出」と手がかり語句「を用いた」で対応付けられる用語「SVM」を適切に抽出することができる。一方、検索用語が「SVM」であれば、抽出すべき用語(手がかり語句「を用いた」の前の用語)と、検索用語とが同じになるため、不適切であるとして、その用語の抽出を行わないようにすることができる。なお、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって少なくとも取得された場合には、検索用語を用いた技術用語の抽出を行うことができうるが、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって取得されなかった場合や、特定部1014が特定した文献情報であって、検索用語を含まない文献情報が取得された場合には、検索用語を用いた技術用語の抽出を行うことができないこともある。なお、検索用語を用いた技術用語の抽出を行ってもよいことは、以下のパターンにおいても同様である。
このようにして、技術用語の抽出を行うことができる。
In this flowchart, the case where the technical terms are extracted using only the clue words / phrases has been described. However, the technical terms may be extracted using the search terms together with the clue words / phrases. By doing so, the extraction accuracy of technical terms can be improved. For example, when a technical term is extracted from a part of document information “sentence extraction using SVM”, if the search term is “sentence extraction”, the search term “sentence extraction” and the clue phrase “use” are used. The term “SVM” associated with can be appropriately extracted. On the other hand, if the search term is “SVM”, the term to be extracted (the term before the clue word “using”) and the search term are the same, so that the term is extracted as inappropriate. Can be avoided. It should be noted that if at least the document information area including the search term searched by the search unit 1013 is acquired by the document information acquisition unit 1015, the technical term can be extracted using the search term. When the document information area including the search term searched by the unit 1013 is not acquired by the document information acquisition unit 1015 or the document information specified by the specifying unit 1014 and does not include the search term is acquired. In this case, technical terms may not be extracted using the search terms. Note that technical terms may also be extracted using search terms in the following patterns.
In this way, technical terms can be extracted.

[パターン2]
図24は、パターン2における技術用語抽出部1016の構成を示すブロック図である。図24において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、専門用語記憶手段1024と、技術用語抽出手段1025とを備える。なお、専門用語記憶手段1024、及び技術用語抽出手段1025以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
[Pattern 2]
FIG. 24 is a block diagram illustrating a configuration of the technical term extraction unit 1016 in the pattern 2. 24, the technical term extraction unit 1016 includes a clue phrase storage unit 1021, a clue phrase search unit 1022, a technical term storage unit 1024, and a technical term extraction unit 1025. The configuration and operation other than the technical term storage unit 1024 and the technical term extraction unit 1025 are the same as those in the pattern 1, and the description thereof is omitted.

専門用語記憶手段1024では、2以上の専門用語が記憶される。ここで、専門用語とは、1以上の研究分野における専門的な用語であって、技術用語となりうる用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。この専門用語は、例えば、人によって決定されたものであってもよく、複数の技術文献から機械的に取得されたものであってもよい。後者の場合には、例えば、技術文献を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を取得する方法については、下記の複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。また、専門用語リストを作成するツールとして、TermExtractも公開されている(http://gensen.dl.itc.u−tokyo.ac.jp/termextract.html)。   The technical term storage means 1024 stores two or more technical terms. Here, technical terms are technical terms in one or more research fields and can be technical terms. This technical term is actually information indicating a technical term, but is simply referred to as a technical term. This technical term may be determined by a person, for example, or may be obtained mechanically from a plurality of technical literatures. In the latter case, for example, by extracting morphological analysis of technical literature, single nouns are extracted, scoring is performed to indicate the possibility of being a technical term for each single noun, and a single noun given a high score. Etc. may be acquired as technical terms. Here, as a method for assigning a score, a plurality of types such as scoring based on word-making ability and scoring based on appearance frequency are known. Further, other methods may be used. About the method of acquiring a technical term, since it is disclosed by the following some literature etc. and is conventionally known, the detailed description is abbreviate | omitted. Also, TermExtract has been released as a tool for creating a technical term list (http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html).

文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000   Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000

文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126   Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126

文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月   References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003

なお、専門用語記憶手段1024は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、専門用語記憶手段1024に専門用語が記憶される過程は問わない。例えば、記録媒体を介して専門用語が専門用語記憶手段1024で記憶されるようになってもよく、通信回線等を介して送信された専門用語が専門用語記憶手段1024で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された専門用語が専門用語記憶手段1024で記憶されるようになってもよい。   The technical term storage unit 1024 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). Moreover, the process in which a technical term is memorize | stored in the technical term storage means 1024 does not ask | require. For example, the technical term may be stored in the technical term storage unit 1024 via the recording medium, and the technical term transmitted via the communication line or the like is stored in the technical term storage unit 1024. Alternatively, the technical term input via the input device may be stored in the technical term storage unit 1024.

技術用語抽出手段1025は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語に、専門用語記憶手段1024で記憶されている専門用語が含まれる場合に、その専門用語を技術用語として抽出する。このようにすることで、専門用語記憶手段1024で記憶されている専門用語以外は技術用語として抽出されないことになるため、技術用語抽出手段1025が「研究」や「手法」といった一般名詞、「提案手法」のような非専門用語等を抽出する事態を回避することができうる。   The technical term extraction unit 1025 converts the technical term into the technical term when the technical term stored in the technical term storage unit 1024 is included in the term having a predetermined relationship with the clue term searched by the clue phrase searching unit 1022. Extract as In this way, technical terms other than the technical terms stored in the technical term storage means 1024 are not extracted as technical terms. Therefore, the technical term extraction means 1025 can use general nouns such as “research” and “method”, “proposal The situation of extracting non-technical terms such as “method” can be avoided.

次に、パターン2における技術用語抽出部1016の動作について、図25のフローチャートを用いて説明する。この図25のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1701〜S1706以外の処理は、技術用語抽出手段1023が技術用語抽出手段1025となった以外、図23のフローチャートと同様であり、その説明を省略する。   Next, the operation of the technical term extraction unit 1016 in pattern 2 will be described using the flowchart of FIG. The process of the flowchart of FIG. 25 corresponds to the technical term extraction process (step S1105) in the flowchart of FIG. In this flowchart, processes other than steps S1701 to S1706 are the same as those in the flowchart of FIG. 23 except that the technical term extraction unit 1023 is changed to the technical term extraction unit 1025, and a description thereof will be omitted.

(ステップS1701)技術用語抽出手段1025は、検索された手がかり語句と所定の関係にある用語を抽出する。
(ステップS1702)技術用語抽出手段1025は、カウンタkを1に設定する。
(Step S1701) The technical term extraction means 1025 extracts terms having a predetermined relationship with the searched clue words / phrases.
(Step S1702) The technical term extraction means 1025 sets the counter k to 1.

(ステップS1703)技術用語抽出手段1025は、ステップS1701で抽出した用語に、専門用語記憶手段1024で記憶されているk番目の専門用語が含まれるかどうか判断する。そして、含まれる場合には、ステップS1704に進み、そうでない場合には、ステップS1705に進む。   (Step S1703) The technical term extraction unit 1025 determines whether or not the term extracted in step S1701 includes the kth technical term stored in the technical term storage unit 1024. If it is included, the process proceeds to step S1704. If not, the process proceeds to step S1705.

(ステップS1704)技術用語抽出手段1025は、ステップS1701で抽出した用語に含まれるk番目の専門用語を技術用語として抽出する。
(ステップS1705)技術用語抽出手段1025は、カウンタkを1だけインクリメントする。
(Step S1704) The technical term extraction means 1025 extracts the k-th technical term included in the term extracted in step S1701 as a technical term.
(Step S1705) The technical term extraction means 1025 increments the counter k by 1.

(ステップS1706)技術用語抽出手段1025は、k番目の専門用語が専門用語記憶手段1024に存在するかどうか判断する。そして、存在する場合には、ステップS1703に戻り、そうでない場合には、ステップS1604に進む。
このようにして、技術用語の抽出を行うことができる。
(Step S1706) The technical term extraction unit 1025 determines whether or not the k-th technical term exists in the technical term storage unit 1024. If it exists, the process returns to step S1703, and if not, the process proceeds to step S1604.
In this way, technical terms can be extracted.

[パターン3]
図26は、パターン3における技術用語抽出部1016の構成を示すブロック図である。このパターンでの技術用語抽出部1016は、技術用語候補を抽出し、その技術用語候補から技術用語を選択するものである。図26において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027とを備える。なお、技術用語候補抽出手段1026、及び技術用語選択手段1027以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
[Pattern 3]
FIG. 26 is a block diagram illustrating a configuration of the technical term extraction unit 1016 in the pattern 3. The technical term extraction unit 1016 in this pattern extracts technical term candidates and selects technical terms from the technical term candidates. 26, the technical term extraction unit 1016 includes a clue phrase storage unit 1021, a clue phrase search unit 1022, a technical term candidate extraction unit 1026, and a technical term selection unit 1027. The configurations and operations other than the technical term candidate extraction unit 1026 and the technical term selection unit 1027 are the same as those in the pattern 1, and the description thereof is omitted.

技術用語選択手段1027は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する。この技術用語候補の抽出方法は、パターン1、2で説明した技術用語の抽出方法と同様であり、その説明を省略する。   The technical term selection unit 1027 extracts a term having a predetermined relationship with the clue phrase searched by the clue phrase search unit 1022 as a technical term candidate. This technical term candidate extraction method is the same as the technical term extraction method described in patterns 1 and 2, and the description thereof is omitted.

技術用語選択手段1027は、技術用語候補抽出手段1026が抽出した技術用語候補の全部または一部を技術用語として選択する。具体的な選択方法については、パターン4,5において後述する。   The technical term selection unit 1027 selects all or part of the technical term candidates extracted by the technical term candidate extraction unit 1026 as technical terms. A specific selection method will be described later in patterns 4 and 5.

次に、パターン3における技術用語抽出部1016の動作について、図27のフローチャートを用いて説明する。この図27のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1801、S1802以外の処理は、図23のフローチャートと同様であり、その説明を省略する。   Next, the operation of the technical term extraction unit 1016 in pattern 3 will be described using the flowchart of FIG. The process of the flowchart of FIG. 27 corresponds to the technical term extraction process (step S1105) in the flowchart of FIG. In this flowchart, the processes other than steps S1801 and S1802 are the same as those in the flowchart of FIG.

(ステップS1801)技術用語候補抽出手段1026は、検索された手がかり語句と所定の関係にある用語を技術用語候補として抽出する。技術用語候補抽出手段1026は、抽出した技術用語候補を図示しない記録媒体で一時記憶してもよい。   (Step S1801) The technical term candidate extraction unit 1026 extracts a term having a predetermined relationship with the searched clue phrase as a technical term candidate. The technical term candidate extraction unit 1026 may temporarily store the extracted technical term candidates on a recording medium (not shown).

(ステップS1802)技術用語選択手段1027は、技術用語選択手段1027が選択した技術用語候補から、技術用語を選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。   (Step S1802) The technical term selection unit 1027 selects a technical term from the technical term candidates selected by the technical term selection unit 1027. The technical term selection unit 1027 may temporarily store the selected technical term on a recording medium (not shown).

ステップS1802において、技術用語選択手段1027は、例えば、文献情報記憶部1012において記憶されているいずれの文献情報においてもメイントピックとして用いられていない技術用語候補を、技術用語として選択せず、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を、技術用語として選択してもよい。技術用語として選択される用語は、いずれかの技術文献においては、メイントピックとして扱われている可能性が高いと考えられるからである。   In step S1802, the technical term selection unit 1027 does not select, for example, any technical term candidate that is not used as a main topic in any document information stored in the document information storage unit 1012. Technical term candidates used as main topics in the document information may be selected as technical terms. This is because a term selected as a technical term is considered to be likely to be treated as a main topic in any technical literature.

なお、その具体的な方法としては、例えば、あらかじめ複数の文献情報からメイントピックを示す用語を収集して記録媒体に記憶しておき、技術用語候補のうち、記録媒体で記憶されているいずれかのメイントピックを示す用語と一致したものを技術用語として選択してもよく、あるいは、技術用語候補がメイントピックを示す用語として使用されているかどうかを、文献情報記憶部1012において記憶されている複数の文献情報を検索することにより判断してもよい。ある用語が、文献情報においてメイントピックを示す用語として使用されているかどうかの判断は、例えば、検索用語を用いた検索部1013での検索の処理で説明したようにして行うことができる。具体的には、ある用語が所定の回数以上、文献情報において記載されている場合に、その用語がメイントピックであると判断してもよく、あるいは、ある用語が所定の複数の領域(例えば、タイトルと要約など)に記載されている場合に、その用語がメイントピックであると判断してもよい。それら以外の方法で判断を行ってもよいことは言うまでもない。例えば、文献情報の構造を解析し、メイントピックが記載される領域に存在する用語がメイントピックであると判断してもよい。また、技術用語選択手段1027による技術用語の選択の方法は、これに限定されるものではなく、それ以外の方法であってもよい。それ以外の方法については、パターン4,5において後述する。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
As a specific method, for example, a term indicating a main topic is previously collected from a plurality of document information and stored in a recording medium, and one of technical term candidates stored in the recording medium is stored. A word that matches the term indicating the main topic may be selected as the technical term, or a plurality of information stored in the document information storage unit 1012 indicates whether the technical term candidate is used as the term indicating the main topic. You may judge by searching the literature information. Whether or not a certain term is used as a term indicating the main topic in the document information can be determined as described in the search process in the search unit 1013 using the search term, for example. Specifically, when a certain term is described in the document information a predetermined number of times or more, it may be determined that the term is a main topic, or a certain term is defined in a plurality of predetermined areas (for example, The term may be determined to be the main topic. Needless to say, the determination may be made by other methods. For example, the structure of the document information may be analyzed to determine that the term existing in the area where the main topic is described is the main topic. Further, the method of selecting technical terms by the technical term selecting means 1027 is not limited to this, and other methods may be used. Other methods will be described later in patterns 4 and 5.
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.

[パターン4]
図28は、パターン4における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図28において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028とを備える。技術用語接尾語記憶手段1028以外の構成及び動作は、パターン3と同様であり、その説明を省略する。
[Pattern 4]
FIG. 28 is a block diagram illustrating a configuration of the technical term extraction unit 1016 in the pattern 4. Here, an example of selection of technical terms in the technical term extraction unit 1016 of pattern 3 will be described. 28, the technical term extraction unit 1016 includes a clue phrase storage unit 1021, a clue phrase search unit 1022, a technical term candidate extraction unit 1026, a technical term selection unit 1027, and a technical term suffix storage unit 1028. . The configuration and operation other than the technical term suffix storage unit 1028 are the same as those in the pattern 3, and the description thereof is omitted.

技術用語接尾語記憶手段1028では、技術用語が取り得る1以上の接尾語が記憶される。この技術用語接尾語記憶手段1028で記憶される接尾語は、技術用語が取り得るものであり、例えば、「モデル」や、「法」、「アルゴリズム」等である。この接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。技術用語接尾語記憶手段1028は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。技術用語接尾語記憶手段1028に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、通信回線等を介して送信された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよい。
なお、技術用語選択手段1027は、技術用語接尾語記憶手段1028で記憶されている接尾語を有する技術用語候補を技術用語として選択する。
The technical term suffix storage means 1028 stores one or more suffixes that can be taken by the technical term. The suffix stored in the technical term suffix storage means 1028 can be a technical term, and is, for example, “model”, “method”, “algorithm”, or the like. This suffix is actually information indicating a suffix, but is simply referred to as a suffix. The technical term suffix storage means 1028 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which the suffix is stored in the technical term suffix storage means 1028 does not matter. For example, a suffix may be stored in the technical term suffix storage unit 1028 via a recording medium, and a suffix transmitted via a communication line or the like is stored in the technical term suffix storage unit 1028. Alternatively, the suffix input via the input device may be stored in the technical term suffix storage means 1028.
The technical term selection unit 1027 selects a technical term candidate having the suffix stored in the technical term suffix storage unit 1028 as a technical term.

このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図29は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。
(ステップS1901)技術用語選択手段1027は、カウンタiを1に設定し、カウンタjを1に設定する。
The operation of the technical term extraction unit 1016 in this pattern is the same as the flowchart of FIG. FIG. 29 is a flowchart showing details of the technical term selection process (step S1802) in the flowchart of FIG.
(Step S1901) The technical term selection unit 1027 sets the counter i to 1 and sets the counter j to 1.

(ステップS1902)技術用語選択手段1027は、技術用語候補抽出手段1026が抽出したi番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているj番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS1903に進み、そうでない場合には、ステップS1906に進む。   (Step S1902) The technical term selection unit 1027 determines whether the i-th technical term candidate extracted by the technical term candidate extraction unit 1026 has the j-th suffix stored in the technical term suffix storage unit 1028. To do. If yes, the process advances to step S1903; otherwise, the process advances to step S1906.

(ステップS1903)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
(ステップS1904)技術用語選択手段1027は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(Step S1903) The technical term selection means 1027 selects the i-th technical term candidate as a technical term. The technical term selection unit 1027 may temporarily store the selected technical term on a recording medium (not shown).
(Step S1904) The technical term selection unit 1027 increments the counter i by 1, and sets the counter j to 1.

(ステップS1905)技術用語選択手段1027は、i番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、存在しない場合には、技術用語を選択する一連の処理は終了となり、ステップS1106に進む。
(ステップS1906)技術用語選択手段1027は、カウンタjを1だけインクリメントする。
(Step S1905) The technical term selection unit 1027 determines whether or not the i-th technical term candidate exists. If it exists, the process returns to step S1902, and if it does not exist, the series of processes for selecting technical terms ends, and the process proceeds to step S1106.
(Step S1906) The technical term selection unit 1027 increments the counter j by 1.

(ステップS1907)技術用語選択手段1027は、技術用語接尾語記憶手段1028にj番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、そうでない場合には、ステップS1904に進む。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
(Step S1907) The technical term selection unit 1027 determines whether or not the j th suffix exists in the technical term suffix storage unit 1028. If it exists, the process returns to step S1902, and if not, the process proceeds to step S1904.
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.

[パターン5]
図30は、パターン5における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図30において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028と、文献情報特定手段1029とを備える。文献情報特定手段1029以外の構成及び動作は、以下に説明する以外は、パターン4と同様であり、その説明を省略する。
[Pattern 5]
FIG. 30 is a block diagram illustrating a configuration of the technical term extraction unit 1016 in the pattern 5. Here, an example of selection of technical terms in the technical term extraction unit 1016 of pattern 3 will be described. In FIG. 30, a technical term extraction unit 1016 includes a clue phrase storage unit 1021, a clue phrase search unit 1022, a technical term candidate extraction unit 1026, a technical term selection unit 1027, a technical term suffix storage unit 1028, and a document. Information specifying means 1029. The configuration and operation other than the document information specifying unit 1029 are the same as those in the pattern 4 except for the following description, and the description thereof is omitted.

このパターン5では、文献情報取得部1015は、文献情報特定手段1029の特定した文献情報の全部または一部も取得する。また、技術用語選択手段1027は、文献情報取得部1015が取得した一群の文献情報の全部または一部から抽出された技術用語候補の少なくともいずれかが、技術用語接尾語記憶手段1028で記憶されている接尾語を有する場合に、その一群の文献情報の全部または一部から抽出された技術用語候補のうち、所定の技術用語候補を技術用語として選択する。ここで、「一群の文献情報」とは、検索部1013によって検索された、あるいは、特定部1014によって特定された一の文献情報(これを「文献情報N」とする)と、その一の文献情報と分野が同一であると文献情報特定手段1029によって特定された1以上の文献情報とを含む文献情報の集合である。また、技術用語選択手段1027が技術用語として選択する「所定の技術用語候補」とは、文献情報Nの全部または一部から抽出された技術用語候補である。   In Pattern 5, the document information acquisition unit 1015 also acquires all or part of the document information specified by the document information specifying unit 1029. The technical term selection unit 1027 stores at least one of technical term candidates extracted from all or a part of the group of literature information acquired by the literature information acquisition unit 1015 in the technical term suffix storage unit 1028. A predetermined technical term candidate is selected as a technical term from technical term candidates extracted from all or part of the group of document information. Here, “a group of document information” refers to one document information searched by the search unit 1013 or specified by the specifying unit 1014 (this is referred to as “document information N”), and the one document. This is a set of document information including one or more document information specified by the document information specifying means 1029 that the information and the field are the same. The “predetermined technical term candidate” selected by the technical term selection unit 1027 as the technical term is a technical term candidate extracted from all or a part of the document information N.

文献情報特定手段1029による文献情報の特定方法は、特定部1014による文献情報の特定方法と同様である。文献情報特定手段1029は、例えば、文献情報Nと、引用関係にある文献情報を特定してもよい。ここで、引用関係とは、文献情報Nが他の文献情報を引用している関係であってもよく、文献情報Nが他の文献情報で引用されている関係であってもよく、その両方を含む関係であってもよい。また、その引用関係における引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である文献情報を特定してもよい。この文献情報特定手段1029の具体的な動作については、特定部1014の動作と同様であるか、あるいは、特定部1014の動作から容易に考えることができ、その詳細な説明を省略する。   The document information specifying method by the document information specifying unit 1029 is the same as the document information specifying method by the specifying unit 1014. For example, the document information specifying unit 1029 may specify the document information N and the document information having a citation relationship. Here, the citation relationship may be a relationship in which the document information N cites other document information, a relationship in which the document information N is cited in other document information, or both. A relationship including Moreover, you may specify the literature information which is a problem indication type citation format in which the citation format in the citation relationship points out the problem of the cited technical document. The specific operation of the document information specifying unit 1029 is the same as that of the specifying unit 1014 or can be easily considered from the operation of the specifying unit 1014, and detailed description thereof is omitted.

このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図31は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。なお、このフローチャートにおいて、ステップS11001以外の処理は、図29のフローチャートと同様であり、その説明を省略する。   The operation of the technical term extraction unit 1016 in this pattern is the same as the flowchart of FIG. FIG. 31 is a flowchart showing details of the technical term selection process (step S1802) in the flowchart of FIG. In this flowchart, processes other than step S11001 are the same as those in the flowchart of FIG. 29, and a description thereof will be omitted.

(ステップS11001)技術用語選択手段1027は、文献情報特定手段1029によって特定された文献情報を用いた技術用語候補の選択を行う。この処理の詳細については後述する。   (Step S11001) The technical term selection unit 1027 selects technical term candidates using the literature information identified by the literature information identification unit 1029. Details of this processing will be described later.

次に、図31のフローチャートにおける技術用語候補の選択処理(ステップS11001)の詳細な処理について、図32のフローチャートを用いて説明する。   Next, detailed processing of the technical term candidate selection processing (step S11001) in the flowchart of FIG. 31 will be described with reference to the flowchart of FIG.

(ステップS11101)文献情報特定手段1029は、i番目の技術用語候補を含む文献情報と分野が同一の文献情報を特定する。例えば、i番目の技術用語候補を含む文献情報において引用されている文献情報であって、その引用形式がタイプCである文献情報を特定する場合には、図18のフローチャートで示される処理によって行うことができうる。なお、文献情報特定手段1029は、例えば、文献情報一時記憶手段1020に文献情報を識別する文献ID等が含まれる場合に、その文献ID等を用いて、i番目の技術用語候補を含む文献情報を特定することができうる。   (Step S11101) The document information specifying unit 1029 specifies document information having the same field as the document information including the i-th technical term candidate. For example, when specifying document information that is cited in the document information including the i-th technical term candidate and whose citation format is type C, the process is performed by the process shown in the flowchart of FIG. Can be. For example, when the document information temporary storage unit 1020 includes a document ID or the like for identifying the document information, the document information specifying unit 1029 uses the document ID or the like to include the i th technical term candidate. Can be specified.

(ステップS11102)文献情報取得部1015は、文献情報特定手段1029が特定した各文献情報の全部または一部を取得する。この取得の処理は、例えば、ステップS1104の処理と同様にして行うことができる。なお、文献情報特定手段1029が特定した文献情報の全部または一部がすでに取得されている場合には、文献情報取得部1015は、その文献情報の全部または一部を、その取得された文献情報の全部または一部が記憶されている記録媒体から取得してもよく、あるいは、文献情報記憶部1012から取得してもよい。   (Step S11102) The document information acquiring unit 1015 acquires all or a part of each document information specified by the document information specifying unit 1029. This acquisition process can be performed in the same manner as the process of step S1104, for example. When all or a part of the document information specified by the document information specifying unit 1029 has already been acquired, the document information acquisition unit 1015 converts all or a part of the document information into the acquired document information. May be acquired from a recording medium in which all or a part of is stored, or may be acquired from the document information storage unit 1012.

(ステップS11103)技術用語候補抽出手段1026は、ステップS11102で取得された文献情報の全部または一部から、技術用語候補を抽出する。この抽出の処理は、例えば、図27のフローチャートのステップS1802以前の処理と同様にして行うことができる。
(ステップS11104)技術用語選択手段1027は、カウンタmを1に設定し、カウンタnを1に設定する。
(Step S11103) The technical term candidate extraction unit 1026 extracts technical term candidates from all or a part of the document information acquired in step S11102. This extraction process can be performed, for example, in the same manner as the process before step S1802 in the flowchart of FIG.
(Step S11104) The technical term selection means 1027 sets the counter m to 1 and sets the counter n to 1.

(ステップS11105)技術用語選択手段1027は、技術用語候補抽出手段1026がステップS11103で抽出したn番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているm番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS11110に進み、そうでない場合には、ステップS11106に進む。   (Step S11105) The technical term selection unit 1027 has the mth suffix stored in the technical term suffix storage unit 1028 as the nth technical term candidate extracted by the technical term candidate extraction unit 1026 in step S11103. Judge whether or not. If yes, the process proceeds to step S11110. If not, the process proceeds to step S11106.

(ステップS11106)技術用語選択手段1027は、カウンタmを1だけインクリメントする。
(ステップS11107)技術用語選択手段1027は、技術用語接尾語記憶手段1028にm番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、そうでない場合には、ステップS11108に進む。
(Step S11106) The technical term selection means 1027 increments the counter m by 1.
(Step S11107) The technical term selection unit 1027 determines whether or not the m-th suffix exists in the technical term suffix storage unit 1028. If it exists, the process returns to step S11105; otherwise, the process proceeds to step S11108.

(ステップS11108)技術用語選択手段1027は、カウンタnを1だけインクリメントし、カウンタmを1に設定する。
(ステップS11109)技術用語選択手段1027は、n番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、存在しない場合には、特定された文献情報を用いて技術用語を選択する一連の処理は終了となり、ステップS1904に進む。
(Step S11108) The technical term selection unit 1027 increments the counter n by 1, and sets the counter m to 1.
(Step S11109) The technical term selection unit 1027 determines whether there is an nth technical term candidate. If it exists, the process returns to step S11105. If it does not exist, a series of processes for selecting a technical term using the specified document information ends, and the process proceeds to step S1904.

(ステップS11110)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。   (Step S11110) The technical term selection means 1027 selects the i-th technical term candidate as a technical term. The technical term selection unit 1027 may temporarily store the selected technical term on a recording medium (not shown).

なお、図31,図32のフローチャートでは、まず、文献情報Nに関する技術用語候補の選択を行い、その後に、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択を行う場合について説明したが、これは一例であって、結果として、文献情報Nに関する技術用語候補の選択と、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択とを行うことができるのであれば、その方法を問わない。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
In the flowcharts of FIGS. 31 and 32, first, technical term candidates related to the document information N are selected, and then technical term candidates related to the document information identified as having the same field as the document information N are selected. However, this is merely an example, and as a result, selection of technical term candidates related to the document information N, selection of technical term candidates related to the document information identified as having the same field as the document information N, and If it can be performed, the method is not ask | required.
In this manner, the technical terms can be extracted by selecting the technical terms from the technical term candidates.

なお、上記のパターン1〜5において、技術用語抽出部1016が技術用語を抽出するバリエーションについて説明したが、上記説明以外の方法を用いて技術用語を抽出してもよいことは言うまでもない。なお、その抽出される技術用語は、検索部1013が検索した技術文献の分野において用いられる用語であり、その技術文献の分野における要素となる技術用語であることが好ましいことは前述の通りである。上記パターン1〜5以外の技術用語を抽出する方法としては、例えば、文献情報取得部1015が取得した文献情報の全部または一部を解析して、技術用語を抽出してもよい。文献情報の全部または一部を解析して、技術用語を抽出する方法について簡単に説明する。   In addition, although the technical term extraction part 1016 demonstrated the variation which extracts a technical term in said patterns 1-5, it cannot be overemphasized that a technical term may be extracted using methods other than the said description. The extracted technical terms are terms used in the technical literature field searched by the search unit 1013, and are preferably technical terms that are elements in the technical literature field, as described above. . As a method for extracting technical terms other than the above patterns 1 to 5, for example, the technical terms may be extracted by analyzing all or part of the literature information acquired by the literature information acquisition unit 1015. A method for extracting technical terms by analyzing all or part of the literature information will be briefly described.

技術用語抽出部1016は、図33で示される構造タグと、手がかり語句とを対応付ける情報を保持しているとする。そして、文献情報取得部1015によって、文献情報の一部として「SVMを用いた文抽出」が取得されたとする。すると、技術用語抽出部1016は、取得された文献情報の一部「SVMを用いた文抽出」において、図33で示される手がかり語句を検索し、その手がかり語句を対応する構造タグに置き換える。すなわち、「SVM<Method手がかり語句=を用いた>文抽出」が得られる。次に、技術用語抽出部1016は、その構造タグの直前の文字列(英語の場合には、直後の文字列となる)を、構造タグで挟む。すなわち、解析結果として、「<Method手がかり語句=を用いた>SVM</Method>文抽出」が得られる。技術用語抽出部1016は、この解析結果から「Method」タグに対応する用語「SVM」を、技術用語として抽出することができる。なお、「Method」タグの場合には、そのタグで挟まれた用語を抽出すればよいが、「Goal」タグの場合には、そのタグで挟まれている用語と、「Goal」の手がかり語句によって対応付けられる用語(通常は、「Goal」タグの後の用語となる)を抽出することになる。例えば、文献情報取得部1015が「ニュース番組における字幕生成のための文短縮」を取得した場合には、構造解析の結果、「ニュース番組における<Goal手がかり語句=のための>字幕生成</Goal>文短縮」となり、技術用語抽出部1016は、「Goal」タグで挟まれている用語「字幕生成」と「Goal」の手がかり語句「のための」で対応付けられている用語「文短縮」を技術用語として抽出する。なお、図33で記載されている以外の構造タグを用いてもよい。ただし、技術用語の抽出に用いるのは、一般的に「Method」タグと、「Goal」タグである。また、技術用語抽出部1016は、検索用語を用いて技術用語の抽出を行ってもよい。例えば、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「文抽出」である場合には、技術用語抽出部1016は、その検索用語「文抽出」に対応する用語であり、「Method」タグで挟まれている用語「SVM」を技術用語として抽出する。一方、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「SVM」である場合には、その検索用語「SVM」に対応する用語であり、「Method」タグで挟まれている用語は存在しないため、技術用語は抽出されないことになる。このように、検索用語も用いて技術用語の抽出を行うことによって、技術用語を抽出する精度を上げることができうる。   It is assumed that the technical term extraction unit 1016 holds information that associates the structure tag shown in FIG. 33 with the clue phrase. Then, it is assumed that “sentence extraction using SVM” is acquired by the document information acquisition unit 1015 as part of the document information. Then, the technical term extraction unit 1016 searches for a clue word phrase shown in FIG. 33 in a part of the obtained document information “sentence extraction using SVM”, and replaces the clue word phrase with a corresponding structure tag. That is, “SVM <Method clue word phrase = >> sentence extraction” is obtained. Next, the technical term extraction unit 1016 sandwiches the character string immediately before the structure tag (in the case of English, the character string immediately after) between the structure tags. In other words, as an analysis result, “<Method Cue word phrase => SVM </ Method> sentence extraction” is obtained. The technical term extraction unit 1016 can extract the term “SVM” corresponding to the “Method” tag from this analysis result as a technical term. In the case of the “Method” tag, the term sandwiched between the tags may be extracted. In the case of the “Goal” tag, the term sandwiched between the tag and a clue phrase of “Goal” Will be extracted (usually the term after the “Goal” tag). For example, when the document information acquisition unit 1015 acquires “sentence shortening for subtitle generation in a news program”, as a result of the structural analysis, “subtitle generation for <Goal clue word phrase = for news program </ Goal” // Goal > Sentence shortening, and the technical term extraction unit 1016 uses the term “sentence shortening” associated with the clue phrase “for” of the term “caption generation” and “Goal” sandwiched between “Goal” tags. Is extracted as a technical term. Note that structure tags other than those described in FIG. 33 may be used. However, the “Method” tag and the “Goal” tag are generally used for extracting technical terms. Further, the technical term extraction unit 1016 may extract technical terms using the search terms. For example, if the result of the analysis is “<Method Cue word phrase => SVM </ Method> sentence extraction” and the search term is “sentence extraction”, the technical term extraction unit 1016 displays the search term. The term “SVM”, which is a term corresponding to “sentence extraction” and sandwiched between “Method” tags, is extracted as a technical term. On the other hand, if the result of the analysis is “<SVM </ Method> sentence extraction using <Method clue word phrase =” and the search term is “SVM”, the term corresponding to the search term “SVM” is used. There is no term sandwiched between “Method” tags, so technical terms are not extracted. In this way, by extracting the technical terms using the search terms as well, it is possible to improve the accuracy of extracting the technical terms.

次に、本実施の形態による技術動向情報作成装置1001の動作について、具体例を用いて説明する。この具体例において、技術動向情報作成装置1001は、スタンドアロンの装置であるとする。   Next, the operation of the technology trend information creation device 1001 according to this embodiment will be described using a specific example. In this specific example, it is assumed that the technology trend information creation device 1001 is a stand-alone device.

この具体例において、文献情報記憶部1012で記憶されている文献情報等は、図34で示されるものであるとする。図34において、技術文献を識別する文献IDと、時期情報と、文献情報とが対応付けられている。文献情報「D001」等は、各文献情報を示すデータであり、各文献情報において、少なくともタイトルの領域を特定できるものとする。   In this specific example, it is assumed that the document information stored in the document information storage unit 1012 is as shown in FIG. In FIG. 34, a document ID for identifying a technical document, time information, and document information are associated with each other. The document information “D001” or the like is data indicating each document information, and at least a title area can be specified in each document information.

まず、ユーザがキーボードやマウス等を操作することにより、検索用語「形態素解析」を技術動向情報作成装置1001に入力したとする。すると、その検索用語「形態素解析」は、検索用語受付部1011で受け付けられ(ステップS1101)、検索部1013に渡される。検索部1013は、その検索用語「形態素解析」がタイトルの領域に含まれる文献情報を検索する(ステップS1102)。検索部1013は、その検索の結果として、タイトルの領域に検索用語「形態素解析」が含まれる文献情報に対応する文献ID「001,003,010…」を取得し、特定部1014と、文献情報取得部1015とに渡す。   First, it is assumed that the user inputs a search term “morpheme analysis” to the technology trend information creation apparatus 1001 by operating a keyboard, a mouse, or the like. Then, the search term “morpheme analysis” is received by the search term receiving unit 1011 (step S1101) and passed to the search unit 1013. The search unit 1013 searches for document information in which the search term “morpheme analysis” is included in the title area (step S1102). As a result of the search, the search unit 1013 acquires a document ID “001, 003, 010...” Corresponding to the document information including the search term “morpheme analysis” in the title area. The data is passed to the acquisition unit 1015.

特定部1014は、検索部1013から受け取った文献IDで識別される文献情報と分野が同一の文献情報を特定する(ステップS1103)。この具体例では、検索部1013から受け取った文献IDで識別される文献情報において、タイプCの引用形式で引用されている文献情報を特定するものとする。その処理について具体的に説明する。   The specifying unit 1014 specifies the document information having the same field as the document information identified by the document ID received from the search unit 1013 (step S1103). In this specific example, in the document information identified by the document ID received from the search unit 1013, the document information cited in the type C citation format is specified. The process will be specifically described.

特定部1014は、まず、検索部1013から受け取った1番目の文献ID「001」で識別される文献情報から、引用文献識別情報と、引用情報とを取得する(ステップS1201,S1202)。ここで、文献ID「001」で識別される文献情報が学術論文である場合には、特定部1014は、文献情報記憶部1012から、その文献情報の「参考文献」の欄に記載されている文献の書誌情報(タイトルや発表年月、著者、掲載媒体等)を引用文献識別情報として取得する。その書誌情報には、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…等のインデックスが付されているので、そのインデックスも取得する。次に、特定部1014は、その文献情報において、取得したインデックスを用いた検索を行い、そのインデックスが含まれる文を特定する。そして、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。   First, the identifying unit 1014 acquires cited document identification information and citation information from the document information identified by the first document ID “001” received from the search unit 1013 (steps S1201 and S1202). When the document information identified by the document ID “001” is an academic paper, the specifying unit 1014 is described in the “reference document” column of the document information from the document information storage unit 1012. Bibliographic information of a document (title, date of publication, author, publication medium, etc.) is acquired as cited document identification information. The bibliographic information includes, for example, 1, 2, 3 ..., 1), 2), 3) ..., [1], [2], [3] ..., [A], [B], [C]. Since an index such as ... is attached, the index is also acquired. Next, the specifying unit 1014 performs a search using the acquired index in the document information, and specifies a sentence including the index. Then, a sentence including the index and a sentence closely related to the sentence are acquired as citation information. Here, a method for identifying a sentence closely related to the sentence including the index will be described.

特定部1014は、あらかじめ図示しない記録媒体において、下記の2種類の手がかり語句を保持しているものとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
It is assumed that the specifying unit 1014 holds the following two types of clue words / phrases in a recording medium (not shown) in advance.
(A) Pre-extended cue phrases In this, On this, Such, But, However ...
(B) Cue phrases for post-expansion We, we, They, they, Our, our, Inthis, Onthis, Such, Bute, However ...

特定部1014は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。特定部1014は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、特定部1014は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。特定部1014は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。特定部1014は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。   First, the specifying unit 1014 sets a sentence including an index as a candidate sentence for citation information. Then, when at least one of the preceding extension clue words / phrases is included in the first sentence of the candidate sentence, the sentence one sentence before the candidate sentence is included in the candidate sentence. The identifying unit 1014 repeats the process of expanding the candidate sentence before the first sentence of the candidate sentence does not include all the (A) pre-extension clue words. The specifying unit 1014 also includes a post-extension clue word / phrase included in the sentence following the candidate sentence (a sentence adjacent to the candidate sentence and not included in the candidate sentence). The next sentence of the candidate sentence is included in the candidate sentence. The specifying unit 1014 repeats the process of extending the candidate sentence later until the sentence following the candidate sentence does not include all the (B) post-extension clue words. The candidate sentence at the time when the process of extending the candidate sentence is completed becomes the citation information. The identifying unit 1014 acquires the citation information. Note that (A) the pre-extension cue word / phrase and (B) the post-extension cue word / phrase are examples, and if the sentence closely related to the sentence including the index can be appropriately extracted, A clue word may be used. In addition, here, attention is focused on the sentence including the index. However, in the technical document that directly refers to the cited document by the cited document identification information, the sentence including the cited document identification information is changed to the sentence including the index. It will be used instead.

次に、特定部1014は、取得した引用情報を用いて引用形式がタイプCであるかどうか判断する。ここで、特定部1014は、図35で示されるタイプCの手がかり語句と、手がかり語句の位置とを対応付けた情報を図示しない記録媒体で保持しているものとする。図35の「手がかり語句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり語句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり語句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり語句の位置=3)までの3個の文を意味している。手がかり語句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。タイプCの手がかり語句が、対応する手がかり語句の位置で示される文に含まれる場合に、その引用情報の引用形式は、タイプCであると判断される。具体的には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合には、その引用情報の引用形式はタイプCであると判断される(ステップS1205)。   Next, the specifying unit 1014 determines whether the citation format is type C using the acquired citation information. Here, it is assumed that the specifying unit 1014 holds information that associates the type C clue word and the position of the clue word phrase illustrated in FIG. 35 with a recording medium (not illustrated). The “position of the clue word / phrase” in FIG. 35 is information indicating the number of sentences in the citation information with a sentence including the index and the cited document identification information as a reference (0). For example, in the case of the position “1 to 3” of the clue word phrase, the index or the cited document identification information from the sentence following the sentence including the index or the cited document identification information (the position of the clue word phrase = 1) in the citation information. Means three sentences from the sentence including the first sentence to the third backward sentence (cue phrase position = 3). When the position of the clue word is negative, it means a sentence before the sentence including the index and the cited document identification information. When the type C clue word is included in the sentence indicated by the position of the corresponding clue word phrase, the citation format of the citation information is determined to be type C. Specifically, in the cited information, when “However” is included in any sentence from the sentence (first sentence) to the third sentence after the sentence including the index and the cited document identification information. The citation format of the citation information is determined to be type C (step S1205).

特定部1014は、タイプCであると判断した引用形式の引用情報に対応する引用文献識別情報を、一時的に記憶する(ステップS1206)。例えば、引用形式がタイプCである引用情報に含まれるインデックスに対応する引用文献識別情報が一時的に記憶されることになる。特定部1014は、検索部1013から受け取ったすべての文献IDについて、引用情報と引用文献識別情報の取得と、引用情報の引用形式がタイプCである引用文献識別情報の一時記憶とが行われる(ステップS1201〜S1209)。そして、一時記憶された引用文献識別情報は、文献情報取得部1015に渡される。   The identifying unit 1014 temporarily stores the cited document identification information corresponding to the citation information in the citation format determined to be type C (step S1206). For example, the cited document identification information corresponding to the index included in the citation information whose citation format is type C is temporarily stored. The identifying unit 1014 obtains the cited information and the cited document identification information for all the document IDs received from the search unit 1013 and temporarily stores the cited document identification information whose citation format is the type C ( Steps S1201 to S1209). The temporarily stored cited document identification information is transferred to the document information acquisition unit 1015.

文献情報取得部1015は、検索部1013から受け取った文献ID「001,003,010…」で識別される文献情報のタイトルを、文献情報記憶部1012から取得する(ステップS1301,S1401〜S1405)。また、文献情報取得部1015は、特定部1014から受け取った引用文献識別情報を用いて文献情報記憶部1012を検索し、その引用文献識別情報で識別される文献情報のタイトルが未取得である場合に、その文献情報のタイトルを取得する(ステップS1302,S1303,S1501〜S1506)。このようにして、文献情報取得部1015は、文献情報の一部を取得する(ステップS1104)。図36は、そのようにして取得された文献情報の一部(タイトル)の一例を示す図である。   The document information acquisition unit 1015 acquires the title of the document information identified by the document ID “001, 003, 010...” Received from the search unit 1013 from the document information storage unit 1012 (steps S1301, S1401 to S1405). Further, the document information acquisition unit 1015 searches the document information storage unit 1012 using the cited document identification information received from the specifying unit 1014, and the title of the document information identified by the cited document identification information is not acquired. Then, the title of the document information is acquired (steps S1302, S1303, S1501 to S1506). In this way, the document information acquisition unit 1015 acquires a part of the document information (step S1104). FIG. 36 is a diagram illustrating an example of a part (title) of document information acquired in this way.

次に、技術用語抽出部1016による技術用語の抽出について説明する。ここでは、パターン1の方法を用いて抽出する場合について説明する。また、図36で示される情報が、文献情報一時記憶手段1020において記憶されているものとする。なお、手がかり語句記憶手段1021では、図37で示される手がかり語句が記憶されているものとする。なお、図37の手がかり語句において、「$」は、抽出するべき技術用語の位置を示す記号である。例えば、手がかり語句「による」が文献情報取得部1015の取得したタイトルに含まれる場合には、その手がかり語句「による」の前の連続した名詞句を技術用語として抽出する。   Next, extraction of technical terms by the technical term extraction unit 1016 will be described. Here, a case where extraction is performed using the pattern 1 method will be described. Also, it is assumed that the information shown in FIG. 36 is stored in the document information temporary storage unit 1020. It is assumed that the clue word storage unit 1021 stores the clue words shown in FIG. In the clue word / phrase in FIG. 37, “$” is a symbol indicating the position of the technical term to be extracted. For example, when the clue word “by” is included in the title acquired by the document information acquisition unit 1015, the continuous noun phrases before the clue word “by” are extracted as technical terms.

図36で示される1番目のタイトル「文脈木を用いた形態素解析」には、手がかり語句「による」、「に基づく」が含まれないため、手がかり語句検索手段1022は、1番目のタイトルにはそれらの手がかり語句が含まれないと判断する(ステップS1601,S1602,S1606,S1607)。次に、手がかり語句検索手段1022は、1番目のタイトル「文脈木を用いた形態素解析」において、手がかり語句「を用いた」を検索する。この場合には、そのタイトルに「を用いた」が含まれるため(ステップS1602)、手がかり語句「を用いた」が検索され、手がかり語句検索手段1022は、その手がかり語句「を用いた」の前の連続した名詞句を抽出する旨を技術用語抽出手段1023に渡す。すると、技術用語抽出手段1023は、タイトル「文脈木を用いた形態素解析」を形態素解析して、手がかり語句「を用いた」の前の連続した名詞句「文脈木」を技術用語として抽出し(ステップS1603)、その技術用語「文脈木」と、対応する文献ID「001」とを図示しない記録媒体に蓄積する。このようにして、技術用語の抽出が行われる(ステップS1105)。図38は、そのようにして抽出された技術用語と文献IDとを対応付ける情報の一例を示す図である。なお、技術用語抽出部1016は、図38で示される情報のうち、文献IDを時期情報取得部1017に渡すものとする。また、技術用語抽出部1016は、図38で示される情報を技術動向情報作成部1018に渡すものとする。   The first title “morphological analysis using context tree” shown in FIG. 36 does not include the clue phrases “by” and “based on”, so the clue phrase search means 1022 includes the first title. It is determined that those clue words are not included (steps S1601, S1602, S1606, S1607). Next, the clue phrase searching unit 1022 searches for the clue phrase “using” in the first title “morphological analysis using the context tree”. In this case, since “it used” is included in the title (step S1602), the clue word phrase “using” is searched, and the clue word phrase searching means 1022 before the clue word phrase “using” is searched. To the technical term extraction means 1023 to extract the continuous noun phrases. Then, the technical term extraction unit 1023 performs a morphological analysis on the title “morphological analysis using a context tree”, and extracts a continuous noun phrase “context tree” before the clue phrase “using” as a technical term ( In step S1603), the technical term “context tree” and the corresponding document ID “001” are stored in a recording medium (not shown). In this way, technical terms are extracted (step S1105). FIG. 38 is a diagram illustrating an example of information associating the technical terms extracted as described above with the document ID. Note that the technical term extraction unit 1016 passes the document ID among the information shown in FIG. 38 to the time information acquisition unit 1017. The technical term extraction unit 1016 passes the information shown in FIG. 38 to the technical trend information creation unit 1018.

時期情報取得部1017は、その文献IDを受け取ると、その文献IDを検索キーとして文献情報記憶部1012を検索し、その文献IDに対応する時期情報を取得する(ステップS1106)。図39は、そのようにして取得された時期情報と文献IDとを対応付ける情報の一例を示す図である。時期情報取得部1017は、図39で示される情報を技術動向情報作成部1018に渡すものとする。   When receiving the document ID, the time information acquisition unit 1017 searches the document information storage unit 1012 using the document ID as a search key, and acquires the time information corresponding to the document ID (step S1106). FIG. 39 is a diagram illustrating an example of information associating time information acquired in this manner with a document ID. It is assumed that the time information acquisition unit 1017 passes the information shown in FIG. 39 to the technology trend information creation unit 1018.

技術動向情報作成部1018は、技術用語抽出部1016から図38で示される情報を受け取り、時期情報取得部1017から図39で示される情報を受け取ると、技術用語ごとに時期情報をグルーピングする。そして、各技術用語を縦に記載し、横軸に時期を記載し、技術用語ごとに対応する時期に丸印を配置し、右端の丸印と、左端の丸印とをつなぐ線を記載した画像を作成する(ステップS1107)。その画像には、図示しない経路によって受け取った検索用語も記載するものとする。なお、技術動向情報の画像を生成するために、技術動向情報作成部1018は、テンプレート等を図示しない記録媒体において保持しておき、そのテンプレート等を用いて技術動向情報の画像を生成してもよい。   Upon receiving the information shown in FIG. 38 from the technical term extraction unit 1016 and the information shown in FIG. 39 from the time information acquisition unit 1017, the technical trend information creation unit 1018 groups the time information for each technical term. Each technical term is written vertically, the time is written on the horizontal axis, a circle is placed at the time corresponding to each technical term, and a line connecting the rightmost circle and the leftmost circle is described. An image is created (step S1107). The search term received through a route (not shown) is also described in the image. In order to generate an image of technical trend information, the technical trend information creation unit 1018 holds a template or the like in a recording medium (not shown), and generates an image of technical trend information using the template or the like. Good.

出力部1019は、技術動向情報作成部1018が作成した技術動向情報の画像をディスプレイに表示する(ステップS1108)。図40は、そのようにしてディスプレイに表示された技術動向情報の画像の一例を示す図である。このようにして、ユーザは、形態素解析に関する技術動向(技術の流れ)を知ることができる。   The output unit 1019 displays an image of the technology trend information created by the technology trend information creation unit 1018 on the display (step S1108). FIG. 40 is a diagram showing an example of the image of the technical trend information displayed on the display in this way. In this way, the user can know the technical trend (technical flow) regarding morphological analysis.

なお、この具体例では、技術動向情報が画像である場合について説明したが、技術動向情報は画像でなくてもよい。例えば、図38で示される情報と、図39で示される情報とを文献IDを用いて組み合わせた図41で示される情報であってもよい。図41で示される技術動向情報は、例えば、スプレッドシートのデータであってもよい。   In this specific example, the case where the technology trend information is an image has been described. However, the technology trend information may not be an image. For example, the information shown in FIG. 41 may be combined with the information shown in FIG. 38 and the information shown in FIG. 39 using the document ID. The technical trend information shown in FIG. 41 may be spreadsheet data, for example.

また、この具体例において、パターン2で説明したように、専門用語を用いて技術用語の抽出を行ってもよい。例えば、専門用語記憶手段1024において、図42で示される専門用語が記憶されており、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語が「日本語コーパス」や「提案手法」であるとする。この場合には、「日本語コーパス」に、専門用語記憶手段1024で記憶されている「コーパス」が含まれるため、技術用語抽出手段1025は、「コーパス」を技術用語として抽出することになる。また、「提案手法」に、専門用語記憶手段1024で記憶されている「コーパス」等が含まれないため、技術用語抽出手段1025は、非専門用語である「提案手法」を技術用語として抽出しないことになる。このようにすることで、技術用語抽出手段1025は、「日本語コーパス」を技術用語として抽出するのではなく、技術用語として適切な「コーパス」を抽出するようになる。また、技術用語抽出手段1025が一般名詞や非専門用語等を抽出する事態を回避することもできる。   Further, in this specific example, as described in Pattern 2, technical terms may be extracted using technical terms. For example, the technical term storage means 1024 stores the technical terms shown in FIG. 42, and the terms having a predetermined relationship with the clue phrases searched by the clue phrase search means 1022 are “Japanese corpus” and “proposed method”. Suppose that In this case, since the “Japanese corpus” includes the “corpus” stored in the technical term storage unit 1024, the technical term extraction unit 1025 extracts “corpus” as the technical term. Further, since the “proposed method” does not include the “corpus” stored in the technical term storage unit 1024, the technical term extracting unit 1025 does not extract the “proposed method” that is a non-technical term as a technical term. It will be. By doing in this way, the technical term extraction means 1025 does not extract “Japanese corpus” as a technical term, but extracts an appropriate “corpus” as a technical term. Further, it is possible to avoid a situation in which the technical term extraction means 1025 extracts general nouns, non-technical terms, and the like.

また、この具体例で用いた具体的な情報等は、本実施の形態による技術動向情報作成装置1001の動作の詳細を説明するために示したものであり、現実の学術論文等を含むコーパスから取得したものではない。   Also, the specific information used in this specific example is shown to explain the details of the operation of the technical trend information creation apparatus 1001 according to the present embodiment, and is from a corpus including actual academic papers and the like. It was not acquired.

以上のように、本実施の形態による技術動向情報作成装置1001では、文献情報から技術用語を抽出し、また、技術用語の抽出された文献情報に対応する時期情報を取得し、抽出された技術用語と取得された時期情報とを用いて技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。例えば、ある技術用語が技術文献に記載された時期の幅(いつからいつまでその技術用語が使用されているのか)を知ることができる。また、例えば、ある技術用語が技術文献に記載された頻度についても知ることができる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。   As described above, the technical trend information creation device 1001 according to the present embodiment extracts technical terms from the literature information, acquires time information corresponding to the literature information from which the technical terms are extracted, and extracts the extracted technology. Technology trend information can be created using terms and acquired time information. As a result, by using the created technology trend information, it is possible to easily know the transition of technology used in a certain research field. For example, it is possible to know the range of time when a technical term is described in the technical literature (from when to when the technical term is used). Further, for example, it is possible to know the frequency at which a certain technical term is described in the technical literature. In addition, there is an advantage that it is not necessary to spend a great deal of labor and time for those who are familiar with the research field in order to create the technology trend information.

なお、上記実施の形態では、文献情報取得部1015が、検索部1013が検索した文献情報の全部または一部を取得する場合について説明したが、そうでなくてもよい。例えば、文献情報取得部1015は、文献情報記憶部1012で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得するものであってもよい。例えば、ある研究分野の文献情報のみが文献情報記憶部1012で記憶されている場合には、文献情報取得部1015は、その文献情報記憶部1012で記憶されている文献情報の全部、または、ランダムに選択した所定の個数の文献を取得してもよい。このように、検索部1013による検索が不要な場合には、技術動向情報作成装置1001は、検索用語受付部1011や、検索部1013を備えなくてもよい。   In the above-described embodiment, the case where the document information acquisition unit 1015 acquires all or a part of the document information searched by the search unit 1013 has been described. For example, the document information acquisition unit 1015 may acquire all or a part of at least some document information among the plurality of document information stored in the document information storage unit 1012. For example, when only document information of a certain research field is stored in the document information storage unit 1012, the document information acquisition unit 1015 may select all or all of the document information stored in the document information storage unit 1012. A predetermined number of documents may be acquired. As described above, when the search by the search unit 1013 is unnecessary, the technology trend information creation device 1001 does not need to include the search term reception unit 1011 or the search unit 1013.

また、上記実施の形態では、検索部1013によって検索された文献情報と分野が同一の文献情報を特定部1014が特定し、文献情報取得部1015が特定部1014の特定した文献情報の全部または一部も取得する場合について説明したが、そうでなくてもよい。すなわち、文献情報取得部1015は、特定部1014の特定した文献情報の取得を行わなくてもよい。この場合には、技術動向情報作成装置1001は、特定部1014を備えなくてもよい。
また、特定部1014による文献情報の特定で引用文献識別情報や引用情報を用いない場合には、文献情報に引用文献識別情報や引用情報が含まれなくてもよい。
In the above embodiment, the specifying unit 1014 specifies the document information having the same field as the document information searched by the searching unit 1013, and the document information acquiring unit 1015 specifies all or one of the document information specified by the specifying unit 1014. Although the case where the part is also acquired has been described, it may not be so. That is, the document information acquisition unit 1015 may not acquire the document information specified by the specifying unit 1014. In this case, the technology trend information creation device 1001 may not include the specifying unit 1014.
In addition, when the cited part identification information and the cited information are not used for identifying the document information by the identifying unit 1014, the document information may not include the cited document identifying information or the cited information.

(実施の形態5)
本発明の実施の形態5による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置では、検索用語受付部の受け付ける検索用語が選択されるものである。
(Embodiment 5)
A technical trend information creation device according to Embodiment 5 of the present invention will be described with reference to the drawings. In the technical trend information creation device according to the present embodiment, a search term accepted by the search term acceptance unit is selected.

図43は、本実施の形態による技術動向情報作成装置1002の構成を示すブロック図である。図43において、本実施の形態による技術動向情報作成装置1002は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、接尾語記憶部1031と、専門用語抽出部1032と、検索用語蓄積部1033と、検索用語記憶部1034と、検索用語選択受付部1035とを備える。本実施の形態において新たに追加された接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033、検索用語記憶部1034、検索用語選択受付部1035以外の構成及び動作は、検索用語受付部1011が、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける以外、実施の形態4と同様であり、その説明を省略する。   FIG. 43 is a block diagram showing a configuration of a technology trend information creation device 1002 according to this embodiment. 43, the technical trend information creation device 1002 according to the present embodiment includes a search term receiving unit 1011, a document information storage unit 1012, a search unit 1013, a specifying unit 1014, a document information acquisition unit 1015, and technical terms Extraction unit 1016, time information acquisition unit 1017, technology trend information creation unit 1018, output unit 1019, suffix storage unit 1031, technical term extraction unit 1032, search term storage unit 1033, search term storage unit 1034 and a search term selection receiving unit 1035. Configurations and operations other than the suffix storage unit 1031, the technical term extraction unit 1032, the search term storage unit 1033, the search term storage unit 1034, and the search term selection reception unit 1035 that are newly added in the present embodiment are accepted as a search term Unit 1011 is the same as Embodiment 4 except that it accepts the search term indicated by the selection accepted by search term selection accepting unit 1035, and a description thereof will be omitted.

接尾語記憶部1031では、所定の接尾語が記憶される。この接尾語は、後述する専門用語抽出部1032が抽出した専門用語から、検索用語を選ぶときに用いられるものであり、例えば、「システム」、「手法」、「データ」等である。なお、それ以外の適切な接尾語を用いてもよいことは言うまでもない。接尾語記憶部1031で記憶される接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。また、接尾語記憶部1031は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、接尾語記憶部1031に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が接尾語記憶部1031で記憶されるようになってもよく、通信回線等を介して送信された接尾語が接尾語記憶部1031で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が接尾語記憶部1031で記憶されるようになってもよい。   The suffix storage unit 1031 stores a predetermined suffix. This suffix is used when a search term is selected from technical terms extracted by the technical term extraction unit 1032 described later, and is, for example, “system”, “method”, “data”, or the like. Needless to say, other appropriate suffixes may be used. The suffix stored in the suffix storage unit 1031 is actually information indicating a suffix, but is simply referred to as a suffix. The suffix storage unit 1031 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). Moreover, the process in which a suffix is memorize | stored in the suffix memory | storage part 1031 does not ask | require. For example, a suffix may be stored in the suffix storage unit 1031 via a recording medium, and a suffix transmitted via a communication line or the like is stored in the suffix storage unit 1031. Alternatively, the suffix input via the input device may be stored in the suffix storage unit 1031.

専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から専門用語を抽出する。ここで、専門用語とは、1以上の研究分野における専門的な用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。専門用語抽出部1032は、例えば、文献情報を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を抽出する方法については、実施の形態4で示した複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。   The technical term extraction unit 1032 extracts technical terms from the literature information stored in the literature information storage unit 1012. Here, technical terms are technical terms in one or more research fields. This technical term is actually information indicating a technical term, but is simply referred to as a technical term. The technical term extraction unit 1032 extracts, for example, single nouns by performing morphological analysis on the literature information, performs scoring indicating the possibility of being a technical term for each single noun, and the single term given a high score. Nouns etc. may be acquired as technical terms. Here, as a method for assigning a score, a plurality of types such as scoring based on word-making ability and scoring based on appearance frequency are known. Further, other methods may be used. The method of extracting technical terms is disclosed in a plurality of documents shown in the fourth embodiment and the like, and has been conventionally known, and thus detailed description thereof is omitted.

検索用語蓄積部1033は、専門用語抽出部1032が抽出した専門用語に、接尾語記憶部1031で記憶されている接尾語を付けた用語が、文献情報記憶部1012で記憶されている文献情報に含まれる場合に、その専門用語を検索用語として検索用語記憶部1034に蓄積する。接尾語記憶部1031で記憶される接尾語を適切に選択することにより、技術動向を作成する分野を決めるために用いられる検索用語を適切に蓄積することができるようになる。例えば、接尾語「システム」が接尾語記憶部1031で記憶されており、専門用語抽出部1032が「形態素」と、「形態素解析」とを抽出した場合に、「形態素システム」が文献情報に含まれず、「形態素解析システム」が文献情報に含まれるとすると、検索用語として「形態素解析」が蓄積されるが、「形態素」は蓄積されないことになる。   The search term accumulating unit 1033 adds the suffix stored in the suffix storage unit 1031 to the technical term extracted by the technical term extraction unit 1032 in the document information stored in the document information storage unit 1012. If included, the technical term is stored in the search term storage unit 1034 as a search term. By appropriately selecting a suffix stored in the suffix storage unit 1031, it becomes possible to appropriately accumulate search terms used to determine a field for creating a technical trend. For example, when the suffix “system” is stored in the suffix storage unit 1031 and the technical term extraction unit 1032 extracts “morpheme” and “morpheme analysis”, the “morpheme system” is included in the literature information. If the “morphological analysis system” is included in the document information, “morpheme analysis” is stored as a search term, but “morpheme” is not stored.

検索用語記憶部1034では、2以上の検索用語が記憶される。この検索用語は、検索用語蓄積部1033によって蓄積されたものである。検索用語記憶部1034は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。   The search term storage unit 1034 stores two or more search terms. This search term is accumulated by the search term accumulation unit 1033. The search term storage unit 1034 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.).

検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける。この選択用語の受け付けのために、検索用語記憶部1034で記憶されている2以上の検索用語が出力されてもよく、あるいは、されなくてもよい。前者の場合には、例えば、検索用語がディスプレイ等に表示され、ユーザがマウス等を操作することにより所望の検索用語をクリック等し、その操作を検索用語選択受付部1035が受け付けてもよい。後者の場合には、例えば、検索用語記憶部1034で記憶されている2以上の検索用語と、各検索用語に対応した識別記号との表示された書類等をユーザが有しており、ユーザがキーボード等を操作することにより所望の検索用語に対応した識別記号を入力し、その入力を検索用語選択受付部1035が受け付けてもよい。なお、検索用語受付部1011は、前述のように、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける。   The search term selection accepting unit 1035 accepts selection of any search term from two or more search terms stored in the search term storage unit 1034. In order to accept this selected term, two or more search terms stored in the search term storage unit 1034 may or may not be output. In the former case, for example, a search term may be displayed on a display or the like, and the user may click a desired search term by operating a mouse or the like, and the search term selection receiving unit 1035 may receive the operation. In the latter case, for example, the user has a document or the like on which two or more search terms stored in the search term storage unit 1034 and an identification symbol corresponding to each search term are displayed. An identification symbol corresponding to a desired search term may be input by operating a keyboard or the like, and the search term selection receiving unit 1035 may receive the input. The search term receiving unit 1011 receives the search term indicated by the selection received by the search term selection receiving unit 1035 as described above.

なお、検索用語選択受付部1035による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、検索用語選択受付部1035は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語選択受付部1035は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The acceptance by the search term selection acceptance unit 1035 may be, for example, acceptance of information input from an input device (for example, a keyboard, a mouse, a touch panel, etc.), and information received via a wired or wireless communication line may be accepted. It may be received. Note that the search term selection receiving unit 1035 may or may not include a device (for example, a modem or a network card) for receiving. Further, the search term selection receiving unit 1035 may be realized by hardware, or may be realized by software such as a driver that drives a predetermined device.

次に、本実施の形態による技術動向情報作成装置1002における技術動向情報を作成する動作は、検索用語の受付処理(ステップS1101)以外、図17のフローチャートと同様であり、その説明を省略する。図44は、図17のフローチャートにおける検索用語の受付処理(ステップS1101)に代わる処理を示すフローチャートである。すなわち、本実施の形態による技術動向情報作成装置1002では、ステップS1101の処理の代わりに、図44で示されるステップS11201〜S11203の処理を行えばよい。   Next, the operation for creating the technology trend information in the technology trend information creating apparatus 1002 according to the present embodiment is the same as that in the flowchart of FIG. 17 except for the search term acceptance process (step S1101), and the description thereof will be omitted. FIG. 44 is a flowchart showing processing that replaces the search term acceptance processing (step S1101) in the flowchart of FIG. That is, in the technology trend information creation device 1002 according to the present embodiment, the processing of steps S111201 to S11203 shown in FIG. 44 may be performed instead of the processing of step S1101.

(ステップS11201)検索用語選択受付部1035は、検索用語の選択を受け付けたかどうか判断する。そして、選択を受け付けた場合には、ステップS11202に進み、そうでない場合には、選択を受け付けるまで、ステップS11201の処理を繰り返す。   (Step S11201) The search term selection receiving unit 1035 determines whether selection of a search term has been received. If the selection is accepted, the process proceeds to step S11202. If not, the process of step S11201 is repeated until the selection is accepted.

(ステップS11202)検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語から、検索用語選択受付部1035が受け付けた選択で示される検索用語を読み出す。   (Step S11202) The search term selection receiving unit 1035 reads a search term indicated by the selection received by the search term selection receiving unit 1035 from two or more search terms stored in the search term storage unit 1034.

(ステップS11203)検索用語選択受付部1035は、ステップS11202で検索用語記憶部1034から読み出した検索用語を検索用語受付部1011に入力する。その結果、その検索用語が検索用語受付部1011で受け付けられることになる。そして、ステップS1102に進む。   (Step S 11203) The search term selection receiving unit 1035 inputs the search term read from the search term storage unit 1034 in Step S 11202 to the search term receiving unit 1011. As a result, the search term accepting unit 1011 accepts the search term. Then, the process proceeds to step S1102.

なお、図44のフローチャートでは、検索用語記憶部1034で記憶されている検索用語を検索用語選択受付部1035が読み出して、検索用語受付部1011に入力する場合について説明したが、検索用語受付部1011が、検索用語選択受付部1035で受け付けられた選択の示す検索用語を検索用語記憶部1034から読み出すようにしてもよい。   In the flowchart of FIG. 44, the case where the search term selection receiving unit 1035 reads the search term stored in the search term storage unit 1034 and inputs the search term to the search term reception unit 1011 has been described. However, the search term indicated by the selection accepted by the search term selection accepting unit 1035 may be read from the search term storage unit 1034.

次に、検索用語記憶部1034に検索用語が蓄積される処理について、図45のフローチャートを用いて説明する。
(ステップS11301)専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から、専門用語を抽出する。この専門用語を抽出する方法は、前述の通りであり、その詳細な説明を省略する。なお、抽出された専門用語は、図示しない記録媒体において一時記憶されてもよい。
Next, processing for storing search terms in the search term storage unit 1034 will be described with reference to the flowchart of FIG.
(Step S11301) The technical term extraction unit 1032 extracts technical terms from the literature information stored in the literature information storage unit 1012. The method of extracting this technical term is as described above, and detailed description thereof is omitted. The extracted technical terms may be temporarily stored in a recording medium (not shown).

(ステップS11302)検索用語蓄積部1033は、カウンタiを1に設定し、カウンタjを1に設定する。
(ステップS11303)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語に、接尾語記憶部1031で記憶されているj番目の接尾語を付けた用語を文献情報記憶部1012において検索し、その用語が文献情報記憶部1012で記憶されている文献情報に含まれるかどうか判断する。そして、含まれる場合には、ステップS11304に進み、そうでない場合には、ステップS11307に進む。
(Step S11302) The search term storage unit 1033 sets the counter i to 1 and sets the counter j to 1.
(Step S11303) The search term accumulation unit 1033 adds a term obtained by adding the j-th suffix stored in the suffix storage unit 1031 to the i-th technical term extracted by the technical term extraction unit 1032 as a document information storage unit. A search is performed in 1012, and it is determined whether or not the term is included in the document information stored in the document information storage unit 1012. If it is included, the process proceeds to step S11304. If not, the process proceeds to step S11307.

(ステップS11304)検索用語蓄積部1033は、i番目の専門用語を検索用語として、検索用語記憶部1034に蓄積する。
(ステップS11305)検索用語蓄積部1033は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(Step S11304) The search term storage unit 1033 stores the i-th technical term as a search term in the search term storage unit 1034.
(Step S11305) The search term storage unit 1033 increments the counter i by 1, and sets the counter j to 1.

(ステップS11306)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語が存在するかどうか判断する。そして、存在する場合には、ステップS11303に戻り、そうでない場合には、検索用語を蓄積する一連の処理は終了となる。   (Step S11306) The search term accumulation unit 1033 determines whether or not the i-th technical term extracted by the technical term extraction unit 1032 exists. If it exists, the process returns to step S11303, and if not, the series of processes for accumulating the search terms ends.

(ステップS11307)検索用語蓄積部1033は、カウンタjを1だけインクリメントする。
(ステップS11308)検索用語蓄積部1033は、接尾語記憶部1031において、j番目の接尾語が記憶されているかどうか判断する。そして、記憶されている場合には、ステップS11303に戻り、そうでない場合には、ステップS11305に進む。
(Step S11307) The search term storage unit 1033 increments the counter j by 1.
(Step S11308) The search term storage unit 1033 determines whether or not the j-th suffix is stored in the suffix storage unit 1031. If it is stored, the process returns to step S11303; otherwise, the process proceeds to step S11305.

以上のように、本実施の形態による技術動向情報作成装置1002では、専門用語を抽出し、その専門用語から検索用語を選択して蓄積することにより、その専門用語の抽出や検索用語の選択等が適切に行われることによって、研究分野を示す適切な検索用語が検索用語受付部1011で受け付けられるようにすることができうる。その結果、適切な技術動向情報を作成することができうる。   As described above, the technical trend information creation apparatus 1002 according to the present embodiment extracts technical terms, selects search terms from the technical terms, and accumulates them, thereby extracting the technical terms and selecting search terms. As a result, the search term receiving unit 1011 can receive an appropriate search term indicating the research field. As a result, appropriate technical trend information can be created.

なお、本実施の形態では、検索用語記憶部1034で記憶されている検索用語を検索用語蓄積部1033が蓄積する場合について説明したが、検索用語記憶部1034で記憶される検索用語は、他の方法によって蓄積されてもよい。例えば、ユーザ等が適切な検索用語を選択等して、その検索用語が検索用語記憶部1034で記憶されるようにしてもよい。そのようにして、検索用語が検索用語記憶部1034に記憶される過程は問わない。例えば、記録媒体を介して検索用語が検索用語記憶部1034で記憶されるようになってもよく、通信回線等を介して送信された検索用語が検索用語記憶部1034で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された検索用語が検索用語記憶部1034で記憶されるようになってもよい。このような場合には、技術動向情報作成装置1002は、接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033を備えなくてもよい。   In this embodiment, the case where the search term storage unit 1033 stores the search terms stored in the search term storage unit 1034 has been described. However, the search terms stored in the search term storage unit 1034 may be other types. It may be accumulated by the method. For example, the user or the like may select an appropriate search term and the search term may be stored in the search term storage unit 1034. As such, the process in which the search term is stored in the search term storage unit 1034 is not limited. For example, a search term may be stored in the search term storage unit 1034 via a recording medium, and a search term transmitted via a communication line or the like is stored in the search term storage unit 1034. Alternatively, the search term input via the input device may be stored in the search term storage unit 1034. In such a case, the technology trend information creation device 1002 may not include the suffix storage unit 1031, the technical term extraction unit 1032, and the search term accumulation unit 1033.

(実施の形態6)
本発明の実施の形態6による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置は、表示された技術動向情報の画像において、文献情報に対応する文献図形の選択に応じて、その文献情報に関する情報が表示されるものである。
(Embodiment 6)
A technical trend information creation device according to Embodiment 6 of the present invention will be described with reference to the drawings. The technical trend information creation device according to the present embodiment displays information related to the literature information in the displayed technical trend information image in accordance with the selection of the literature graphic corresponding to the literature information.

図46は、本実施の形態による技術動向情報作成装置1003の構成を示すブロック図である。図46において、本実施の形態による技術動向情報作成装置1003は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、図形選択受付部1041と、表示情報取得部1042とを備える。本実施の形態において新たに追加された図形選択受付部1041、表示情報取得部1042以外の構成及び動作は、技術動向情報作成部1018が表示情報取得部1042の取得した表示情報を表示する技術動向情報を作成する以外、実施の形態4と同様であり、その説明を省略する。   FIG. 46 is a block diagram showing a configuration of a technology trend information creation device 1003 according to this embodiment. 46, the technical trend information creation device 1003 according to the present embodiment includes a search term receiving unit 1011, a document information storage unit 1012, a search unit 1013, a specifying unit 1014, a document information acquisition unit 1015, and a technical term. An extraction unit 1016, a time information acquisition unit 1017, a technology trend information creation unit 1018, an output unit 1019, a graphic selection reception unit 1041, and a display information acquisition unit 1042 are provided. The configuration and operation other than the graphic selection receiving unit 1041 and the display information acquisition unit 1042 newly added in the present embodiment are the technical trends in which the technical trend information creation unit 1018 displays the display information acquired by the display information acquisition unit 1042. Except for creating information, this is the same as in the fourth embodiment, and a description thereof is omitted.

なお、本実施の形態において、技術動向情報は、技術用語ごとに、その技術用語を含む文献情報に対応する図形である文献図形が、その文献情報に対応する時期情報の示す時期に応じて表示される画像であるものとする。文献図形の形状は問わない。文献図形は、例えば、図40で示される技術動向情報のように、丸印であってもよく、三角形、四角形等であってもよく、あるいは、その他の形状であってもよい。   In the present embodiment, for each technical term, the technical trend information is displayed according to the time indicated by the time information indicated by the time information corresponding to the document information. It is assumed that this is an image to be processed. The shape of the document figure does not matter. For example, as shown in the technical trend information shown in FIG. 40, the document figure may be a circle, a triangle, a quadrangle, etc., or another shape.

図形選択受付部1041は、技術動向情報における文献図形の選択を受け付ける。この選択の受け付けは、例えば、ユーザがマウス等を操作することによってポインタを文献図形の上に持ってくる(オンマウスオーバ)などのGUI(Graphical User Interface)を用いた選択の受け付けであってもよく、あるいは、技術動向情報において、各文献図形に対して、その文献図形を識別する識別情報(例えば、番号やアルファベットなど)が対応付けられており、ユーザがキーボード等を操作することによってその識別情報を入力するなどの選択の受け付けであってもよい。   The figure selection receiving unit 1041 receives selection of a document figure in the technology trend information. For example, the selection may be accepted by using a GUI (Graphical User Interface) such as bringing the pointer over a document figure by operating the mouse or the like (on mouse over). In addition, in the technical trend information, each document graphic is associated with identification information (for example, a number or alphabet) for identifying the document graphic, and the identification is performed by the user operating the keyboard or the like. Selection may be accepted such as inputting information.

なお、図形選択受付部1041による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、図形選択受付部1041は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、図形選択受付部1041は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。   The reception by the graphic selection receiving unit 1041 may be, for example, reception of information input from an input device (for example, a keyboard, mouse, touch panel, etc.), or reception of information transmitted via a wired or wireless communication line. But you can. The graphic selection receiving unit 1041 may or may not include a device (for example, a modem or a network card) for receiving. The graphic selection receiving unit 1041 may be realized by hardware, or may be realized by software such as a driver that drives a predetermined device.

表示情報取得部1042は、表示情報を文献情報記憶部1012から取得する。ここで、表示情報とは、図形選択受付部1041が選択を受け付けた文献図形に対応する文献情報に関する情報であり、技術動向情報の画像に表示する情報である。文献情報に関する情報とは、例えば、文献情報の書誌情報である。より具体的には、文献情報のタイトルや、著者、文献の発表年等であってもよい。なお、技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を表示する技術動向情報を作成する。その表示情報は、例えば、図形選択受付部1041が選択を受け付けた文献図形の近くに表示されてもよく、あるいは、表示情報を表示する領域が設定されている場合には、その領域に表示されてもよい。   The display information acquisition unit 1042 acquires display information from the document information storage unit 1012. Here, the display information is information related to document information corresponding to the document graphic accepted by the graphic selection receiving unit 1041 and is information displayed on the image of the technical trend information. The information related to document information is, for example, bibliographic information of document information. More specifically, it may be the title of the document information, the author, the publication year of the document, or the like. The technical trend information creation unit 1018 creates technical trend information for displaying the display information acquired by the display information acquisition unit 1042. The display information may be displayed, for example, in the vicinity of a document graphic that has been selected by the graphic selection receiving unit 1041. Alternatively, if an area for displaying the display information is set, the display information is displayed in that area. May be.

次に、本実施の形態による技術動向情報作成装置1003における技術動向情報を作成する動作は、図17のフローチャートと同様であり、その説明を省略する。図47は、図17のフローチャートの技術動向情報の出力処理(ステップS1108)の処理の後に実行する処理を示す図である。すなわち、本実施の形態による技術動向情報作成装置1003では、ステップS1108の処理の後に、図47で示されるステップS11401〜S11406の処理を行えばよい。   Next, the operation of creating the technology trend information in the technology trend information creating apparatus 1003 according to the present embodiment is the same as the flowchart of FIG. FIG. 47 is a diagram showing a process executed after the process of the technical trend information output process (step S1108) in the flowchart of FIG. That is, in the technology trend information creation device 1003 according to the present embodiment, the processing of steps S11401 to S11406 shown in FIG. 47 may be performed after the processing of step S1108.

(ステップS11401)図形選択受付部1041は、文献図形の選択を受け付けたかどうか判断する。そして、文献図形の選択を受け付けた場合には、ステップS11402に進み、そうでない場合には、ステップS11405に進む。   (Step S11401) The graphic selection receiving unit 1041 determines whether or not selection of a document graphic has been received. If the selection of the document graphic is accepted, the process proceeds to step S11402. If not, the process proceeds to step S11405.

(ステップS11402)表示情報取得部1042は、図形選択受付部1041が選択を受け付けた文献図形に関する情報である表示情報を文献情報記憶部1012から取得する。   (Step S11402) The display information acquisition unit 1042 acquires display information, which is information related to the document graphic accepted by the graphic selection receiving unit 1041 from the document information storage unit 1012.

(ステップS11403)技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を含む技術動向情報を作成する。
(ステップS11404)出力部1019は、技術動向情報作成部1018が作成した、表示情報を含む技術動向情報を出力する。そして、ステップS11401に戻る。
(Step S11403) The technology trend information creation unit 1018 creates technology trend information including the display information acquired by the display information acquisition unit 1042.
(Step S11404) The output unit 1019 outputs the technology trend information including the display information created by the technology trend information creation unit 1018. Then, the process returns to step S11401.

(ステップS11405)出力部1019は、技術動向情報の出力を終了するかどうか判断する。例えば、技術動向情報を出力してから所定の時間が経過したり、技術動向情報の出力を終了する旨の指示を受け付けたり、他の情報を出力する旨の指示を受け付けたりした場合に、出力部1019は、技術動向情報の出力を終了すると判断してもよい。技術動向情報の出力を終了する場合には、ステップS11406に進み、そうでない場合には、ステップS11401に戻る。   (Step S11405) The output unit 1019 determines whether or not to end the output of the technology trend information. For example, output when a predetermined time has passed since the output of technology trend information, an instruction to end the output of technology trend information, or an instruction to output other information The unit 1019 may determine to end the output of the technology trend information. If the output of the technology trend information is to end, the process proceeds to step S11406. If not, the process returns to step S11401.

(ステップS11406)出力部1019は、技術動向情報の出力を終了する。そして、ステップS1101に戻る。   (Step S11406) The output unit 1019 ends the output of the technology trend information. Then, the process returns to step S1101.

次に、本実施の形態による技術動向情報作成装置1003の表示情報を表示する動作について、具体的に説明する。ここで、図40で示されるように、ディスプレイに技術動向情報の画像が表示されているものとする。その表示において、コスト最小法に対応した文献図形(丸印)のうち、一番左側の丸印の上にマウスポインタを置いたとする。すると、図形選択受付部1041は、文献図形の選択を受け付けたと判断する(ステップS11401)。そして、図形選択受付部1041は、そのマウスポインタの位置の文献図形に対応する文献情報を識別する文献ID「003」を技術動向情報作成部1018にアクセスして取得し、表示情報取得部1042に渡す。   Next, the operation of displaying the display information of the technology trend information creation apparatus 1003 according to this embodiment will be specifically described. Here, as shown in FIG. 40, it is assumed that an image of the technology trend information is displayed on the display. In the display, it is assumed that the mouse pointer is placed on the leftmost circle among the document figures (circles) corresponding to the minimum cost method. Then, the graphic selection receiving unit 1041 determines that the selection of the document graphic has been received (step S11401). Then, the graphic selection receiving unit 1041 acquires the document ID “003” for identifying the document information corresponding to the document graphic at the position of the mouse pointer by accessing the technology trend information creating unit 1018 and acquires the document ID “003” in the display information acquiring unit 1042. hand over.

表示情報取得部1042は、図形選択受付部1041から受け取った文献ID「003」で識別される文献情報のタイトルを、表示情報として文献情報記憶部1012から取得し(ステップS11402)、その表示情報を技術動向情報作成部1018に渡す。技術動向情報作成部1018は、表示情報取得部1042から受け取った表示情報を、その時点におけるマウスポインタの位置に対応付けて表示するように技術動向情報を作成する(ステップS11403)。なお、技術動向情報作成部1018は、マウスポインタの位置を図形選択受付部1041から受け取ってもよく、他の構成要素から受け取ってもよい。   The display information acquisition unit 1042 acquires the title of the document information identified by the document ID “003” received from the graphic selection reception unit 1041 as display information from the document information storage unit 1012 (step S11402), and displays the display information. It is passed to the technology trend information creation unit 1018. The technology trend information creation unit 1018 creates the technology trend information so that the display information received from the display information acquisition unit 1042 is displayed in association with the position of the mouse pointer at that time (step S11403). The technical trend information creation unit 1018 may receive the position of the mouse pointer from the graphic selection receiving unit 1041 or may be received from another component.

出力部1019は、そのようにして作成された表示情報を含む技術動向情報を出力する。その結果、図48で示される技術動向情報がディスプレイに表示されることになる(ステップS11404)。   The output unit 1019 outputs the technology trend information including the display information created as described above. As a result, the technology trend information shown in FIG. 48 is displayed on the display (step S11404).

なお、ユーザが技術動向情報の画像のウィンドウを閉じる動作を行った場合には、出力部1019は、技術動向情報の出力を終了すると判断し(ステップS11405)、技術動向情報の出力が終了されることになる(ステップS11406)。   When the user performs an operation to close the image of the technology trend information, the output unit 1019 determines that the output of the technology trend information is finished (step S11405), and the output of the technology trend information is finished. (Step S11406).

この具体例では、表示情報として、文献情報のタイトルが表示される場合について説明したが、前述のように、それ以外の表示情報が表示されてもよい。例えば、著者名や、発表時期等が表示情報に含まれてもよい。発表時期は、時期情報であってもよい。   In this specific example, the case where the title of the document information is displayed as the display information has been described. However, as described above, other display information may be displayed. For example, the display information may include an author name, an announcement time, and the like. The announcement time may be time information.

以上のように、本実施の形態による技術動向情報作成装置1003では、技術動向情報の画像における文献図形が選択された場合に、その文献図形に対応する文献情報に関する情報である表示情報が取得され、その表示情報を含む技術動向情報の画像が作成されて出力される。したがって、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。   As described above, in the technology trend information creation device 1003 according to the present embodiment, when a document graphic in an image of the technology trend information is selected, display information that is information related to document information corresponding to the document graphic is acquired. Then, an image of technical trend information including the display information is created and output. Therefore, for example, the user who is viewing the technical trend information image can easily know the predetermined information about the document information including the technical term displayed in the technical trend information image, User convenience is improved.

ここで、技術用語を抽出する方法の改良と、実験結果とについて説明する。実施の形態4において、技術用語を抽出する各種の方法について説明したが、ここでは、機械学習を取り入れることなどにより、その抽出精度を向上させた方法(手法1と手法2)について説明する。   Here, the improvement of the method for extracting technical terms and the experimental results will be described. In the fourth embodiment, various methods for extracting technical terms have been described. Here, methods (method 1 and method 2) in which the extraction accuracy is improved by incorporating machine learning or the like will be described.

まず、技術用語抽出部1016は、文献情報取得部1015によって取得された文献情報の少なくとも一部に対して、前述の説明と同様にして、「Method」タグや、「Goal」タグを付与する。また、「における」や「に関する」等の限定に関する手がかり語句に対応する「Restrict」タグや、「及び」や「または」等の接続に関する手がかり語句に対応する「Conj」タグ等も付与する。なお、「Method」タグや、「Goal」タグ、後述する「Head」タグ以外のタグのことを「Other」タグと呼ぶことにする。ここでは、文献情報取得部1015が技術文献のタイトルを文献情報の一部として取得する場合について説明する。また、今回は、文献情報の主題を示す「Head」タグも付与する。「Head」タグは、「Method」タグや「Goal」タグの付与されていない名詞句に対して付与される。多くの場合に、取得されたタイトルの末尾の名詞句に対して「Head」タグが付与されることになる。   First, the technical term extraction unit 1016 adds a “Method” tag and a “Goal” tag to at least part of the document information acquired by the document information acquisition unit 1015 in the same manner as described above. In addition, a “Restrict” tag corresponding to a clue word related to limitation such as “in” or “related”, a “Conj” tag corresponding to a clue word related to connection such as “and”, “or”, and the like are also given. Note that tags other than the “Method” tag, “Goal” tag, and “Head” tag described later are referred to as “Other” tags. Here, a case where the document information acquisition unit 1015 acquires the title of the technical document as part of the document information will be described. In addition, this time, a “Head” tag indicating the subject of the document information is also given. The “Head” tag is attached to a noun phrase to which the “Method” tag and the “Goal” tag are not attached. In many cases, a “Head” tag is given to the noun phrase at the end of the acquired title.

ここで、「Head」タグ等の付与されたタイトルを用いて技術用語を抽出する方法について簡単に説明する。技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Head」タグが付与されているタイトルから、「Method」タグの付与されている用語を技術用語として抽出する。また、技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Goal」タグが付与されているタイトルから、「Head」タグの付与されている用語を技術用語として抽出する。このようにすることで、検索用語に対する要素技術を示す技術用語を抽出することができる。   Here, a method for extracting a technical term using a title assigned with a “Head” tag or the like will be briefly described. The technical term extraction unit 1016 extracts, as a technical term, a term to which a “Method” tag is assigned from a title to which a “Head” tag is assigned to a search term received by the search term reception unit 1011. Further, the technical term extraction unit 1016 extracts, as a technical term, a term to which the “Head” tag is assigned from the title to which the “Goal” tag is assigned to the search term received by the search term reception unit 1011. By doing in this way, the technical term which shows the elemental technique with respect to a search term can be extracted.

しかしながら、文献情報取得部1015によって取得されたタイトルの末尾の名詞句に「Head」タグを付与することが不適切な場合もある。例えば、そのタイトルが「中国語形態素解析に対するSVMとコスト最小法の比較実験」である場合に、タイトルの末尾である「比較実験」は主題ではなく、「SVM」や「コスト最小法」が主題であると考えられる。したがって、そのような場合であっても、適切に「Head」タグを付与することができる方法(手法1と手法2)について説明する。   However, it may be inappropriate to add the “Head” tag to the noun phrase at the end of the title acquired by the document information acquisition unit 1015. For example, when the title is “Comparison experiment of SVM and minimum cost method for Chinese morphological analysis”, “Comparison experiment” at the end of the title is not the subject, but “SVM” or “Minimum cost method” is the subject. It is thought that. Therefore, even in such a case, a method (method 1 and method 2) that can appropriately add the “Head” tag will be described.

まず、手法1について説明する。手法1では、主題として不適切な用語(例えば、「研究」「検討」「開発」「影響」「解析」「一考察」「評価」「考察」「実験的研究」「一検討」「応用」「効果」「提案」等である)のリスト(ここでは、「不要語リスト」と呼ぶ)を用意する。この不要語リストを作成する方法については後述する。まず、技術用語抽出部1016は、文献情報取得部1015によって取得されたタイトルに対して、形式的に「Head」タグや「Method」タグ等を付与していく。そして、「Head」タグの付与された用語が不要語リストに含まれるかどうか判断する。「Head」タグの付与された用語が不要語リストに含まれない場合には、「Head」タグを付与する処理は終了となる。一方、「Head」タグの付与された用語が不要語リストに含まれる場合には、その用語への「Head」タグの付与を取りやめて、その用語よりも前に存在する名詞句であって、「Method」タグや「Goal」タグの付与されていない名詞句に対して「Head」タグを付与する。この処理を、「Head」タグを付与した用語が不要語リストに含まれなくなるまで繰り返す。このようにして、適切な「Head」タグの付与が行われることになる。なお、ここでは、日本語に対する処理の場合について説明したが、英語等の日本語とは文法的に語順が違う言語の場合には、「Head」タグの付与された用語が不要語リストに含まれる際に、その用語よりも後に存在する名詞句に新たに「Head」タグを付与することになる。   First, method 1 will be described. In Method 1, terms inappropriate for the subject (for example, “research” “examination” “development” “impact” “analysis” “one consideration” “evaluation” “consideration” “experimental research” “one examination” “application” A list of “effects”, “suggestions”, etc.) (herein called “unnecessary word list”) is prepared. A method of creating this unnecessary word list will be described later. First, the technical term extraction unit 1016 adds a “Head” tag, a “Method” tag, and the like to the title acquired by the document information acquisition unit 1015. Then, it is determined whether the term to which the “Head” tag is added is included in the unnecessary word list. If the term to which the “Head” tag is attached is not included in the unnecessary word list, the process of assigning the “Head” tag ends. On the other hand, if the term with the “Head” tag is included in the unnecessary word list, the “Head” tag is given to the term, and the noun phrase exists before the term, A “Head” tag is assigned to a noun phrase to which no “Method” tag or “Goal” tag is attached. This process is repeated until the term with the “Head” tag is not included in the unnecessary word list. In this way, an appropriate “Head” tag is assigned. Here, the case of processing for Japanese was explained, but in the case of a language whose grammatical order is different from Japanese such as English, the term with the “Head” tag is included in the unnecessary word list. In this case, a “Head” tag is newly added to a noun phrase existing after the term.

次に、手法2について説明する。手法2では、適切な「Head」タグの付与が行われたデータ(教師データ)を用意し、機械学習を行わせる。この場合に、「Head」タグ以外の「Method」タグや「Goal」タグ等についても、同様に機械学習を行わせる。また、その教師データにおいて、各語句が不要語リストに含まれているかどうかの情報も含ませることにより、不要語リストに含まれる用語に対して「Head」タグが付与されることがなくなると考えられる。なお、機械学習のツールとしては、例えば、SVM(サポート・ベクター・マシン)等を用いてもよい。このような機械学習を行わせることによって、不適切な「Head」タグの付与が行われなくなると考えられる。   Next, method 2 will be described. In Method 2, data (teacher data) to which an appropriate “Head” tag is assigned is prepared and machine learning is performed. In this case, machine learning is similarly performed for “Method” tags and “Goal” tags other than the “Head” tag. In addition, by including information on whether or not each word is included in the unnecessary word list in the teacher data, it is considered that the “Head” tag is not attached to the term included in the unnecessary word list. It is done. For example, SVM (support vector machine) may be used as a machine learning tool. By performing such machine learning, it is considered that an inappropriate “Head” tag is not given.

次に、上記の手法1で用いられた不要語リストを作成する方法について説明する。形式的に「Head」タグ等の付与を行った場合には、「実験」や「一考察」等の不適切な用語に「Head」タグが付与されると共に、「形態素解析」等の適切な用語にも「Head」タグが付与されることになる。ただし、「形態素解析」等の用語に「Head」タグが付与されるのは自然言語処理分野の論文だけであるが、「実験」や「一考察」等の用語に「Head」タグが付与されるのは、広範な技術分野にわたると考えられる。したがって、形式的に「Head」タグを付与した後に、その「Head」タグの付与された用語を頻度順にソートすると、「実験」や「一考察」等の不要語が上位にランクされることになる。そして、上位にランクされる不要語から、技術用語を人手によって除外することによって、不要語リストを作成することができる。   Next, a method for creating an unnecessary word list used in Method 1 will be described. When a “Head” tag or the like is formally added, an “Head” tag is added to an inappropriate term such as “experiment” or “one consideration” and an appropriate “morphological analysis” or the like. The term “Head” tag is also attached to the term. However, the “Head” tag is assigned to a term such as “morphological analysis” only for a paper in the natural language processing field, but the “Head” tag is assigned to a term such as “experiment” or “one consideration”. Is considered to cover a wide range of technical fields. Therefore, if the terms with the “Head” tag are sorted in order of frequency after the “Head” tag is formally assigned, unnecessary words such as “experiment” and “one consideration” are ranked higher. Become. An unnecessary word list can be created by manually excluding technical terms from unnecessary words ranked higher.

最後に、形式的に「Head」タグ等を付与した場合と、手法1を用いた場合と、手法2を用いた場合の実験結果について説明する。この実験では、NTCIRワークショップ1,2言語横断検索タスクのデータを用いた。このデータは、1988〜1997年の抄録データベースであり、日本国内65学会の発表論文を約45万件含んでいる。これらのデータから無作為に抽出した日本語論文表題1000件に対して「Head」タグ等の付与を人手で行い、それを教師データとして用いることにより、実験を行った。   Finally, experimental results when the “Head” tag or the like is formally added, when the method 1 is used, and when the method 2 is used will be described. In this experiment, data of NTCIR workshop 1, cross-language search task was used. This data is an abstract database from 1988 to 1997, and contains about 450,000 papers presented by 65 academic societies in Japan. An experiment was conducted by manually assigning “Head” tags and the like to 1000 Japanese paper titles randomly extracted from these data and using them as teacher data.

図49は、形式的にタグを付与したときの結果であり、図50は、手法1を用いたときの結果であり、図51は、手法2を用いたときの結果である。なお、それらの結果において、Precisionは、精度(適合率)を示す値であり、正確性の指標となるものである。次の式によって求められる。
Precision=システムの出力と正解のタグが一致した形態素数/システムがタグを付与した形態素数
FIG. 49 shows the results when tags are formally added, FIG. 50 shows the results when Method 1 is used, and FIG. 51 shows the results when Method 2 is used. In these results, Precision is a value indicating accuracy (accuracy) and serves as an index of accuracy. It is obtained by the following formula.
Precision = number of morphemes whose system output and correct tag match / number of morphemes to which the system added a tag

また、Recallは、再現率を示す値であり、網羅性の指標となるものである。次の式によって求められる。
Recall=システムの出力と正解のタグが一致した形態素数/人間の被験者がタグを付与した形態素数
In addition, “Recall” is a value indicating a recall rate and serves as an index of completeness. It is obtained by the following formula.
Recall = the number of morphemes for which the output of the system matches the correct tag / the number of morphemes for which a human subject gave a tag

また、F値は、PrecisionとRecallとの調和平均であり、次の式によって求められる。
F値=2*Recall*Precision/(Recall+Precision)
The F value is a harmonic average of Precision and Recall, and is obtained by the following equation.
F value = 2 * Recall * Precision / (Recall + Precision)

図49〜図51の実験結果からわかるように、形式的なタグの付与を行うと、例えば「Head」タグの抽出精度は44%程度と、非常に低い値になっている。一方、手法1,2による結果(図50,図51)では、「Head」タグの抽出精度と再現率が30%以上向上していることがわかる。このことから、手法1、手法2の有効性が確認できた。したがって、この手法1,2を用いて、文献情報取得部1015が取得した文献情報の少なくとも一部に対してタグの付与を行うことによって、より高精度な技術用語の抽出を行うことができることになる。   As can be seen from the experimental results of FIGS. 49 to 51, when a formal tag is added, for example, the extraction accuracy of the “Head” tag is a very low value of about 44%. On the other hand, in the results of the methods 1 and 2 (FIGS. 50 and 51), it can be seen that the extraction accuracy and recall of the “Head” tag are improved by 30% or more. From this, the effectiveness of Method 1 and Method 2 was confirmed. Therefore, it is possible to extract technical terms with higher accuracy by attaching tags to at least a part of the document information acquired by the document information acquisition unit 1015 using these methods 1 and 2. Become.

ここで、技術動向情報の表示に関する改良について説明する。実施の形態4等において、技術動向情報について説明したが、多数の技術用語が技術動向情報に含まれる場合には、技術動向情報がユーザにとってわかりにくいものとなりうる。したがって、ここでは、分類ごとに技術用語をまとめて技術動向情報を作成する方法について説明する。   Here, the improvement regarding the display of the technical trend information will be described. In the fourth embodiment and the like, the technical trend information has been described. However, when a large number of technical terms are included in the technical trend information, the technical trend information may be difficult for the user to understand. Therefore, here, a method of creating technical trend information by collecting technical terms for each classification will be described.

図52は、分類ごとに技術用語をまとめた技術動向情報を作成する技術動向情報作成装置1004の構成を示すブロック図である。図52において、技術動向情報作成装置1004は、分類結果情報記憶部1051をさらに備え、その分類結果情報記憶部1051で記憶されている分類結果情報を用いて技術動向情報を作成する以外、実施の形態4の技術動向情報作成装置1001と同様のものである。   FIG. 52 is a block diagram illustrating a configuration of a technology trend information creation device 1004 that creates technology trend information in which technical terms are grouped for each classification. In FIG. 52, the technology trend information creation device 1004 further includes a classification result information storage unit 1051, except that the technology trend information is created using the classification result information stored in the classification result information storage unit 1051. This is the same as the technology trend information creation device 1001 of the fourth embodiment.

分類結果情報記憶部1051では、分類結果情報が記憶される。ここで、分類結果情報とは、専門用語が分類された結果を示す情報である。この専門用語は、技術用語抽出部1016が抽出する可能性のある技術用語である。例えば、図53で示されるように、分類結果情報では、専門用語が分類ごとにまとめられている。図53では、その分類に「アルゴリズム」等の分類名が付与されているが、分類名は付与されていなくてもよい。また、この分類結果情報は、人手によって作成されてもよく、あるいは、自動的に作成されてもよい。   In the classification result information storage unit 1051, the classification result information is stored. Here, the classification result information is information indicating a result of classification of technical terms. This technical term is a technical term that the technical term extraction unit 1016 may extract. For example, as shown in FIG. 53, in the classification result information, technical terms are grouped for each classification. In FIG. 53, a classification name such as “algorithm” is assigned to the classification, but the classification name may not be assigned. Further, this classification result information may be created manually or automatically.

分類結果情報記憶部1051は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。分類結果情報記憶部1051に分類結果情報が記憶される過程は問わない。例えば、記録媒体を介して分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、通信回線等を介して送信された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよい。   The classification result information storage unit 1051 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which the classification result information is stored in the classification result information storage unit 1051 does not matter. For example, the classification result information may be stored in the classification result information storage unit 1051 via a recording medium, and the classification result information transmitted via a communication line or the like is stored in the classification result information storage unit 1051. Alternatively, the classification result information input via the input device may be stored in the classification result information storage unit 1051.

技術動向情報作成部1018は、分類結果情報記憶部1051で記憶されている分類結果情報を用いて、技術用語が分類された技術動向情報を作成する。技術用語が分類されている以外は、技術動向情報は、実施の形態4等と同様である。具体的には、技術動向情報作成部1018は、分類結果情報を参照し、技術用語抽出部1016が抽出した技術用語を分類ごとに分ける。例えば、技術用語「コスト最小法」「ニューラルネット」「HMM」「タグ付きコーパス」「タグなしコーパス」が抽出された場合には、技術動向情報作成部1018は、図53で示される分類結果情報を参照し、それらの技術用語を分類「アルゴリズム」と、分類「データ」とに分ける。そのように、分類わけのなされた技術用語のグループごとに、技術動向情報作成部1018は、前述の説明と同様にして、技術動向情報が作成する。図54は、そのようにして作成された技術動向情報の一例を示す図である。図54において、技術用語が分類ごとに分かれているため、ユーザは、技術動向を分類ごとに容易に把握することができる。特に、抽出される技術用語が多数である場合に有効である。なお、実施の形態4等と同様にして技術動向情報を作成した後に、分類結果情報を用いて技術用語の分類わけを行ってもよい。   The technical trend information creation unit 1018 creates technical trend information in which technical terms are classified, using the classification result information stored in the classification result information storage unit 1051. Except for the technical terms being classified, the technical trend information is the same as in the fourth embodiment. Specifically, the technical trend information creation unit 1018 refers to the classification result information, and classifies the technical terms extracted by the technical term extraction unit 1016 for each classification. For example, when the technical terms “cost minimum method”, “neural network”, “HMM”, “tagged corpus”, and “untagged corpus” are extracted, the technical trend information creation unit 1018 displays the classification result information shown in FIG. The technical terms are classified into a classification “algorithm” and a classification “data”. As such, for each group of technical terms that have been classified, the technical trend information creation unit 1018 creates technical trend information in the same manner as described above. FIG. 54 is a diagram showing an example of the technical trend information created as described above. In FIG. 54, since the technical terms are divided for each classification, the user can easily grasp the technical trend for each classification. This is particularly effective when a large number of technical terms are extracted. Note that technical term information may be classified using classification result information after creating technical trend information in the same manner as in the fourth embodiment.

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。   In each of the above embodiments, each processing or each function may be realized by centralized processing by a single device or a single system, or distributed processing by a plurality of devices or a plurality of systems. May be realized.

また、上記各実施の形態において、関連用語取得装置や技術動向情報作成装置は、スタンドアロンの装置であってもよく、あるいは、サーバ・クライアントシステムを構成するサーバ装置であってもよい。後者の場合には、関連用語取得装置は、クライアントから送信された用語情報を受信してもよく、また、クライアントに関連用語情報を送信してもよい。   In each of the above embodiments, the related term acquisition device and the technical trend information creation device may be a stand-alone device, or may be a server device constituting a server / client system. In the latter case, the related term acquisition device may receive the term information transmitted from the client, and may transmit the related term information to the client.

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。   In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.

なお、上記実施の形態1〜3における関連用語取得装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、用語を示す情報である用語情報を受け付ける用語情報受付ステップと、前記用語情報受付ステップで受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を、文献を示す情報である文献情報が2以上記憶される文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得ステップと、前記引用文献情報取得ステップで取得した引用文献情報の一部から、前記用語情報受付ステップが受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得ステップと、前記関連用語情報取得ステップで取得した関連用語情報を出力する関連用語情報出力ステップと、を実行させるためのものである。   In addition, the software which implement | achieves the related vocabulary acquisition apparatus in the said Embodiment 1-3 is the following programs. That is, this program has a term information receiving step for accepting term information, which is information indicating terms, in a computer, and literature information having the term indicated by the term information received in the term information accepting step in all or part of the literature information. Are searched from two or more document information stored in a document information storage unit that stores two or more document information that is information indicating a document, and all of the retrieved document information or the retrieved document information A document information acquisition step of acquiring a part having at least cited document identification information that is a part and information for identifying other documents cited in the retrieved document information from the document information storage unit, Cited text that is information indicating the document identified by the cited document identification information included in all or part of the document information acquired in the document information acquisition step Information is searched from two or more document information stored in the document information storage unit, and a part of the retrieved cited document information corresponding to a predetermined item is searched for in the document information storage unit Information indicating a related term related to the term indicated by the term information received by the term information receiving step from a part of the cited reference information acquired in the cited reference information acquiring step and the cited reference information acquiring step acquired from The related term information acquisition step for acquiring the related term information and the related term information output step for outputting the related term information acquired in the related term information acquisition step are executed.

また、上記実施の形態における技術動向情報作成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出ステップと、前記技術用語抽出ステップで抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得ステップと、前記技術用語抽出ステップで抽出した技術用語と、前記時期情報取得ステップで取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成ステップと、前記技術動向情報作成ステップで作成した技術動向情報を出力する出力ステップと、を実行させるためのものである。   Moreover, the software which implement | achieves the technical trend information creation apparatus in the said embodiment is the following programs. That is, this program stores, in a computer, at least a plurality of document information that is information indicating at least a part of technical documents, and document information that stores at least time information that is information indicating the time related to the technical documents indicated by the document information. From a plurality of document information stored in the storage unit, a document information acquisition step of acquiring all or a part of at least a part of document information, and from all or a part of the document information acquired in the document information acquisition step A technical term extraction step for extracting technical terms, a timing information acquisition step for acquiring timing information corresponding to the literature information including the technical terms extracted in the technical term extraction step, and the technical term extraction Using the technical terms extracted in the step and the time information acquired in the time information acquisition step, the technical terms and the relevant technology A technology trend information creation step for creating technology trend information, which is information for associating a period related to a technical document including terms, and an output step for outputting the technology trend information created in the technology trend information creation step. Is.

また、このプログラムにおいて、コンピュータに、検索用語を受け付ける検索用語受付ステップと、前記検索用語受付ステップで受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索ステップと、をさらに実行させ、前記文献情報取得ステップでは、検索された文献情報の全部または一部を取得するようにしてもよい。   Further, in this program, the computer further executes a search term reception step for receiving a search term, and a search step for searching the document information storage unit using the search term received in the search term reception step, In the document information acquisition step, all or part of the retrieved document information may be acquired.

なお、上記プログラムにおいて、情報を受け付ける受付ステップや、情報を出力する出力ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。   In the above program, the reception step for receiving information and the output step for outputting information do not include at least processing performed only by hardware, for example, processing performed by a modem or an interface card in the output step. .

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。   Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。   Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.

図55は、上記プログラムを実行して、上記実施の形態による関連用語取得装置や技術動向情報作成装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。   FIG. 55 is a schematic diagram showing an example of the appearance of a computer that executes the program and realizes the related term acquisition device and the technical trend information creation device according to the embodiment. The above-described embodiment is realized by computer hardware and a computer program executed on the computer hardware.

図55において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。   55, a computer system 100 includes a computer 101 including a CD-ROM (Compact Disk Read Only Memory) drive 105, an FD (Flexible Disk) drive 106, a keyboard 102, a mouse 103, and a monitor 104.

図56は、コンピュータシステムを示す図である。図56において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。   FIG. 56 is a diagram illustrating a computer system. 56, in addition to the CD-ROM drive 105 and the FD drive 106, a computer 101 includes a CPU (Central Processing Unit) 111, a ROM (Read Only Memory) 112 for storing a program such as a bootup program, A CPU (Random Access Memory) 113 that is connected to the CPU 111 and temporarily stores application program instructions and provides a temporary storage space, a hard disk 114 that stores application programs, system programs, and data, a CPU 111 and a ROM 112. Etc. to each other. The computer 101 may include a network card (not shown) that provides connection to the LAN.

コンピュータシステム100に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。   A program that causes the computer system 100 to execute the functions of the related term acquisition device and the technical trend information creation device according to the above embodiment is stored in the CD-ROM 121 or the FD 122 and stored in the CD-ROM drive 105 or the FD drive 106. It may be inserted and transferred to the hard disk 114. Instead, the program may be transmitted to the computer 101 via a network (not shown) and stored in the hard disk 114. The program is loaded into the RAM 113 at the time of execution. The program may be loaded directly from the CD-ROM 121, the FD 122, or the network.

プログラムは、コンピュータ101に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 101 to execute the functions of the related term acquisition device and the technical trend information creation device according to the above embodiment. The program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 100 operates is well known and will not be described in detail.

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上のように、本発明による関連用語取得装置等によれば、受け付けられた用語情報に関連する関連用語情報を取得することができ、ある用語に関連する関連用語を取得する装置等として有用である。   As described above, according to the related term acquisition device or the like according to the present invention, it is possible to acquire related term information related to the accepted term information, and it is useful as a device or the like that acquires related terms related to a certain term. is there.

また、本発明による技術動向情報作成装置等によれば、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができ、文献情報等から技術動向情報を作成する装置等において有用である。   In addition, according to the technical trend information creation device or the like according to the present invention, it is possible to create technical trend information, which is information that associates technical terms with the timing of technical literature including the technical terms. This is useful in an apparatus for creating

Claims (9)

技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、
検索用語を受け付ける検索用語受付部と、
前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索 部と、
前記文献情報記憶部で記憶されている複数の文献情報のうち、検索された文献情報の全部または一部を取得する文献情報取得部と、
前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、
前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、
前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、
前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、
前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部と、を備え
前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報 記憶部から取得する、技術動向情報作成装置。
A document information storage unit that stores at least a plurality of document information that is information indicating at least a part of the technical document and time information that is information indicating a time related to the technical document indicated by the document information
A search term acceptance unit for accepting search terms;
A search unit that searches the document information storage unit using a search term received by the search term reception unit ;
Among a plurality of document information stored in the document information storage unit, and the document information acquisition unit for acquiring all or part of the retrieved document information,
A technical term extraction unit that extracts technical terms from all or part of the literature information acquired by the literature information acquisition unit;
A time information acquisition unit for acquiring time information corresponding to document information including the technical terms extracted by the technical term extraction unit from the document information storage unit;
Using the technical terms extracted by the technical term extraction unit and the timing information acquired by the timing information acquisition unit, create technical trend information that is information for associating the technical terms with the timing related to the technical literature including the technical terms Technical trend information creation department to
An output unit that outputs the technology trend information created by the technology trend information creation unit;
A specifying unit for specifying the document information having the same field as the document information searched by the search unit ,
The document information acquisition unit is a technology trend information creation device that acquires all or part of the document information specified by the specifying unit from the document information storage unit .
前記検索部は、前記検索用語受付部が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索する、請求項記載の技術動向情報作成装置。The search unit, the search term receiving unit search terms accepted searches for document information corresponding to the technical literature, which is the main topic, technology trends information creating apparatus according to claim 1. 前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得し、当該引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する、請求項1または請求項2記載の技術動向情報作成装置。The identifying unit obtains cited document identification information that is information for identifying another technical document cited in the document information from the document information searched by the search unit, and uses the cited document identification information. The technical trend information creation device according to claim 1 , wherein the document information is identical in field to the document information searched by the search unit. 前記技術用語抽出部は、
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えた、請求項から請求項のいずれか記載の技術動向情報作成装置。
The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
The terms with the cue phrase search means searches the clues words and predetermined relations, and a technical term extraction means for extracting as a technical term, technology trends information creation according to any one of claims 1 to 3 apparatus.
前記技術用語抽出部は、
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
2以上の専門用語が記憶される専門用語記憶手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えた、請求項から請求項のいずれか記載の技術動向情報作成装置。
The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
Technical term storage means for storing two or more technical terms;
Technical term extraction means for extracting the technical terms as technical terms when the technical terms stored in the technical term storage means are included in the terms having a predetermined relationship with the clue terms searched by the clue phrase searching means The technical trend information creation device according to any one of claims 1 to 3 , further comprising:
前記技術用語抽出部は、
1以上の手がかり語句が記憶される手がかり語句記憶手段と、
前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、
前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、
前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えた、請求項から請求項のいずれか記載の技術動向情報作成装置。
The technical term extraction unit
A clue word storage means for storing one or more clue words;
In all or a part of the document information acquired by the document information acquisition unit, a clue phrase search means for searching for the clue phrase,
Technical term candidate extraction means for extracting a term having a predetermined relationship with the clue phrase searched by the clue phrase search means as a technical term candidate;
The technical trend information creation device according to any one of claims 1 to 3 , further comprising technical term selection means for selecting all or part of technical term candidates extracted by the technical term candidate extraction means as technical terms. .
前記技術用語抽出部は、
前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、
前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、
前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、
前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択する、請求項記載の技術動向情報作成装置。
The technical term extraction unit
Literature information from which the technical term candidates are extracted, and literature information identifying means for identifying literature information in the same field;
Technical term suffix storage means for storing one or more suffixes that can be taken by the technical term,
The document information acquisition unit also acquires all or part of the document information specified by the document information specifying unit,
The technical term selection means includes all or a part of one piece of literature information acquired by the literature information acquisition unit, and literature information specified by the literature information specifying means that the field is the same as the one piece of literature information. When at least one of technical term candidates extracted from all or a part of the document has a suffix stored in the suffix storage means, it is extracted from all or a part of the one document information The technical trend information creation apparatus according to claim 6 , wherein a technical term candidate is selected as a technical term.
前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であり、
前記出力部は、前記技術動向情報を表示出力する、請求項から請求項のいずれか記載の技術動向情報作成装置。
The technical trend information is an image indicating the time indicated by the time information corresponding to the document information including the technical term for each technical term,
And the output unit, the technical trend information to the display output, technology trends information generating apparatus according to any one of claims 1 to 7.
前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する図形である文献図形が、当該文献情報に対応する時期情報の示す時期に応じて表示される画像であり、
前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、
前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、
前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成する、請求項記載の技術動向情報作成装置。
The technical trend information is an image that is displayed for each technical term according to the time indicated by the time information indicated by the time information corresponding to the document information, which is a graphic corresponding to the document information including the technical term.
A figure selection receiving unit for receiving selection of a document figure in the technical trend information;
A display information acquisition unit for acquiring display information, which is information related to the document information corresponding to the document graphic for which the graphic selection receiving unit has received the selection, and is displayed on the image of the technical trend information, from the document information storage unit; Further comprising
The technical trend information creation device according to claim 8 , wherein the technical trend information creation unit creates technical trend information for displaying the display information acquired by the display information acquisition unit.
JP2012157433A 2006-03-10 2012-07-13 Technology trend information generator Active JP5463494B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012157433A JP5463494B2 (en) 2006-03-10 2012-07-13 Technology trend information generator

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2006065052 2006-03-10
JP2006065052 2006-03-10
JP2006225145 2006-08-22
JP2006225145 2006-08-22
JP2012157433A JP5463494B2 (en) 2006-03-10 2012-07-13 Technology trend information generator

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008505065A Division JP5078164B2 (en) 2006-03-10 2007-03-06 Related term acquisition device, related term acquisition method, and program

Publications (2)

Publication Number Publication Date
JP2012226768A JP2012226768A (en) 2012-11-15
JP5463494B2 true JP5463494B2 (en) 2014-04-09

Family

ID=38509365

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008505065A Active JP5078164B2 (en) 2006-03-10 2007-03-06 Related term acquisition device, related term acquisition method, and program
JP2012157433A Active JP5463494B2 (en) 2006-03-10 2012-07-13 Technology trend information generator

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008505065A Active JP5078164B2 (en) 2006-03-10 2007-03-06 Related term acquisition device, related term acquisition method, and program

Country Status (2)

Country Link
JP (2) JP5078164B2 (en)
WO (1) WO2007105530A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5292873B2 (en) * 2008-03-21 2013-09-18 富士通株式会社 Document search method, document search device, and recording medium recording document search program
KR101127883B1 (en) * 2011-09-26 2012-03-21 한국과학기술정보연구원 Method and system for porviding technology change using of technology life cycle graph
CN103955488B (en) * 2014-04-15 2018-07-06 深圳如果技术有限公司 A kind of method of circuit of shared electronic map and shared end, receiving terminal
JP7092836B2 (en) * 2020-09-15 2022-06-28 楽天グループ株式会社 Proposal device for revision of patent classification, proposal method for revision of patent classification, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2572308B2 (en) * 1991-01-25 1997-01-16 株式会社テレマティーク国際研究所 Review processing equipment

Also Published As

Publication number Publication date
JP5078164B2 (en) 2012-11-21
WO2007105530A1 (en) 2007-09-20
JP2012226768A (en) 2012-11-15
JPWO2007105530A1 (en) 2009-07-30

Similar Documents

Publication Publication Date Title
US20140101606A1 (en) Context-sensitive information display with selected text
WO2009154153A1 (en) Document search system
EP1703419A1 (en) Translation judgment device, method, and program
US20140101544A1 (en) Displaying information according to selected entity type
US20140101542A1 (en) Automated data visualization about selected text
Maynard et al. Ontology-based information extraction for market monitoring and technology watch
CN102831131A (en) Method and device for establishing labeling webpage linguistic corpus
JP2014106665A (en) Document retrieval device and document retrieval method
JP5463494B2 (en) Technology trend information generator
JP2006072744A (en) Document processor, control method therefor, program and storage medium
Sarwar et al. The key factors and their influence in authorship attribution.
JP2007004240A (en) Information processor, information processing system and program
JP2005063185A (en) Document retrieval system, question-answering system, and document retrieval method
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
Stanković et al. Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection
JP4428703B2 (en) Information retrieval method and system, and computer program
JP4813312B2 (en) Electronic document search method, electronic document search apparatus and program
WO2010103916A1 (en) Device for presentation of characteristic words in document and program giving priority of characteristic words
JP2008204133A (en) Answer search apparatus and computer program
JP2006227914A (en) Information search device, information search method, program and storage medium
JP4877930B2 (en) Document processing apparatus and document processing method
JP5019315B2 (en) Information processing apparatus, information processing method, and program
JP5614687B2 (en) Information analysis device for analyzing time-series text data including time-series information and text information
JP6565565B2 (en) Information processing apparatus, name determination method, and name determination program
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131213

R150 Certificate of patent or registration of utility model

Ref document number: 5463494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250