JP5971069B2 - Information processing apparatus, title extraction method, and program - Google Patents

Information processing apparatus, title extraction method, and program Download PDF

Info

Publication number
JP5971069B2
JP5971069B2 JP2012222186A JP2012222186A JP5971069B2 JP 5971069 B2 JP5971069 B2 JP 5971069B2 JP 2012222186 A JP2012222186 A JP 2012222186A JP 2012222186 A JP2012222186 A JP 2012222186A JP 5971069 B2 JP5971069 B2 JP 5971069B2
Authority
JP
Japan
Prior art keywords
title
information
document
candidates
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012222186A
Other languages
Japanese (ja)
Other versions
JP2014075032A (en
Inventor
加藤 健太
健太 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP2012222186A priority Critical patent/JP5971069B2/en
Publication of JP2014075032A publication Critical patent/JP2014075032A/en
Application granted granted Critical
Publication of JP5971069B2 publication Critical patent/JP5971069B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理装置、タイトル抽出方法及びプログラムに関する。   The present invention relates to an information processing apparatus, a title extraction method, and a program.

近年、各種の文書を電子データの形式で保存することが一般的になっている。例えば、電子データ化された文書(文書データ)を保存してデータベース(DB)を作成することにより、文書の管理、閲覧、検索等を容易に行うことができる。   In recent years, it has become common to store various documents in the form of electronic data. For example, by storing an electronic document (document data) and creating a database (DB), it is possible to easily manage, view, search, etc. of the document.

一方、文書を電子データの形式で保存することが一般的になるにつれて、DBに蓄えられる文書データの量は爆発的に増加している。従って、DB内の膨大な量の文書データの中から、所望の文書データを検索することが困難になりつつある。例えば、ある単語を検索ワードとしてDB内の文書データを検索したとしても、検索結果として大量の文書名が表示されてしまうと、適切な文書を探し出せない可能性があった。   On the other hand, as it becomes common to store documents in the form of electronic data, the amount of document data stored in the DB has increased explosively. Therefore, it is becoming difficult to search for desired document data from a huge amount of document data in the DB. For example, even if document data in the DB is searched using a certain word as a search word, if a large number of document names are displayed as search results, an appropriate document may not be found.

このような状況を鑑みて、例えば装置マニュアルや論文のような階層構造を有する文書においては、文書の階層構造(文書内の章立て)を表すタイトルと、当該文書自身とを紐付けて一括的に管理する試みが行われている。ユーザは、タイトルを参照することにより、その文書の階層構造や文書の概要を把握することができるため、文書を検索する際の一助となり得る。   In view of such a situation, for example, in a document having a hierarchical structure such as a device manual or a paper, a title that represents the hierarchical structure of the document (chapter in the document) and the document itself are linked together. Attempts have been made to manage. By referring to the title, the user can grasp the hierarchical structure of the document and the outline of the document, which can be helpful when searching for the document.

しかし、従来、そのような文書の階層構造を表すタイトルに関する情報は、予め文書内にデータとして定義されておく必要があった。従って、例えば過去に発行された紙媒体の文書を電子データとして保存する場合など、比較的古い文書に対しては、タイトルに関する情報を新たに作成する必要があり、不便であった。   However, conventionally, information relating to titles representing the hierarchical structure of such documents has been required to be defined in advance in the document as data. Therefore, for example, when a paper document issued in the past is stored as electronic data, it is necessary to newly create information about a title for a relatively old document, which is inconvenient.

そこで、文書内のテキストデータから、文書の階層構造を表すタイトルを自動的に抽出する技術が開発されている。例えば、特許文献1には、文書内のテキストデータから、数字と文字の組み合わせに対応するテキストパターンをタイトルとみなして抽出する技術が開示されている。   Therefore, a technique for automatically extracting a title representing a hierarchical structure of a document from text data in the document has been developed. For example, Patent Document 1 discloses a technique for extracting a text pattern corresponding to a combination of numbers and characters as text from text data in a document.

特開平7−129605号公報JP-A-7-129605

しかし、特許文献1に記載の技術では、文書のテキストデータ内に存在する数字と文字の組み合わせに対応するテキストパターンを全てタイトルとみなしてしまうため、本来はタイトルには該当しないテキストパターンも、誤ってタイトルとして抽出してしまうという問題があった。   However, in the technique described in Patent Document 1, all text patterns corresponding to combinations of numbers and characters existing in the text data of the document are regarded as titles. There was a problem of extracting as a title.

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能な、新規かつ改良された情報処理装置、タイトル抽出方法及びプログラムを提供することにある。   Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to more accurately extract a title representing the hierarchical structure of a document from text data corresponding to the document. It is another object of the present invention to provide a new and improved information processing apparatus, title extraction method, and program.

上記課題を解決するために、本発明のある観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。   In order to solve the above-described problem, according to an aspect of the present invention, based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of a document, a candidate for a title is obtained from text data corresponding to the document. By performing a serial number check for confirming the order of the title candidates based on order information indicating the order of the titles included in the title candidates and a title candidate extraction unit that extracts title candidates that are text patterns A title selection unit that selects the title from the title candidates is provided. An information processing apparatus is provided.

また、前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有してもよい。   Further, the title pattern may have a plurality of different text patterns for each layer of the hierarchical structure.

また、前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。   The title selection unit may perform the serial number check on the title candidates extracted for each hierarchy of the hierarchical structure.

また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。   The title selection unit may perform the serial number check on the title candidates extracted for each of the title patterns.

また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択してもよい。   The title selection unit may select the title pattern corresponding to the title based on the title candidate extracted for each title pattern.

また、前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択してもよい。   Further, the title selection unit further uses delimiter information that is information indicating a delimitation position of the hierarchy of the hierarchical structure of the document, and a description position of the title candidate in text data corresponding to the document; The title may be selected based on whether the delimiter information matches.

また、上記課題を解決するために、本発明の別の観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、を含むことを特徴とする、タイトル抽出方法が提供される。   In order to solve the above problem, according to another aspect of the present invention, based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of a document, a title is obtained from text data corresponding to the document. Extracting a title candidate that is a text pattern that is a candidate for the title, and performing serial number check for confirming the order of the title candidates based on order information that represents the order of the titles included in the title candidates And a step of selecting the title from among the title candidates.

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータに、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、を実現させるためのプログラムが提供される。   In order to solve the above-described problem, according to another aspect of the present invention, text data corresponding to a document is generated on a computer based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document. A serial number check for confirming the order of the title candidates based on order information indicating the order of the titles included in the title candidates, and a function for extracting title candidates that are text patterns that are candidate titles By doing so, a program for realizing the function of selecting the title from the title candidates is provided.

以上説明したように本発明によれば、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能になる。   As described above, according to the present invention, it is possible to more accurately extract a title representing a hierarchical structure of a document from text data corresponding to the document.

本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。It is the schematic which shows one structural example of the document used as the object of the title extraction process which concerns on one Embodiment of this invention. 本実施形態に係るタイトルパターンを説明するための説明図である。It is explanatory drawing for demonstrating the title pattern which concerns on this embodiment. 本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。It is a functional block diagram which shows the example of 1 structure of the information processing apparatus which concerns on one Embodiment of this invention. タイトル候補の抽出結果の一例を示す概略図である。It is the schematic which shows an example of the extraction result of a title candidate. 階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate whose hierarchy information is the 2nd hierarchy. 階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate whose hierarchy information is the 2nd hierarchy. 階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate whose hierarchy information is the 1st hierarchy. 階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate whose hierarchy information is the 1st hierarchy. 同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate which has the same title pattern. 同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。It is explanatory drawing for demonstrating the serial number check with respect to the title candidate which has the same title pattern. 本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。It is a flowchart which shows the title extraction process procedure which concerns on one Embodiment of this invention. 図8におけるタイトル選択処理の処理手順を示すフロー図である。It is a flowchart which shows the process sequence of the title selection process in FIG. 図9における第2階層についての連番チェックの処理手順を示すフロー図である。It is a flowchart which shows the process sequence of the serial number check about the 2nd hierarchy in FIG. 図9における第1階層についての連番チェックの処理手順を示すフロー図である。It is a flowchart which shows the process sequence of the serial number check about the 1st hierarchy in FIG. 本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。It is the schematic which shows one application example of the information processing apparatus which concerns on this embodiment, a title extraction method, and a program. 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the information processing apparatus which concerns on this embodiment.

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。   Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.

<1.処理対象となる文書とタイトルパターン>
本発明の一実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、文書に対応するテキストデータから、文書の階層構造(文書内の章立て)を表すタイトルを抽出する処理(タイトル抽出処理)が行われる。文書からタイトルが抽出されることにより、ユーザは、当該タイトルを参照することで、当該文書の概要を把握することができる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出する処理は、文書を要約する処理に対応している。
<1. Documents and title patterns to be processed>
In the information processing apparatus, the title extraction method, and the program according to an embodiment of the present invention, a process (title extraction process) that extracts a title representing a hierarchical structure of a document (chapter in a document) from text data corresponding to the document ) Is performed. By extracting the title from the document, the user can grasp the outline of the document by referring to the title. That is, in the present embodiment, the process of extracting the title representing the hierarchical structure of the document from the text data corresponding to the document corresponds to the process of summarizing the document.

まず、図1を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいて、タイトル抽出処理の対象となる文書の構造例について説明する。図1は、本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。   First, with reference to FIG. 1, an example of the structure of a document that is a subject of title extraction processing in the information processing apparatus, title extraction method, and program according to the present embodiment will be described. FIG. 1 is a schematic diagram showing an example of the structure of a document to be subject to title extraction processing according to an embodiment of the present invention.

図1を参照すると、本実施形態に係るタイトル抽出処理の対象となる文書は、階層構造を有していてよい。ここで、以下の説明においては、文書内において、その文書の階層構造を表すテキストパターンのことをタイトルと呼ぶこととする。例えば、図1に示す文書のテキストデータには、階層構造における最上位の階層(第1階層)を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」のタイトルが含まれている。また、図1に示す文書のテキストデータには、第1階層の1つ下位に当たる階層(第2階層)を表すタイトルとして、例えば、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」のタイトルが含まれている。更に、図1に示す文書のテキストデータには、第2階層の1つ下位に当たる階層(第3階層)を表すタイトルとして、例えば、「I 測定時のトラブル」及び「II 校正時のトラブル」のタイトルが含まれている。   Referring to FIG. 1, a document that is a target of title extraction processing according to the present embodiment may have a hierarchical structure. Here, in the following description, a text pattern representing a hierarchical structure of a document in the document is referred to as a title. For example, in the text data of the document shown in FIG. 1, “1. Target device”, “2. Selection criteria details”, “3. "Notes" and "4. Other" titles are included. Further, in the text data of the document shown in FIG. 1, for example, “1-1 case”, “2-1 capacity”, “2” are given as titles representing a hierarchy (second hierarchy) that is one level lower than the first hierarchy. -2 Power Supply "and" 3-1 Past Cases "are included. Further, the text data of the document shown in FIG. 1 includes titles indicating a hierarchy (third hierarchy) one level lower than the second hierarchy, for example, “I measurement trouble” and “II calibration trouble”. The title is included.

ここで、タイトルに対応するテキストパターンを抽象的に表現すると、「数字、又は、順序を意味する記号」と「文字列」との組み合わせで表現することができる。以下の説明においては、このような、タイトルに対応するテキストパターンのことをタイトルパターンと呼ぶこととする。つまり、タイトルパターンは、例えば図2に示すように、「数字、又は、順序を意味する記号」と「文字列」との組み合わせであってよい。図2は、本実施形態に係るタイトルパターンを説明するための説明図である。   Here, when the text pattern corresponding to the title is expressed abstractly, it can be expressed by a combination of “numbers or symbols meaning order” and “character string”. In the following description, such a text pattern corresponding to a title is referred to as a title pattern. That is, the title pattern may be a combination of “a number or a symbol meaning an order” and a “character string” as shown in FIG. 2, for example. FIG. 2 is an explanatory diagram for explaining a title pattern according to the present embodiment.

図2を参照すると、「数字、又は、順序を意味する記号」の「数字」とは、例えば、アラビア数字(1、2、3、等)、丸囲み数字、ローマ数字(I、II、i、ii、等)等であってよい。なお、当該「数字」は、図2に示すものに限定されず、数の概念を表すものであれば他の数字であってもよい。   Referring to FIG. 2, “numerals” of “numerals or symbols meaning order” include, for example, Arabic numerals (1, 2, 3, etc.), circled numerals, Roman numerals (I, II, i). Ii, etc.). The “numbers” are not limited to those shown in FIG. 2 and may be other numbers as long as they represent the concept of numbers.

また、図2を参照すると、「数字、又は、順序を意味する記号」の「順序を意味する記号」とは、例えば、アルファベット(A、B、C、等)、仮名(あ、い、う、ア、イ、ウ、等)等であってよい。なお、当該「順序を意味する記号」は、図2に示すものに限定されず、順序の概念を表すものであれば他の記号であってもよい。   Referring to FIG. 2, “numbers or symbols meaning order” means “symbols meaning order”, for example, alphabet (A, B, C, etc.), kana (a, i, u). , A, i, c, etc.). Note that the “symbol indicating the order” is not limited to that shown in FIG. 2, and may be another symbol as long as it represents the concept of the order.

また、タイトルパターンにおける「文字列」は、例えば、文書内においてそのタイトルに該当するパートの内容を表す見出しであってよい。   In addition, the “character string” in the title pattern may be, for example, a heading representing the contents of the part corresponding to the title in the document.

ここで、以下の説明においては、タイトルの順序を表す情報のことを順序情報と呼ぶこととする。具体的には、例えば、順序情報は、タイトルパターンにおける「数字、又は、順序を意味する記号」のことである。   Here, in the following description, information indicating the order of titles is referred to as order information. Specifically, for example, the order information is “numbers or symbols indicating order” in the title pattern.

例えば、図1に示す文書におけるタイトル「1.対象となる機器」であれば、タイトルパターンにおける順序情報(「数字、又は、順序を意味する記号」)は「1」であり、タイトルパターンにおける「文字列」は「対象となる機器」である。また、例えば、図1に示す「1−1 ケース」であれば、タイトルパターンにおける順序情報は「1−1」であり、タイトルパターンにおける「文字列」は「ケース」である。   For example, in the case of the title “1. target device” in the document shown in FIG. 1, the order information in the title pattern (“number or symbol indicating order”) is “1”, and “ “Character string” is “target device”. For example, in the case of “1-1 case” illustrated in FIG. 1, the order information in the title pattern is “1-1”, and the “character string” in the title pattern is “case”.

また、順序情報は、例えば、「数字、又は、順序を意味する記号」を任意の文字コードに変換した情報であってもよい。例えば、図1に示す文書例では、タイトル「I 測定時のトラブル」の順序情報は「I」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「I」を表す「2D34」であってもよい。同様に、タイトル「II 校正時のトラブル」の順序情報は「II」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「II」を表す「2D35」であってもよい。このように、順序情報である「数字、又は、順序を意味する記号」を文字コードに変換することで、順序情報に関する情報処理、例えば後述するタイトル選択処理をより容易に行うことができる。また、互いに異なる書式で記載されている「数字、又は、順序を意味する記号」であっても、文字コードに変換することにより、同一の文字コード情報として扱うことができるため、表現の揺らぎを抑制することができる。なお、順序情報の変換に用いられる文字コードは規格「JIS X 0208」に限定されず、公知のあらゆる文字コードが用いられてよい。   Further, the order information may be information obtained by converting “numeric characters or symbols indicating order” into an arbitrary character code, for example. For example, in the document example shown in FIG. 1, the order information of the title “I trouble during measurement” may be “I”. For example, in the character code defined by the standard “JIS X 0208”, the “I” “2D34” may be used. Similarly, the order information of the title “II trouble during calibration” may be “II”, for example, “2D35” representing “II” in the character code defined by the standard “JIS X 0208”. May be. In this way, by converting “numbers or symbols meaning order”, which is order information, into character codes, information processing about order information, for example, title selection processing described later can be performed more easily. In addition, even if “numeric characters or symbols meaning order” are described in different formats, they can be handled as the same character code information by converting them into character codes. Can be suppressed. The character code used for converting the order information is not limited to the standard “JIS X 0208”, and any known character code may be used.

なお、図2には明示していないが、本実施形態に係るタイトルパターンにおいては、「数字、又は、順序を意味する記号」と「文字列」との間に、例えばピリオドやスペースのような区切りを示す記号が存在していてもよい。例えば、図1に示す「1.対象となる機器」や「1−1 ケース」であれば、「1」と「対象とする機器」との間に存在する「.(ピリオド)」や、「1−1」と「ケース」との間に存在する「 (スペース)」まで含めてタイトルパターンが構成されてよい。なお、以下の説明において、タイトルパターンについて記載する際には、これらの区切りを示す記号については記載を省略することがある。   Although not explicitly shown in FIG. 2, in the title pattern according to the present embodiment, for example, a period or a space is used between “a number or a symbol indicating an order” and “a character string”. There may be a symbol indicating a break. For example, in the case of “1. target device” or “1-1 case” shown in FIG. 1, “. (Period)” or “ The title pattern may be configured including “(space)” existing between “1-1” and “case”. In the following description, when a title pattern is described, description of symbols indicating these divisions may be omitted.

また、タイトルパターンは、そのタイトルパターンが、文書の階層構造のうち、どの階層に対応するものであるかを示す階層情報を有していてもよい。なお、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。   Further, the title pattern may have hierarchical information indicating which hierarchy the title pattern corresponds to in the hierarchical structure of the document. Note that which hierarchical information the title pattern has is not uniquely set for each title pattern, but may be appropriately set by the user according to the contents of the title pattern, the structure and type of the document, and the like.

例えば、階層情報は、タイトルパターンに含まれる順序情報の種類に基づいて設定されてよい。例えば、順序情報が「第1章」であるタイトルは第1階層に属するタイトルである可能性が高く、順序情報が「第1節」であるタイトルは第2階層に属するタイトルである可能性が高い。従って、ユーザは、例えば、「「第+N+章」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第1階層」という階層情報を設定してもよく、「「第+N+節」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第2階層」という階層情報を設定してもよい。   For example, the hierarchy information may be set based on the type of order information included in the title pattern. For example, a title whose order information is “Chapter 1” is likely to be a title belonging to the first hierarchy, and a title whose order information is “Section 1” may be a title belonging to the second hierarchy. high. Therefore, for example, the user may set hierarchical information called “first hierarchy” in the title pattern ““ No. + N + chapter ”+“ character string ”(N is an arbitrary natural number). Hierarchy information “second hierarchy” may be set in the title pattern of “section” + “character string” ”(N is an arbitrary natural number).

また、例えば、階層情報は、タイトルパターンの順序情報に含まれる、数字や順序を表す記号の個数に基づいて設定されてもよい。具体的には、例えば、「N+「−」+M+文字列」(N、Mは任意の自然数)のように、数字や順序を表す記号が2個(NとM)含まれるタイトルパターンには、「第2階層」という階層情報が設定されてもよい。また、例えば、「N+「−」+M+「−」+L+文字列」(N、M、Lは任意の自然数)のように、数字や順序を表す記号が3個(NとMとL)含まれるタイトルパターンには、「第3階層」という階層情報が設定されてもよい。   Further, for example, the hierarchy information may be set based on the number of symbols representing the numbers and the order included in the order information of the title pattern. Specifically, for example, a title pattern including two numbers (N and M) representing a number and an order such as “N +“ − ”+ M + character string” (N and M are arbitrary natural numbers) Hierarchy information “second hierarchy” may be set. Further, for example, three symbols (N, M, and L) representing numbers and orders are included, such as “N +“ − ”+ M +“ − ”+ L + character string” (N, M, and L are arbitrary natural numbers). Hierarchy information “third hierarchy” may be set in the title pattern.

また、タイトルパターンが有する階層情報は1つには限定されず、タイトルパターンが互いに異なる複数の階層情報を有してもよい。例えば、タイトルパターンの「数字、又は、順序を意味する記号」に含まれる数字や記号が1個である場合、タイトルパターンだけでは、階層情報を一意に定められない可能性が高い。この場合、1つのタイトルパターンが、「第K階層」(Kは任意の自然数)で表現される互いに異なる複数の階層情報を有していてもよい。   Moreover, the hierarchy information which a title pattern has is not limited to one, The title pattern may have several hierarchy information from which a title pattern mutually differs. For example, when there is only one number or symbol included in the “number or symbol indicating the order” of the title pattern, there is a high possibility that the hierarchical information cannot be uniquely determined only by the title pattern. In this case, one title pattern may have a plurality of different pieces of hierarchy information expressed by “Kth hierarchy” (K is an arbitrary natural number).

また、タイトルパターンが有する階層情報は、文書の種類や構造に基づいて、ユーザによって適宜設定されてもよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、投稿規定として、タイトルと階層情報とが一意に定められている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、タイトルパターンとその階層情報とを適切に設定することができる。   Further, the hierarchical information included in the title pattern may be set as appropriate by the user based on the type and structure of the document. For example, in the case of a document whose format is determined according to a posting (publication) magazine such as an academic paper, it is highly likely that a title and hierarchy information are uniquely defined as a posting rule. Therefore, the user can appropriately set the title pattern and its hierarchy information according to the format of the target document.

以上、図1及び図2を参照して、本実施形態に係るタイトル抽出処理の対象となる文書の一例、及び、タイトルパターンの構造例について説明した。なお、本実施形態に係るタイトル抽出処理の対象となる文書は、図1に示す例に限定されず、あらゆる文書が対象となってよい。また、タイトルパターンが有する順序情報は、図2に示す例に限定されず、数字や、順序を表す記号であれば、その種類は限定されず、各種の数字及び記号が順序情報として用いられてよい。   As described above, with reference to FIGS. 1 and 2, the example of the document that is the target of the title extraction process according to the present embodiment and the example of the title pattern structure have been described. Note that the document that is the target of the title extraction process according to the present embodiment is not limited to the example illustrated in FIG. 1, and may be any document. In addition, the order information included in the title pattern is not limited to the example shown in FIG. 2, and the number is not limited as long as it is a numeral or a symbol representing the order, and various numbers and symbols are used as the order information. Good.

<2.情報処理装置の構成>
次に、図3を参照して、本発明の一実施形態に係る情報処理装置の概略構成について説明する。図3は、本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。
<2. Configuration of information processing apparatus>
Next, a schematic configuration of the information processing apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 3 is a functional block diagram showing a configuration example of the information processing apparatus according to the embodiment of the present invention.

図3を参照すると、本実施形態に係る情報処理装置10は、情報入力部110、記憶部120、表示部130及び制御部140を備える。   Referring to FIG. 3, the information processing apparatus 10 according to the present embodiment includes an information input unit 110, a storage unit 120, a display unit 130, and a control unit 140.

情報入力部110は、ユーザ(操作者)が情報処理装置10に対して、各種の情報や指示を入力するためのインターフェースの役割を有する。例えば、ユーザは、情報入力部110を介して、情報処理装置10に各種の文書データを入力することができる。また、ユーザは、情報入力部110を介して、情報処理装置10に文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンを入力することができる。なお、文書データやタイトルパターンを情報処理装置10に入力する方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、文書データやタイトルパターンは、リムーバブル記憶媒体や他の外部接続機器から情報処理装置10に入力されてもよいし、任意の情報網(ネットワーク)を介して配信されることにより情報処理装置10に入力されてもよい。   The information input unit 110 serves as an interface for a user (operator) to input various information and instructions to the information processing apparatus 10. For example, the user can input various document data to the information processing apparatus 10 via the information input unit 110. Further, the user can input a title pattern, which is a text pattern corresponding to a title representing the hierarchical structure of the document, to the information processing apparatus 10 via the information input unit 110. Note that a method for inputting document data and a title pattern to the information processing apparatus 10 is not particularly limited, and any method may be used. For example, the document data and the title pattern may be input to the information processing apparatus 10 from a removable storage medium or other external connection device, or distributed via an arbitrary information network (network). May be entered.

ここで、情報処理装置10に入力される文書は、例えば図1に示す文書であってよい。また、情報処理装置10に入力されるタイトルパターンは、例えば図2に示す構造を有するテキストパターンであってよい。なお、情報処理装置10に入力されるタイトルパターンは、想定され得る限りの種類の、互いに異なる複数のタイトルパターンであってよい。情報入力部110を介して入力された文書データ及びタイトルパターンは、例えば記憶部120に保存される。   Here, the document input to the information processing apparatus 10 may be, for example, the document illustrated in FIG. The title pattern input to the information processing apparatus 10 may be a text pattern having a structure shown in FIG. 2, for example. Note that the title pattern input to the information processing apparatus 10 may be a plurality of different title patterns that can be assumed. The document data and title pattern input via the information input unit 110 are stored in the storage unit 120, for example.

記憶部120は、本実施形態に係る情報処理装置10によって処理される各種の情報や、処理された結果を記憶するための記憶媒体の一例である。記憶部120は、例えば、本実施形態に係るタイトル抽出処理の対象となる文書データを記憶する。また、記憶部120は、例えば、本実施形態に係るタイトル抽出処理において用いられるタイトルパターンを記憶する。更に、記憶部120は、後述する制御部140によって行われる、タイトル抽出処理を含む各種の処理の結果を記憶してもよい。   The storage unit 120 is an example of a storage medium for storing various types of information processed by the information processing apparatus 10 according to the present embodiment and processed results. The storage unit 120 stores, for example, document data that is a target of title extraction processing according to the present embodiment. Further, the storage unit 120 stores, for example, a title pattern used in the title extraction process according to the present embodiment. Furthermore, the storage unit 120 may store the results of various processes including a title extraction process performed by the control unit 140 described later.

表示部130は、各種の情報をユーザに対して視覚的に表示する機能を有する。表示部130は、記憶部120に保存されている各種の情報や、制御部140によって行われる各種処理の結果を、例えば、テキスト、表、グラフ等様々な形式で、その表示画面上に表示することができる。   The display unit 130 has a function of visually displaying various types of information to the user. The display unit 130 displays various information stored in the storage unit 120 and results of various processes performed by the control unit 140 in various formats such as text, table, and graph on the display screen. be able to.

制御部140は、情報処理装置10の動作を統合的に制御するとともに、対象とする文書データに対してタイトル抽出処理を行う。具体的には、制御部140は、対象とする文書内に含まれるテキストデータから、文書の階層構造を表すタイトルを抽出する処理を行う。以下、制御部140の機能及び構成について、詳細に説明する。   The control unit 140 controls the operation of the information processing apparatus 10 in an integrated manner, and performs a title extraction process on target document data. Specifically, the control unit 140 performs a process of extracting a title representing the hierarchical structure of the document from text data included in the target document. Hereinafter, the function and configuration of the control unit 140 will be described in detail.

制御部140は、例えば、文書読み込み部141、タイトル候補抽出部142、タイトル選択部143及び表示制御部144を有する。   The control unit 140 includes, for example, a document reading unit 141, a title candidate extraction unit 142, a title selection unit 143, and a display control unit 144.

文書読み込み部141は、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。ここで、文書に対応するテキストデータとは、文書から図表等のデータを除いた、文書に含まれるテキストのデータのことを意味してよい。なお、文書読み込み部141がテキストデータを読み込む際の、テキストデータの区切り位置(センテンスの単位)を決定する方法は、特に限定されるものではなく、文書の種類等に応じて、ユーザによって適宜設定されてよい。例えば、文書読み込み部141は、テキストデータに含まれる改行位置や、句点が付された位置、あるいは、形態素解析の結果等に基づいて、当該テキストデータをセンテンスに区切ってもよい。文書読み込み部141は、テキストデータから読み込んだセンテンスを、タイトル候補抽出部142に送信する。   For example, the document reading unit 141 divides text data corresponding to a document stored in the storage unit 120 by a predetermined unit, and reads each sentence divided. Here, the text data corresponding to the document may mean text data included in the document, excluding data such as charts from the document. Note that the method for determining the text data delimiter position (sentence unit) when the document reading unit 141 reads the text data is not particularly limited, and is appropriately set by the user according to the document type and the like. May be. For example, the document reading unit 141 may divide the text data into sentences based on a line feed position included in the text data, a position with a punctuation mark, a result of morphological analysis, or the like. The document reading unit 141 transmits the sentence read from the text data to the title candidate extraction unit 142.

タイトル候補抽出部142は、受信したセンテンスの中から、タイトル候補を抽出する(タイトル候補抽出処理)。具体的には、タイトル候補抽出部142は、例えば、センテンス内に含まれるテキストパターンと、記憶部120に記憶されているタイトルパターンを比較する(マッチングする)ことにより、当該センテンスの中からタイトル候補を抽出する。つまり、タイトル候補抽出部142は、センテンスの中から、タイトルパターンと合致するテキストパターンを見つけ出し、タイトル候補として抽出することができる。   The title candidate extraction unit 142 extracts title candidates from the received sentence (title candidate extraction process). Specifically, for example, the title candidate extraction unit 142 compares (matches) a text pattern included in the sentence with a title pattern stored in the storage unit 120 to thereby select a title candidate from the sentence. To extract. That is, the title candidate extraction unit 142 can find a text pattern that matches the title pattern from the sentence and extract it as a title candidate.

タイトル候補抽出部142は、抽出したタイトル候補を、タイトル選択部143に送信する。また、タイトル候補抽出部142は、抽出したタイトル候補を、記憶部120に保存してもよい。   The title candidate extraction unit 142 transmits the extracted title candidates to the title selection unit 143. In addition, the title candidate extraction unit 142 may store the extracted title candidates in the storage unit 120.

タイトル選択部143は、受信したタイトル候補の中から、文書の階層構造を表すタイトルを選択する(タイトル選択処理)。具体的には、タイトル選択部143は、タイトル候補に含まれる、タイトルの順序を表す順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、当該タイトル候補がタイトルかどうかを判断し、選択することができる。   The title selection unit 143 selects a title representing the hierarchical structure of the document from the received title candidates (title selection processing). Specifically, the title selection unit 143 performs serial number check for confirming the order of the title candidates based on order information indicating the order of the titles included in the title candidates, thereby determining whether the title candidates are titles. Can be determined and selected.

ここで、文書の中からタイトル候補として抽出されたテキストパターンは、文書の階層構造を表すタイトルではない可能性がある。例えば、図1に示す文書例においては、地の文に含まれる「4.に示す・・・」や「4.5Vの・・・」といったテキストパターンが、テキスト候補として抽出される可能性がある。タイトル選択部143は、連番チェックを行うことにより、このようなノイズを除去し、テキスト候補の中から文書の階層構造を表すタイトルを選択することができる。   Here, the text pattern extracted as a title candidate from the document may not be a title representing the hierarchical structure of the document. For example, in the document example shown in FIG. 1, there is a possibility that text patterns such as “shown in 4.” and “4.5V ...” included in the local sentence are extracted as text candidates. is there. The title selection unit 143 can remove such noise by performing serial number check, and can select a title representing the hierarchical structure of the document from the text candidates.

タイトル選択部143は、選択したタイトルを、表示制御部144に送信する。また、タイトル選択部143は、選択したタイトルを、記憶部120に記憶してもよい。   The title selection unit 143 transmits the selected title to the display control unit 144. The title selection unit 143 may store the selected title in the storage unit 120.

なお、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で詳しく説明する。   The functions and configurations of the title candidate extraction unit 142 and the title selection unit 143 are described in <3. The function and configuration of the title candidate extraction unit and title selection unit will be described in detail.

表示制御部144は、タイトル選択部143によって選択されたタイトルに関する情報を、対象としている文書のタイトル抽出処理結果として、表示部130に表示する制御を行う。例えば、表示制御部144は、表示部130の表示画面に、タイトル抽出処理を行った文書名と、当該文書の階層構造を表すタイトルと、当該タイトルの階層情報とを互いに関連付けて表示させてもよい。   The display control unit 144 performs control to display information on the title selected by the title selection unit 143 on the display unit 130 as a result of the title extraction process of the target document. For example, the display control unit 144 may cause the display screen of the display unit 130 to display the document name on which the title extraction processing has been performed, the title representing the hierarchical structure of the document, and the hierarchical information of the title in association with each other. Good.

以上、図3を参照して、本実施形態に係る情報処理装置の機能の一例、特に制御部140の機能の一例について詳細に示した。なお、情報処理装置10の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、制御部140については、各構成要素の機能を、CPU(Central Processing Unit)等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。   The example of the function of the information processing apparatus according to the present embodiment, particularly the example of the function of the control unit 140, has been described in detail above with reference to FIG. Each component of the information processing apparatus 10 may be configured using a general-purpose member or circuit, or may be configured by hardware specialized for the function of each component. In addition, with respect to the control unit 140, a CPU (Central Processing Unit) or the like may perform all functions of each component. Therefore, it is possible to appropriately change the configuration to be used according to the technical level at the time of carrying out the present embodiment.

なお、情報処理装置10のハードウェア構成については、<6.ハードウェア構成>で詳しく説明する。   Note that the hardware configuration of the information processing apparatus 10 is described in <6. Hardware configuration> will be described in detail.

以上説明したように、本実施形態に係る情報処理装置10においては、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において抽出されたタイトル候補について、タイトルとして適切かどうかの判断がなされることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。   As described above, in the information processing apparatus 10 according to the present embodiment, the title candidate extraction unit 142 selects a target document based on a title pattern that is a text pattern corresponding to a title representing the hierarchical structure of the document. Title candidates are extracted from the text data. Further, the title selection unit 143 selects a title from the extracted title candidates by performing a serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Therefore, it is possible to more accurately extract the title indicating the hierarchical structure of the document from the text data included in the document by determining whether the title candidate extracted in the title extraction process is appropriate as a title. It becomes.

<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>
次に、図3に示すタイトル候補抽出部142及びタイトル選択部143の機能及び構成について、より詳細に説明する。なお、以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明においては、処理対象とする文書の一例として、図1に示す文書に対してタイトル抽出処理を行う場合について説明する。
<3. Functions and configuration of title candidate extraction unit and title selection unit>
Next, functions and configurations of the title candidate extraction unit 142 and the title selection unit 143 shown in FIG. 3 will be described in more detail. The following [3.1. Title candidate extraction process] and [3.2. In the description of [Title Selection Processing], a case will be described in which title extraction processing is performed on the document shown in FIG.

[3.1.タイトル候補抽出処理]
まず、図4を参照して、タイトル候補抽出部142によって行われる、タイトル候補抽出処理について説明する。図4は、タイトル候補の抽出結果の一例を示す概略図である。
[3.1. Title candidate extraction process]
First, the title candidate extraction process performed by the title candidate extraction unit 142 will be described with reference to FIG. FIG. 4 is a schematic diagram illustrating an example of a title candidate extraction result.

上記<2.情報処理装置の構成>で説明したように、タイトル候補抽出部142は、例えばセンテンスごとに読み込まれたテキストデータと、タイトルパターンとをマッチングすることにより、タイトルパターンと合致するテキストパターンを、タイトル候補として抽出する。そして、タイトル候補抽出部142は、抽出したタイトル候補を、例えば図4に示すように、表(リスト)の形式で整理する。   <2. As described in the configuration of the information processing apparatus, the title candidate extraction unit 142 matches the title pattern with the text data read for each sentence, for example, to match the title pattern with the title candidate. Extract as Then, the title candidate extraction unit 142 arranges the extracted title candidates in a table (list) format, for example, as shown in FIG.

図4を参照すると、例えば、抽出されたタイトル候補は、記載番号、タイトルパターン、階層情報及び順序情報と関連付けられて整理される。記載番号は、対象としている文書のテキストデータ内において、抽出されたタイトル候補が記載されている順番を示している。また、タイトルパターンは、抽出されたタイトル候補と合致したタイトルパターンを示している。また、階層情報は、当該タイトルパターンに対応する階層情報を示している。更に、順序情報は、当該タイトル候補に含まれる順序情報を示している。   Referring to FIG. 4, for example, the extracted title candidates are arranged in association with the description number, title pattern, hierarchy information, and order information. The description number indicates the order in which the extracted title candidates are described in the text data of the target document. The title pattern indicates a title pattern that matches the extracted title candidate. The hierarchy information indicates the hierarchy information corresponding to the title pattern. Further, the order information indicates the order information included in the title candidate.

なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明では、タイトル候補抽出処理及びタイトル選択処理の一実施例として、各タイトルパターンが、図4に示す階層情報を有する場合について説明することとする。   In addition, <1. As described above with respect to the document to be processed and the title pattern>, what hierarchical information the title pattern has is not uniquely set for each title pattern, but the contents of the title pattern, the structure and type of the document, etc. Depending on the case, it may be set appropriately by the user. The following [3.1. Title candidate extraction process] and [3.2. In the description of [Title Selection Processing], a case where each title pattern has the hierarchical information shown in FIG. 4 will be described as an example of the title candidate extraction processing and title selection processing.

図1を参照しながら、タイトル候補抽出部142が行う処理について、より具体的に説明する。タイトル候補抽出部142は、例えば図1に示す文書のテキストデータに対して、テキストデータの先頭から順に、センテンス単位で、タイトルパターンとのマッチング処理を行っていく。すると、例えば、タイトル候補抽出部142は、「1.対象となる機器」というテキストパターンが、「N+「.」+文字列」というタイトルパターンと合致することを見い出す。ここで、Nは任意の自然数であってよい。   The processing performed by the title candidate extraction unit 142 will be described more specifically with reference to FIG. The title candidate extraction unit 142 performs matching processing with the title pattern in units of sentences in order from the top of the text data, for example, with respect to the text data of the document shown in FIG. Then, for example, the title candidate extraction unit 142 finds that the text pattern “1. target device” matches the title pattern “N +“. ”+ Character string”. Here, N may be any natural number.

従って、タイトル候補抽出部142は、当該「1.対象となる機器」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、抽出したタイトル候補である「1.対象となる機器」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1.対象となる機器」は、対象としている文書のテキストデータ内において、記載順において最初に抽出されたタイトル候補であるため、その記載番号は「1」となる。また、例えば、マッチングが行われた「N+「.」+文字列」というタイトルパターンの階層情報は「第1階層」であり、タイトル候補「1.対象となる機器」の順序情報は「N=1」である。   Therefore, the title candidate extraction unit 142 extracts the text pattern “1. target device” as a title candidate. In addition, the title candidate extraction unit 142 organizes the extracted title candidates “1. Target device” in association with the description number, hierarchy information, and order information. For example, since the title candidate “1. target device” is the title candidate extracted first in the description order in the text data of the target document, the description number is “1”. Further, for example, the hierarchical information of the title pattern “N +“. ”+ Character string” that has been matched is “first hierarchy”, and the order information of the title candidate “1. target device” is “N = 1 ”.

「1.対象となる機器」をタイトル候補として抽出した後、タイトル候補抽出部142は、後続のテキストデータに対して、タイトルパターンとのマッチング処理を継続する。すると、例えば、タイトル候補抽出部142は、「1−1 ケース」というテキストパターンが、「N+「−」+M+文字列」というタイトルパターンと合致することを見い出す。ここで、N及びMは任意の自然数であってよい。   After extracting “1. target device” as a title candidate, the title candidate extraction unit 142 continues matching processing with the title pattern for subsequent text data. Then, for example, the title candidate extraction unit 142 finds that the text pattern “1-1 case” matches the title pattern “N +“ − ”+ M + character string”. Here, N and M may be arbitrary natural numbers.

従って、タイトル候補抽出部142は、当該「1−1 ケース」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、先ほどと同様に、抽出したタイトル候補である「1−1 ケース」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1−1 ケース」は、対象としている文書のテキストデータ内において、記載順において2番目に抽出されたタイトル候補であるため、その記載番号は「2」となる。また、例えば、マッチングが行われた「N+「−」+M+文字列」というタイトルパターンの階層情報は「第2階層」であり、タイトル候補「1−1 ケース」の順序情報は「N=1、M=1」である。   Therefore, the title candidate extraction unit 142 extracts the text pattern “1-1 case” as a title candidate. In addition, the title candidate extraction unit 142 arranges the extracted title candidates “1-1 case” in association with the description number, the hierarchy information, and the order information, as described above. For example, since the title candidate “1-1 case” is the title candidate extracted secondly in the description order in the text data of the target document, the description number is “2”. Further, for example, the hierarchical information of the title pattern “N +“ − ”+ M + character string” that has been matched is “second hierarchy”, and the order information of the title candidate “1-1 case” is “N = 1, M = 1 ”.

タイトル候補抽出部142は、対象としている文書のテキストデータが終了するまで、以上説明した内容と同様の処理を繰り返す。その結果、例えば図4に示すタイトル候補の抽出結果を得ることができる。   The title candidate extraction unit 142 repeats the same processing as described above until the text data of the target document ends. As a result, for example, a title candidate extraction result shown in FIG. 4 can be obtained.

なお、タイトル候補抽出処理においては、1つのタイトル候補が、互いに異なる複数のタイトルパターンと合致する、すなわち、1つのタイトル候補が重複して抽出されてもよい。例えば、図4に示すタイトル候補の例では、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、タイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」の両方と合致する。また、これらのタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」は、例えば、互いに異なる階層情報を有し、「N+「.」+文字列」の階層情報は「第1階層」であり、「N+「.」+M+文字列」の階層情報は「第2階層」である。従って、例えば図4に示すように、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、互いに異なるタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」と、互いに異なる階層情報「第1階層」及び「第2階層」と、関連付けて整理されてよい。   In the title candidate extraction process, one title candidate matches a plurality of different title patterns, that is, one title candidate may be extracted in duplicate. For example, in the example of the title candidate shown in FIG. 4, the title candidates “5.0V is...” And “4.5V is. . ”+ M + character string”. Further, these title patterns “N +“. ”+ Character string” and “N +“. ”+ M + character string” have, for example, different hierarchical information, and the hierarchical information of “N +“. ”+ Character string” is The hierarchy information of “first hierarchy” and “N +“. ”+ M + character string” is “second hierarchy”. Therefore, for example, as shown in FIG. 4, the title candidates “5.0V is ...” and “4.5V ...” have different title patterns “N +“. ”+ Character string” and “N +“ . ”+ M + character string” and different hierarchy information “first hierarchy” and “second hierarchy” may be associated with each other.

なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有し得る場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。   In addition, <1. As described above in Documents and Title Patterns to be Processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. . In that case, the hierarchical information of the title candidates extracted in the title candidate extraction process may be set as appropriate by the user. For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user can appropriately set the title pattern and its hierarchy information in advance according to the format of the target document.

[3.2.タイトル選択処理]
次に、図5A、B、図6A、B及び図7A、Bを参照して、タイトル選択部143によって行われる、タイトル選択処理について説明する。
[3.2. Title selection process]
Next, the title selection process performed by the title selection unit 143 will be described with reference to FIGS. 5A and 5B, FIGS. 6A and B, and FIGS. 7A and 7B.

本実施形態に係るタイトル選択処理においては、タイトル選択部143が、タイトル候補抽出部142によって抽出されたタイトル候補に対して連番チェックを行う。連番チェックとは、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する処理のことを言う。   In the title selection process according to the present embodiment, the title selection unit 143 performs serial number check on the title candidates extracted by the title candidate extraction unit 142. The serial number check refers to processing for confirming the order of title candidates based on the order information included in the title candidates.

なお、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよい。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、タイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。   Note that the range of candidate titles for serial number check is not particularly limited, and may be set as appropriate by the user. For example, the serial number check may be performed on all title candidates extracted from the target document as shown in FIG. Further, for example, the serial number check may be performed on title candidates having the same hierarchy information by reorganizing the title candidates extracted by the title candidate extraction unit 142 for each hierarchy information. Further, for example, the serial number check may be performed on title candidates having the same title pattern by reorganizing the title candidates extracted by the title candidate extraction unit 142 for each title pattern.

対象とする文書から抽出された全タイトル候補に対して連番チェックが行われる場合には、互いに異なるタイトルパターンや階層情報を有するタイトル候補に対して連番チェックが行われるため、その処理手順が比較的複雑なものになる可能性がある。一方、例えば同一の階層情報を有するタイトル候補や、同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、タイトルパターンや階層情報が統一されているため、その処理手順を比較的簡便なものとすることができる。   When serial number checking is performed on all title candidates extracted from the target document, serial number checking is performed on title candidates having different title patterns and hierarchical information. Can be relatively complex. On the other hand, for example, when a serial number check is performed on a title candidate having the same hierarchy information or a title candidate having the same title pattern, the title pattern and hierarchy information are unified, so the processing procedure is as follows. It can be made relatively simple.

(同一の階層情報を有するタイトル候補に対する連番チェック)
まず、図5A、B及び図6A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補を階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明する。図5A、Bは、階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。また、図6A、Bは、階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。ここで、図5A、B及び図6A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4に示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
(Serial number check for title candidates with the same hierarchy information)
First, referring to FIGS. 5A and 5B and FIGS. 6A and 6B, the title candidates extracted by the title candidate extraction unit 142 are rearranged for each hierarchy information, and serial number check is performed for title candidates having the same hierarchy information. The method of performing will be described. 5A and 5B are explanatory diagrams for explaining serial number check for title candidates whose hierarchical information is the second hierarchical level. 6A and 6B are explanatory diagrams for explaining serial number check for title candidates whose hierarchical information is the first hierarchical level. Here, in FIGS. 5A and 5B and FIGS. 6A and 6B, the items in each column of the table, that is, the description number, title pattern, hierarchy information, and order information are the same as the items in each column of the table shown in FIG. Therefore, detailed description is omitted here.

同一の階層情報を有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、階層情報ごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトル候補のみを抜き出したものを図5Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトル候補のみを抜き出したものを図6Aに示す。   In the method of serial number check for title candidates having the same hierarchy information, first, the process of rearranging all title candidates extracted from the target document shown in FIG. 4 for each hierarchy information is performed. Is called. For example, FIG. 5A shows only title candidates whose hierarchy information is the second hierarchy from all title candidates extracted from the target document shown in FIG. Similarly, FIG. 6A shows, for example, only title candidates whose hierarchy information is the first hierarchy extracted from all title candidates extracted from the target document shown in FIG.

次に、図5Aに示す、階層情報が第2階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、具体的には、例えば図5Aに示す順序情報に基づいて、タイトル候補の順序を表すN、M(N、Mは任意の自然数)が連番になっているかどうかが判断される。具体的には、連番チェックでは、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。   Next, a serial number check is performed on the title candidates whose hierarchy information is the second hierarchy shown in FIG. 5A. Specifically, in the serial number check, for example, based on the order information shown in FIG. 5A, it is determined whether N and M (N and M are arbitrary natural numbers) representing the order of the title candidates are serial numbers. The Specifically, in the serial number check, it is determined whether or not the title candidate selected as the title immediately before and the order information are in order of the description numbers.

より具体的には、第2階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n、M=m」(n、mは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n、M=m+1」又は「N=n+1、M=1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n、M=m」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が、「N=n、M=m+1」又は「N=n+1、M=1」を満たす場合に、当該チェック対象であるタイトル候補をタイトルとして選択する。   More specifically, regarding the title representing the second hierarchy, when the order information of a certain title is “N = n, M = m” (n and m are arbitrary natural numbers), the title is described next to the title. There is a high possibility that the order information of the titles “N = n, M = m + 1” or “N = n + 1, M = 1”. Therefore, the title selection unit 143 determines that the order information of the title candidates to be checked for the serial number check is “N” with respect to the order information “N = n, M = m” of the title candidate selected immediately before as the title. = N, M = m + 1 ”or“ N = n + 1, M = 1 ”, the candidate title to be checked is selected as the title.

例えば、図5Aを参照すると、階層情報が第2階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1−1 ケース」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=1、M=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1−1 ケース」を、タイトルとして選択する。   For example, referring to FIG. 5A, among title candidates whose hierarchy information is the second hierarchy, the title candidate with the smallest description number is “1-1 case”, and the title pattern is “N +“ − ”+ M +. The “character string” and its order information are “N = 1, M = 1”. First, the title selection unit 143 selects “1-1 case”, which is the title candidate with the smallest description number, as a title.

上述したように、タイトル候補「1−1 ケース」の次に記載されるタイトルの順序情報は、「N=1、M=2」(すなわち、「1−2 ・・・」等)又は「N=2、M=1」(すなわち、「2−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=1、M=2」又は「N=2、M=1」になっているかどうかをチェックする。   As described above, the order information of the title described after the title candidate “1-1 case” is “N = 1, M = 2” (that is, “1-2...”) Or “N”. = 2 and M = 1 ”(that is,“ 2-1... ”And the like). Accordingly, the title selection unit 143 determines that the order information for the title candidate with the smallest description number next to the title candidate “1-1 case” is “N = 1, M = 2” or “N = 2, M = 1 ”is checked.

図5Aに示す実施例においては、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補は、「2−1 容量」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=2、M=1」である。タイトル候補「2−1 容量」の順序情報「N=2、M=1」は、上記「N=1、M=2」又は「N=2、M=1」に含まれるため、タイトル選択部143は、当該タイトル候補「2−1 容量」をタイトルとして選択する。   In the example shown in FIG. 5A, the title candidate with the next smallest number after the title candidate “1-1 case” is “2-1 capacity”, and the title pattern is “N +“ − ”+ M + character string”. The order information is “N = 2, M = 1”. The order information “N = 2, M = 1” of the title candidate “2-1 capacity” is included in the above “N = 1, M = 2” or “N = 2, M = 1”. In step S143, the title candidate “2-1 capacity” is selected as a title.

同様に、タイトル候補「2−1 容量」の次に記載されるタイトルの順序情報は、「N=2、M=2」(すなわち、「2−2 ・・・」等)又は「N=3、M=1」(すなわち、「3−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2、M=2」又は「N=3、M=1」になっているかどうかをチェックする。   Similarly, the title order information described next to the title candidate “2-1 capacity” is “N = 2, M = 2” (that is, “2-2...”, Etc.) or “N = 3”. , M = 1 ”(that is,“ 3-1... ”, Etc.). Accordingly, the title selection unit 143 determines that the order information of the title candidate with the next smallest number after the title candidate “2-1 capacity” is “N = 2, M = 2” or “N = 3, M = 1 ”is checked.

図5Aに示す実施例においては、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補は、「5.0Vが・・・」であり、そのタイトルパターンは「N+「.」+M+文字列」、その順序情報は「N=3、M=5」である。タイトル候補「5.0Vが・・・」の順序情報「N=3、M=5」は、上記「N=2、M=2」又は「N=3、M=1」に含まれないため、タイトル選択部143は、当該タイトル候補「5.0Vが・・・」は、タイトルではないとみなす。   In the embodiment shown in FIG. 5A, the title candidate with the next smallest number after the title candidate “2-1 capacity” is “5.0V is...”, And the title pattern is “N +“. ”+ M + The character string ”and its order information are“ N = 3, M = 5 ”. The order information “N = 3, M = 5” of the title candidate “5.0V is ...” is not included in the above “N = 2, M = 2” or “N = 3, M = 1”. The title selection unit 143 considers that the title candidate “5.0V is ...” is not a title.

以下同様に、例えば図5Aに示す、階層情報が第2階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図5Bに示すように、連番チェックの結果、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、文書の第2階層を表すタイトルとして選択される。   Similarly, for the title candidate whose hierarchy information is the second hierarchy shown in FIG. 5A, for example, it is determined whether the title candidate selected as the title immediately before and the order information are in order of the description number. For example, as shown in FIG. 5B, as a result of the serial number check, “1-1 case”, “2-1 capacity”, “2-2 power supply”, and “3-1 past case” It is selected as a title representing two layers.

階層情報が第2階層であるタイトル候補についての連番チェックが終わったら、次に、例えば図6Aに示す、階層情報が第1階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、階層情報が第2階層であるタイトル候補と同様に、階層情報が第1階層であるタイトル候補に対して、タイトル候補の順序を表すN(Nはタイトルパターンに対応する、任意の自然数)が連番になっているかどうかが判断される。   When the serial number check for the title candidate whose hierarchical information is the second hierarchy is completed, the serial number check is performed on the title candidate whose hierarchical information is the first hierarchy as shown in FIG. 6A, for example. In the sequential number check, as with title candidates whose hierarchical information is the second hierarchy, N (N is an arbitrary number corresponding to the title pattern) indicating the order of the title candidates for the title candidates whose hierarchical information is the first hierarchy. It is determined whether the natural number) is a sequential number.

具体的には、第1階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n」(nは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n+1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が「N=n+1」を満たす場合には、当該チェック対象であるタイトル候補をタイトルとして選択することができる。   Specifically, regarding the title representing the first hierarchy, when the order information of a certain title is “N = n” (n is an arbitrary natural number), the order information of the title described next to the title is: There is a high possibility that “N = n + 1”. Accordingly, the title selection unit 143 satisfies the order information of the title candidates to be checked for the serial number check with respect to the order information “N = n” of the title candidates selected immediately before as the title. In this case, the title candidate to be checked can be selected as the title.

例えば、図6Aを参照すると、階層情報が第1階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1.対象となる機器」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1.対象となる機器」を、タイトルとして選択する。   For example, referring to FIG. 6A, the title candidate with the smallest description number among the title candidates whose hierarchy information is the first hierarchy is “1. target device”, and the title pattern is “N +“. “+ Character string”, the order information is “N = 1”. First, the title selection unit 143 selects “1. target device”, which is a title candidate having the smallest description number, as a title.

上述したように、タイトル候補「1.対象となる機器」の次に記載されるタイトルの順序情報は、「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。   As described above, there is a high possibility that the title order information described next to the title candidate “1. target device” is “N = 2” (that is, “2....”, Etc.). . Therefore, the title selection unit 143 checks whether the order information is “N = 2” for the title candidate having the next smallest number after the title candidate “1. Target device”.

図6Aに示す実施例においては、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補は、「4.に示す・・・」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=4」である。タイトル候補「4.に示す・・・」の順序情報「N=4」は、上記「N=2」とは異なるため、タイトル選択部143は、当該タイトル候補「4.に示す・・・」は、第1階層を表すタイトルではないとみなす。   In the embodiment shown in FIG. 6A, the title candidate with the next smallest number after the title candidate “1. Target device” is “shown in 4.”, and its title pattern is “N +“. “+ Character string”, the order information is “N = 4”. Since the order information “N = 4” of the title candidate “4 ....” is different from the above “N = 2”, the title selection unit 143 determines the title candidate “4 ....”. Is not a title representing the first hierarchy.

タイトル候補「4.に示す・・・」が第1階層を表すタイトルとして選択されなかったため、「4.に示す・・・」の次に記載されるタイトルの順序情報は、直前に選択されたタイトルである「1.対象となる機器」の順序番号に連続する値、すなわち「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。   Since the title candidate “shown in 4.” was not selected as the title representing the first hierarchy, the order information of the title described next to “shown in 4.” was selected immediately before There is a high possibility that it is a value consecutive to the sequence number of the title “1. Target device”, that is, “N = 2” (ie, “2....”, Etc.). Therefore, the title selection unit 143 checks whether the order information is “N = 2” for the title candidate having the next smallest number after the title candidate “shown in 4.”. .

図6Aに示す実施例においては、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補は、「2.選定基準詳細」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=2」である。タイトル候補「2.選定基準詳細」の順序情報「N=2」は、上記「N=2」に該当するため、タイトル選択部143は、当該タイトル候補「2.選定基準詳細」をタイトルとして選択することができる。   In the example shown in FIG. 6A, the title candidate with the next smallest number after the title candidate “shown in 4.” is “2. Selection criteria details”, and the title pattern is “N +“. ”. + Character string ”, and the order information is“ N = 2 ”. Since the order information “N = 2” of the title candidate “2. Selection criteria details” corresponds to the above “N = 2”, the title selection unit 143 selects the title candidate “2. Selection criteria details” as a title. can do.

以下同様に、例えば図6Aに示す階層情報が第1階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択したタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図6Bに示すように、連番チェックの結果、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が、タイトルとして選択される。   Similarly, for example, for a title candidate whose hierarchical information shown in FIG. 6A is the first hierarchical level, it is determined whether or not the title candidate selected immediately before as the title and the sequential information are consecutive in the order of the description numbers. Then, for example, as shown in FIG. 6B, as a result of the serial number check, “1. Target device”, “2. Details of selection criteria”, “3. Notes” and “4. Others” are selected as titles. Is done.

ここで、上記の連番チェックの説明においては、連番チェックの際に順序情報のみを用いる方法について説明したが、本実施形態に係るタイトル選択処理においては、連番チェックを行う際に、文書の階層構造における階層の区切り位置を示す情報である区切り情報を更に用いて連番チェックが行われてもよい。具体的には、区切り情報とは、文書のテキストデータから抽出されたタイトル候補に対して、記載番号を基準として、どのタイトル候補とどのタイトル候補との間に階層の区切り位置が存在するかを示す情報であってよい。   Here, in the description of the serial number check described above, the method of using only the order information at the time of serial number check has been described. However, in the title selection process according to the present embodiment, when performing the serial number check, The serial number check may be performed by further using delimiter information that is information indicating a delimiter position of the hierarchy in the hierarchical structure. Specifically, the delimiter information is a list of title candidates extracted from text data of a document, which title candidate and which title candidate has a hierarchy delimiter position based on the description number. It may be the information shown.

より具体的には、タイトル選択部143は、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行うことができる。以下、図5A、B及び図6A、Bを参照して、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明する。   More specifically, the title selection unit 143 obtains delimiter information based on the result of serial number check performed on the title candidates having the first hierarchy information, and uses the delimiter information to The serial number check can be performed on the title candidates having the hierarchy information of 2. Hereinafter, referring to FIGS. 5A and 5B and FIGS. 6A and 6B, the title selection unit 143 obtains delimiter information based on the result of serial number check performed on title candidates whose hierarchy information is the second hierarchy. An embodiment will be described in which serial number check is performed on title candidates whose hierarchy information is the first hierarchy using the delimiter information.

例えば、上述したように、図5A、Bに示す実施例においては、階層情報が第2階層であるタイトル候補に対する連番チェックの結果として、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、タイトルとして選択される。ここで、タイトル「1−1 ケース」の記載番号は「2」であり、タイトル「2−1 容量」の記載番号は「5」である。従って、第1階層を表すタイトル候補の中で「N=2」に相当する順序番号を有するタイトルは、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在する可能性が高い。よって、タイトル選択部143は、階層情報が第2階層であるタイトル候補についての連番チェックの結果に基づいて、区切り情報として、例えば「N=2」に相当する順序番号を有する第1階層を表すタイトルが、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在するという情報を取得することができる。   For example, as described above, in the embodiment shown in FIGS. 5A and 5B, as a result of serial number check for title candidates whose hierarchy information is the second hierarchy, “1-1 case”, “2-1 capacity”, “2-2 Power supply” and “3-1 Past cases” are selected as titles. Here, the description number of the title “1-1 case” is “2”, and the description number of the title “2-1 capacity” is “5”. Therefore, the title having the order number corresponding to “N = 2” among the title candidates representing the first hierarchy is between the description number “2” and the description number “5”, that is, in the section A shown in FIG. 6A. It is likely to exist. Therefore, the title selection unit 143 selects the first layer having a sequence number corresponding to, for example, “N = 2” as delimiter information based on the result of serial number check for the title candidate whose layer information is the second layer. Information that the title to be present exists between the description number “2” and the description number “5”, that is, in the section A illustrated in FIG. 6A can be acquired.

タイトル選択部143は、同様に、区切り情報として、例えば「N=3」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Bに存在するという情報、及び「N=4」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Cに存在するという情報を取得することができる。   Similarly, the title selection unit 143 uses, for example, information indicating that a title representing the first hierarchy having a sequence number corresponding to “N = 3” exists in the section B illustrated in FIG. Information that a title representing the first hierarchy having a sequence number corresponding to “4” exists in the section C shown in FIG. 6A can be acquired.

そして、タイトル選択部143は、階層情報が第1階層であるタイトル候補に対して連番チェックを行う際に、もしも順序情報が連番になっていても、順序情報であるNの値が区切り情報と整合していなければ、当該タイトル候補を、第1階層を表すタイトルではないとみなしてもよい。換言すれば、タイトル選択部143は、順序情報と区切り情報の両方に基づいて、連番チェックを行ってもよい。   When the title selection unit 143 performs the serial number check on the title candidates whose hierarchy information is the first hierarchy, even if the order information is a sequential number, the value of N as the order information is delimited. If it is not consistent with the information, the title candidate may be regarded as not a title representing the first hierarchy. In other words, the title selection unit 143 may perform serial number check based on both the order information and the delimiter information.

このように、順序情報と区切り情報の両方に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。なお、上記の説明では、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。区切り情報は、任意の階層情報を有するタイトル候補に対する連番チェックの際に取得されてもよく、また、区切り情報が用いられる連番チェックも、任意の階層情報を有するタイトル候補に対して行われてもよい。   Thus, the accuracy of the title extraction process can be further improved by performing the title selection process based on both the order information and the delimiter information. In the above description, the title selection unit 143 acquires the delimiter information based on the result of performing the serial number check on the title candidates whose hierarchy information is the second hierarchy, and uses the delimiter information. In the embodiment, the serial number check is performed on the title candidates whose hierarchy information is the first hierarchy. However, the present embodiment is not limited to such an example. Separation information may be acquired at the time of serial number check for title candidates having arbitrary hierarchical information, and serial number check using the separation information is also performed for title candidates having arbitrary hierarchical information. May be.

(同一のタイトルパターンを有するタイトル候補に対する連番チェック)
次に、図7A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補をタイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法について説明する。図7A、Bは、同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。ここで、図7A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4、図5A、B及び図6A、Bに示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
(Serial number check for title candidates with the same title pattern)
Next, referring to FIGS. 7A and 7B, a method of reordering the title candidates extracted by the title candidate extraction unit 142 for each title pattern and performing serial number check on the title candidates having the same title pattern. explain. 7A and 7B are explanatory diagrams for explaining serial number check for title candidates having the same title pattern. 7A and 7B, the items in each column of the table, that is, the description number, the title pattern, the hierarchy information, and the order information are shown in each column of the table shown in FIGS. Since it means the same thing as an item, detailed explanation is omitted here.

同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、タイトルパターンごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Bに示す。   In the method of performing serial number check for title candidates having the same title pattern, first, the process of rearranging all title candidates extracted from the target document shown in FIG. 4 for each title pattern is performed. Is called. For example, FIG. 7A shows only title candidates having title patterns whose hierarchy information is the first hierarchy from all title candidates extracted from the target document shown in FIG. 4, and arranged for each title pattern. . Similarly, for example, only title candidates having title patterns whose hierarchical information is the second hierarchy are extracted from all title candidates extracted from the target document shown in FIG. 4 and arranged for each title pattern. Shown in 7B.

例えば、図7Aを参照すると、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補として「I 測定時のトラブル」及び「II 校正時のトラブル」が抽出されている。タイトル選択部143は、これら「I 測定時のトラブル」及び「II 校正時のトラブル」に対して連番チェックを行うことができる。   For example, referring to FIG. 7A, “I measurement trouble” and “II calibration trouble” are extracted as title candidates of the title pattern “N (Roman numeral) + character string”. The title selection unit 143 can perform serial number check on these “I measurement trouble” and “II calibration trouble”.

上述したように、順序情報「I」、「II」は、例えば規格「JIS X 0208」で定められる文字コードにおいて、それぞれ、「2D34」、「2D35」で表現される。従って、タイトル選択部143は、「I 測定時のトラブル」及び「II 校正時のトラブル」に対する連番チェックとして、これら「2D34」、「2D35」が連続しているかどうかを判断してもよい。図7Aに示す実施例においては、順序情報「I」、「II」に対応する文字コード「2D34」、「2D35」は、連続しているので、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」をタイトルとして選択することができる。   As described above, the order information “I” and “II” are expressed by “2D34” and “2D35”, respectively, in the character code defined by the standard “JIS X 0208”, for example. Therefore, the title selection unit 143 may determine whether these “2D34” and “2D35” are consecutive as a serial number check for “I measurement trouble” and “II calibration trouble”. In the embodiment shown in FIG. 7A, since the character codes “2D34” and “2D35” corresponding to the order information “I” and “II” are continuous, the title selection unit 143 determines that the title candidate “I measurement time” Can be selected as the title.

同じく、図7Aを参照すると、タイトルパターン「N+「.」+文字列」のタイトル候補として「1.対象となる機器」、「4.に示す・・・」、「2.選定基準」、「5.0Vが・・・」、「4.5Vの・・・」、「3.注意事項」及び「4.その他」が抽出されている。タイトル選択部143は、これらのタイトル候補の順序情報(タイトルパターン「N+「.」+文字列」のNに対応する数字)が連続しているかどうかを判断することにより、これらのタイトル候補の中から、タイトルを選択することができる。具体的には、タイトル選択部143は、連番チェックの結果から、「1.対象となる機器」、「2.選定基準」、「3.注意事項」及び「4.その他」をタイトルとして選択することができる。   Similarly, referring to FIG. 7A, as title candidates of the title pattern “N +“. ”+ Character string”, “1. target device”, “shown in 4 ....”, “2. selection criteria”, “ "5.0V is ...", "4.5V ...", "3. Notes" and "4. Others" are extracted. The title selection unit 143 determines whether or not the order information of these title candidates (the number corresponding to N of the title pattern “N +“. ”+ Character string”) is continuous, thereby determining among the title candidates. The title can be selected. Specifically, the title selection unit 143 selects “1. Target device”, “2. Selection criteria”, “3. Notes” and “4. Others” as titles from the result of the serial number check. can do.

タイトル選択部143は、同様に、例えば図7A、Bに示す他のタイトル候補についても、タイトルパターンごとに連番チェックを行うことにより、タイトルを選択することができる。   Similarly, the title selection unit 143 can select a title by performing a serial number check for each title pattern for other title candidates shown in FIGS. 7A and 7B, for example.

更に、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、タイトル選択部143は、文書のテキストデータから抽出されたタイトル候補に基づいて、当該文書の階層構造を表すタイトルに対応するタイトルパターンを選択してもよい。例えば、ある文書内におけるタイトルにおいては、同一の階層を表すタイトルであれば、同一のタイトルパターンが用いられる可能性が高い。従って、タイトル選択部143は、例えば、タイトル候補がより多く抽出されているタイトルパターンが、当該階層を表すタイトルに対応するタイトルパターンであると判断してもよい。   Furthermore, in the method of performing serial number check on title candidates having the same title pattern, the title selection unit 143 uses the title candidates extracted from the text data of the document to display titles representing the hierarchical structure of the document. You may select the title pattern corresponding to. For example, in a title in a document, the same title pattern is likely to be used if the title represents the same hierarchy. Therefore, for example, the title selection unit 143 may determine that a title pattern from which more title candidates are extracted is a title pattern corresponding to a title representing the hierarchy.

例えば、図7Bに示す実施例においては、階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「.」+M+文字列」である、「5.0Vが・・・」及び「4.5Vの・・・」が抽出されている。また、同じく階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「−」+M+文字列」である、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が抽出されている。   For example, in the example shown in FIG. 7B, the title pattern is “N +“. ”+ M + character string”, “5.0V is... “4.5V...” Is extracted. Similarly, as title candidates whose hierarchy information is “second hierarchy”, the title pattern is “N +“ − ”+ M + character string”, “1-1 case”, “2-1 capacity”, “2-2” "Power supply" and "3-1 Past cases" are extracted.

これらのタイトル候補を比較すると、タイトルパターン「N+「−」+M+文字列」の方が、より多くのタイトル候補が抽出されている。これは、つまり、対象としている文書のテキストデータ内に、「N+「−」+M+文字列」に合致するテキストパターンが、「N+「.」+M+文字列」に合致するテキストパターンよりも、より頻繁に出現していることを表している。従って、タイトル選択部143は、例えば、当該文書の第2階層を表すタイトルパターンは「N+「−」+M+文字列」であると判断することができる。同様に、タイトル選択部143は、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補と、タイトルパターン「N+「.」+文字列」のタイトル候補とを比較することにより、例えば、当該文書の第1階層を表すタイトルパターンは「N+「.」+文字列」であると判断することができる。   When comparing these title candidates, more title candidates are extracted for the title pattern “N +“ − ”+ M + character string”. This means that the text pattern matching “N +“ − ”+ M + character string” in the text data of the target document is more frequent than the text pattern matching “N +“. ”+ M + character string”. It is appearing in. Therefore, for example, the title selection unit 143 can determine that the title pattern representing the second layer of the document is “N +“ − ”+ M + character string”. Similarly, the title selection unit 143 compares the title candidate of the title pattern “N (Roman numeral) + character string” with the title candidate of the title pattern “N +“. ”+ Character string”, for example, It can be determined that the title pattern representing the first layer of the document is “N +“. ”+ Character string”.

更に、タイトル選択部143は、当該文書の階層構造を表すタイトルに対応するとして選択したタイトルパターン以外のタイトルパターンによって抽出されたタイトル候補に対しては、連番チェックを行わなくてもよい。例えば、タイトル選択部143は、当該文書の第2階層を表すタイトルパターンが「N+「−」+M+文字列」であると判断した場合には、当該文書の第2階層を表すタイトル候補に対する連番チェックは、当該タイトルパターン「N+「−」+M+文字列」に合致するタイトル候補に対してのみ行えばよく、他のタイトル候補に対しては連番チェックを行わなくてもよい。つまり、タイトル選択部143は、全てのタイトル候補に対して連番チェック行わなくてもよく、連番チェックを行うタイトルパターンを選択してもよい。タイトル選択部143が、全てのタイトル候補に対して連番チェックを行わないことにより、タイトル選択処理における情報処理量を削減することができ、タイトル抽出処理の効率化を図ることができる。   Furthermore, the title selection unit 143 does not need to perform serial number check on title candidates extracted by title patterns other than the title pattern selected as corresponding to the title representing the hierarchical structure of the document. For example, if the title selection unit 143 determines that the title pattern representing the second hierarchy of the document is “N +“ − ”+ M + character string”, the serial number for the title candidate representing the second hierarchy of the document The check may be performed only for title candidates that match the title pattern “N +“ − ”+ M + character string”, and the serial number check may not be performed for other title candidates. That is, the title selection unit 143 may not perform serial number check for all title candidates, and may select a title pattern for performing serial number check. Since the title selection unit 143 does not perform serial number check on all title candidates, the information processing amount in the title selection process can be reduced, and the efficiency of the title extraction process can be improved.

以上、図4、図5A、B、図6A、B及び図7A、Bを参照して説明したように、本実施形態に係るタイトル候補抽出処理においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。   As described above with reference to FIGS. 4, 5A and B, FIGS. 6A and B, and FIGS. 7A and B, the title candidate extraction processing according to the present embodiment corresponds to titles representing the hierarchical structure of the document. Based on the title pattern, which is a text pattern, title candidates are extracted from the text data of the target document. In the title selection process according to the present embodiment, a title is selected from the extracted title candidates by serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Therefore, in the title extraction process, it is possible to more accurately extract the title indicating the hierarchical structure of the document from the text data included in the document by determining whether the extracted title candidate is appropriate as the title. It becomes.

また、本実施形態に係るタイトル選択処理においては、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよく、例えば、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。   Further, in the title selection process according to the present embodiment, the range of title candidates for performing serial number check is not particularly limited, and may be set as appropriate by the user. For example, the same hierarchy information among the extracted title candidates A serial number check may be performed for each title candidate having “”. By performing the serial number check for each title candidate having the same hierarchical information, the processing procedure for the serial number check can be made simpler.

また、本実施形態に係るタイトル選択処理においては、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。   In the title selection processing according to the present embodiment, delimiter information that is information regarding the delimiter position of the hierarchical structure in the text data of the document may be used in the serial number check. By performing the title selection process based on the delimiter information, the accuracy of the title extraction process can be further improved.

また、本実施形態に係るタイトル選択処理においては、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックが行われるタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。   In the title selection process according to the present embodiment, serial number check may be performed for each title candidate having the same title pattern among the extracted title candidates. By performing the serial number check for each title candidate having the same title pattern, the processing procedure at the time of the serial number check can be made simpler. In addition, when performing serial number check for each title candidate having the same title pattern, the title corresponding to the title representing the hierarchical structure of the target document is selected from the title patterns based on the extracted title candidates. A pattern may be selected, and the serial number check may be performed only for title candidates having the title pattern. Select the title pattern corresponding to the title representing the hierarchical structure of the target document, and perform the serial number check only for the title candidates having the title pattern, thereby reducing the number of title candidates that are subjected to the serial number check. And serial number check can be performed more efficiently.

なお、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。   In the above description of the title extraction process, the example of extracting titles representing the first hierarchy and the second hierarchy has been described, but the present embodiment is not limited to such an example. In the title extraction process according to the present embodiment, titles representing lower layers may be extracted.

また、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。   Further, in the description in the above (Sequential number check for title candidates having the same hierarchy information), a serial number check is performed on the title candidates representing the second hierarchy, and then the title candidates representing the first hierarchy are checked. Although an example in which serial number checking is performed has been described, the present embodiment is not limited to such an example. In the sequential number check for the title candidates having the same hierarchical information, the order in which the sequential number check is performed is not particularly limited, and may be appropriately set by the user according to the hierarchical structure, type, and the like of the document. Similarly, in the serial number check for title candidates having the same title pattern, the order in which the serial number check is performed is not particularly limited, and is appropriately determined by the user according to the hierarchical structure, type, etc. of the document. May be set.

また、上記[3.2.タイトル選択処理]における連番チェックの説明においては、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係るタイトル選択処理はかかる実施例に限定されない。本実施形態に係るタイトル選択処理においては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。例えば、文書によっては、記載番号が最も小さいタイトル候補が、本来はタイトルを表すテキストパターンではない場合がある。その場合、記載番号が最も小さいタイトル候補を基準として連番チェックを行っても、適切なタイトル選択が実行されない可能性がある。連番チェックの基準となるタイトルが、ユーザによって適宜設定されることにより、タイトル選択処理の正確性をより向上させることができる。   In addition, the above [3.2. In the description of the sequential number check in [Title selection processing], first, the title candidate with the smallest description number is selected as the title, and then the title candidate selected as the title immediately before and the order information are sequentially arranged in the order of the description number. However, the title selection process according to the present embodiment is not limited to such an example. In the title selection processing according to the present embodiment, the title that is the reference for serial number check, that is, the title that is initially selected may be appropriately set by the user according to the structure and type of the document. For example, depending on the document, the title candidate with the smallest description number may not be a text pattern that originally represents the title. In that case, even if the serial number check is performed based on the title candidate with the smallest description number, there is a possibility that appropriate title selection may not be executed. By appropriately setting a title as a reference for serial number check by the user, the accuracy of the title selection process can be further improved.

また、上記の区切り情報についての説明では、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明したが、本実施形態に係る区切り情報の取得方法はかかる実施例に限定されない。例えば、対象としている文書の階層構造が事前に明らかである場合には、当該文書の階層構造、種類等に応じて、区切り情報がユーザによって予め設定され、情報処理装置に入力されていてもよい。   In the description of the delimiter information, the delimiter information is acquired based on the result of the serial number check performed on the title candidates having the first hierarchy information, and the delimiter information is used to obtain the second information. Although the method of performing serial number check on the title candidates having the hierarchical information has been described, the method for acquiring the separator information according to the present embodiment is not limited to such an example. For example, when the hierarchical structure of the target document is clear in advance, the delimiter information may be set in advance by the user according to the hierarchical structure, type, etc. of the document and input to the information processing apparatus. .

また、本実施形態においては、連番チェックに係る一連の処理の中で、タイトル候補の階層情報が適宜変更されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。   In the present embodiment, the hierarchical information of title candidates may be changed as appropriate in a series of processes related to serial number checking. <1. As described above in document and title pattern to be processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. is there. In that case, serial number check may be performed in a state where some hierarchical information is temporarily assigned to the title candidate, and repeated serial number checking may be performed while performing processing to change the hierarchical information as appropriate based on the result.

例えば、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、図6Aにおいて、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が「第1階層」であると仮定して連番チェックを行う場合について説明しているが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」が第1階層を表すタイトルとして選択されなかった時点で、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が、「第1階層」以外の階層情報、例えば「第3階層」に変更されてもよい。タイトル候補「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報が「第3階層」に変更された場合には、第3階層を表すタイトルを選択するための連番チェックが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を含む、階層情報として「第3階層」を有するタイトル候補に対して行われてもよい。   For example, in the above description (sequential number check for title candidates having the same hierarchy information), in FIG. 6A, the hierarchy information of title candidates “I trouble during measurement” and “II trouble during calibration” is “first calibration”. The case where the serial number check is performed on the assumption that it is “hierarchy” is explained, but the title candidates “I trouble during measurement” and “II trouble during calibration” were not selected as titles representing the first hierarchy. At that time, the hierarchical information of the title candidates “I measurement trouble” and “II calibration trouble” may be changed to hierarchical information other than “first hierarchy”, for example, “third hierarchy”. If the hierarchy information of the title candidates “I measurement trouble” and “II calibration trouble” is changed to “third hierarchy”, the serial number check for selecting the title representing the third hierarchy is performed. It may be performed on a title candidate having “third hierarchy” as hierarchy information, including title candidates “I trouble during measurement” and “II trouble during calibration”.

<4.タイトル抽出処理手順>
次に、図8〜11を参照して、本発明の一実施形態に係るタイトル抽出処理手順について説明する。図8は、本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。なお、以下のタイトル抽出処理手順の説明において、文書読み込み部141、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<2.情報処理装置の構成>で上述しているため、ここでは詳細な説明は省略する。また、タイトル抽出処理におけるタイトル候補抽出処理及びタイトル選択処理の詳細については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で既に説明しているため、内容が重複する部分については、その説明を省略する。
<4. Title extraction process>
Next, a title extraction processing procedure according to an embodiment of the present invention will be described with reference to FIGS. FIG. 8 is a flowchart showing a title extraction processing procedure according to an embodiment of the present invention. In the following description of the title extraction processing procedure, the functions and configurations of the document reading unit 141, the title candidate extraction unit 142, and the title selection unit 143 are described in <2. Since the information processing apparatus is described above in the configuration of the information processing apparatus, detailed description thereof is omitted here. For details of title candidate extraction processing and title selection processing in title extraction processing, see <3. Since the description has already been given in “Function and Configuration of Title Candidate Extraction Unit and Title Selection Unit>, the description of the overlapping portions will be omitted.

図8を参照すると、本実施形態に係るタイトル抽出処理手順においては、まず、ステップS601で、文書読み込み部141が、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。   Referring to FIG. 8, in the title extraction processing procedure according to the present embodiment, first, in step S601, the document reading unit 141 converts text data corresponding to a document stored in the storage unit 120, for example, to a predetermined unit. Read each sentence separated by.

次に、ステップS603で、タイトル候補抽出部142が、ステップS601で読み込まれたセンテンス内のテキストパターンと、例えば記憶部120に記憶されているタイトルパターンとを比較する(マッチングする)。そして、ステップS603でマッチングした結果に基づいて、ステップS605で、タイトル候補が抽出され、例えば記憶部120に保存される。ここで、抽出されたタイトル候補は、例えば図4に示すように、記載番号、タイトルパターン、階層情報及び順序情報と関連付けて整理され、表(リスト)の形式で保存されてもよい。なお、ステップS603及びS605における一連の処理は、上記[3.1.タイトル候補の抽出処理]で説明した、タイトル候補抽出部142が行う一連の処理に対応している。   Next, in step S603, the title candidate extraction unit 142 compares (matches) the text pattern in the sentence read in step S601 with, for example, the title pattern stored in the storage unit 120. Then, based on the result of matching in step S603, title candidates are extracted in step S605 and stored in the storage unit 120, for example. Here, the extracted title candidates may be arranged in association with a description number, title pattern, hierarchy information, and order information as shown in FIG. 4, for example, and may be stored in a table (list) format. The series of processes in steps S603 and S605 are the same as those described in [3.1. This corresponds to the series of processes performed by the title candidate extraction unit 142 described in “Title candidate extraction process”.

次に、ステップS607で、例えば記憶部120に記憶されている全てのタイトルパターンについて、ステップS603及びステップS605における一連の処理が終了したかどうかが判断される。ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了していないと判断された場合は、ステップS603に戻り、未処理のタイトルパターンについて、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、例えば記憶部120に記憶されている全てのタイトルパターンについて、タイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。   Next, in step S607, for example, for all the title patterns stored in the storage unit 120, it is determined whether a series of processes in steps S603 and S605 has been completed. If it is determined that the series of processes in steps S603 and S605 has not been completed for all title patterns, the process returns to step S603, and title candidate matching in steps S603 and S605 is performed for unprocessed title patterns. The title candidate is extracted and stored. That is, the title candidate extraction unit 142 performs, for example, title candidate matching and title candidate extraction / storage processing for all title patterns stored in the storage unit 120.

ステップS607で、ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了したと判断された場合は、ステップS609に進む。ステップS609では、ステップS601で対象とする文書の全てが読み込まれたかどうかが判断される。対象とする文書が全て読み込まれていないと判断された場合には、ステップS601に戻り、文書内の次のセンテンスが読み込まれ、当該センテンスに対して、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、対象とする文書の全てのセンテンスについて、例えば記憶部120に記憶されている全てのタイトルパターンとのタイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。従って、ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、対象とする文書の全てのテキストデータに含まれるタイトル候補が抽出され、保存された状態であると考えられる。   If it is determined in step S607 that the series of processing in step S603 and step S605 has been completed for all the title patterns, the process proceeds to step S609. In step S609, it is determined whether all of the target documents have been read in step S601. If it is determined that all the target documents have not been read, the process returns to step S601, the next sentence in the document is read, and title candidates are matched to the sentence in steps S603 and S605. The title candidate is extracted and stored. That is, the title candidate extraction unit 142 performs, for example, title candidate matching with all title patterns stored in the storage unit 120 and title candidate extraction / storage processing for all sentences of the target document. Accordingly, if it is determined in step S609 that all the target documents have been read, it is considered that title candidates included in all text data of the target documents are extracted and stored. It is done.

ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、ステップS611に進み、抽出されたタイトル候補に対して、タイトル選択部143によるタイトル選択処理が行われる。ステップS611でのタイトル選択処理については、図9〜11を参照して後で詳しく説明する。   If it is determined in step S609 that all the target documents have been read, the process proceeds to step S611, and title selection processing by the title selection unit 143 is performed on the extracted title candidates. The title selection process in step S611 will be described in detail later with reference to FIGS.

ステップS611でのタイトル選択処理が終了することにより、本実施形態に係る一連のタイトル抽出処理が終了する。このように、図8に示す手順に従って一連の処理が行われることにより、対象とする文書から、当該文書の階層構造を表すタイトルを抽出することができる。   When the title selection process in step S611 ends, a series of title extraction processes according to the present embodiment ends. In this way, a series of processing is performed according to the procedure shown in FIG. 8, whereby a title representing the hierarchical structure of the document can be extracted from the target document.

次に、図9を参照して、図8のステップS611におけるタイトル選択処理の処理手順について詳細に説明する。図9は、図8におけるタイトル選択処理の処理手順を示すフロー図である。なお、以下に図9〜11を用いて行うタイトル選択処理の説明では、タイトル選択処理の一例として、同一の階層情報を有するタイトル候補に対する連番チェックを行う場合について説明する。ただし、本実施形態にかかるタイトル選択処理は、かかる実施例に限定されず、他の異なる連番チェックの方法が行われてよい。なお、以下に図9〜11を用いて行うタイトル選択処理の説明は、上記[3.2.タイトル選択処理]の(同一の階層情報を有するタイトル候補に対する連番チェック)で説明したタイトル候補抽出部142が行う一連の処理に対応しているため、重複する内容については、詳細な説明は省略する。   Next, the processing procedure of the title selection processing in step S611 in FIG. 8 will be described in detail with reference to FIG. FIG. 9 is a flowchart showing the processing procedure of the title selection processing in FIG. In the following description of the title selection process performed with reference to FIGS. 9 to 11, a case where serial number checking is performed on title candidates having the same hierarchy information will be described as an example of the title selection process. However, the title selection process according to the present embodiment is not limited to such an example, and other different serial number check methods may be performed. In addition, the description of the title selection process performed using FIGS. 9 to 11 below will be described in [3.2. This corresponds to the series of processes performed by the title candidate extraction unit 142 described in “Title selection for title candidates having the same hierarchy information” in “Title selection process”, and therefore, detailed description of overlapping contents is omitted. To do.

図9を参照すると、本実施形態に係るタイトル選択処理においては、まず、ステップS701で、タイトル選択部143が、タイトルパターンに含まれる階層情報に基づいて、抽出されたタイトル候補を階層ごとに整理する。次に、ステップS703で、第2階層について整理されたタイトル候補に対して連番チェックが行われ、第2階層を表すタイトルが選択される。なお、ステップS703における、第2階層についての連番チェックについては、図10を参照して後で詳しく説明する。   Referring to FIG. 9, in the title selection process according to the present embodiment, first, in step S701, the title selection unit 143 arranges the extracted title candidates for each hierarchy based on the hierarchy information included in the title pattern. To do. Next, in step S703, a serial number check is performed on the title candidates arranged for the second hierarchy, and a title representing the second hierarchy is selected. Note that the serial number check for the second hierarchy in step S703 will be described in detail later with reference to FIG.

次に、ステップS705で、ステップS703における連番チェックの結果から、第1階層のタイトル候補における区切り情報が取得される。   Next, in step S705, the delimiter information in the first layer title candidate is obtained from the result of the serial number check in step S703.

次に、ステップS707で、第1階層について整理されたタイトル候補に対して、連番チェックが行われ、第1階層を表すタイトルが選択される。そして、一連のタイトル選択処理が終了する。なお、ステップS707における、第1階層についての連番チェックについては、図11を参照して後で詳しく説明する。   Next, in step S707, serial number check is performed on the title candidates arranged for the first hierarchy, and a title representing the first hierarchy is selected. Then, a series of title selection processing ends. Note that the serial number check for the first hierarchy in step S707 will be described in detail later with reference to FIG.

次に、図10を参照して、図9のステップS703における第2階層についての連番チェックの処理手順について、詳細に説明する。図10は、図9における第2階層についての連番チェックの処理手順を示すフロー図である。   Next, with reference to FIG. 10, the sequence number check processing procedure for the second hierarchy in step S703 of FIG. 9 will be described in detail. FIG. 10 is a flowchart showing the sequence number check processing procedure for the second hierarchy in FIG.

図10を参照すると、本実施形態に係る第2階層についての連番チェックにおいては、まず、ステップS801で、第2階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図5Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1−1 ケース」が、タイトルとして選択される。   Referring to FIG. 10, in the serial number check for the second hierarchy according to the present embodiment, first, in step S801, the title candidate with the smallest description number is selected as the title from the title candidates representing the second hierarchy. Is done. For example, in the example shown in FIG. 5A, the “1-1 case” that is the title candidate with the smallest description number is selected as the title.

次に、ステップS803で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図5Aに示す実施例であれば、タイトル「1−1 ケース」の次に記載番号が小さいタイトル候補である「2−1 容量」が連番チェック対象として選択される。   Next, in step S803, the title candidate with the next smallest number is selected as a serial number check target. Specifically, in the embodiment shown in FIG. 5A, for example, “2-1 capacity”, which is the title candidate with the next smallest number after the title “1-1 case”, is selected as the serial number check target.

そして、次に、ステップS805で、直前に選択されたタイトルの順序情報(例えば「N=n、M=m」)と、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」であった場合には、ステップS803で選択されたタイトル候補がタイトルとして選択され(ステップS807)、更にステップS809に進む。一方、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」以外であった場合には、ステップS807がスキップされ、すなわち、当該タイトル候補がタイトルとして選択されず、ステップS809に進む。   Next, in step S805, the order information of the title selected immediately before (for example, “N = n, M = m”) and the order information of the title candidates selected as the serial number check target in step S803 are obtained. To be compared. If the order information of the title candidates selected as the serial number check target in step S803 is “N = n, M = m + 1” or “N = n + 1, M = 1”, it is selected in step S803. The selected title candidate is selected as a title (step S807), and the process proceeds to step S809. On the other hand, if the order information of the title candidates selected as the serial number check target in step S803 is other than “N = n, M = m + 1” or “N = n + 1, M = 1”, step S807 is skipped. That is, the title candidate is not selected as a title, and the process proceeds to step S809.

ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第2階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS803に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS805及びステップS807における処理が繰り返される。一方、ステップS809で、第2階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第2階層についての連番チェックを終了する。   In step S809, it is determined whether the serial number check process has been completed for all title candidates representing the second hierarchy. If the serial number check processing has not been completed for all the title candidates representing the second hierarchy, the process returns to step S803, and the title candidate with the next smallest description number is selected as the serial number check target, and step S805 and The process in step S807 is repeated. On the other hand, if it is determined in step S809 that the serial number check process has been completed for all title candidates representing the second hierarchy, the serial number check for the second hierarchy is terminated.

具体的には、図5Aに示す実施例であれば、ステップS805で、「1−1 ケース」の順序情報である「N=1、M=1」と、ステップS803で連番チェック対象として選択されたタイトル候補「2−1 容量」の順序情報である「N=2、M=1」とが比較される。「2−1 容量」の順序情報である「N=2、M=1」は、「N=n、M=m+1」又は「N=n+1、M=1」の関係を満たすので、ステップS807に進み、タイトル候補「2−1 容量」がタイトルとして選択される。   Specifically, in the embodiment shown in FIG. 5A, “N = 1, M = 1”, which is the sequence information of “1-1 case”, is selected as the serial number check target in step S803 in step S805. Then, “N = 2, M = 1” which is the order information of the title candidate “2-1 capacity” is compared. Since “N = 2, M = 1” which is the order information of “2-1 capacity” satisfies the relationship of “N = n, M = m + 1” or “N = n + 1, M = 1”, the process proceeds to step S807. The title candidate “2-1 capacity” is selected as the title.

ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図5Aに示すように、対象としている文書には、タイトル候補「2−1 容量」以外にも第2階層を表すタイトル候補が存在するので、ステップS803に戻り、記載番号が次に小さいタイトル候補である「2−2 電源」が、改めて連番チェック対象として選択され、以降、ステップS805及びステップS807における処理が繰り返される。   In step S809, it is determined whether the serial number check process has been completed for all title candidates representing the second hierarchy. As shown in FIG. 5A, since there are title candidates representing the second hierarchy in addition to the title candidate “2-1 capacity” in the target document, the process returns to step S803, and the title candidate with the next smallest description number “2-2 power source” is again selected as a serial number check target, and the processing in step S805 and step S807 is repeated thereafter.

次に、図11を参照して、図9のステップS707における第1階層についての連番チェックの処理手順について、詳細に説明する。図11は、図9における第1階層についての連番チェックの処理手順を示すフロー図である。   Next, with reference to FIG. 11, the sequential number check processing procedure for the first hierarchy in step S707 of FIG. 9 will be described in detail. FIG. 11 is a flowchart showing the sequence number check processing procedure for the first hierarchy in FIG.

図11を参照すると、本実施形態に係る第1階層についての連番チェックにおいては、まず、ステップS901で、第1階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図6Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1.対象となる機器」が、タイトルとして選択される。   Referring to FIG. 11, in the sequential number check for the first hierarchy according to the present embodiment, first, in step S901, the title candidate with the smallest description number is selected as the title from among the title candidates representing the first hierarchy. Is done. For example, in the embodiment shown in FIG. 6A, the title candidate “1. target device” having the smallest description number is selected as the title.

次に、ステップS903で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図6Aに示す実施例であれば、タイトル「1.対象となる機器」の次に記載番号が小さいタイトル候補である「4.に示す・・・」が連番チェック対象として選択される。   Next, in step S903, a title candidate with the next smallest number is selected as a serial number check target. Specifically, in the embodiment shown in FIG. 6A, for example, “4....”, Which is the title candidate with the next smallest number after the title “1. Selected as.

そして、次に、ステップS905で、直前に選択されたタイトルの順序情報(例えば「N=n」)と、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」であった場合には、ステップS907に進む。一方、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」以外であった場合には、当該タイトル候補はタイトルとしては選択されず、後述するステップS911に進む。   Next, in step S905, the order information of the title selected immediately before (for example, “N = n”) is compared with the order information of the title candidates selected as the serial number check target in step S903. If the order information of the title candidates selected as the serial number check target in step S903 is “N = n + 1”, the process proceeds to step S907. On the other hand, if the order information of the title candidates selected as the serial number check target in step S903 is other than “N = n + 1”, the title candidates are not selected as titles, and the process proceeds to step S911 described later.

ステップS907では、図9に示すステップS705で取得された区切り情報に基づき、連番チェック対象として選択されているタイトル候補の順序情報が、当該区切り情報と整合するかどうかが判断される。連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合すると判断された場合には、当該タイトル候補がタイトルとして選択され(ステップS909)、更にステップS911に進む。一方、連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合しないと判断された場合には、ステップS909がスキップされ、すなわち、当該タイトル候補はタイトルとしては選択されず、ステップS911に進む。   In step S907, based on the break information acquired in step S705 shown in FIG. 9, it is determined whether the order information of the title candidates selected as the serial number check target is consistent with the break information. If it is determined that the order information of the title candidates selected as the serial number check target matches the delimiter information, the title candidate is selected as a title (step S909), and the process proceeds to step S911. On the other hand, if it is determined that the order information of the title candidates selected as the serial number check target is not consistent with the delimiter information, step S909 is skipped, that is, the title candidate is not selected as a title, and the step The process proceeds to S911.

ステップS911では、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第1階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS903に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS905、ステップS907及びステップS909における処理が繰り返される。一方、ステップS911で、第1階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第1階層についての連番チェックを終了する。   In step S911, it is determined whether the serial number check process has been completed for all title candidates representing the first hierarchy. If the serial number check process has not been completed for all the title candidates representing the first hierarchy, the process returns to step S903, and the title candidate with the next smallest description number is selected again as the serial number check target, and step S905, The processes in step S907 and step S909 are repeated. On the other hand, if it is determined in step S911 that the serial number check process has been completed for all title candidates representing the first hierarchy, the serial number check for the first hierarchy is terminated.

具体的には、図6Aに示す実施例であれば、ステップS905では、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で選択されたタイトル候補「4.に示す・・・」の順序情報である「N=4」とが比較される。「4.に示す・・・」の順序情報である「N=4」は、「N=n+1」の関係を満たさないので、ステップS803に戻り、記載番号が次に小さいタイトル候補、すなわち、図6Aに示す例であれば、タイトル候補「2.選定基準詳細」が改めて選択される。   Specifically, in the embodiment shown in FIG. 6A, in step S905, “N = 1”, which is the order information of “1. Target device”, and the title candidate “4. "N = 4", which is the order information of "...". Since “N = 4”, which is the order information of “shown in 4.”, does not satisfy the relationship of “N = n + 1”, the process returns to step S803, and the title candidate with the next smallest number, ie, FIG. In the example shown in 6A, the title candidate “2. Details of selection criteria” is selected again.

そして、再びステップS905で、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で改めて選択されたタイトル候補「2.選定基準詳細」の順序情報である「N=2」とが比較される。「2.選定基準詳細」の順序情報である「N=2」は、「N=n+1」の関係を満たすので、ステップS907に進む。   In step S 905, “N = 1”, which is the order information of “1. Target device”, and “N. Details of selection criteria”, which is newly selected in step S 903, are “N”. = 2 ". Since “N = 2”, which is the order information of “2. Selection Criteria Details”, satisfies the relationship “N = n + 1”, the process proceeds to step S907.

次に、ステップS907で、タイトル候補「2.選定基準詳細」が区切り情報と整合するかどうかが判断される。図6Aに示す例であれば、情報処理装置10は、区切り情報として、「N=2」に相当する順序番号を有する第1階層を表すタイトルは、記載番号「2」と記載番号「5」の間(図6Aに示す区間A)に存在するという情報を有している。タイトル候補「2.選定基準詳細」の記載番号は「3」であるため、タイトル候補「2.選定基準詳細」は、当該区切り情報と整合する。従って、ステップS909に進み、タイトル候補「2.選定基準詳細」がタイトルとして選択される。   Next, in step S907, it is determined whether or not the title candidate “2. Selection criteria details” matches the delimiter information. In the example illustrated in FIG. 6A, the information processing apparatus 10 uses the description number “2” and the description number “5” as the delimiter information that represents the first hierarchy having the sequence number corresponding to “N = 2”. Information (section A shown in FIG. 6A). Since the description number of the title candidate “2. Selection criteria details” is “3”, the title candidate “2. Selection criteria details” matches the separation information. Accordingly, the process proceeds to step S909, and the title candidate “2. Selection criteria details” is selected as the title.

ステップS909でタイトルが選択されたら、次に、ステップS911で、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図6Aに示すように、対象としている文書には、タイトル候補「2.選定基準詳細」以外にも第1階層を表すタイトル候補が存在するので、ステップS903に戻り、記載番号が次に小さいタイトル候補である「5.0Vが・・・」が、改めて連番チェック対象として選択され、以降、ステップS905、ステップS907及びステップS909における処理が繰り返される。   If a title is selected in step S909, it is next determined in step S911 whether or not serial number check processing has been completed for all title candidates representing the first hierarchy. As shown in FIG. 6A, in the target document, there are title candidates representing the first hierarchy other than the title candidate “2. Details of selection criteria”, so the process returns to step S903, and the title with the next smallest number is shown. The candidate “5.0V is...” Is again selected as a serial number check target, and the processing in step S905, step S907, and step S909 is repeated thereafter.

以上、図8〜11を参照して説明したように、本実施形態に係るタイトル抽出方法においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。   As described above with reference to FIGS. 8 to 11, in the title extraction method according to the present embodiment, the target document is based on the title pattern that is a text pattern corresponding to the title representing the hierarchical structure of the document. Title candidates are extracted from the text data. In the title selection process according to the present embodiment, a title is selected from the extracted title candidates by serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Therefore, in the title extraction process, it is possible to more accurately extract the title indicating the hierarchical structure of the document from the text data included in the document by determining whether the extracted title candidate is appropriate as the title. It becomes.

なお、上記では、同一の階層情報を有するタイトル候補に対して連番チェックが行われる実施例について説明したが、本実施形態に係るタイトル抽出方法は、かかる実施例に限定されない。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。   In the above description, the example in which the serial number check is performed on the title candidates having the same hierarchical information has been described. However, the title extraction method according to the present embodiment is not limited to such an example. For example, the serial number check may be performed on all title candidates extracted from the target document as shown in FIG.

また、例えば、連番チェックは、図7A、Bに示すような、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、例えば、タイトル候補をタイトルパターンごとに整理するステップが行われた後に、タイトルパターンごとに連番チェックが行われるステップが行われてよい。   Further, for example, the serial number check may be performed on title candidates having the same title pattern as shown in FIGS. 7A and 7B. When serial number check is performed on title candidates having the same title pattern, for example, after the step of organizing the title candidates for each title pattern is performed, the serial number check is performed for each title pattern May be done.

なお、図8〜11を参照して行った、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。より下位の階層を表すタイトルが抽出される場合には、例えば、図9に示すフローにおいて、ステップS707の後に、第3階層又はより下位の階層についての連番チェックを行うステップが順次追加されてよい。   In the description of the title extraction process described above with reference to FIGS. 8 to 11, the example of extracting titles representing the first hierarchy and the second hierarchy has been described. However, the present embodiment is an example of such an example. It is not limited to. In the title extraction process according to the present embodiment, titles representing lower layers may be extracted. When titles representing lower layers are extracted, for example, in the flow shown in FIG. 9, a step of sequentially checking the third layer or lower layers is sequentially added after step S707. Good.

また、図9に示すタイトル選択処理のフローでは、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。   In the title selection processing flow shown in FIG. 9, an embodiment is described in which serial number check is performed on title candidates representing the second hierarchy, and then serial number check is performed on title candidates representing the first hierarchy. However, the present embodiment is not limited to such an example. In the sequential number check for the title candidates having the same hierarchical information, the order in which the sequential number check is performed is not particularly limited, and may be appropriately set by the user according to the hierarchical structure, type, and the like of the document. Similarly, in the serial number check for title candidates having the same title pattern, the order in which the serial number check is performed is not particularly limited, and is appropriately determined by the user according to the hierarchical structure, type, etc. of the document. May be set.

また、図10及び図11に示す、第1階層及び第2階層についての連番チェックのフローでは、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係る連番チェックはかかる実施例に限定されない。本実施形態に係る連番チェックにおいては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。   Further, in the sequential number check flow for the first and second hierarchies shown in FIGS. 10 and 11, first, the title candidate with the smallest description number is selected as the title, and then the immediately preceding order in the order of the description numbers. Although the case where it is determined whether or not the title candidate selected as the title and the order information are consecutive has been described, the serial number check according to the present embodiment is not limited to such an example. In the serial number check according to the present embodiment, the title used as a reference for the serial number check, that is, the title selected first may be set as appropriate by the user according to the structure and type of the document.

また、図9に示すタイトル選択処理のフローにおいては、タイトル候補の階層情報を変更するステップが適宜追加されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、仮に何らかの階層情報を付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。   Further, in the flow of title selection processing shown in FIG. 9, a step of changing the hierarchical information of title candidates may be added as appropriate. <1. As described above in document and title pattern to be processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. is there. In that case, the serial number check may be performed while performing the process of changing the hierarchical information as appropriate based on the result of performing the serial number check with some hierarchical information added.

例えば、図9に示すフローにおいて、ステップS707が終了した段階では、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が選択されており、第2階層を表すタイトルとして、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が選択されている。また、区切り情報として、第1階層及び第2階層の区切りが、記載番号においてどこに存在するかに関する情報が得られている。従って、例えば、タイトル選択部143は、タイトル候補として抽出はされたものの、タイトルとして選択はされなかったタイトル候補の中から、任意のタイトル候補の階層情報を「第3階層」に変更し、当該「第3階層」の階層情報を有するタイトル候補に対して、改めてタイトル選択処理を行ってよい。具体的には、例えば図6Aに示すタイトル候補の例であれば、タイトル選択部143は、タイトル候補の中から、「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報を「第3階層」に変更し、当該タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」に対して、改めて連番チェックを行うことにより、タイトル選択処理を行ってよい。このように、階層情報を変更して改めて連番チェックを行うことにより、例えば、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を、第3階層を表すタイトルとして選択することができる。   For example, in the flow shown in FIG. 9, at the stage where step S <b> 707 is completed, “1. Target device”, “2. Details of selection criteria”, “3. Notes” and “ 4. “Other” is selected, and “1-1 Case”, “2-1 Capacity”, “2-2 Power Supply”, and “3-1 Past Case” are selected as titles representing the second hierarchy. ing. Further, as the delimiter information, information on where the delimiters of the first hierarchy and the second hierarchy exist in the description number is obtained. Therefore, for example, the title selection unit 143 changes the hierarchical information of any title candidate from among the title candidates that have been extracted as title candidates but not selected as titles, to the “third hierarchy”. The title selection process may be performed again on the title candidates having the hierarchy information of “third hierarchy”. Specifically, in the example of the title candidate shown in FIG. 6A, for example, the title selection unit 143 displays the hierarchical information of “I measurement trouble” and “II calibration trouble” from the title candidates. The title selection process may be performed by changing to the “third layer” and performing a serial number check again for the title candidates “I trouble during measurement” and “II trouble during calibration”. In this way, by changing the hierarchy information and performing the serial number check again, for example, the title selection unit 143 displays the title candidates “I trouble during measurement” and “II trouble during calibration” in the third hierarchy. It can be selected as a title to represent.

実際には、タイトルパターンに階層情報を設定する適切な方法や、タイトル選択処理における連番チェックを適切に行う方法(連番チェックをどのような単位で、どのような順番で行うか)は、文書の種類や構造に応じて異なる。従って、タイトルパターンに設定する階層情報や、タイトル選択処理における連番チェックの具体的な処理手順は、文書の種類や構造に基づいて、例えば経験則に応じて、ユーザによって適宜設定されてよい。   Actually, the appropriate method of setting the hierarchy information in the title pattern and the method of properly performing the serial number check in the title selection process (in what units and in what order the serial number check is performed) It depends on the type and structure of the document. Therefore, the hierarchical information to be set in the title pattern and the specific processing procedure of the serial number check in the title selection process may be appropriately set by the user based on the type and structure of the document, for example, according to the rule of thumb.

例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報、及び、適切な連番チェックの方法を設定してもよい。   For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user may set a title pattern and its hierarchy information and an appropriate serial number check method in advance according to the format of the target document.

<5.適用例>
次に、図12を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例について説明する。図12は、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。
<5. Application example>
Next, an application example of the information processing apparatus, the title extraction method, and the program according to the present embodiment will be described with reference to FIG. FIG. 12 is a schematic diagram illustrating an application example of the information processing apparatus, the title extraction method, and the program according to the present embodiment.

本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、ユーザが所望の文書を検索する場合に、好適に適用することができる。   The information processing apparatus, title extraction method, and program according to the present embodiment can be suitably applied, for example, when a user searches for a desired document from a DB that stores document data.

例えば、文書データのDBに対して、ある検索ワードで検索を掛けると、文書のテキストデータに当該検索ワードが含まれる文書が抽出される検索システムがあったとする。このような検索システムにおいて、検索結果の画面に、例えば文書名のみが表示されたとすると、ユーザは、文書名だけでは当該文書の内容までは把握することが難しく、所望の文書を見つけることが困難である。   For example, suppose that there is a search system in which a document including the search word is extracted from the text data of the document when a search is performed on the DB of the document data with a certain search word. In such a search system, if only the document name is displayed on the search result screen, for example, it is difficult for the user to grasp the contents of the document only by the document name, and it is difficult to find a desired document. It is.

そこで、例えば、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いることにより、検索結果として抽出された文書に対して、当該文書の階層構造を表すタイトルを抽出することができる。そして、例えば検索結果を表示する際に、文書名とともに、抽出したタイトルについても表示することができる。また、タイトルは、当該タイトルに含まれる階層情報に基づいて、例えば階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザは、文書内容を把握することができ、文書DBの中から所望の文書を見つけやすくなる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出することにより、文書を要約することが可能となる。   Therefore, for example, by using the information processing apparatus, the title extraction method, and the program according to the present embodiment, a title representing the hierarchical structure of the document can be extracted from the document extracted as a search result. For example, when the search result is displayed, the extracted title can be displayed together with the document name. Moreover, a title may be displayed for every hierarchy based on the hierarchy information contained in the said title, for example. As described above, the title representing the hierarchical structure of the document is displayed together with the document name, so that the user can grasp the document content and easily find a desired document in the document DB. That is, in the present embodiment, it is possible to summarize a document by extracting a title representing the hierarchical structure of the document from text data corresponding to the document.

具体的には、例えば、ある文書DBに対して、検索ワードとして「機器」を用いて文書の検索を行ったとする。すると、例えば、情報処理装置10の表示部130の表示画面に、図12に示す検索結果画面が表示されてよい。図12を参照すると、例えば、文書名「機器の購入に関する基準 制御装置編」という文書には、そのテキストデータ内に、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」、「4.その他」等が存在し、また、第2階層を表すタイトルとして、「2−1 CPU」、「2−2 メモリ」、「2−3 HDD」等が存在することが、表示画面上に表示される。従って、ユーザは、検索結果画面に表示された文書名とタイトルとを同時に参照することで、文書DBの中から所望の文書を見つけることがより容易になる。   Specifically, for example, it is assumed that a document is searched for a certain document DB using “device” as a search word. Then, for example, the search result screen illustrated in FIG. 12 may be displayed on the display screen of the display unit 130 of the information processing apparatus 10. Referring to FIG. 12, for example, in a document with the document name “standard control device related to purchase of device”, “1. Target device”, “2” as the title representing the first hierarchy in the text data. , “Selection Criteria Details”, “3. Notes”, “4. Others”, etc., and “2-1 CPU”, “2-2 Memory”, “2- 3 HDD ”and the like are displayed on the display screen. Therefore, the user can more easily find a desired document from the document DB by referring to the document name and title displayed on the search result screen at the same time.

<6.ハードウェア構成>
次に、図13を参照して、本発明の一実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図13は、本発明の一実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。
<6. Hardware configuration>
Next, the hardware configuration of the information processing apparatus 10 according to an embodiment of the present invention will be described in detail with reference to FIG. FIG. 13 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus 10 according to an embodiment of the present invention.

情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、バス907と、入力装置909と、出力装置911と、ストレージ装置913と、通信装置915と、ドライブ917と、接続ポート919とを備える。   The information processing apparatus 10 mainly includes a CPU 901, a ROM 903, and a RAM 905. The information processing apparatus 10 further includes a bus 907, an input device 909, an output device 911, a storage device 913, a communication device 915, a drive 917, and a connection port 919.

CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置913又はリムーバブル記憶媒体923に記録された各種プログラムに従って、情報処理装置10内の動作全般又はその一部を制御する。CPU901は、例えば、本実施形態においては、制御部140に対応する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化されるパラメータ等を一次記憶する。CPU901、ROM903及びRAM905は、CPUバス等の内部バスにより構成されるバス907により相互に接続されている。   The CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 913, or the removable storage medium 923. The CPU 901 corresponds to the control unit 140 in the present embodiment, for example. The ROM 903 stores programs used by the CPU 901, calculation parameters, and the like. The RAM 905 primarily stores programs used by the CPU 901, parameters that are appropriately changed during execution of the programs, and the like. The CPU 901, the ROM 903, and the RAM 905 are connected to each other by a bus 907 configured by an internal bus such as a CPU bus.

バス907は、例えばブリッジを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バスに接続されている。   The bus 907 is connected to an external bus such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge, for example.

入力装置909は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザが操作する操作手段である。また、入力装置909は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応したPDA等の外部接続機器925であってもよい。さらに、入力装置909は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置10のユーザは、この入力装置909を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。   The input device 909 is an operation unit operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever. Further, the input device 909 may be, for example, remote control means (so-called remote controller) using infrared rays or other radio waves, or may be an external connection device 925 such as a PDA corresponding to the operation of the information processing apparatus 10. May be. Further, the input device 909 includes an input control circuit that generates an input signal based on information input by the user using the above-described operation means and outputs the input signal to the CPU 901, for example. The user of the information processing apparatus 10 can input various data and instruct a processing operation to the information processing apparatus 10 by operating the input device 909.

出力装置911は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置、プリンタ装置等がある。出力装置911は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキスト又はイメージで表示するものであり、本実施形態においては、例えば図3に示す表示部130に対応する機能を有する。また、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。   The output device 911 is configured by a device capable of visually or audibly notifying acquired information to the user. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as lamps, audio output devices such as speakers and headphones, and printer devices. For example, the output device 911 outputs results obtained by various processes performed by the information processing device 10. Specifically, the display device displays results obtained by various processes performed by the information processing device 10 as text or images. In the present embodiment, for example, the display device 130 displays on the display unit 130 illustrated in FIG. Has a corresponding function. The audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs the analog signal.

ストレージ装置913は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置であり、本実施形態においては、例えば図3に示す記憶部120に対応する機能を有する。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。ストレージ装置913には、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等が格納される。例えば、本実施形態においては、ストレージ装置913は、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報、タイトル抽出処理の結果等の各種の情報を記憶することができる。   The storage device 913 is a data storage device configured as an example of a storage unit of the information processing apparatus 10, and has a function corresponding to, for example, the storage unit 120 illustrated in FIG. 3 in the present embodiment. The storage device 913 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device. The storage device 913 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like. For example, in the present embodiment, the storage device 913 stores various types of information such as document data to be subjected to title extraction processing, information on title patterns used in title extraction processing, and results of title extraction processing. Can do.

また、図3では明示しなかったが、本実施形態に係る情報処理装置10は、通信装置915、ドライブ917及び接続ポート919を更に有してもよい。   Although not explicitly shown in FIG. 3, the information processing apparatus 10 according to the present embodiment may further include a communication device 915, a drive 917, and a connection port 919.

通信装置915は、例えば、通信網921に接続するための通信デバイス等で構成された通信インターフェースである。通信装置915は、例えば、有線又は無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置915は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置915は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置915に接続される通信網921は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。   The communication device 915 is a communication interface configured with, for example, a communication device for connecting to the communication network 921. The communication device 915 is, for example, a communication card for a wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB). Further, the communication device 915 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like. The communication device 915 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet or other communication devices. In addition, the communication network 921 connected to the communication device 915 is configured by a wired or wireless network, and may be, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like. .

ドライブ917は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録されている情報を読み出して、RAM905に出力する。また、ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録を書き込むことも可能である。リムーバブル記憶媒体923は、例えば、CDメディア、DVDメディア、Blu−rayメディア等である。また、リムーバブル記憶媒体923は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記憶媒体923は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。   The drive 917 is a recording medium reader / writer, and is built in or externally attached to the information processing apparatus 10. The drive 917 reads information recorded on a removable storage medium 923 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 905. The drive 917 can also write a record to a removable storage medium 923 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory that is mounted. The removable storage medium 923 is, for example, a CD medium, a DVD medium, a Blu-ray medium, or the like. The removable storage medium 923 may be a compact flash (registered trademark) (Compact Flash: CF), a flash memory, an SD memory card (Secure Digital memory card), or the like. Further, the removable storage medium 923 may be, for example, an IC card (Integrated Circuit card) on which a non-contact IC chip is mounted, an electronic device, or the like.

接続ポート919は、機器を情報処理装置10に直接接続するためのポートである。接続ポート919の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート又はRS−232Cポート等がある。この接続ポート919に外部接続機器925を接続することにより、情報処理装置10は、外部接続機器925から直接各種のデータを取得したり、外部接続機器925に各種のデータを提供したりする。   The connection port 919 is a port for directly connecting a device to the information processing apparatus 10. Examples of the connection port 919 include a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or an RS-232C port. By connecting the external connection device 925 to the connection port 919, the information processing apparatus 10 acquires various data directly from the external connection device 925 or provides the external connection device 925 with various data.

なお、本実施形態では、図3に示す情報入力部110は、入力装置909、通信装置915、ドライブ917及び接続ポート919が有する情報入力機能を包括的に表現したものに対応する。つまり、<2.情報処理装置の構成>では、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターン等の各種の情報が、図3に示す情報入力部110を介して情報処理装置10に入力される実施例について説明したが、本実施形態における情報処理装置10への各種情報の入力方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンは、リムーバブル記憶媒体923からドライブ917を介して情報処理装置10に入力されてもよく、外部接続機器925から接続ポート919を介して情報処理装置10に入力されてもよい。また、例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報は、通信網921を介して配信され、通信装置915を介して情報処理装置10に入力されてもよい。   In the present embodiment, the information input unit 110 illustrated in FIG. 3 corresponds to a comprehensive representation of the information input functions of the input device 909, the communication device 915, the drive 917, and the connection port 919. That is, <2. In the configuration of the information processing apparatus>, various types of information such as document data to be subjected to title extraction processing and title patterns used in the title extraction processing are received via the information input unit 110 illustrated in FIG. However, the method of inputting various information to the information processing apparatus 10 in the present embodiment is not particularly limited, and any method may be used. For example, the document data to be subjected to the title extraction process and the title pattern used in the title extraction process may be input from the removable storage medium 923 to the information processing apparatus 10 via the drive 917 or from the external connection device 925. The information may be input to the information processing apparatus 10 via the connection port 919. Further, for example, document data to be subjected to title extraction processing and information on title patterns used in the title extraction processing are distributed via the communication network 921 and input to the information processing device 10 via the communication device 915. May be.

以上、本発明の実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。   Heretofore, an example of the hardware configuration capable of realizing the function of the information processing apparatus 10 according to the embodiment of the present invention has been shown. Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Therefore, it is possible to change the hardware configuration to be used as appropriate according to the technical level at the time of carrying out this embodiment.

なお、上述のような本実施形態に係る情報処理装置10の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。   Note that a computer program for realizing each function of the information processing apparatus 10 according to the present embodiment as described above can be produced and installed in a personal computer or the like. In addition, a computer-readable recording medium storing such a computer program can be provided. The recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like. Further, the above computer program may be distributed via a network, for example, without using a recording medium.

<7.まとめ>
以上説明したように、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、以下の効果が得られる。
<7. Summary>
As described above, in the information processing apparatus, title extraction method, and program according to the present embodiment, the following effects can be obtained.

本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかを判断することにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。   According to the information processing apparatus, the title extraction method, and the program according to the present embodiment, the title candidate extraction unit 142 selects a target document based on a title pattern that is a text pattern corresponding to a title representing the hierarchical structure of the document. Title candidates are extracted from the text data. Further, the title selection unit 143 selects a title from the extracted title candidates by performing a serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Accordingly, in the title extraction process, it is possible to more accurately extract a title indicating the hierarchical structure of a document from text data included in the document by determining whether the extracted title candidate is appropriate as a title. Become.

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。   Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, serial number check is performed for each title candidate having the same hierarchical information among the extracted title candidates. Also good. By performing the serial number check for each title candidate having the same hierarchical information, the processing procedure for the serial number check can be made simpler.

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。   Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, when serial number check is performed, it is information related to the position where the hierarchical structure is separated in the text data of the document. Separation information may be used. By performing the title selection process based on the delimiter information, the accuracy of the title extraction process can be further improved.

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックを行うタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。   Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, serial number check is performed for each title candidate having the same title pattern among the extracted title candidates. Also good. By performing the serial number check for each title candidate having the same title pattern, the processing procedure at the time of the serial number check can be made simpler. In addition, when performing serial number check for each title candidate having the same title pattern, the title corresponding to the title representing the hierarchical structure of the target document is selected from the title patterns based on the extracted title candidates. A pattern may be selected, and the serial number check may be performed only for title candidates having the title pattern. By selecting the title pattern corresponding to the title representing the hierarchical structure of the target document and performing the serial number check only for the title candidates having the title pattern, the number of title candidates to be serially checked can be reduced. It is possible to perform the serial number check more efficiently.

また、上述した、同一の階層情報を有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番や、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。   In addition, the order in which the serial number check is performed in the serial number check for the title candidates having the same hierarchical information described above, and the order in which the serial number check is performed in the serial number check for the title candidates having the same title pattern are as follows. It is not limited, and may be set as appropriate by the user according to the hierarchical structure, type, etc. of the document.

ここで、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。また、タイトル選択処理において、連番チェックに係る一連の処理の中で、タイトル候補の階層情報は、ユーザによって適宜変更されてもよい。例えば、タイトル選択処理においては、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。   Here, depending on the title pattern, the hierarchical information is not uniquely determined, and one title pattern may have a plurality of different hierarchical information. In that case, the hierarchical information of the title candidates extracted in the title candidate extraction process may be set as appropriate by the user. For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user can appropriately set the title pattern and its hierarchy information in advance according to the format of the target document. In the title selection process, the hierarchy information of the title candidates may be changed as appropriate by the user in a series of processes related to the serial number check. For example, in the title selection process, a serial number check is performed in a state where some hierarchical information is temporarily assigned to the title candidate, and a repeated serial number check is performed while performing a process of changing the hierarchical information as appropriate based on the result. It's okay.

更に、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、所望の文書を検索するシステムに対して好適に適用することができる。具体的には、ある文書データのDBに対する文書データの検索結果として、文書名とともに、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いて当該文書から抽出されたタイトルが階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザが文書の内容をより把握しやすくなるため、文書DBの中から所望の文書を見つけやすくなり、ユーザの利便性が向上する。   Furthermore, the information processing apparatus, title extraction method, and program according to the present embodiment can be suitably applied to, for example, a system that searches for a desired document from a DB that stores document data. Specifically, as a search result of document data with respect to a DB of certain document data, the title extracted from the document using the information processing apparatus, the title extraction method, and the program according to the present embodiment is displayed for each hierarchy together with the document name. May be displayed. In this way, since the title representing the hierarchical structure of the document is displayed together with the document name, it becomes easier for the user to understand the contents of the document. Improved convenience.

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。   The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.

10 情報処理装置
110 情報入力部
120 記憶部
130 表示部
140 制御部
141 文書読み込み部
142 タイトル候補抽出部
143 タイトル選択部
144 表示制御部
DESCRIPTION OF SYMBOLS 10 Information processing apparatus 110 Information input part 120 Storage part 130 Display part 140 Control part 141 Document reading part 142 Title candidate extraction part 143 Title selection part 144 Display control part

Claims (8)

文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、
前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、
を備えることを特徴とする、情報処理装置。
A title candidate extraction unit that extracts a title candidate that is a text pattern that is a candidate for a title from text data corresponding to the document based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document;
A title selection unit that selects the title from the title candidates by performing a serial number check that confirms the order of the title candidates based on order information that represents the order of the titles included in the title candidates When,
An information processing apparatus comprising:
前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有する
ことを特徴とする、請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the title pattern includes a plurality of different text patterns for each layer of the hierarchical structure.
前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行う
ことを特徴とする、請求項2に記載の情報処理装置。
The information processing apparatus according to claim 2, wherein the title selection unit performs the serial number check on the title candidates extracted for each hierarchy of the hierarchical structure.
前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行う
ことを特徴とする、請求項2又は3に記載の情報処理装置。
The information processing apparatus according to claim 2, wherein the title selection unit performs the serial number check on the title candidates extracted for each title pattern.
前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択する
ことを特徴とする、請求項4に記載の情報処理装置。
The information processing apparatus according to claim 4, wherein the title selection unit selects the title pattern corresponding to the title based on the title candidate extracted for each title pattern.
前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択する
ことを特徴とする、請求項1〜5のいずれか1項に記載の情報処理装置。
The title selection unit further uses delimiter information, which is information indicating a delimiter position of the hierarchy of the hierarchical structure of the document, and describes the position of the title candidate in the text data corresponding to the document, and the delimiter 6. The information processing apparatus according to claim 1, wherein the title is selected based on whether the information matches.
コンピュータが、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、
コンピュータが、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、
を含むことを特徴とする、タイトル抽出方法。
Computer, based on the title pattern is a text pattern corresponding to the title that represents the hierarchical structure of the document, the text data corresponding to the document, extracting a title candidate is a text pattern as a title candidate,
The computer selects the title from the title candidates by performing a serial number check for confirming the order of the title candidates based on order information representing the order of the titles included in the title candidates. Steps,
A method for extracting a title, comprising:
コンピュータに、
文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、
前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、
を実現させるためのプログラム。
On the computer,
A function for extracting a title candidate that is a text pattern that is a candidate for a title from text data corresponding to the document based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document;
A function of selecting the title from the title candidates by performing a serial number check for confirming the order of the title candidates based on order information representing the order of the titles included in the title candidates;
A program to realize
JP2012222186A 2012-10-04 2012-10-04 Information processing apparatus, title extraction method, and program Active JP5971069B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012222186A JP5971069B2 (en) 2012-10-04 2012-10-04 Information processing apparatus, title extraction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012222186A JP5971069B2 (en) 2012-10-04 2012-10-04 Information processing apparatus, title extraction method, and program

Publications (2)

Publication Number Publication Date
JP2014075032A JP2014075032A (en) 2014-04-24
JP5971069B2 true JP5971069B2 (en) 2016-08-17

Family

ID=50749148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012222186A Active JP5971069B2 (en) 2012-10-04 2012-10-04 Information processing apparatus, title extraction method, and program

Country Status (1)

Country Link
JP (1) JP5971069B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304574A (en) * 1988-06-02 1989-12-08 Nippon Telegr & Teleph Corp <Ntt> Index builder for table of contents
JPH08153101A (en) * 1994-11-29 1996-06-11 Meidensha Corp Proofreading method for japanese sentence
JPH09101959A (en) * 1995-10-04 1997-04-15 Hitachi Ltd Structured document generator
JPH11232439A (en) * 1998-02-16 1999-08-27 Toshinari Hayashi Document picture structure analysis method

Also Published As

Publication number Publication date
JP2014075032A (en) 2014-04-24

Similar Documents

Publication Publication Date Title
US9489372B2 (en) Web-based spell checker
JP4502615B2 (en) Similar sentence search device, similar sentence search method, and program
JP4832952B2 (en) Database analysis system, database analysis method and program
CN114297143A (en) File searching method, file displaying device and mobile terminal
JP5971069B2 (en) Information processing apparatus, title extraction method, and program
JP2018067264A (en) Data search program, data search device, and data search method
JP4734400B2 (en) Document search apparatus and program
JP6753190B2 (en) Document retrieval device and program
JP6805206B2 (en) Search word suggestion device, expression information creation method, and expression information creation program
JP5108642B2 (en) Use case scenario creation support system, use case scenario creation support method, and use case scenario creation support program
JP4985096B2 (en) Document analysis system, document analysis method, and computer program
JP7365446B2 (en) Method and system for performing reuse analysis for model lifecycle management
JP6703698B1 (en) Information provision system
WO2024047997A1 (en) Document analysis device and program for document analysis
JP2019008477A (en) Discrimination program, discrimination device and discrimination method
WO2023286340A1 (en) Information processing device and information processing method
JP6213305B2 (en) Information processing program, information processing apparatus, and information processing method
JP2010122792A (en) Apparatus for product name identification, and method and program thereof
JP5768561B2 (en) Input support program, input support apparatus, and input support method
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP2006023878A (en) Data extraction system
JP5741298B2 (en) Dictionary creation device, dictionary creation method, and program
JP5344649B2 (en) Character string conversion apparatus, character string conversion method, program, and recording medium
JP2015162170A (en) Information processing device, and control method
JP4612469B2 (en) Leakage source business investigation system and leakage source business investigation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R151 Written notification of patent or utility model registration

Ref document number: 5971069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350