JP5971069B2 - Information processing apparatus, title extraction method, and program - Google Patents
Information processing apparatus, title extraction method, and program Download PDFInfo
- Publication number
- JP5971069B2 JP5971069B2 JP2012222186A JP2012222186A JP5971069B2 JP 5971069 B2 JP5971069 B2 JP 5971069B2 JP 2012222186 A JP2012222186 A JP 2012222186A JP 2012222186 A JP2012222186 A JP 2012222186A JP 5971069 B2 JP5971069 B2 JP 5971069B2
- Authority
- JP
- Japan
- Prior art keywords
- title
- information
- document
- candidates
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、情報処理装置、タイトル抽出方法及びプログラムに関する。 The present invention relates to an information processing apparatus, a title extraction method, and a program.
近年、各種の文書を電子データの形式で保存することが一般的になっている。例えば、電子データ化された文書(文書データ)を保存してデータベース(DB)を作成することにより、文書の管理、閲覧、検索等を容易に行うことができる。 In recent years, it has become common to store various documents in the form of electronic data. For example, by storing an electronic document (document data) and creating a database (DB), it is possible to easily manage, view, search, etc. of the document.
一方、文書を電子データの形式で保存することが一般的になるにつれて、DBに蓄えられる文書データの量は爆発的に増加している。従って、DB内の膨大な量の文書データの中から、所望の文書データを検索することが困難になりつつある。例えば、ある単語を検索ワードとしてDB内の文書データを検索したとしても、検索結果として大量の文書名が表示されてしまうと、適切な文書を探し出せない可能性があった。 On the other hand, as it becomes common to store documents in the form of electronic data, the amount of document data stored in the DB has increased explosively. Therefore, it is becoming difficult to search for desired document data from a huge amount of document data in the DB. For example, even if document data in the DB is searched using a certain word as a search word, if a large number of document names are displayed as search results, an appropriate document may not be found.
このような状況を鑑みて、例えば装置マニュアルや論文のような階層構造を有する文書においては、文書の階層構造(文書内の章立て)を表すタイトルと、当該文書自身とを紐付けて一括的に管理する試みが行われている。ユーザは、タイトルを参照することにより、その文書の階層構造や文書の概要を把握することができるため、文書を検索する際の一助となり得る。 In view of such a situation, for example, in a document having a hierarchical structure such as a device manual or a paper, a title that represents the hierarchical structure of the document (chapter in the document) and the document itself are linked together. Attempts have been made to manage. By referring to the title, the user can grasp the hierarchical structure of the document and the outline of the document, which can be helpful when searching for the document.
しかし、従来、そのような文書の階層構造を表すタイトルに関する情報は、予め文書内にデータとして定義されておく必要があった。従って、例えば過去に発行された紙媒体の文書を電子データとして保存する場合など、比較的古い文書に対しては、タイトルに関する情報を新たに作成する必要があり、不便であった。 However, conventionally, information relating to titles representing the hierarchical structure of such documents has been required to be defined in advance in the document as data. Therefore, for example, when a paper document issued in the past is stored as electronic data, it is necessary to newly create information about a title for a relatively old document, which is inconvenient.
そこで、文書内のテキストデータから、文書の階層構造を表すタイトルを自動的に抽出する技術が開発されている。例えば、特許文献1には、文書内のテキストデータから、数字と文字の組み合わせに対応するテキストパターンをタイトルとみなして抽出する技術が開示されている。
Therefore, a technique for automatically extracting a title representing a hierarchical structure of a document from text data in the document has been developed. For example,
しかし、特許文献1に記載の技術では、文書のテキストデータ内に存在する数字と文字の組み合わせに対応するテキストパターンを全てタイトルとみなしてしまうため、本来はタイトルには該当しないテキストパターンも、誤ってタイトルとして抽出してしまうという問題があった。
However, in the technique described in
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能な、新規かつ改良された情報処理装置、タイトル抽出方法及びプログラムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to more accurately extract a title representing the hierarchical structure of a document from text data corresponding to the document. It is another object of the present invention to provide a new and improved information processing apparatus, title extraction method, and program.
上記課題を解決するために、本発明のある観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。 In order to solve the above-described problem, according to an aspect of the present invention, based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of a document, a candidate for a title is obtained from text data corresponding to the document. By performing a serial number check for confirming the order of the title candidates based on order information indicating the order of the titles included in the title candidates and a title candidate extraction unit that extracts title candidates that are text patterns A title selection unit that selects the title from the title candidates is provided. An information processing apparatus is provided.
また、前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有してもよい。 Further, the title pattern may have a plurality of different text patterns for each layer of the hierarchical structure.
また、前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。 The title selection unit may perform the serial number check on the title candidates extracted for each hierarchy of the hierarchical structure.
また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。 The title selection unit may perform the serial number check on the title candidates extracted for each of the title patterns.
また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択してもよい。 The title selection unit may select the title pattern corresponding to the title based on the title candidate extracted for each title pattern.
また、前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択してもよい。 Further, the title selection unit further uses delimiter information that is information indicating a delimitation position of the hierarchy of the hierarchical structure of the document, and a description position of the title candidate in text data corresponding to the document; The title may be selected based on whether the delimiter information matches.
また、上記課題を解決するために、本発明の別の観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、を含むことを特徴とする、タイトル抽出方法が提供される。 In order to solve the above problem, according to another aspect of the present invention, based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of a document, a title is obtained from text data corresponding to the document. Extracting a title candidate that is a text pattern that is a candidate for the title, and performing serial number check for confirming the order of the title candidates based on order information that represents the order of the titles included in the title candidates And a step of selecting the title from among the title candidates.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータに、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、を実現させるためのプログラムが提供される。 In order to solve the above-described problem, according to another aspect of the present invention, text data corresponding to a document is generated on a computer based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document. A serial number check for confirming the order of the title candidates based on order information indicating the order of the titles included in the title candidates, and a function for extracting title candidates that are text patterns that are candidate titles By doing so, a program for realizing the function of selecting the title from the title candidates is provided.
以上説明したように本発明によれば、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能になる。 As described above, according to the present invention, it is possible to more accurately extract a title representing a hierarchical structure of a document from text data corresponding to the document.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
<1.処理対象となる文書とタイトルパターン>
本発明の一実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、文書に対応するテキストデータから、文書の階層構造(文書内の章立て)を表すタイトルを抽出する処理(タイトル抽出処理)が行われる。文書からタイトルが抽出されることにより、ユーザは、当該タイトルを参照することで、当該文書の概要を把握することができる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出する処理は、文書を要約する処理に対応している。
<1. Documents and title patterns to be processed>
In the information processing apparatus, the title extraction method, and the program according to an embodiment of the present invention, a process (title extraction process) that extracts a title representing a hierarchical structure of a document (chapter in a document) from text data corresponding to the document ) Is performed. By extracting the title from the document, the user can grasp the outline of the document by referring to the title. That is, in the present embodiment, the process of extracting the title representing the hierarchical structure of the document from the text data corresponding to the document corresponds to the process of summarizing the document.
まず、図1を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいて、タイトル抽出処理の対象となる文書の構造例について説明する。図1は、本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。 First, with reference to FIG. 1, an example of the structure of a document that is a subject of title extraction processing in the information processing apparatus, title extraction method, and program according to the present embodiment will be described. FIG. 1 is a schematic diagram showing an example of the structure of a document to be subject to title extraction processing according to an embodiment of the present invention.
図1を参照すると、本実施形態に係るタイトル抽出処理の対象となる文書は、階層構造を有していてよい。ここで、以下の説明においては、文書内において、その文書の階層構造を表すテキストパターンのことをタイトルと呼ぶこととする。例えば、図1に示す文書のテキストデータには、階層構造における最上位の階層(第1階層)を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」のタイトルが含まれている。また、図1に示す文書のテキストデータには、第1階層の1つ下位に当たる階層(第2階層)を表すタイトルとして、例えば、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」のタイトルが含まれている。更に、図1に示す文書のテキストデータには、第2階層の1つ下位に当たる階層(第3階層)を表すタイトルとして、例えば、「I 測定時のトラブル」及び「II 校正時のトラブル」のタイトルが含まれている。 Referring to FIG. 1, a document that is a target of title extraction processing according to the present embodiment may have a hierarchical structure. Here, in the following description, a text pattern representing a hierarchical structure of a document in the document is referred to as a title. For example, in the text data of the document shown in FIG. 1, “1. Target device”, “2. Selection criteria details”, “3. "Notes" and "4. Other" titles are included. Further, in the text data of the document shown in FIG. 1, for example, “1-1 case”, “2-1 capacity”, “2” are given as titles representing a hierarchy (second hierarchy) that is one level lower than the first hierarchy. -2 Power Supply "and" 3-1 Past Cases "are included. Further, the text data of the document shown in FIG. 1 includes titles indicating a hierarchy (third hierarchy) one level lower than the second hierarchy, for example, “I measurement trouble” and “II calibration trouble”. The title is included.
ここで、タイトルに対応するテキストパターンを抽象的に表現すると、「数字、又は、順序を意味する記号」と「文字列」との組み合わせで表現することができる。以下の説明においては、このような、タイトルに対応するテキストパターンのことをタイトルパターンと呼ぶこととする。つまり、タイトルパターンは、例えば図2に示すように、「数字、又は、順序を意味する記号」と「文字列」との組み合わせであってよい。図2は、本実施形態に係るタイトルパターンを説明するための説明図である。 Here, when the text pattern corresponding to the title is expressed abstractly, it can be expressed by a combination of “numbers or symbols meaning order” and “character string”. In the following description, such a text pattern corresponding to a title is referred to as a title pattern. That is, the title pattern may be a combination of “a number or a symbol meaning an order” and a “character string” as shown in FIG. 2, for example. FIG. 2 is an explanatory diagram for explaining a title pattern according to the present embodiment.
図2を参照すると、「数字、又は、順序を意味する記号」の「数字」とは、例えば、アラビア数字(1、2、3、等)、丸囲み数字、ローマ数字(I、II、i、ii、等)等であってよい。なお、当該「数字」は、図2に示すものに限定されず、数の概念を表すものであれば他の数字であってもよい。 Referring to FIG. 2, “numerals” of “numerals or symbols meaning order” include, for example, Arabic numerals (1, 2, 3, etc.), circled numerals, Roman numerals (I, II, i). Ii, etc.). The “numbers” are not limited to those shown in FIG. 2 and may be other numbers as long as they represent the concept of numbers.
また、図2を参照すると、「数字、又は、順序を意味する記号」の「順序を意味する記号」とは、例えば、アルファベット(A、B、C、等)、仮名(あ、い、う、ア、イ、ウ、等)等であってよい。なお、当該「順序を意味する記号」は、図2に示すものに限定されず、順序の概念を表すものであれば他の記号であってもよい。 Referring to FIG. 2, “numbers or symbols meaning order” means “symbols meaning order”, for example, alphabet (A, B, C, etc.), kana (a, i, u). , A, i, c, etc.). Note that the “symbol indicating the order” is not limited to that shown in FIG. 2, and may be another symbol as long as it represents the concept of the order.
また、タイトルパターンにおける「文字列」は、例えば、文書内においてそのタイトルに該当するパートの内容を表す見出しであってよい。 In addition, the “character string” in the title pattern may be, for example, a heading representing the contents of the part corresponding to the title in the document.
ここで、以下の説明においては、タイトルの順序を表す情報のことを順序情報と呼ぶこととする。具体的には、例えば、順序情報は、タイトルパターンにおける「数字、又は、順序を意味する記号」のことである。 Here, in the following description, information indicating the order of titles is referred to as order information. Specifically, for example, the order information is “numbers or symbols indicating order” in the title pattern.
例えば、図1に示す文書におけるタイトル「1.対象となる機器」であれば、タイトルパターンにおける順序情報(「数字、又は、順序を意味する記号」)は「1」であり、タイトルパターンにおける「文字列」は「対象となる機器」である。また、例えば、図1に示す「1−1 ケース」であれば、タイトルパターンにおける順序情報は「1−1」であり、タイトルパターンにおける「文字列」は「ケース」である。 For example, in the case of the title “1. target device” in the document shown in FIG. 1, the order information in the title pattern (“number or symbol indicating order”) is “1”, and “ “Character string” is “target device”. For example, in the case of “1-1 case” illustrated in FIG. 1, the order information in the title pattern is “1-1”, and the “character string” in the title pattern is “case”.
また、順序情報は、例えば、「数字、又は、順序を意味する記号」を任意の文字コードに変換した情報であってもよい。例えば、図1に示す文書例では、タイトル「I 測定時のトラブル」の順序情報は「I」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「I」を表す「2D34」であってもよい。同様に、タイトル「II 校正時のトラブル」の順序情報は「II」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「II」を表す「2D35」であってもよい。このように、順序情報である「数字、又は、順序を意味する記号」を文字コードに変換することで、順序情報に関する情報処理、例えば後述するタイトル選択処理をより容易に行うことができる。また、互いに異なる書式で記載されている「数字、又は、順序を意味する記号」であっても、文字コードに変換することにより、同一の文字コード情報として扱うことができるため、表現の揺らぎを抑制することができる。なお、順序情報の変換に用いられる文字コードは規格「JIS X 0208」に限定されず、公知のあらゆる文字コードが用いられてよい。 Further, the order information may be information obtained by converting “numeric characters or symbols indicating order” into an arbitrary character code, for example. For example, in the document example shown in FIG. 1, the order information of the title “I trouble during measurement” may be “I”. For example, in the character code defined by the standard “JIS X 0208”, the “I” “2D34” may be used. Similarly, the order information of the title “II trouble during calibration” may be “II”, for example, “2D35” representing “II” in the character code defined by the standard “JIS X 0208”. May be. In this way, by converting “numbers or symbols meaning order”, which is order information, into character codes, information processing about order information, for example, title selection processing described later can be performed more easily. In addition, even if “numeric characters or symbols meaning order” are described in different formats, they can be handled as the same character code information by converting them into character codes. Can be suppressed. The character code used for converting the order information is not limited to the standard “JIS X 0208”, and any known character code may be used.
なお、図2には明示していないが、本実施形態に係るタイトルパターンにおいては、「数字、又は、順序を意味する記号」と「文字列」との間に、例えばピリオドやスペースのような区切りを示す記号が存在していてもよい。例えば、図1に示す「1.対象となる機器」や「1−1 ケース」であれば、「1」と「対象とする機器」との間に存在する「.(ピリオド)」や、「1−1」と「ケース」との間に存在する「 (スペース)」まで含めてタイトルパターンが構成されてよい。なお、以下の説明において、タイトルパターンについて記載する際には、これらの区切りを示す記号については記載を省略することがある。 Although not explicitly shown in FIG. 2, in the title pattern according to the present embodiment, for example, a period or a space is used between “a number or a symbol indicating an order” and “a character string”. There may be a symbol indicating a break. For example, in the case of “1. target device” or “1-1 case” shown in FIG. 1, “. (Period)” or “ The title pattern may be configured including “(space)” existing between “1-1” and “case”. In the following description, when a title pattern is described, description of symbols indicating these divisions may be omitted.
また、タイトルパターンは、そのタイトルパターンが、文書の階層構造のうち、どの階層に対応するものであるかを示す階層情報を有していてもよい。なお、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。 Further, the title pattern may have hierarchical information indicating which hierarchy the title pattern corresponds to in the hierarchical structure of the document. Note that which hierarchical information the title pattern has is not uniquely set for each title pattern, but may be appropriately set by the user according to the contents of the title pattern, the structure and type of the document, and the like.
例えば、階層情報は、タイトルパターンに含まれる順序情報の種類に基づいて設定されてよい。例えば、順序情報が「第1章」であるタイトルは第1階層に属するタイトルである可能性が高く、順序情報が「第1節」であるタイトルは第2階層に属するタイトルである可能性が高い。従って、ユーザは、例えば、「「第+N+章」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第1階層」という階層情報を設定してもよく、「「第+N+節」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第2階層」という階層情報を設定してもよい。
For example, the hierarchy information may be set based on the type of order information included in the title pattern. For example, a title whose order information is “
また、例えば、階層情報は、タイトルパターンの順序情報に含まれる、数字や順序を表す記号の個数に基づいて設定されてもよい。具体的には、例えば、「N+「−」+M+文字列」(N、Mは任意の自然数)のように、数字や順序を表す記号が2個(NとM)含まれるタイトルパターンには、「第2階層」という階層情報が設定されてもよい。また、例えば、「N+「−」+M+「−」+L+文字列」(N、M、Lは任意の自然数)のように、数字や順序を表す記号が3個(NとMとL)含まれるタイトルパターンには、「第3階層」という階層情報が設定されてもよい。 Further, for example, the hierarchy information may be set based on the number of symbols representing the numbers and the order included in the order information of the title pattern. Specifically, for example, a title pattern including two numbers (N and M) representing a number and an order such as “N +“ − ”+ M + character string” (N and M are arbitrary natural numbers) Hierarchy information “second hierarchy” may be set. Further, for example, three symbols (N, M, and L) representing numbers and orders are included, such as “N +“ − ”+ M +“ − ”+ L + character string” (N, M, and L are arbitrary natural numbers). Hierarchy information “third hierarchy” may be set in the title pattern.
また、タイトルパターンが有する階層情報は1つには限定されず、タイトルパターンが互いに異なる複数の階層情報を有してもよい。例えば、タイトルパターンの「数字、又は、順序を意味する記号」に含まれる数字や記号が1個である場合、タイトルパターンだけでは、階層情報を一意に定められない可能性が高い。この場合、1つのタイトルパターンが、「第K階層」(Kは任意の自然数)で表現される互いに異なる複数の階層情報を有していてもよい。 Moreover, the hierarchy information which a title pattern has is not limited to one, The title pattern may have several hierarchy information from which a title pattern mutually differs. For example, when there is only one number or symbol included in the “number or symbol indicating the order” of the title pattern, there is a high possibility that the hierarchical information cannot be uniquely determined only by the title pattern. In this case, one title pattern may have a plurality of different pieces of hierarchy information expressed by “Kth hierarchy” (K is an arbitrary natural number).
また、タイトルパターンが有する階層情報は、文書の種類や構造に基づいて、ユーザによって適宜設定されてもよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、投稿規定として、タイトルと階層情報とが一意に定められている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、タイトルパターンとその階層情報とを適切に設定することができる。 Further, the hierarchical information included in the title pattern may be set as appropriate by the user based on the type and structure of the document. For example, in the case of a document whose format is determined according to a posting (publication) magazine such as an academic paper, it is highly likely that a title and hierarchy information are uniquely defined as a posting rule. Therefore, the user can appropriately set the title pattern and its hierarchy information according to the format of the target document.
以上、図1及び図2を参照して、本実施形態に係るタイトル抽出処理の対象となる文書の一例、及び、タイトルパターンの構造例について説明した。なお、本実施形態に係るタイトル抽出処理の対象となる文書は、図1に示す例に限定されず、あらゆる文書が対象となってよい。また、タイトルパターンが有する順序情報は、図2に示す例に限定されず、数字や、順序を表す記号であれば、その種類は限定されず、各種の数字及び記号が順序情報として用いられてよい。 As described above, with reference to FIGS. 1 and 2, the example of the document that is the target of the title extraction process according to the present embodiment and the example of the title pattern structure have been described. Note that the document that is the target of the title extraction process according to the present embodiment is not limited to the example illustrated in FIG. 1, and may be any document. In addition, the order information included in the title pattern is not limited to the example shown in FIG. 2, and the number is not limited as long as it is a numeral or a symbol representing the order, and various numbers and symbols are used as the order information. Good.
<2.情報処理装置の構成>
次に、図3を参照して、本発明の一実施形態に係る情報処理装置の概略構成について説明する。図3は、本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。
<2. Configuration of information processing apparatus>
Next, a schematic configuration of the information processing apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 3 is a functional block diagram showing a configuration example of the information processing apparatus according to the embodiment of the present invention.
図3を参照すると、本実施形態に係る情報処理装置10は、情報入力部110、記憶部120、表示部130及び制御部140を備える。
Referring to FIG. 3, the
情報入力部110は、ユーザ(操作者)が情報処理装置10に対して、各種の情報や指示を入力するためのインターフェースの役割を有する。例えば、ユーザは、情報入力部110を介して、情報処理装置10に各種の文書データを入力することができる。また、ユーザは、情報入力部110を介して、情報処理装置10に文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンを入力することができる。なお、文書データやタイトルパターンを情報処理装置10に入力する方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、文書データやタイトルパターンは、リムーバブル記憶媒体や他の外部接続機器から情報処理装置10に入力されてもよいし、任意の情報網(ネットワーク)を介して配信されることにより情報処理装置10に入力されてもよい。
The
ここで、情報処理装置10に入力される文書は、例えば図1に示す文書であってよい。また、情報処理装置10に入力されるタイトルパターンは、例えば図2に示す構造を有するテキストパターンであってよい。なお、情報処理装置10に入力されるタイトルパターンは、想定され得る限りの種類の、互いに異なる複数のタイトルパターンであってよい。情報入力部110を介して入力された文書データ及びタイトルパターンは、例えば記憶部120に保存される。
Here, the document input to the
記憶部120は、本実施形態に係る情報処理装置10によって処理される各種の情報や、処理された結果を記憶するための記憶媒体の一例である。記憶部120は、例えば、本実施形態に係るタイトル抽出処理の対象となる文書データを記憶する。また、記憶部120は、例えば、本実施形態に係るタイトル抽出処理において用いられるタイトルパターンを記憶する。更に、記憶部120は、後述する制御部140によって行われる、タイトル抽出処理を含む各種の処理の結果を記憶してもよい。
The
表示部130は、各種の情報をユーザに対して視覚的に表示する機能を有する。表示部130は、記憶部120に保存されている各種の情報や、制御部140によって行われる各種処理の結果を、例えば、テキスト、表、グラフ等様々な形式で、その表示画面上に表示することができる。
The
制御部140は、情報処理装置10の動作を統合的に制御するとともに、対象とする文書データに対してタイトル抽出処理を行う。具体的には、制御部140は、対象とする文書内に含まれるテキストデータから、文書の階層構造を表すタイトルを抽出する処理を行う。以下、制御部140の機能及び構成について、詳細に説明する。
The
制御部140は、例えば、文書読み込み部141、タイトル候補抽出部142、タイトル選択部143及び表示制御部144を有する。
The
文書読み込み部141は、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。ここで、文書に対応するテキストデータとは、文書から図表等のデータを除いた、文書に含まれるテキストのデータのことを意味してよい。なお、文書読み込み部141がテキストデータを読み込む際の、テキストデータの区切り位置(センテンスの単位)を決定する方法は、特に限定されるものではなく、文書の種類等に応じて、ユーザによって適宜設定されてよい。例えば、文書読み込み部141は、テキストデータに含まれる改行位置や、句点が付された位置、あるいは、形態素解析の結果等に基づいて、当該テキストデータをセンテンスに区切ってもよい。文書読み込み部141は、テキストデータから読み込んだセンテンスを、タイトル候補抽出部142に送信する。
For example, the
タイトル候補抽出部142は、受信したセンテンスの中から、タイトル候補を抽出する(タイトル候補抽出処理)。具体的には、タイトル候補抽出部142は、例えば、センテンス内に含まれるテキストパターンと、記憶部120に記憶されているタイトルパターンを比較する(マッチングする)ことにより、当該センテンスの中からタイトル候補を抽出する。つまり、タイトル候補抽出部142は、センテンスの中から、タイトルパターンと合致するテキストパターンを見つけ出し、タイトル候補として抽出することができる。
The title
タイトル候補抽出部142は、抽出したタイトル候補を、タイトル選択部143に送信する。また、タイトル候補抽出部142は、抽出したタイトル候補を、記憶部120に保存してもよい。
The title
タイトル選択部143は、受信したタイトル候補の中から、文書の階層構造を表すタイトルを選択する(タイトル選択処理)。具体的には、タイトル選択部143は、タイトル候補に含まれる、タイトルの順序を表す順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、当該タイトル候補がタイトルかどうかを判断し、選択することができる。
The
ここで、文書の中からタイトル候補として抽出されたテキストパターンは、文書の階層構造を表すタイトルではない可能性がある。例えば、図1に示す文書例においては、地の文に含まれる「4.に示す・・・」や「4.5Vの・・・」といったテキストパターンが、テキスト候補として抽出される可能性がある。タイトル選択部143は、連番チェックを行うことにより、このようなノイズを除去し、テキスト候補の中から文書の階層構造を表すタイトルを選択することができる。
Here, the text pattern extracted as a title candidate from the document may not be a title representing the hierarchical structure of the document. For example, in the document example shown in FIG. 1, there is a possibility that text patterns such as “shown in 4.” and “4.5V ...” included in the local sentence are extracted as text candidates. is there. The
タイトル選択部143は、選択したタイトルを、表示制御部144に送信する。また、タイトル選択部143は、選択したタイトルを、記憶部120に記憶してもよい。
The
なお、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で詳しく説明する。
The functions and configurations of the title
表示制御部144は、タイトル選択部143によって選択されたタイトルに関する情報を、対象としている文書のタイトル抽出処理結果として、表示部130に表示する制御を行う。例えば、表示制御部144は、表示部130の表示画面に、タイトル抽出処理を行った文書名と、当該文書の階層構造を表すタイトルと、当該タイトルの階層情報とを互いに関連付けて表示させてもよい。
The
以上、図3を参照して、本実施形態に係る情報処理装置の機能の一例、特に制御部140の機能の一例について詳細に示した。なお、情報処理装置10の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、制御部140については、各構成要素の機能を、CPU(Central Processing Unit)等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
The example of the function of the information processing apparatus according to the present embodiment, particularly the example of the function of the
なお、情報処理装置10のハードウェア構成については、<6.ハードウェア構成>で詳しく説明する。
Note that the hardware configuration of the
以上説明したように、本実施形態に係る情報処理装置10においては、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において抽出されたタイトル候補について、タイトルとして適切かどうかの判断がなされることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
As described above, in the
<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>
次に、図3に示すタイトル候補抽出部142及びタイトル選択部143の機能及び構成について、より詳細に説明する。なお、以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明においては、処理対象とする文書の一例として、図1に示す文書に対してタイトル抽出処理を行う場合について説明する。
<3. Functions and configuration of title candidate extraction unit and title selection unit>
Next, functions and configurations of the title
[3.1.タイトル候補抽出処理]
まず、図4を参照して、タイトル候補抽出部142によって行われる、タイトル候補抽出処理について説明する。図4は、タイトル候補の抽出結果の一例を示す概略図である。
[3.1. Title candidate extraction process]
First, the title candidate extraction process performed by the title
上記<2.情報処理装置の構成>で説明したように、タイトル候補抽出部142は、例えばセンテンスごとに読み込まれたテキストデータと、タイトルパターンとをマッチングすることにより、タイトルパターンと合致するテキストパターンを、タイトル候補として抽出する。そして、タイトル候補抽出部142は、抽出したタイトル候補を、例えば図4に示すように、表(リスト)の形式で整理する。
<2. As described in the configuration of the information processing apparatus, the title
図4を参照すると、例えば、抽出されたタイトル候補は、記載番号、タイトルパターン、階層情報及び順序情報と関連付けられて整理される。記載番号は、対象としている文書のテキストデータ内において、抽出されたタイトル候補が記載されている順番を示している。また、タイトルパターンは、抽出されたタイトル候補と合致したタイトルパターンを示している。また、階層情報は、当該タイトルパターンに対応する階層情報を示している。更に、順序情報は、当該タイトル候補に含まれる順序情報を示している。 Referring to FIG. 4, for example, the extracted title candidates are arranged in association with the description number, title pattern, hierarchy information, and order information. The description number indicates the order in which the extracted title candidates are described in the text data of the target document. The title pattern indicates a title pattern that matches the extracted title candidate. The hierarchy information indicates the hierarchy information corresponding to the title pattern. Further, the order information indicates the order information included in the title candidate.
なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明では、タイトル候補抽出処理及びタイトル選択処理の一実施例として、各タイトルパターンが、図4に示す階層情報を有する場合について説明することとする。 In addition, <1. As described above with respect to the document to be processed and the title pattern>, what hierarchical information the title pattern has is not uniquely set for each title pattern, but the contents of the title pattern, the structure and type of the document, etc. Depending on the case, it may be set appropriately by the user. The following [3.1. Title candidate extraction process] and [3.2. In the description of [Title Selection Processing], a case where each title pattern has the hierarchical information shown in FIG. 4 will be described as an example of the title candidate extraction processing and title selection processing.
図1を参照しながら、タイトル候補抽出部142が行う処理について、より具体的に説明する。タイトル候補抽出部142は、例えば図1に示す文書のテキストデータに対して、テキストデータの先頭から順に、センテンス単位で、タイトルパターンとのマッチング処理を行っていく。すると、例えば、タイトル候補抽出部142は、「1.対象となる機器」というテキストパターンが、「N+「.」+文字列」というタイトルパターンと合致することを見い出す。ここで、Nは任意の自然数であってよい。
The processing performed by the title
従って、タイトル候補抽出部142は、当該「1.対象となる機器」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、抽出したタイトル候補である「1.対象となる機器」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1.対象となる機器」は、対象としている文書のテキストデータ内において、記載順において最初に抽出されたタイトル候補であるため、その記載番号は「1」となる。また、例えば、マッチングが行われた「N+「.」+文字列」というタイトルパターンの階層情報は「第1階層」であり、タイトル候補「1.対象となる機器」の順序情報は「N=1」である。
Therefore, the title
「1.対象となる機器」をタイトル候補として抽出した後、タイトル候補抽出部142は、後続のテキストデータに対して、タイトルパターンとのマッチング処理を継続する。すると、例えば、タイトル候補抽出部142は、「1−1 ケース」というテキストパターンが、「N+「−」+M+文字列」というタイトルパターンと合致することを見い出す。ここで、N及びMは任意の自然数であってよい。
After extracting “1. target device” as a title candidate, the title
従って、タイトル候補抽出部142は、当該「1−1 ケース」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、先ほどと同様に、抽出したタイトル候補である「1−1 ケース」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1−1 ケース」は、対象としている文書のテキストデータ内において、記載順において2番目に抽出されたタイトル候補であるため、その記載番号は「2」となる。また、例えば、マッチングが行われた「N+「−」+M+文字列」というタイトルパターンの階層情報は「第2階層」であり、タイトル候補「1−1 ケース」の順序情報は「N=1、M=1」である。
Therefore, the title
タイトル候補抽出部142は、対象としている文書のテキストデータが終了するまで、以上説明した内容と同様の処理を繰り返す。その結果、例えば図4に示すタイトル候補の抽出結果を得ることができる。
The title
なお、タイトル候補抽出処理においては、1つのタイトル候補が、互いに異なる複数のタイトルパターンと合致する、すなわち、1つのタイトル候補が重複して抽出されてもよい。例えば、図4に示すタイトル候補の例では、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、タイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」の両方と合致する。また、これらのタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」は、例えば、互いに異なる階層情報を有し、「N+「.」+文字列」の階層情報は「第1階層」であり、「N+「.」+M+文字列」の階層情報は「第2階層」である。従って、例えば図4に示すように、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、互いに異なるタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」と、互いに異なる階層情報「第1階層」及び「第2階層」と、関連付けて整理されてよい。 In the title candidate extraction process, one title candidate matches a plurality of different title patterns, that is, one title candidate may be extracted in duplicate. For example, in the example of the title candidate shown in FIG. 4, the title candidates “5.0V is...” And “4.5V is. . ”+ M + character string”. Further, these title patterns “N +“. ”+ Character string” and “N +“. ”+ M + character string” have, for example, different hierarchical information, and the hierarchical information of “N +“. ”+ Character string” is The hierarchy information of “first hierarchy” and “N +“. ”+ M + character string” is “second hierarchy”. Therefore, for example, as shown in FIG. 4, the title candidates “5.0V is ...” and “4.5V ...” have different title patterns “N +“. ”+ Character string” and “N +“ . ”+ M + character string” and different hierarchy information “first hierarchy” and “second hierarchy” may be associated with each other.
なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有し得る場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。 In addition, <1. As described above in Documents and Title Patterns to be Processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. . In that case, the hierarchical information of the title candidates extracted in the title candidate extraction process may be set as appropriate by the user. For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user can appropriately set the title pattern and its hierarchy information in advance according to the format of the target document.
[3.2.タイトル選択処理]
次に、図5A、B、図6A、B及び図7A、Bを参照して、タイトル選択部143によって行われる、タイトル選択処理について説明する。
[3.2. Title selection process]
Next, the title selection process performed by the
本実施形態に係るタイトル選択処理においては、タイトル選択部143が、タイトル候補抽出部142によって抽出されたタイトル候補に対して連番チェックを行う。連番チェックとは、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する処理のことを言う。
In the title selection process according to the present embodiment, the
なお、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよい。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、タイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。
Note that the range of candidate titles for serial number check is not particularly limited, and may be set as appropriate by the user. For example, the serial number check may be performed on all title candidates extracted from the target document as shown in FIG. Further, for example, the serial number check may be performed on title candidates having the same hierarchy information by reorganizing the title candidates extracted by the title
対象とする文書から抽出された全タイトル候補に対して連番チェックが行われる場合には、互いに異なるタイトルパターンや階層情報を有するタイトル候補に対して連番チェックが行われるため、その処理手順が比較的複雑なものになる可能性がある。一方、例えば同一の階層情報を有するタイトル候補や、同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、タイトルパターンや階層情報が統一されているため、その処理手順を比較的簡便なものとすることができる。 When serial number checking is performed on all title candidates extracted from the target document, serial number checking is performed on title candidates having different title patterns and hierarchical information. Can be relatively complex. On the other hand, for example, when a serial number check is performed on a title candidate having the same hierarchy information or a title candidate having the same title pattern, the title pattern and hierarchy information are unified, so the processing procedure is as follows. It can be made relatively simple.
(同一の階層情報を有するタイトル候補に対する連番チェック)
まず、図5A、B及び図6A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補を階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明する。図5A、Bは、階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。また、図6A、Bは、階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。ここで、図5A、B及び図6A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4に示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
(Serial number check for title candidates with the same hierarchy information)
First, referring to FIGS. 5A and 5B and FIGS. 6A and 6B, the title candidates extracted by the title
同一の階層情報を有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、階層情報ごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトル候補のみを抜き出したものを図5Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトル候補のみを抜き出したものを図6Aに示す。 In the method of serial number check for title candidates having the same hierarchy information, first, the process of rearranging all title candidates extracted from the target document shown in FIG. 4 for each hierarchy information is performed. Is called. For example, FIG. 5A shows only title candidates whose hierarchy information is the second hierarchy from all title candidates extracted from the target document shown in FIG. Similarly, FIG. 6A shows, for example, only title candidates whose hierarchy information is the first hierarchy extracted from all title candidates extracted from the target document shown in FIG.
次に、図5Aに示す、階層情報が第2階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、具体的には、例えば図5Aに示す順序情報に基づいて、タイトル候補の順序を表すN、M(N、Mは任意の自然数)が連番になっているかどうかが判断される。具体的には、連番チェックでは、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。 Next, a serial number check is performed on the title candidates whose hierarchy information is the second hierarchy shown in FIG. 5A. Specifically, in the serial number check, for example, based on the order information shown in FIG. 5A, it is determined whether N and M (N and M are arbitrary natural numbers) representing the order of the title candidates are serial numbers. The Specifically, in the serial number check, it is determined whether or not the title candidate selected as the title immediately before and the order information are in order of the description numbers.
より具体的には、第2階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n、M=m」(n、mは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n、M=m+1」又は「N=n+1、M=1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n、M=m」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が、「N=n、M=m+1」又は「N=n+1、M=1」を満たす場合に、当該チェック対象であるタイトル候補をタイトルとして選択する。
More specifically, regarding the title representing the second hierarchy, when the order information of a certain title is “N = n, M = m” (n and m are arbitrary natural numbers), the title is described next to the title. There is a high possibility that the order information of the titles “N = n, M = m + 1” or “N = n + 1, M = 1”. Therefore, the
例えば、図5Aを参照すると、階層情報が第2階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1−1 ケース」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=1、M=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1−1 ケース」を、タイトルとして選択する。
For example, referring to FIG. 5A, among title candidates whose hierarchy information is the second hierarchy, the title candidate with the smallest description number is “1-1 case”, and the title pattern is “N +“ − ”+ M +. The “character string” and its order information are “N = 1, M = 1”. First, the
上述したように、タイトル候補「1−1 ケース」の次に記載されるタイトルの順序情報は、「N=1、M=2」(すなわち、「1−2 ・・・」等)又は「N=2、M=1」(すなわち、「2−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=1、M=2」又は「N=2、M=1」になっているかどうかをチェックする。
As described above, the order information of the title described after the title candidate “1-1 case” is “N = 1, M = 2” (that is, “1-2...”) Or “N”. = 2 and M = 1 ”(that is,“ 2-1... ”And the like). Accordingly, the
図5Aに示す実施例においては、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補は、「2−1 容量」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=2、M=1」である。タイトル候補「2−1 容量」の順序情報「N=2、M=1」は、上記「N=1、M=2」又は「N=2、M=1」に含まれるため、タイトル選択部143は、当該タイトル候補「2−1 容量」をタイトルとして選択する。 In the example shown in FIG. 5A, the title candidate with the next smallest number after the title candidate “1-1 case” is “2-1 capacity”, and the title pattern is “N +“ − ”+ M + character string”. The order information is “N = 2, M = 1”. The order information “N = 2, M = 1” of the title candidate “2-1 capacity” is included in the above “N = 1, M = 2” or “N = 2, M = 1”. In step S143, the title candidate “2-1 capacity” is selected as a title.
同様に、タイトル候補「2−1 容量」の次に記載されるタイトルの順序情報は、「N=2、M=2」(すなわち、「2−2 ・・・」等)又は「N=3、M=1」(すなわち、「3−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2、M=2」又は「N=3、M=1」になっているかどうかをチェックする。
Similarly, the title order information described next to the title candidate “2-1 capacity” is “N = 2, M = 2” (that is, “2-2...”, Etc.) or “N = 3”. , M = 1 ”(that is,“ 3-1... ”, Etc.). Accordingly, the
図5Aに示す実施例においては、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補は、「5.0Vが・・・」であり、そのタイトルパターンは「N+「.」+M+文字列」、その順序情報は「N=3、M=5」である。タイトル候補「5.0Vが・・・」の順序情報「N=3、M=5」は、上記「N=2、M=2」又は「N=3、M=1」に含まれないため、タイトル選択部143は、当該タイトル候補「5.0Vが・・・」は、タイトルではないとみなす。
In the embodiment shown in FIG. 5A, the title candidate with the next smallest number after the title candidate “2-1 capacity” is “5.0V is...”, And the title pattern is “N +“. ”+ M + The character string ”and its order information are“ N = 3, M = 5 ”. The order information “N = 3, M = 5” of the title candidate “5.0V is ...” is not included in the above “N = 2, M = 2” or “N = 3, M = 1”. The
以下同様に、例えば図5Aに示す、階層情報が第2階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図5Bに示すように、連番チェックの結果、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、文書の第2階層を表すタイトルとして選択される。 Similarly, for the title candidate whose hierarchy information is the second hierarchy shown in FIG. 5A, for example, it is determined whether the title candidate selected as the title immediately before and the order information are in order of the description number. For example, as shown in FIG. 5B, as a result of the serial number check, “1-1 case”, “2-1 capacity”, “2-2 power supply”, and “3-1 past case” It is selected as a title representing two layers.
階層情報が第2階層であるタイトル候補についての連番チェックが終わったら、次に、例えば図6Aに示す、階層情報が第1階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、階層情報が第2階層であるタイトル候補と同様に、階層情報が第1階層であるタイトル候補に対して、タイトル候補の順序を表すN(Nはタイトルパターンに対応する、任意の自然数)が連番になっているかどうかが判断される。 When the serial number check for the title candidate whose hierarchical information is the second hierarchy is completed, the serial number check is performed on the title candidate whose hierarchical information is the first hierarchy as shown in FIG. 6A, for example. In the sequential number check, as with title candidates whose hierarchical information is the second hierarchy, N (N is an arbitrary number corresponding to the title pattern) indicating the order of the title candidates for the title candidates whose hierarchical information is the first hierarchy. It is determined whether the natural number) is a sequential number.
具体的には、第1階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n」(nは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n+1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が「N=n+1」を満たす場合には、当該チェック対象であるタイトル候補をタイトルとして選択することができる。
Specifically, regarding the title representing the first hierarchy, when the order information of a certain title is “N = n” (n is an arbitrary natural number), the order information of the title described next to the title is: There is a high possibility that “N = n + 1”. Accordingly, the
例えば、図6Aを参照すると、階層情報が第1階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1.対象となる機器」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1.対象となる機器」を、タイトルとして選択する。
For example, referring to FIG. 6A, the title candidate with the smallest description number among the title candidates whose hierarchy information is the first hierarchy is “1. target device”, and the title pattern is “N +“. “+ Character string”, the order information is “N = 1”. First, the
上述したように、タイトル候補「1.対象となる機器」の次に記載されるタイトルの順序情報は、「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。
As described above, there is a high possibility that the title order information described next to the title candidate “1. target device” is “N = 2” (that is, “2....”, Etc.). . Therefore, the
図6Aに示す実施例においては、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補は、「4.に示す・・・」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=4」である。タイトル候補「4.に示す・・・」の順序情報「N=4」は、上記「N=2」とは異なるため、タイトル選択部143は、当該タイトル候補「4.に示す・・・」は、第1階層を表すタイトルではないとみなす。
In the embodiment shown in FIG. 6A, the title candidate with the next smallest number after the title candidate “1. Target device” is “shown in 4.”, and its title pattern is “N +“. “+ Character string”, the order information is “N = 4”. Since the order information “N = 4” of the title candidate “4 ....” is different from the above “N = 2”, the
タイトル候補「4.に示す・・・」が第1階層を表すタイトルとして選択されなかったため、「4.に示す・・・」の次に記載されるタイトルの順序情報は、直前に選択されたタイトルである「1.対象となる機器」の順序番号に連続する値、すなわち「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。
Since the title candidate “shown in 4.” was not selected as the title representing the first hierarchy, the order information of the title described next to “shown in 4.” was selected immediately before There is a high possibility that it is a value consecutive to the sequence number of the title “1. Target device”, that is, “N = 2” (ie, “2....”, Etc.). Therefore, the
図6Aに示す実施例においては、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補は、「2.選定基準詳細」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=2」である。タイトル候補「2.選定基準詳細」の順序情報「N=2」は、上記「N=2」に該当するため、タイトル選択部143は、当該タイトル候補「2.選定基準詳細」をタイトルとして選択することができる。
In the example shown in FIG. 6A, the title candidate with the next smallest number after the title candidate “shown in 4.” is “2. Selection criteria details”, and the title pattern is “N +“. ”. + Character string ”, and the order information is“ N = 2 ”. Since the order information “N = 2” of the title candidate “2. Selection criteria details” corresponds to the above “N = 2”, the
以下同様に、例えば図6Aに示す階層情報が第1階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択したタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図6Bに示すように、連番チェックの結果、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が、タイトルとして選択される。 Similarly, for example, for a title candidate whose hierarchical information shown in FIG. 6A is the first hierarchical level, it is determined whether or not the title candidate selected immediately before as the title and the sequential information are consecutive in the order of the description numbers. Then, for example, as shown in FIG. 6B, as a result of the serial number check, “1. Target device”, “2. Details of selection criteria”, “3. Notes” and “4. Others” are selected as titles. Is done.
ここで、上記の連番チェックの説明においては、連番チェックの際に順序情報のみを用いる方法について説明したが、本実施形態に係るタイトル選択処理においては、連番チェックを行う際に、文書の階層構造における階層の区切り位置を示す情報である区切り情報を更に用いて連番チェックが行われてもよい。具体的には、区切り情報とは、文書のテキストデータから抽出されたタイトル候補に対して、記載番号を基準として、どのタイトル候補とどのタイトル候補との間に階層の区切り位置が存在するかを示す情報であってよい。 Here, in the description of the serial number check described above, the method of using only the order information at the time of serial number check has been described. However, in the title selection process according to the present embodiment, when performing the serial number check, The serial number check may be performed by further using delimiter information that is information indicating a delimiter position of the hierarchy in the hierarchical structure. Specifically, the delimiter information is a list of title candidates extracted from text data of a document, which title candidate and which title candidate has a hierarchy delimiter position based on the description number. It may be the information shown.
より具体的には、タイトル選択部143は、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行うことができる。以下、図5A、B及び図6A、Bを参照して、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明する。
More specifically, the
例えば、上述したように、図5A、Bに示す実施例においては、階層情報が第2階層であるタイトル候補に対する連番チェックの結果として、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、タイトルとして選択される。ここで、タイトル「1−1 ケース」の記載番号は「2」であり、タイトル「2−1 容量」の記載番号は「5」である。従って、第1階層を表すタイトル候補の中で「N=2」に相当する順序番号を有するタイトルは、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在する可能性が高い。よって、タイトル選択部143は、階層情報が第2階層であるタイトル候補についての連番チェックの結果に基づいて、区切り情報として、例えば「N=2」に相当する順序番号を有する第1階層を表すタイトルが、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在するという情報を取得することができる。
For example, as described above, in the embodiment shown in FIGS. 5A and 5B, as a result of serial number check for title candidates whose hierarchy information is the second hierarchy, “1-1 case”, “2-1 capacity”, “2-2 Power supply” and “3-1 Past cases” are selected as titles. Here, the description number of the title “1-1 case” is “2”, and the description number of the title “2-1 capacity” is “5”. Therefore, the title having the order number corresponding to “N = 2” among the title candidates representing the first hierarchy is between the description number “2” and the description number “5”, that is, in the section A shown in FIG. 6A. It is likely to exist. Therefore, the
タイトル選択部143は、同様に、区切り情報として、例えば「N=3」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Bに存在するという情報、及び「N=4」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Cに存在するという情報を取得することができる。
Similarly, the
そして、タイトル選択部143は、階層情報が第1階層であるタイトル候補に対して連番チェックを行う際に、もしも順序情報が連番になっていても、順序情報であるNの値が区切り情報と整合していなければ、当該タイトル候補を、第1階層を表すタイトルではないとみなしてもよい。換言すれば、タイトル選択部143は、順序情報と区切り情報の両方に基づいて、連番チェックを行ってもよい。
When the
このように、順序情報と区切り情報の両方に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。なお、上記の説明では、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。区切り情報は、任意の階層情報を有するタイトル候補に対する連番チェックの際に取得されてもよく、また、区切り情報が用いられる連番チェックも、任意の階層情報を有するタイトル候補に対して行われてもよい。
Thus, the accuracy of the title extraction process can be further improved by performing the title selection process based on both the order information and the delimiter information. In the above description, the
(同一のタイトルパターンを有するタイトル候補に対する連番チェック)
次に、図7A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補をタイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法について説明する。図7A、Bは、同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。ここで、図7A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4、図5A、B及び図6A、Bに示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
(Serial number check for title candidates with the same title pattern)
Next, referring to FIGS. 7A and 7B, a method of reordering the title candidates extracted by the title
同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、タイトルパターンごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Bに示す。 In the method of performing serial number check for title candidates having the same title pattern, first, the process of rearranging all title candidates extracted from the target document shown in FIG. 4 for each title pattern is performed. Is called. For example, FIG. 7A shows only title candidates having title patterns whose hierarchy information is the first hierarchy from all title candidates extracted from the target document shown in FIG. 4, and arranged for each title pattern. . Similarly, for example, only title candidates having title patterns whose hierarchical information is the second hierarchy are extracted from all title candidates extracted from the target document shown in FIG. 4 and arranged for each title pattern. Shown in 7B.
例えば、図7Aを参照すると、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補として「I 測定時のトラブル」及び「II 校正時のトラブル」が抽出されている。タイトル選択部143は、これら「I 測定時のトラブル」及び「II 校正時のトラブル」に対して連番チェックを行うことができる。
For example, referring to FIG. 7A, “I measurement trouble” and “II calibration trouble” are extracted as title candidates of the title pattern “N (Roman numeral) + character string”. The
上述したように、順序情報「I」、「II」は、例えば規格「JIS X 0208」で定められる文字コードにおいて、それぞれ、「2D34」、「2D35」で表現される。従って、タイトル選択部143は、「I 測定時のトラブル」及び「II 校正時のトラブル」に対する連番チェックとして、これら「2D34」、「2D35」が連続しているかどうかを判断してもよい。図7Aに示す実施例においては、順序情報「I」、「II」に対応する文字コード「2D34」、「2D35」は、連続しているので、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」をタイトルとして選択することができる。
As described above, the order information “I” and “II” are expressed by “2D34” and “2D35”, respectively, in the character code defined by the standard “JIS X 0208”, for example. Therefore, the
同じく、図7Aを参照すると、タイトルパターン「N+「.」+文字列」のタイトル候補として「1.対象となる機器」、「4.に示す・・・」、「2.選定基準」、「5.0Vが・・・」、「4.5Vの・・・」、「3.注意事項」及び「4.その他」が抽出されている。タイトル選択部143は、これらのタイトル候補の順序情報(タイトルパターン「N+「.」+文字列」のNに対応する数字)が連続しているかどうかを判断することにより、これらのタイトル候補の中から、タイトルを選択することができる。具体的には、タイトル選択部143は、連番チェックの結果から、「1.対象となる機器」、「2.選定基準」、「3.注意事項」及び「4.その他」をタイトルとして選択することができる。
Similarly, referring to FIG. 7A, as title candidates of the title pattern “N +“. ”+ Character string”, “1. target device”, “shown in 4 ....”, “2. selection criteria”, “ "5.0V is ...", "4.5V ...", "3. Notes" and "4. Others" are extracted. The
タイトル選択部143は、同様に、例えば図7A、Bに示す他のタイトル候補についても、タイトルパターンごとに連番チェックを行うことにより、タイトルを選択することができる。
Similarly, the
更に、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、タイトル選択部143は、文書のテキストデータから抽出されたタイトル候補に基づいて、当該文書の階層構造を表すタイトルに対応するタイトルパターンを選択してもよい。例えば、ある文書内におけるタイトルにおいては、同一の階層を表すタイトルであれば、同一のタイトルパターンが用いられる可能性が高い。従って、タイトル選択部143は、例えば、タイトル候補がより多く抽出されているタイトルパターンが、当該階層を表すタイトルに対応するタイトルパターンであると判断してもよい。
Furthermore, in the method of performing serial number check on title candidates having the same title pattern, the
例えば、図7Bに示す実施例においては、階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「.」+M+文字列」である、「5.0Vが・・・」及び「4.5Vの・・・」が抽出されている。また、同じく階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「−」+M+文字列」である、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が抽出されている。 For example, in the example shown in FIG. 7B, the title pattern is “N +“. ”+ M + character string”, “5.0V is... “4.5V...” Is extracted. Similarly, as title candidates whose hierarchy information is “second hierarchy”, the title pattern is “N +“ − ”+ M + character string”, “1-1 case”, “2-1 capacity”, “2-2” "Power supply" and "3-1 Past cases" are extracted.
これらのタイトル候補を比較すると、タイトルパターン「N+「−」+M+文字列」の方が、より多くのタイトル候補が抽出されている。これは、つまり、対象としている文書のテキストデータ内に、「N+「−」+M+文字列」に合致するテキストパターンが、「N+「.」+M+文字列」に合致するテキストパターンよりも、より頻繁に出現していることを表している。従って、タイトル選択部143は、例えば、当該文書の第2階層を表すタイトルパターンは「N+「−」+M+文字列」であると判断することができる。同様に、タイトル選択部143は、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補と、タイトルパターン「N+「.」+文字列」のタイトル候補とを比較することにより、例えば、当該文書の第1階層を表すタイトルパターンは「N+「.」+文字列」であると判断することができる。
When comparing these title candidates, more title candidates are extracted for the title pattern “N +“ − ”+ M + character string”. This means that the text pattern matching “N +“ − ”+ M + character string” in the text data of the target document is more frequent than the text pattern matching “N +“. ”+ M + character string”. It is appearing in. Therefore, for example, the
更に、タイトル選択部143は、当該文書の階層構造を表すタイトルに対応するとして選択したタイトルパターン以外のタイトルパターンによって抽出されたタイトル候補に対しては、連番チェックを行わなくてもよい。例えば、タイトル選択部143は、当該文書の第2階層を表すタイトルパターンが「N+「−」+M+文字列」であると判断した場合には、当該文書の第2階層を表すタイトル候補に対する連番チェックは、当該タイトルパターン「N+「−」+M+文字列」に合致するタイトル候補に対してのみ行えばよく、他のタイトル候補に対しては連番チェックを行わなくてもよい。つまり、タイトル選択部143は、全てのタイトル候補に対して連番チェック行わなくてもよく、連番チェックを行うタイトルパターンを選択してもよい。タイトル選択部143が、全てのタイトル候補に対して連番チェックを行わないことにより、タイトル選択処理における情報処理量を削減することができ、タイトル抽出処理の効率化を図ることができる。
Furthermore, the
以上、図4、図5A、B、図6A、B及び図7A、Bを参照して説明したように、本実施形態に係るタイトル候補抽出処理においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。 As described above with reference to FIGS. 4, 5A and B, FIGS. 6A and B, and FIGS. 7A and B, the title candidate extraction processing according to the present embodiment corresponds to titles representing the hierarchical structure of the document. Based on the title pattern, which is a text pattern, title candidates are extracted from the text data of the target document. In the title selection process according to the present embodiment, a title is selected from the extracted title candidates by serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Therefore, in the title extraction process, it is possible to more accurately extract the title indicating the hierarchical structure of the document from the text data included in the document by determining whether the extracted title candidate is appropriate as the title. It becomes.
また、本実施形態に係るタイトル選択処理においては、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよく、例えば、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。 Further, in the title selection process according to the present embodiment, the range of title candidates for performing serial number check is not particularly limited, and may be set as appropriate by the user. For example, the same hierarchy information among the extracted title candidates A serial number check may be performed for each title candidate having “”. By performing the serial number check for each title candidate having the same hierarchical information, the processing procedure for the serial number check can be made simpler.
また、本実施形態に係るタイトル選択処理においては、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。 In the title selection processing according to the present embodiment, delimiter information that is information regarding the delimiter position of the hierarchical structure in the text data of the document may be used in the serial number check. By performing the title selection process based on the delimiter information, the accuracy of the title extraction process can be further improved.
また、本実施形態に係るタイトル選択処理においては、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックが行われるタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。 In the title selection process according to the present embodiment, serial number check may be performed for each title candidate having the same title pattern among the extracted title candidates. By performing the serial number check for each title candidate having the same title pattern, the processing procedure at the time of the serial number check can be made simpler. In addition, when performing serial number check for each title candidate having the same title pattern, the title corresponding to the title representing the hierarchical structure of the target document is selected from the title patterns based on the extracted title candidates. A pattern may be selected, and the serial number check may be performed only for title candidates having the title pattern. Select the title pattern corresponding to the title representing the hierarchical structure of the target document, and perform the serial number check only for the title candidates having the title pattern, thereby reducing the number of title candidates that are subjected to the serial number check. And serial number check can be performed more efficiently.
なお、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。 In the above description of the title extraction process, the example of extracting titles representing the first hierarchy and the second hierarchy has been described, but the present embodiment is not limited to such an example. In the title extraction process according to the present embodiment, titles representing lower layers may be extracted.
また、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。 Further, in the description in the above (Sequential number check for title candidates having the same hierarchy information), a serial number check is performed on the title candidates representing the second hierarchy, and then the title candidates representing the first hierarchy are checked. Although an example in which serial number checking is performed has been described, the present embodiment is not limited to such an example. In the sequential number check for the title candidates having the same hierarchical information, the order in which the sequential number check is performed is not particularly limited, and may be appropriately set by the user according to the hierarchical structure, type, and the like of the document. Similarly, in the serial number check for title candidates having the same title pattern, the order in which the serial number check is performed is not particularly limited, and is appropriately determined by the user according to the hierarchical structure, type, etc. of the document. May be set.
また、上記[3.2.タイトル選択処理]における連番チェックの説明においては、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係るタイトル選択処理はかかる実施例に限定されない。本実施形態に係るタイトル選択処理においては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。例えば、文書によっては、記載番号が最も小さいタイトル候補が、本来はタイトルを表すテキストパターンではない場合がある。その場合、記載番号が最も小さいタイトル候補を基準として連番チェックを行っても、適切なタイトル選択が実行されない可能性がある。連番チェックの基準となるタイトルが、ユーザによって適宜設定されることにより、タイトル選択処理の正確性をより向上させることができる。 In addition, the above [3.2. In the description of the sequential number check in [Title selection processing], first, the title candidate with the smallest description number is selected as the title, and then the title candidate selected as the title immediately before and the order information are sequentially arranged in the order of the description number. However, the title selection process according to the present embodiment is not limited to such an example. In the title selection processing according to the present embodiment, the title that is the reference for serial number check, that is, the title that is initially selected may be appropriately set by the user according to the structure and type of the document. For example, depending on the document, the title candidate with the smallest description number may not be a text pattern that originally represents the title. In that case, even if the serial number check is performed based on the title candidate with the smallest description number, there is a possibility that appropriate title selection may not be executed. By appropriately setting a title as a reference for serial number check by the user, the accuracy of the title selection process can be further improved.
また、上記の区切り情報についての説明では、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明したが、本実施形態に係る区切り情報の取得方法はかかる実施例に限定されない。例えば、対象としている文書の階層構造が事前に明らかである場合には、当該文書の階層構造、種類等に応じて、区切り情報がユーザによって予め設定され、情報処理装置に入力されていてもよい。 In the description of the delimiter information, the delimiter information is acquired based on the result of the serial number check performed on the title candidates having the first hierarchy information, and the delimiter information is used to obtain the second information. Although the method of performing serial number check on the title candidates having the hierarchical information has been described, the method for acquiring the separator information according to the present embodiment is not limited to such an example. For example, when the hierarchical structure of the target document is clear in advance, the delimiter information may be set in advance by the user according to the hierarchical structure, type, etc. of the document and input to the information processing apparatus. .
また、本実施形態においては、連番チェックに係る一連の処理の中で、タイトル候補の階層情報が適宜変更されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。 In the present embodiment, the hierarchical information of title candidates may be changed as appropriate in a series of processes related to serial number checking. <1. As described above in document and title pattern to be processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. is there. In that case, serial number check may be performed in a state where some hierarchical information is temporarily assigned to the title candidate, and repeated serial number checking may be performed while performing processing to change the hierarchical information as appropriate based on the result.
例えば、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、図6Aにおいて、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が「第1階層」であると仮定して連番チェックを行う場合について説明しているが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」が第1階層を表すタイトルとして選択されなかった時点で、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が、「第1階層」以外の階層情報、例えば「第3階層」に変更されてもよい。タイトル候補「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報が「第3階層」に変更された場合には、第3階層を表すタイトルを選択するための連番チェックが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を含む、階層情報として「第3階層」を有するタイトル候補に対して行われてもよい。 For example, in the above description (sequential number check for title candidates having the same hierarchy information), in FIG. 6A, the hierarchy information of title candidates “I trouble during measurement” and “II trouble during calibration” is “first calibration”. The case where the serial number check is performed on the assumption that it is “hierarchy” is explained, but the title candidates “I trouble during measurement” and “II trouble during calibration” were not selected as titles representing the first hierarchy. At that time, the hierarchical information of the title candidates “I measurement trouble” and “II calibration trouble” may be changed to hierarchical information other than “first hierarchy”, for example, “third hierarchy”. If the hierarchy information of the title candidates “I measurement trouble” and “II calibration trouble” is changed to “third hierarchy”, the serial number check for selecting the title representing the third hierarchy is performed. It may be performed on a title candidate having “third hierarchy” as hierarchy information, including title candidates “I trouble during measurement” and “II trouble during calibration”.
<4.タイトル抽出処理手順>
次に、図8〜11を参照して、本発明の一実施形態に係るタイトル抽出処理手順について説明する。図8は、本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。なお、以下のタイトル抽出処理手順の説明において、文書読み込み部141、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<2.情報処理装置の構成>で上述しているため、ここでは詳細な説明は省略する。また、タイトル抽出処理におけるタイトル候補抽出処理及びタイトル選択処理の詳細については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で既に説明しているため、内容が重複する部分については、その説明を省略する。
<4. Title extraction process>
Next, a title extraction processing procedure according to an embodiment of the present invention will be described with reference to FIGS. FIG. 8 is a flowchart showing a title extraction processing procedure according to an embodiment of the present invention. In the following description of the title extraction processing procedure, the functions and configurations of the
図8を参照すると、本実施形態に係るタイトル抽出処理手順においては、まず、ステップS601で、文書読み込み部141が、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。
Referring to FIG. 8, in the title extraction processing procedure according to the present embodiment, first, in step S601, the
次に、ステップS603で、タイトル候補抽出部142が、ステップS601で読み込まれたセンテンス内のテキストパターンと、例えば記憶部120に記憶されているタイトルパターンとを比較する(マッチングする)。そして、ステップS603でマッチングした結果に基づいて、ステップS605で、タイトル候補が抽出され、例えば記憶部120に保存される。ここで、抽出されたタイトル候補は、例えば図4に示すように、記載番号、タイトルパターン、階層情報及び順序情報と関連付けて整理され、表(リスト)の形式で保存されてもよい。なお、ステップS603及びS605における一連の処理は、上記[3.1.タイトル候補の抽出処理]で説明した、タイトル候補抽出部142が行う一連の処理に対応している。
Next, in step S603, the title
次に、ステップS607で、例えば記憶部120に記憶されている全てのタイトルパターンについて、ステップS603及びステップS605における一連の処理が終了したかどうかが判断される。ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了していないと判断された場合は、ステップS603に戻り、未処理のタイトルパターンについて、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、例えば記憶部120に記憶されている全てのタイトルパターンについて、タイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。
Next, in step S607, for example, for all the title patterns stored in the
ステップS607で、ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了したと判断された場合は、ステップS609に進む。ステップS609では、ステップS601で対象とする文書の全てが読み込まれたかどうかが判断される。対象とする文書が全て読み込まれていないと判断された場合には、ステップS601に戻り、文書内の次のセンテンスが読み込まれ、当該センテンスに対して、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、対象とする文書の全てのセンテンスについて、例えば記憶部120に記憶されている全てのタイトルパターンとのタイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。従って、ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、対象とする文書の全てのテキストデータに含まれるタイトル候補が抽出され、保存された状態であると考えられる。
If it is determined in step S607 that the series of processing in step S603 and step S605 has been completed for all the title patterns, the process proceeds to step S609. In step S609, it is determined whether all of the target documents have been read in step S601. If it is determined that all the target documents have not been read, the process returns to step S601, the next sentence in the document is read, and title candidates are matched to the sentence in steps S603 and S605. The title candidate is extracted and stored. That is, the title
ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、ステップS611に進み、抽出されたタイトル候補に対して、タイトル選択部143によるタイトル選択処理が行われる。ステップS611でのタイトル選択処理については、図9〜11を参照して後で詳しく説明する。
If it is determined in step S609 that all the target documents have been read, the process proceeds to step S611, and title selection processing by the
ステップS611でのタイトル選択処理が終了することにより、本実施形態に係る一連のタイトル抽出処理が終了する。このように、図8に示す手順に従って一連の処理が行われることにより、対象とする文書から、当該文書の階層構造を表すタイトルを抽出することができる。 When the title selection process in step S611 ends, a series of title extraction processes according to the present embodiment ends. In this way, a series of processing is performed according to the procedure shown in FIG. 8, whereby a title representing the hierarchical structure of the document can be extracted from the target document.
次に、図9を参照して、図8のステップS611におけるタイトル選択処理の処理手順について詳細に説明する。図9は、図8におけるタイトル選択処理の処理手順を示すフロー図である。なお、以下に図9〜11を用いて行うタイトル選択処理の説明では、タイトル選択処理の一例として、同一の階層情報を有するタイトル候補に対する連番チェックを行う場合について説明する。ただし、本実施形態にかかるタイトル選択処理は、かかる実施例に限定されず、他の異なる連番チェックの方法が行われてよい。なお、以下に図9〜11を用いて行うタイトル選択処理の説明は、上記[3.2.タイトル選択処理]の(同一の階層情報を有するタイトル候補に対する連番チェック)で説明したタイトル候補抽出部142が行う一連の処理に対応しているため、重複する内容については、詳細な説明は省略する。
Next, the processing procedure of the title selection processing in step S611 in FIG. 8 will be described in detail with reference to FIG. FIG. 9 is a flowchart showing the processing procedure of the title selection processing in FIG. In the following description of the title selection process performed with reference to FIGS. 9 to 11, a case where serial number checking is performed on title candidates having the same hierarchy information will be described as an example of the title selection process. However, the title selection process according to the present embodiment is not limited to such an example, and other different serial number check methods may be performed. In addition, the description of the title selection process performed using FIGS. 9 to 11 below will be described in [3.2. This corresponds to the series of processes performed by the title
図9を参照すると、本実施形態に係るタイトル選択処理においては、まず、ステップS701で、タイトル選択部143が、タイトルパターンに含まれる階層情報に基づいて、抽出されたタイトル候補を階層ごとに整理する。次に、ステップS703で、第2階層について整理されたタイトル候補に対して連番チェックが行われ、第2階層を表すタイトルが選択される。なお、ステップS703における、第2階層についての連番チェックについては、図10を参照して後で詳しく説明する。
Referring to FIG. 9, in the title selection process according to the present embodiment, first, in step S701, the
次に、ステップS705で、ステップS703における連番チェックの結果から、第1階層のタイトル候補における区切り情報が取得される。 Next, in step S705, the delimiter information in the first layer title candidate is obtained from the result of the serial number check in step S703.
次に、ステップS707で、第1階層について整理されたタイトル候補に対して、連番チェックが行われ、第1階層を表すタイトルが選択される。そして、一連のタイトル選択処理が終了する。なお、ステップS707における、第1階層についての連番チェックについては、図11を参照して後で詳しく説明する。 Next, in step S707, serial number check is performed on the title candidates arranged for the first hierarchy, and a title representing the first hierarchy is selected. Then, a series of title selection processing ends. Note that the serial number check for the first hierarchy in step S707 will be described in detail later with reference to FIG.
次に、図10を参照して、図9のステップS703における第2階層についての連番チェックの処理手順について、詳細に説明する。図10は、図9における第2階層についての連番チェックの処理手順を示すフロー図である。 Next, with reference to FIG. 10, the sequence number check processing procedure for the second hierarchy in step S703 of FIG. 9 will be described in detail. FIG. 10 is a flowchart showing the sequence number check processing procedure for the second hierarchy in FIG.
図10を参照すると、本実施形態に係る第2階層についての連番チェックにおいては、まず、ステップS801で、第2階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図5Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1−1 ケース」が、タイトルとして選択される。 Referring to FIG. 10, in the serial number check for the second hierarchy according to the present embodiment, first, in step S801, the title candidate with the smallest description number is selected as the title from the title candidates representing the second hierarchy. Is done. For example, in the example shown in FIG. 5A, the “1-1 case” that is the title candidate with the smallest description number is selected as the title.
次に、ステップS803で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図5Aに示す実施例であれば、タイトル「1−1 ケース」の次に記載番号が小さいタイトル候補である「2−1 容量」が連番チェック対象として選択される。 Next, in step S803, the title candidate with the next smallest number is selected as a serial number check target. Specifically, in the embodiment shown in FIG. 5A, for example, “2-1 capacity”, which is the title candidate with the next smallest number after the title “1-1 case”, is selected as the serial number check target.
そして、次に、ステップS805で、直前に選択されたタイトルの順序情報(例えば「N=n、M=m」)と、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」であった場合には、ステップS803で選択されたタイトル候補がタイトルとして選択され(ステップS807)、更にステップS809に進む。一方、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」以外であった場合には、ステップS807がスキップされ、すなわち、当該タイトル候補がタイトルとして選択されず、ステップS809に進む。 Next, in step S805, the order information of the title selected immediately before (for example, “N = n, M = m”) and the order information of the title candidates selected as the serial number check target in step S803 are obtained. To be compared. If the order information of the title candidates selected as the serial number check target in step S803 is “N = n, M = m + 1” or “N = n + 1, M = 1”, it is selected in step S803. The selected title candidate is selected as a title (step S807), and the process proceeds to step S809. On the other hand, if the order information of the title candidates selected as the serial number check target in step S803 is other than “N = n, M = m + 1” or “N = n + 1, M = 1”, step S807 is skipped. That is, the title candidate is not selected as a title, and the process proceeds to step S809.
ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第2階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS803に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS805及びステップS807における処理が繰り返される。一方、ステップS809で、第2階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第2階層についての連番チェックを終了する。 In step S809, it is determined whether the serial number check process has been completed for all title candidates representing the second hierarchy. If the serial number check processing has not been completed for all the title candidates representing the second hierarchy, the process returns to step S803, and the title candidate with the next smallest description number is selected as the serial number check target, and step S805 and The process in step S807 is repeated. On the other hand, if it is determined in step S809 that the serial number check process has been completed for all title candidates representing the second hierarchy, the serial number check for the second hierarchy is terminated.
具体的には、図5Aに示す実施例であれば、ステップS805で、「1−1 ケース」の順序情報である「N=1、M=1」と、ステップS803で連番チェック対象として選択されたタイトル候補「2−1 容量」の順序情報である「N=2、M=1」とが比較される。「2−1 容量」の順序情報である「N=2、M=1」は、「N=n、M=m+1」又は「N=n+1、M=1」の関係を満たすので、ステップS807に進み、タイトル候補「2−1 容量」がタイトルとして選択される。 Specifically, in the embodiment shown in FIG. 5A, “N = 1, M = 1”, which is the sequence information of “1-1 case”, is selected as the serial number check target in step S803 in step S805. Then, “N = 2, M = 1” which is the order information of the title candidate “2-1 capacity” is compared. Since “N = 2, M = 1” which is the order information of “2-1 capacity” satisfies the relationship of “N = n, M = m + 1” or “N = n + 1, M = 1”, the process proceeds to step S807. The title candidate “2-1 capacity” is selected as the title.
ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図5Aに示すように、対象としている文書には、タイトル候補「2−1 容量」以外にも第2階層を表すタイトル候補が存在するので、ステップS803に戻り、記載番号が次に小さいタイトル候補である「2−2 電源」が、改めて連番チェック対象として選択され、以降、ステップS805及びステップS807における処理が繰り返される。 In step S809, it is determined whether the serial number check process has been completed for all title candidates representing the second hierarchy. As shown in FIG. 5A, since there are title candidates representing the second hierarchy in addition to the title candidate “2-1 capacity” in the target document, the process returns to step S803, and the title candidate with the next smallest description number “2-2 power source” is again selected as a serial number check target, and the processing in step S805 and step S807 is repeated thereafter.
次に、図11を参照して、図9のステップS707における第1階層についての連番チェックの処理手順について、詳細に説明する。図11は、図9における第1階層についての連番チェックの処理手順を示すフロー図である。 Next, with reference to FIG. 11, the sequential number check processing procedure for the first hierarchy in step S707 of FIG. 9 will be described in detail. FIG. 11 is a flowchart showing the sequence number check processing procedure for the first hierarchy in FIG.
図11を参照すると、本実施形態に係る第1階層についての連番チェックにおいては、まず、ステップS901で、第1階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図6Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1.対象となる機器」が、タイトルとして選択される。 Referring to FIG. 11, in the sequential number check for the first hierarchy according to the present embodiment, first, in step S901, the title candidate with the smallest description number is selected as the title from among the title candidates representing the first hierarchy. Is done. For example, in the embodiment shown in FIG. 6A, the title candidate “1. target device” having the smallest description number is selected as the title.
次に、ステップS903で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図6Aに示す実施例であれば、タイトル「1.対象となる機器」の次に記載番号が小さいタイトル候補である「4.に示す・・・」が連番チェック対象として選択される。 Next, in step S903, a title candidate with the next smallest number is selected as a serial number check target. Specifically, in the embodiment shown in FIG. 6A, for example, “4....”, Which is the title candidate with the next smallest number after the title “1. Selected as.
そして、次に、ステップS905で、直前に選択されたタイトルの順序情報(例えば「N=n」)と、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」であった場合には、ステップS907に進む。一方、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」以外であった場合には、当該タイトル候補はタイトルとしては選択されず、後述するステップS911に進む。 Next, in step S905, the order information of the title selected immediately before (for example, “N = n”) is compared with the order information of the title candidates selected as the serial number check target in step S903. If the order information of the title candidates selected as the serial number check target in step S903 is “N = n + 1”, the process proceeds to step S907. On the other hand, if the order information of the title candidates selected as the serial number check target in step S903 is other than “N = n + 1”, the title candidates are not selected as titles, and the process proceeds to step S911 described later.
ステップS907では、図9に示すステップS705で取得された区切り情報に基づき、連番チェック対象として選択されているタイトル候補の順序情報が、当該区切り情報と整合するかどうかが判断される。連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合すると判断された場合には、当該タイトル候補がタイトルとして選択され(ステップS909)、更にステップS911に進む。一方、連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合しないと判断された場合には、ステップS909がスキップされ、すなわち、当該タイトル候補はタイトルとしては選択されず、ステップS911に進む。 In step S907, based on the break information acquired in step S705 shown in FIG. 9, it is determined whether the order information of the title candidates selected as the serial number check target is consistent with the break information. If it is determined that the order information of the title candidates selected as the serial number check target matches the delimiter information, the title candidate is selected as a title (step S909), and the process proceeds to step S911. On the other hand, if it is determined that the order information of the title candidates selected as the serial number check target is not consistent with the delimiter information, step S909 is skipped, that is, the title candidate is not selected as a title, and the step The process proceeds to S911.
ステップS911では、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第1階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS903に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS905、ステップS907及びステップS909における処理が繰り返される。一方、ステップS911で、第1階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第1階層についての連番チェックを終了する。 In step S911, it is determined whether the serial number check process has been completed for all title candidates representing the first hierarchy. If the serial number check process has not been completed for all the title candidates representing the first hierarchy, the process returns to step S903, and the title candidate with the next smallest description number is selected again as the serial number check target, and step S905, The processes in step S907 and step S909 are repeated. On the other hand, if it is determined in step S911 that the serial number check process has been completed for all title candidates representing the first hierarchy, the serial number check for the first hierarchy is terminated.
具体的には、図6Aに示す実施例であれば、ステップS905では、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で選択されたタイトル候補「4.に示す・・・」の順序情報である「N=4」とが比較される。「4.に示す・・・」の順序情報である「N=4」は、「N=n+1」の関係を満たさないので、ステップS803に戻り、記載番号が次に小さいタイトル候補、すなわち、図6Aに示す例であれば、タイトル候補「2.選定基準詳細」が改めて選択される。 Specifically, in the embodiment shown in FIG. 6A, in step S905, “N = 1”, which is the order information of “1. Target device”, and the title candidate “4. "N = 4", which is the order information of "...". Since “N = 4”, which is the order information of “shown in 4.”, does not satisfy the relationship of “N = n + 1”, the process returns to step S803, and the title candidate with the next smallest number, ie, FIG. In the example shown in 6A, the title candidate “2. Details of selection criteria” is selected again.
そして、再びステップS905で、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で改めて選択されたタイトル候補「2.選定基準詳細」の順序情報である「N=2」とが比較される。「2.選定基準詳細」の順序情報である「N=2」は、「N=n+1」の関係を満たすので、ステップS907に進む。
In step S 905, “N = 1”, which is the order information of “1. Target device”, and “N. Details of selection criteria”, which is newly selected in
次に、ステップS907で、タイトル候補「2.選定基準詳細」が区切り情報と整合するかどうかが判断される。図6Aに示す例であれば、情報処理装置10は、区切り情報として、「N=2」に相当する順序番号を有する第1階層を表すタイトルは、記載番号「2」と記載番号「5」の間(図6Aに示す区間A)に存在するという情報を有している。タイトル候補「2.選定基準詳細」の記載番号は「3」であるため、タイトル候補「2.選定基準詳細」は、当該区切り情報と整合する。従って、ステップS909に進み、タイトル候補「2.選定基準詳細」がタイトルとして選択される。
Next, in step S907, it is determined whether or not the title candidate “2. Selection criteria details” matches the delimiter information. In the example illustrated in FIG. 6A, the
ステップS909でタイトルが選択されたら、次に、ステップS911で、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図6Aに示すように、対象としている文書には、タイトル候補「2.選定基準詳細」以外にも第1階層を表すタイトル候補が存在するので、ステップS903に戻り、記載番号が次に小さいタイトル候補である「5.0Vが・・・」が、改めて連番チェック対象として選択され、以降、ステップS905、ステップS907及びステップS909における処理が繰り返される。 If a title is selected in step S909, it is next determined in step S911 whether or not serial number check processing has been completed for all title candidates representing the first hierarchy. As shown in FIG. 6A, in the target document, there are title candidates representing the first hierarchy other than the title candidate “2. Details of selection criteria”, so the process returns to step S903, and the title with the next smallest number is shown. The candidate “5.0V is...” Is again selected as a serial number check target, and the processing in step S905, step S907, and step S909 is repeated thereafter.
以上、図8〜11を参照して説明したように、本実施形態に係るタイトル抽出方法においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。 As described above with reference to FIGS. 8 to 11, in the title extraction method according to the present embodiment, the target document is based on the title pattern that is a text pattern corresponding to the title representing the hierarchical structure of the document. Title candidates are extracted from the text data. In the title selection process according to the present embodiment, a title is selected from the extracted title candidates by serial number check for confirming the order of the title candidates based on the order information included in the title candidates. Therefore, in the title extraction process, it is possible to more accurately extract the title indicating the hierarchical structure of the document from the text data included in the document by determining whether the extracted title candidate is appropriate as the title. It becomes.
なお、上記では、同一の階層情報を有するタイトル候補に対して連番チェックが行われる実施例について説明したが、本実施形態に係るタイトル抽出方法は、かかる実施例に限定されない。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。 In the above description, the example in which the serial number check is performed on the title candidates having the same hierarchical information has been described. However, the title extraction method according to the present embodiment is not limited to such an example. For example, the serial number check may be performed on all title candidates extracted from the target document as shown in FIG.
また、例えば、連番チェックは、図7A、Bに示すような、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、例えば、タイトル候補をタイトルパターンごとに整理するステップが行われた後に、タイトルパターンごとに連番チェックが行われるステップが行われてよい。 Further, for example, the serial number check may be performed on title candidates having the same title pattern as shown in FIGS. 7A and 7B. When serial number check is performed on title candidates having the same title pattern, for example, after the step of organizing the title candidates for each title pattern is performed, the serial number check is performed for each title pattern May be done.
なお、図8〜11を参照して行った、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。より下位の階層を表すタイトルが抽出される場合には、例えば、図9に示すフローにおいて、ステップS707の後に、第3階層又はより下位の階層についての連番チェックを行うステップが順次追加されてよい。 In the description of the title extraction process described above with reference to FIGS. 8 to 11, the example of extracting titles representing the first hierarchy and the second hierarchy has been described. However, the present embodiment is an example of such an example. It is not limited to. In the title extraction process according to the present embodiment, titles representing lower layers may be extracted. When titles representing lower layers are extracted, for example, in the flow shown in FIG. 9, a step of sequentially checking the third layer or lower layers is sequentially added after step S707. Good.
また、図9に示すタイトル選択処理のフローでは、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。 In the title selection processing flow shown in FIG. 9, an embodiment is described in which serial number check is performed on title candidates representing the second hierarchy, and then serial number check is performed on title candidates representing the first hierarchy. However, the present embodiment is not limited to such an example. In the sequential number check for the title candidates having the same hierarchical information, the order in which the sequential number check is performed is not particularly limited, and may be appropriately set by the user according to the hierarchical structure, type, and the like of the document. Similarly, in the serial number check for title candidates having the same title pattern, the order in which the serial number check is performed is not particularly limited, and is appropriately determined by the user according to the hierarchical structure, type, etc. of the document. May be set.
また、図10及び図11に示す、第1階層及び第2階層についての連番チェックのフローでは、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係る連番チェックはかかる実施例に限定されない。本実施形態に係る連番チェックにおいては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。 Further, in the sequential number check flow for the first and second hierarchies shown in FIGS. 10 and 11, first, the title candidate with the smallest description number is selected as the title, and then the immediately preceding order in the order of the description numbers. Although the case where it is determined whether or not the title candidate selected as the title and the order information are consecutive has been described, the serial number check according to the present embodiment is not limited to such an example. In the serial number check according to the present embodiment, the title used as a reference for the serial number check, that is, the title selected first may be set as appropriate by the user according to the structure and type of the document.
また、図9に示すタイトル選択処理のフローにおいては、タイトル候補の階層情報を変更するステップが適宜追加されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、仮に何らかの階層情報を付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。 Further, in the flow of title selection processing shown in FIG. 9, a step of changing the hierarchical information of title candidates may be added as appropriate. <1. As described above in document and title pattern to be processed>, hierarchical information is not uniquely determined depending on the title pattern, and one title pattern may have a plurality of different hierarchical information. is there. In that case, the serial number check may be performed while performing the process of changing the hierarchical information as appropriate based on the result of performing the serial number check with some hierarchical information added.
例えば、図9に示すフローにおいて、ステップS707が終了した段階では、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が選択されており、第2階層を表すタイトルとして、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が選択されている。また、区切り情報として、第1階層及び第2階層の区切りが、記載番号においてどこに存在するかに関する情報が得られている。従って、例えば、タイトル選択部143は、タイトル候補として抽出はされたものの、タイトルとして選択はされなかったタイトル候補の中から、任意のタイトル候補の階層情報を「第3階層」に変更し、当該「第3階層」の階層情報を有するタイトル候補に対して、改めてタイトル選択処理を行ってよい。具体的には、例えば図6Aに示すタイトル候補の例であれば、タイトル選択部143は、タイトル候補の中から、「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報を「第3階層」に変更し、当該タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」に対して、改めて連番チェックを行うことにより、タイトル選択処理を行ってよい。このように、階層情報を変更して改めて連番チェックを行うことにより、例えば、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を、第3階層を表すタイトルとして選択することができる。
For example, in the flow shown in FIG. 9, at the stage where step S <b> 707 is completed, “1. Target device”, “2. Details of selection criteria”, “3. Notes” and “ 4. “Other” is selected, and “1-1 Case”, “2-1 Capacity”, “2-2 Power Supply”, and “3-1 Past Case” are selected as titles representing the second hierarchy. ing. Further, as the delimiter information, information on where the delimiters of the first hierarchy and the second hierarchy exist in the description number is obtained. Therefore, for example, the
実際には、タイトルパターンに階層情報を設定する適切な方法や、タイトル選択処理における連番チェックを適切に行う方法(連番チェックをどのような単位で、どのような順番で行うか)は、文書の種類や構造に応じて異なる。従って、タイトルパターンに設定する階層情報や、タイトル選択処理における連番チェックの具体的な処理手順は、文書の種類や構造に基づいて、例えば経験則に応じて、ユーザによって適宜設定されてよい。 Actually, the appropriate method of setting the hierarchy information in the title pattern and the method of properly performing the serial number check in the title selection process (in what units and in what order the serial number check is performed) It depends on the type and structure of the document. Therefore, the hierarchical information to be set in the title pattern and the specific processing procedure of the serial number check in the title selection process may be appropriately set by the user based on the type and structure of the document, for example, according to the rule of thumb.
例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報、及び、適切な連番チェックの方法を設定してもよい。 For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user may set a title pattern and its hierarchy information and an appropriate serial number check method in advance according to the format of the target document.
<5.適用例>
次に、図12を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例について説明する。図12は、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。
<5. Application example>
Next, an application example of the information processing apparatus, the title extraction method, and the program according to the present embodiment will be described with reference to FIG. FIG. 12 is a schematic diagram illustrating an application example of the information processing apparatus, the title extraction method, and the program according to the present embodiment.
本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、ユーザが所望の文書を検索する場合に、好適に適用することができる。 The information processing apparatus, title extraction method, and program according to the present embodiment can be suitably applied, for example, when a user searches for a desired document from a DB that stores document data.
例えば、文書データのDBに対して、ある検索ワードで検索を掛けると、文書のテキストデータに当該検索ワードが含まれる文書が抽出される検索システムがあったとする。このような検索システムにおいて、検索結果の画面に、例えば文書名のみが表示されたとすると、ユーザは、文書名だけでは当該文書の内容までは把握することが難しく、所望の文書を見つけることが困難である。 For example, suppose that there is a search system in which a document including the search word is extracted from the text data of the document when a search is performed on the DB of the document data with a certain search word. In such a search system, if only the document name is displayed on the search result screen, for example, it is difficult for the user to grasp the contents of the document only by the document name, and it is difficult to find a desired document. It is.
そこで、例えば、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いることにより、検索結果として抽出された文書に対して、当該文書の階層構造を表すタイトルを抽出することができる。そして、例えば検索結果を表示する際に、文書名とともに、抽出したタイトルについても表示することができる。また、タイトルは、当該タイトルに含まれる階層情報に基づいて、例えば階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザは、文書内容を把握することができ、文書DBの中から所望の文書を見つけやすくなる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出することにより、文書を要約することが可能となる。 Therefore, for example, by using the information processing apparatus, the title extraction method, and the program according to the present embodiment, a title representing the hierarchical structure of the document can be extracted from the document extracted as a search result. For example, when the search result is displayed, the extracted title can be displayed together with the document name. Moreover, a title may be displayed for every hierarchy based on the hierarchy information contained in the said title, for example. As described above, the title representing the hierarchical structure of the document is displayed together with the document name, so that the user can grasp the document content and easily find a desired document in the document DB. That is, in the present embodiment, it is possible to summarize a document by extracting a title representing the hierarchical structure of the document from text data corresponding to the document.
具体的には、例えば、ある文書DBに対して、検索ワードとして「機器」を用いて文書の検索を行ったとする。すると、例えば、情報処理装置10の表示部130の表示画面に、図12に示す検索結果画面が表示されてよい。図12を参照すると、例えば、文書名「機器の購入に関する基準 制御装置編」という文書には、そのテキストデータ内に、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」、「4.その他」等が存在し、また、第2階層を表すタイトルとして、「2−1 CPU」、「2−2 メモリ」、「2−3 HDD」等が存在することが、表示画面上に表示される。従って、ユーザは、検索結果画面に表示された文書名とタイトルとを同時に参照することで、文書DBの中から所望の文書を見つけることがより容易になる。
Specifically, for example, it is assumed that a document is searched for a certain document DB using “device” as a search word. Then, for example, the search result screen illustrated in FIG. 12 may be displayed on the display screen of the
<6.ハードウェア構成>
次に、図13を参照して、本発明の一実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図13は、本発明の一実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。
<6. Hardware configuration>
Next, the hardware configuration of the
情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、バス907と、入力装置909と、出力装置911と、ストレージ装置913と、通信装置915と、ドライブ917と、接続ポート919とを備える。
The
CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置913又はリムーバブル記憶媒体923に記録された各種プログラムに従って、情報処理装置10内の動作全般又はその一部を制御する。CPU901は、例えば、本実施形態においては、制御部140に対応する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化されるパラメータ等を一次記憶する。CPU901、ROM903及びRAM905は、CPUバス等の内部バスにより構成されるバス907により相互に接続されている。
The
バス907は、例えばブリッジを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バスに接続されている。
The
入力装置909は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザが操作する操作手段である。また、入力装置909は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応したPDA等の外部接続機器925であってもよい。さらに、入力装置909は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置10のユーザは、この入力装置909を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
出力装置911は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置、プリンタ装置等がある。出力装置911は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキスト又はイメージで表示するものであり、本実施形態においては、例えば図3に示す表示部130に対応する機能を有する。また、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
The
ストレージ装置913は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置であり、本実施形態においては、例えば図3に示す記憶部120に対応する機能を有する。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。ストレージ装置913には、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等が格納される。例えば、本実施形態においては、ストレージ装置913は、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報、タイトル抽出処理の結果等の各種の情報を記憶することができる。
The
また、図3では明示しなかったが、本実施形態に係る情報処理装置10は、通信装置915、ドライブ917及び接続ポート919を更に有してもよい。
Although not explicitly shown in FIG. 3, the
通信装置915は、例えば、通信網921に接続するための通信デバイス等で構成された通信インターフェースである。通信装置915は、例えば、有線又は無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置915は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置915は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置915に接続される通信網921は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。
The
ドライブ917は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録されている情報を読み出して、RAM905に出力する。また、ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録を書き込むことも可能である。リムーバブル記憶媒体923は、例えば、CDメディア、DVDメディア、Blu−rayメディア等である。また、リムーバブル記憶媒体923は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記憶媒体923は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。
The
接続ポート919は、機器を情報処理装置10に直接接続するためのポートである。接続ポート919の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート又はRS−232Cポート等がある。この接続ポート919に外部接続機器925を接続することにより、情報処理装置10は、外部接続機器925から直接各種のデータを取得したり、外部接続機器925に各種のデータを提供したりする。
The
なお、本実施形態では、図3に示す情報入力部110は、入力装置909、通信装置915、ドライブ917及び接続ポート919が有する情報入力機能を包括的に表現したものに対応する。つまり、<2.情報処理装置の構成>では、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターン等の各種の情報が、図3に示す情報入力部110を介して情報処理装置10に入力される実施例について説明したが、本実施形態における情報処理装置10への各種情報の入力方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンは、リムーバブル記憶媒体923からドライブ917を介して情報処理装置10に入力されてもよく、外部接続機器925から接続ポート919を介して情報処理装置10に入力されてもよい。また、例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報は、通信網921を介して配信され、通信装置915を介して情報処理装置10に入力されてもよい。
In the present embodiment, the
以上、本発明の実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
Heretofore, an example of the hardware configuration capable of realizing the function of the
なお、上述のような本実施形態に係る情報処理装置10の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
Note that a computer program for realizing each function of the
<7.まとめ>
以上説明したように、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、以下の効果が得られる。
<7. Summary>
As described above, in the information processing apparatus, title extraction method, and program according to the present embodiment, the following effects can be obtained.
本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかを判断することにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
According to the information processing apparatus, the title extraction method, and the program according to the present embodiment, the title
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。 Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, serial number check is performed for each title candidate having the same hierarchical information among the extracted title candidates. Also good. By performing the serial number check for each title candidate having the same hierarchical information, the processing procedure for the serial number check can be made simpler.
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。 Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, when serial number check is performed, it is information related to the position where the hierarchical structure is separated in the text data of the document. Separation information may be used. By performing the title selection process based on the delimiter information, the accuracy of the title extraction process can be further improved.
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックを行うタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。 Further, according to the information processing apparatus, the title extraction method, and the program according to the present embodiment, in the title selection process, serial number check is performed for each title candidate having the same title pattern among the extracted title candidates. Also good. By performing the serial number check for each title candidate having the same title pattern, the processing procedure at the time of the serial number check can be made simpler. In addition, when performing serial number check for each title candidate having the same title pattern, the title corresponding to the title representing the hierarchical structure of the target document is selected from the title patterns based on the extracted title candidates. A pattern may be selected, and the serial number check may be performed only for title candidates having the title pattern. By selecting the title pattern corresponding to the title representing the hierarchical structure of the target document and performing the serial number check only for the title candidates having the title pattern, the number of title candidates to be serially checked can be reduced. It is possible to perform the serial number check more efficiently.
また、上述した、同一の階層情報を有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番や、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。 In addition, the order in which the serial number check is performed in the serial number check for the title candidates having the same hierarchical information described above, and the order in which the serial number check is performed in the serial number check for the title candidates having the same title pattern are as follows. It is not limited, and may be set as appropriate by the user according to the hierarchical structure, type, etc. of the document.
ここで、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。また、タイトル選択処理において、連番チェックに係る一連の処理の中で、タイトル候補の階層情報は、ユーザによって適宜変更されてもよい。例えば、タイトル選択処理においては、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。 Here, depending on the title pattern, the hierarchical information is not uniquely determined, and one title pattern may have a plurality of different hierarchical information. In that case, the hierarchical information of the title candidates extracted in the title candidate extraction process may be set as appropriate by the user. For example, in the case of a document whose format is determined according to a posted (published) magazine such as an academic paper, it is highly likely that the title pattern representing the hierarchical structure is uniquely determined. Therefore, the user can appropriately set the title pattern and its hierarchy information in advance according to the format of the target document. In the title selection process, the hierarchy information of the title candidates may be changed as appropriate by the user in a series of processes related to the serial number check. For example, in the title selection process, a serial number check is performed in a state where some hierarchical information is temporarily assigned to the title candidate, and a repeated serial number check is performed while performing a process of changing the hierarchical information as appropriate based on the result. It's okay.
更に、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、所望の文書を検索するシステムに対して好適に適用することができる。具体的には、ある文書データのDBに対する文書データの検索結果として、文書名とともに、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いて当該文書から抽出されたタイトルが階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザが文書の内容をより把握しやすくなるため、文書DBの中から所望の文書を見つけやすくなり、ユーザの利便性が向上する。 Furthermore, the information processing apparatus, title extraction method, and program according to the present embodiment can be suitably applied to, for example, a system that searches for a desired document from a DB that stores document data. Specifically, as a search result of document data with respect to a DB of certain document data, the title extracted from the document using the information processing apparatus, the title extraction method, and the program according to the present embodiment is displayed for each hierarchy together with the document name. May be displayed. In this way, since the title representing the hierarchical structure of the document is displayed together with the document name, it becomes easier for the user to understand the contents of the document. Improved convenience.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
10 情報処理装置
110 情報入力部
120 記憶部
130 表示部
140 制御部
141 文書読み込み部
142 タイトル候補抽出部
143 タイトル選択部
144 表示制御部
DESCRIPTION OF
Claims (8)
前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、
を備えることを特徴とする、情報処理装置。 A title candidate extraction unit that extracts a title candidate that is a text pattern that is a candidate for a title from text data corresponding to the document based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document;
A title selection unit that selects the title from the title candidates by performing a serial number check that confirms the order of the title candidates based on order information that represents the order of the titles included in the title candidates When,
An information processing apparatus comprising:
ことを特徴とする、請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the title pattern includes a plurality of different text patterns for each layer of the hierarchical structure.
ことを特徴とする、請求項2に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the title selection unit performs the serial number check on the title candidates extracted for each hierarchy of the hierarchical structure.
ことを特徴とする、請求項2又は3に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the title selection unit performs the serial number check on the title candidates extracted for each title pattern.
ことを特徴とする、請求項4に記載の情報処理装置。 The information processing apparatus according to claim 4, wherein the title selection unit selects the title pattern corresponding to the title based on the title candidate extracted for each title pattern.
ことを特徴とする、請求項1〜5のいずれか1項に記載の情報処理装置。 The title selection unit further uses delimiter information, which is information indicating a delimiter position of the hierarchy of the hierarchical structure of the document, and describes the position of the title candidate in the text data corresponding to the document, and the delimiter 6. The information processing apparatus according to claim 1, wherein the title is selected based on whether the information matches.
コンピュータが、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、
を含むことを特徴とする、タイトル抽出方法。 Computer, based on the title pattern is a text pattern corresponding to the title that represents the hierarchical structure of the document, the text data corresponding to the document, extracting a title candidate is a text pattern as a title candidate,
The computer selects the title from the title candidates by performing a serial number check for confirming the order of the title candidates based on order information representing the order of the titles included in the title candidates. Steps,
A method for extracting a title, comprising:
文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、
前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、
を実現させるためのプログラム。 On the computer,
A function for extracting a title candidate that is a text pattern that is a candidate for a title from text data corresponding to the document based on a title pattern that is a text pattern corresponding to a title representing a hierarchical structure of the document;
A function of selecting the title from the title candidates by performing a serial number check for confirming the order of the title candidates based on order information representing the order of the titles included in the title candidates;
A program to realize
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012222186A JP5971069B2 (en) | 2012-10-04 | 2012-10-04 | Information processing apparatus, title extraction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012222186A JP5971069B2 (en) | 2012-10-04 | 2012-10-04 | Information processing apparatus, title extraction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014075032A JP2014075032A (en) | 2014-04-24 |
JP5971069B2 true JP5971069B2 (en) | 2016-08-17 |
Family
ID=50749148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012222186A Active JP5971069B2 (en) | 2012-10-04 | 2012-10-04 | Information processing apparatus, title extraction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5971069B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468346B2 (en) * | 2019-03-29 | 2022-10-11 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying sequence headings in a document |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01304574A (en) * | 1988-06-02 | 1989-12-08 | Nippon Telegr & Teleph Corp <Ntt> | Index builder for table of contents |
JPH08153101A (en) * | 1994-11-29 | 1996-06-11 | Meidensha Corp | Proofreading method for japanese sentence |
JPH09101959A (en) * | 1995-10-04 | 1997-04-15 | Hitachi Ltd | Structured document generator |
JPH11232439A (en) * | 1998-02-16 | 1999-08-27 | Toshinari Hayashi | Document picture structure analysis method |
-
2012
- 2012-10-04 JP JP2012222186A patent/JP5971069B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014075032A (en) | 2014-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489372B2 (en) | Web-based spell checker | |
JP4502615B2 (en) | Similar sentence search device, similar sentence search method, and program | |
JP4832952B2 (en) | Database analysis system, database analysis method and program | |
CN114297143A (en) | File searching method, file displaying device and mobile terminal | |
JP5971069B2 (en) | Information processing apparatus, title extraction method, and program | |
JP2018067264A (en) | Data search program, data search device, and data search method | |
JP4734400B2 (en) | Document search apparatus and program | |
JP6753190B2 (en) | Document retrieval device and program | |
JP6805206B2 (en) | Search word suggestion device, expression information creation method, and expression information creation program | |
JP5108642B2 (en) | Use case scenario creation support system, use case scenario creation support method, and use case scenario creation support program | |
JP4985096B2 (en) | Document analysis system, document analysis method, and computer program | |
JP7365446B2 (en) | Method and system for performing reuse analysis for model lifecycle management | |
JP6703698B1 (en) | Information provision system | |
WO2024047997A1 (en) | Document analysis device and program for document analysis | |
JP2019008477A (en) | Discrimination program, discrimination device and discrimination method | |
WO2023286340A1 (en) | Information processing device and information processing method | |
JP6213305B2 (en) | Information processing program, information processing apparatus, and information processing method | |
JP2010122792A (en) | Apparatus for product name identification, and method and program thereof | |
JP5768561B2 (en) | Input support program, input support apparatus, and input support method | |
JP4139805B2 (en) | Apparatus, method and program for converting lexical data to data | |
JP2006023878A (en) | Data extraction system | |
JP5741298B2 (en) | Dictionary creation device, dictionary creation method, and program | |
JP5344649B2 (en) | Character string conversion apparatus, character string conversion method, program, and recording medium | |
JP2015162170A (en) | Information processing device, and control method | |
JP4612469B2 (en) | Leakage source business investigation system and leakage source business investigation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150603 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160419 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160627 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5971069 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |