JP5971069B2 - 情報処理装置、タイトル抽出方法及びプログラム - Google Patents

情報処理装置、タイトル抽出方法及びプログラム Download PDF

Info

Publication number
JP5971069B2
JP5971069B2 JP2012222186A JP2012222186A JP5971069B2 JP 5971069 B2 JP5971069 B2 JP 5971069B2 JP 2012222186 A JP2012222186 A JP 2012222186A JP 2012222186 A JP2012222186 A JP 2012222186A JP 5971069 B2 JP5971069 B2 JP 5971069B2
Authority
JP
Japan
Prior art keywords
title
information
document
candidates
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012222186A
Other languages
English (en)
Other versions
JP2014075032A (ja
Inventor
加藤 健太
健太 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP2012222186A priority Critical patent/JP5971069B2/ja
Publication of JP2014075032A publication Critical patent/JP2014075032A/ja
Application granted granted Critical
Publication of JP5971069B2 publication Critical patent/JP5971069B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、タイトル抽出方法及びプログラムに関する。
近年、各種の文書を電子データの形式で保存することが一般的になっている。例えば、電子データ化された文書(文書データ)を保存してデータベース(DB)を作成することにより、文書の管理、閲覧、検索等を容易に行うことができる。
一方、文書を電子データの形式で保存することが一般的になるにつれて、DBに蓄えられる文書データの量は爆発的に増加している。従って、DB内の膨大な量の文書データの中から、所望の文書データを検索することが困難になりつつある。例えば、ある単語を検索ワードとしてDB内の文書データを検索したとしても、検索結果として大量の文書名が表示されてしまうと、適切な文書を探し出せない可能性があった。
このような状況を鑑みて、例えば装置マニュアルや論文のような階層構造を有する文書においては、文書の階層構造(文書内の章立て)を表すタイトルと、当該文書自身とを紐付けて一括的に管理する試みが行われている。ユーザは、タイトルを参照することにより、その文書の階層構造や文書の概要を把握することができるため、文書を検索する際の一助となり得る。
しかし、従来、そのような文書の階層構造を表すタイトルに関する情報は、予め文書内にデータとして定義されておく必要があった。従って、例えば過去に発行された紙媒体の文書を電子データとして保存する場合など、比較的古い文書に対しては、タイトルに関する情報を新たに作成する必要があり、不便であった。
そこで、文書内のテキストデータから、文書の階層構造を表すタイトルを自動的に抽出する技術が開発されている。例えば、特許文献1には、文書内のテキストデータから、数字と文字の組み合わせに対応するテキストパターンをタイトルとみなして抽出する技術が開示されている。
特開平7−129605号公報
しかし、特許文献1に記載の技術では、文書のテキストデータ内に存在する数字と文字の組み合わせに対応するテキストパターンを全てタイトルとみなしてしまうため、本来はタイトルには該当しないテキストパターンも、誤ってタイトルとして抽出してしまうという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能な、新規かつ改良された情報処理装置、タイトル抽出方法及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。
また、前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有してもよい。
また、前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。
また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。
また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択してもよい。
また、前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、を含むことを特徴とする、タイトル抽出方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータに、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、を実現させるためのプログラムが提供される。
以上説明したように本発明によれば、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能になる。
本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。 本実施形態に係るタイトルパターンを説明するための説明図である。 本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。 タイトル候補の抽出結果の一例を示す概略図である。 階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。 階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。 階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。 階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。 同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。 同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。 本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。 図8におけるタイトル選択処理の処理手順を示すフロー図である。 図9における第2階層についての連番チェックの処理手順を示すフロー図である。 図9における第1階層についての連番チェックの処理手順を示すフロー図である。 本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.処理対象となる文書とタイトルパターン>
本発明の一実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、文書に対応するテキストデータから、文書の階層構造(文書内の章立て)を表すタイトルを抽出する処理(タイトル抽出処理)が行われる。文書からタイトルが抽出されることにより、ユーザは、当該タイトルを参照することで、当該文書の概要を把握することができる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出する処理は、文書を要約する処理に対応している。
まず、図1を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいて、タイトル抽出処理の対象となる文書の構造例について説明する。図1は、本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。
図1を参照すると、本実施形態に係るタイトル抽出処理の対象となる文書は、階層構造を有していてよい。ここで、以下の説明においては、文書内において、その文書の階層構造を表すテキストパターンのことをタイトルと呼ぶこととする。例えば、図1に示す文書のテキストデータには、階層構造における最上位の階層(第1階層)を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」のタイトルが含まれている。また、図1に示す文書のテキストデータには、第1階層の1つ下位に当たる階層(第2階層)を表すタイトルとして、例えば、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」のタイトルが含まれている。更に、図1に示す文書のテキストデータには、第2階層の1つ下位に当たる階層(第3階層)を表すタイトルとして、例えば、「I 測定時のトラブル」及び「II 校正時のトラブル」のタイトルが含まれている。
ここで、タイトルに対応するテキストパターンを抽象的に表現すると、「数字、又は、順序を意味する記号」と「文字列」との組み合わせで表現することができる。以下の説明においては、このような、タイトルに対応するテキストパターンのことをタイトルパターンと呼ぶこととする。つまり、タイトルパターンは、例えば図2に示すように、「数字、又は、順序を意味する記号」と「文字列」との組み合わせであってよい。図2は、本実施形態に係るタイトルパターンを説明するための説明図である。
図2を参照すると、「数字、又は、順序を意味する記号」の「数字」とは、例えば、アラビア数字(1、2、3、等)、丸囲み数字、ローマ数字(I、II、i、ii、等)等であってよい。なお、当該「数字」は、図2に示すものに限定されず、数の概念を表すものであれば他の数字であってもよい。
また、図2を参照すると、「数字、又は、順序を意味する記号」の「順序を意味する記号」とは、例えば、アルファベット(A、B、C、等)、仮名(あ、い、う、ア、イ、ウ、等)等であってよい。なお、当該「順序を意味する記号」は、図2に示すものに限定されず、順序の概念を表すものであれば他の記号であってもよい。
また、タイトルパターンにおける「文字列」は、例えば、文書内においてそのタイトルに該当するパートの内容を表す見出しであってよい。
ここで、以下の説明においては、タイトルの順序を表す情報のことを順序情報と呼ぶこととする。具体的には、例えば、順序情報は、タイトルパターンにおける「数字、又は、順序を意味する記号」のことである。
例えば、図1に示す文書におけるタイトル「1.対象となる機器」であれば、タイトルパターンにおける順序情報(「数字、又は、順序を意味する記号」)は「1」であり、タイトルパターンにおける「文字列」は「対象となる機器」である。また、例えば、図1に示す「1−1 ケース」であれば、タイトルパターンにおける順序情報は「1−1」であり、タイトルパターンにおける「文字列」は「ケース」である。
また、順序情報は、例えば、「数字、又は、順序を意味する記号」を任意の文字コードに変換した情報であってもよい。例えば、図1に示す文書例では、タイトル「I 測定時のトラブル」の順序情報は「I」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「I」を表す「2D34」であってもよい。同様に、タイトル「II 校正時のトラブル」の順序情報は「II」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「II」を表す「2D35」であってもよい。このように、順序情報である「数字、又は、順序を意味する記号」を文字コードに変換することで、順序情報に関する情報処理、例えば後述するタイトル選択処理をより容易に行うことができる。また、互いに異なる書式で記載されている「数字、又は、順序を意味する記号」であっても、文字コードに変換することにより、同一の文字コード情報として扱うことができるため、表現の揺らぎを抑制することができる。なお、順序情報の変換に用いられる文字コードは規格「JIS X 0208」に限定されず、公知のあらゆる文字コードが用いられてよい。
なお、図2には明示していないが、本実施形態に係るタイトルパターンにおいては、「数字、又は、順序を意味する記号」と「文字列」との間に、例えばピリオドやスペースのような区切りを示す記号が存在していてもよい。例えば、図1に示す「1.対象となる機器」や「1−1 ケース」であれば、「1」と「対象とする機器」との間に存在する「.(ピリオド)」や、「1−1」と「ケース」との間に存在する「 (スペース)」まで含めてタイトルパターンが構成されてよい。なお、以下の説明において、タイトルパターンについて記載する際には、これらの区切りを示す記号については記載を省略することがある。
また、タイトルパターンは、そのタイトルパターンが、文書の階層構造のうち、どの階層に対応するものであるかを示す階層情報を有していてもよい。なお、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。
例えば、階層情報は、タイトルパターンに含まれる順序情報の種類に基づいて設定されてよい。例えば、順序情報が「第1章」であるタイトルは第1階層に属するタイトルである可能性が高く、順序情報が「第1節」であるタイトルは第2階層に属するタイトルである可能性が高い。従って、ユーザは、例えば、「「第+N+章」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第1階層」という階層情報を設定してもよく、「「第+N+節」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第2階層」という階層情報を設定してもよい。
また、例えば、階層情報は、タイトルパターンの順序情報に含まれる、数字や順序を表す記号の個数に基づいて設定されてもよい。具体的には、例えば、「N+「−」+M+文字列」(N、Mは任意の自然数)のように、数字や順序を表す記号が2個(NとM)含まれるタイトルパターンには、「第2階層」という階層情報が設定されてもよい。また、例えば、「N+「−」+M+「−」+L+文字列」(N、M、Lは任意の自然数)のように、数字や順序を表す記号が3個(NとMとL)含まれるタイトルパターンには、「第3階層」という階層情報が設定されてもよい。
また、タイトルパターンが有する階層情報は1つには限定されず、タイトルパターンが互いに異なる複数の階層情報を有してもよい。例えば、タイトルパターンの「数字、又は、順序を意味する記号」に含まれる数字や記号が1個である場合、タイトルパターンだけでは、階層情報を一意に定められない可能性が高い。この場合、1つのタイトルパターンが、「第K階層」(Kは任意の自然数)で表現される互いに異なる複数の階層情報を有していてもよい。
また、タイトルパターンが有する階層情報は、文書の種類や構造に基づいて、ユーザによって適宜設定されてもよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、投稿規定として、タイトルと階層情報とが一意に定められている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、タイトルパターンとその階層情報とを適切に設定することができる。
以上、図1及び図2を参照して、本実施形態に係るタイトル抽出処理の対象となる文書の一例、及び、タイトルパターンの構造例について説明した。なお、本実施形態に係るタイトル抽出処理の対象となる文書は、図1に示す例に限定されず、あらゆる文書が対象となってよい。また、タイトルパターンが有する順序情報は、図2に示す例に限定されず、数字や、順序を表す記号であれば、その種類は限定されず、各種の数字及び記号が順序情報として用いられてよい。
<2.情報処理装置の構成>
次に、図3を参照して、本発明の一実施形態に係る情報処理装置の概略構成について説明する。図3は、本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。
図3を参照すると、本実施形態に係る情報処理装置10は、情報入力部110、記憶部120、表示部130及び制御部140を備える。
情報入力部110は、ユーザ(操作者)が情報処理装置10に対して、各種の情報や指示を入力するためのインターフェースの役割を有する。例えば、ユーザは、情報入力部110を介して、情報処理装置10に各種の文書データを入力することができる。また、ユーザは、情報入力部110を介して、情報処理装置10に文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンを入力することができる。なお、文書データやタイトルパターンを情報処理装置10に入力する方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、文書データやタイトルパターンは、リムーバブル記憶媒体や他の外部接続機器から情報処理装置10に入力されてもよいし、任意の情報網(ネットワーク)を介して配信されることにより情報処理装置10に入力されてもよい。
ここで、情報処理装置10に入力される文書は、例えば図1に示す文書であってよい。また、情報処理装置10に入力されるタイトルパターンは、例えば図2に示す構造を有するテキストパターンであってよい。なお、情報処理装置10に入力されるタイトルパターンは、想定され得る限りの種類の、互いに異なる複数のタイトルパターンであってよい。情報入力部110を介して入力された文書データ及びタイトルパターンは、例えば記憶部120に保存される。
記憶部120は、本実施形態に係る情報処理装置10によって処理される各種の情報や、処理された結果を記憶するための記憶媒体の一例である。記憶部120は、例えば、本実施形態に係るタイトル抽出処理の対象となる文書データを記憶する。また、記憶部120は、例えば、本実施形態に係るタイトル抽出処理において用いられるタイトルパターンを記憶する。更に、記憶部120は、後述する制御部140によって行われる、タイトル抽出処理を含む各種の処理の結果を記憶してもよい。
表示部130は、各種の情報をユーザに対して視覚的に表示する機能を有する。表示部130は、記憶部120に保存されている各種の情報や、制御部140によって行われる各種処理の結果を、例えば、テキスト、表、グラフ等様々な形式で、その表示画面上に表示することができる。
制御部140は、情報処理装置10の動作を統合的に制御するとともに、対象とする文書データに対してタイトル抽出処理を行う。具体的には、制御部140は、対象とする文書内に含まれるテキストデータから、文書の階層構造を表すタイトルを抽出する処理を行う。以下、制御部140の機能及び構成について、詳細に説明する。
制御部140は、例えば、文書読み込み部141、タイトル候補抽出部142、タイトル選択部143及び表示制御部144を有する。
文書読み込み部141は、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。ここで、文書に対応するテキストデータとは、文書から図表等のデータを除いた、文書に含まれるテキストのデータのことを意味してよい。なお、文書読み込み部141がテキストデータを読み込む際の、テキストデータの区切り位置(センテンスの単位)を決定する方法は、特に限定されるものではなく、文書の種類等に応じて、ユーザによって適宜設定されてよい。例えば、文書読み込み部141は、テキストデータに含まれる改行位置や、句点が付された位置、あるいは、形態素解析の結果等に基づいて、当該テキストデータをセンテンスに区切ってもよい。文書読み込み部141は、テキストデータから読み込んだセンテンスを、タイトル候補抽出部142に送信する。
タイトル候補抽出部142は、受信したセンテンスの中から、タイトル候補を抽出する(タイトル候補抽出処理)。具体的には、タイトル候補抽出部142は、例えば、センテンス内に含まれるテキストパターンと、記憶部120に記憶されているタイトルパターンを比較する(マッチングする)ことにより、当該センテンスの中からタイトル候補を抽出する。つまり、タイトル候補抽出部142は、センテンスの中から、タイトルパターンと合致するテキストパターンを見つけ出し、タイトル候補として抽出することができる。
タイトル候補抽出部142は、抽出したタイトル候補を、タイトル選択部143に送信する。また、タイトル候補抽出部142は、抽出したタイトル候補を、記憶部120に保存してもよい。
タイトル選択部143は、受信したタイトル候補の中から、文書の階層構造を表すタイトルを選択する(タイトル選択処理)。具体的には、タイトル選択部143は、タイトル候補に含まれる、タイトルの順序を表す順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、当該タイトル候補がタイトルかどうかを判断し、選択することができる。
ここで、文書の中からタイトル候補として抽出されたテキストパターンは、文書の階層構造を表すタイトルではない可能性がある。例えば、図1に示す文書例においては、地の文に含まれる「4.に示す・・・」や「4.5Vの・・・」といったテキストパターンが、テキスト候補として抽出される可能性がある。タイトル選択部143は、連番チェックを行うことにより、このようなノイズを除去し、テキスト候補の中から文書の階層構造を表すタイトルを選択することができる。
タイトル選択部143は、選択したタイトルを、表示制御部144に送信する。また、タイトル選択部143は、選択したタイトルを、記憶部120に記憶してもよい。
なお、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で詳しく説明する。
表示制御部144は、タイトル選択部143によって選択されたタイトルに関する情報を、対象としている文書のタイトル抽出処理結果として、表示部130に表示する制御を行う。例えば、表示制御部144は、表示部130の表示画面に、タイトル抽出処理を行った文書名と、当該文書の階層構造を表すタイトルと、当該タイトルの階層情報とを互いに関連付けて表示させてもよい。
以上、図3を参照して、本実施形態に係る情報処理装置の機能の一例、特に制御部140の機能の一例について詳細に示した。なお、情報処理装置10の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、制御部140については、各構成要素の機能を、CPU(Central Processing Unit)等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、情報処理装置10のハードウェア構成については、<6.ハードウェア構成>で詳しく説明する。
以上説明したように、本実施形態に係る情報処理装置10においては、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において抽出されたタイトル候補について、タイトルとして適切かどうかの判断がなされることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>
次に、図3に示すタイトル候補抽出部142及びタイトル選択部143の機能及び構成について、より詳細に説明する。なお、以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明においては、処理対象とする文書の一例として、図1に示す文書に対してタイトル抽出処理を行う場合について説明する。
[3.1.タイトル候補抽出処理]
まず、図4を参照して、タイトル候補抽出部142によって行われる、タイトル候補抽出処理について説明する。図4は、タイトル候補の抽出結果の一例を示す概略図である。
上記<2.情報処理装置の構成>で説明したように、タイトル候補抽出部142は、例えばセンテンスごとに読み込まれたテキストデータと、タイトルパターンとをマッチングすることにより、タイトルパターンと合致するテキストパターンを、タイトル候補として抽出する。そして、タイトル候補抽出部142は、抽出したタイトル候補を、例えば図4に示すように、表(リスト)の形式で整理する。
図4を参照すると、例えば、抽出されたタイトル候補は、記載番号、タイトルパターン、階層情報及び順序情報と関連付けられて整理される。記載番号は、対象としている文書のテキストデータ内において、抽出されたタイトル候補が記載されている順番を示している。また、タイトルパターンは、抽出されたタイトル候補と合致したタイトルパターンを示している。また、階層情報は、当該タイトルパターンに対応する階層情報を示している。更に、順序情報は、当該タイトル候補に含まれる順序情報を示している。
なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明では、タイトル候補抽出処理及びタイトル選択処理の一実施例として、各タイトルパターンが、図4に示す階層情報を有する場合について説明することとする。
図1を参照しながら、タイトル候補抽出部142が行う処理について、より具体的に説明する。タイトル候補抽出部142は、例えば図1に示す文書のテキストデータに対して、テキストデータの先頭から順に、センテンス単位で、タイトルパターンとのマッチング処理を行っていく。すると、例えば、タイトル候補抽出部142は、「1.対象となる機器」というテキストパターンが、「N+「.」+文字列」というタイトルパターンと合致することを見い出す。ここで、Nは任意の自然数であってよい。
従って、タイトル候補抽出部142は、当該「1.対象となる機器」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、抽出したタイトル候補である「1.対象となる機器」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1.対象となる機器」は、対象としている文書のテキストデータ内において、記載順において最初に抽出されたタイトル候補であるため、その記載番号は「1」となる。また、例えば、マッチングが行われた「N+「.」+文字列」というタイトルパターンの階層情報は「第1階層」であり、タイトル候補「1.対象となる機器」の順序情報は「N=1」である。
「1.対象となる機器」をタイトル候補として抽出した後、タイトル候補抽出部142は、後続のテキストデータに対して、タイトルパターンとのマッチング処理を継続する。すると、例えば、タイトル候補抽出部142は、「1−1 ケース」というテキストパターンが、「N+「−」+M+文字列」というタイトルパターンと合致することを見い出す。ここで、N及びMは任意の自然数であってよい。
従って、タイトル候補抽出部142は、当該「1−1 ケース」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、先ほどと同様に、抽出したタイトル候補である「1−1 ケース」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1−1 ケース」は、対象としている文書のテキストデータ内において、記載順において2番目に抽出されたタイトル候補であるため、その記載番号は「2」となる。また、例えば、マッチングが行われた「N+「−」+M+文字列」というタイトルパターンの階層情報は「第2階層」であり、タイトル候補「1−1 ケース」の順序情報は「N=1、M=1」である。
タイトル候補抽出部142は、対象としている文書のテキストデータが終了するまで、以上説明した内容と同様の処理を繰り返す。その結果、例えば図4に示すタイトル候補の抽出結果を得ることができる。
なお、タイトル候補抽出処理においては、1つのタイトル候補が、互いに異なる複数のタイトルパターンと合致する、すなわち、1つのタイトル候補が重複して抽出されてもよい。例えば、図4に示すタイトル候補の例では、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、タイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」の両方と合致する。また、これらのタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」は、例えば、互いに異なる階層情報を有し、「N+「.」+文字列」の階層情報は「第1階層」であり、「N+「.」+M+文字列」の階層情報は「第2階層」である。従って、例えば図4に示すように、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、互いに異なるタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」と、互いに異なる階層情報「第1階層」及び「第2階層」と、関連付けて整理されてよい。
なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有し得る場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。
[3.2.タイトル選択処理]
次に、図5A、B、図6A、B及び図7A、Bを参照して、タイトル選択部143によって行われる、タイトル選択処理について説明する。
本実施形態に係るタイトル選択処理においては、タイトル選択部143が、タイトル候補抽出部142によって抽出されたタイトル候補に対して連番チェックを行う。連番チェックとは、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する処理のことを言う。
なお、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよい。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、タイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。
対象とする文書から抽出された全タイトル候補に対して連番チェックが行われる場合には、互いに異なるタイトルパターンや階層情報を有するタイトル候補に対して連番チェックが行われるため、その処理手順が比較的複雑なものになる可能性がある。一方、例えば同一の階層情報を有するタイトル候補や、同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、タイトルパターンや階層情報が統一されているため、その処理手順を比較的簡便なものとすることができる。
(同一の階層情報を有するタイトル候補に対する連番チェック)
まず、図5A、B及び図6A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補を階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明する。図5A、Bは、階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。また、図6A、Bは、階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。ここで、図5A、B及び図6A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4に示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
同一の階層情報を有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、階層情報ごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトル候補のみを抜き出したものを図5Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトル候補のみを抜き出したものを図6Aに示す。
次に、図5Aに示す、階層情報が第2階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、具体的には、例えば図5Aに示す順序情報に基づいて、タイトル候補の順序を表すN、M(N、Mは任意の自然数)が連番になっているかどうかが判断される。具体的には、連番チェックでは、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。
より具体的には、第2階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n、M=m」(n、mは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n、M=m+1」又は「N=n+1、M=1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n、M=m」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が、「N=n、M=m+1」又は「N=n+1、M=1」を満たす場合に、当該チェック対象であるタイトル候補をタイトルとして選択する。
例えば、図5Aを参照すると、階層情報が第2階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1−1 ケース」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=1、M=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1−1 ケース」を、タイトルとして選択する。
上述したように、タイトル候補「1−1 ケース」の次に記載されるタイトルの順序情報は、「N=1、M=2」(すなわち、「1−2 ・・・」等)又は「N=2、M=1」(すなわち、「2−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=1、M=2」又は「N=2、M=1」になっているかどうかをチェックする。
図5Aに示す実施例においては、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補は、「2−1 容量」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=2、M=1」である。タイトル候補「2−1 容量」の順序情報「N=2、M=1」は、上記「N=1、M=2」又は「N=2、M=1」に含まれるため、タイトル選択部143は、当該タイトル候補「2−1 容量」をタイトルとして選択する。
同様に、タイトル候補「2−1 容量」の次に記載されるタイトルの順序情報は、「N=2、M=2」(すなわち、「2−2 ・・・」等)又は「N=3、M=1」(すなわち、「3−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2、M=2」又は「N=3、M=1」になっているかどうかをチェックする。
図5Aに示す実施例においては、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補は、「5.0Vが・・・」であり、そのタイトルパターンは「N+「.」+M+文字列」、その順序情報は「N=3、M=5」である。タイトル候補「5.0Vが・・・」の順序情報「N=3、M=5」は、上記「N=2、M=2」又は「N=3、M=1」に含まれないため、タイトル選択部143は、当該タイトル候補「5.0Vが・・・」は、タイトルではないとみなす。
以下同様に、例えば図5Aに示す、階層情報が第2階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図5Bに示すように、連番チェックの結果、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、文書の第2階層を表すタイトルとして選択される。
階層情報が第2階層であるタイトル候補についての連番チェックが終わったら、次に、例えば図6Aに示す、階層情報が第1階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、階層情報が第2階層であるタイトル候補と同様に、階層情報が第1階層であるタイトル候補に対して、タイトル候補の順序を表すN(Nはタイトルパターンに対応する、任意の自然数)が連番になっているかどうかが判断される。
具体的には、第1階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n」(nは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n+1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が「N=n+1」を満たす場合には、当該チェック対象であるタイトル候補をタイトルとして選択することができる。
例えば、図6Aを参照すると、階層情報が第1階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1.対象となる機器」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1.対象となる機器」を、タイトルとして選択する。
上述したように、タイトル候補「1.対象となる機器」の次に記載されるタイトルの順序情報は、「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。
図6Aに示す実施例においては、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補は、「4.に示す・・・」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=4」である。タイトル候補「4.に示す・・・」の順序情報「N=4」は、上記「N=2」とは異なるため、タイトル選択部143は、当該タイトル候補「4.に示す・・・」は、第1階層を表すタイトルではないとみなす。
タイトル候補「4.に示す・・・」が第1階層を表すタイトルとして選択されなかったため、「4.に示す・・・」の次に記載されるタイトルの順序情報は、直前に選択されたタイトルである「1.対象となる機器」の順序番号に連続する値、すなわち「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。
図6Aに示す実施例においては、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補は、「2.選定基準詳細」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=2」である。タイトル候補「2.選定基準詳細」の順序情報「N=2」は、上記「N=2」に該当するため、タイトル選択部143は、当該タイトル候補「2.選定基準詳細」をタイトルとして選択することができる。
以下同様に、例えば図6Aに示す階層情報が第1階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択したタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図6Bに示すように、連番チェックの結果、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が、タイトルとして選択される。
ここで、上記の連番チェックの説明においては、連番チェックの際に順序情報のみを用いる方法について説明したが、本実施形態に係るタイトル選択処理においては、連番チェックを行う際に、文書の階層構造における階層の区切り位置を示す情報である区切り情報を更に用いて連番チェックが行われてもよい。具体的には、区切り情報とは、文書のテキストデータから抽出されたタイトル候補に対して、記載番号を基準として、どのタイトル候補とどのタイトル候補との間に階層の区切り位置が存在するかを示す情報であってよい。
より具体的には、タイトル選択部143は、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行うことができる。以下、図5A、B及び図6A、Bを参照して、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明する。
例えば、上述したように、図5A、Bに示す実施例においては、階層情報が第2階層であるタイトル候補に対する連番チェックの結果として、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が、タイトルとして選択される。ここで、タイトル「1−1 ケース」の記載番号は「2」であり、タイトル「2−1 容量」の記載番号は「5」である。従って、第1階層を表すタイトル候補の中で「N=2」に相当する順序番号を有するタイトルは、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在する可能性が高い。よって、タイトル選択部143は、階層情報が第2階層であるタイトル候補についての連番チェックの結果に基づいて、区切り情報として、例えば「N=2」に相当する順序番号を有する第1階層を表すタイトルが、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在するという情報を取得することができる。
タイトル選択部143は、同様に、区切り情報として、例えば「N=3」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Bに存在するという情報、及び「N=4」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Cに存在するという情報を取得することができる。
そして、タイトル選択部143は、階層情報が第1階層であるタイトル候補に対して連番チェックを行う際に、もしも順序情報が連番になっていても、順序情報であるNの値が区切り情報と整合していなければ、当該タイトル候補を、第1階層を表すタイトルではないとみなしてもよい。換言すれば、タイトル選択部143は、順序情報と区切り情報の両方に基づいて、連番チェックを行ってもよい。
このように、順序情報と区切り情報の両方に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。なお、上記の説明では、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。区切り情報は、任意の階層情報を有するタイトル候補に対する連番チェックの際に取得されてもよく、また、区切り情報が用いられる連番チェックも、任意の階層情報を有するタイトル候補に対して行われてもよい。
(同一のタイトルパターンを有するタイトル候補に対する連番チェック)
次に、図7A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補をタイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法について説明する。図7A、Bは、同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。ここで、図7A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4、図5A、B及び図6A、Bに示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。
同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、タイトルパターンごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Bに示す。
例えば、図7Aを参照すると、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補として「I 測定時のトラブル」及び「II 校正時のトラブル」が抽出されている。タイトル選択部143は、これら「I 測定時のトラブル」及び「II 校正時のトラブル」に対して連番チェックを行うことができる。
上述したように、順序情報「I」、「II」は、例えば規格「JIS X 0208」で定められる文字コードにおいて、それぞれ、「2D34」、「2D35」で表現される。従って、タイトル選択部143は、「I 測定時のトラブル」及び「II 校正時のトラブル」に対する連番チェックとして、これら「2D34」、「2D35」が連続しているかどうかを判断してもよい。図7Aに示す実施例においては、順序情報「I」、「II」に対応する文字コード「2D34」、「2D35」は、連続しているので、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」をタイトルとして選択することができる。
同じく、図7Aを参照すると、タイトルパターン「N+「.」+文字列」のタイトル候補として「1.対象となる機器」、「4.に示す・・・」、「2.選定基準」、「5.0Vが・・・」、「4.5Vの・・・」、「3.注意事項」及び「4.その他」が抽出されている。タイトル選択部143は、これらのタイトル候補の順序情報(タイトルパターン「N+「.」+文字列」のNに対応する数字)が連続しているかどうかを判断することにより、これらのタイトル候補の中から、タイトルを選択することができる。具体的には、タイトル選択部143は、連番チェックの結果から、「1.対象となる機器」、「2.選定基準」、「3.注意事項」及び「4.その他」をタイトルとして選択することができる。
タイトル選択部143は、同様に、例えば図7A、Bに示す他のタイトル候補についても、タイトルパターンごとに連番チェックを行うことにより、タイトルを選択することができる。
更に、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、タイトル選択部143は、文書のテキストデータから抽出されたタイトル候補に基づいて、当該文書の階層構造を表すタイトルに対応するタイトルパターンを選択してもよい。例えば、ある文書内におけるタイトルにおいては、同一の階層を表すタイトルであれば、同一のタイトルパターンが用いられる可能性が高い。従って、タイトル選択部143は、例えば、タイトル候補がより多く抽出されているタイトルパターンが、当該階層を表すタイトルに対応するタイトルパターンであると判断してもよい。
例えば、図7Bに示す実施例においては、階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「.」+M+文字列」である、「5.0Vが・・・」及び「4.5Vの・・・」が抽出されている。また、同じく階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「−」+M+文字列」である、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が抽出されている。
これらのタイトル候補を比較すると、タイトルパターン「N+「−」+M+文字列」の方が、より多くのタイトル候補が抽出されている。これは、つまり、対象としている文書のテキストデータ内に、「N+「−」+M+文字列」に合致するテキストパターンが、「N+「.」+M+文字列」に合致するテキストパターンよりも、より頻繁に出現していることを表している。従って、タイトル選択部143は、例えば、当該文書の第2階層を表すタイトルパターンは「N+「−」+M+文字列」であると判断することができる。同様に、タイトル選択部143は、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補と、タイトルパターン「N+「.」+文字列」のタイトル候補とを比較することにより、例えば、当該文書の第1階層を表すタイトルパターンは「N+「.」+文字列」であると判断することができる。
更に、タイトル選択部143は、当該文書の階層構造を表すタイトルに対応するとして選択したタイトルパターン以外のタイトルパターンによって抽出されたタイトル候補に対しては、連番チェックを行わなくてもよい。例えば、タイトル選択部143は、当該文書の第2階層を表すタイトルパターンが「N+「−」+M+文字列」であると判断した場合には、当該文書の第2階層を表すタイトル候補に対する連番チェックは、当該タイトルパターン「N+「−」+M+文字列」に合致するタイトル候補に対してのみ行えばよく、他のタイトル候補に対しては連番チェックを行わなくてもよい。つまり、タイトル選択部143は、全てのタイトル候補に対して連番チェック行わなくてもよく、連番チェックを行うタイトルパターンを選択してもよい。タイトル選択部143が、全てのタイトル候補に対して連番チェックを行わないことにより、タイトル選択処理における情報処理量を削減することができ、タイトル抽出処理の効率化を図ることができる。
以上、図4、図5A、B、図6A、B及び図7A、Bを参照して説明したように、本実施形態に係るタイトル候補抽出処理においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
また、本実施形態に係るタイトル選択処理においては、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよく、例えば、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。
また、本実施形態に係るタイトル選択処理においては、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。
また、本実施形態に係るタイトル選択処理においては、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックが行われるタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。
なお、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。
また、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。
また、上記[3.2.タイトル選択処理]における連番チェックの説明においては、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係るタイトル選択処理はかかる実施例に限定されない。本実施形態に係るタイトル選択処理においては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。例えば、文書によっては、記載番号が最も小さいタイトル候補が、本来はタイトルを表すテキストパターンではない場合がある。その場合、記載番号が最も小さいタイトル候補を基準として連番チェックを行っても、適切なタイトル選択が実行されない可能性がある。連番チェックの基準となるタイトルが、ユーザによって適宜設定されることにより、タイトル選択処理の正確性をより向上させることができる。
また、上記の区切り情報についての説明では、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明したが、本実施形態に係る区切り情報の取得方法はかかる実施例に限定されない。例えば、対象としている文書の階層構造が事前に明らかである場合には、当該文書の階層構造、種類等に応じて、区切り情報がユーザによって予め設定され、情報処理装置に入力されていてもよい。
また、本実施形態においては、連番チェックに係る一連の処理の中で、タイトル候補の階層情報が適宜変更されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。
例えば、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、図6Aにおいて、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が「第1階層」であると仮定して連番チェックを行う場合について説明しているが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」が第1階層を表すタイトルとして選択されなかった時点で、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が、「第1階層」以外の階層情報、例えば「第3階層」に変更されてもよい。タイトル候補「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報が「第3階層」に変更された場合には、第3階層を表すタイトルを選択するための連番チェックが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を含む、階層情報として「第3階層」を有するタイトル候補に対して行われてもよい。
<4.タイトル抽出処理手順>
次に、図8〜11を参照して、本発明の一実施形態に係るタイトル抽出処理手順について説明する。図8は、本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。なお、以下のタイトル抽出処理手順の説明において、文書読み込み部141、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<2.情報処理装置の構成>で上述しているため、ここでは詳細な説明は省略する。また、タイトル抽出処理におけるタイトル候補抽出処理及びタイトル選択処理の詳細については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で既に説明しているため、内容が重複する部分については、その説明を省略する。
図8を参照すると、本実施形態に係るタイトル抽出処理手順においては、まず、ステップS601で、文書読み込み部141が、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。
次に、ステップS603で、タイトル候補抽出部142が、ステップS601で読み込まれたセンテンス内のテキストパターンと、例えば記憶部120に記憶されているタイトルパターンとを比較する(マッチングする)。そして、ステップS603でマッチングした結果に基づいて、ステップS605で、タイトル候補が抽出され、例えば記憶部120に保存される。ここで、抽出されたタイトル候補は、例えば図4に示すように、記載番号、タイトルパターン、階層情報及び順序情報と関連付けて整理され、表(リスト)の形式で保存されてもよい。なお、ステップS603及びS605における一連の処理は、上記[3.1.タイトル候補の抽出処理]で説明した、タイトル候補抽出部142が行う一連の処理に対応している。
次に、ステップS607で、例えば記憶部120に記憶されている全てのタイトルパターンについて、ステップS603及びステップS605における一連の処理が終了したかどうかが判断される。ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了していないと判断された場合は、ステップS603に戻り、未処理のタイトルパターンについて、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、例えば記憶部120に記憶されている全てのタイトルパターンについて、タイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。
ステップS607で、ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了したと判断された場合は、ステップS609に進む。ステップS609では、ステップS601で対象とする文書の全てが読み込まれたかどうかが判断される。対象とする文書が全て読み込まれていないと判断された場合には、ステップS601に戻り、文書内の次のセンテンスが読み込まれ、当該センテンスに対して、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、対象とする文書の全てのセンテンスについて、例えば記憶部120に記憶されている全てのタイトルパターンとのタイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。従って、ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、対象とする文書の全てのテキストデータに含まれるタイトル候補が抽出され、保存された状態であると考えられる。
ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、ステップS611に進み、抽出されたタイトル候補に対して、タイトル選択部143によるタイトル選択処理が行われる。ステップS611でのタイトル選択処理については、図9〜11を参照して後で詳しく説明する。
ステップS611でのタイトル選択処理が終了することにより、本実施形態に係る一連のタイトル抽出処理が終了する。このように、図8に示す手順に従って一連の処理が行われることにより、対象とする文書から、当該文書の階層構造を表すタイトルを抽出することができる。
次に、図9を参照して、図8のステップS611におけるタイトル選択処理の処理手順について詳細に説明する。図9は、図8におけるタイトル選択処理の処理手順を示すフロー図である。なお、以下に図9〜11を用いて行うタイトル選択処理の説明では、タイトル選択処理の一例として、同一の階層情報を有するタイトル候補に対する連番チェックを行う場合について説明する。ただし、本実施形態にかかるタイトル選択処理は、かかる実施例に限定されず、他の異なる連番チェックの方法が行われてよい。なお、以下に図9〜11を用いて行うタイトル選択処理の説明は、上記[3.2.タイトル選択処理]の(同一の階層情報を有するタイトル候補に対する連番チェック)で説明したタイトル候補抽出部142が行う一連の処理に対応しているため、重複する内容については、詳細な説明は省略する。
図9を参照すると、本実施形態に係るタイトル選択処理においては、まず、ステップS701で、タイトル選択部143が、タイトルパターンに含まれる階層情報に基づいて、抽出されたタイトル候補を階層ごとに整理する。次に、ステップS703で、第2階層について整理されたタイトル候補に対して連番チェックが行われ、第2階層を表すタイトルが選択される。なお、ステップS703における、第2階層についての連番チェックについては、図10を参照して後で詳しく説明する。
次に、ステップS705で、ステップS703における連番チェックの結果から、第1階層のタイトル候補における区切り情報が取得される。
次に、ステップS707で、第1階層について整理されたタイトル候補に対して、連番チェックが行われ、第1階層を表すタイトルが選択される。そして、一連のタイトル選択処理が終了する。なお、ステップS707における、第1階層についての連番チェックについては、図11を参照して後で詳しく説明する。
次に、図10を参照して、図9のステップS703における第2階層についての連番チェックの処理手順について、詳細に説明する。図10は、図9における第2階層についての連番チェックの処理手順を示すフロー図である。
図10を参照すると、本実施形態に係る第2階層についての連番チェックにおいては、まず、ステップS801で、第2階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図5Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1−1 ケース」が、タイトルとして選択される。
次に、ステップS803で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図5Aに示す実施例であれば、タイトル「1−1 ケース」の次に記載番号が小さいタイトル候補である「2−1 容量」が連番チェック対象として選択される。
そして、次に、ステップS805で、直前に選択されたタイトルの順序情報(例えば「N=n、M=m」)と、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」であった場合には、ステップS803で選択されたタイトル候補がタイトルとして選択され(ステップS807)、更にステップS809に進む。一方、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」以外であった場合には、ステップS807がスキップされ、すなわち、当該タイトル候補がタイトルとして選択されず、ステップS809に進む。
ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第2階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS803に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS805及びステップS807における処理が繰り返される。一方、ステップS809で、第2階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第2階層についての連番チェックを終了する。
具体的には、図5Aに示す実施例であれば、ステップS805で、「1−1 ケース」の順序情報である「N=1、M=1」と、ステップS803で連番チェック対象として選択されたタイトル候補「2−1 容量」の順序情報である「N=2、M=1」とが比較される。「2−1 容量」の順序情報である「N=2、M=1」は、「N=n、M=m+1」又は「N=n+1、M=1」の関係を満たすので、ステップS807に進み、タイトル候補「2−1 容量」がタイトルとして選択される。
ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図5Aに示すように、対象としている文書には、タイトル候補「2−1 容量」以外にも第2階層を表すタイトル候補が存在するので、ステップS803に戻り、記載番号が次に小さいタイトル候補である「2−2 電源」が、改めて連番チェック対象として選択され、以降、ステップS805及びステップS807における処理が繰り返される。
次に、図11を参照して、図9のステップS707における第1階層についての連番チェックの処理手順について、詳細に説明する。図11は、図9における第1階層についての連番チェックの処理手順を示すフロー図である。
図11を参照すると、本実施形態に係る第1階層についての連番チェックにおいては、まず、ステップS901で、第1階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図6Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1.対象となる機器」が、タイトルとして選択される。
次に、ステップS903で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図6Aに示す実施例であれば、タイトル「1.対象となる機器」の次に記載番号が小さいタイトル候補である「4.に示す・・・」が連番チェック対象として選択される。
そして、次に、ステップS905で、直前に選択されたタイトルの順序情報(例えば「N=n」)と、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」であった場合には、ステップS907に進む。一方、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」以外であった場合には、当該タイトル候補はタイトルとしては選択されず、後述するステップS911に進む。
ステップS907では、図9に示すステップS705で取得された区切り情報に基づき、連番チェック対象として選択されているタイトル候補の順序情報が、当該区切り情報と整合するかどうかが判断される。連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合すると判断された場合には、当該タイトル候補がタイトルとして選択され(ステップS909)、更にステップS911に進む。一方、連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合しないと判断された場合には、ステップS909がスキップされ、すなわち、当該タイトル候補はタイトルとしては選択されず、ステップS911に進む。
ステップS911では、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第1階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS903に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS905、ステップS907及びステップS909における処理が繰り返される。一方、ステップS911で、第1階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第1階層についての連番チェックを終了する。
具体的には、図6Aに示す実施例であれば、ステップS905では、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で選択されたタイトル候補「4.に示す・・・」の順序情報である「N=4」とが比較される。「4.に示す・・・」の順序情報である「N=4」は、「N=n+1」の関係を満たさないので、ステップS803に戻り、記載番号が次に小さいタイトル候補、すなわち、図6Aに示す例であれば、タイトル候補「2.選定基準詳細」が改めて選択される。
そして、再びステップS905で、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で改めて選択されたタイトル候補「2.選定基準詳細」の順序情報である「N=2」とが比較される。「2.選定基準詳細」の順序情報である「N=2」は、「N=n+1」の関係を満たすので、ステップS907に進む。
次に、ステップS907で、タイトル候補「2.選定基準詳細」が区切り情報と整合するかどうかが判断される。図6Aに示す例であれば、情報処理装置10は、区切り情報として、「N=2」に相当する順序番号を有する第1階層を表すタイトルは、記載番号「2」と記載番号「5」の間(図6Aに示す区間A)に存在するという情報を有している。タイトル候補「2.選定基準詳細」の記載番号は「3」であるため、タイトル候補「2.選定基準詳細」は、当該区切り情報と整合する。従って、ステップS909に進み、タイトル候補「2.選定基準詳細」がタイトルとして選択される。
ステップS909でタイトルが選択されたら、次に、ステップS911で、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図6Aに示すように、対象としている文書には、タイトル候補「2.選定基準詳細」以外にも第1階層を表すタイトル候補が存在するので、ステップS903に戻り、記載番号が次に小さいタイトル候補である「5.0Vが・・・」が、改めて連番チェック対象として選択され、以降、ステップS905、ステップS907及びステップS909における処理が繰り返される。
以上、図8〜11を参照して説明したように、本実施形態に係るタイトル抽出方法においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
なお、上記では、同一の階層情報を有するタイトル候補に対して連番チェックが行われる実施例について説明したが、本実施形態に係るタイトル抽出方法は、かかる実施例に限定されない。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。
また、例えば、連番チェックは、図7A、Bに示すような、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、例えば、タイトル候補をタイトルパターンごとに整理するステップが行われた後に、タイトルパターンごとに連番チェックが行われるステップが行われてよい。
なお、図8〜11を参照して行った、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。より下位の階層を表すタイトルが抽出される場合には、例えば、図9に示すフローにおいて、ステップS707の後に、第3階層又はより下位の階層についての連番チェックを行うステップが順次追加されてよい。
また、図9に示すタイトル選択処理のフローでは、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。
また、図10及び図11に示す、第1階層及び第2階層についての連番チェックのフローでは、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係る連番チェックはかかる実施例に限定されない。本実施形態に係る連番チェックにおいては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。
また、図9に示すタイトル選択処理のフローにおいては、タイトル候補の階層情報を変更するステップが適宜追加されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、仮に何らかの階層情報を付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。
例えば、図9に示すフローにおいて、ステップS707が終了した段階では、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が選択されており、第2階層を表すタイトルとして、「1−1 ケース」、「2−1 容量」、「2−2 電源」及び「3−1 過去の事例」が選択されている。また、区切り情報として、第1階層及び第2階層の区切りが、記載番号においてどこに存在するかに関する情報が得られている。従って、例えば、タイトル選択部143は、タイトル候補として抽出はされたものの、タイトルとして選択はされなかったタイトル候補の中から、任意のタイトル候補の階層情報を「第3階層」に変更し、当該「第3階層」の階層情報を有するタイトル候補に対して、改めてタイトル選択処理を行ってよい。具体的には、例えば図6Aに示すタイトル候補の例であれば、タイトル選択部143は、タイトル候補の中から、「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報を「第3階層」に変更し、当該タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」に対して、改めて連番チェックを行うことにより、タイトル選択処理を行ってよい。このように、階層情報を変更して改めて連番チェックを行うことにより、例えば、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を、第3階層を表すタイトルとして選択することができる。
実際には、タイトルパターンに階層情報を設定する適切な方法や、タイトル選択処理における連番チェックを適切に行う方法(連番チェックをどのような単位で、どのような順番で行うか)は、文書の種類や構造に応じて異なる。従って、タイトルパターンに設定する階層情報や、タイトル選択処理における連番チェックの具体的な処理手順は、文書の種類や構造に基づいて、例えば経験則に応じて、ユーザによって適宜設定されてよい。
例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報、及び、適切な連番チェックの方法を設定してもよい。
<5.適用例>
次に、図12を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例について説明する。図12は、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。
本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、ユーザが所望の文書を検索する場合に、好適に適用することができる。
例えば、文書データのDBに対して、ある検索ワードで検索を掛けると、文書のテキストデータに当該検索ワードが含まれる文書が抽出される検索システムがあったとする。このような検索システムにおいて、検索結果の画面に、例えば文書名のみが表示されたとすると、ユーザは、文書名だけでは当該文書の内容までは把握することが難しく、所望の文書を見つけることが困難である。
そこで、例えば、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いることにより、検索結果として抽出された文書に対して、当該文書の階層構造を表すタイトルを抽出することができる。そして、例えば検索結果を表示する際に、文書名とともに、抽出したタイトルについても表示することができる。また、タイトルは、当該タイトルに含まれる階層情報に基づいて、例えば階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザは、文書内容を把握することができ、文書DBの中から所望の文書を見つけやすくなる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出することにより、文書を要約することが可能となる。
具体的には、例えば、ある文書DBに対して、検索ワードとして「機器」を用いて文書の検索を行ったとする。すると、例えば、情報処理装置10の表示部130の表示画面に、図12に示す検索結果画面が表示されてよい。図12を参照すると、例えば、文書名「機器の購入に関する基準 制御装置編」という文書には、そのテキストデータ内に、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」、「4.その他」等が存在し、また、第2階層を表すタイトルとして、「2−1 CPU」、「2−2 メモリ」、「2−3 HDD」等が存在することが、表示画面上に表示される。従って、ユーザは、検索結果画面に表示された文書名とタイトルとを同時に参照することで、文書DBの中から所望の文書を見つけることがより容易になる。
<6.ハードウェア構成>
次に、図13を参照して、本発明の一実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図13は、本発明の一実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。
情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、バス907と、入力装置909と、出力装置911と、ストレージ装置913と、通信装置915と、ドライブ917と、接続ポート919とを備える。
CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置913又はリムーバブル記憶媒体923に記録された各種プログラムに従って、情報処理装置10内の動作全般又はその一部を制御する。CPU901は、例えば、本実施形態においては、制御部140に対応する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化されるパラメータ等を一次記憶する。CPU901、ROM903及びRAM905は、CPUバス等の内部バスにより構成されるバス907により相互に接続されている。
バス907は、例えばブリッジを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バスに接続されている。
入力装置909は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザが操作する操作手段である。また、入力装置909は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応したPDA等の外部接続機器925であってもよい。さらに、入力装置909は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置10のユーザは、この入力装置909を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置911は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置、プリンタ装置等がある。出力装置911は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキスト又はイメージで表示するものであり、本実施形態においては、例えば図3に示す表示部130に対応する機能を有する。また、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置913は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置であり、本実施形態においては、例えば図3に示す記憶部120に対応する機能を有する。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。ストレージ装置913には、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等が格納される。例えば、本実施形態においては、ストレージ装置913は、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報、タイトル抽出処理の結果等の各種の情報を記憶することができる。
また、図3では明示しなかったが、本実施形態に係る情報処理装置10は、通信装置915、ドライブ917及び接続ポート919を更に有してもよい。
通信装置915は、例えば、通信網921に接続するための通信デバイス等で構成された通信インターフェースである。通信装置915は、例えば、有線又は無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置915は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置915は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置915に接続される通信網921は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。
ドライブ917は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録されている情報を読み出して、RAM905に出力する。また、ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録を書き込むことも可能である。リムーバブル記憶媒体923は、例えば、CDメディア、DVDメディア、Blu−rayメディア等である。また、リムーバブル記憶媒体923は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記憶媒体923は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。
接続ポート919は、機器を情報処理装置10に直接接続するためのポートである。接続ポート919の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート又はRS−232Cポート等がある。この接続ポート919に外部接続機器925を接続することにより、情報処理装置10は、外部接続機器925から直接各種のデータを取得したり、外部接続機器925に各種のデータを提供したりする。
なお、本実施形態では、図3に示す情報入力部110は、入力装置909、通信装置915、ドライブ917及び接続ポート919が有する情報入力機能を包括的に表現したものに対応する。つまり、<2.情報処理装置の構成>では、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターン等の各種の情報が、図3に示す情報入力部110を介して情報処理装置10に入力される実施例について説明したが、本実施形態における情報処理装置10への各種情報の入力方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンは、リムーバブル記憶媒体923からドライブ917を介して情報処理装置10に入力されてもよく、外部接続機器925から接続ポート919を介して情報処理装置10に入力されてもよい。また、例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報は、通信網921を介して配信され、通信装置915を介して情報処理装置10に入力されてもよい。
以上、本発明の実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置10の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<7.まとめ>
以上説明したように、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、以下の効果が得られる。
本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかを判断することにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。
また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックを行うタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。
また、上述した、同一の階層情報を有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番や、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。
ここで、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。また、タイトル選択処理において、連番チェックに係る一連の処理の中で、タイトル候補の階層情報は、ユーザによって適宜変更されてもよい。例えば、タイトル選択処理においては、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。
更に、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、所望の文書を検索するシステムに対して好適に適用することができる。具体的には、ある文書データのDBに対する文書データの検索結果として、文書名とともに、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いて当該文書から抽出されたタイトルが階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザが文書の内容をより把握しやすくなるため、文書DBの中から所望の文書を見つけやすくなり、ユーザの利便性が向上する。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10 情報処理装置
110 情報入力部
120 記憶部
130 表示部
140 制御部
141 文書読み込み部
142 タイトル候補抽出部
143 タイトル選択部
144 表示制御部

Claims (8)

  1. 文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、
    前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、
    を備えることを特徴とする、情報処理装置。
  2. 前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有する
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行う
    ことを特徴とする、請求項2に記載の情報処理装置。
  4. 前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行う
    ことを特徴とする、請求項2又は3に記載の情報処理装置。
  5. 前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択する
    ことを特徴とする、請求項4に記載の情報処理装置。
  6. 前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択する
    ことを特徴とする、請求項1〜5のいずれか1項に記載の情報処理装置。
  7. コンピュータが、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、
    コンピュータが、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、
    を含むことを特徴とする、タイトル抽出方法。
  8. コンピュータに、
    文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、
    前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、
    を実現させるためのプログラム。
JP2012222186A 2012-10-04 2012-10-04 情報処理装置、タイトル抽出方法及びプログラム Active JP5971069B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012222186A JP5971069B2 (ja) 2012-10-04 2012-10-04 情報処理装置、タイトル抽出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012222186A JP5971069B2 (ja) 2012-10-04 2012-10-04 情報処理装置、タイトル抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014075032A JP2014075032A (ja) 2014-04-24
JP5971069B2 true JP5971069B2 (ja) 2016-08-17

Family

ID=50749148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012222186A Active JP5971069B2 (ja) 2012-10-04 2012-10-04 情報処理装置、タイトル抽出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5971069B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304574A (ja) * 1988-06-02 1989-12-08 Nippon Telegr & Teleph Corp <Ntt> 目次索引作成装置
JPH08153101A (ja) * 1994-11-29 1996-06-11 Meidensha Corp 日本語文の校正方法
JPH09101959A (ja) * 1995-10-04 1997-04-15 Hitachi Ltd 構造化文書生成装置
JPH11232439A (ja) * 1998-02-16 1999-08-27 Toshinari Hayashi 文書画像構造解析方法

Also Published As

Publication number Publication date
JP2014075032A (ja) 2014-04-24

Similar Documents

Publication Publication Date Title
US9489372B2 (en) Web-based spell checker
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP5971069B2 (ja) 情報処理装置、タイトル抽出方法及びプログラム
JP2018067264A (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP4734400B2 (ja) 文書検索装置およびプログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
JP6805206B2 (ja) 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP7365446B2 (ja) モデルライフサイクル管理のために再利用解析を実行するための方法及びシステム
JP6703698B1 (ja) 情報提供システム
JP2009151742A (ja) ユースケースシナリオ作成支援システム、ユースケースシナリオ作成支援方法、およびユースケースシナリオ作成支援プログラム
WO2024047997A1 (ja) 文書分析装置、及び文書分析用プログラム
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
WO2023286340A1 (ja) 情報処理装置および情報処理方法
JP6213305B2 (ja) 情報処理プログラム、情報処理装置及び情報処理方法
JP2010122792A (ja) 製品名名寄せ装置、その方法及びプログラム
JP5768561B2 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2006023878A (ja) データ抽出システム
JP5741298B2 (ja) 辞書作成装置、辞書作成方法、およびプログラム
JP5344649B2 (ja) 文字列変換装置、文字列変換方法、プログラムおよび記録媒体
JP2015162170A (ja) 情報処理装置、及び制御方法
JP4612469B2 (ja) 漏洩源業務調査システム及び漏洩源業務調査方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R151 Written notification of patent or utility model registration

Ref document number: 5971069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350