JP5570202B2 - 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム - Google Patents
構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5570202B2 JP5570202B2 JP2009285688A JP2009285688A JP5570202B2 JP 5570202 B2 JP5570202 B2 JP 5570202B2 JP 2009285688 A JP2009285688 A JP 2009285688A JP 2009285688 A JP2009285688 A JP 2009285688A JP 5570202 B2 JP5570202 B2 JP 5570202B2
- Authority
- JP
- Japan
- Prior art keywords
- value data
- value
- information
- data group
- structured document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
XML言語で記述された文書は、冗長な繰り返し文字列を含む場合が多いため、文字列をトークン化して構造化文書を圧縮する技術が考えられてきた(特許文献1を参照)。
さらに、XML言語で記述された文書は、テキスト形式であるが、同じ文書内容をバイナリ形式で表現して圧縮するバイナリXML技術と呼ばれる技術が考えられてきた。バイナリXML技術の代表的な形式として、ITU-Tで標準化されているFast Infoset(ITU-T X.891)形式(非特許文献1を参照)や、W3Cで仕様が策定中のEXI(Efficient XML Interchange)形式がある。
特に、EXI形式の仕様では、文字列のトークン化等により、圧縮した文書内のノードを、さらに構造定義と値とに分割し、それぞれ別のデータ群(チャネル)に集めてデフレート圧縮するEXI圧縮形式を定義している。
一方、XMLパーサを使用して、XML文書の情報を取得するアプリケーションプログラムは、XML文書全体の情報を、XML文書の解析開始時点に一度に必要としないことが多い。すなわち、小型機器上のXMLパーサは、XML文書等の圧縮された構造化文書の解析を開始するときに、アプリケーションプログラム等の装置利用者がまだ必要としていない部分まで、一度にデータ伸長処理という負荷の高い処理を行わなければならなかった。
本発明は、このような問題点に鑑みてなされたものであり、圧縮された構造化文書の解析を行う際の処理の負荷を低減することを目的とする。
ことを目的とする。
(第1の実施形態)
まず、第1の実施形態について説明する。図1は、構造化文書解析装置の構成の一例を示すブロック図である。
記憶装置140には、解析対象である圧縮された構造化文書141が格納されている。
メモリ110には、アプリケーションプログラム等、構造化文書141を処理するソフトウェア(以下の説明では必要に応じて装置利用者と称する)から、文書解析の要求を受け付ける文書解析要求受付部111が格納されている。
また、メモリ110には、構造化文書141からチャネルと呼ばれるデータ群を取得するチャネル取得部112が格納されている。尚、チャネルには、文書構造を定義するデータ単位(イベント)を文書の構造情報として集めた構造データ群である構造チャネルと、イベントが持つ値を集めた値データ群である値チャネルとの2種類がある。
また、メモリ110には、装置利用者にイベントを通知する構造通知部114が格納されている。構造通知部114の処理の例としては、以下の処理が考えられる。即ち、SAX(Simple API for XML)やDOM(Document Object Model)のような、XMLの構造を要求するXMLパーサのAPI(Application Program Interface)関数の呼び出しである。
また、メモリ110には、構造化文書141内の構造チャネルを解析する構造チャネル解析部115が格納されている。また、メモリ110には、構造チャネルに記述されたイベントを取得するイベント取得部116が格納されている。
また、メモリ110には、デフレート圧縮されたチャネルを伸長するデータ伸長部119が格納されている。また、メモリ110には、要求されたイベントが持つ値を、装置利用者に通知する値通知部120が格納されている。値通知部120の処理の例としては、SAXやDOMのような、属性値・要素内容を要求するXMLパーサのAPI関数の呼び出しが考えられる。
また、メモリ110には、値チャネルから読み込まれた値の数を数える値カウンタ124が格納されている。また、メモリ110には、読み込まれた構造化チャネルが登録されたイベント一覧表125が格納されている。また、メモリ110には、読み込まれた値チャネルが登録された値チャネル一覧表126が格納されている。
図2(a)は、圧縮される前の構造化文書の一例を、XML形式で表現した図である。XML形式の文書は、要素(A,C)、属性(B,D)、要素内容(v3,v4)、属性値(v1,v2)等の文書構成単位で記述される。
図2(b)は、図2(a)に示す構造化文書を、EXI形式で表現した図である。EXI形式では、XML文書の要素(A,C)、属性(B,D)、要素内容(v3,v4)、属性値(v1,v2)をイベントと値とで表現する。尚、イベントの種類としては、以下のようなものがある。
SE(e):e要素開始
AT(a):a属性
CH:要素内容
EE:要素終了
図2(d)は、図2(c)に示す構造化文書を、EXI圧縮形式で表現した図である。構造チャネルと値チャネルはデフレート圧縮され、それぞれ一つの圧縮チャネルとして保存される。尚、厳密には、EXI圧縮形式では、図2(c)に示す構造化文書において、データサイズが短いチャネルがあった場合、それらをまとめて一つの圧縮チャネルとしてデフレート圧縮される場合がある。しかしながら、図2では、説明の簡易化のため、一つの圧縮チャネルに一つのチャネルが含まれている場合を示す。
図3において、値チャネル一覧表126は、値チャネルが何番目のブロックに含まれるかを示すブロック番号501の欄をもつ。また、値チャネル一覧表126は、値チャネルがブロックの何番目の値チャネルなのかを示すチャネル番号502の欄をもつ。また、値チャネル一覧表126は、値チャネルに含まれる値が、どのイベントに対応する値なのかを示すイベント503の欄をもつ。
また、値チャネル一覧表126は、値チャネルが保存されている場所を示すチャネル保存先506の欄をもつ。図3に示す例では、値チャネルが保存されている場所として、ファイル名を示しているが、値チャネルが保存されている場所は、ファイルポインタ、メモリ上のアドレス、URL等、保存場所を特定することができる記述ならばどのような情報であっても構わない。
値チャネル一覧表126では、以上の欄の情報が相互に関連付けられて登録されている。
イベント一覧表125は、構造化文書141の構造チャネルに含まれるイベントを順番に並べたイベント601の欄をもつ。また、イベント一覧表125は、イベントが値をもつ場合、その値が含まれる値チャネルが、何番目のブロックに含まれるかを示すブロック番号602の欄をもつ。尚、EXI形式の構造化文書では、属性AT(x)(ただし、x:属性名)、要素内容CHのイベントが値をもつ。
また、イベント一覧表125は、イベントが値をもつ場合、その値が含まれる値チャネルが、ブロック内の何番目の値チャネルなのかを示すチャネル番号603の欄をもつ。また、イベント一覧表125は、イベントがもつ値が、値チャネルの何番目の値であるかを示す値番号604の欄をもつ。
イベント一覧表125では、以上の欄の情報が相互に関連付けられて登録されている。
まず、文書解析要求受付部111が、圧縮された構造化文書141の解析要求を受け付けると(ステップS201)、文書読込部113は、構造化文書141を読み込む(ステップS202)。構造化文書141を読み込んだ文書読込部113は、ブロックカウンタ122の値を0に初期化する(ステップS203)。
ブロックカウンタ122の値が初期化された後、構造化文書141に含まれる全てのブロックについて、以下の処理(ステップS204〜S212)が行われる。
次に、構造チャネル解析処理により、ステップS205で取得された構造チャネルが解析される(ステップS205)。すると、ステップS205で取得された構造チャネルが属するブロックに含まれる値チャネルの数が、値チャネルカウンタ123に設定される。また、構造チャネル解析処理により、値チャネル一覧表126の、ブロック番号501、チャネル番号502、イベント503、及び値数504の欄が設定される。尚、構造チャネル解析処理の詳細については後述する。
値チャネルを保存した後、チャネル取得部112は、値チャネル一覧表126の該当する行の、データ伸長505の欄にFALSEを、チャネル保存先506の欄にファイル名をそれぞれ設定する(ステップS207)。
その後、構造通知部114は、イベント一覧表125を参照し、その内容を装置利用者に通知する(ステップS208)。
次に、値要求受付部117は、ブロック番号、値チャネルのチャネル番号、及び値番号と共に、値の要求を受け付けたか否かを判定する(ステップS209)。この判定の結果、値の要求を受け付けた場合には、値取得処理が行われて、値取得部121が、要求のあった値を取得する(ステップS210)。値通知部120は、取得された値を装置利用者に通知する(ステップS211)。一方、値の要求を受け付けていない場合には、ステップS210、ステップS211の処理を省略してステップS212に進む。
そして、チャネル取得部112は、構造化文書141の最後まで処理を終えたか否かを判定する(ステップS212)。この判定の結果、構造化文書141の最後まで処理を終えていない場合には、ステップS204に戻り、次のブロックについての処理を行う。一方、構造化文書141の最後まで処理を終えた場合には、図5のフローチャートによる処理を終了する。
まず、構造チャネル解析部115は、データ伸長部119に、ステップS205で取得された構造チャネルの伸長を要求する(ステップS301)。すると、データ伸長部119は、構造チャネルのデータ伸長を行う(ステップS302)。
データ伸長が行われた後、構造チャネル解析部115は、値チャネルカウンタ123の値を0に初期化する(ステップS303)。そして、構造チャネルに含まれる全てのイベントについて、以下の処理(ステップS304〜S311)が行われる。
この判定の結果、取得したイベントが値への参照をもつものである場合には、ステップS306の処理に移る。一方、取得したイベントが値への参照をもつものでない場合には、後述するステップS310の処理に移る。
一致する行がなかった場合、構造チャネル解析部115は、値チャネルカウンタ123に「1」を加算する(ステップS307)。
次に、構造チャネル解析部115は、値チャネル一覧表126の該当する行における値数504に「1」を加算する(ステップS309)。
まず、値要求受付部117は、値チャネル選択部118に、要求されたブロック番号、チャネル番号を指定し、値チャネルの選択を要求する(ステップS401)。
要求を受けた値チャネル選択部118は、値チャネル一覧表126を参照し、指定されたブロック番号、チャネル番号に一致する行を検索する。値チャネル選択部118は、検索した行のデータ伸長505の値と、チャネル保存先506の値を取得する(ステップS402)。
次に、値要求受付部117は、要求された値番号と、ステップS402で取得されたデータ伸長の有無の値及びチャネル保存先とを指定し、値取得部121にイベントの値の取得を要求する(ステップS403)。
一方、値チャネルのデータ伸長がまだ行われていない場合、値取得部121は、データ伸長部119に、値チャネルのデータ伸長を要求する(ステップS405)。データ伸長の要求を受けたデータ伸長部119は、値チャネルのデータ伸長を行った後、伸長した値チャネルをファイルに保存する。そして、データ伸長部119は、値チャネル一覧表126の、データ伸長505の欄にTRUEを、チャネル保存先506の欄に保存したファイル名をそれぞれ設定する(ステップS406)。
まず、値取得部121は、値チャネルから値を1つ取得し、値カウンタ124に「1」を加算する(ステップS408)。
次に、値取得部121は、要求された値番号と、値カウンタ124の値とが一致したか否かを判定する(ステップS409)。この判定の結果、要求された値番号と、値カウンタ124の値とが一致しなかった場合には、ステップS410に移る。そして、ステップS408に戻り、未取得の値について処理を行う。
そして、要求された値番号と、値カウンタ124の値とが一致した場合、値取得部121は、値通知部120に取得した値を通知する(ステップS411)。そして、図7のフローチャートによる処理を終了する。
次に、本発明の第2の実施形態について説明する。第1の実施形態では、値取得部121が取得した値が、そのまま装置利用者(アプリケーションプログラム等)に通知可能な値である場合を例に挙げて説明した。
しかしながら、EXI圧縮形式の構造化文書では、イベントから参照される値が文字列型であった場合、文字列が値チャネルに含まれる代わりに、解析処理中に作成される文字列テーブルのインデックス番号が値チャネルに含まれている場合がある。そこで、本実施形態では、イベントから参照される値が、文字列テーブルのインデックス番号だった場合について説明する。このように本実施形態と第1の実施形態とは、値取得処理(図5のステップS210を参照)の一部が主として異なる。よって、本実施形態の説明において、第1の実施形態と同一の部分については、図1〜図7に付した符号と同一の符号を付す等して詳細な説明を省略する。
図8において、構造化文書解析装置800は、メモリ810と、CPU130とを備える。記憶装置140には、解析対象である圧縮された構造化文書841が格納されている。メモリ810には、図1に示したメモリ110内の構成部に加えて以下の構成部が格納されている。
すなわち、メモリ810には、文字列テーブルを生成する文字列テーブル生成部827と、文字列テーブルを更新する文字列テーブル更新部828とが格納されている。また、メモリ810には、解析処理中に、文字列テーブルに登録する値チャネルの範囲を選択する文字列テーブル化範囲選択部829が格納されている。
文字列テーブル一覧表831は、どのイベントから参照される値であるかを示すイベント1101の欄をもつ。尚、EXI形式の構造化文書では、文字列テーブルは、イベント毎に生成されるが、イベントで共通の文字列テーブルをもつ形式では、図9に示すように、文字列テーブルが複数の行を有する必要はない。
また、文字列テーブル一覧表831は、文字列テーブル832の名前を示す文字列テーブル名1102の欄をもつ。図9に示す例では、文字列テーブル名1102としてファイル名を使用しているが、文字列テーブル名1102は、ファイルポインタ、メモリ上のアドレス、URL等、保存場所を特定することができる記述ならばどのような情報であっても構わない。
文字列テーブル一覧表831では、以上の欄の情報が相互に関連付けられて登録されている。
尚、EXI形式の構造化文書では、厳密にはCH(要素内容)イベントに対する文字列テーブルは、文書全体にまたがって文字列を登録するグローバル文字列テーブルと、文書の一部に関係する文字列を登録するローカル文字列テーブルとがある。しかしながら、両テーブルとも、文字列型の値の取得に関する処理はほとんど同じであるため、ここでは、ローカル文字列テーブルの詳細な説明を省略する。
文字列テーブル832は、文字列1202の欄に登録されている文字列への参照番号1201の欄をもつ。文字列テーブル832では、これらの欄の情報が相互に関連付けられて登録されている。
図11において、ステップS901〜S910の処理は、それぞれ図7のステップS401〜S410の処理と同じであるため、それらの詳細な説明を省略する。
値取得部121は、取得した値が文字列の参照番号であるか否かを判定する(ステップS911)。この判定の結果、取得した値が文字列の参照番号でない場合には、第1の実施形態と同様に、値取得部121は、値通知部120に、取得した値を通知する(ステップS913)。一方、取得した値が文字列の参照番号だった場合には、文字列値取得処理(ステップS912)を行った後にステップS913に進む。
まず、値取得部121は、文字列テーブル選択部830に対し、イベントを示して対応する文字列テーブルを要求する(ステップS1001)。尚、イベントは、例えば、値チャネル一覧表126における、ステップS901で要求された値チャネルに対応するイベント503の値から得られる。
要求を受けた文字列テーブル選択部830は、文字列テーブル一覧表831を参照し、イベント1101の欄の値と、示されたイベントとが一致する行を検索する(ステップS1002)。
文字列テーブル選択部830は、イベント1101の欄の値と、示されたイベントとが一致する行の文字列テーブル名1102の欄を参照し、文字列テーブル名が登録されているか否かを判定する(ステップS1003)。この判定の結果、文字列テーブル名が登録されている場合には、ステップS1004の処理に、登録されていなかった場合には、ステップS1014の処理に移る。
そして、ステップS1003で登録されていたと判定された文字列テーブル、又は、ステップS1015で作成された文字列テーブルから、該当する参照番号が見つかるまで、以下の処理(ステップS1004〜S1013)が繰り返される。
そして、値取得部121は、参照番号に該当する文字列が文字列テーブル832にあるか否かを判定する(ステップS1005)。この判定の結果、該当する文字列があった場合、値取得部121は、その文字列を取得する(ステップS1016)。そして、図12のフローチャートによる処理を終了する。
一方、該当する文字列がなかった場合、値取得部121は、文字列テーブル更新部828に、イベントに対応する文字列テーブルの更新を要求する(ステップS1006)。
次に、文字列テーブル化範囲選択部829は、値チャネル一覧表126を参照し、選択した値チャネルのチャネル保存先506の値を、文字列テーブル更新部828に通知する(ステップS1009)。通知を受け取った文字列テーブル更新部828は、選択された値チャネルのデータ伸長をデータ伸長部119に要求する(ステップS1010)。
次に、文字列テーブル更新部828は、値チャネルから順番に値を取得し、値が文字列型であり、且つ、実際の文字列が記述されていた場合に、文字列テーブル832に、新しい参照番号1201と文字列1202とを登録する(ステップS1012)。
その後、文字列テーブル更新部828は、文字列テーブル一覧表831の該当する読込済ブロック番号1103を、実際に読み込んだブロック番号に更新する(ステップS1013)。
以上のようにイベントから参照される値が、文字列テーブルのインデックス番号で合っても、第1の実施形態で説明したのと同様の効果を得ることができる。
本発明は、以下の処理を実行することによっても実現される。即ち、まず、以上の実施形態の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)が当該コンピュータプログラムを読み出して実行する。
Claims (10)
- 文書の構造情報を有する構造データ群と、当該構造情報に対応する値データを有する値データ群とを含む、圧縮された構造化文書を解析する構造化文書解析装置であって、
前記構造データ群を伸長して、前記構造情報を取得する構造取得手段と、
前記構造取得手段により取得された構造情報と、当該構造情報に対応する値データと、当該値データを有する値データ群の識別情報と、当該値データ群の伸長の有無を示す伸長有無情報と、当該値データ群の保存先と、を相互に関連付けて値データ群一覧表に登録する値データ群一覧表登録手段と、
前記構造取得手段により取得された構造情報と、当該構造情報に対応する値データの識別情報と、当該値データを有する値データ群の識別情報と、を相互に関連付けて構造情報一覧表に登録する構造情報一覧表登録手段と、
前記構造情報一覧表の情報を、前記構造化文書を処理するソフトウェアに通知する構造通知手段と、
前記ソフトウェアから、前記値データの識別情報と前記値データ群の識別情報とが指定されて、前記値データの要求があると、前記値データ群一覧表から、前記指定された値データ群の識別情報に関連付けられている、前記伸長有無情報及び前記値データ群の保存先を取得する値選択手段と、
前記値選択手段により取得された情報に基づいて、伸長されていない値データ群を伸長し、当該値データ群に含まれる値データの中から前記要求に一致する値データを取得する値取得手段と、
前記値取得手段により取得された値データを、前記ソフトウェアに通知する値通知手段と、を有することを特徴とする構造化文書解析装置。 - 値データと、当該値データへの参照情報とが相互に関連付けて登録されたボキャブラリテーブルを記憶するボキャブラリテーブル記憶手段と、
前記値取得手段により、値データへの参照情報が取得されたか否かを判定する判定手段と、
前記値取得手段により、値データへの参照情報が取得された場合、前記ボキャブラリテーブル記憶手段により記憶されたボキャブラリテーブルを読み出すボキャブラリテーブル読み出し手段と、
前記ボキャブラリテーブル読み出し手段により読み出されたボキャブラリテーブルから、前記値取得手段により取得された参照情報に対応する値データを取得する第2の値取得手段と、を有し、
前記構造化文書の値データ群には、前記値データの代わりに、値データへの参照情報が含まれており、
前記値選択手段は、前記ソフトウェアから、前記値データ群の識別情報が指定されて、前記値データの参照情報の要求があると、前記値データ群一覧表から、前記指定された値データ群の識別情報に関連付けられている、前記伸長有無情報及び前記値データ群の保存先を取得し、
前記値取得手段は、前記値選択手段により取得された値データ群を伸長して、前記要求に一致する値データ又は前記要求に一致する値データへの参照情報を取得し、
前記値通知手段は、前記値取得手段により、値データへの参照情報が取得された場合には、前記第2の値取得手段により取得された値データを、前記ソフトウェアに通知することを特徴とする請求項1に記載の構造化文書解析装置。 - 前記構造情報と、前記ボキャブラリテーブルの識別情報と、当該ボキャブラリテーブルに登録されている値データ群の識別情報である登録済値データ群識別情報とが相互に関連付けて登録されたボキャブラリテーブル一覧表を記憶するボキャブラリテーブル一覧表記憶手段と、
前記ボキャブラリテーブル読み出し手段により読み出されたボキャブラリテーブルに、前記値取得手段により取得された参照情報に対応する値データが登録されているか否かを判定する第2の判定手段と、
前記ボキャブラリテーブル読み出し手段により読み出されたボキャブラリテーブルに、前記値取得手段により取得された参照情報に対応する値データが登録されていない場合に、前記ボキャブラリテーブルに反映する値データ群を選択するボキャブラリテーブル化範囲選択手段と、
前記ボキャブラリテーブル化範囲選択手段により選択された値データ群を伸長した結果、値データが得られた場合、当該値データと、当該値データへの参照情報とを相互に関連付けて前記ボキャブラリテーブルに登録するボキャブラリテーブル更新手段と、を有し、
前記ボキャブラリテーブル読み出し手段は、前記値取得手段により、値データへの参照情報が取得された場合、前記値データ群一覧表に登録されている構造情報であって、前記要求において指定された値データ群の識別情報に対応する構造情報を、前記ボキャブラリテーブル一覧表に登録されている構造情報から選択し、選択した構造情報に対応するボキャブラリテーブルを、前記ボキャブラリテーブル一覧表から選択し、
前記ボキャブラリテーブル化範囲選択手段は、前記値データ群一覧表において前記ボキャブラリテーブル読み出し手段により選択された構造情報に対応づけられている値データ群の識別情報であって、前記ボキャブラリテーブル一覧表に登録されている登録済み値データ群識別情報とは異なる値データ群の識別情報に基づく値データ群を選択することを特徴とする請求項2に記載の構造化文書解析装置。 - 前記ボキャブラリテーブルに登録されている値データが文字列であることを特徴とする請求項3に記載の構造化文書解析装置。
- 前記構造化文書は、W3CのEXI圧縮形式の構造化文書であり、
前記登録済みデータ識別情報は、前記ボキャブラリテーブルに登録済みの値チャネルが属するブロック番号を含み、
前記ボキャブラリテーブル化範囲選択手段は、前記ソフトウェアに通知する値データを含む値チャネルのブロック番号と、前記登録済みデータ識別情報であるブロック番号とを比較した結果に基づいて、前記ボキャブラリテーブルに登録する値データを含む値チャネルを選択することを特徴とする請求項3又は4に記載の構造化文書解析装置。 - 前記構造化文書は、W3CのEXI圧縮形式の構造化文書であり、
前記構造データ群は、構造チャネルであり、
前記値データ群は、値チャネルであることを特徴とする請求項1〜5の何れか1項に記載の構造化文書解析装置。 - 前記構造化文書は、W3CのEXI圧縮形式の構造化文書であり、
前記構造情報は、イベントの情報であることを特徴とする請求項1〜6の何れか1項に記載の構造化文書解析装置。 - 前記構造通知手段により通知される情報と、前記値通知手段により通知される値データが、XMLパーサであるSAX又はDOMのAPI(ApplicationProgramInterface)を用いて通知されることを特徴とする請求項1〜7の何れか1項に記載の構造化文書解析装置。
- 文書の構造情報を有する構造データ群と、当該構造情報に対応する値データを有する値データ群とを含む、圧縮された構造化文書を解析するための工程を構造化文書解析装置により実行する構造化文書解析方法であって、
前記工程は、
前記構造データ群を伸長して、前記構造情報を取得する構造取得工程と、
前記構造取得工程により取得された構造情報と、当該構造情報に対応する値データと、当該値データを有する値データ群の識別情報と、当該値データ群の伸長の有無を示す伸長有無情報と、当該値データ群の保存先と、を相互に関連付けて値データ群一覧表に登録する値データ群一覧表登録工程と、
前記構造取得工程により取得された構造情報と、当該構造情報に対応する値データの識別情報と、当該値データを有する値データ群の識別情報と、を相互に関連付けて構造情報一覧表に登録する構造情報一覧表登録工程と、
前記構造情報一覧表の情報を、前記構造化文書を処理するソフトウェアに通知する構造通知工程と、
前記ソフトウェアから、前記値データの識別情報と前記値データ群の識別情報とが指定されて、前記値データの要求があると、前記値データ群一覧表から、前記指定された値データ群の識別情報に関連付けられている、前記伸長有無情報及び前記値データ群の保存先を取得する値選択工程と、
前記値選択工程により取得された情報に基づいて、伸長されていない値データ群を伸長し、当該値データ群に含まれる値データの中から前記要求に一致する値データを取得する値取得工程と、
前記値取得工程により取得された値データを、前記ソフトウェアに通知する値通知工程と、を有することを特徴とする構造化文書解析方法。 - 文書の構造情報を有する構造データ群と、当該構造情報に対応する値データを有する値データ群とを含む、圧縮された構造化文書を解析することをコンピュータに実行させるためのコンピュータプログラムであって、
前記構造データ群を伸長して、前記構造情報を取得する構造取得工程と、
前記構造取得工程により取得された構造情報と、当該構造情報に対応する値データと、当該値データを有する値データ群の識別情報と、当該値データ群の伸長の有無を示す伸長有無情報と、当該値データ群の保存先と、を相互に関連付けて値データ群一覧表に登録する値データ群一覧表登録工程と、
前記構造取得工程により取得された構造情報と、当該構造情報に対応する値データの識別情報と、当該値データを有する値データ群の識別情報と、を相互に関連付けて構造情報一覧表に登録する構造情報一覧表登録工程と、
前記構造情報一覧表の情報を、前記構造化文書を処理するソフトウェアに通知する構造通知工程と、
前記ソフトウェアから、前記値データの識別情報と前記値データ群の識別情報とが指定されて、前記値データの要求があると、前記値データ群一覧表から、前記指定された値データ群の識別情報に関連付けられている、前記伸長有無情報及び前記値データ群の保存先を取得する値選択工程と、
前記値選択工程により取得された情報に基づいて、伸長されていない値データ群を伸長し、当該値データ群に含まれる値データの中から前記要求に一致する値データを取得する値取得工程と、
前記値取得工程により取得された値データを、前記ソフトウェアに通知する値通知工程と、をコンピュータに実行させることを特徴とするコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009285688A JP5570202B2 (ja) | 2009-12-16 | 2009-12-16 | 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム |
US12/967,993 US20110145700A1 (en) | 2009-12-16 | 2010-12-14 | Structured document analysis apparatus and structured document analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009285688A JP5570202B2 (ja) | 2009-12-16 | 2009-12-16 | 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011128810A JP2011128810A (ja) | 2011-06-30 |
JP5570202B2 true JP5570202B2 (ja) | 2014-08-13 |
Family
ID=44144307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009285688A Expired - Fee Related JP5570202B2 (ja) | 2009-12-16 | 2009-12-16 | 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110145700A1 (ja) |
JP (1) | JP5570202B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014219090A1 (de) * | 2014-09-22 | 2016-03-24 | Siemens Aktiengesellschaft | Gerät mit Kommunikationsschnittstelle und Verfahren zur Steuerung eines Datenbankzugriffs |
CN109962958B (zh) * | 2017-12-26 | 2022-05-03 | 阿里巴巴(中国)有限公司 | 文档处理方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2813743B1 (fr) * | 2000-09-06 | 2003-01-03 | Claude Seyrat | Procede de compression/decompression de documents structures |
JP4774145B2 (ja) * | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
FR2818409B1 (fr) * | 2000-12-18 | 2003-03-14 | Expaway | Procede pour diviser des documents structures en plusieurs parties |
FR2820563B1 (fr) * | 2001-02-02 | 2003-05-16 | Expway | Procede de compression/decompression d'un document structure |
AU2002253002B2 (en) * | 2001-02-05 | 2005-03-17 | Expway | Method and system for compressing structured descriptions of documents |
JP2005018672A (ja) * | 2003-06-30 | 2005-01-20 | Hitachi Ltd | 構造化文書の圧縮方法 |
CN1697327A (zh) * | 2004-05-13 | 2005-11-16 | 皇家飞利浦电子股份有限公司 | 一种顺序压缩/解压缩数据的方法及装置 |
JP2008140157A (ja) * | 2006-12-01 | 2008-06-19 | Hitachi Ltd | 構造化文書処理装置 |
-
2009
- 2009-12-16 JP JP2009285688A patent/JP5570202B2/ja not_active Expired - Fee Related
-
2010
- 2010-12-14 US US12/967,993 patent/US20110145700A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2011128810A (ja) | 2011-06-30 |
US20110145700A1 (en) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8418053B2 (en) | Division program, combination program and information processing method | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
JPH08255155A (ja) | 全文登録語検索装置および方法 | |
US8620990B2 (en) | Parsing contents of an e-Form | |
US20070055679A1 (en) | Data expansion method and data processing method for structured documents | |
CN104636464B (zh) | 访问文件的方法和装置 | |
WO2017036348A1 (zh) | 一种可扩展标记语言xml文档的压缩、解压方法和装置 | |
JP2005234837A (ja) | 構造化文書処理方法、構造化文書処理システム及びそのプログラム | |
US7069292B2 (en) | Automatic display method and apparatus for update information, and medium storing program for the method | |
JP2005100057A (ja) | 文書変換装置 | |
JP5570202B2 (ja) | 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム | |
CN117556011A (zh) | 基于生成式大模型的内部交互问答辅助方法及*** | |
CN110795920B (zh) | 一种文档生成方法及设备 | |
JP2010267092A (ja) | 情報処理装置、情報処理方法 | |
JP5142638B2 (ja) | 文書変換装置、文書変換方法 | |
JP2010250449A (ja) | 情報処理装置、情報処理方法 | |
CN110554996A (zh) | 一种epub文件快速打开方法和*** | |
CN110928549B (zh) | 一种重编辑前端脚本程序的方法及装置 | |
JPWO2005101210A1 (ja) | データ解析装置およびデータ解析プログラム | |
CN111475679B (zh) | Html文档处理方法、页面显示方法和设备 | |
CN114063943A (zh) | 数据传输***、方法、装置、介质和设备 | |
US20080208876A1 (en) | Method of and System for Providing Random Access to a Document | |
JP4887726B2 (ja) | 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 | |
WO2004079586A1 (ja) | マークアップ言語の処理を最適に行なうことのできるデータ変換方法 | |
JP2005352561A (ja) | データベースサーバ及びデータベースクライアント |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140527 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140624 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5570202 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |