JP2006024179A - 構造化文書処理装置、構造化文書処理方法、及びプログラム - Google Patents
構造化文書処理装置、構造化文書処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2006024179A JP2006024179A JP2004314713A JP2004314713A JP2006024179A JP 2006024179 A JP2006024179 A JP 2006024179A JP 2004314713 A JP2004314713 A JP 2004314713A JP 2004314713 A JP2004314713 A JP 2004314713A JP 2006024179 A JP2006024179 A JP 2006024179A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- node
- new
- original
- state transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 状態遷移図情報記憶手段101は、元構造化文書109の元ノードが元構造化文書109の先頭からの出現順に遷移する状態遷移図に係る情報を状態遷移図情報として記憶する。選定対抽出手段102は、順番上、相互に対応する新ノード及び元ノードの対を選定対として抽出する。一致性判定手段103は、選定対の一致性の有無をそれらの記述に基づき判定する。ノード認定手段104は、一致性有りの選定対に対しては、元ノードを新ノードの被利用ノードに認定する。遷移履歴情報生成手段105は、被利用ノードについての遷移履歴に係る情報を遷移履歴情報として生成する。類似度検出手段106は、遷移履歴情報に基づき元構造化文書109と新構造化文書110との類似度を検出する。
【選択図】 図1
Description
(a1)1個の元構造化文書109と新構造化文書110との類似度を調べ、類似度が基準値以上であれば、元構造化文書109の構文解析結果を新構造化文書110の構文解析結果として利用するSAX(Simple API for XML)インターフェース
(a2)複数個の元構造化文書109の中から最類似の元構造化文書109又は基準値以上の類似度をもつ1個の元構造化文書109を探し出し、該元構造化文書109の構文解析結果を新構造化文書110の構文解析結果として利用するSAXインターフェース
(b)各元構造化文書109への類似度に基づく新構造化文書110の文書クラスの推測又は元構造化文書109−新構造化文書110間の関連付け
(c)大学教授が、新しく提出されたレポートに対し、すでに提出済みの多数のレポートのどれに類似するかを知る際の支援装置や、さらに、類似する提出済みのレポートのどこが同一で、どこが異なるかを知る際の支援装置
(a)XML文書の文字コードをユニコード(Unicode)の所定の文字に復号する。
(b)XML文書内の文字列に対して、タグを認識し、この認識に基づき、要素名、属性名、属性値、テキスト・ノードの文字列について、XMLの生成規則に適合しているか否かを検査する。
(c)名前空間の処理では、名前空間の宣言を認識し、それぞれの要素、属性の接頭辞から名前空間のURIをバインドする。
(b)既に状態遷移機械中に多数の重複状態として出現するイベント
(c)規則性に乏しいPI(Processing Information)イベントやCommentイベント(XML文書では、<!--〜-->の記述となる。)
(a)文字コードの復号化のステップにおいて、XMLの文法はUnicodeの文字セットを用いて記述されているため、それぞれの文字コード(ASCII、ISO-8859-1、UTF-8、Shift-JIS など)をUnicodeのどの文字に当たるかを復号化する必要がある。
(b)字句解析及び構文解析のステップでは、XML文書の文字列に対して、タグを認識し、それぞれの要素名や属性名、属性値、テキスト・ノードの文字列などがそこで用いて良い文字集合以外の文字を使っていないか、などXMLの生成規則に照らして構文が間違っていないかの検査が行われる。
(c)整形式の検査では開始タグと終了タグの名前が一致しているか、一つの要素に同じ名前の属性名が2つ以上存在しないか、などが確かめられる。
(d)名前空間の処理では名前空間の宣言を認識し、それぞれの要素、属性の接頭辞から名前空間のURIをバインドする、また、宣言されていない接頭辞が使われていないか検査する必要がある。
(2)ev1がEndElementの場合(S422→S423):この場合、新文書が整形式であるならば、かならず(XML文書のツリー構造における)同一の深さでev1と同一のEndElementが出現するはずなので、深さが同一でev1とev2が一致するところまで新文書に対して部分パースを行い(S423)、生成されたイベント列を差分イベント列(具体的には、後述の図24のS471で説明するevidiff[j]の部分イベント列のこと)とする。
(3−1)ev2がStartElementであり、ev1,ev2の名前空間宣言が相互に異なるとき(S425→S426→S427):
[具体例]
元XML文書:<a xmlns="ns1"> <b/> </a>
新XML文書:<a xmlns="ns2"> <b/> </a>
この場合には要素中にあるQNameがすべて異なる可能性があるので、要素内をすべてパースする(S427)。(部分木の解析)
(3−2) それ以外のとき(S425→S426→S428):ev1とev2とで、非局所的に影響が異なるものは何もないので、ev2をev1の差分として採用する(S428)。
(4−1) ev2がStartElementであるとき(S431→S427):(3−1)と同様にev2に対応する要素をパースする(S427)。結果は差分として採用する。
[具体例]
元XML文書:<a> <b/> </a>
新XML文書:<a> <b> test </b> </a>
(4−2) それ以外のとき(S431→S428):ev2は非局所的に影響を与えないので、ev2を差分として採用する(S428)。
(a)差分が十分に小さい比較対象のXML文書が見つかった場合:生成された差分を元に、元のイベント列とマージし、アプリケーション・プログラムに通知する。この場合、生成済みイベントのほとんどが再利用されることが期待される。
(b)差分が十分に小さい比較対象のXML文書が見つからなかった場合:差分による構文解析はあきらめ、1回目のXML文書の解析と同じように、既存のXML構文解析器と同様の構文解析を行い、それに加えてバイト列(又は文字列)としてそのXML文書を保存し、構文解析結果を記録する。これによってこのXML文書も以降の構文解析の比較対象に加えられ、以後このXML文書に対し類似性の高い文書の構文解析も効率化することができる。
[実施例1の構文解析処理例1]
1回目に以下のようなXML文書を元XML文書として構文解析したとする。
<SOAP-ENV:Envelope xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/" xmlns:xsi="http://www.w3.org/1999/XMLSchema-instance" xmlns:xsd="http://www.w3.org/1999/XMLSchema">
<SOAP-ENV:Body>
<ns1:doGetCachedPage xmlns:ns1="urn:GoogleSearch"
SOAP-ENV:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/">
<key xsi:type="xsd:string">00000000000000000000000000000000</key>
<url xsi:type="xsd:string">http://www.***.com/</url>
</ns1:doGetCachedPage>
</SOAP-ENV:Body>
</SOAP-ENV:Envelope>
00: Start Document: (0, 0), -
01: Start Element: (0, 88), "SOAP-ENV:Envelope" ..
..(省略)..
12: Characters: (777, 22), "http://www.***.com/"
..(省略)..
20: End Document: (2109, 0), -
<SOAP-ENV:Envelope xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/" xmlns:xsi="http://www.w3.org/1999/XMLSchema-instance" xmlns:xsd="http://www.w3.org/1999/XMLSchema">
<SOAP-ENV:Body>
<ns1:doGetCachedPage xmlns:ns1="http://www.yahoo.com/"
SOAP-ENV:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/">
<key xsi:type="xsd:string">00000000000000000000000000000000</key>
<url xsi:type="xsd:string">http://www.yahoo.com/</url>
</ns1:doGetCachedPage>
</SOAP-ENV:Body>
</SOAP-ENV:Envelope>
このとき、本発明の処理系は、解析済みの文書と比較していって、787文字目まで(http://www.yahoo.com/のうちhttp://www.まで)は一致していることを確認し、788文字目が異なっている(解析済みXML文書では「g」、新XML文書では「y」)ことを発見する。
Offset 12 length 1 => length 1
< Characters "http://www.***.com/"
> Characters "http://www.yahoo.com/"
SAXイベントとして、0番目から11番目までは、解析済みの文書のものを利用する。12番目のイベントは新規に部分処理したテキスト・ノード「http://www.yahoo.com/」を用いる。13番目から20番目は、解析済みの文書のものを利用する。
次の例として、以下の文章が既に解析済みであったとする。
<aaa>
<bbb xxx="xxx"/>
</aaa>
00: Start Document: (0, 0), -
01: Start Element: (0, 5), "aaa"
02: Characters: (5, 3), "\n "
03: Empty Element: (8, 16), "bbb", [Attribute Name "xxx", Value "xxx"]
04: Characters: (24, 1), "\n"
05: End Element: (25, 6), "aaa"
06: End Document: (31, 0), -
<aaa>
<ccc yyy="zzz"> test </ccc>
</aaa>
< EmptyElement "bbb", [Attribute Name "xxx", Value "xxx"]
> StartElement "ccc", [Attribute Name "yyy", Value "zzz"]
> Characters " test "
> EndElement "ccc"
SAXイベントとして、0番目から2番目までは、解析済みの文書のものを利用する。3番目から5番目のイベントは新規に部分処理した3つのイベントを用いる。6番目から8番目は、解析済みの文書の4番目から6番目ものを利用する。
次の例として、以下の文章が既に解析済みであったとする。
<aaa>
<bbb xxx="xxx"/>
</aaa>
<aaa>
<bbb xxx="xxx"> </ccc>
</aaa>
本発明が有効に機能する場面を挙げる。図25はWebサービスのシステム構成図である。インターネット500又はイントラネットには、複数個のサーバ(プロバイダ)501a〜501nと共に、複数個のクライアント(リクエスタ)502a〜502mが接続されている。Webサービスでは、各サーバ501a〜501nは、各クライアント502a〜502mからのリクエストのメッセージを受け付け、それに対してレスポンスのメッセージを返すようになっている。これらメッセージは、SOAPにより規定されるXML文書となっている。本発明の構造化文書処理装置は、例えば、これらサーバ501a〜501n及びクライアント502a〜502mに実装されて、メッセージの構文解析を行なう。Webサービスでは、構文解析するXML文書は、Webサービスの相手方(サーバが本人であれば、相手方はクライアントであり、クライアントが本人であれば、相手方はサーバとなる。)が作成したものであるが、本発明の構造化文書処理装置において構文解析するXML文書(新構造化文書)は、構造化文書処理装置が実装されているコンピュータ本人の所定のアプリケーション・プログラムが作成したり、コンピュータ自身のハード・ディスク装置に格納されているXML文書のこともあり得ることに注意されたい。Webサービスにおける本発明の適用の具体例を説明する。
本発明では構文解析を繰り返し行ううちに、比較対象のXML文書の数が増加し処理が非効率になる場合が考えられる。しかし、類似性の非常に高い文書が1つ見つかった時点で以降の比較は必要なく、また類似性の低いXML文書との比較では早い段階で類似性の閾値を越え、処理を打ち切ることができるため大きな負荷とはならない。
ある処理系で作られたXML文書を解析済みの場合、同じ処理系で作られたXML文書を解析する処理が高速化される。解析済みでない文書を解析する処理は遅くなる。同じ処理系で作られた類似の文書を頻繁に処理する場合には、全体として解析処理が高速化されることになる。
c21:<p:e xmlns:p="urn:example">text<x a="ccc" p:b="ddd"/></p:e>
802: {Attributes: }
803: {NSDecls: (prefix="p", uri="urn:example")}]
804:[Text: value="text"]
805: [EmptyElementTag: name="x" uri=""
806: {Attribute: (name="a", uri="", value="ccc")
807: (name="b", uri="urn:example", value="ddd"}]
808: [EndTag: name="e" uri="urn:example"]
[EmptyElementTag: name="y" uri="" {Attribute: }]
[EmptyElementTag: name="x" uri=""
{Attribute: (name="a", uri="", value="ccc")
(name="b", uri="urn:example", value="ddd"}]
(b)既に状態遷移機械中に多数の重複状態として出現するイベント
(c)規則性に乏しいPIイベントやCommentイベント
文書A: <a>x<b>y</b></a>
文書B: <a>x<c>z</c></a>
文書C: <d>z</d>
文書D: <a><b>y</b><c>x</c></a>
この機構は既存文書の類似構造と、その差分を高速に抽出することができるので、差分処理に適している。例えば、類似したクエリを多量に処理するべきウェブ・サービスに適用すると、パースする部分を最小限に抑えられるため、速度は飛躍的に向上する。しかも、キャッシュしておく解析済み文書を増やしても分岐探索には高々O(logN)しかかからないため、最悪でも速度はO(logN)しかかからない。実際には同一の状態は新たに作られないので、効率はもっとよいことが期待される。
(a)キャッシュするXML文書をもとにして、図33で説明した機構をもとづいて状態遷移機械を作成する。
(b)新規に解析するXML文書に対して、図33で説明した方法で差分を抽出し、差分部分だけを部分パースする。
(c)解析結果は、状態遷移機械の各状態の遷移履歴に基づいて全体をパーサ利用側に返却する。
例えば、多量のXML文書を、この形式の状態遷移機械に登録しておいて、類似文書を検索するために用いることができる。これによって、下記の処理(a)及び(b)に用いることができる。これは特にスキーマが固定されていて、大量の3型文法の枠内で収まる類似文書を処理しなくてはならないときに有効な手段である。
(b)文書クラスを推測し、その文書クラスに沿った適切な処理にわたす。例えば、レポート用の文書と判別すれば、そのレポート用のマークアップ定義を見て、処理を行うなどの補助ができるようになる。
この手法の状態遷移機械だけでは、類似度の高い実際の文書インスタンスを復元することはできない。このためには、「最類似する解析済み文書を見つける手法」で説明したように、文書インスタンスIDを状態に記憶させておいて、適切なデータベースなどでその文書インスタンスIDから文書インスタンスを取り出すことができるようにしておけばよい。
本発明の処理系では、以下の処理を同時に高速にこなしている点に大きな意義がある。
(a)新規文書との類似文書の特定
(b)新規文書との差分抽出
(c)新規文書の整形式検証
図34は実施例2を実際にウェブ・サービスのクエリに対して用いて、差分解析を行った場合の実験例を示す。キャッシュ済みの文書数が増えても、処理時間にはほとんど変化がないことが分かる。なお、図34において、縦軸の単位としての「us」とはマイクロ・セカンドを意味している。処理済の文書を1つ1つ比較していく従来技術では、文書数が増えると処理時間は線形的に増加してしまうが、実施例2に係る状態遷移機械を適用すれば、文書数が増えてもほとんど処理時間は増加しない。
Amazon Webサービスのリクエスト・メッセージ15種類に対し、メッセージを生成するSOAP処理系を4種類仮定し、15×4=60種類のXML文書を生成した。図36はこの60種類のXML文書を記憶した場合のメモリ使用量を示している。
図37は前述の60文書に対して、あらかじめ記憶している文書数を0文書から60文書まで変化させて処理時間を計測した。そのグラフを以下に示す。計測には60文書すべてが用いられ、全体で10000文書の処理を行っている。計測時には状態遷移機械の更新は行われず。あらかじめ生成済みの状態遷移機械が常に使われている。なお、グラフにはないが、差分パーサを用いない場合の解析時間は1300ms程度であり、12文書以上、つまり全体の5分の1程度の類似文書を記憶している場合に差分パーサの方が高速に処理を行えることが分かる。0文書つまり一つも記憶していない場合に非常に値が悪いが、これは部分パーサの実装が不完全で、余計な処理が入っているためではある。しかし、グラフから分かるとおり、少しでも再利用できる部分があれば差分パーサの効果が現れていることが読み取れる。さらに、実際の使用状況では動的に類似度の高い文書に対して状態遷移機械が更新されるため、文書の類似率は比較的高い値になることが予想される。
(a)開始タグ・ノード:開始タグに対応している。名前空間宣言、属性などを含んでいる。属性の通常変数として表現されており、受信したメッセージとのマッチングにより、値が代入される。
(b)終了タグ・ノード:終了タグに対応している。開始タグとは違い属性などはないので、変数も定義されていない。
(c)空タグ・ノード:空タグに対応している。開始タグと同様に、属性などに関する変数を含んでいる。
(d)コンテント・ノード:テキスト・ノードに対応している。受信したメッセージとのマッチングにより、テキストが抽出される。マッチングの際に、この部分にXMLの部分木が対応することが分かった場合には、状態遷移機械の更新を行う。
851: <S:Header> …. </S:Header>
852: <S:Body wsu:Id="myBody">
853: <tru:StockSymbol xmlns:tru="http://www.fabrikam123.com/payloads">QQQ</tru:StockSymbol>
854: </S:Body>
855:</S:Envelope>
861: <S:Header> …. </S:Header>
862: <S:Body xmlns:S="http://www.w3.org/2001/12/soap-envelope"
863: xmlns:wsu="http://schemas.xmlsoap.org/ws/2002/07/utility"
864: wsu:Id="myBody">
865: <tru:StockSymbol xmlns:tru="http://www.fabrikam123.com/payloads">QQQ</tru:StockSymbol>
866: </S:Body>
867:</S:Envelope>
Claims (30)
- 構造区分に係る複数個のノードとしての複数個の元ノードに区分化可能となっている元構造化文書に対し、該元構造化文書の前記元ノードが前記元構造化文書における先頭からの出現順に遷移する状態遷移図に係る情報を状態遷移図情報として記憶する状態遷移図情報記憶手段、
構造区分に係る複数個のノードとしての複数個の新ノードに区分化可能となっている新構造化文書に対し、前記新構造化文書における先頭からの前記新ノードの出現順及び前記状態遷移図におけるノード遷移順に従い、それぞれ新構造化文書及び状態遷移図において相互に対応する新ノード及び元ノードの対を選定対として抽出する選定対抽出手段、
選定対の元ノード及び新ノードに対し、それらの一致性の有無をそれらの記述に基づき判定する一致性判定手段、
一致性有りの判定のときには選定対の元ノード及び新ノードに対し該元ノードを該新ノードの被利用ノードに認定するノード認定手段、
前記状態遷移図上の複数個の被利用ノードを遷移順に進む遷移履歴に係る情報を遷移履歴情報として生成する遷移履歴情報生成手段、及び
前記遷移履歴情報に基づき前記元構造化文書と前記新構造化文書との類似度を検出する類似度検出手段、
を有していることを特徴とする構造化文書処理装置。 - 前記元構造化文書の各ノードについての構文解析結果を記憶する構文解析結果記憶手段、
前記元構造化文書及び前記新構造化文書の類似度が基準値以上であるときには、前記元構造化文書を前記新構造化文書の被利用構造化文書と認定する利用認定手段、及び
新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書におけるノードであって該新ノードの被利用ノードに係る構文解析結果を利用する元構造化文書利用手段、
ことを特徴とする請求項1記載の構造化文書処理装置。 - 構造区分に係る複数個のノードとしての複数個の元ノードに区分化可能となっている元構造化文書に対し、該元構造化文書の前記元ノードが前記元構造化文書における先頭からの出現順に遷移する状態遷移図に係る情報を状態遷移図情報として記憶する状態遷移図情報記憶ステップ、
構造区分に係る複数個のノードとしての複数個の新ノードに区分化可能となっている新構造化文書に対し、前記新構造化文書における先頭からの前記新ノードの出現順及び前記状態遷移図におけるノード遷移順に従い、それぞれ新構造化文書及び状態遷移図において相互に対応する新ノード及び元ノードの対を選定対として抽出する選定対抽出ステップ、
選定対の元ノード及び新ノードに対し、それらの一致性の有無をそれらの記述に基づき判定する一致性判定ステップ、
一致性有りの判定のときには選定対の元ノード及び新ノードに対し該元ノードを該新ノードの被利用ノードに認定するノード認定ステップ、
前記状態遷移図上の複数個の被利用ノードを遷移順に進む遷移履歴に係る情報を遷移履歴情報として生成する遷移履歴情報生成ステップ、及び
前記遷移履歴情報に基づき前記元構造化文書と前記新構造化文書との類似度を検出する類似度検出ステップ、
を有していることを特徴とする構造化文書処理方法。 - 前記元構造化文書の各ノードについての構文解析結果を記憶する構文解析結果記憶ステップ、
前記元構造化文書及び前記新構造化文書の類似度が基準値以上であるときには、前記元構造化文書を前記新構造化文書の被利用構造化文書と認定する利用認定ステップ、及び
新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書におけるノードであって該新ノードの被利用ノードに係る構文解析結果を利用する元構造化文書利用ステップ、
ことを特徴とする請求項3記載の構造化文書処理方法。 - アプリケーション・プログラムからの構造化文書の構文解析要求に対し、該構造化文書を構文解析して、その構文解析結果を前記アプリケーション・プログラムへ通知する構造化文書処理装置において、
構文解析済みの構造化文書としての元構造化文書についてその内容及びその構文解析結果をそれぞれ元内容及び元解析結果として記憶する記憶手段、
アプリケーション・プログラムから構文解析を要求された構造化文書としての新構造化文書に対し、該新構造化文書の内容と前記元構造化文書の前記元内容とを、所定の対応関係を持つ内容部分同士で対比して、前記新構造化文書の各内容部分が、前記元構造化文書の前記元解析結果を利用できる第1の内容部分となっているか、又は前記元構造化文書の前記元解析結果を利用できない第2の内容部分となっているかを判別する判別手段、
前記新構造化文書の第2の内容部分を構文解析してその構文解析結果としての新解析部分を出力する解析手段、及び
前記新構造化文書の第1の内容部分の構文解析結果としては、該第1の内容部分に対応する前記元構造化文書の元解析結果の部分を前記アプリケーション・プログラムへ通知し、また前記新構造化文書の第2の内容部分の構文解析結果としては前記新解析部分を前記アプリケーション・プログラムへ通知する通知手段、
を有していることを特徴とする構造化文書処理装置。 - アプリケーション・プログラムからの構造化文書の構文解析要求に対し、該構造化文書を構文解析し、その構文解析結果としての一連のイベントを前記アプリケーション・プログラムへ通知する構造化文書処理装置において、
構文解析済みの構造化文書としての元構造化文書についてその内容と各構造区分に係る構文解析結果とをそれぞれ元内容及び各元解析区分として記憶する記憶手段、
前記元構造化文書の元内容とアプリケーション・プログラムから構文解析を要求された構造化文書としての新構造化文書の内容とを、それらの相互に対応する構造区分同士でかつ文書の先頭側にある構造区分同士から順番に、相互に一致するか否かの一致判定を実施する一致判定手段、
前記新構造化文書の各構造区分を、該構造区分に係る前記一致判定の正否によりそれぞれ第1の分類の構造区分と第2の分類の構造区分とに分類する分類手段、
前記分類手段により第2の分類の構造区分と分類された構造区分を構文解析してその構文解析結果としての新解析区分を生成する解析手段、及び
新構造化文書の先頭の構造区分から末尾の構造区分の方への順番に各構造区分に係るイベントを前記アプリケーション・プログラムへ通知する通知手段であって、前記通知手段は、
新構造化文書の各構造区分が、第1の分類の構造区分であれば、該構造区分の構文解析結果として、該構造区分に対応する元構造化文書の元解析区分に係るイベントを前記アプリケーション・プログラムへ通知し、
また、第2の分類の構造区分であれば、該構造区分の構文解析結果として、該構造区分についての新解析区分に係るイベントを前記アプリケーション・プログラムへ通知する。
前記通知手段、
を有していることを特徴とする構造化文書処理装置。 - 構造区分の構文解析には該構文解析の結果に基づいて判明する検査であって新構造化文書が非整形式の構造化文書であるか否かの前記検査を含む前記解析手段、
新構造化文書の構造区分についての前記一致判定の結果が否であれば、該構造区分についての前記解析手段による非整形式の検査が終了するまで該構造区分の次の構造区分についての一致判定を保留し、前記検査により新構造化文書が非整形式であると判明すれば、前記新構造化文書に係る一致判定を中止する前記一致判定手段、及び
前記検査により新構造化文書が非整形式であると判明すれば、前記アプリケーション・プログラムへ、イベントの代わりに該新構造化文書が非整形式の構造化文書である旨を通知する前記通知手段、
を有していることを特徴とする請求項6記載の構造化文書処理装置。 - 相互に異なる複数個の元構造化文書に係る元内容及び元解析区分を記憶する前記記憶手段、
元内容及び元解析区分が前記記憶手段に記憶されている複数個の元構造化文書の中から元内容が新構造化文書の内容に最も類似する元構造化文書を最類似構造化文書として選択する最類似構造化文書選択手段、及び
一致判定に係る元構造化文書を最類似構造化文書にする前記一致判定手段、
を有していることを特徴とする請求項6記載の構造化文書処理装置。 - 新構造化文書はWebサービスにおいてクライアントからのリクエストに対するサーバからのレスポンスに係るものであり、該リクエストからリクエスト先のサーバ及びオペレーションを検出するサーバ等検出手段、及び
検出したサーバ及びオペレーションに基づいて最類似構造化文書を選択する前記最類似構造化文書選択手段、
を有していることを特徴とする請求項8記載の構造化文書処理装置。 - 新構造化文書はWebサービスのリクエストに係るものであり、該リクエストの送信先のURLを検出するURL検出手段、及び
検出したURLに基づいて最類似構造化文書を選択する前記最類似構造化文書選択手段、
を有していることを特徴とする請求項8記載の構造化文書処理装置。 - 前記一致判定が否となるごとに、新構造化文書の内容と元構造化文書の内容との差分量を一単位、増大させる差分量計算手段、及び
前記差分量が閾値を越えると、最後に一致判定対象となった構造区分から文書末尾の構造区分までの全部の構造区分について第2の分類の構造区分に分類する前記分類手段、
を有していることを特徴とする請求項6記載の構造化文書処理装置。 - 前記一致判定が否となるごとに、新構造化文書の内容と元構造化文書の内容との差分量を一単位、増大させる差分量計算手段、及び
前記差分量が閾値を越えると、現在の元構造化文書を別の元構造化文書へ交換し、新構造化文書と交換前の元構造化文書に対して実施した処理と同一の処理を新構造化文書と交換後の元構造化文書について最初から再実施する前記一致判定手段、
を有していることを特徴とする請求項6記載の構造化文書処理装置。 - 前記構造化文書がXML文書であり、前記構造区分とは、SAXのイベントに対応付けることのできる区分であることを特徴とする請求項6記載の構造化文書処理装置。
- アプリケーション・プログラムからの構造化文書の構文解析要求に対し、該構造化文書を構文解析して、その構文解析結果を前記アプリケーション・プログラムへ通知する構造化文書処理方法において、
構文解析済みの構造化文書としての元構造化文書についてその内容及びその構文解析結果をそれぞれ元内容及び元解析結果として記憶する記憶ステップ、
アプリケーション・プログラムから構文解析を要求された構造化文書としての新構造化文書に対し、該新構造化文書の内容と前記元構造化文書の前記元内容とを、所定の対応関係を持つ内容部分同士で対比して、前記新構造化文書の各内容部分が、前記元構造化文書の前記元解析結果を利用できる第1の内容部分となっているか、又は前記元構造化文書の前記元解析結果を利用できない第2の内容部分となっているかを判別する判別ステップ、
前記新構造化文書の第2の内容部分を構文解析してその構文解析結果としての新解析部分を出力する解析ステップ、及び
前記新構造化文書の第1の内容部分の構文解析結果としては、該第1の内容部分に対応する前記元構造化文書の元解析結果の部分を前記アプリケーション・プログラムへ通知し、また前記新構造化文書の第2の内容部分の構文解析結果としては前記新解析部分を前記アプリケーション・プログラムへ通知する通知ステップ、
を有していることを特徴とする構造化文書処理方法。 - アプリケーション・プログラムからの構造化文書の構文解析要求に対し、該構造化文書を構文解析し、その構文解析結果としての一連のイベントを前記アプリケーション・プログラムへ通知する構造化文書処理方法において、
構文解析済みの構造化文書としての元構造化文書についてその内容と各構造区分に係る構文解析結果とをそれぞれ元内容及び各元解析区分として記憶する記憶ステップ、
前記元構造化文書の元内容とアプリケーション・プログラムから構文解析を要求された構造化文書としての新構造化文書の内容とを、それらの相互に対応する構造区分同士でかつ文書の先頭側にある構造区分同士から順番に、相互に一致するか否かの一致判定を実施する一致判定ステップ、
前記新構造化文書の各構造区分を、該構造区分に係る前記一致判定の正否によりそれぞれ第1の分類の構造区分と第2の分類の構造区分とに分類する分類ステップ、
前記分類ステップにおいて第2の分類の構造区分と分類された構造区分を構文解析してその構文解析結果としての新解析区分を生成する解析ステップ、及び
新構造化文書の先頭の構造区分から末尾の構造区分の方への順番に各構造区分に係るイベントを前記アプリケーション・プログラムへ通知する通知ステップであって、前記通知ステップは、
新構造化文書の各構造区分が、第1の分類の構造区分であれば、該構造区分の構文解析結果として、該構造区分に対応する元構造化文書の元解析区分に係るイベントを前記アプリケーション・プログラムへ通知し、
また、第2の分類の構造区分であれば、該構造区分の構文解析結果として、該構造区分についての新解析区分に係るイベントを前記アプリケーション・プログラムへ通知する。
前記通知ステップ、
を有していることを特徴とする構造化文書処理方法。 - 構造区分の構文解析には該構文解析の結果に基づいて判明する検査であって新構造化文書が非整形式の構造化文書であるか否かの前記検査を含む前記解析ステップ、
新構造化文書の構造区分についての前記一致判定の結果が否であれば、該構造区分についての前記解析手段による非整形式の検査が終了するまで該構造区分の次の構造区分についての一致判定を保留し、前記検査により新構造化文書が非整形式であると判明すれば、前記新構造化文書に係る一致判定を中止する前記一致判定ステップ、及び
前記検査により新構造化文書が非整形式であると判明すれば、前記アプリケーション・プログラムへ、イベントの代わりに該新構造化文書が非整形式の構造化文書である旨を通知する前記通知ステップ、
を有していることを特徴とする請求項15記載の構造化文書処理方法。 - 相互に異なる複数個の元構造化文書に係る元内容及び元解析区分を記憶する前記記憶ステップ、
元内容及び元解析区分が前記記憶ステップに記憶されている複数個の元構造化文書の中から元内容が新構造化文書の内容に最も類似する元構造化文書を最類似構造化文書として選択する最類似構造化文書選択ステップ、及び
一致判定に係る元構造化文書を最類似構造化文書にする前記一致判定ステップ、
を有していることを特徴とする請求項15記載の構造化文書処理方法。 - 新構造化文書はWebサービスにおいてクライアントからのリクエストに対するサーバからのレスポンスに係るものであり、該リクエストからリクエスト先のサーバ及びオペレーションを検出するサーバ等検出ステップ、及び
検出したサーバ及びオペレーションに基づいて最類似構造化文書を選択する前記最類似構造化文書選択ステップ、
を有していることを特徴とする請求項17記載の構造化文書処理方法。 - 新構造化文書はWebサービスのリクエストに係るものであり、該リクエストの送信先のURLを検出するURL検出ステップ、及び
検出したURLに基づいて最類似構造化文書を選択する前記最類似構造化文書選択ステップ、
を有していることを特徴とする請求項17記載の構造化文書処理方法。 - 前記一致判定が否となるごとに、新構造化文書の内容と元構造化文書の内容との差分量を一単位、増大させる差分量計算ステップ、及び
前記差分量が閾値を越えると、最後に一致判定対象となった構造区分から文書末尾の構造区分までの全部の構造区分について第2の分類の構造区分に分類する分類ステップ、
を有していることを特徴とする請求項15記載の構造化文書処理方法。 - 前記一致判定が否となるごとに、新構造化文書の内容と元構造化文書の内容との差分量を一単位、増大させる差分量計算ステップ、及び
前記差分量が閾値を越えると、現在の元構造化文書を別の元構造化文書へ交換し、新構造化文書と交換前の元構造化文書に対して実施した処理と同一の処理を新構造化文書と交換後の元構造化文書について最初から再実施する前記一致判定ステップ、
を有していることを特徴とする請求項15記載の構造化文書処理方法。 - 各元構造化文書が、構造区分に係る複数個のノードとしての複数個の元ノードに区分化可能となっている複数個の元構造化文書に対し、各元構造化文書の前記元ノードが前記元構造化文書における先頭からの出現順に遷移する状態遷移図に係る情報を状態遷移図情報として記憶する状態遷移図情報記憶手段であって、複数の元構造化文書に重複する状態遷移は前記状態遷移図上においてを共通化された状態遷移となっている前記状態遷移図情報記憶手段、
構造区分に係る複数個のノードとしての複数個の新ノードに区分化可能となっている新構造化文書に対し、前記新構造化文書における先頭からの前記新ノードの出現順及び前記状態遷移図におけるノード遷移順に従い、それぞれ新構造化文書及び状態遷移図において相互に対応する新ノード及び元ノードの対を選定対として抽出する選定対抽出手段、
選定対の元ノード及び新ノードに対し、それらの一致性の有無をそれらの記述に基づき判定する一致性判定手段、
一致性有りの判定のときには選定対の元ノード及び新ノードに対し該元ノードを該新ノードの被利用ノードに認定するノード認定手段、
前記状態遷移図上の複数個の被利用ノードを遷移順に進む遷移履歴に係る情報を遷移履歴情報として生成する遷移履歴情報生成手段、
前記遷移履歴情報に基づき1個の元構造化文書を前記新構造化文書の被利用構造化文書として選択する被利用構造化文書選択手段、及び
新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書における前記新ノードの被利用ノードに係る構文解析結果を利用する元構造化文書利用手段、
を有していることを特徴とする構造化文書処理装置。 - 状態遷移図上のどの元ノードに選定対関係になっても元ノードとの一致性無しである新ノードとしての第1の新ノードに対し、該第1の新ノードを遷移先として遷移元になる状態遷移関係をもつ元ノードであって前記状態遷移図上の元ノードから、前記第1の新ノードへの状態遷移を形成しつつ、前記第1の新ノードを前記状態遷移図上に第1の元ノードとして新規に追加する元ノード追加手段、
前記構造化文書における先頭からのノードの出現順でノードの先後を定義するとともに、コンテキストとは、内容を一意に把握する対象としてのノードを対象ノードと呼ぶことにして、構造化文書先頭から該対象ノードへの到達前までの構造化文書記述に含まれる記述部分であって、該対象ノードの内容を、該対象ノードの記述自体と協働して、一意に規定する記述部分であると定義し、前記第1の新ノードより後ろの新ノードとしての第2の新ノードに対して、該第2の新ノードに係る選定対としての合流判定用選定対では、記述と共にコンテキストに関しても元ノードと新ノードとの一致性を判定する前記一致性判定手段、及び
前記合流判定用選定対における前記第2の新ノード及び第2の元ノードが記述及びコンテキストの両方に関して一致性有りとする判定がなされたときには、前記第1の元ノードから第2の元ノードへの状態遷移経路を新規に追加する状態遷移経路追加手段、
を有していることを特徴とする請求項22記載の構造化文書処理装置。 - 前記状態遷移図上の所定の元ノードは、所定の属性を属性変数とする属性変数付き元ノードに設定されている前記状態遷移図情報記憶手段、
選定対における元ノードが属性変数付き元ノードであり、かつ前記選定対における元ノード及び新ノードの要素名及び属性名が同一であるとき、前記選定対における前記元ノード及び前記新ノードの一致性が有りとする前記一致性判定手段、
一致性有りの選定対に対し、該選定対の元ノードが属性変数付き元ノードであるとき、前記選定対の新ノードの属性値を属性変数値として記憶する属性変数値記憶手段、及び
前記新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書のノードであって該新構造化文書の新ノードの被利用ノードに係る構文解析結果を使用する場合に、前記被利用ノードが属性変数付き元ノードであるとき、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果における属性変数に、前記属性変数値を代入した構文解析結果を、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果として使用する前記元構造化文書利用手段、
を有していることを特徴とする請求項22記載の構造化文書処理装置。 - 前記状態遷移図上の所定のテキスト・ノードとしての元ノードはテキスト・ノード変数に設定されている前記状態遷移図情報記憶手段、
選定対における元ノード及び新ノードがそれぞれテキスト・ノード変数及びテキスト・ノードであるとき、前記元ノード及び前記新ノードの一致性が有りとする前記一致性判定手段、
一致性有りの選定対に対し、該選定対の元ノードがテキスト・ノード変数であるとき、前記選定対の新ノードのテキストをテキスト・ノード変数値として記憶するテキスト・ノード変数値記憶手段、及び
前記新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書のノードであって該新構造化文書の新ノードの被利用ノードに係る構文解析結果を使用する場合に、前記被利用ノードがテキスト・ノード変数であるとき、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果におけるテキスト・ノード変数にテキスト・ノード変数値を代入した構文解析結果を、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果として使用する前記元構造化文書利用手段、
を有していることを特徴とする請求項22記載の構造化文書処理装置。 - 各元構造化文書が、構造区分に係る複数個のノードとしての複数個の元ノードに区分化可能となっている複数個の元構造化文書に対し、各元構造化文書の前記元ノードが前記元構造化文書における先頭からの出現順に遷移する状態遷移図に係る情報を状態遷移図情報として記憶する状態遷移図情報記憶ステップであって、複数の元構造化文書に重複する状態遷移は前記状態遷移図上においてを共通化された状態遷移となっている前記状態遷移図情報記憶ステップ、
構造区分に係る複数個のノードとしての複数個の新ノードに区分化可能となっている新構造化文書に対し、前記新構造化文書における先頭からの前記新ノードの出現順及び前記状態遷移図におけるノード遷移順に従い、それぞれ新構造化文書及び状態遷移図において相互に対応する新ノード及び元ノードの対を選定対として抽出する選定対抽出ステップ、
選定対の元ノード及び新ノードに対し、それらの一致性の有無をそれらの記述に基づき判定する一致性判定ステップ、
一致性有りの判定のときには選定対の元ノード及び新ノードに対し該元ノードを該新ノードの被利用ノードに認定するノード認定ステップ、
前記状態遷移図上の複数個の被利用ノードを遷移順に進む遷移履歴に係る情報を遷移履歴情報として生成する遷移履歴情報生成ステップ、
前記遷移履歴情報に基づき1個の元構造化文書を前記新構造化文書の被利用構造化文書として選択する被利用構造化文書選択ステップ、及び
新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書における前記新ノードの被利用ノードに係る構文解析結果を利用する元構造化文書利用ステップ、
を有していることを特徴とする構造化文書処理方法。 - 状態遷移図上のどの元ノードに選定対関係になっても元ノードとの一致性無しである新ノードとしての第1の新ノードに対し、該第1の新ノードを遷移先として遷移元になる状態遷移関係をもつ元ノードであって前記状態遷移図上の元ノードから、前記第1の新ノードへの状態遷移を形成しつつ、前記第1の新ノードを前記状態遷移図上に第1の元ノードとして新規に追加する元ノード追加ステップ、
前記構造化文書における先頭からのノードの出現順でノードの先後を定義するとともに、コンテキストとは、内容を一意に把握する対象としてのノードを対象ノードと呼ぶことにして、構造化文書先頭から該対象ノードへの到達前までの構造化文書記述に含まれる記述部分であって、該対象ノードの内容を、該対象ノードの記述自体と協働して、一意に規定する記述部分であると定義し、前記第1の新ノードより後ろの新ノードとしての第2の新ノードに対して、該第2の新ノードに係る選定対としての合流判定用選定対では、記述と共にコンテキストに関しても元ノードと新ノードとの一致性を判定する前記一致性判定ステップ、及び
前記合流判定用選定対における前記第2の新ノード及び第2の元ノードが記述及びコンテキストの両方に関して一致性有りとする判定がなされたときには、前記第1の元ノードから第2の元ノードへの状態遷移経路を新規に追加する状態遷移経路追加ステップ、
を有していることを特徴とする請求項26記載の構造化文書処理方法。 - 前記状態遷移図上の所定の元ノードは、所定の属性を属性変数とする属性変数付き元ノードに設定されている前記状態遷移図情報記憶ステップ、
選定対における元ノードが属性変数付き元ノードであり、かつ前記選定対における元ノード及び新ノードの要素名及び属性名が同一であるとき、前記選定対における前記元ノード及び前記新ノードの一致性が有りとする前記一致性判定ステップ、
一致性有りの選定対に対し、該選定対の元ノードが属性変数付き元ノードであるとき、前記選定対の新ノードの属性値を属性変数値として記憶する属性変数値記憶ステップ、及び
前記新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書のノードであって該新構造化文書の新ノードの被利用ノードに係る構文解析結果を使用する場合に、前記被利用ノードが属性変数付き元ノードであるとき、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果における属性変数に、前記属性変数値を代入した構文解析結果を、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果として使用する前記元構造化文書利用ステップ、
を有していることを特徴とする請求項26記載の構造化文書処理装置。 - 前記状態遷移図上の所定のテキスト・ノードとしての元ノードはテキスト・ノード変数に設定されている前記状態遷移図情報記憶ステップ、
選定対における元ノード及び新ノードがそれぞれテキスト・ノード変数及びテキスト・ノードであるとき、前記元ノード及び前記新ノードの一致性が有りとする前記一致性判定ステップ、
一致性有りの選定対に対し、該選定対の元ノードがテキスト・ノード変数であるとき、前記選定対の新ノードのテキストをテキスト・ノード変数値として記憶するテキスト・ノード変数値記憶ステップ、及び
前記新構造化文書の新ノードに係る構文解析結果として、該新構造化文書の被利用構造化文書のノードであって該新構造化文書の新ノードの被利用ノードに係る構文解析結果を使用する場合に、前記被利用ノードがテキスト・ノード変数であるとき、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果におけるテキスト・ノード変数にテキスト・ノード変数値を代入した構文解析結果を、前記新構造化文書の新ノードの被利用ノードに係る構文解析結果として使用する前記元構造化文書利用ステップ、
を有していることを特徴とする請求項26記載の構造化文書処理装置。 - 請求項1、2、5〜12及び22〜25のいずれかに記載の構造化文書処理装置の各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004314713A JP4716709B2 (ja) | 2004-06-10 | 2004-10-28 | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
US11/147,726 US7536711B2 (en) | 2004-06-10 | 2005-06-08 | Structured-document processing |
US12/124,437 US7725923B2 (en) | 2004-06-10 | 2008-05-21 | Structured-document processing |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004172972 | 2004-06-10 | ||
JP2004172972 | 2004-06-10 | ||
JP2004314713A JP4716709B2 (ja) | 2004-06-10 | 2004-10-28 | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006024179A true JP2006024179A (ja) | 2006-01-26 |
JP4716709B2 JP4716709B2 (ja) | 2011-07-06 |
Family
ID=35797379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004314713A Expired - Fee Related JP4716709B2 (ja) | 2004-06-10 | 2004-10-28 | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7536711B2 (ja) |
JP (1) | JP4716709B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008072359A (ja) * | 2006-09-13 | 2008-03-27 | Docomo Technology Inc | メッセージ比較判定装置、メッセージ比較判定方法およびメッセージ比較判定プログラム |
US7707491B2 (en) * | 2005-12-27 | 2010-04-27 | International Business Machines Corporation | Optimizing differential XML processing by leveraging schema and statistics |
WO2014010029A1 (ja) * | 2012-07-10 | 2014-01-16 | 富士通株式会社 | プログラム、マッピング装置およびマッピング方法 |
US9311730B2 (en) | 2013-03-29 | 2016-04-12 | International Business Machines Corporation | Aggregating graph structures |
US9747529B2 (en) | 2012-03-19 | 2017-08-29 | Mitsubishi Electric Corporation | Sequence program creation device |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205216A1 (en) * | 2003-03-19 | 2004-10-14 | Ballinger Keith W. | Efficient message packaging for transport |
US8296354B2 (en) * | 2004-12-03 | 2012-10-23 | Microsoft Corporation | Flexibly transferring typed application data |
US7716577B2 (en) * | 2005-11-14 | 2010-05-11 | Oracle America, Inc. | Method and apparatus for hardware XML acceleration |
US7890659B2 (en) * | 2005-12-15 | 2011-02-15 | Microsoft Corporation | Conforming web services to an updated contract |
US20070177590A1 (en) * | 2006-01-31 | 2007-08-02 | Microsoft Corporation | Message contract programming model |
JP4677355B2 (ja) * | 2006-03-03 | 2011-04-27 | キヤノン株式会社 | Webサービス装置及び順次処理移譲方法 |
US8762834B2 (en) * | 2006-09-29 | 2014-06-24 | Altova, Gmbh | User interface for defining a text file transformation |
US8635242B2 (en) * | 2006-10-11 | 2014-01-21 | International Business Machines Corporation | Processing queries on hierarchical markup data using shared hierarchical markup trees |
US8108765B2 (en) * | 2006-10-11 | 2012-01-31 | International Business Machines Corporation | Identifying and annotating shared hierarchical markup document trees |
JP4982154B2 (ja) * | 2006-11-08 | 2012-07-25 | 株式会社日立製作所 | 構造化文書の構文解析方法及び装置 |
US20080235258A1 (en) | 2007-03-23 | 2008-09-25 | Hyen Vui Chung | Method and Apparatus for Processing Extensible Markup Language Security Messages Using Delta Parsing Technology |
US9305096B2 (en) * | 2007-04-30 | 2016-04-05 | Microsoft Technology Licensing, Llc | Uniform resource identifier template manipulation |
US8224980B2 (en) * | 2007-05-07 | 2012-07-17 | International Business Machines Corporation | Adaptive parsing and compression of SOAP messages |
US8386923B2 (en) | 2007-05-08 | 2013-02-26 | Canon Kabushiki Kaisha | Document generation apparatus, method, and storage medium |
US8225278B2 (en) * | 2007-05-14 | 2012-07-17 | International Business Machines Corporation | Method of visualizing modifications of a hierarchical state diagram |
ATE429119T1 (de) * | 2007-05-18 | 2009-05-15 | Sap Ag | Verfahren und system zum schutz einer nachricht vor einem xml-angriff beim austausch in einem verteilten und dezentralisierten netzwerksystem |
US9270641B1 (en) * | 2007-07-31 | 2016-02-23 | Hewlett Packard Enterprise Development Lp | Methods and systems for using keywords preprocessing, Boyer-Moore analysis, and hybrids thereof, for processing regular expressions in intrusion-prevention systems |
US7941399B2 (en) | 2007-11-09 | 2011-05-10 | Microsoft Corporation | Collaborative authoring |
US8266519B2 (en) * | 2007-11-27 | 2012-09-11 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8412516B2 (en) | 2007-11-27 | 2013-04-02 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8271870B2 (en) * | 2007-11-27 | 2012-09-18 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8028229B2 (en) * | 2007-12-06 | 2011-09-27 | Microsoft Corporation | Document merge |
US8825758B2 (en) | 2007-12-14 | 2014-09-02 | Microsoft Corporation | Collaborative authoring modes |
US8572551B2 (en) * | 2007-12-20 | 2013-10-29 | International Business Machines Corporation | Difference log production for model merging |
US8132182B2 (en) * | 2007-12-28 | 2012-03-06 | International Business Machines Corporation | Parallel processing of triggering rules in SIP event notification filters |
US20090248707A1 (en) * | 2008-03-25 | 2009-10-01 | Yahoo! Inc. | Site-specific information-type detection methods and systems |
US8666729B1 (en) * | 2010-02-10 | 2014-03-04 | West Corporation | Processing natural language grammar |
US8352870B2 (en) | 2008-04-28 | 2013-01-08 | Microsoft Corporation | Conflict resolution |
US8429753B2 (en) * | 2008-05-08 | 2013-04-23 | Microsoft Corporation | Controlling access to documents using file locks |
US8825594B2 (en) * | 2008-05-08 | 2014-09-02 | Microsoft Corporation | Caching infrastructure |
US8417666B2 (en) * | 2008-06-25 | 2013-04-09 | Microsoft Corporation | Structured coauthoring |
CN101620593B (zh) * | 2008-06-30 | 2011-07-06 | 国际商业机器公司 | 解析电子表单的内容的方法及电子表单服务器 |
US8286132B2 (en) * | 2008-09-25 | 2012-10-09 | International Business Machines Corporation | Comparing and merging structured documents syntactically and semantically |
US8321834B2 (en) * | 2008-09-25 | 2012-11-27 | International Business Machines Corporation | Framework for automatically merging customizations to structured code that has been refactored |
US20100131836A1 (en) * | 2008-11-24 | 2010-05-27 | Microsoft Corporation | User-authored notes on shared documents |
FR2939535B1 (fr) * | 2008-12-10 | 2013-08-16 | Canon Kk | Procede et systeme de traitement pour la configuration d'un processseur exi |
JP5480542B2 (ja) * | 2009-06-23 | 2014-04-23 | クロリンエンジニアズ株式会社 | 導電性ダイヤモンド電極並びに導電性ダイヤモンド電極を用いたオゾン生成装置 |
US8958554B2 (en) * | 2009-11-30 | 2015-02-17 | Red Hat, Inc. | Unicode-compatible stream cipher |
US8838626B2 (en) * | 2009-12-17 | 2014-09-16 | Intel Corporation | Event-level parallel methods and apparatus for XML parsing |
EP2362333A1 (en) | 2010-02-19 | 2011-08-31 | Accenture Global Services Limited | System for requirement identification and analysis based on capability model structure |
US8566731B2 (en) | 2010-07-06 | 2013-10-22 | Accenture Global Services Limited | Requirement statement manipulation system |
US9262185B2 (en) * | 2010-11-22 | 2016-02-16 | Unisys Corporation | Scripted dynamic document generation using dynamic document template scripts |
US8725759B2 (en) * | 2011-01-04 | 2014-05-13 | Bank Of America Corporation | Exposing data through simple object access protocol messages |
US9400778B2 (en) | 2011-02-01 | 2016-07-26 | Accenture Global Services Limited | System for identifying textual relationships |
US8935654B2 (en) | 2011-04-21 | 2015-01-13 | Accenture Global Services Limited | Analysis system for test artifact generation |
JP6028393B2 (ja) * | 2012-05-24 | 2016-11-16 | 富士通株式会社 | 照合プログラム、照合方法および照合装置 |
CA3149615C (en) | 2020-05-08 | 2023-11-28 | Bold Limited | Systems and methods for creating enhanced documents for perfect automated parsing |
US20210349927A1 (en) * | 2020-05-08 | 2021-11-11 | Bold Limited | Systems and methods for creating enhanced documents for perfect automated parsing |
CN112328927B (zh) * | 2020-11-27 | 2023-09-01 | 抖音视界有限公司 | 文档处理方法、装置、可读介质及电子设备 |
CN112817926B (zh) * | 2021-02-22 | 2022-02-22 | 北京安华金和科技有限公司 | 文件处理方法及装置、存储介质及电子装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200370A (ja) * | 1993-12-28 | 1995-08-04 | Canon Inc | 文書処理装置及び方法 |
JPH11232273A (ja) * | 1998-02-17 | 1999-08-27 | Fuji Xerox Co Ltd | 文書処理可能性判定装置、文書処理装置、文書処理可能性判定プログラムを記録したコンピュータ読み取り可能な記録媒体及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004062716A (ja) * | 2002-07-31 | 2004-02-26 | Internatl Business Mach Corp <Ibm> | 構造化文書用インターフェース装置、構造化文書用処理方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642435A (en) * | 1995-01-25 | 1997-06-24 | Xerox Corporation | Structured document processing with lexical classes as context |
JP3566457B2 (ja) | 1996-05-31 | 2004-09-15 | 株式会社日立製作所 | 構造化文書の版管理方法および装置 |
-
2004
- 2004-10-28 JP JP2004314713A patent/JP4716709B2/ja not_active Expired - Fee Related
-
2005
- 2005-06-08 US US11/147,726 patent/US7536711B2/en not_active Expired - Fee Related
-
2008
- 2008-05-21 US US12/124,437 patent/US7725923B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200370A (ja) * | 1993-12-28 | 1995-08-04 | Canon Inc | 文書処理装置及び方法 |
JPH11232273A (ja) * | 1998-02-17 | 1999-08-27 | Fuji Xerox Co Ltd | 文書処理可能性判定装置、文書処理装置、文書処理可能性判定プログラムを記録したコンピュータ読み取り可能な記録媒体及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004062716A (ja) * | 2002-07-31 | 2004-02-26 | Internatl Business Mach Corp <Ibm> | 構造化文書用インターフェース装置、構造化文書用処理方法、及びプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7707491B2 (en) * | 2005-12-27 | 2010-04-27 | International Business Machines Corporation | Optimizing differential XML processing by leveraging schema and statistics |
US8181105B2 (en) | 2005-12-27 | 2012-05-15 | International Business Machines Corporation | Apparatus, method, and program that performs syntax parsing on a structured document in the form of electronic data |
JP2008072359A (ja) * | 2006-09-13 | 2008-03-27 | Docomo Technology Inc | メッセージ比較判定装置、メッセージ比較判定方法およびメッセージ比較判定プログラム |
US9747529B2 (en) | 2012-03-19 | 2017-08-29 | Mitsubishi Electric Corporation | Sequence program creation device |
WO2014010029A1 (ja) * | 2012-07-10 | 2014-01-16 | 富士通株式会社 | プログラム、マッピング装置およびマッピング方法 |
JPWO2014010029A1 (ja) * | 2012-07-10 | 2016-06-20 | 富士通株式会社 | プログラム、マッピング装置およびマッピング方法 |
US10437857B2 (en) | 2012-07-10 | 2019-10-08 | Fujitsu Limited | Mapping device, mapping method, and recording medium |
US9311730B2 (en) | 2013-03-29 | 2016-04-12 | International Business Machines Corporation | Aggregating graph structures |
US9563974B2 (en) | 2013-03-29 | 2017-02-07 | International Business Machines Corporation | Aggregating graph structures |
Also Published As
Publication number | Publication date |
---|---|
US7725923B2 (en) | 2010-05-25 |
US7536711B2 (en) | 2009-05-19 |
US20080294614A1 (en) | 2008-11-27 |
US20060041579A1 (en) | 2006-02-23 |
JP4716709B2 (ja) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4716709B2 (ja) | 構造化文書処理装置、構造化文書処理方法、及びプログラム | |
Scharffe et al. | Rdf-ai: an architecture for rdf datasets matching, fusion and interlink | |
US8756207B2 (en) | Systems and methods for identifying potential duplicate entries in a database | |
JP4829794B2 (ja) | 表現式のグループ化および評価 | |
US10621211B2 (en) | Language tag management on international data storage | |
US7487174B2 (en) | Method for storing text annotations with associated type information in a structured data store | |
US20130117660A1 (en) | Automated document revision markup and change control | |
US8112816B2 (en) | Document verification apparatus and document verification method | |
US9250864B2 (en) | Relationship management for data modeling in an integrated development environment | |
JP5125662B2 (ja) | クエリ変換方法および検索装置 | |
US20060206503A1 (en) | Complex syntax validation and business logic validation rules, using VAXs (value-added XSDs) compliant with W3C-XML schema specification | |
JP4365162B2 (ja) | 構造化文書のデータを検索する装置および方法 | |
JP4860416B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US20110307488A1 (en) | Information processing apparatus, information processing method, and program | |
JP2007509449A (ja) | 構造化されたデータ変換用デバイス | |
JP2004118374A (ja) | 変換装置及び変換方法及び変換プログラム及び変換プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20140075285A1 (en) | Metadata Reuse For Validation Against Decentralized Schemas | |
JP5347965B2 (ja) | Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム | |
US8756205B2 (en) | System and method for rule-based data object matching | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
US7159171B2 (en) | Structured document management system, structured document management method, search device and search method | |
JP2008117066A (ja) | ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム | |
US20060048094A1 (en) | Systems and methods for decoupling inputs and outputs in a workflow process | |
CN112699642B (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
CN115983290A (zh) | 文本替换方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100517 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20100620 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20100709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20110322 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110329 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |