JP2017538226A

JP2017538226A - スケーラブルなウェブデータの抽出

Info

Publication number: JP2017538226A
Application number: JP2017531481A
Authority: JP
Inventors: ユ，シャオ−フェン; ジー，ジュン−キン
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2017-12-21
Also published as: EP3230900A4; US20170337484A1; EP3230900A1; CN107430600A; WO2016090625A1

Abstract

例示的な実施形態は、スケーラブルなウェブデータ抽出に関する。例示的な実施形態では、ウェブページから抽出されたウェブデータのデータレコードセグメントに対して結合ポテンシャル関数が定義され、該結合ポテンシャル関数は、該ウェブデータのデータレコードセグメンテーション及び該データレコードセグメント中のデータセグメントの対間の依存性をモデル化する。この段階で、主レコードセグメント及びいくつかの関連するレコードセグメントが該データレコードセグメントから識別され、この場合、該複数の関連するレコードセグメントの各々は該主レコードセグメントに関連付けられている。関連する属性が、それぞれの関連するレコードセグメントに対して決定される。次に、該結合ポテンシャル関数が、該主レコードセグメント及び各々の対応する関連するセグメントに適用されて、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する関係ラベルが決定される。【選択図】図１

Description

様々なタイプの有用な意味情報がウェブページに埋め込まれている。ウェブデータ抽出（たとえば、ウェブページのテキストデータセグメンテーション及びラベリング（ラベル付け）、ウェブページのセマンティクスの理解）は、ユーザーのブラウジング（閲覧）及び検索体験を大きく改善させる可能性がある。ルールベースまたはパターンベースのソリューションは、ウェブページ中のハイパーテキストマークアップ言語（HTML）からの小さなまたは特定の構造もしくはレコードを識別するために正規表現などのテキストパターンマッチングを使用することができ、または、限定されたドメイン内の共通のセクションを識別するためのテンプレートベースのアプローチを使用することができる。これらのソリューションは、ルールベースのパターンマイニングアプローチを用いるページレイアウト及びフォーマット分析に主に重点を置いており、また、同じテンプレートによって生成されたウェブページのみに対して作用するようにテンプレートに依存する。さらに、ユーザーは、ルールベースまたはパターンベースのソリューションに対して、それぞれのルール、パターン、テンプレートなどに関する明示的な情報を提供する。

（補充可能性あり）

下記の詳細な説明は添付の図面を参照する。
スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置のブロック図である。スケーラブルなウェブデータ抽出を提供するためにウェブサーバーと通信する例示的なコンピューティング装置のブロック図である。スケーラブルなウェブデータ抽出を提供するためにコンピューティング装置によって実行される例示的な方法のフローチャートである。ウェブデータ内のデータレコードセグメントの分析から得られた例示的な関係ラベルを示す。

上記したように、ルールベースまたはパターンベースのソリューションは、ハイパーテキストマークアップ言語（HTML）からの小さなまたは特定の構造もしくはレコードを識別するために正規表現などのテキストパターンマッチングを使用することができる。それらのソリューションは、HTML中のテキストセグメント間の関係を分析するために自然言語処理及びテキスト分析を使用することができる。しかしながら、ウェブページのデータ内容（データコンテンツ）は、テキストの断片であって、文法的に厳密に正しいものではないことが多いので、一般に文が文法的に正しいことを想定している従来の自然言語処理（NLP）技術を直接適用することはできない。論理的に整合しているデータブロックのセグメンテーション（セグメント化）は重要であり、データブロック内のテキストの断片（テキスト断片）は文法を考慮していない。このため、セグメンテーション技術は、通常は、異なるテキスト断片の境界を除去しまたはソフトにする。さらに重要なことには、ほとんどのセグメンテーション技術は、２次元のレイアウト情報及び階層構造などのHTML要素の構造フォーマットを除去するが、この結果、性能が低下してしまう。

本明細書に記載されている例は、任意のグラフィック構造を有する統計的なフレームワークに基づく効率的でスケーラブルなウェブデータ抽出のためのテンプレートに依存しないソリューションを説明している。そのようなソリューションは、基礎となるグラフにしたがって因数分解し、及び変数間の複雑な依存関係を表現（ないし捕捉）する確率分布の族（family）として多数のランダム変数を表すことができる。たとえばWIKIPEDIA（商標）などの百科事典的なページからのウェブデータ抽出では、それぞれの百科事典的なページは、「Abraham Lincoln」などの主データレコード（すなわち、主要なデータレコード）によって表された主要なテーマやコンセプトを有している。テンプレートに依存しないこのソリューションの目的は、「Abraham Lincoln」、「February 12（２月１２日）」、「１８０９」、及び「Republican Party（共和党）」などの全ての興味のあるデータレコードを抜き出し（抽出し）て、それらのデータレコードに属性ラベルを割り当てることである。この例では、属性ラベリングのセット（組）は、それぞれのデータレコードに割り当てられた「人」、「日付」、「年」、「組織」といったラベルや、データレコードの対間の「誕生日」、「生年」、及び「メンバー（構成員）」などの関係ラベルなどの所定のラベルを含むことができる。WIKIPEDIA（商標）は、カリフォルニア州のSan Francisco（サンフランシスコ）に本社を置くWikimedia Foundation, Incの登録商標である。

いくつかの例では、結合ポテンシャル関数（joint potentialfunction）は、ウェブページから抽出されたウェブデータのデータレコードセグメントに対して定義され、この場合、結合ポテンシャル関数は、ウェブデータのデータレコードセグメンテーション、及び、データレコードセグメント中のデータセグメントの対間の依存関係（依存性）をモデル化する。この段階では、主レコードセグメント（すなわち主要なレコードセグメント）及び複数の関連するレコードセグメントは、それらのデータレコードセグメントから識別ないし特定され、この場合、該複数の関連するレコードセグメントの各々は、該主レコードセグメントに関連付けられている。関連する属性が、関連するレコードセグメントの各々について決定される。次に、結合ポテンシャル関数が、該主レコードセグメント及び対応するそれぞれの関連するセグメントに適用されて、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する関係ラベルが決定される。

ここで、図１は、スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置１００のブロック図である。コンピューティング装置１００を、図２のウェブサーバー装置２５０Ａ、２５０Ｎなどのウェブサーバー装置にアクセスすることができる任意のコンピューティング装置とすることができる。図１の実施形態では、コンピューティング装置１００は、プロセッサ１１０、インターフェース１１５、及び機械可読記憶媒体１２０を備えている。

プロセッサ１１０を、機械可読記憶媒体１２０に格納されている命令を取り出して実行するのに適した１以上の中央処理装置（ＣＰＵ）、及び／又はマイクロプロセッサ、及び／又はその他のハードウェア装置とすることができる。スケーラブルなウェブデータ抽出を提供できるようにするために、プロセッサ１１０は、命令１２２、１２４、１２６、１２８をフェッチし、デコードし、及び実行することができる。プロセッサ１１０は、命令を取り出して実行する代わりにまたはそれらに加えて、命令１２２、１２４、１２６、１２８のうちの１以上の機能を実行するための複数の電子的構成要素を含む１以上の電子回路を備えることができる。

インターフェース１１５は、ウェブサーバー装置と通信するための複数の電子的構成要素を備えることができる。たとえば、インターフェース１１５を、該ウェブサーバー装置と通信するのに適したイーサネット（Ethernet）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、IEEE1394（ファイヤーワイヤー）インターフェース、external Serial Advanced TechnologyAttachment（eSATA）インターフェース、もしくはその他の任意の物理的接続インターフェースとすることができる。代替的には、インターフェース１１５を、無線ＬＡＮ（ＷＬＡＮ）インターフェースや近距離無線通信（ＮＦＣ）インターフェースなどの無線インターフェースとすることができる。後述するように、動作時には、インターフェース１１５を用いて、ウェブサーバー装置の対応するインターフェースとの間でデータを送受信することができる。

機械可読記憶媒体１２０を、実行可能命令を格納する任意の電子記憶装置、磁気記憶装置、光学式記憶装置、もしくはその他の物理的記憶装置とすることができる。したがって、機械可読記憶媒体１２０を、たとえば、ランダムアクセスメモリ（ＲＡＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、記憶ドライブ、及び光ディスクなどとすることができる。詳細に後述するように、機械可読記憶媒体１２０を、スケーラブルなウェブデータ抽出を提供するための実行可能命令で符号化することができる。

結合ポテンシャル関数定義命令１２２は、観測データ中のデータレコードセグメンテーション及び確率的無向グラフィカルモデル中のレコード属性の条件付き分布を定義する。マルコフ確率場の結合確率分布を、ポテンシャル関数の積として定義することができ、この場合、ポテンシャル関数を、その引き数の任意の非負の関数とすることができる。データレコードセグメンテーションは、ウェブページからレコードセグメント（すなわちテキストの断片）への観測データのセグメンテーションである（後述のように、該レコードセグメントを分析することができる）。それぞれのレコードセグメントを、属性に関連付けることができる単語または句とすることができる。

たとえば、Ｌ、Ｍを、それぞれ、ウェブデータ

のデータレコードセグメントの数、属性の数とする。この例では、条件付き分布を、観測データ

中のデータレコードセグメンテーション

及び、確率的無向グラフィカルモデル中のレコード属性

に対して定義することができる。このモデル化は、Ｇの因子Ｃを３つのグループ｛Ｃ^Ｓ、Ｃ^Ｒ、Ｃ^▽｝＝｛｛φ^Ｓ｝、｛φ^Ｒ｝、｛φ^▽｝｝、すなわち、データレコードセグメンテーションポテンシャルφ^Ｓ、属性ポテンシャルφ^Ｒ、及び、レコード−属性結合ポテンシャルφ^▽（それぞれのポテンシャルは、パラメータが結合されたクリークテンプレート（clique template）である）に分割することを可能にする。ポテンシャル関数

は、

内のデータレコードセグメンテーション

をモデル化し、ポテンシャル関数

は、属性ラベリングの組

内の任意の２つの属性間の依存関係（たとえば、長距離依存関係（または長距離依存性。以下同じ）や関係推移（relation transitivity）など）を表し、ここで、r_pmは、主データレコード候補Sp（S_pは、百科事典的なページの主なテーマもしくはコンセプトを表す）と

からの他のデータレコード候補S_mとの間の属性割当てであり、r_pnについて同様である。さらに、結合ポテンシャル

は、データレコードの対間の（たとえば、データレコード候補S_jと主データレコード候補S_pの間の）データレコードセグメンテーション

とレコード属性

との間の深くて複雑な相互作用を表現（ないし捕捉）する。Hammersley-Clifford（ハマースレイークリフォード）の定理によれば、結合（または同時）条件付き分布

は、下記に示すように指数型分布族の形式で、グラフＧ中のクリーク全体にわたるポテンシャル関数の積として因数分解される。

ここで、

は、該モデルの正規化係数（規格化因子）である。ポテンシャル関数φ^Ｓ、φ^Ｒ、及びφ^▽は、一組の特徴及び対応する組の実数値の重みにしたがって因数分解できることが想定されている。より具体的には、

である。データレコードセグメンテーションの特性を効率的に表現するために、それぞれのセグメント素性関数（segment feature function）

が、現在のセグメントS_i、前のセグメントS_i-1、及び全観測ウェブデータ

すなわち、

に依存するように、一次（の）マルコフ仮定をセミマルコフへと緩和させる。セグメント内の遷移を非マルコフとすることができる。

同様に、ポテンシャルφ^Ｒは、

であり、ここで、Ｗ及びＴは素性関数（特徴関数ともいう）の数であり、

は素性関数であり、μ_w及びν_tは、該関数の対応する重みである。ポテンシャル

は、異なる属性r_pmとr_pn間の長期依存性(または長期依存関係。以下同じ)を表すことができる。たとえば、同じデータレコードが、観測データ中に２回以上メンションされると、該データレコードの全てのメンションは、主データレコードと同じ関係属性を有する可能性が高い。ポテンシャル

を用いて、主データレコードに対する同じデータレコードセグメントの関連性が、ウェブデータ内に出現するそれらの全てのセグメント間で共有される。結合因子

は、レコードセグメンテーションと属性間の強い依存関係（依存性）を利用する。たとえば、レコードセグメントに「場所（location）」がラベル付けされており、主データレコードが「人（person）」である場合には、該レコード間の関係属性ラベルは、「出生地」または「訪問された」でありうるが、「雇用」ではありえない。そのような依存関係（依存性）は重要であり、それらをモデル化することによって、性能が改善されることが多い。要約すると、上記のフレームワークの確率分布を次のように書き直すことができる。

該モデルは、φ^Ｓによって表される、観測ウェブデータ

が条件とされているデータレコードセグメンテーション

上のセミマルコフ連鎖と、異なる属性r_pmとr_pn間の依存関係（依存性）の尺度となるポテンシャルφ^Ｒと、φ^▽によって表される、主データレコードS_pとそれぞれのデータレコードS_jに対する（それらの属性に関する）完全グラフ（fully-connected graph）という３つのサブ構造を含む。種々のタイプの条件付き確率場（ＣＲＦ）を類似のモデルにおいて使用することができる。たとえば、線形連鎖（linear-chain）ＣＲＦは、ウェブデータ抽出における複数のサブタスク間の長距離依存関係を表現（ないし捕捉）することができず、また、該サブタスク間の複雑な相互作用を表すことができないために、単一の系列ラベリング（シーケンスラベリング）だけを実行することができる。別の例では、スキップ連鎖ＣＲＦ（skip-chain CRF）が、長距離依存関係をモデル化して単一の系列ラベリング及び抽出におけるラベルの整合性の問題に対処するために、スキップエッジ（skip edge）を導入する。さらに別の例では、２次元（２Ｄ）ＣＲＦは、ウェブページ内の２次元（の）近傍依存性を組み込んでいるが、このモデルのグラフ表現は２Ｄ（２次元）グリッドである。この形態のモデルは、階層的な３つの構造を有するＣＲＦのクラスである階層的ＣＲＦを使用することができる。効率的でスケーラブルなウェブ用の上記の確率モデルは、２Ｄの階層的ＣＲＦとは異なるグラフ構造を有する。さらに、該モデルは、属性間の長期依存性を表し、及び、データレコードセグメンテーションと属性ラベリングとの間の深くて複雑な相互作用を表現（ないし捕捉）して相互の利益を利用することによって、効率的なデータレコードセグメンテーション及び属性ラベリング用のセミマルコフ連鎖を使用する。

レコードセグメント識別命令１２４は、データレコードセグメンテーションにおいて主レコードセグメント及び関連するレコードセグメントを識別する。百科事典的なページの例では、主レコードセグメントを、Abraham Lincolnなどのページのテーマとすることができる。関連するレコードセグメントを、該主レコードセグメントに構文的または空間的に関連付けられた属性として識別することができる。たとえば、それらの関連するレコードセグメントを、該主レコードセグメントを参照する文中の属性とすることができる。該主レコードセグメント及び関連するレコードセグメントは、観測データのデータレコードセグメンテーションの結果を分析することによって識別される。

関連属性決定命令１２６は、該関連するレコードセグメントの属性を決定する。たとえば、それぞれの関連するレコードセグメントを、「場所」、「日付」、「時刻」などに分類することができる。それらの属性を、正規表現などのテキストパターンを用いて決定することができる。さらに、それらの属性を、ウェブデータのサンプルデータセットから学習することによってデータが入力されたルックアップテーブルを用いて決定することができる。

結合ポテンシャル関数適用命令１２８は、レコードセグメントの対間の関係属性を決定するために、該主レコードセグメント及び関連するレコードセグメントに結合ポテンシャル関数を適用する。それぞれの関係属性は、主レコードセグメントと関連するレコードセグメントとの間の関係（たとえば、「出生地」、「誕生日」、「のメンバー」など）を説明ないし記述する。推論の目的は、データレコードセグメンテーション

と属性ラベリング

の両方が同時に最適化されるような

を見つけることである。この問題の正確な推論は一般にあまりにも高いコストがかかる。なぜなら、かかる推論は、可能性のある全てのセグメンテーション及び対応する属性ラベリング割当て（属性ラベルの割当て）を列挙することを必要とするからである。そのため、別の方法として近似的推論が用いられる。結合ポテンシャル関数は、近似的推論を実行して、繰り返すやり方で、最大事後確率（ＭＡＰ）のデータレコードセグメンテーション及び属性ラベリング割当てを決定するために、集合的反復分類（collective iterative classification：ＣＩＣ）を使用する。要するに、ＣＩＣは、サンプリングされた変数のラベル割当てに基づいて、対象とする全ての隠れ変数（潜在変数）をデコード（復号ないし解読）するために使用され、この場合、それらのラベルを、繰り返し処理の任意の時点で動的に更新することができる。集合的反復分類は、図４に関して後述するグラフ構造におけるノードとして記述されている関係オブジェクトの分類を意味する。ＣＩＣアルゴリズムは、２つのステップ、すなわち、（１）トレーニング（訓練）済みのモデル

が与えられた場合に、ラベル付けされていないウェブデータ

の最初のラベリング割当てを予測するブートストラッピング、及び（２）

のラベリング割当てを何回か再推定して、x_iに対する最初の割当てに基づいてサンプルセット（サンプル集合）Ｓ中のラベリング割当てを選択する反復分類処理、で推論を実行する。この場合、さまざまな推論状況を生成することを可能にするサンリング技術が利用され、それらのサンプルは、高確率領域内にある可能性が高く、このため、最大値（または最大確率値）を見つける可能性及びよりロバストで精密な性能（ないし成果）を得る可能性が高くなる。ＣＩＣアルゴリズムは、１つの繰り返し中または所与の数の繰り返し中にどのラベリング割当ても変わらない場合に収束することができる。注目すべきことに、該推論アルゴリズムは、パラメータの推定（すなわち、規格化定数（正規化定数）

を近似法を用いて計算することもできる）中に周辺確率

を効率的に計算するためにも使用される。このアルゴリズムを、設計が簡単で、効率的で、かつ、ウェブデータのサイズに対してスケーラブルなものとすることができる。

図２は、スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置２００のブロック図である。コンピューティング装置２００を、たとえば、後述の機能を実行するのに適したコンピューティング装置、デスクトップコンピューター、ラックマウントサーバー、もしくはその他の任意のコンピューティング装置とすることができる。コンピューティング装置２００は、ネットワーク２４５を介して、ウェブサーバー装置２５０Ａ、…、２５０Ｎと通信する。

図２の実施形態では、コンピューティング装置２００は、インターフェースモジュール２１０、モデリング（モデル化）モジュール２２０、トレーニングモジュール２２６、及び分析モジュール２３０を備えている。コンピューティング装置２００は、複数のモジュール２１０〜２３４を備えることができる。それらのモジュールの各々は、機械可読記憶媒体において符号化された（すなわち、符号化された状態で機械可読記憶媒体に格納されている）、コンピューティング装置２００のプロセッサが実行可能な一連の命令を含むことができる。各モジュールは、これらに加えまたはこれらに代えて、後述の機能を実施するための電子回路を含む１以上のハードウェア装置を備えることができる。

インターフェースモジュール２１０は、ウェブサーバー装置２５０Ａ、…、２５０Ｎとの通信を管理することができる。具体的には、インターフェースモジュール２１０は、ウェブサーバー装置２５０Ａ、…、２５０Ｎとの接続を開始し、その後、ウェブサーバー装置２５０Ａ、…、２５０Ｎに観測データを送信し、または、それらのウェブサーバー装置から観測データを受信することができる。

モデリングモジュール２２０は、スケーラブルなウェブデータ抽出を提供するための確率的無向グラフィカルモデルを生成するように構成されている。モデリングモジュール２２０のセグメンテーション（セグメント化）モジュール２２２は、観測データをレコードセグメントにセグメント化する（すなわちレコードセグメントに分ける）。たとえば、観測データが、ウェブページからのウェブデータである場合には、セグメンテーションモジュール２２２は、該ウェブデータを、属性モジュール２２３に関して後述するように、属性に関連付けられることができる単語及び句（すなわちレコードセグメント）にセグメント化することができる。

モデリングモジュール２２０の属性モジュール２２３は、セグメンテーションモジュール２２２によって生成されたレコードセグメントに属性を関連付ける。レコードセグメントの属性ラベルには、「人」、「日付」、「年」、「組織」などが含まれる。いくつかの場合には、正規表現などのテキスト認識を用いて、属性をレコードセグメントに関連付けることができる。さらに、観測データのサンプルデータセットに基づいて生成されたルックアップテーブルに基づいて、属性をレコードセグメントに関連付けることができる。

モデリングモジュール２２０の依存性モジュール２２４は、レコードセグメント間の依存性（依存関係）を識別する。依存性には、長距離依存関係や推移関係などを含めることができる。具体的には、依存性モジュール２２４は、観測データ中の主レコードセグメントと関連するレコードセグメントとの間の依存性（依存関係）を識別することができる。いくつかの場合には、それらの依存性を、主レコードセグメント及び関連するレコードセグメントに関連付けられた属性に基づいて識別することができる。それらの依存性を、図４に関して後述する依存性に類似のものとすることができる。

トレーニングモジュール２２６は、モデリングモジュール２２０によって生成されたモデルをトレーニングするように構成されている。互いに独立で同一の分布に従う（独立同分布：ＩＩＤ）トレーニングウェブデータ

が与えられ、ここで、

は、ｉ番目のデータ（データインスタンス）であり、

は、対応するデータレコードセグメンテーション及び属性ラベリング割当てであるとする。学習の目的は、該モデルのパラメータのベクトルである

を見積もる（ないし推定する）ことである。ＩＩＤが想定されている場合には、総和演算子

は、後続の微分における対数尤度では無視される。過学習（オーバーフィッティング）を低減するために、平均がゼロで共分散が

の球面ガウスプライア（spherical Gaussian prior。球面ガウシアンプライアともいう）などの正則化を使用することができる。この場合、それらのデータの正則化対数尤度関数（regularized log-likelihood function）

を、

と表すことができる。ここで、

及び、

は、正則化パラメータである。関数

をパラメータλ_kで微分すると、

が得られる。

同様に、対数尤度をパラメータμ_w及びν_tで偏微分すると、

となる。関数

は凹関数であり、該関数を、確率的勾配法（stochastic gradient）や記憶制限準ニュートン（limitedmemory quasi-Newton：L-BFGS）アルゴリズム（記憶制限準ニュートン法ともいう）などの標準的な技法によって効率的に最大化することができる。パラメータλ_k、μ_w、及びν_tは、収束するまで反復して最適化される。

分析モジュール２３０は、モデリングモジュール２２０によって生成されたモデルを観測データに適用して、レコードセグメント間の関係ラベルを決定する。分析モジュール２３０の抽出モジュール２３２は、ウェブサーバー装置２５０Ａ、…、２５０Ｎから観測データ（すなわちウェブデータ）を抽出するように構成されている。具体的には、抽出モジュール２３０は、インターフェースモジュール２３２を用いて、ウェブサーバー装置（たとえば、ウェブサーバー装置Ａ２５０Ａやウェブサーバー装置Ｎ２５０Ｎなど）からウェブデータを取得することができる。ウェブデータは、ウェブサーバー装置（たとえば、ウェブサーバー装置Ａ２５０Ａやウェブサーバー装置Ｎ２５０Ｎなど）によって提供されたウェブページに関連付けられており、該ウェブデータを、ハイパーテキストマークアップ言語（HTML）などの種々の形式（フォーマット）とすることができる。さらに、抽出モジュール２３２はまた、ウェブサーバー装置（たとえば、ウェブサーバー装置Ａ２５０Ａやウェブサーバー装置Ｎ２５０Ｎなど）からのウェブデータを説明するメタデータを取得することができる。メタデータの例には、ウェブページ、キーワード、該ウェブページが生成された日時などを生成するために使用されるツールのリストが含まれる。

属性ラベリング（属性ラベル付け）モジュール２３４は、モデリングモジュール２２０によって生成されたモデルを、依存性モジュール２２４によって識別された主レコードセグメント及び関連するレコードセグメントに適用して、レコードセグメントの対の属性ラベルを決定する。具体的には、該モデルの結合ポテンシャル関数を、主レコードセグメント及びそれぞれの関連するレコードセグメントに適用して、該対間の関係を決定することができる。たとえば、主レコードセグメントに「人」属性が割り当てられ、関連するレコードセグメントに「場所」属性が割り当てられている場合には、属性ラベリングモジュールは、レコードセグメントの該対に「出生地」関係ラベルを付すべきことを決定することができる。「出生地」関係ラベルは、レコードセグメントの該対間の関係を、該モデルを用いて自動的に識別することができるウェブデータ内の深い依存性として表している。

ウェブサーバー装置２５０Ａ、…、２５０Ｎを、ネットワーク２４５を介してコンピューティング装置２００にアクセス可能な、後述の機能を実行するのに適した任意のサーバーとすることができる。詳細に後述するように、ウェブサーバー装置２５０Ａ、…、２５０Ｎの各々は、ウェブコンテンツを提供するための一連のモジュール２６０〜２６４を備えることができる。

ウェブページモジュール２６０は、ウェブサーバー装置Ａ２５０Ａのウェブページにアクセスできる（該ウェブページにアクセスを提供する）ように構成されている。ウェブページページモジュール２６０のコンテンツモジュール２６２は、ウェブページをウェブコンテンツとしてネットワーク２４５を介して提供するように構成されている。それらのウェブページを、ウェブブラウザで表示されるように構成されたHTMLページとして提供することができる。この場合、サーバーコンピューター装置２００は、上記したようにそれらのHTMLページをウェブデータとして処理するために、コンテンツモジュール２６２からそれらのHTMLページを取得する。

ウェブページモジュール２６０のメタデータＡＰＩ２６４は、ウェブページに関連するメタデータを管理する。該メタデータはウェブデータを説明するものであり、該メタデータを、コンテンツモジュール２６２によって提供されるウェブページに含めることができる。たとえば、種々のページ要素を記述ないし説明するキーワードを、メタデータとしてウェブページに埋め込むことができる。

図３は、スケーラブルなウェブデータ抽出を提供するためにコンピューティング装置１００によって実行される例示的な方法３００のフローチャートである。方法３００の実行を図１のコンピューティング装置１００に関して説明するが、図２のコンピューティング装置２００などの方法３００を実行するための他の適切な装置を使用することもできる。方法３００を、記憶媒体１２０などの機械可読記憶媒体に格納された実行可能命令の形態で、及び／又は電子回路の形態で実施することができる。

方法３００は、ブロック３０５から開始してブロック３１０に進み、そこで、コンピューティング装置１００は、観測データ中のデータレコードセグメンテーション及び確率的無向グラフィカルモデル内のレコード属性の条件付き分布を定義する（ないし定める）ことができる。ブロック３１５において、主レコードセグメント及び関連するレコードセグメントが、データレコードセグメンテーションにおいて識別される。該主レコードセグメント及び関連するレコードセグメントは、観測データのデータレコードセグメンテーションの結果を分析することによって識別される。たとえば、ウェブデータの完全なセットを考慮して、一連のデータレコードセグメント（すなわち、各レコードセグメントのコンテキスト）を分析することができる。

ブロック３２０において、コンピューティング装置１００は、それらの関連するレコードセグメントの属性を決定する。たとえば、正規表現などのテキストパターンを用いてそれらの属性を決定することができる。ブロック３２５において、コンピューティング装置１００は、該主レコードセグメント及び関連するレコードセグメントに結合ポテンシャル関数を適用して、レコードセグメントの対間の関係属性を決定する。関係属性の各々は、主レコードセグメントと関連するレコードセグメントとの間の関係（たとえば、「出生地」、「誕生日」、「のメンバー」など）を表している。方法３００は、次に、ブロック３３０に進み、そこで終了することができる。

図４は、ウェブデータ内のデータレコードセグメントの分析から得られた例示的な関係ラベルを示す略図４００である。略図４００は、識別された関係ラベル４３０〜４３４と共にレコードセグメント４０２〜４２６を示している。レコードセグメント４０２〜４２６は、主レコードセグメント４０２及び関連するレコードセグメント４１０、４１４、４２４を含んでいる。この例では、主レコードセグメント４０２、すなわち、「Abraham Lincoln」を、百科事典的なウェブページのテーマとすることができる。関連するレコードセグメント４１０、４１４、４２４は、主レコードセグメント４０２と関係４３０、４３２、４３４を有することが示されている。

関連するレコードセグメント４１０、４１４、４２４の各々を属性に関連付けることができ、この例では、それらの属性を、関連するレコードセグメント４１０については「日付」とし、関連するレコードセグメント４１４については「年」とし、関連するレコードセグメント４２４については「グループ」とすることができる。主レコードセグメント４０２を「人」属性に関連付けることができる。図１〜図３に関して上記したようにモデルを適用すると、主レコードセグメント４０２を、関連するレコードセグメント４１０、４１４、４２４の各々と共に（または該関連するレコードセグメントの各々を用いて）分析して、関係ラベル４３０〜４３４を決定することができる。

関連するレコードセグメント４１０については、該モデルは、主レコードセグメント４０２の「人」は、関係４３０に示されている「誕生日」としての「日付」に関連付けられることを決定する。関連するレコードセグメント４１４については、該モデルは、主レコードセグメント４０２の「人」は、関係４３２に示されている「生年」としての「年」に関連付けられることを決定する。関連するレコードセグメント４２４については、該モデルは、主レコードセグメント４０２の「人」は、関係４３４に示されている「のメンバー」としての「グループ」に関連付けられることを決定する。

上述の開示は、コンピューティング装置によってスケーラブルなウェブデータ抽出を提供するためのいくつかの例示的な実施形態を説明している。このように、本明細書及び／又は図面に開示されている実施形態は、ウェブデータ中のレコードセグメントの統計的属性を考慮する確率モデルを用いることによって、スケーラブルなウェブデータ抽出を提供することを可能にする。

Claims

スケーラブルなウェブデータ抽出のためのコンピューティング装置であって、該コンピューティング装置はプロセッサを備え、
前記プロセッサは、ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するように動作し、該結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーション、及び該複数のデータレコードセグメント中のデータセグメントの対間の依存関係をモデル化し、
前記プロセッサは、前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するように動作し、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられ、
前記プロセッサは、複数の関連する属性を決定するように動作し、該複数の関連する属性の各々の属性は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられ、
前記プロセッサは、前記主レコードセグメント及び各々の対応する関連するセグメントに前記結合ポテンシャル関数を適用して、前記主レコードセグメントと前記対応する関連するセグメントの間のデータ関係を記述する対応する関係ラベルを決定するように動作することからなる、コンピューティング装置。
前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされ、前記結合ポテンシャル関数は凹関数である、請求項１のコンピューティング装置。
前記結合ポテンシャル関数は、

と定義され、ここで、

及び、

は、正則化パラメータであり、

は、データレコードセグメンテーションの割り当てであり、

は、属性ラベリングの割り当てであり、

は、ウェブデータであり、λ_ｋ、μ_w、ν_tは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項２のコンピューティング装置。
前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び、前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項１のコンピューティング装置。
前記結合ポテンシャル関数は、

と定義される確率モデルに含まれ、ここで、Ｚ(x)は正規化係数であり、φ^Ｓはレコードセグメンテーションポテンシャル関数であり、φ^Ｒは属性ポテンシャル関数であり、φ^▽は前記結合ポテンシャル関数であり、

は、データレコードセグメンテーションの割当てであり、

は、属性ラベリングの割当てである、請求項１のコンピューティング装置。
スケーラブルなウェブデータ抽出のための方法であって、
ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対する確率モデルにおける結合ポテンシャル関数を定義するステップであって、前記結合ポテンシャル関数は、凹関数であり、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化することからなる、ステップと、
前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するステップであって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、ステップと、
複数の関連する属性を決定するステップであって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、ステップと、
前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するステップ
を含む方法。
前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされる、請求項６の方法。
前記結合ポテンシャル関数は、

と定義され、ここで、

及び、

は、正則化パラメータであり、

は、データレコードセグメンテーションの割当てであり、

は、属性ラベリングの割当てであり、

は、ウェブデータであり、λ_ｋ、μ_w、ν_tは、前記確率モデルにおける最適化のためのパラメータである、請求項７の方法。
前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項６の方法。
前記確率モデルは、

と定義され、ここで、Ｚ(x)は正規化係数であり、φ^Ｓはレコードセグメンテーションポテンシャル関数であり、φ^Ｒは属性ポテンシャル関数であり、φ^▽は前記結合ポテンシャル関数であり、

は、データレコードセグメンテーションの割当てであり、

は、属性ラベリングの割当てである、請求項６の方法。
スケーラブルなウェブデータ抽出を提供するためのプロセッサによって実行可能な命令で符号化された非一時的な機械可読記憶媒体であって、
ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するための命令であって、前記結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化し、前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされることからなる、命令と、
前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するための命令であって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、命令と、
複数の関連する属性を決定するための命令であって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、命令と、
前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するための命令
を含む機械可読記憶媒体。
前記結合ポテンシャル関数は凹関数である、請求項１１の機械可読記憶媒体。
前記結合ポテンシャル関数は、

と定義され、ここで、

及び、

は正則化パラメータであり、

はデータレコードセグメンテーションの割当てであり、

は属性ラベリングの割当てであり、

はウェブデータであり、λ_ｋ、μ_w、ν_tは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項１２の機械可読記憶媒体。
前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項１１の機械可読記憶媒体。
前記結合ポテンシャル関数は、

と定義される確率モデルに含まれ、ここで、Ｚ(x)は正規化係数であり、φ^Ｓはレコードセグメンテーションポテンシャル関数であり、φ^Ｒは属性ポテンシャル関数であり、φ^▽は前記結合ポテンシャル関数であり、

は、データレコードセグメンメンテーションの割当てであり、

は、属性ラベリングの割当てである、請求項１１の機械可読記憶媒体。