JP2017538226A - スケーラブルなウェブデータの抽出 - Google Patents

スケーラブルなウェブデータの抽出 Download PDF

Info

Publication number
JP2017538226A
JP2017538226A JP2017531481A JP2017531481A JP2017538226A JP 2017538226 A JP2017538226 A JP 2017538226A JP 2017531481 A JP2017531481 A JP 2017531481A JP 2017531481 A JP2017531481 A JP 2017531481A JP 2017538226 A JP2017538226 A JP 2017538226A
Authority
JP
Japan
Prior art keywords
record
data
segment
potential function
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017531481A
Other languages
English (en)
Inventor
ユ,シャオ−フェン
ジー,ジュン−キン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Enterprise Development LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Enterprise Development LP filed Critical Hewlett Packard Enterprise Development LP
Publication of JP2017538226A publication Critical patent/JP2017538226A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

例示的な実施形態は、スケーラブルなウェブデータ抽出に関する。例示的な実施形態では、ウェブページから抽出されたウェブデータのデータレコードセグメントに対して結合ポテンシャル関数が定義され、該結合ポテンシャル関数は、該ウェブデータのデータレコードセグメンテーション及び該データレコードセグメント中のデータセグメントの対間の依存性をモデル化する。この段階で、主レコードセグメント及びいくつかの関連するレコードセグメントが該データレコードセグメントから識別され、この場合、該複数の関連するレコードセグメントの各々は該主レコードセグメントに関連付けられている。関連する属性が、それぞれの関連するレコードセグメントに対して決定される。次に、該結合ポテンシャル関数が、該主レコードセグメント及び各々の対応する関連するセグメントに適用されて、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する関係ラベルが決定される。【選択図】図1

Description

様々なタイプの有用な意味情報がウェブページに埋め込まれている。ウェブデータ抽出(たとえば、ウェブページのテキストデータセグメンテーション及びラベリング(ラベル付け)、ウェブページのセマンティクスの理解)は、ユーザーのブラウジング(閲覧)及び検索体験を大きく改善させる可能性がある。ルールベースまたはパターンベースのソリューションは、ウェブページ中のハイパーテキストマークアップ言語(HTML)からの小さなまたは特定の構造もしくはレコードを識別するために正規表現などのテキストパターンマッチングを使用することができ、または、限定されたドメイン内の共通のセクションを識別するためのテンプレートベースのアプローチを使用することができる。これらのソリューションは、ルールベースのパターンマイニングアプローチを用いるページレイアウト及びフォーマット分析に主に重点を置いており、また、同じテンプレートによって生成されたウェブページのみに対して作用するようにテンプレートに依存する。さらに、ユーザーは、ルールベースまたはパターンベースのソリューションに対して、それぞれのルール、パターン、テンプレートなどに関する明示的な情報を提供する。
(補充可能性あり)
下記の詳細な説明は添付の図面を参照する。
スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置のブロック図である。 スケーラブルなウェブデータ抽出を提供するためにウェブサーバーと通信する例示的なコンピューティング装置のブロック図である。 スケーラブルなウェブデータ抽出を提供するためにコンピューティング装置によって実行される例示的な方法のフローチャートである。 ウェブデータ内のデータレコードセグメントの分析から得られた例示的な関係ラベルを示す。
上記したように、ルールベースまたはパターンベースのソリューションは、ハイパーテキストマークアップ言語(HTML)からの小さなまたは特定の構造もしくはレコードを識別するために正規表現などのテキストパターンマッチングを使用することができる。それらのソリューションは、HTML中のテキストセグメント間の関係を分析するために自然言語処理及びテキスト分析を使用することができる。しかしながら、ウェブページのデータ内容(データコンテンツ)は、テキストの断片であって、文法的に厳密に正しいものではないことが多いので、一般に文が文法的に正しいことを想定している従来の自然言語処理(NLP)技術を直接適用することはできない。論理的に整合しているデータブロックのセグメンテーション(セグメント化)は重要であり、データブロック内のテキストの断片(テキスト断片)は文法を考慮していない。このため、セグメンテーション技術は、通常は、異なるテキスト断片の境界を除去しまたはソフトにする。さらに重要なことには、ほとんどのセグメンテーション技術は、2次元のレイアウト情報及び階層構造などのHTML要素の構造フォーマットを除去するが、この結果、性能が低下してしまう。
本明細書に記載されている例は、任意のグラフィック構造を有する統計的なフレームワークに基づく効率的でスケーラブルなウェブデータ抽出のためのテンプレートに依存しないソリューションを説明している。そのようなソリューションは、基礎となるグラフにしたがって因数分解し、及び変数間の複雑な依存関係を表現(ないし捕捉)する確率分布の族(family)として多数のランダム変数を表すことができる。たとえばWIKIPEDIA(商標)などの百科事典的なページからのウェブデータ抽出では、それぞれの百科事典的なページは、「Abraham Lincoln」などの主データレコード(すなわち、主要なデータレコード)によって表された主要なテーマやコンセプトを有している。テンプレートに依存しないこのソリューションの目的は、「Abraham Lincoln」、「February 12(2月12日)」、「1809」、及び「Republican Party(共和党)」などの全ての興味のあるデータレコードを抜き出し(抽出し)て、それらのデータレコードに属性ラベルを割り当てることである。この例では、属性ラベリングのセット(組)は、それぞれのデータレコードに割り当てられた「人」、「日付」、「年」、「組織」といったラベルや、データレコードの対間の「誕生日」、「生年」、及び「メンバー(構成員)」などの関係ラベルなどの所定のラベルを含むことができる。WIKIPEDIA(商標)は、カリフォルニア州のSan Francisco(サンフランシスコ)に本社を置くWikimedia Foundation, Incの登録商標である。
いくつかの例では、結合ポテンシャル関数(joint potentialfunction)は、ウェブページから抽出されたウェブデータのデータレコードセグメントに対して定義され、この場合、結合ポテンシャル関数は、ウェブデータのデータレコードセグメンテーション、及び、データレコードセグメント中のデータセグメントの対間の依存関係(依存性)をモデル化する。この段階では、主レコードセグメント(すなわち主要なレコードセグメント)及び複数の関連するレコードセグメントは、それらのデータレコードセグメントから識別ないし特定され、この場合、該複数の関連するレコードセグメントの各々は、該主レコードセグメントに関連付けられている。関連する属性が、関連するレコードセグメントの各々について決定される。次に、結合ポテンシャル関数が、該主レコードセグメント及び対応するそれぞれの関連するセグメントに適用されて、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する関係ラベルが決定される。
ここで、図1は、スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置100のブロック図である。コンピューティング装置100を、図2のウェブサーバー装置250A、250Nなどのウェブサーバー装置にアクセスすることができる任意のコンピューティング装置とすることができる。図1の実施形態では、コンピューティング装置100は、プロセッサ110、インターフェース115、及び機械可読記憶媒体120を備えている。
プロセッサ110を、機械可読記憶媒体120に格納されている命令を取り出して実行するのに適した1以上の中央処理装置(CPU)、及び/又はマイクロプロセッサ、及び/又はその他のハードウェア装置とすることができる。スケーラブルなウェブデータ抽出を提供できるようにするために、プロセッサ110は、命令122、124、126、128をフェッチし、デコードし、及び実行することができる。プロセッサ110は、命令を取り出して実行する代わりにまたはそれらに加えて、命令122、124、126、128のうちの1以上の機能を実行するための複数の電子的構成要素を含む1以上の電子回路を備えることができる。
インターフェース115は、ウェブサーバー装置と通信するための複数の電子的構成要素を備えることができる。たとえば、インターフェース115を、該ウェブサーバー装置と通信するのに適したイーサネット(Ethernet)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、IEEE1394(ファイヤーワイヤー)インターフェース、external Serial Advanced TechnologyAttachment(eSATA)インターフェース、もしくはその他の任意の物理的接続インターフェースとすることができる。代替的には、インターフェース115を、無線LAN(WLAN)インターフェースや近距離無線通信(NFC)インターフェースなどの無線インターフェースとすることができる。後述するように、動作時には、インターフェース115を用いて、ウェブサーバー装置の対応するインターフェースとの間でデータを送受信することができる。
機械可読記憶媒体120を、実行可能命令を格納する任意の電子記憶装置、磁気記憶装置、光学式記憶装置、もしくはその他の物理的記憶装置とすることができる。したがって、機械可読記憶媒体120を、たとえば、ランダムアクセスメモリ(RAM)、電気的消去可能PROM(EEPROM)、記憶ドライブ、及び光ディスクなどとすることができる。詳細に後述するように、機械可読記憶媒体120を、スケーラブルなウェブデータ抽出を提供するための実行可能命令で符号化することができる。
結合ポテンシャル関数定義命令122は、観測データ中のデータレコードセグメンテーション及び確率的無向グラフィカルモデル中のレコード属性の条件付き分布を定義する。マルコフ確率場の結合確率分布を、ポテンシャル関数の積として定義することができ、この場合、ポテンシャル関数を、その引き数の任意の非負の関数とすることができる。データレコードセグメンテーションは、ウェブページからレコードセグメント(すなわちテキストの断片)への観測データのセグメンテーションである(後述のように、該レコードセグメントを分析することができる)。それぞれのレコードセグメントを、属性に関連付けることができる単語または句とすることができる。
たとえば、L、Mを、それぞれ、ウェブデータ

のデータレコードセグメントの数、属性の数とする。この例では、条件付き分布を、観測データ

中のデータレコードセグメンテーション

及び、確率的無向グラフィカルモデル中のレコード属性

に対して定義することができる。このモデル化は、Gの因子Cを3つのグループ{C、C、C}={{φ}、{φ}、{φ}}、すなわち、データレコードセグメンテーションポテンシャルφ、属性ポテンシャルφ、及び、レコード−属性結合ポテンシャルφ(それぞれのポテンシャルは、パラメータが結合されたクリークテンプレート(clique template)である)に分割することを可能にする。ポテンシャル関数

は、

内のデータレコードセグメンテーション

をモデル化し、ポテンシャル関数

は、属性ラベリングの組

内の任意の2つの属性間の依存関係(たとえば、長距離依存関係(または長距離依存性。以下同じ)や関係推移(relation transitivity)など)を表し、ここで、rpmは、主データレコード候補Sp(Spは、百科事典的なページの主なテーマもしくはコンセプトを表す)と

からの他のデータレコード候補Smとの間の属性割当てであり、rpnについて同様である。さらに、結合ポテンシャル

は、データレコードの対間の(たとえば、データレコード候補Sjと主データレコード候補Spの間の)データレコードセグメンテーション

とレコード属性

との間の深くて複雑な相互作用を表現(ないし捕捉)する。Hammersley-Clifford(ハマースレイークリフォード)の定理によれば、結合(または同時)条件付き分布

は、下記に示すように指数型分布族の形式で、グラフG中のクリーク全体にわたるポテンシャル関数の積として因数分解される。

ここで、

は、該モデルの正規化係数(規格化因子)である。ポテンシャル関数φ、φ、及びφは、一組の特徴及び対応する組の実数値の重みにしたがって因数分解できることが想定されている。より具体的には、

である。データレコードセグメンテーションの特性を効率的に表現するために、それぞれのセグメント素性関数(segment feature function)

が、現在のセグメントSi、前のセグメントSi-1、及び全観測ウェブデータ

すなわち、

に依存するように、一次(の)マルコフ仮定をセミマルコフへと緩和させる。セグメント内の遷移を非マルコフとすることができる。
同様に、ポテンシャルφは、

であり、ここで、W及びTは素性関数(特徴関数ともいう)の数であり、

は素性関数であり、μw及びνtは、該関数の対応する重みである。ポテンシャル

は、異なる属性rpmとrpn間の長期依存性(または長期依存関係。以下同じ)を表すことができる。たとえば、同じデータレコードが、観測データ中に2回以上メンションされると、該データレコードの全てのメンションは、主データレコードと同じ関係属性を有する可能性が高い。ポテンシャル

を用いて、主データレコードに対する同じデータレコードセグメントの関連性が、ウェブデータ内に出現するそれらの全てのセグメント間で共有される。結合因子

は、レコードセグメンテーションと属性間の強い依存関係(依存性)を利用する。たとえば、レコードセグメントに「場所(location)」がラベル付けされており、主データレコードが「人(person)」である場合には、該レコード間の関係属性ラベルは、「出生地」または「訪問された」でありうるが、「雇用」ではありえない。そのような依存関係(依存性)は重要であり、それらをモデル化することによって、性能が改善されることが多い。要約すると、上記のフレームワークの確率分布を次のように書き直すことができる。
該モデルは、φによって表される、観測ウェブデータ

が条件とされているデータレコードセグメンテーション

上のセミマルコフ連鎖と、異なる属性rpmとrpn間の依存関係(依存性)の尺度となるポテンシャルφと、φによって表される、主データレコードSpとそれぞれのデータレコードSjに対する(それらの属性に関する)完全グラフ(fully-connected graph)という3つのサブ構造を含む。種々のタイプの条件付き確率場(CRF)を類似のモデルにおいて使用することができる。たとえば、線形連鎖(linear-chain)CRFは、ウェブデータ抽出における複数のサブタスク間の長距離依存関係を表現(ないし捕捉)することができず、また、該サブタスク間の複雑な相互作用を表すことができないために、単一の系列ラベリング(シーケンスラベリング)だけを実行することができる。別の例では、スキップ連鎖CRF(skip-chain CRF)が、長距離依存関係をモデル化して単一の系列ラベリング及び抽出におけるラベルの整合性の問題に対処するために、スキップエッジ(skip edge)を導入する。さらに別の例では、2次元(2D)CRFは、ウェブページ内の2次元(の)近傍依存性を組み込んでいるが、このモデルのグラフ表現は2D(2次元)グリッドである。この形態のモデルは、階層的な3つの構造を有するCRFのクラスである階層的CRFを使用することができる。効率的でスケーラブルなウェブ用の上記の確率モデルは、2Dの階層的CRFとは異なるグラフ構造を有する。さらに、該モデルは、属性間の長期依存性を表し、及び、データレコードセグメンテーションと属性ラベリングとの間の深くて複雑な相互作用を表現(ないし捕捉)して相互の利益を利用することによって、効率的なデータレコードセグメンテーション及び属性ラベリング用のセミマルコフ連鎖を使用する。
レコードセグメント識別命令124は、データレコードセグメンテーションにおいて主レコードセグメント及び関連するレコードセグメントを識別する。百科事典的なページの例では、主レコードセグメントを、Abraham Lincolnなどのページのテーマとすることができる。関連するレコードセグメントを、該主レコードセグメントに構文的または空間的に関連付けられた属性として識別することができる。たとえば、それらの関連するレコードセグメントを、該主レコードセグメントを参照する文中の属性とすることができる。該主レコードセグメント及び関連するレコードセグメントは、観測データのデータレコードセグメンテーションの結果を分析することによって識別される。
関連属性決定命令126は、該関連するレコードセグメントの属性を決定する。たとえば、それぞれの関連するレコードセグメントを、「場所」、「日付」、「時刻」などに分類することができる。それらの属性を、正規表現などのテキストパターンを用いて決定することができる。さらに、それらの属性を、ウェブデータのサンプルデータセットから学習することによってデータが入力されたルックアップテーブルを用いて決定することができる。
結合ポテンシャル関数適用命令128は、レコードセグメントの対間の関係属性を決定するために、該主レコードセグメント及び関連するレコードセグメントに結合ポテンシャル関数を適用する。それぞれの関係属性は、主レコードセグメントと関連するレコードセグメントとの間の関係(たとえば、「出生地」、「誕生日」、「のメンバー」など)を説明ないし記述する。推論の目的は、データレコードセグメンテーション

と属性ラベリング

の両方が同時に最適化されるような

を見つけることである。この問題の正確な推論は一般にあまりにも高いコストがかかる。なぜなら、かかる推論は、可能性のある全てのセグメンテーション及び対応する属性ラベリング割当て(属性ラベルの割当て)を列挙することを必要とするからである。そのため、別の方法として近似的推論が用いられる。結合ポテンシャル関数は、近似的推論を実行して、繰り返すやり方で、最大事後確率(MAP)のデータレコードセグメンテーション及び属性ラベリング割当てを決定するために、集合的反復分類(collective iterative classification:CIC)を使用する。要するに、CICは、サンプリングされた変数のラベル割当てに基づいて、対象とする全ての隠れ変数(潜在変数)をデコード(復号ないし解読)するために使用され、この場合、それらのラベルを、繰り返し処理の任意の時点で動的に更新することができる。集合的反復分類は、図4に関して後述するグラフ構造におけるノードとして記述されている関係オブジェクトの分類を意味する。CICアルゴリズムは、2つのステップ、すなわち、(1)トレーニング(訓練)済みのモデル

が与えられた場合に、ラベル付けされていないウェブデータ

の最初のラベリング割当てを予測するブートストラッピング、及び(2)

のラベリング割当てを何回か再推定して、xiに対する最初の割当てに基づいてサンプルセット(サンプル集合)S中のラベリング割当てを選択する反復分類処理、で推論を実行する。この場合、さまざまな推論状況を生成することを可能にするサンリング技術が利用され、それらのサンプルは、高確率領域内にある可能性が高く、このため、最大値(または最大確率値)を見つける可能性及びよりロバストで精密な性能(ないし成果)を得る可能性が高くなる。CICアルゴリズムは、1つの繰り返し中または所与の数の繰り返し中にどのラベリング割当ても変わらない場合に収束することができる。注目すべきことに、該推論アルゴリズムは、パラメータの推定(すなわち、規格化定数(正規化定数)

を近似法を用いて計算することもできる)中に周辺確率

を効率的に計算するためにも使用される。このアルゴリズムを、設計が簡単で、効率的で、かつ、ウェブデータのサイズに対してスケーラブルなものとすることができる。
図2は、スケーラブルなウェブデータ抽出を提供するための例示的なコンピューティング装置200のブロック図である。コンピューティング装置200を、たとえば、後述の機能を実行するのに適したコンピューティング装置、デスクトップコンピューター、ラックマウントサーバー、もしくはその他の任意のコンピューティング装置とすることができる。コンピューティング装置200は、ネットワーク245を介して、ウェブサーバー装置250A、…、250Nと通信する。
図2の実施形態では、コンピューティング装置200は、インターフェースモジュール210、モデリング(モデル化)モジュール220、トレーニングモジュール226、及び分析モジュール230を備えている。コンピューティング装置200は、複数のモジュール210〜234を備えることができる。それらのモジュールの各々は、機械可読記憶媒体において符号化された(すなわち、符号化された状態で機械可読記憶媒体に格納されている)、コンピューティング装置200のプロセッサが実行可能な一連の命令を含むことができる。各モジュールは、これらに加えまたはこれらに代えて、後述の機能を実施するための電子回路を含む1以上のハードウェア装置を備えることができる。
インターフェースモジュール210は、ウェブサーバー装置250A、…、250Nとの通信を管理することができる。具体的には、インターフェースモジュール210は、ウェブサーバー装置250A、…、250Nとの接続を開始し、その後、ウェブサーバー装置250A、…、250Nに観測データを送信し、または、それらのウェブサーバー装置から観測データを受信することができる。
モデリングモジュール220は、スケーラブルなウェブデータ抽出を提供するための確率的無向グラフィカルモデルを生成するように構成されている。モデリングモジュール220のセグメンテーション(セグメント化)モジュール222は、観測データをレコードセグメントにセグメント化する(すなわちレコードセグメントに分ける)。たとえば、観測データが、ウェブページからのウェブデータである場合には、セグメンテーションモジュール222は、該ウェブデータを、属性モジュール223に関して後述するように、属性に関連付けられることができる単語及び句(すなわちレコードセグメント)にセグメント化することができる。
モデリングモジュール220の属性モジュール223は、セグメンテーションモジュール222によって生成されたレコードセグメントに属性を関連付ける。レコードセグメントの属性ラベルには、「人」、「日付」、「年」、「組織」などが含まれる。いくつかの場合には、正規表現などのテキスト認識を用いて、属性をレコードセグメントに関連付けることができる。さらに、観測データのサンプルデータセットに基づいて生成されたルックアップテーブルに基づいて、属性をレコードセグメントに関連付けることができる。
モデリングモジュール220の依存性モジュール224は、レコードセグメント間の依存性(依存関係)を識別する。依存性には、長距離依存関係や推移関係などを含めることができる。具体的には、依存性モジュール224は、観測データ中の主レコードセグメントと関連するレコードセグメントとの間の依存性(依存関係)を識別することができる。いくつかの場合には、それらの依存性を、主レコードセグメント及び関連するレコードセグメントに関連付けられた属性に基づいて識別することができる。それらの依存性を、図4に関して後述する依存性に類似のものとすることができる。
トレーニングモジュール226は、モデリングモジュール220によって生成されたモデルをトレーニングするように構成されている。互いに独立で同一の分布に従う(独立同分布:IID)トレーニングウェブデータ

が与えられ、ここで、

は、i番目のデータ(データインスタンス)であり、

は、対応するデータレコードセグメンテーション及び属性ラベリング割当てであるとする。学習の目的は、該モデルのパラメータのベクトルである

を見積もる(ないし推定する)ことである。IIDが想定されている場合には、総和演算子

は、後続の微分における対数尤度では無視される。過学習(オーバーフィッティング)を低減するために、平均がゼロで共分散が

の球面ガウスプライア(spherical Gaussian prior。球面ガウシアンプライアともいう)などの正則化を使用することができる。この場合、それらのデータの正則化対数尤度関数(regularized log-likelihood function)

を、

と表すことができる。ここで、

及び、

は、正則化パラメータである。関数

をパラメータλkで微分すると、

が得られる。
同様に、対数尤度をパラメータμw及びνtで偏微分すると、

となる。関数

は凹関数であり、該関数を、確率的勾配法(stochastic gradient)や記憶制限準ニュートン(limitedmemory quasi-Newton:L-BFGS)アルゴリズム(記憶制限準ニュートン法ともいう)などの標準的な技法によって効率的に最大化することができる。パラメータλk、μw、及びνtは、収束するまで反復して最適化される。
分析モジュール230は、モデリングモジュール220によって生成されたモデルを観測データに適用して、レコードセグメント間の関係ラベルを決定する。分析モジュール230の抽出モジュール232は、ウェブサーバー装置250A、…、250Nから観測データ(すなわちウェブデータ)を抽出するように構成されている。具体的には、抽出モジュール230は、インターフェースモジュール232を用いて、ウェブサーバー装置(たとえば、ウェブサーバー装置A250Aやウェブサーバー装置N 250Nなど)からウェブデータを取得することができる。ウェブデータは、ウェブサーバー装置(たとえば、ウェブサーバー装置A 250Aやウェブサーバー装置N250Nなど)によって提供されたウェブページに関連付けられており、該ウェブデータを、ハイパーテキストマークアップ言語(HTML)などの種々の形式(フォーマット)とすることができる。さらに、抽出モジュール232はまた、ウェブサーバー装置(たとえば、ウェブサーバー装置A250Aやウェブサーバー装置N 250Nなど)からのウェブデータを説明するメタデータを取得することができる。メタデータの例には、ウェブページ、キーワード、該ウェブページが生成された日時などを生成するために使用されるツールのリストが含まれる。
属性ラベリング(属性ラベル付け)モジュール234は、モデリングモジュール220によって生成されたモデルを、依存性モジュール224によって識別された主レコードセグメント及び関連するレコードセグメントに適用して、レコードセグメントの対の属性ラベルを決定する。具体的には、該モデルの結合ポテンシャル関数を、主レコードセグメント及びそれぞれの関連するレコードセグメントに適用して、該対間の関係を決定することができる。たとえば、主レコードセグメントに「人」属性が割り当てられ、関連するレコードセグメントに「場所」属性が割り当てられている場合には、属性ラベリングモジュールは、レコードセグメントの該対に「出生地」関係ラベルを付すべきことを決定することができる。「出生地」関係ラベルは、レコードセグメントの該対間の関係を、該モデルを用いて自動的に識別することができるウェブデータ内の深い依存性として表している。
ウェブサーバー装置250A、…、250Nを、ネットワーク245を介してコンピューティング装置200にアクセス可能な、後述の機能を実行するのに適した任意のサーバーとすることができる。詳細に後述するように、ウェブサーバー装置250A、…、250Nの各々は、ウェブコンテンツを提供するための一連のモジュール260〜264を備えることができる。
ウェブページモジュール260は、ウェブサーバー装置A 250Aのウェブページにアクセスできる(該ウェブページにアクセスを提供する)ように構成されている。ウェブページページモジュール260のコンテンツモジュール262は、ウェブページをウェブコンテンツとしてネットワーク245を介して提供するように構成されている。それらのウェブページを、ウェブブラウザで表示されるように構成されたHTMLページとして提供することができる。この場合、サーバーコンピューター装置200は、上記したようにそれらのHTMLページをウェブデータとして処理するために、コンテンツモジュール262からそれらのHTMLページを取得する。
ウェブページモジュール260のメタデータAPI 264は、ウェブページに関連するメタデータを管理する。該メタデータはウェブデータを説明するものであり、該メタデータを、コンテンツモジュール262によって提供されるウェブページに含めることができる。たとえば、種々のページ要素を記述ないし説明するキーワードを、メタデータとしてウェブページに埋め込むことができる。
図3は、スケーラブルなウェブデータ抽出を提供するためにコンピューティング装置100によって実行される例示的な方法300のフローチャートである。方法300の実行を図1のコンピューティング装置100に関して説明するが、図2のコンピューティング装置200などの方法300を実行するための他の適切な装置を使用することもできる。方法300を、記憶媒体120などの機械可読記憶媒体に格納された実行可能命令の形態で、及び/又は電子回路の形態で実施することができる。
方法300は、ブロック305から開始してブロック310に進み、そこで、コンピューティング装置100は、観測データ中のデータレコードセグメンテーション及び確率的無向グラフィカルモデル内のレコード属性の条件付き分布を定義する(ないし定める)ことができる。ブロック315において、主レコードセグメント及び関連するレコードセグメントが、データレコードセグメンテーションにおいて識別される。該主レコードセグメント及び関連するレコードセグメントは、観測データのデータレコードセグメンテーションの結果を分析することによって識別される。たとえば、ウェブデータの完全なセットを考慮して、一連のデータレコードセグメント(すなわち、各レコードセグメントのコンテキスト)を分析することができる。
ブロック320において、コンピューティング装置100は、それらの関連するレコードセグメントの属性を決定する。たとえば、正規表現などのテキストパターンを用いてそれらの属性を決定することができる。ブロック325において、コンピューティング装置100は、該主レコードセグメント及び関連するレコードセグメントに結合ポテンシャル関数を適用して、レコードセグメントの対間の関係属性を決定する。関係属性の各々は、主レコードセグメントと関連するレコードセグメントとの間の関係(たとえば、「出生地」、「誕生日」、「のメンバー」など)を表している。方法300は、次に、ブロック330に進み、そこで終了することができる。
図4は、ウェブデータ内のデータレコードセグメントの分析から得られた例示的な関係ラベルを示す略図400である。略図400は、識別された関係ラベル430〜434と共にレコードセグメント402〜426を示している。レコードセグメント402〜426は、主レコードセグメント402及び関連するレコードセグメント410、414、424を含んでいる。この例では、主レコードセグメント402、すなわち、「Abraham Lincoln」を、百科事典的なウェブページのテーマとすることができる。関連するレコードセグメント410、414、424は、主レコードセグメント402と関係430、432、434を有することが示されている。
関連するレコードセグメント410、414、424の各々を属性に関連付けることができ、この例では、それらの属性を、関連するレコードセグメント410については「日付」とし、関連するレコードセグメント414については「年」とし、関連するレコードセグメント424については「グループ」とすることができる。主レコードセグメント402を「人」属性に関連付けることができる。図1〜図3に関して上記したようにモデルを適用すると、主レコードセグメント402を、関連するレコードセグメント410、414、424の各々と共に(または該関連するレコードセグメントの各々を用いて)分析して、関係ラベル430〜434を決定することができる。
関連するレコードセグメント410については、該モデルは、主レコードセグメント402の「人」は、関係430に示されている「誕生日」としての「日付」に関連付けられることを決定する。関連するレコードセグメント414については、該モデルは、主レコードセグメント402の「人」は、関係432に示されている「生年」としての「年」に関連付けられることを決定する。関連するレコードセグメント424については、該モデルは、主レコードセグメント402の「人」は、関係434に示されている「のメンバー」としての「グループ」に関連付けられることを決定する。
上述の開示は、コンピューティング装置によってスケーラブルなウェブデータ抽出を提供するためのいくつかの例示的な実施形態を説明している。このように、本明細書及び/又は図面に開示されている実施形態は、ウェブデータ中のレコードセグメントの統計的属性を考慮する確率モデルを用いることによって、スケーラブルなウェブデータ抽出を提供することを可能にする。

Claims (15)

  1. スケーラブルなウェブデータ抽出のためのコンピューティング装置であって、該コンピューティング装置はプロセッサを備え、
    前記プロセッサは、ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するように動作し、該結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーション、及び該複数のデータレコードセグメント中のデータセグメントの対間の依存関係をモデル化し、
    前記プロセッサは、前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するように動作し、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられ、
    前記プロセッサは、複数の関連する属性を決定するように動作し、該複数の関連する属性の各々の属性は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられ、
    前記プロセッサは、前記主レコードセグメント及び各々の対応する関連するセグメントに前記結合ポテンシャル関数を適用して、前記主レコードセグメントと前記対応する関連するセグメントの間のデータ関係を記述する対応する関係ラベルを決定するように動作することからなる、コンピューティング装置。
  2. 前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされ、前記結合ポテンシャル関数は凹関数である、請求項1のコンピューティング装置。
  3. 前記結合ポテンシャル関数は、

    と定義され、ここで、

    及び、

    は、正則化パラメータであり、

    は、データレコードセグメンテーションの割り当てであり、

    は、属性ラベリングの割り当てであり、

    は、ウェブデータであり、λ、μw、νtは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項2のコンピューティング装置。
  4. 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び、前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項1のコンピューティング装置。
  5. 前記結合ポテンシャル関数は、

    と定義される確率モデルに含まれ、ここで、Z(x)は正規化係数であり、φはレコードセグメンテーションポテンシャル関数であり、φは属性ポテンシャル関数であり、φは前記結合ポテンシャル関数であり、

    は、データレコードセグメンテーションの割当てであり、

    は、属性ラベリングの割当てである、請求項1のコンピューティング装置。
  6. スケーラブルなウェブデータ抽出のための方法であって、
    ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対する確率モデルにおける結合ポテンシャル関数を定義するステップであって、前記結合ポテンシャル関数は、凹関数であり、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化することからなる、ステップと、
    前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するステップであって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、ステップと、
    複数の関連する属性を決定するステップであって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、ステップと、
    前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するステップ
    を含む方法。
  7. 前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされる、請求項6の方法。
  8. 前記結合ポテンシャル関数は、

    と定義され、ここで、

    及び、

    は、正則化パラメータであり、

    は、データレコードセグメンテーションの割当てであり、

    は、属性ラベリングの割当てであり、

    は、ウェブデータであり、λ、μw、νtは、前記確率モデルにおける最適化のためのパラメータである、請求項7の方法。
  9. 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項6の方法。
  10. 前記確率モデルは、

    と定義され、ここで、Z(x)は正規化係数であり、φはレコードセグメンテーションポテンシャル関数であり、φは属性ポテンシャル関数であり、φは前記結合ポテンシャル関数であり、

    は、データレコードセグメンテーションの割当てであり、

    は、属性ラベリングの割当てである、請求項6の方法。
  11. スケーラブルなウェブデータ抽出を提供するためのプロセッサによって実行可能な命令で符号化された非一時的な機械可読記憶媒体であって、
    ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するための命令であって、前記結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化し、前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされることからなる、命令と、
    前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するための命令であって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、命令と、
    複数の関連する属性を決定するための命令であって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、命令と、
    前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するための命令
    を含む機械可読記憶媒体。
  12. 前記結合ポテンシャル関数は凹関数である、請求項11の機械可読記憶媒体。
  13. 前記結合ポテンシャル関数は、

    と定義され、ここで、

    及び、

    は正則化パラメータであり、

    はデータレコードセグメンテーションの割当てであり、

    は属性ラベリングの割当てであり、

    はウェブデータであり、λ、μw、νtは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項12の機械可読記憶媒体。
  14. 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項11の機械可読記憶媒体。
  15. 前記結合ポテンシャル関数は、

    と定義される確率モデルに含まれ、ここで、Z(x)は正規化係数であり、φはレコードセグメンテーションポテンシャル関数であり、φは属性ポテンシャル関数であり、φは前記結合ポテンシャル関数であり、

    は、データレコードセグメンメンテーションの割当てであり、

    は、属性ラベリングの割当てである、請求項11の機械可読記憶媒体。
JP2017531481A 2014-12-12 2014-12-12 スケーラブルなウェブデータの抽出 Pending JP2017538226A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/093670 WO2016090625A1 (en) 2014-12-12 2014-12-12 Scalable web data extraction

Publications (1)

Publication Number Publication Date
JP2017538226A true JP2017538226A (ja) 2017-12-21

Family

ID=56106493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017531481A Pending JP2017538226A (ja) 2014-12-12 2014-12-12 スケーラブルなウェブデータの抽出

Country Status (5)

Country Link
US (1) US20170337484A1 (ja)
EP (1) EP3230900A4 (ja)
JP (1) JP2017538226A (ja)
CN (1) CN107430600A (ja)
WO (1) WO2016090625A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635810B (zh) * 2018-11-07 2020-03-13 北京三快在线科技有限公司 一种确定文本信息的方法、装置、设备及存储介质
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
CN113297838A (zh) * 2021-05-21 2021-08-24 华中科技大学鄂州工业技术研究院 一种基于图神经网络的关系抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021139A (ja) * 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
JP2008293119A (ja) * 2007-05-22 2008-12-04 Oki Electric Ind Co Ltd 言語解析方法及びその装置
JP2011059917A (ja) * 2009-09-09 2011-03-24 National Institute Of Information & Communication Technology 単語対取得装置、単語対取得方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241639A1 (en) * 2009-03-20 2010-09-23 Yahoo! Inc. Apparatus and methods for concept-centric information extraction
US20110270815A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Extracting structured data from web queries
CN101984434B (zh) * 2010-11-16 2012-09-05 东北大学 基于可扩展标记语言查询的网页数据抽取方法
CN103778142A (zh) * 2012-10-23 2014-05-07 南开大学 一种基于条件随机场的缩略词扩展解释识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021139A (ja) * 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
JP2008293119A (ja) * 2007-05-22 2008-12-04 Oki Electric Ind Co Ltd 言語解析方法及びその装置
JP2011059917A (ja) * 2009-09-09 2011-03-24 National Institute Of Information & Communication Technology 単語対取得装置、単語対取得方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOFENG YU, WAI LAM: "Jointly Identifying Entities and Extracting Relations in Encyclopedia Text via A Graphical Model App", COLING 2010, JPN7018002520, August 2010 (2010-08-01), pages 1399-1407頁 *

Also Published As

Publication number Publication date
EP3230900A4 (en) 2018-05-16
US20170337484A1 (en) 2017-11-23
EP3230900A1 (en) 2017-10-18
CN107430600A (zh) 2017-12-01
WO2016090625A1 (en) 2016-06-16

Similar Documents

Publication Publication Date Title
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
JP7193252B2 (ja) 画像の領域のキャプション付加
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
WO2019019860A1 (zh) 训练分类模型的方法与装置
US11048870B2 (en) Domain concept discovery and clustering using word embedding in dialogue design
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US20120290293A1 (en) Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
WO2012158572A2 (en) Exploiting query click logs for domain detection in spoken language understanding
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
JP2021508391A (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN114722833B (zh) 一种语义分类方法及装置
AU2018226420A1 (en) Voice assisted intelligent searching in mobile documents
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
JP2017538226A (ja) スケーラブルなウェブデータの抽出
RU2715024C1 (ru) Способ отладки обученной рекуррентной нейронной сети
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN116450943A (zh) 基于人工智能的话术推荐方法、装置、设备及存储介质
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
Kirsch et al. Noise reduction in distant supervision for relation extraction using probabilistic soft logic
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180727

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190402