JP2017538226A - スケーラブルなウェブデータの抽出 - Google Patents
スケーラブルなウェブデータの抽出 Download PDFInfo
- Publication number
- JP2017538226A JP2017538226A JP2017531481A JP2017531481A JP2017538226A JP 2017538226 A JP2017538226 A JP 2017538226A JP 2017531481 A JP2017531481 A JP 2017531481A JP 2017531481 A JP2017531481 A JP 2017531481A JP 2017538226 A JP2017538226 A JP 2017538226A
- Authority
- JP
- Japan
- Prior art keywords
- record
- data
- segment
- potential function
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
のデータレコードセグメントの数、属性の数とする。この例では、条件付き分布を、観測データ
中のデータレコードセグメンテーション
及び、確率的無向グラフィカルモデル中のレコード属性
に対して定義することができる。このモデル化は、Gの因子Cを3つのグループ{CS、CR、C▽}={{φS}、{φR}、{φ▽}}、すなわち、データレコードセグメンテーションポテンシャルφS、属性ポテンシャルφR、及び、レコード−属性結合ポテンシャルφ▽(それぞれのポテンシャルは、パラメータが結合されたクリークテンプレート(clique template)である)に分割することを可能にする。ポテンシャル関数
は、
内のデータレコードセグメンテーション
をモデル化し、ポテンシャル関数
は、属性ラベリングの組
内の任意の2つの属性間の依存関係(たとえば、長距離依存関係(または長距離依存性。以下同じ)や関係推移(relation transitivity)など)を表し、ここで、rpmは、主データレコード候補Sp(Spは、百科事典的なページの主なテーマもしくはコンセプトを表す)と
からの他のデータレコード候補Smとの間の属性割当てであり、rpnについて同様である。さらに、結合ポテンシャル
は、データレコードの対間の(たとえば、データレコード候補Sjと主データレコード候補Spの間の)データレコードセグメンテーション
とレコード属性
との間の深くて複雑な相互作用を表現(ないし捕捉)する。Hammersley-Clifford(ハマースレイークリフォード)の定理によれば、結合(または同時)条件付き分布
は、下記に示すように指数型分布族の形式で、グラフG中のクリーク全体にわたるポテンシャル関数の積として因数分解される。
ここで、
は、該モデルの正規化係数(規格化因子)である。ポテンシャル関数φS、φR、及びφ▽は、一組の特徴及び対応する組の実数値の重みにしたがって因数分解できることが想定されている。より具体的には、
である。データレコードセグメンテーションの特性を効率的に表現するために、それぞれのセグメント素性関数(segment feature function)
が、現在のセグメントSi、前のセグメントSi-1、及び全観測ウェブデータ
すなわち、
に依存するように、一次(の)マルコフ仮定をセミマルコフへと緩和させる。セグメント内の遷移を非マルコフとすることができる。
であり、ここで、W及びTは素性関数(特徴関数ともいう)の数であり、
は素性関数であり、μw及びνtは、該関数の対応する重みである。ポテンシャル
は、異なる属性rpmとrpn間の長期依存性(または長期依存関係。以下同じ)を表すことができる。たとえば、同じデータレコードが、観測データ中に2回以上メンションされると、該データレコードの全てのメンションは、主データレコードと同じ関係属性を有する可能性が高い。ポテンシャル
を用いて、主データレコードに対する同じデータレコードセグメントの関連性が、ウェブデータ内に出現するそれらの全てのセグメント間で共有される。結合因子
は、レコードセグメンテーションと属性間の強い依存関係(依存性)を利用する。たとえば、レコードセグメントに「場所(location)」がラベル付けされており、主データレコードが「人(person)」である場合には、該レコード間の関係属性ラベルは、「出生地」または「訪問された」でありうるが、「雇用」ではありえない。そのような依存関係(依存性)は重要であり、それらをモデル化することによって、性能が改善されることが多い。要約すると、上記のフレームワークの確率分布を次のように書き直すことができる。
が条件とされているデータレコードセグメンテーション
上のセミマルコフ連鎖と、異なる属性rpmとrpn間の依存関係(依存性)の尺度となるポテンシャルφRと、φ▽によって表される、主データレコードSpとそれぞれのデータレコードSjに対する(それらの属性に関する)完全グラフ(fully-connected graph)という3つのサブ構造を含む。種々のタイプの条件付き確率場(CRF)を類似のモデルにおいて使用することができる。たとえば、線形連鎖(linear-chain)CRFは、ウェブデータ抽出における複数のサブタスク間の長距離依存関係を表現(ないし捕捉)することができず、また、該サブタスク間の複雑な相互作用を表すことができないために、単一の系列ラベリング(シーケンスラベリング)だけを実行することができる。別の例では、スキップ連鎖CRF(skip-chain CRF)が、長距離依存関係をモデル化して単一の系列ラベリング及び抽出におけるラベルの整合性の問題に対処するために、スキップエッジ(skip edge)を導入する。さらに別の例では、2次元(2D)CRFは、ウェブページ内の2次元(の)近傍依存性を組み込んでいるが、このモデルのグラフ表現は2D(2次元)グリッドである。この形態のモデルは、階層的な3つの構造を有するCRFのクラスである階層的CRFを使用することができる。効率的でスケーラブルなウェブ用の上記の確率モデルは、2Dの階層的CRFとは異なるグラフ構造を有する。さらに、該モデルは、属性間の長期依存性を表し、及び、データレコードセグメンテーションと属性ラベリングとの間の深くて複雑な相互作用を表現(ないし捕捉)して相互の利益を利用することによって、効率的なデータレコードセグメンテーション及び属性ラベリング用のセミマルコフ連鎖を使用する。
と属性ラベリング
の両方が同時に最適化されるような
を見つけることである。この問題の正確な推論は一般にあまりにも高いコストがかかる。なぜなら、かかる推論は、可能性のある全てのセグメンテーション及び対応する属性ラベリング割当て(属性ラベルの割当て)を列挙することを必要とするからである。そのため、別の方法として近似的推論が用いられる。結合ポテンシャル関数は、近似的推論を実行して、繰り返すやり方で、最大事後確率(MAP)のデータレコードセグメンテーション及び属性ラベリング割当てを決定するために、集合的反復分類(collective iterative classification:CIC)を使用する。要するに、CICは、サンプリングされた変数のラベル割当てに基づいて、対象とする全ての隠れ変数(潜在変数)をデコード(復号ないし解読)するために使用され、この場合、それらのラベルを、繰り返し処理の任意の時点で動的に更新することができる。集合的反復分類は、図4に関して後述するグラフ構造におけるノードとして記述されている関係オブジェクトの分類を意味する。CICアルゴリズムは、2つのステップ、すなわち、(1)トレーニング(訓練)済みのモデル
が与えられた場合に、ラベル付けされていないウェブデータ
の最初のラベリング割当てを予測するブートストラッピング、及び(2)
のラベリング割当てを何回か再推定して、xiに対する最初の割当てに基づいてサンプルセット(サンプル集合)S中のラベリング割当てを選択する反復分類処理、で推論を実行する。この場合、さまざまな推論状況を生成することを可能にするサンリング技術が利用され、それらのサンプルは、高確率領域内にある可能性が高く、このため、最大値(または最大確率値)を見つける可能性及びよりロバストで精密な性能(ないし成果)を得る可能性が高くなる。CICアルゴリズムは、1つの繰り返し中または所与の数の繰り返し中にどのラベリング割当ても変わらない場合に収束することができる。注目すべきことに、該推論アルゴリズムは、パラメータの推定(すなわち、規格化定数(正規化定数)
を近似法を用いて計算することもできる)中に周辺確率
を効率的に計算するためにも使用される。このアルゴリズムを、設計が簡単で、効率的で、かつ、ウェブデータのサイズに対してスケーラブルなものとすることができる。
が与えられ、ここで、
は、i番目のデータ(データインスタンス)であり、
は、対応するデータレコードセグメンテーション及び属性ラベリング割当てであるとする。学習の目的は、該モデルのパラメータのベクトルである
を見積もる(ないし推定する)ことである。IIDが想定されている場合には、総和演算子
は、後続の微分における対数尤度では無視される。過学習(オーバーフィッティング)を低減するために、平均がゼロで共分散が
の球面ガウスプライア(spherical Gaussian prior。球面ガウシアンプライアともいう)などの正則化を使用することができる。この場合、それらのデータの正則化対数尤度関数(regularized log-likelihood function)
を、
と表すことができる。ここで、
及び、
は、正則化パラメータである。関数
をパラメータλkで微分すると、
が得られる。
となる。関数
は凹関数であり、該関数を、確率的勾配法(stochastic gradient)や記憶制限準ニュートン(limitedmemory quasi-Newton:L-BFGS)アルゴリズム(記憶制限準ニュートン法ともいう)などの標準的な技法によって効率的に最大化することができる。パラメータλk、μw、及びνtは、収束するまで反復して最適化される。
Claims (15)
- スケーラブルなウェブデータ抽出のためのコンピューティング装置であって、該コンピューティング装置はプロセッサを備え、
前記プロセッサは、ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するように動作し、該結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーション、及び該複数のデータレコードセグメント中のデータセグメントの対間の依存関係をモデル化し、
前記プロセッサは、前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するように動作し、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられ、
前記プロセッサは、複数の関連する属性を決定するように動作し、該複数の関連する属性の各々の属性は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられ、
前記プロセッサは、前記主レコードセグメント及び各々の対応する関連するセグメントに前記結合ポテンシャル関数を適用して、前記主レコードセグメントと前記対応する関連するセグメントの間のデータ関係を記述する対応する関係ラベルを決定するように動作することからなる、コンピューティング装置。 - 前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされ、前記結合ポテンシャル関数は凹関数である、請求項1のコンピューティング装置。
- 前記結合ポテンシャル関数は、
と定義され、ここで、
及び、
は、正則化パラメータであり、
は、データレコードセグメンテーションの割り当てであり、
は、属性ラベリングの割り当てであり、
は、ウェブデータであり、λk、μw、νtは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項2のコンピューティング装置。 - 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び、前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項1のコンピューティング装置。
- 前記結合ポテンシャル関数は、
と定義される確率モデルに含まれ、ここで、Z(x)は正規化係数であり、φSはレコードセグメンテーションポテンシャル関数であり、φRは属性ポテンシャル関数であり、φ▽は前記結合ポテンシャル関数であり、
は、データレコードセグメンテーションの割当てであり、
は、属性ラベリングの割当てである、請求項1のコンピューティング装置。 - スケーラブルなウェブデータ抽出のための方法であって、
ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対する確率モデルにおける結合ポテンシャル関数を定義するステップであって、前記結合ポテンシャル関数は、凹関数であり、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化することからなる、ステップと、
前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するステップであって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、ステップと、
複数の関連する属性を決定するステップであって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、ステップと、
前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するステップ
を含む方法。 - 前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされる、請求項6の方法。
- 前記結合ポテンシャル関数は、
と定義され、ここで、
及び、
は、正則化パラメータであり、
は、データレコードセグメンテーションの割当てであり、
は、属性ラベリングの割当てであり、
は、ウェブデータであり、λk、μw、νtは、前記確率モデルにおける最適化のためのパラメータである、請求項7の方法。 - 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項6の方法。
- 前記確率モデルは、
と定義され、ここで、Z(x)は正規化係数であり、φSはレコードセグメンテーションポテンシャル関数であり、φRは属性ポテンシャル関数であり、φ▽は前記結合ポテンシャル関数であり、
は、データレコードセグメンテーションの割当てであり、
は、属性ラベリングの割当てである、請求項6の方法。 - スケーラブルなウェブデータ抽出を提供するためのプロセッサによって実行可能な命令で符号化された非一時的な機械可読記憶媒体であって、
ウェブページから抽出されたウェブデータの複数のデータレコードセグメントに対して結合ポテンシャル関数を定義するための命令であって、前記結合ポテンシャル関数は、前記ウェブデータのデータレコードセグメンテーションと前記複数のデータレコードセグメント中のデータセグメントの対間の依存性とをモデル化し、前記結合ポテンシャル関数は、確率的勾配法と記憶制限準ニュートンアルゴリズムとのうちの少なくとも一方を用いてトレーニングされることからなる、命令と、
前記複数のデータレコードセグメントから主レコードセグメント及び複数の関連するレコードセグメントを識別するための命令であって、該複数の関連するレコードセグメントの各々は、前記主レコードセグメントに関連付けられていることからなる、命令と、
複数の関連する属性を決定するための命令であって、該複数の関連する属性の各々は、前記複数の関連するレコードセグメントのうちの対応する関連するセグメントに関連付けられていることからなる、命令と、
前記結合ポテンシャル関数を前記主レコードセグメント及びそれぞれの対応する関連するセグメントに適用して、該主レコードセグメントと該対応する関連するセグメントとの間のデータ関係を記述する対応する関係ラベルを決定するための命令
を含む機械可読記憶媒体。 - 前記結合ポテンシャル関数は凹関数である、請求項11の機械可読記憶媒体。
- 前記結合ポテンシャル関数は、
と定義され、ここで、
及び、
は正則化パラメータであり、
はデータレコードセグメンテーションの割当てであり、
は属性ラベリングの割当てであり、
はウェブデータであり、λk、μw、νtは、前記結合ポテンシャル関数を含む確率モデルにおける最適化のためのパラメータである、請求項12の機械可読記憶媒体。 - 前記結合ポテンシャル関数は、それぞれのセグメント素性関数が、現在のレコードセグメント、以前のレコードセグメント、及び前記ウェブデータの総合的な観測に依存するように前記データレコードセグメンテーションを決定するためのセミマルコフ仮定を含むことからなる、請求項11の機械可読記憶媒体。
- 前記結合ポテンシャル関数は、
と定義される確率モデルに含まれ、ここで、Z(x)は正規化係数であり、φSはレコードセグメンテーションポテンシャル関数であり、φRは属性ポテンシャル関数であり、φ▽は前記結合ポテンシャル関数であり、
は、データレコードセグメンメンテーションの割当てであり、
は、属性ラベリングの割当てである、請求項11の機械可読記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/093670 WO2016090625A1 (en) | 2014-12-12 | 2014-12-12 | Scalable web data extraction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017538226A true JP2017538226A (ja) | 2017-12-21 |
Family
ID=56106493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017531481A Pending JP2017538226A (ja) | 2014-12-12 | 2014-12-12 | スケーラブルなウェブデータの抽出 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170337484A1 (ja) |
EP (1) | EP3230900A4 (ja) |
JP (1) | JP2017538226A (ja) |
CN (1) | CN107430600A (ja) |
WO (1) | WO2016090625A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635810B (zh) * | 2018-11-07 | 2020-03-13 | 北京三快在线科技有限公司 | 一种确定文本信息的方法、装置、设备及存储介质 |
US11462037B2 (en) | 2019-01-11 | 2022-10-04 | Walmart Apollo, Llc | System and method for automated analysis of electronic travel data |
CN113297838A (zh) * | 2021-05-21 | 2021-08-24 | 华中科技大学鄂州工业技术研究院 | 一种基于图神经网络的关系抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008021139A (ja) * | 2006-07-13 | 2008-01-31 | National Institute Of Information & Communication Technology | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム |
JP2008293119A (ja) * | 2007-05-22 | 2008-12-04 | Oki Electric Ind Co Ltd | 言語解析方法及びその装置 |
JP2011059917A (ja) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | 単語対取得装置、単語対取得方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100241639A1 (en) * | 2009-03-20 | 2010-09-23 | Yahoo! Inc. | Apparatus and methods for concept-centric information extraction |
US20110270815A1 (en) * | 2010-04-30 | 2011-11-03 | Microsoft Corporation | Extracting structured data from web queries |
CN101984434B (zh) * | 2010-11-16 | 2012-09-05 | 东北大学 | 基于可扩展标记语言查询的网页数据抽取方法 |
CN103778142A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种基于条件随机场的缩略词扩展解释识别方法 |
-
2014
- 2014-12-12 CN CN201480084037.5A patent/CN107430600A/zh active Pending
- 2014-12-12 US US15/532,982 patent/US20170337484A1/en not_active Abandoned
- 2014-12-12 WO PCT/CN2014/093670 patent/WO2016090625A1/en active Application Filing
- 2014-12-12 EP EP14907995.6A patent/EP3230900A4/en not_active Withdrawn
- 2014-12-12 JP JP2017531481A patent/JP2017538226A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008021139A (ja) * | 2006-07-13 | 2008-01-31 | National Institute Of Information & Communication Technology | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム |
JP2008293119A (ja) * | 2007-05-22 | 2008-12-04 | Oki Electric Ind Co Ltd | 言語解析方法及びその装置 |
JP2011059917A (ja) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | 単語対取得装置、単語対取得方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
XIAOFENG YU, WAI LAM: "Jointly Identifying Entities and Extracting Relations in Encyclopedia Text via A Graphical Model App", COLING 2010, JPN7018002520, August 2010 (2010-08-01), pages 1399-1407頁 * |
Also Published As
Publication number | Publication date |
---|---|
EP3230900A4 (en) | 2018-05-16 |
US20170337484A1 (en) | 2017-11-23 |
EP3230900A1 (en) | 2017-10-18 |
CN107430600A (zh) | 2017-12-01 |
WO2016090625A1 (en) | 2016-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162627B (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
WO2019019860A1 (zh) | 训练分类模型的方法与装置 | |
US11048870B2 (en) | Domain concept discovery and clustering using word embedding in dialogue design | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
US20120290293A1 (en) | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
WO2012158572A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
JP2021508391A (ja) | 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進 | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN114722833B (zh) | 一种语义分类方法及装置 | |
AU2018226420A1 (en) | Voice assisted intelligent searching in mobile documents | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 | |
RU2715024C1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN116450943A (zh) | 基于人工智能的话术推荐方法、装置、设备及存储介质 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
Kirsch et al. | Noise reduction in distant supervision for relation extraction using probabilistic soft logic | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180727 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190402 |