JP7041281B2 - ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 - Google Patents

ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 Download PDF

Info

Publication number
JP7041281B2
JP7041281B2 JP2020556939A JP2020556939A JP7041281B2 JP 7041281 B2 JP7041281 B2 JP 7041281B2 JP 2020556939 A JP2020556939 A JP 2020556939A JP 2020556939 A JP2020556939 A JP 2020556939A JP 7041281 B2 JP7041281 B2 JP 7041281B2
Authority
JP
Japan
Prior art keywords
address
model
training
character
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020556939A
Other languages
English (en)
Other versions
JP2021532432A (ja
Inventor
▲豊▼ ▲張▼
瑞▲チェン▼ 毛
震洪 杜
流▲暢▼ 徐
▲華▼▲シン▼ 叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Publication of JP2021532432A publication Critical patent/JP2021532432A/ja
Application granted granted Critical
Publication of JP7041281B2 publication Critical patent/JP7041281B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Description

本発明はGIS(地理情報システム)のアドレス情報マイニング分野に関し、具体的にはディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法に関する。
GISの認識及び応用能力が高まっていることに伴い、アドレス情報はスマートシティ時代のコアリソースとなりつつあり、その内容に盛り込まれた意味的と空間的意味合いは、さらにスマートシティにおける地理的オントロジーと時空間的な意味フレームワークを構築する基礎的な支えとなっている。コンピュータはアドレステキストを理解させる観点から、地名アドレス総合特徴を深く精錬して数値形態の数量化表現を形成することは、シティ意味と空間内容を融合して理解することにとって重要な理論的価値と実践的意義を持つ。しかし、現在の非構造化テキスト管理あるいはアドレスコーディングをコアとする理論研究は、テキストの特徴的な意味合いを深くマイニングすることができないため、タスク処理時に情報の孤島、付加的なデータ依存、汎化性の弱いなどの際立った問題に直面し、アドレスデータのスマートシティ分野での使用を制限した。
ディープニューラルネットワークを代表とするディープ学習方法は、コンピュータ処理性能を十分に利用でき、非線形問題に対して非常に強いパラメータ算出とフィッティング能力を持つ。自然言語分野の研究では、ニューラルネットワーク言語モデルはディープニューラルネットワークをもとに、文字、単語、文言、さらには文章の意味特徴を高次元ベクトルの形態で表現することができる。しかし、地名アドレスは特異化された自然言語として、現在の言語モデルとうまく結合することができ、地名アドレスの文法規則と意義に合致する地名アドレス言語モデルを構築することはアドレステキストの意味特徴表現を実現する有効なルートである。
地名のアドレスはシティにわたってデータ量が大きく、空間分布が密であるなどの特徴があり、同時にアドレステキストの意味特徴ベクトルの次元が高い。改良されたK-Meansアルゴリズムは無監督クラスタリング方法であり、論理が簡単で、運行効率が高く、収束速度が速く、アルゴリズムの解釈可能性が強く、パラメータ調整の数が少なく、ビッグデータや高次元のクラスタリングに適するなどの特徴を持ち、結果がより人間の論理に合致し、アドレステキストの意味-空間融合のクラスタリングの応用に適するようにクラスタリング数が範囲内の機能領域の分布を参照して設定する。
転移学習が自然言語分野で深く応用されることに伴い、現在のニューラルネットワーク言語モデルはすでにニューラルネットワーク構成の設計から微調整タスクの展開をサポートし始め、利用者がその汎用的なモデル例に基づいて下流タスクのニューラルネットワーク改良を行うのに便利であり、訓練済みなモデルにおけるニューラルネットワークノードを新たなネットワーク構成に遷移させることがコアとなる。モデルを再訓練する従来の形態と比べて、この方法はデータ要求、訓練時間及び実践効果などの点で顕著なメリットを持ち、モデルが出力する結果情報に微調整目標の融合重みを含ませるとともに、ターゲットタスクの求めを実現する。
本発明の目的は、従来技術の問題点を克服し、アドレス情報特徴抽出のディープニューラルネットワークモデルを提供することである。
本発明の目的は、以下の技術内容により達成される。
ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップS2と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデルを構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と、
を含むディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
上記技術案に基づいて、各ステップは具体的には以下の具体的な形態によって実現される。
好ましくは、前記ステップS1において、単語埋め込みモジュールにおける具体的な実行フローは、
辞書-ベクトル変換行列Cを作成するステップS11と、
入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップS12と、
インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップS13と、
one-hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding0を得るステップS14と、
アドレステキストにおける各文字の位置positionを取得するステップS15と、
位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
偶数次元の位置重み値は、次の式で表され、
Figure 0007041281000001
奇数次元の位置重み値は、次の式で表され、
Figure 0007041281000002
式中、dmodelは単語埋め込みembedding0の次元を表し、iは算出されたi番目の次元を表すステップS16と、
次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップS17と、
Figure 0007041281000003
を含む。
好ましくは、前記ステップS2において、特徴抽出モジュールにおける具体的な実行フローは、
S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップS21と、
第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達するステップS22と、
を含む。
好ましくは、前記ステップS3において、ターゲットタスクモジュールにおける具体的な実行フローは、
S2で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding = g(W×SA+b)であり、
式において、g()はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップS31と、
prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、
Figure 0007041281000004
式中、重み行列CTは辞書-ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表すステップS32と、
次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップS33と、
Figure 0007041281000005
を含む。
好ましくは、前記ステップS4の具体的な実現フローは、
S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップS41と、
地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、
前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップS43と、
を含む。
さらに、前記ステップS42において、
前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら3種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの3つの勾配更新最適化戦略を用いる。
好ましくは、前記ステップS5の具体的な実現フローは、
アドレステキストの前記特徴抽出モジュールにおける最後の4層のセルフトランスフォーマーサブモジュールの出力SAN、SAN-1、SAN-2、SAN-3を取得して、SAN、SAN-1、SAN-2、SAN-3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed0を取得するステップS51と、
全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed0と空間特徴ベクトルcoorEmbed0に対して無次元化操作を行い、重みlを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、
Figure 0007041281000006
Figure 0007041281000007
次の式に示すように、2種類の処理後の特徴ベクトルを直接に接合して、最終的に融合特徴ベクトルを形成するステップS52と、
Figure 0007041281000008
K-Meansクラスタリングアルゴリズムにより、Elkan距離算出最適化アルゴリズムとMini-Batch K-Means戦略とK-Means++クラスタリング中心初期プログラムとを組み合わせて、すべての融合特徴ベクトルをクラスタリングし、意味-空間融合のクラスタリング結果を得るステップS53と、
を含む。
好ましくは、前記ステップ6の具体的な実現フローは、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップS61と、
ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSANを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがS5で得られた各クラスタリングに属する予測確率分布を得るステップS62と、
を含む。
好ましくは、前記ステップS7の具体的な実現フローは、
前記エンコーダ及びデコーダを接続してアドレス意味-空間融合モデルを得るステップS71と、
アドレス意味-空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS72と、
を含む。
本発明の他の目的は、アドレステキストの地理位置予測方法を提供することにあり、このアドレステキストの地理位置予測方法は、
まず、3層の結合された全結合層及び1層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項1~9のいずれか1項に記載の方法に従って訓練してアドレス意味-空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層及び1層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと
を含む。
本発明は、従来技術と比較して有益な効果を有する。
(1)本発明は現代の人工知能方法の優れたフィッティングと算出能力を利用して、アドレステキストの特徴表現タスクをディープニューラルネットワークの構造設計と訓練問題に変換し、アドレス情報の研究方法を革新し、地名アドレスデータの処理と応用に新たなアイデアを提供した。しかし、従来技術では、アドレステキスト特徴抽出に関する研究はなかった。
(2)本発明は、マルチヘッド自己注意メカニズム、位置重み付けアルゴリズム、未知文字予測タスクを結合して地名アドレス言語モデルALMを設計した。モデル構造と訓練フレームワークは完備かつ自己調整能力を有し、モデルパラメータ変数の正確なフィッティングと効率的な算出を実現でき、地名アドレスの意味特徴を効率的に抽出できる。
(3)本発明はALM構造及び関連ニューラルネットワーク出力を多重化してアドレステキスト文ベクトル表現を設計し、K-Meansクラスタリング理論を導入し、アドレス情報の高次元クラスタリング融合方法を提出し、従来の空間クラスタリングではアドレス意味を概括できないという弊害を改善し、意味-空間重み付けのアドレス要素分割を実現する。同時に、ディープニューラルネットワークのモデル微調整理論を参照してアドレスの意味-空間融合モデルGSAMを設計し、クラスタリングの結果を指向としてモデルのターゲットタスクの達成を展開し、両者の特徴の総合的な要約能力を持たせる。
本発明のデプスニューラルネットワークモデルに基づくアドレス情報特徴抽出方法のフローチャートである。 特徴抽出モジュールの構成図である。 本発明の地名アドレス言語モデル(ALM)の構成図である。 本発明のアドレス意味-空間融合モデル(GSAM)の構成図である。 本発明のアドレス要素意味-空間重みのクラスタリング結果(意味重み0.4/空間重み0.6)である。 アドレス空間座標予測モデルの構成図である。
以下、本発明を図面及び具体的な実施例に基づいてさらに詳細に説明する。
アドレステキストとそれに対応する空間位置はシティ建設の基礎であり、アドレス情報を一括的にモデル化して数値の結果で出力し、下流タスクの一括化展開に役立ち、業務の複雑性を低下する。しかし、アドレステキストはコンピュータに直接理解されない特異化された自然言語テキストであり、そのうち有用な特徴情報を言語モデルによって抽出する必要がある。言語モデルの本質は、一つの文が出現する可能性を測ることであり、文における前の一連の先行単語から、後にどの単語がくるかの確率分布を予測することが中心思想である。既存の地名アドレス研究において情報特徴表現が不十分で、データ建設作業が深く進まず、応用シーンに限界があるという苦境に対して、本発明の思想は、人工知能方法のディープニューラルネットワークアーキテクチャを総合的に利用し、テキスト特徴抽出、アドレス正規化建設及び意味空間融合などのタスクを定量化可能なディープニューラルネットワークモデル構築と訓練最適化問題に転化することである。アドレスにおける文字を基本入力ユニットとし、言語モデルを設計してそれを定量化的に表現する。これを基に、地名アドレス正規化建設のキーテクノロジーをニューラルネットワークターゲットタスクによって実現する。同時に地名アドレス空間表現特性を考慮して、アドレス意味-空間の特徴融合手段を提出し、重み付きクラスタリング方法と特徴融合モデルを設計し、このモデルは、自然言語のアドレステキストから意味特徴と空間特徴を融合した融合ベクトルを抽出することを目的としている。以下、本発明の技術内容を具体的に説明する。
図1に示すように、デプスニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップS2と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデル(ALM)を形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデル(GSAM)を構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と
を含む。
以下、本発明における上記ステップの具体的な実現フローについて詳細に説明する。
文字ベクトル化表現はモデルの基礎であり、文字初期化表現がカバーする情報はその後のネットワーク展開の効果を決め、従来の単語埋め込みには位置情報の重みがなければ、意味特徴抽出時に各ワードから目的の文字への影響が位置に依存しない結果となり、これはテキストに対する人間の脳の理解に合致しないため、位置情報を埋め込む必要がある。本発明は、ステップS1の単語埋め込みモジュールによって実現され、以下に、ステップS1の単語埋め込みモジュールにおける具体的な実行フローを具体的に展開して説明する。
S11:辞書-ベクトル変換行列(Lookup Table)Cを作成する。
S12:入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得する。
S13:インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズである。
Figure 0007041281000009
S14:one-hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding0を得る。
Figure 0007041281000010
S15:アドレステキストにおける各文字の位置positionを取得し、positionは当該文字アドレステキストにおける文字序数を代表する。
S16:位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得することであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなるため、各次元の重み値を算出した後にPWを組み合わせて形成する必要がある。奇数次元と偶数次元の算出式は異なり、それぞれは以下のとおりである。
偶数次元の位置重み値は、下式で表され、
Figure 0007041281000011
奇数次元の位置重み値は、下式で表され、
Figure 0007041281000012
式中、dmodelは単語埋め込みembedding0の次元を表し、iは算出されたi番目の次元を表す。各文字のPWの次元はembedding0の次元と一致している。
S17:各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得る。
Figure 0007041281000013
このように、ステップS1で構築した単語埋め込みモジュールは、文字位置順序の重み付けを実現するだけでなく、文字間の相対位置も考慮して後のネットワーク展開により有利であることが分かる。単語埋め込みモジュールによって抽出された文字ベクトル化表現情報は、S2の特徴抽出モジュールで特徴ベクトル抽出を行う必要がある。特徴抽出モジュールは文字が位置する言語環境を深くマイニングし、文字意味の精錬を達成し、意味特徴を数値ベクトルの形式で出力することができる。本発明では、特徴抽出モジュールはマルチヘッド自己注意メカニズムに基づいて言語モデルの意味特徴ディープニューラルネットワーク構成を構築して、アドレステキスト意味化の正確な表現を実現する。
ステップS2において、特徴抽出モジュールにおける具体的な実行フローは以下の通りである。
S21:S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマー(Self-Transformer)サブモジュールが直列に形成されたニューラルネットワークに入力する。各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とする。
S22:第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達する。
このように、特徴抽出モジュールにおいて、セルフトランスフォーマーサブモジュールはコアである。各セルフトランスフォーマーサブモジュールの実現をより明確に説明するために、以下、その具体的な構成について詳細に説明する。以上の説明により、各セルフトランスフォーマーサブモジュールには実際にマルチヘッド自己注意ニューラルネットワークフレームワーク層、残差ネットワーク-バッチ正規化層、フィードフォワードネットワーク層、残差ネットワーク-バッチ正規化層が実際にパッケージングされている。以下に1つずつ述べる。
(1)テキスト自己注意(self-attention)ニューラルネットワークフレームワークを構築する。
自己注意の本質は、人間がテキストを視覚的に観察する注意メカニズムに由来し、テキストにおける特定の文字を例に挙げると、人間がその意味を理解するには他の文字との相互のつながりを参照する必要があるので、自己注意メカニズムの具体的な実現思想は、文におけるすべての文字からそのワードへの影響に重みを与え、重みを文字自体の内容と組む合わせることで、そのワードの意味特徴を総合的に決定すると表してもよい。
アドレステキストの本質はアドレスを記述する文であり、文における各文字はそれぞれQuery(Q)、Key(K)、Value(V)の3つの特徴ベクトルを表し、それらの特徴ベクトルは文字の単語埋め込みベクトルXに3つの重み行列WQ、WK、WVを乗じて得られ、重み行列はニューラルネットワークの訓練によって得られる。文字lのattentionコンテンツの算出フローは、次のとおりである。
まず、ステップS1で単語埋め込みモジュールから入力された文のすべての文字単語埋め込みベクトルが得られ、算出により各文字のQ、K、Vベクトルq、k、vが得られる。
lとすべての文字のスコアを算出する。
Figure 0007041281000014
訓練時の勾配の安定化のために、スコア値をさらに正規化し、式中、dkはベクトルkの次元を表す。
Figure 0007041281000015
すべてのスコア値をsoftmax正規化して出力する。
Figure 0007041281000016
Figure 0007041281000017
各スコア値に対応するvベクトルを乗じて、各文字の当該ワードに対する重み付け評価を得る。
Figure 0007041281000018
当該ワードに対する全ての文字の重み付け評価を加算し、当該ワードの意味特徴表現を得る。
Figure 0007041281000019
実際の過程において、上述の算出過程はいずれも行列操作によって完成され、以下のように表現できる。
Figure 0007041281000020
Figure 0007041281000021
Figure 0007041281000022
Figure 0007041281000023
しかし、この方法は1種類の意味空間の情報しか得られず、その上で発展してきたマルチヘッド自己注意メカニズム(Multi-head self-attention)は本来1回しかマッピングされない特徴ベクトルを複数回マッピングして、複数の意味サブ空間でのQ、K、Vを得て、さらにそれらに注意の値を取る操作をそれぞれ行い、その結果を接合して、最終的に文字統合意味空間でのself-attention表現を得る。
上述のマルチヘッド自己注意方法を単一のニューラルネットワーク層にパッケージングし、マルチヘッド自己注意ニューラルネットワークフレームワーク層(MSA layer)といい、意味特徴抽出効果をより向上させるために、本発明は複数のMSAレイヤ(MSA layer)を用いて層毎に重ねる形でアドレス意味の抽出を行う。
(2)残差ネットワーク-バッチ正規化層
出力される意味SAの実際的な意味は全文文字から各文字への影響であるため、その算出過程に意味抽出の誤差は避けられず、これだけで文字意味を表現すると、ネットワーク層数の増加に伴い、下位層の特徴が上位層に伝わると、情報が失われる場合が発生し、誤差もそれに応じて段階的に増加し、意味表現の縮退(degradation)が起こる。MSAレイヤ間の情報伝達の意味的縮退を回避するために、残差ネットワーク層ニューラルネットワーク構成を導入し、MSAレイヤの出力は残差ネットワーク-バッチ正規化層で残差と正規化算出をする必要がある。第l層のマルチヘッド自己注意層の出力を例にすると、コア思想は次式で表される。
Figure 0007041281000024
Figure 0007041281000025
SAl-1は上位層の出力を表し、F関数はマルチヘッド注意の処理方法を表し、ただし、SA0は最初に着信された単語埋め込み情報である。各MSA layerが出力した後に前の層の情報を加算して、自己注意意味とテキスト埋め込み情報を融合すると同時に、結果に対してバッチ正規化(Batch Normalize、BN)操作を行って、結果情報が伝達された次の算出に利便となり、訓練時の勾配消失を回避する(多段逆伝播により誤差勾配が0になる場合)。
(3)フィードフォワード層
同時に出力結果は自己注意ヘッド算出によるベクトル接合結果であるため、データ空間が無秩序になるという問題があるので、この結果を1つのフィードフォワードネットワーク層(全結合ニューラルネットワーク)を介して活性化関数ReLUの補完で非線形変換を行う必要があり、意味を順序的かつ意味的に出力するようにする。次いで、出力結果を残差ネットワーク-バッチ正規化層に再入力して、残差および正規化操作を一回行う。
したがって、本発明では、MSA layer-残差ネットワーク-バッチ正規化層-フィードフォワードネットワーク層-残差ネットワーク-バッチ正規化層は、セルフトランスフォーマーサブモジュール(self-Transformer Moudule)を合成している。最終的なニューラルネットワーク構成は、複数のself-Transformer Mouduleを順に重ね合わせたものであり、その全体構造は図2に示すようである。
ターゲットタスクモジュール(Target Module)は、意味特徴抽出モジュールの直後であり、本発明では、このモジュールの入力は、self-Transformer Moduleが重畳された出力であると理解することができる。この入力には、文における各文字の意味特徴情報が含まれることが知られている。
以上の条件により、本発明では、文脈に基づいて未知文字を予測するターゲットタスクを提出し、その具体的な内容は、
文におけるある文字が未知であり、他の文脈が既知であると想定する。
Figure 0007041281000026
式中、wjはアドレステキストの文におけるj番目の文字(j≠i)を表し、wi(unknow)はアドレステキストの文におけるi番目の文字が未知文字であることを表す。
既知の文脈により、その未知文字の出現確率を予測し、以下の条件付き確率表現として書く。
Figure 0007041281000027
アドレステキスト内容を上記の単語埋め込みモジュールと特徴抽出モジュールに代入し、最終的な文字文脈意味特徴情報を得る。
Figure 0007041281000028
saiは文脈が文字xiに作用する重みを表し、ただし、saiは全文から当該文字への影響を表すことができれば、条件付き確率表現の式を次のように近似する。
Figure 0007041281000029
このターゲットタスクに基づいて、本発明は、文脈に基づいて文字を予測するターゲットタスクニューラルネットワーク構成を設計した。ステップS3において、ターゲットタスクモジュールにおける具体的な実行フローは以下の通りである。
S31:S2における特徴抽出モジュールの出力をフィードフォワードネットワーク層(Feed Forward)の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、その後Lookup Tableに基づいて文字確率を算出する準備を行う。非線形変換式は、下式で表され、
Figure 0007041281000030
式において、g()はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表す。
S32:全結合層を構築して、prob_embeddingを線形変換して、「修正語埋め込み」から確率分布スコアへの線形変換を達成してその確率分布スコアを取得する。
Figure 0007041281000031
式中、重み行列CTは辞書-ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表す。
S33:確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得る。
Figure 0007041281000032
このターゲットタスクモジュールの利点は、文字の文脈的意味を両立させて、且つ意味特徴抽出モジュールによって実現される単語-文脈特徴のマッピング関係に合致することである。
上記3つのモジュールの構築が完了したら、地名アドレス言語モデル(Address Language Model、ALM)の構築と訓練を行うことができる。本発明において、ステップS4の具体的な実現フローは、
図3に示すように、S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルALMの完全な構成を形成するステップS41と、
地名アドレス言語モデル訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、を含む。ニューラルネットワークの訓練フレームワークは実際のニーズに応じて調整可能であり、従来技術にも多くの実現可能形態が存在し、理解を容易にするために、本発明ではその具体的な実現形態を例示的に展開する。
(1)ランダムシールド戦略の自然言語訓練手段を定義する
ランダムシールド戦略に基づく自然言語訓練手段は、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表現するように設計されている。シールド記号とは、地名アドレステキストに正常に出現しない文字であり、必要に応じて選択することができる。そして、アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとする。しかし、シールド記号の文字は他の文字に影響を与えてしまい、あまり多くの文字をシールドすると、意味特徴抽出時にシールド記号の作用は、他の内容の注意計算の偏差を生じさせるが、文ごとのテキストが1文字しかシールドしないと、モデル訓練に必要なステップ数が急激に増加してしまい、ひどく時間的な無駄が生じる。したがって、シールド記号の具体的な数は、実際の状況にに応じて調整および最適化する必要がある。
操作を容易にし、かつ算出時の無駄なオーバヘッドを回避するために、訓練時に言語モデルターゲットタスクモジュールは、意味特徴抽出モジュールが出力するすべての情報を算出するのではなく、条件付き確率算出が必要な文字位置でのニューロン出力のみを抽出する。したがって、地名アドレス言語モデルの訓練過程では、これら3種類のシールド記号によって置き換えられた文字(依然としてシールド記号である文字、およびシールド記号として置き換えられた後に他の文字によって置き換えられた文字を含む)に対してターゲットタスクモジュールを実行する。
理解を容易にするため、ここでは「浙江省杭州市上城区復興南街清怡花苑6棟3単元402室」というアドレステキストを例に、具体的な実現過程を説明する。
まず、入力文における15%の文字をランダムにシールドし、「mask」という単語で表し、その単語が地名アドレステキストに正常に出現しないため、リアルな文字に干渉することがなく、クローズの「スペース」として理解してもよい。置き換え位置は下線で示す。次に例示する。
浙江mask杭州市上城区mask興南街清怡mask苑6棟3単元402室
mask省杭州市上城区望mask家園東苑18棟3単mask601室
また、後続タスクの展開やモデルのロバスト性を考慮して、シールド文字のうち10%のmaskをリアルな文字に置き換え、10%のmaskの内容を誤り文字に置き換え、例えば、
80%:浙江省杭州市上mask区復興南街清怡花苑6棟3単元402室
10%:浙江省杭州市上区復興南街清怡花苑6棟3単元402室
10%:浙江省杭州市上区復興南街清怡花苑6棟3単元402室
ALMの実際訓練過程では、すべての文字自己注意意味情報SAに対してターゲットタスクの確率統計算出を行わず、上記3種類の置き換えられた文字のみに対してターゲットタスク操作を実行する。
(2)構造モデル入力
モデル入力は辞書構造と入力データ構造に分けられる。
辞書は、モデルに係るすべての文字に対してルックアップ根拠を提供し、その構成は<インデックス番号(key)>から<文字(value)>までのキー値ペアのシーケンスであり、すべてのアドレスのテキストコンテンツをトラバースすることによって得られる。さらに、valueがそれぞれmaskとOOV(out of vocabulary)である2つのキー値ペアを再構築する必要があり、テキストにおけるスペースと辞書外の文字を表す。
本発明では、訓練データを構築するための基礎として、アドレステキストデータセットを予め収集する必要がある。訓練データは、元の地名アドレステキストが処理された後に訓練フレームワークによって認識可能な入力である。訓練データを構築する際には、文字を対応する辞書インデックス番号にそのまま変換し、文を整数ベクトルの形態で表現し、その形状を次のように表すことができる。
Figure 0007041281000033
式中、batch_sizeは訓練のたびに小ロット勾配低下を実行するサンプルサイズを表し、sentence_sizeは文の長さ、embedding_sizeは単語埋め込みベクトルの長さである。文長の一致を保証するために、パディング(padding)法を用いて、まずデータのうち最大文長を求め、訓練サンプルを構築する文がその最大長より小さければ、後にインデックス番号0を補う。
また、シールドされた文字の位置情報、シールドされた文字の内容、およびすべての文字の順序についても、上記の方法でベクトルを構築し、あわせて訓練時の入力データとして入力する。
(3)損失関数の定義
ALM出力から、mask位置の文脈意味の予測文字の条件付き確率分布P (X |SAi )を取得し、訓練目標は対応する文字辞書インデックス番号における条件付き確率を1に近づけ、すなわちP(xi|SAi )→1であり、この関数は単一のmaskのみに対して表現され、実際のモデル訓練過程における出力は行列形式であり、その形状はprob(batch_size,max_mask_size,voc_size)であるとともに、モデル訓練の入力にも対応する文におけるmaskに対応する正解情報true_ids(batch_size,max_mask_size)が含まれ、gatherスライス操作により、true_idsの値をprobのインデックスとしてコンテンツルックアップを行い、正解文字を予測する条件付き確率行列true_probを得る。
Figure 0007041281000034
true_idsに0要素が含まれると、true_prob要素に対応する値も0に設定される。
true_probを対数確率に変換し、値区間を(-∞,0)に取る。
Figure 0007041281000035
フレームワーク下の目的関数を訓練し、つまり、true_probのうちのすべての非ゼロ要素を加算して平均値を取り、結果ができるだけ0に近づくようにする。
Figure 0007041281000036

true_probのうちのすべての非ゼロ要素を加算して平均値の負の数を取り、損失関数の定義を得る。
Figure 0007041281000037
(4)ハイパーパラメータの決定
この実施例では、ハイパーパラメータは、訓練サンプルサイズbatch_size、学習率η、訓練ラウンド数epoch、辞書サイズvoc_size、最大文長max_sentence_size、最大シールド文字数max_mask_size、単語埋め込み長embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeなどを含む。データの内容、ボリューム、ハードウェアリソースに基づいて、モデル訓練時のハイパーパラメータの値を総合的に決定する必要がある。
(5)ニューラルネットワーク最適化器(Optimizer)の構築
ニューラルネットワーク最適化器は勾配低下方法と勾配更新操作の具体的な実現であり、モデル内部のニューラルネットワークパラメータ変数を更新して、最適値に近づけるか又は達するようにすることによって、損失関数の結果を最小にする。本実施例では、学習率減衰(learning rate decay)、グローバル勾配クリッピング(clip by global norm)、適応モーメント推定アルゴリズム(adaptive moment estimation、Adam)の3つの勾配更新最適化戦略を導入することができる。
S43:上記の訓練フレームワークを構築したら、前記フレームワーク及び対応する訓練データに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにする。
(6)ALMモデル意味出力
モデルが訓練された後、すべての内部パラメータ変数はいずれも目的関数に対するフィッティングを実現しており、上記のALMの特徴抽出モジュールの構築から分かるように、特徴抽出モジュールの出力は文字ごとの意味特徴ベクトルであり、すなわち、本発明が取得しようとする地名アドレス意味特徴表現である。
訓練されたALMモデルにより、何れかのアドレスデータの各文字の意味ベクトルを得ることができる。その上で、文意味ベクトルは文全体の意味特徴の総合表現として、本発明ではそれを以下のように定義する。モデルパラメータ変数の調整に関する最適化タスクにおいて、アドレス文意味特徴は、アドレステキストにおけるすべての文字の意味ベクトルの和に対して平均値を取ったものである。アドレス文意味特徴は次式のように表すことができる。
Figure 0007041281000038
式中、nはアドレステキストにおける文字の総数である。
人間の脳は、アドレステキストに対して空間的な特徴的な連想を持ち、すなわち、アドレスに関する問題に答える際に、そのアドレスが位置する領域に大まかな印象を与え、従来の自然言語の考え方とは本質的な相違を持っている。上記のALM意味特徴出力は、アドレステキストにおける文字意味関係をキャプチャしてベクトルの形態で出力することができるが、空間意味特徴をまだ融合していないので、人間の思考に合ったアドレス空間領域を目標とし、アドレス意味と空間に対する重み付きクラスタリング手法をさらに設計する必要がある。
本発明において、アドレス意味と空間の重み付けクラスタリングは、ステップS5により実現され、具体的な実現フローは以下の通りである。
S51:アドレステキストの前記特徴抽出モジュールにおける最後の4層のセルフトランスフォーマーサブモジュールの出力SAN、SAN-1、SAN-2、SAN-3を取得して、SAN、SAN-1、SAN-2、SAN-3のそれぞれに対して平均値プーリング(average pooling)と最大値プーリング(max pooling)を行う。文全体に対して値を求め、仮に、文の長さをL、文字意味特徴の数をS、文字内容をL×Sの2次元配列でcharEmbed[L,S]を記憶する。
Figure 0007041281000039
Figure 0007041281000040
Figure 0007041281000041
平均値プーリングは文に含まれるすべての文字情報を配慮しているが、最大値プーリングは文におけるキー文字及び顕著な表現を配慮し、以上の利点を両立するため、本発明は、この2種類のプーリング方法を融合して、平均値プーリングと最大値プーリングにより得られたアドレステキストの表現をそれぞれ加算し、最終的にワードベクトルと同じの文ベクトル表現を得る。
Figure 0007041281000042
同時にALM構造には複数のself-Transformer Moduleが含まれ、各層の出力から求められた文ベクトルのいずれにも異なる側重方向の意味情報が含まれており、ALM構造に似たBERT言語モデルに関する研究により、そのencoder(BERT言語モデルにおける意味抽出モジュール)の出力は名前付き実体識別タスクにおいて以下のような表現を持つと発見された。最後の4層のベクトル結合>最後の4層のベクトル加算>その他であるが、本発明において、結合操作は、次元障害を引き起こす可能性がある。したがって、最後の4層self-Transformer Moduleのプーリング結果sentEmbedを加算する形態を採用して最終的なアドレステキストのベクトル表現を取得し、つまり本発明では最後の4層が出力する2種類のプーリング結果(計8つの結果)をすべて加算して、アドレステキストの最終的な意味特徴表現sentEmbed0を得る。
S52:アドレステキストごとの意味文ベクトルと空間を特徴情報として両者を融合する。
規格を一括するために、ユークリッド距離を、アドレス情報における意味と空間特徴との差異メトリック単位として採用する。全てのアドレステキストの意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出する。テキスト意味特徴の数をS、アドレスデータセットをDとすると、次式のように表す。
Figure 0007041281000043
Figure 0007041281000044
両者の極差を除算すれば、そのオーダー間の比を近似的に求めることができ、両者の特徴の無次元化操作を実現し、かつアドレス情報のある特徴を際立たせるために、無次元された特徴ベクトルに対して重みの割り当て(ここでは
Figure 0007041281000045
は重みを表す)を行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得することができる。
Figure 0007041281000046
Figure 0007041281000047

次の式に示すように、2種類の特徴ベクトルを直接に接合し、最終的に1つのS+2長の融合特徴ベクトルを形成する。
Figure 0007041281000048
意味特徴と空間特徴の間の重み
Figure 0007041281000049
は、最終的な融合ベクトルの適用効果を変化させる。総じて言えば、意味特徴と空間特徴には相互制約の関係がある。意味重みを大きく設定しすぎると、空間距離が遠いアドレス要素は依然として同じクラスを持ち、クラスタリングの空間離散をもたらし、さらに後続のGSAMモデルの空間精度を低下させるが、空間の重みが大きすぎると、アドレスの意味情報が失われてしまい、クラスタリングにシティ機能ブロックに対する区分能力を喪失させて、人間の認識に合致しない結果をもたらし、さらにGSAMモデルのアドレステキストに対する意味理解能力を低下させた。
S53:K-Meansクラスタリングアルゴリズムにより、全てのアドレステキストの融合特徴ベクトルをクラスタリングして、意味-空間融合のクラスタリング結果を得る。本発明はクラスタリングの性能を向上させるために、Elkanの距離算出最適化アルゴリズムを採用し、該アルゴリズムはクラスタリング中心の間の距離を三角形の一辺とし、三角不等式によってクラスタリングの算出フローを簡略化して、不要な距離算出を削減する。同時に、K-MeansのバリアントMini-Batch K-Meansを使用して、クラスタリング速度を向上させている。Mini-Batch K-Meansは、小ロットデータサブセットをランダムに抽出することで算出時間を短縮し、従来のK-Meansと比較してすべての要素を算出してからクラスタリング中心を更新する必要があり、反復操作のたびに、サンプルサイズを指定した要素セットのみをランダムに選択し、さらにセット内の要素に基づいてクラスタリング中心を更新する。このほか、K-Meansの目的関数には局所極小点があるため、アルゴリズムは局所的最適解に陥りやすく、クラスタリングー結果をできるだけ大域的最適解に近づけるためには、クラスタリングー中心の初期化が重要となる。本発明は、Arthur and Vassilvitskii(2007)が提案したK-Means++クラスタリング中心初期化手段を用いて、クラスタリング結果の誤差改善を行う。このアルゴリズムの核心思想は、クラスタリング中心を初期化する際に、クラスタリング中心の間の距離をできるだけ遠くにすることである。
アドレステキストの意味と空間を融合したクラスタリング結果を得た後、各地名アドレステキストWiごとにクラスタリング結果ラベルBiを付与してアドレステキストと分類ラベルデータセットW {W1,W2,W3,…}、B {B1,B2,B3,…}をそれぞれ得て、その上で、新たなニューラルネットワーク構成ターゲットタスクを後から定義することができ、つまり各アドレステキストのクラスタリング結果を正しく予測し、WとBを実験データとして、転移学習モデルと訓練フレームワークの設計を行い、融合特徴抽出能力を持つアドレス意味-空間融合モデル(Geospatial-semantic Address Model、GSAM)を構築する。
以下に、ALMの意味-空間融合の実現を目指し、ニューラルネットワーク言語モデルの微調整理論から、ステップS6でGSAMモデルを構築するが、具体的な実行フローは以下のとおりである。
S61:S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して(ALM構造を多重して)、両者を結合してエンコーダを構成する。移植過程において、ニューラルネットワークパラメータ変数はいずれも変化しない。
したがって、このGSAMモデルのエンコーダでは、単語埋め込みモジュールと特徴抽出モジュールはALMモデルと一致するのであり、その特徴抽出モジュールの各層のセルフトランスフォーマーサブモジュールはいずれも対応する意味特徴変数を出力することができる。しかし、従来のターゲットタスクモジュールについて、アドレステキスト分類の目標を達成できないため、次のステップでアドレステキスト分類器を再構築する必要がある。
S62:ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築する。デコーダでの具体的な実行フローは、次のとおりである。
まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSANを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とする。
そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、入力された意味特徴の数Sを保留し、出力された確率分布特徴の数は依然としてSであり、活性化関数にはtanhを用いる。この関数の出力勾配区間は(-1,1)であり、ReLUでは負の勾配をゼロにしてしまう欠点に比べて、ニューロンの活性状態をできるだけ保留することができ、収束効果はReLUほどではないものの、ここではターゲットタスクのネットワーク構成が簡単であり、かつその層がモデルの最終的な出力層に近いため、これを活性化関数とする方が効果的である。
次いで、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換する。そのうちニューロンの重み行列とオフセットは共に訓練パラメータ変数であり、ランダムな方式で初期化割り当てを行う。
最後に、確率スコア分布スコアをsoftmax関数に代入し、アドレステキストがクラスタリング毎に属する(クラスタリング種別はS5で得られる)予測確率分布P(B|W)を得る。
上述のエンコーダ及びデコーダを利用して、アドレス意味-空間融合モデル(その構造を図4に示す)を構築し、そのターゲットタスクに合わせてアドレステキスト分類のモデル訓練フレームワークを作成することができる。具体的にはステップS7により実現され、具体的な実行フローは以下の通りである。
S71:前記エンコーダ及びデコーダを接続してアドレス意味-空間融合モデルGSAMの完全な構成を得る。
S72:アドレス意味-空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにする。
アドレス意味-空間融合モデルの訓練フレームワークは以下の通りである。
(1)モデル入力とハイパーパラメータ構造
訓練データ入力はアドレステキストデータセット及びそれに対応するクラスタリングラベルを含み、そのうちテキストデータセットは訓練時の入力に用いられ、クラスタリングラベルはモデル出力の確率分布において正しく対応すべきインデックス値を表し、モデルの良し悪しを評価する監督の根拠である。同時にアドレステキストにおける数字は空間的な位置に関係しているため、無視できず、テキストデータに出てくる数字を辞書に入れる必要があり、同時に移植したALMモデル例のニューラルネットワークパラメータもNUMに置き換えされていないモデルの訓練結果であるべきである。
訓練時に、ハイパーパラメータは上記のALMモデルに類似しており、訓練サンプルサイズbatch_size、学習率η、辞書サイズ、分類ラベル数num_labels、訓練ラウンド数epoch、テスト間隔ステップ数train_intervalを含み、また、最大文長max_sentence_size、単語埋め込み長(特徴数)embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeをさらに含み、これらのハイパーパラメータはいずれもALM訓練時のハイパーパラメータであり、ここでは移植されたパラメータ変数の位置するALMモデル例と厳密に一致する。
(2)予測分類確率を最大化する訓練手段を定義し、アドレステキストがモデルによって出力された後の正解ラベル確率をできるだけ大きくすることで、モデル内部のパラメータ変数を正解分類結果に向かってフィッティングさせていく。
(3)モデル訓練の損失関数を定義する。
各回訓練のアドレステキスト数はbatch_sizeであり、モデルの確率出力はprob(batch_size,num_labels)であり、サンプルのリアルなラベル系列B(batch_size)を組み合わせて、サンプルごとのリアルなラベル確率を得る。
Figure 0007041281000050
確率の対数値を加算して平均値を取ることで、訓練フレームワークにおける目的関数表現を得ることができる。
Figure 0007041281000051
確率の対数値を加算して平均の負の値を取ることで、訓練タスクの損失関数表現を得ることができる。
Figure 0007041281000052
(4)モデル訓練フレームワークと入力された訓練データとを組み合わせてGSAMモデルに対して訓練を展開する。訓練済みのGSAMモデルを得ると、アドレステキストをこのモデルに入力し、意味-空間特徴の融合ベクトル表現を出力することができる。この出力された融合ベクトルには、意味特徴も含むし、空間特徴も含み、意味-空間の融合属性を持ち、このような融合ベクトルは広い応用シーンを持ち、各種類の地名アドレス空間の下流タスクを構築することができる。
以下、上記の方法に基づいて実施例1に適用し、その技術的効果を直感的に示す。
実施例1
本実施例では、杭州市上城区の200百万件の地名アドレスデータでアドレステキストデータセットを構築して特徴ベクトル抽出を行う。その基本的なステップは上記のS1~S7で述べたとおりであるので、ここでは説明を省略し、以下、各ステップのいくつかの具体的な実現の詳細と効果について主に示す。
1、ステップS1~S7で述べた方法によって、TensorFlowディープ学習フレームワークを用いてALMとGSAMを構築するとともに、モデルのセーブポイントを設置し、ターゲットタスクモジュール以外のニューラルネットワークパラメータ変数を保存し、次の微調整タスクにおける移植を容易にする。モデルのハイパーパラメータは、hype-para.configプロファイルによって設定され、具体的な内容は次のとおりである。
1)訓練サンプルサイズbatch_size:64;2)初期学習率η:0.00005;3)訓練ラウンド数epoch:3;4)辞書サイズvoc_size:4587;5)最大文長max_sentence_size:52;6)最大シールド文字数max_mask_size:7;7)単語埋め込み長embedding_size:768;8)意味特徴抽出モジュール数num_self_transformer_module:6から12;9)自己注意ヘッド数attention_head_size:12;10)分類ラベル数num_labels:500;11)テスト間隔ステップ数train_interval:500。
2、杭州市上城区地名アドレスのテキスト内容について、関連辞書を構築し、ALM訓練データの構築方法に基づいてランダムシールド結果を生成し、その1%、つまり2万件の内容をテストセットとし、残りを訓練セットとする。
3、杭州市上城区アドレスデータのALM例の訓練を展開し、500ステップごとにモデル例を保存するとともに、検証セットに対して検証を一回行い、同時にTensorBoardプラグインを利用して訓練勾配曲線とテスト勾配曲線を描き、モデルにオーバーフィッティングまたはアンダーフィッティングがあるかどうかを判断し、最終的に検証正確さが最も高いセーブポイントをモデル生成結果として選び、そのうち特徴抽出モジュールのself-Transformerサブモジュールの出力はアドレステキストの意味特徴ベクトルである。意味特徴抽出モジュール数を変数として、それぞれ6、8、10、12に設定してモデル例の訓練を行い、対比指標は以下の表の通りである。
Figure 0007041281000053
4種類のモデル例の最終検証の正確さはいずれも90.5%の程度で、意味モジュール数の順に順次増加し、平均損失値と正確さは負の相関傾向を呈している。訓練モデルから得られた損失値を見ると、検証データセットの損失値との差が小さいことから、上記の4つのモデルにいずれもオーバーフィッティングおよびアンダーフィッティングがほとんど生じていないと判断できる。訓練時間の点では、モジュール数の増加に伴って訓練時間長さが増加するが、最も長い時間を消費するモデルであっても、実際の訓練にかかる負荷は依然として許容範囲内にある。また、意味抽出モジュールの増加は、アドレステキスト意味特徴に対するモデルの抽出能力を向上させ、各層のモジュールの意味出力をより線形にする。上記各指標の状況を纏めて、12個の抽出モジュールがモデルに最適のターゲットタスク結果と意味特徴抽出効果をもたらすと判定する。
4、上記のクラスタリング方式により、アドレステキストの意味特徴文ベクトルと空間座標情報に対して融合クラスタリングを展開し、シティ機能ブロック分割を根拠にクラスタリング数を500とし、意味特徴ベクトルと空間特徴ベクトルの重みを調整してクラスタリング実験や対比を行うことで、この実験室データは意味特徴ベクトル重み0.4と空間特徴ベクトル重み0.6の重みの割り当てモード(すなわち
Figure 0007041281000054
は0.4である)で、クラスタリングの結果は図5の示すようになり、この結果が人間の認識に最も合致することが最終的に発見された。この時のアドレステキストのクラスタリング結果ラベルを記録して、アドレステキストに関連付ける。
5、3番目のステップで得られたセーブポイントのニューラルネットワークパラメータ変数をGSAMモデルに移植し、検証セットとテストセット(アドレス内容をシールドせず、テキストのすべての文字番号を含む整数ベクトルである)を構築し、データセットの内容には、アドレステキスト情報とクラスタリングラベル結果が含まれており、割合は依然として1%(1万件以上)と99%を維持している。
6、予測分類確率の最大化を目指して、杭州市上城区アドレスデータのGSAMモデル例の訓練を展開し、500ステップごとにモデル例を保存し、検証セットに対して検証を一回行い、訓練勾配曲線とテスト勾配曲線を描き、モデルにオーバーフィッティングまたはアンダーフィッティングがあるかどうかを判断し、最終的に検証用F1値が最も高いセーブポイントをモデル生成結果として選択する。ただし、特徴抽出モジュールのself-Transformerサブモジュールの出力は、アドレステキストの意味-空間融合特徴ベクトルである。訓練データセットの勾配曲線の変化から見ると、モデル例の損失値は20kステップ前に比較的速い低下傾向を示し、その後、低下過程は緩やかになり、小幅な局部的な揺れが存在し、100kステップ後まで徐々に穏やかになり、損失値は0.18から0.01の間で揺れを繰り返し、平滑化を経た後、ほぼ0.08から0.05の間であることから、GSAM例はこの時で訓練要求に達したと考えられる。検証セットと訓練セットの損失勾配曲線の状態はほぼ一致しており、依然として「急速な低下-緩やかな低下-穏やかな揺れ」の傾向表現である。しかし、安定後の損失値の点では、検証セットは0.1293から0.1271の間であり、テストセット曲線の中心とは一定の差があり、モデル例は訓練時にややなオーバーフィッティン現象があり、100k後にテストデータの評価指標曲線を総合的に考慮して、最適な訓練状態ポイントをモデルの生成例として選択する必要がある。検証指標の曲線変化は損失曲線の負の相関表現で、訓練の始めに急速な上昇傾向を示し、正確さ、マクロF1(Macro-F1)分類性能は20kステップの時にそれぞれ0.9457、0.9308、0.9458に達し、その後、緩やかに上昇し始め、100kから120kの間に至るまで、3つの指標区間はそれぞれ0.9696-0.9711、0.9593-0.9614、および0.9698-0.9711の間で安定しており、ここでは小幅な揺れを伴い、上述の3つの区間の範囲はすでに小さいため、この時にモデルは訓練要求に達し、その中から良いステップ長のポイントをモデルの生成例とすると考えられる。以上の状況を統合して、実験はモデル訓練効果を保証する範囲内で、モデル訓練セットと検証セットのオーバーフィッティングの差をできるだけ低減することを決定し、かつその範囲内の検証指標曲線がすでに安定しているため、モデルの効果に大きな影響を与えることはなく、最終に実験では115.5k時のモデル例のセーブポイントをモデルの生成例GSAM_Formatとして選び、訓練セットとテストセットの損失値はそれぞれ0.128と0.1176であり、このときの検証正確さ、マクロF1値、マイクロF1値はそれぞれ0.9706、0.9607、0.9710である。GSAM_Formatによるターゲットタスクへの分類効果を見ると、検証セットの3つの指標はいずれも0.96以上に達しており、このモデル例がクラスタリング結果のラベル認識をうまく実現できることを説明しているため、それは効率的で精確な分類能力を持つと考えられる。モデル構造上で分析を行い、その特徴抽出モジュールは訓練により、意味-空間を含む融合特徴を出力することができ、アドレス関連の下流プロジェクトをサポートできる。さらに、GSAMはアドレステキストにおける数字にクラスタリング粒度の空間特徴を与えることができ、その出力するアドレステキストは、意味-空間融合特徴の形態で表現することができる。これは、ALMやその他の自然言語モデルには備わっていないことである。
以下、別の実施例によって、当業者により良く理解されるように、本方法によって抽出された融合ベクトルに基づいて展開される下流タスクの実施形態を提供する。
実施例2
本実施例では、アドレステキストに言及されている場所名とそれに対応する空間座標との関連付けを実現し、両者の共同表現形態、すなわち「アドレステキスト内容に基づいて文書に言及された空間実体の座標を予測する」ことを構築することを目的とするアドレステキストの地理位置予測方法を提供する。
本実施例におけるアドレステキストの地理位置予測方法の具体的なフローは以下の通りである。
まず、3層の結合された全結合層及び1層の線形変換層を含むアドレス空間座標予測モデルを構築し、S1~S7に記載の方法に従って訓練してアドレス意味-空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層及び1層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力する。モデル全体構成は図6に示すようである。
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得る。
このモデルは、3つの全結合層をターゲットタスクモジュールの隠れ層として設置し、その結果を線形変換することで予測座標の2値出力を実現しており、このモジュールの入力はGSAMモデルにおける特徴抽出モジュールの出力となる。実現過程において、上記のS1~S7および実施例1で述べた方法に従って、GSAMモデル(GSAM_Format)を構築して訓練し、その後、そのうち特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層に順次入力し、モデルがより多くの意味-空間の座標変換へ時の関連情報を保留することができるようにし、ReLUを活性化関数として使用して、訓練時の収束効果を保証するようにする。最終層のニューロン出力結果はすでに予測座標の特徴を持っているが、特徴数は空間座標の次元に合致していないため、線形変換層によって次元低下操作を実現する必要があり、出力結果はアドレステキストに記述された空間実体が位置する予測座標である。
このアドレス空間座標予測モデルは、訓練されてこそ、予測作業に用いることができる。なお、訓練時にはGSAMモデルにおけるエンコーダ部分変数パラメータ、すなわちタスクターゲットモジュールの前のニューラルネットワークパラメータFrozen While Trainingに対してフリーズを行う必要があることに注意し、逆伝播の実行時には上記パラメータ変数に対する勾配低下操作は行われない。
モデル入力とハイパーパラメータ構造は以下のとおりである。
訓練データ入力は、アドレステキストデータセットとそれに対応するリアルな座標情報を含み、そのうちテキストデータセットは、訓練時の入力に用いられ、リアルな座標情報は、モデル出力の予測座標を評価するために用いられ、モデル訓練時の勾配低下を指導する数値的根拠である。また、モデルにおける特徴抽出モジュールは訓練によって得られたGSAMモデル例から遷移されているため、GSAM例を取得して関連ニューラルネットワークパラメータ変数に値を与える必要があり、訓練時の辞書もそのモデル例と一致する。
訓練時のハイパーパラメータの定義と値の与えは以下の通りである。
(1)訓練サンプルサイズbatch_size:64。
(2)学習率η:1×10-4(初期学習率)。
(3)辞書サイズ:アドレスの意味-空間融合モデル例で使用される辞書のサイズと一致し、ここで、辞書にはアドレステキストのすべての数値列挙が含まれているべきである。
(4)訓練ラウンド数epoch:5。
(5)テスト間隔ステップ数train_interval:500。
(6)他のALM訓練の相関ハイパーパラメータ(max_sentence_size、embedding_size)は、GSAM例の設定値と一致する。
訓練手段の具体的な内容を定義する。アドレステキストがモデルによって出力された後の座標予測値をリアルな値にできるだけ近づけるようにすることで、ターゲットタスクモジュール内部のパラメータ変数を正しい結果に向かって融合させていく。
各回訓練のアドレステキスト数はbatch_sizeなので、訓練目標をそのサンプル距離誤差の平均値が0になるように定義することができ、モデルの出力はpred_coord(batch_size,2)であり、サンプルの空間座標系列true_coord(batch_size,2)を組み合わせて、訓練フレームワークにおける目的関数表現を得ることができ、ただし、dis(x)は空間距離測定算出関数を表す。
Figure 0007041281000055
これにより、モデル訓練の損失関数が得られる。
Figure 0007041281000056
本発明の効果を対比するために、本実施例は、GSAM_Formatに基づいて予測モデルを構築することに加えて、2つの対照モデル例を構築して訓練する。その一つのモデル構造は本実施例と一致するが、特徴抽出器の点では、ALM_Formatを用いてターゲットタスクモジュール外のニューラルネットワークパラメータ変数に値を与え、このとき、このモデル例の特徴表現はアドレステキスト意味情報のみを含む。もう一つはWord 2 Vec方法を用いてアドレステキストをベクトル表現し、そのターゲットタスクモジュールは下流タスクモデルと同じであり、3層の全結合ニューラルネットワークをも隠れ層とし、最後に線形変化を行って出力を得る。2組の対照モデルは訓練時に同様にターゲットタスクモジュールにおけるニューラルネットワークパラメータのみに対して勾配更新操作を実行する。隠れ層の次元サイズは、変数であり、768/768/768、1024/1024/1024、2048/2048/2048、および4096/4096/4096の順に設定されて下流タスクモデルおよび対照モデル例の訓練を実施する。
訓練モデルに対して収束後の最適な効果のステップ長のポイントをモデル最終例として保存し、そのときのモデル評価指標を以下の表にまとめる。
Figure 0007041281000057
上記3つの指標及び曲線変化の分析から、GSAM_Formatに基づく予測モデルはサンプルアドレス情報に対して、全面的に見ても局部的に見ても、その空間座標の予測能力が他の2種類のモデルよりはるかに優れており、人間の脳の「アドレステキスト認識」から「空間領域感知」までのプロセスと類似するプロセスを効率的かつ正確に達成することができる。これはまた、本発明のGSAMモデルが意味-空間融合特徴の学習能力を確実に有し、その訓練例が意味-空間融合重みを含むことを側面から実証する。
前記の実施例は、本発明の好ましい形態に過ぎず、本発明を限定するものではない。当業者であれば、本発明の主旨及び範囲から逸脱することなく、様々な変更及び変形を行うことができる。したがって、同等の置換または等価の変換の形態で得られる技術案は、いずれも本発明の範囲内にある。

Claims (10)

  1. ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
    位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
    文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の意味出力統合した総意味出力を取得するステップS2と、
    文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
    S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
    アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
    S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
    前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデルを構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と、
    を含むことを特徴とするディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  2. 前記ステップS1において、単語埋め込みモジュールにおける具体的な実行フローは、
    辞書-ベクトル変換行列Cを作成するステップS11と、
    入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップS12と、
    インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップS13と、
    one-hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding0を得るステップS14と、
    アドレステキストにおける各文字の位置positionを取得するステップS15と、
    位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
    偶数次元の位置重み値は、次の式で表され、
    Figure 0007041281000058
    奇数次元の位置重み値は、次の式で表され、
    Figure 0007041281000059
    式中、dmodelは単語埋め込みembedding0の次元を表し、iは算出されたi番目の次元を表すステップS16と、
    次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップS17と、
    Figure 0007041281000060
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  3. 前記ステップS2において、特徴抽出モジュールにおける具体的な実行フローは、
    S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップS21と、
    第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達するステップS22と、
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  4. 前記ステップS3において、ターゲットタスクモジュールにおける具体的な実行フローは、
    S2で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding=g(W×SA+b)であり、
    式において、g()はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップS31と、
    prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、
    Figure 0007041281000061
    式中、重み行列CTは辞書-ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表すステップS32と、
    次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップS33と、
    Figure 0007041281000062
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  5. 前記ステップS4の具体的な実現フローは、
    S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップS41と、
    地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、
    前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップS43と、
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  6. 前記ステップS42において、
    前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら3種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
    前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの3つの勾配更新最適化戦略を用いる
    ことを特徴とする請求項5に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  7. 前記ステップS5の具体的な実現フローは、
    アドレステキストの前記特徴抽出モジュールにおける最後の4層のセルフトランスフォーマーサブモジュールの出力SAN、SAN-1、SAN-2、SAN-3を取得して、SAN、SAN-1、SAN-2、SAN-3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed0を取得するステップS51と、
    全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
    次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed0と空間特徴ベクトルcoorEmbed0に対して無次元化操作を行い、重みを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、
    Figure 0007041281000063
    Figure 0007041281000064
    次の式に示すように、2種類の処理後の特徴ベクトルを直接に接合して、最終的に融合特徴ベクトルを形成するステップS52と、
    Figure 0007041281000065
    K-Meansクラスタリングアルゴリズムにより、Elkan距離算出最適化アルゴリズムとMini-Batch K-Means戦略とK-Means++クラスタリング中心初期プログラムとを組み合わせて、すべての融合特徴ベクトルをクラスタリングし、意味-空間融合のクラスタリング結果を得るステップS53と、
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  8. 前記ステップ6の具体的な実現フローは、
    S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップS61と、
    ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSANを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがS5で得られた各クラスタリングに属する予測確率分布を得るステップS62と、
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  9. 前記ステップS7の具体的な実現フローは、
    前記エンコーダ及びデコーダを接続してアドレス意味-空間融合モデルを得るステップS71と、
    アドレス意味-空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS72と、
    を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
  10. アドレステキストの地理位置予測方法であって、
    まず、3層の結合された全結合層及び1層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項1~9のいずれか1項に記載の方法に従って訓練してアドレス意味-空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層及び1層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
    その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと、
    を含むことを特徴とするアドレステキストの地理位置予測方法。
JP2020556939A 2019-07-04 2019-07-23 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 Active JP7041281B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910600447.5 2019-07-04
CN201910600447 2019-07-04
PCT/CN2019/097375 WO2021000362A1 (zh) 2019-07-04 2019-07-23 一种基于深度神经网络模型的地址信息特征抽取方法

Publications (2)

Publication Number Publication Date
JP2021532432A JP2021532432A (ja) 2021-11-25
JP7041281B2 true JP7041281B2 (ja) 2022-03-23

Family

ID=68255063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020556939A Active JP7041281B2 (ja) 2019-07-04 2019-07-23 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法

Country Status (4)

Country Link
US (1) US11941522B2 (ja)
JP (1) JP7041281B2 (ja)
CN (1) CN110377686B (ja)
WO (1) WO2021000362A1 (ja)

Families Citing this family (203)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048933B2 (en) * 2019-07-31 2021-06-29 Intuit Inc. Generating structured representations of forms using machine learning
CN112800737B (zh) * 2019-10-29 2024-06-18 京东科技控股股份有限公司 自然语言文本生成方法和装置以及对话***
CN110837733B (zh) * 2019-10-31 2023-12-29 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、***及电子设备
CN110874392B (zh) * 2019-11-20 2023-10-24 中山大学 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN110929017B (zh) * 2019-11-25 2023-07-14 腾讯科技(深圳)有限公司 文本的推荐方法及装置
CN111104802B (zh) * 2019-12-11 2023-03-28 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN112949284B (zh) * 2019-12-11 2022-11-04 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN111177289A (zh) * 2019-12-12 2020-05-19 山东省国土测绘院 众源网络数据空间相关信息提取校验方法与***
CN111178074B (zh) * 2019-12-12 2023-08-25 天津大学 一种基于深度学习的中文命名实体识别方法
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
CN111222320B (zh) * 2019-12-17 2020-10-20 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN111178041B (zh) * 2019-12-31 2023-04-07 北京妙笔智能科技有限公司 一种智能的文本复述***和方法
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111553363B (zh) * 2020-04-20 2023-08-04 北京易道博识科技有限公司 一种端到端的图章识别方法及***
CN111666461B (zh) * 2020-04-24 2023-05-26 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
CN111666292B (zh) 2020-04-24 2023-05-26 百度在线网络技术(北京)有限公司 用于检索地理位置的相似度模型建立方法和装置
EP4150875A4 (en) * 2020-05-11 2024-01-17 PayPal, Inc. DETERMINING GEOGRAPHICAL COORDINATES USING MACHINE LEARNING TECHNIQUES
US11928429B2 (en) * 2020-05-22 2024-03-12 Microsoft Technology Licensing, Llc Token packing for sequence models
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
US11393233B2 (en) 2020-06-02 2022-07-19 Google Llc System for information extraction from form-like documents
CN111680169A (zh) * 2020-06-03 2020-09-18 国网内蒙古东部电力有限公司 一种基于bert模型技术的电力科技成果数据抽取方法
CN111711629A (zh) * 2020-06-16 2020-09-25 荆门汇易佳信息科技有限公司 背景知识引导的特征化定位隐私防泄露方法
US11782685B2 (en) * 2020-06-17 2023-10-10 Bank Of America Corporation Software code vectorization converter
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN111753802B (zh) * 2020-07-06 2024-06-21 北京猿力未来科技有限公司 识别方法及装置
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及***
CN112507074A (zh) * 2020-07-31 2021-03-16 支付宝(杭州)信息技术有限公司 机器阅读理解中的数值推理方法和装置
CN112133304B (zh) * 2020-09-18 2022-05-06 中科极限元(杭州)智能科技股份有限公司 基于前馈神经网络的低延时语音识别模型及训练方法
CN112288806B (zh) * 2020-09-28 2024-05-24 北京沃东天骏信息技术有限公司 物体空间关系的识别方法、装置和训练方法、装置
CN112257413B (zh) * 2020-10-30 2022-05-17 深圳壹账通智能科技有限公司 地址参数处理方法及相关设备
CN112329470B (zh) * 2020-11-09 2024-05-28 北京中科闻歌科技股份有限公司 一种基于端到端模型训练的智能地址识别方法及装置
US11995111B2 (en) * 2020-11-13 2024-05-28 Tencent America LLC Efficient and compact text matching system for sentence pairs
CN112328844B (zh) * 2020-11-18 2024-07-02 恩亿科(北京)数据科技有限公司 一种处理多类型数据的方法及***
CN114531696A (zh) * 2020-11-23 2022-05-24 维沃移动通信有限公司 Ai网络部分输入缺失的处理方法和设备
CN112651227A (zh) * 2020-11-24 2021-04-13 中国科学院信息工程研究所 一种基于向量空间下语言建模的IPv6目标生成方法和装置
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112488200A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 物流地址特征提取方法、***、设备及存储介质
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN112527938A (zh) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 基于自然语言理解的中文poi匹配方法
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN112633003B (zh) * 2020-12-30 2024-05-31 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112766359B (zh) * 2021-01-14 2023-07-25 北京工商大学 一种面向食品安全舆情的字词双维度微博谣言识别方法
CN112861648B (zh) * 2021-01-19 2023-09-26 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN112765339B (zh) * 2021-01-21 2022-10-04 山东师范大学 一种基于强化学习的个性化图书推荐方法及***
CN112818118B (zh) * 2021-01-22 2024-05-21 大连民族大学 基于反向翻译的中文幽默分类模型的构建方法
CN112836496B (zh) * 2021-01-25 2024-02-13 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN112860992B (zh) * 2021-01-25 2023-03-24 西安博达软件股份有限公司 基于网站内容数据推荐的特征优化预训练方法
CN112818666B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址识别方法、装置、电子设备和存储介质
CN112784831B (zh) * 2021-02-02 2022-06-28 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN112507628B (zh) * 2021-02-03 2021-07-02 北京淇瑀信息科技有限公司 基于深度双向语言模型的风险预测方法、装置和电子设备
CN112818086A (zh) * 2021-02-04 2021-05-18 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113011580B (zh) * 2021-02-10 2022-12-27 华为技术有限公司 一种嵌入表征的处理方法以及相关设备
CN112884513B (zh) * 2021-02-19 2024-07-02 上海数鸣人工智能科技有限公司 基于深度因子分解机的营销活动预测模型结构和预测方法
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN112836146B (zh) * 2021-03-09 2024-05-14 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN112884354B (zh) * 2021-03-15 2023-07-11 北京工商大学 一种字词双维度的化妆品***领域事件信息抽取方法
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和***
US20220327489A1 (en) * 2021-04-08 2022-10-13 Nec Laboratories America, Inc. Hierarchical word embedding system
CN113434667B (zh) * 2021-04-20 2024-01-23 国网浙江省电力有限公司杭州供电公司 基于配网自动化终端文本分类模型的文本分类方法
CN113139054B (zh) * 2021-04-21 2023-11-24 南通大学 一种基于Transformer的代码编程语言分类方法
CN113128600B (zh) * 2021-04-23 2024-02-23 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113011443B (zh) * 2021-04-23 2022-06-03 电子科技大学 一种基于关键点的目标检测的特征融合方法
CN113076750B (zh) * 2021-04-26 2022-12-16 华南理工大学 一种基于新词发现的跨领域中文分词***及方法
CN113132410B (zh) * 2021-04-29 2023-12-08 深圳信息职业技术学院 一种用于检测钓鱼网址的方法
CN113221568B (zh) * 2021-05-10 2022-05-17 天津大学 一种基于神经网络的改进分层序列标注联合关系抽取方法
CN113343638B (zh) * 2021-05-10 2023-10-13 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113190655B (zh) * 2021-05-10 2023-08-11 南京大学 一种基于语义依赖的空间关系抽取方法及装置
CN113590814A (zh) * 2021-05-13 2021-11-02 上海大学 一种融合文本解释特征的文本分类方法
CN112990388B (zh) * 2021-05-17 2021-08-24 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113345574B (zh) * 2021-05-26 2022-03-22 复旦大学 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置
CN113157927B (zh) * 2021-05-27 2023-10-31 中国平安人寿保险股份有限公司 文本分类方法、装置、电子设备及可读存储介质
CN113256145B (zh) * 2021-06-09 2021-09-21 深圳万顺叫车云信息技术有限公司 安全中心中台***
CN113221546B (zh) * 2021-06-09 2024-06-21 中国银行股份有限公司 手机银行资讯数据处理方法及装置
CN113313197B (zh) * 2021-06-17 2022-06-10 哈尔滨工业大学 一种全连接神经网络训练方法
CN113420571A (zh) * 2021-06-22 2021-09-21 康键信息技术(深圳)有限公司 基于深度学习的文本翻译方法、装置、设备及存储介质
CN113536804B (zh) * 2021-06-29 2022-05-03 北京理工大学 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN113378574B (zh) * 2021-06-30 2023-10-24 武汉大学 一种基于kgann的命名实体识别方法
CN113420689B (zh) * 2021-06-30 2024-03-22 平安科技(深圳)有限公司 基于概率校准的文字识别方法、装置、计算机设备及介质
CN113255346B (zh) * 2021-07-01 2021-09-14 湖南工商大学 一种基于图嵌入与crf知识融入的地址要素识别方法
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及***
CN113468877A (zh) * 2021-07-09 2021-10-01 浙江大学 语言模型的微调方法、装置、计算设备和存储介质
CN113537345B (zh) * 2021-07-15 2023-01-24 中国南方电网有限责任公司 一种通信网设备数据关联的方法及***
CN113536798B (zh) * 2021-07-16 2024-05-31 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和***
CN113538475B (zh) * 2021-07-19 2022-03-25 中国科学院自动化研究所 基于多任务算法的实时多器械分割方法和***
CN113609304B (zh) * 2021-07-20 2023-05-23 广州大学 一种实体匹配方法和装置
CN113672726A (zh) * 2021-07-20 2021-11-19 贵州电网有限责任公司 一种基于重采样的多轮对话分类方法
CN113743118B (zh) * 2021-07-22 2024-06-21 武汉工程大学 基于融合关系信息编码的法律文书中的实体关系抽取方法
CN113297410A (zh) * 2021-07-26 2021-08-24 广东众聚人工智能科技有限公司 一种图像检索方法、装置、计算机设备及存储介质
CN113591971B (zh) * 2021-07-28 2024-05-07 上海数鸣人工智能科技有限公司 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN113568845B (zh) * 2021-07-29 2023-07-25 北京大学 一种基于强化学习的内存地址映射方法
CN113591459B (zh) * 2021-08-10 2023-09-15 平安银行股份有限公司 地址标准化处理方法、装置、电子设备及可读存储介质
CN113392191B (zh) * 2021-08-18 2022-01-21 中关村科学城城市大脑股份有限公司 一种基于多维度语义联合学习的文本匹配方法和装置
CN113656607A (zh) * 2021-08-19 2021-11-16 郑州轻工业大学 一种文本挖掘装置及储存介质
CN113626603B (zh) * 2021-08-19 2024-03-29 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113823292B (zh) * 2021-08-19 2023-07-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN113673219B (zh) * 2021-08-20 2022-06-07 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113657324B (zh) * 2021-08-24 2024-06-21 速度科技股份有限公司 基于遥感影像地物分类的城市功能区识别方法
CN113723072A (zh) * 2021-08-25 2021-11-30 北京来也网络科技有限公司 Rpa结合ai的模型融合结果获取方法、装置及电子设备
CN113592037B (zh) * 2021-08-26 2023-11-24 吉奥时空信息技术股份有限公司 一种基于自然语言推断的地址匹配方法
CN113723278B (zh) * 2021-08-27 2023-11-03 上海云从汇临人工智能科技有限公司 表格信息提取模型的训练方法及装置
CN113837240A (zh) * 2021-09-03 2021-12-24 南京昆虫软件有限公司 一种针对***的分类***和分类方法
CN113948066B (zh) * 2021-09-06 2022-07-12 北京数美时代科技有限公司 一种实时转译文本的纠错方法、***、存储介质和装置
CN113761131A (zh) * 2021-09-07 2021-12-07 上海快确信息科技有限公司 一种将文本结构化为表格的深度学习模型装置
CN113505190B (zh) * 2021-09-10 2021-12-17 南方电网数字电网研究院有限公司 地址信息修正方法、装置、计算机设备和存储介质
CN113869052B (zh) * 2021-09-26 2023-05-05 杭州中房信息科技有限公司 基于ai的房屋地址匹配方法、存储介质及设备
CN113836928B (zh) * 2021-09-28 2024-02-27 平安科技(深圳)有限公司 文本实体生成方法、装置、设备及存储介质
CN113887642B (zh) * 2021-10-11 2024-06-21 中国科学院信息工程研究所 一种基于开放世界的网络流量分类方法及***
CN113760778B (zh) * 2021-11-09 2022-02-08 浙江大学滨海产业技术研究院 一种基于词向量模型的微服务接口划分评价方法
CN114037872A (zh) * 2021-11-09 2022-02-11 安阳师范学院 一种基于图卷积网络的甲骨字分类方法
CN114153971B (zh) * 2021-11-09 2024-06-14 浙江大学 一种含错中文文本纠错识别分类设备
CN114528368B (zh) * 2021-11-12 2023-08-25 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
US20230161976A1 (en) * 2021-11-19 2023-05-25 SafeGraph, Inc. Machine Learning-Based Translation of Address Strings to Standardized Addresses
CN114547963B (zh) * 2021-11-26 2024-06-25 江苏科技大学 一种基于数据驱动的轮胎建模方法和介质
US11442775B1 (en) 2021-12-03 2022-09-13 FriendliAI Inc. Dynamic batching for inference system for transformer-based generation tasks
US11514370B1 (en) * 2021-12-03 2022-11-29 FriendliAI Inc. Selective batching for inference system for transformer-based generation tasks
CN114048750B (zh) * 2021-12-10 2024-06-28 广东工业大学 一种融合信息高级特征的命名实体识别方法
CN114398483A (zh) * 2021-12-10 2022-04-26 北京航空航天大学 一种预包装食品分类方法
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端***及设备
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法
CN113971407B (zh) * 2021-12-23 2022-03-18 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
CN114358014B (zh) * 2021-12-23 2023-08-04 佳源科技股份有限公司 基于自然语言的工单智能诊断方法、装置、设备及介质
CN114493657A (zh) * 2021-12-24 2022-05-13 上海数鸣人工智能科技有限公司 一种基于深度游走词向量图嵌入技术的预测方法
CN114003698B (zh) * 2021-12-27 2022-04-01 成都晓多科技有限公司 一种文本检索方法、***、设备及存储介质
CN114266230A (zh) * 2021-12-30 2022-04-01 安徽科大讯飞医疗信息技术有限公司 文本结构化处理方法、装置、存储介质及计算机设备
CN114492463B (zh) * 2021-12-30 2023-12-12 永中软件股份有限公司 一种基于对抗多任务学习的统一语义性中文文本润色方法
CN114329472B (zh) * 2021-12-31 2023-05-19 淮阴工学院 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置
CN114049508B (zh) * 2022-01-12 2022-04-01 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及***
CN114386334B (zh) * 2022-01-19 2022-09-13 浙江大学 一种基于分布式水文径流模拟替代模型的径流滚动预报方法
CN114443845A (zh) * 2022-01-20 2022-05-06 序跋网络科技(上海)有限公司 一种基于bert的多特征细粒度中文短文本情感分类方法
CN114510968B (zh) * 2022-01-21 2022-09-16 石家庄铁道大学 一种基于Transformer的故障诊断方法
CN114582443B (zh) * 2022-02-23 2023-08-18 西北大学 一种基于知识图谱的药物关系抽取方法
CN114757700A (zh) * 2022-04-12 2022-07-15 北京京东尚科信息技术有限公司 物品销量预测模型训练方法、物品销量预测方法及装置
CN114816909B (zh) * 2022-04-13 2024-03-26 北京计算机技术及应用研究所 一种基于机器学习的实时日志检测预警方法及***
CN114925211A (zh) * 2022-04-13 2022-08-19 东南大学 一种面向表格型数据的事实验证方法
CN114780725A (zh) * 2022-04-14 2022-07-22 南京邮电大学 一种基于深度聚类的文本分类算法
CN114782791B (zh) * 2022-04-14 2024-03-22 华南理工大学 基于transformer模型和类别关联的场景图生成方法
CN114897004B (zh) * 2022-04-15 2023-05-02 成都理工大学 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法
US11615247B1 (en) * 2022-04-24 2023-03-28 Zhejiang Lab Labeling method and apparatus for named entity recognition of legal instrument
CN114580424B (zh) * 2022-04-24 2022-08-05 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114818698B (zh) * 2022-04-28 2024-04-16 华中师范大学 一种自然语言文本和数学语言文本的混合词嵌入方法
CN114756682B (zh) * 2022-04-28 2024-06-21 华中师范大学 一种数学文本的语义分类方法
CN114579688A (zh) * 2022-04-29 2022-06-03 中国地质科学院地质力学研究所 一种基于gis的地质数据呈现方法及***
CN117131867B (zh) * 2022-05-17 2024-05-14 贝壳找房(北京)科技有限公司 房本地址拆分方法、装置、计算机程序产品和存储介质
CN115114433B (zh) * 2022-05-19 2024-04-02 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN114926655B (zh) * 2022-05-20 2023-09-26 北京百度网讯科技有限公司 地理与视觉跨模态预训练模型的训练方法、位置确定方法
CN114925324B (zh) * 2022-05-25 2024-06-28 北京航空航天大学 基于scnbmf的智慧城市不完备数据的处理***及方法
CN114661968B (zh) * 2022-05-26 2022-11-22 卡奥斯工业智能研究院(青岛)有限公司 产品数据处理方法、装置及存储介质
CN114911909B (zh) * 2022-06-08 2023-01-10 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置
CN114896968A (zh) * 2022-06-10 2022-08-12 南京信息工程大学 一种基于自然语言处理的地质表头归并方法及装置
WO2023244648A1 (en) * 2022-06-14 2023-12-21 The Regents Of The University Of California Residual and attentional architectures for vector-symbols
CN114791886B (zh) * 2022-06-21 2022-09-23 纬创软件(武汉)有限公司 一种软件问题跟踪方法和***
CN115081439B (zh) * 2022-07-01 2024-02-27 淮阴工学院 一种基于多特征自适应增强的化学药品分类方法及***
CN114841293B (zh) * 2022-07-04 2022-10-25 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与***
CN115344693B (zh) * 2022-07-11 2023-05-12 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法
CN115242868A (zh) * 2022-07-13 2022-10-25 郑州埃文计算机科技有限公司 一种基于图神经网络的街道级ip地址定位方法
CN115081428B (zh) * 2022-07-22 2022-11-29 粤港澳大湾区数字经济研究院(福田) 一种处理自然语言的方法、自然语言处理模型、设备
CN115277626B (zh) * 2022-07-29 2023-07-25 平安科技(深圳)有限公司 地址信息转换方法、电子设备和计算机可读存储介质
CN115168856B (zh) * 2022-07-29 2023-04-21 山东省计算中心(国家超级计算济南中心) 二进制代码相似性检测方法及物联网固件漏洞检测方法
CN115065567B (zh) * 2022-08-19 2022-11-11 北京金睛云华科技有限公司 用于dga域名研判推理机的插件化执行方法
CN115329766B (zh) * 2022-08-23 2023-04-18 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115099242B (zh) * 2022-08-29 2022-11-15 江西电信信息产业有限公司 意图识别方法、***、计算机及可读存储介质
CN115410158B (zh) * 2022-09-13 2023-06-30 北京交通大学 一种基于监控摄像头的地标提取方法
CN115422477B (zh) * 2022-09-16 2023-09-05 哈尔滨理工大学 一种轨迹近邻查询***、方法、计算机及存储介质
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、***及介质
CN115439921A (zh) * 2022-09-22 2022-12-06 徐州华讯科技有限公司 一种基于眼动图推理的图像偏好预测方法
CN115545098B (zh) * 2022-09-23 2023-09-08 青海师范大学 一种基于注意力机制的三通道图神经网络的节点分类方法
CN115470354B (zh) * 2022-11-03 2023-08-22 杭州实在智能科技有限公司 基于多标签分类识别嵌套和重叠风险点的方法及***
CN116704537B (zh) * 2022-12-02 2023-11-03 大连理工大学 一种轻量的药典图片文字提取方法
CN115983274B (zh) * 2022-12-20 2023-11-28 东南大学 一种基于两阶段标签校正的噪声事件抽取方法
CN116452241B (zh) * 2023-04-17 2023-10-20 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法
CN116431711B (zh) * 2023-06-13 2024-03-15 北京长河数智科技有限责任公司 基于数据特征实现的数据智能采集方法及***
CN116719936B (zh) * 2023-06-15 2023-12-26 湖北大学 一种基于集成学习的网络不可靠信息早期检测方法
CN116611131B (zh) * 2023-07-05 2023-12-26 大家智合(北京)网络科技股份有限公司 一种包装图形自动生成方法、装置、介质及设备
CN116610791B (zh) * 2023-07-20 2023-09-29 中国人民解放军国防科技大学 针对结构化信息的基于语义分析的问答方法、***及设备
CN116824305B (zh) * 2023-08-09 2024-06-04 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及***
CN116758562B (zh) * 2023-08-22 2023-12-08 杭州实在智能科技有限公司 通用文本验证码识别方法及***
CN116958825B (zh) * 2023-08-28 2024-03-22 中国公路工程咨询集团有限公司 一种移动式遥感图像采集方法及公路维护监测方法
CN116910186B (zh) * 2023-09-12 2023-11-21 南京信息工程大学 一种文本索引模型构建方法、索引方法、***和终端
CN116913383B (zh) * 2023-09-13 2023-11-28 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN116915746B (zh) * 2023-09-14 2023-11-21 北京国旭网络科技有限公司 一种基于物联网的IPv6寻址方法
CN117033394B (zh) * 2023-10-08 2023-12-08 卓世科技(海南)有限公司 一种大语言模型驱动的向量数据库构建方法及***
CN117033393B (zh) * 2023-10-08 2023-12-12 四川酷赛科技有限公司 一种基于人工智能的信息存储管理***
CN117236323B (zh) * 2023-10-09 2024-03-29 京闽数科(北京)有限公司 一种基于大数据的信息处理方法及***
CN117454873B (zh) * 2023-10-23 2024-04-23 广东外语外贸大学 一种基于知识增强神经网络模型的讽刺检测方法及***
CN117474645A (zh) * 2023-11-14 2024-01-30 深圳市伙伴行网络科技有限公司 一种智能楼宇招商管理***
CN117478511A (zh) * 2023-11-21 2024-01-30 国网江苏省电力有限公司南通供电分公司 一种继电保护业务管理***及方法
CN117371299B (zh) * 2023-12-08 2024-02-27 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117538910B (zh) * 2023-12-20 2024-04-30 广东邦盛北斗科技股份公司 基于ai的北斗定位信号测试分析方法及***
CN117457135B (zh) * 2023-12-22 2024-04-09 四川互慧软件有限公司 一种地址数据治理方法和循环神经网络模型构建方法
CN117436460B (zh) * 2023-12-22 2024-03-12 武汉大学 一种翻译质量评估方法、装置、设备及存储介质
CN117540009B (zh) * 2024-01-09 2024-03-26 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法
CN117556064B (zh) * 2024-01-11 2024-03-26 北京邮电大学 基于大数据分析的信息分类存储方法与***
CN117688611B (zh) * 2024-01-30 2024-06-04 深圳昂楷科技有限公司 电子病历脱敏方法及***、电子设备、存储介质
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及***
CN117729176B (zh) * 2024-02-18 2024-04-26 闪捷信息科技有限公司 基于网络地址和响应体的应用程序接口聚合方法及装置
CN117763361B (zh) * 2024-02-22 2024-04-30 泰山学院 一种基于人工智能的学生成绩预测方法及***
CN117875268B (zh) * 2024-03-13 2024-05-31 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法
CN118036477B (zh) * 2024-04-11 2024-06-25 中国石油大学(华东) 一种基于时空图神经网络的井位及井控参数优化方法
CN118088954A (zh) * 2024-04-23 2024-05-28 齐鲁工业大学(山东省科学院) 一种油气管道泄露波识别与监测***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714081B (zh) * 2012-09-29 2018-10-16 北京百度网讯科技有限公司 一种专有地名的识别方法和装置
WO2014203042A1 (en) * 2013-06-21 2014-12-24 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
US10621216B2 (en) * 2017-02-28 2020-04-14 International Business Machines Corporation Generating a ranked list of best fitting place names
CN107729311B (zh) * 2017-08-28 2020-10-16 云南大学 一种融合文本语气的中文文本特征提取方法
CN108399421B (zh) * 2018-01-31 2022-04-01 南京邮电大学 一种基于词嵌入的深度零样本分类方法
CN109145171B (zh) * 2018-07-23 2020-09-08 广州市城市规划勘测设计研究院 一种多尺度地图数据更新方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109783817B (zh) * 2019-01-15 2022-12-06 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN109902646A (zh) * 2019-03-08 2019-06-18 中南大学 一种基于长短时记忆网络的步态识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAO, Pengfei ほか,Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism,[online],ACL,2018年,pp.182-192,[検索日 2021.12.02],インターネット:<URL:https://aclanthology.org/D18-1017>
CHEN, Wenhu ほか,Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention,[online],arXiv,2019年05月30日,[検索日 2021.12.02],インターネット:<URL:https://arxiv.org/abs/1905.12866v1>

Also Published As

Publication number Publication date
WO2021000362A1 (zh) 2021-01-07
US11941522B2 (en) 2024-03-26
JP2021532432A (ja) 2021-11-25
US20210012199A1 (en) 2021-01-14
CN110377686A (zh) 2019-10-25
CN110377686B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
JP7041281B2 (ja) ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法
CN108733792B (zh) 一种实体关系抽取方法
US10664744B2 (en) End-to-end memory networks
US10824949B2 (en) Method and system for extracting information from graphs
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和***
CN111782961B (zh) 一种面向机器阅读理解的答案推荐方法
Bi et al. Unrestricted multi-hop reasoning network for interpretable question answering over knowledge graph
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及***
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115269847A (zh) 基于知识增强句法异构图的方面级情感分类方法
CN114564596A (zh) 一种基于图注意力机制的跨语言知识图谱链接预测方法
CN114676687A (zh) 基于增强语义句法信息的方面级情感分类方法
KR20190109108A (ko) 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN115757804A (zh) 一种基于多层路径感知的知识图谱外推方法及***
CN111444316A (zh) 一种面向知识图谱问答的复合问句解析方法
CN111581365A (zh) 一种谓词抽取方法
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
Wu et al. Relation-dependent contrastive learning with cluster sampling for inductive relation prediction
KR20230093797A (ko) 분류 모델에 기반하여 바꿔 쓰기 모델을 학습하는 방법, 바꿔 쓰기 모델을 이용한 텍스트 데이터의 증강 방법 및 이를 이용한 텍스트 처리 장치
Zhang et al. Aspect-dependent heterogeneous graph convolutional network for aspect-level sentiment analysis
KR20170102737A (ko) 공유된 개념벡터공간의 학습을 통한 자동번역 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220310

R150 Certificate of patent or registration of utility model

Ref document number: 7041281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150