JP2022169743A - 情報抽出方法、装置、電子機器及び記憶媒体 - Google Patents

情報抽出方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022169743A
JP2022169743A JP2022136486A JP2022136486A JP2022169743A JP 2022169743 A JP2022169743 A JP 2022169743A JP 2022136486 A JP2022136486 A JP 2022136486A JP 2022136486 A JP2022136486 A JP 2022136486A JP 2022169743 A JP2022169743 A JP 2022169743A
Authority
JP
Japan
Prior art keywords
text
entity
image
mention
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022136486A
Other languages
English (en)
Other versions
JP7417679B2 (ja
Inventor
ジングル ガン,
Jingru Gan
ハイウェイ ワン,
Haiwei Wang
ジンチャンン ルオ,
Jinchang Luo
クンビン チェン,
Kunbin Chen
ウェイ ヘ,
Wei He
シュフイ ワン,
Shuhui Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022169743A publication Critical patent/JP2022169743A/ja
Application granted granted Critical
Publication of JP7417679B2 publication Critical patent/JP7417679B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】情報抽出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】画像とテキストエンティティを同時にリンクさせることを実現する方法は、テキストと画像が含まれる情報ストリームを取得し、テキストエンティティメンションの埋め込み表現並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像エンティティメンションの埋め込み表現並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。【選択図】図1

Description

本開示は、人工知能技術の分野におけるナレッジグラフ、画像処理、自然言語処理、及び深層学習分野に関し、特に情報抽出方法、装置、電子機器及び記憶媒体に関する。
エンティティリンクはナレッジグラフにおける基礎タスクであり、マルチモーダルが混在する情報ストリームは現在のメディアで非常に一般的であり、異なるモーダル情報を用いてエンティティのリンクをどのように完成するかは新たな課題となっている。
関連技術では、マルチモーダルエンティティリンク方法は主にテキストエンティティリンクを基礎として、マルチモード情報を支援特徴として用いて、画像とテキストエンティティを同時にリンクさせることはできない。
本開示は、情報抽出方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、情報抽出方法を提供し、テキストと画像が含まれる情報ストリームを取得するステップと、前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップと、前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップと、前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップと、を含む。
本開示の別の態様によれば、情報抽出装置を提供し、テキストと画像が含まれる情報ストリームを取得する取得モジュールと、前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する第1の生成モジュールと、前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する第2の生成モジュールと、前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定する決定モジュールと、を備える。
本開示の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示の一態様に記載の情報抽出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の一態様に記載の情報抽出方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の一態様に記載の情報抽出方法のステップを実現する。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る情報抽出方法の概略フローチャートである。 本開示の第2の実施例に係る情報抽出方法の概略フローチャートである。 本開示の第3の実施例に係る情報抽出方法の概略フローチャートである。 本開示の第4の実施例に係る情報抽出方法の概略フローチャートである。 本開示の第5の実施例に係る情報抽出方法の概略フローチャートである。 本開示の第5の実施例に係る情報抽出方法のGWD距離損失関数概略図である。 本開示の第6の実施例に係る情報抽出方法の全体的な概略フローチャートである。 本開示の第1の実施例に係る情報抽出装置のブロック図である。 本開示の第2の実施例に係る情報抽出装置のブロック図である。 本開示の実施例に係る情報抽出方法を実現するための電子機器のブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
人工知能(Artificial Intelligence、AIと省略する)は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である。現在、AI技術は自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。
ナレッジグラフ(Knowledge Graph、KGと省略する)は、図書情報界で知識領域の可視化または知識分野のマッピングマップと呼ばれ、知識の発展プロセスと構造関係を表す一連の様々な異なる図形であり、可視化技術で知識リソースとそのキャリアを記述し、知識とそれらの相互関連を掘り起こし、分析し、構築し、描画し、且つ表す。ナレッジグラフは、応用数学、図形学、情報の可視化技術、情報科学などの学科の理論と方法を、計量学の引用分析、共起分析などの方法と結合させ、可視化のグラフを使用して学科の核心構造、発展歴史、先端領域及び全体的な知識構造をイメージ的に展示して多学科融合の目的に達する現代理論であり、それは学科研究に確実で価値のある参考を提供することができる。
画像処理(Image Processing)は、コンピュータで画像を分析して所望の結果に達す技術である。画像処理はコンピュータ使用して画像情報を加工して人の視覚心理あるいは応用需要を満たす行為であり、広く応用されており、測量学、大気科学、天文学、画像編集、画像の認識を高めるなどに多く使用されている。
自然言語処理(Natural Language Processing、NLP)は、自然言語通信を効率的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野における重要な方向である。
深層学習(Deep Learning、DLと省略する)は、機械学習(Machine Learning、MLと省略する)分野における新しい研究方向であり、サンプルデータの内的法則と表現レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。具体的な研究内容にとっては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク、多層ニューロンベースの自己コーディングニューラルネットワーク、及び多層自己コーディングニューラルネットワーク方式で予めトレーニングし、さらに認証情報と組み合わせてニューラルネットワークの重み値をさらに最適化する深層信頼ネットワークを含む。深層学習は検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦と個性化技術、及びその他の関連分野で多くの成果を収めた。
情報抽出(Information Extraction)タスクとは、非構造化データから構造化情報を自動的に抽出することを指す。そのサブタスクはネーミングエンティティ識別、エンティティリンク、およびダウンストリームの関係抽出およびイベント抽出などを含む。ネーミングエンティティ識別(Named Entity Recognition)アルゴリズムは、自然言語テキストに存在するエンティティネームを抽出でき、当該エンティティネームをメンション(Mention)と呼ぶ。エンティティリンク(Entity Linking)タスクは、テキスト内のエンティティをナレッジベース内の対応するエンティティ(Entity)にリンクし、リンクされたテキストを他のダウンストリームタスクに応用する。
エンティティリンク(EL)タスクとは、非構造化されたテキストからエンティティを指すメンションを見つけ、構造化された知識ベースのエンティティに接続することを指す。エンティティリンクタスクはネーミングエンティティ識別と関係抽出と共に自然言語情報抽出タスクを構成し,長期にわたる研究の重点となっている。また、エンティティリンクは、ナレッジベースに基づく質問回答、コンテンツに基づく分析と推奨、意味エンティティに基づく検索エンジン、ナレッジベースに基づく反復更新などのさまざまなダウンストリームタスクの基礎である。
以下、図面を参照しながら、本開示の実施例に係る情報抽出方法、装置、電子機器及び記憶媒体を説明する。
図1は、本開示の第1の実施例に係る情報抽出方法の概略フローチャートである。
図1に示すように、本開示の実施例に係る情報抽出方法は以下のステップS101~S104を含むことができる。
S101、テキストと画像が含まれる情報ストリームを取得する。
具体的には、本開示の実施例に係る情報抽出方法の実行主体は、本開示の実施例によって提供される情報抽出装置であってもよく、当該情報抽出方法装置は、データ情報処理能力を有するハードウェア装置および/または当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、および他のデバイスを含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
エンティティリンクを行うマルチモーダル情報ストリームを取得し、当該マルチモーダル情報ストリームに少なくともテキストと画像が含まれる。
S102、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する。
具体的には、ステップS101で取得された情報ストリームにおけるテキストに基づいてテキストエンティティメンションmtの埋め込み表現を生成し、テキストエンティティメンションmtと候補テキストエンティティetのテキスト類似度マトリクスを生成する。候補テキストエンティティetはテキストエンティティメンションmtに対応するリンクエンティティである。本開示の実施例では、mはエンティティメンションを表し、eはエンティティを表し、添え字t、vはテキストと画像をそれぞれ表す。
S103、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する。
具体的には、ステップS101で取得された情報ストリームにおける画像に基づいて画像エンティティメンションmvの埋め込み表現を生成し、画像エンティティメンションmvと候補画像エンティティevの画像類似度マトリクスを生成する。候補画像エンティティevは画像エンティティメンションmvに対応するリンクエンティティである。
S104、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。
具体的には、本ステップでは、ステップS102とS103で取得された複数のモーダルエンティティメンション(すなわち、テキストエンティティメンションmtと画像エンティティメンションmv)に対して共通の曖昧性解消を行う。最適輸送の方法を用いて、異なるモーダルエンティティメンションと候補エンティティとの潜在関係を発現する。同じモーダルエンティティメンション間は通常同じテーマに属するため、一定の関連があり、異なるモーダルエンティティメンションは同じエンティティをポインティングする可能性があるため、この連携曖昧性を解消するプロセスは、複数の接続の二部グラフマッチング問題としてモデリングすることができ、すなわち、テキスト特徴(すなわち、テキストエンティティメンションの埋め込み表現)と画像特徴(すなわち、画像エンティティメンションの埋め込み表現)との関連を1つの確率分布から別の確率分布に移動すると見なすため、最適輸送アルゴリズムを用いてこの問題を解決することができる。
最適輸送(optimal transport)は、ワッサースタイン(Wasserstein)距離とも呼び、離散の場合に地球移動距離(Earth Mover’s Distance、EMDと省略する)とも呼ばれ、確率分布間の距離のメトリックである。例えば、最適輸送問題の目標は、N個の倉庫の物品をM個の目的地に輸送する最適分配方式を探すことである。マルチモーダルエンティティリンク問題に適用すると、最適輸送問題の目標は最終的な最適輸送マッピングを探すことではなく、最適輸送代価を用いて統計分散度(divergence)として2つの確率分布密度間の離散度を反映する。
Figure 2022169743000002
でソース分布、すなわちテキスト特徴分布を表す。
Figure 2022169743000003
でターゲット分布、すなわち画像特徴分布を表す。1つのドキュメント内のすべてのテキストメンション特徴を画像メンション特徴に変換するプロセスを表すトランスポート転送マトリクスT、T(Mt)=Mvを定義し、その距離D(μt,μv)はMtからMvに移動することに必要な最も低いトランスポートコストを表す。最も低いトランスポートコストに対応するトランスポート転送マトリクスT、及びS102とS103で取得されたテキスト類似度マトリクスと画像類似度マトリクスに基づいて、テキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティの推定を支援する。
以上、本開示の実施例に係る情報抽出方法は、まず、テキストと画像が含まれる情報ストリームを取得し、さらに、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出方法は、テキストと画像との2種類のモーダルエンティティメンションを同時にモデリングすることにより、テキスト類似度マトリクスと画像類似度マトリクスを生成し、最適輸送アルゴリズムに基づいて2つ種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。
図2は、本開示の第2の実施例に係る情報抽出方法の概略フローチャートである。図2に示すように、上記図1に示す実施例に加えて、本開示の実施例に係る情報抽出方法は、具体的に以下のステップS201~S211を含むことができる。
S201、テキストと画像が含まれる情報ストリームを取得する。
具体的には、本開示の実施例のステップS201は上記実施例のステップS101と同じであり、ここでは説明を省略する。
「テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する」という上記実施例のステップS102は具体的に以下のステップS202~S205を含むことができる。
S202、テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する。
具体的には、ステップS201で取得された情報ストリームにおけるテキストに基づいてテキストにおけるテキストエンティティメンションとテキストエンティティメンションに対応する候補テキストエンティティを決定する。
S203、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する。
具体的には、ステップS202で決定されたテキストエンティティメンションに基づいて、GloVe単語ベクトルとウィキペディアエンティティと、語共起頻度のGanea埋め込み符号化表現に基づいて、テキストエンティティメンションの埋め込み表現を生成する。
S204、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する。
具体的には、本開示の実施例のステップS204は上記ステップS203と同様であり、ここでは説明を省略する。
S205、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る。
具体的には、ステップS203で生成されたテキストエンティティメンションの埋め込み表現とステップS204で生成された候補テキストエンティティの埋め込み表現に基づいて、テキストエンティティメンションと候補テキストエンティティとの類似度を計算し、テキスト類似度マトリクスを得る。
「画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する」という上記実施例のステップS103は、具体的に以下のステップS206~S208を含むことができる。
S206、画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る。
具体的には、ステップS201で取得された情報ストリームにおける画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る。
S207、候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る。
具体的には、画像エンティティメンションに対応する候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る。候補画像エンティティは、すなわち、テキスト内のすべてのテキストエンティティによってリンクした単語における最初のピクチャである。
画像または候補画像エンティティを分割して画像特徴シーケンスとして展開させて画像符号化モデルに入力し、符号化圧縮された画像エンティティメンションの埋め込み表現または補画像エンティティの埋め込み表現を得て、画像または候補画像エンティティは具体的に未処理のRGB画像であってもよく、画像符号化モデルは、具体的に、6層のtransformerモデルにおけるエンコーダモジュールを備えるが、これらに限定されない。transformerモデルにおけるエンコーダモジュールの各層は、自己注意サブレイヤー(self-attention layer)とフィードフォワードニューラルネットワークサブレイヤー(feed forward layer)という2つのサブ層からなる。
自己注意サブレイヤーはマルチヘッド注意機構(multi-head attention)を使用し、モデルは複数のヘッドに分けられ、各ヘッドはサブ空間を形成するため、モデルに異なるレイヤーの情報に注目させることができる。マルチヘッド注意機構の計算方式は以下通りである:まず同じ入力情報から異なる重みWQ,WK,WVマッピングによってクエリーベクトルQ(Query)、注目ベクトルK(Key)と値ベクトルV(Value)を得る。ドット積QKTによって相関を計算し、softmax関数によって注意力分布マトリクスAttention(Q,K,V)を計算する。
Figure 2022169743000004
フィードフォワードニューラルネットワークサブレイヤーは、全接続層と非線形活性化関数Relu関数から構成され、パラメータがいずれもトレーニングして得られる必要がある。
Figure 2022169743000005
本開示の実施例では、入力された画像または候補画像エンティティは、まず64ブロックに均等に分割され、シーケンスとして展開し、各ブロックの埋め込みベクトルと位置符号化ベクトルが加算された後、エンコーダの入力として使用する。エンコーダの各レイヤーでは、入力されたデータは、まず、グローバル特徴に注目するためにマルチヘッド自己注意サブレイヤーを通過し、さらにフィードフォワードニューラルネットワークサブレイヤーを通過し、最後に平均プーリング操作によって64ブロックの画像の特徴シーケンスマッピングを最終的な埋め込み表現に圧縮し、以下の式を満たす。
Figure 2022169743000006
xは入力シーケンスを表し、Ovはマルチヘッド自己注意サブレイヤーの出力を表し、[z_i]^vはフィードフォワードニューラルネットワークサブレイヤーの出力を表し、ev,mvはそれぞれ正規化された候補画像エンティティと画像エンティティメンションのモデル出力である。
なお、本開示の実施例では、Transformerエンコーダは、ペア損失を減らしてトレーニングすることにより、画像エンティティメンションと候補画像エンティティのtriplet損失を定義し、以下の式を満たす。
Figure 2022169743000007
画像エンティティメンションに対して、mv,evは正しいリンクエンティティであり、
Figure 2022169743000008
は負のサンプルエンティティである。
S208、画像エンティティメンションの埋め込み表現と候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る。
具体的には、ステップS206で得られた画像エンティティメンションの埋め込み表現とステップS207で得られた候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る。
「テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する」という上記実施例のステップS104は、具体的に以下のステップS209~S211を含むことができる。
S209、テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。
具体的には、ステップS104の関連説明を参照すると、最も低いトランスポートコストに対応するトランスポート転送マトリクスTに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。
S210、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する。
具体的には、ステップS209で決定された輸送コストがトランスポートコストの最も低いテキストエンティティ指標のコストを重み付けして、ステップS208の画像類似度マトリクスに加算し、各テキストエンティティメンションに対して点数の最も高い候補テキストエンティティをターゲットテキストエンティティとして選択する。
S211、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する。
具体的には、本開示の実施例のステップS211は上記ステップS210と同様であり、ここでは説明を省略する。
さらに、図3に示すように、上記図2に示す実施例に加えて、「テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する」というステップS202は、具体的に以下のステップS301~S304を含むことができる。
S301、テキストに基づいてテキストエンティティメンションを決定する。
S302、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個のテキストエンティティを初歩的な候補テキストエンティティとして決定する。
具体的には、各テキストエンティティメンションに対して、ステップS301で決定されたテキストエンティティ指標とリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個の(例えば30個)テキストエンティティを初歩的な候補テキストエンティティとして決定する。ここで、リダイレクトリンク数の統計は、ウィキペディアリダイレクトリンク数の統計を利用しでもよく、ウィキペディアリダイレクトリンク数の統計は、すべてのWebページのテキストエンティティメンションがテキストエンティティにリダイレクトされた数の統計である。
S303、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いm個のテキストエンティティを候補テキストエンティティとして決定する。
具体的には、ステップS302で決定されたn個の(例えば30個)初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いm個の(例えば、4個)テキストエンティティを候補テキストエンティティとして決定する。
S304、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いp個のテキストエンティティを候補テキストエンティティとして決定する。
具体的には、ステップS301で決定されたテキストエンティティメンションとステップS302で決定されたn個の(例えば30個)初歩的な候補テキストエンティティを、GloVe(Global Vectors for Word Representation)単語ベクトルモデルによってベクトル形式として表し、さらにベクトル間のドット積計算によって類似度を得て、類似度の最も高いp個の(例えば3個)のテキストエンティティを候補テキストエンティティとして決定する。
本開示の実施例では、ステップS303で決定されたm個の候補テキストエンティティと、S304で決定されたp個の候補テキストエンティティとが、最終的な候補テキストエンティティ集合を構成し、すなわち、テキストエンティティメンションは、m+p個の(例えば、7個)候補テキストエンティティに対応する。
さらに、図4に示すように、上記図2に示す実施例に加えて、「テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る」というステップS205は、具体的に以下のステップS401を含むことができる。
S401、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得て、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る。
具体的には、テキストエンティティメンションの埋め込み表現がmtであり、候補テキストエンティティの埋め込み表現がetであると仮定すると、その後、任意の2つのテキストエンティティメンション(mti,mtj)間に重みの異なるK種類の潜在関係が存在すると仮定すると、各種類の関係は1つの潜在関係ベクトルαijkで表し、さらにテキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルにおける単層ニューラルネットワークf(mt,et)を通過させ、その後、潜在関係ベクトルαijkにかけてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し(すなわち、すべてのテキストエンティティメンション-候補テキストエンティティペアの同じ種類の潜在関係の関連スコアの和を1にスケーリングする)、テキスト類似度マトリクスを得る。本開示の実施例では、テキストモーダルソート損失Ltrankingを更新することによってトレーニングする。モデルテストでは、K種類の潜在関係の関連スコアを加算してこのペアのテキストエンティティメンション-候補テキストエンティティのグローバル点数を計算して得て、点数の最も高い候補テキストエンティティを最終的なリンク結果として使用する。
さらに、図5に示すように、上記図2に示す実施例に加えて、「テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する」というステップS209は具体的に以下のステップS501~S504を含むことができる。
S501、任意の2つのテキストエンティティメンションの埋め込み表現に基づいて任意の2つのテキストエンティティメンション間のテキスト統計分散度を計算する。
具体的には、i,i´が任意の2つのテキストエンティティメンションを表すと仮定すると、任意の2つのテキストエンティティメンションの埋め込み表現はmti,mti´であり、計算して任意の2つのテキストエンティティメンション間のテキスト統計分散度c1(xi,xi´)を得る。テキスト統計分散度は、具体的にグロモフ-ワッサースタイン距離(Gromov-Wasserstein Distance、GWD)である。
S502、任意の2つの画像エンティティメンションの埋め込み表現に基づいて任意の2つの画像エンティティメンション間の画像統計分散度を計算する。
具体的には、j、j´が任意の2つの画像エンティティメンションを表すと仮定すると、任意の2つの画像エンティティメンションの埋め込み表現はmvi,mvi´であり、計算して任意の2つの画像エンティティメンション間の画像統計分散度c2(yi,yi´)を得る。画像統計分散度は具体的にグロモフ-ワッサースタイン距離であってもよい。
S503、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する。
具体的には、ステップS501で計算されたテキスト統計分散度とステップS502で計算された画像統計分散度に基づいて、1つのトランスポート転送マトリクスT、T(Mt)=Mvを定義することによって1つのファイルにおけるすべてのテキストメンション特徴を画像メンション特徴に変換するプロセスを表し、その距離D(μt,μv)はMtからMvに移動することに必要な最も低いトランスポートコストを表し、以下の式を満たす。
Figure 2022169743000009
x,yは埋め込み表現を表し、計算では、mti,mti´をc1(xi,xi´)に代入し、計算して2つのテキストエンティティメンション間のWasserstein Distanceを得る。同様にmvj,mvj´をyj,yj´に代入し、計算して2つの画像エンティティメンション間のWasserstein Distanceを得る。
μtはテキスト特徴分布を表し、μvは画像特徴分布を表す。Sinkhornアルゴリズムによってエントロピー正則化のグロモフ-ワッサースタイン距離を計算し、エントロピー正則化(entropic regularization)によって問題を1つの強凸である近似問題に変え、Sinkhornアルゴリズムを用いて解く、以下の式を満たす。
Figure 2022169743000010
Figure 2022169743000011
ハイパーパラメータβはエントロピーの重みを制御する。
S504、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。
具体的には、トランスポートコストの最も低い場合のトランスポート転送マトリクスTに対応するテキストエンティティメンションをトランスポートコストの最も低いテキストエンティティメンションとして決定し、トランスポートコストの最も低い場合のトランスポート転送マトリクスTに対応する画像エンティティメンションをトランスポートコストの最も低い画像エンティティメンションとして決定する。
なお、本開示の実施例では、GWD距離損失関数を算出することによって1ペアのテキストエンティティメンションのGWD距離と、1ペアの画像エンティティメンションのGWD距離とのコサイン類似度を計算し、同じエンティティをポインティングする1ペアのテキストエンティティメンションの距離と、1ペアの画像エンティティメンション距離とが類似するようにし、例えば図6に示すGWD距離損失関数示意図、エンティティ「Bruce Wayne」をポインティングする2つのテキストエンティティメンション(「Batman」,「Bruce Wayne」)間の距離と2枚のバットマン画像間の距離とは類似するべきである。
本開示の実施例では、共通の損失関数を定義することによってトレーニングプロセスを制約し、共通の損失関数は、ステップS504で算出されたGWD距離損失関数、テキストモーダルソート損失及び画像モーダルtriplet損失から以下の式で算出して得る。
Figure 2022169743000012
以上、本開示の実施例に係る情報抽出方法は、まず、テキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出方法は、テキストと画像との2種類のモーダルエンティティメンションを同時にモデリングすることにより、ウィキペディアリダイレクトリンク数の統計に基づいて候補テキストエンティティを取得し、GloVe単語ベクトルとウィキペディアエンティティと、語共起頻度のGanea埋め込み符号化表現に基づいて候補テキストエンティティとテキストエンティティメンションの埋め込み表現を生成し、ピクチャをTransformerモデルに入力して候補ピクチャエンティティと画像エンティティメンションの埋め込み表現を生成し、最適輸送アルゴリズムに基づいて2種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。
図7は、本開示の第5の態様の実施例に係る情報抽出方法の全体フローチャートである。図7に示すように、本開示の実施例に係る情報抽出方法は具体的に以下のステップS701~S717を含む。
S701、テキストと画像が含まれる情報ストリームを取得する。
S702、テキストに基づいてテキストエンティティメンションを決定する。
S703、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個のテキストエンティティを初歩的な候補テキストエンティティとして決定する。
S704、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いm個のテキストエンティティを候補テキストエンティティとして決定する。ステップS707を引続き実行する。
S705、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いp個のテキストエンティティを候補テキストエンティティとして決定する。ステップS707を引続き実行する。
S706、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する。
S707、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する。
S708、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得て、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る。引き続きステップS717を実行する。
S709、前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得る。
S710、前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得る。
S711、前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得る。引き続きステップS716を実行する。
S712、任意の2つのテキストエンティティメンションの埋め込み表現に基づいて任意の2つのテキストエンティティメンション間のテキスト統計分散度を計算する。引き続きステップS714を実行する。
S713、任意の2つの画像エンティティメンションの埋め込み表現に基づいて任意の2つの画像エンティティメンション間の画像統計分散度を計算する。
S714、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する。
S715、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。
S716、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する。
S717、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する。
図8は、本開示の第1の実施例に係る情報抽出装置のブロック図である。
図8に示すように、本開示の実施例に係る情報抽出装置800は、取得モジュール801、第1の生成モジュール802、第2の生成モジュール803及び決定モジュール804を備える。
取得モジュール801は、テキストと画像が含まれる情報ストリームを取得する。
第1の生成モジュール802は、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する。
第2の生成モジュール803は、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する。
決定モジュール804は、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。
なお、上記の情報抽出方法の実施例についての説明は、本実施例の情報抽出装置にも適用され、ここでは説明を省略する。
以上、本開示の実施例に係る情報抽出装置は、まずテキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出装置は、テキストと画像との2種類のモーダルエンティティメンションを同時にモデリングすることにより、テキスト類似度マトリクスと画像類似度マトリクスを生成し、最適輸送アルゴリズムに基づいて2つ種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。
図9は、本開示の第2の実施例に係る情報抽出装置のブロック図である。
図9に示すように、本開示の実施例に係る情報抽出装置900は、取得モジュール901、第1の生成モジュール902、第2の生成モジュール903及び決定モジュール904を備える。
取得モジュール901は前実施例の取得モジュール801と同じ構造と機能を有し、第1の生成モジュール902は前実施例の第1の生成モジュール802と同じ構造と機能を有し、第2の生成モジュール903は前実施例の第2の生成モジュール803と同じ構造と機能を有し、決定モジュール904は前実施例の決定モジュール804と同じ構造と機能を有す。
さらに、第1の生成モジュール902は、具体的に、テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する第1の決定ユニット9021と、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する第1の生成ユニット9022と、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する第2の生成ユニット9023と、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る第1の計算ユニット9024とを備えることができる。
さらに、第1の決定ユニット9021は、テキストに基づいてテキストエンティティメンションを決定する第1の決定サブユニット90211と、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個のテキストエンティティを初歩的な候補テキストエンティティとして決定する第2の決定サブユニット90212と、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いm個のテキストエンティティを候補テキストエンティティとして決定する第3の決定サブユニット90213と、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いp個のテキストエンティティを候補テキストエンティティとして決定する第4の決定サブユニット90214と、を具体的に備えることができる。
さらに、第1の計算ユニット9024は、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得る入力サブユニット90241であって、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る入力サブユニット90241を具体的に備えることができる。
さらに、第2の生成モジュール903は、画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る第1の入力ユニット9031と、候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る第2の入力ユニット9032と、画像エンティティメンションの埋め込み表現と候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る第2の計算ユニット9033とを具体的に備えることができる。
さらに、画像符号化モデルはtransformerモデルにおけるエンコーダモジュールである。
さらに、決定モジュール904は、テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する第2の決定ユニット9041と、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する第3の決定ユニット9042と、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する第4の決定ユニット9043と、を具体的に備えることができる。
さらに、第2の決定ユニット9041は、任意の2つのテキストエンティティメンションの埋め込み表現に基づいて任意の2つのテキストエンティティメンション間のテキスト統計分散度を計算する第1の計算サブユニット90411と、任意の2つの画像エンティティメンションの埋め込み表現に基づいて任意の2つの画像エンティティメンション間の画像統計分散度を計算する第2の計算サブユニット90412と、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する第5の決定サブユニット90413と、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する第6の決定サブユニット90414と、を具体的に備えることができる。
さらに、テキスト統計分散度および/または画像統計分散度はグロモフ-ワッサースタイン距離である。
なお、上記の情報抽出方法の実施例についての説明は、本実施例の情報抽出装置にも適用され、ここでは説明を省略する。
以上、本開示の実施例に係る情報抽出装置は、まずテキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出装置は、テキストと画像との2種類のモーダルエンティティメンションを同時にモデリングすることにより、ウィキペディアリダイレクトリンク数の統計に基づいて候補テキストエンティティを取得し、GloVe単語ベクトルとウィキペディアエンティティと、語共起頻度のGanea埋め込み符号化表現に基づいて候補テキストエンティティとテキストエンティティメンションの埋め込み表現を生成し、ピクチャをTransformerモデルに入力して候補ピクチャエンティティと画像エンティティメンションの埋め込み表現を生成し、最適輸送アルゴリズムに基づいて2種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図10は、本開示の実施例を実行するための例示的な電子機器1000の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
図10に示すように、電子機器1000は、読み取り専用メモリ(ROM)1002に記憶されているコンピュータプログラムまたは記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット1001を備える。RAM 1003には、電子機器1000の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット1001、ROM1002、及びRAM1003は、バス1004を介して互いに接続されている。バス1004には、入力/出力(I/O)インターフェース1005も接続されている。
電子機器1000の複数のコンポーネントはI/Oインターフェース1005に接続され、キーボード、マウスなどの入力ユニット1006、各タイプのディスプレイ、スピーカなどの出力ユニット1007、磁気ディスク、光ディスクなどの記憶ユニット1008、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009を備える。通信ユニット1009は、電子機器1000が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット1001は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィック処理装置(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、前文に記載の各方法および処理、例えば、図1~図7に示す情報抽出方法を実行する。例えば、いくつかの実施例では、情報抽出方法を、記憶ユニット1008などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 1002および/または通信ユニット1009を介して電子機器1000にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 1003にロードされ、計算ユニット1001によって実行される場合、前文に記載の情報抽出方法の1つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット1001は情報抽出方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および/または解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示される情報抽出方法のステップを実現する。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (21)

  1. テキストと画像が含まれる情報ストリームを取得するステップと、
    前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップと、
    前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップと、
    前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップと、
    を含む情報抽出方法。
  2. 前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップが、
    前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定するステップと、
    前記テキストエンティティメンションに基づいて前記テキストエンティティメンションの埋め込み表現を生成するステップと、
    前記候補テキストエンティティに基づいて前記候補テキストエンティティの埋め込み表現を生成するステップと、
    前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得るステップと、
    を含む請求項1に記載の情報抽出方法。
  3. 前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定するステップが、
    前記テキストに基づいて前記テキストエンティティメンションを決定するステップと、
    前記テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個のテキストエンティティを初歩的な候補テキストエンティティとして決定するステップと、
    前記初歩的な候補テキストエンティティのうちリダイレクトリンク数の最も多いm個のテキストエンティティを前記候補テキストエンティティとして決定するステップと、
    前記テキストエンティティメンションと前記初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いp個のテキストエンティティを前記候補テキストエンティティとして決定するステップと、
    を含む請求項2に記載の情報抽出方法。
  4. 前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得るステップが、
    前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、前記テキスト類似度マトリクスを得るステップであって、前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現が、前記テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されて前記テキストエンティティメンションと前記候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の前記関連スコアを正規化し、前記テキスト類似度マトリクスを得るステップを含む請求項2に記載の情報抽出方法。
  5. 前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップが、
    前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得るステップと、
    前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得るステップと、
    前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得るステップと、
    を含む請求項1に記載の情報抽出方法。
  6. 前記画像符号化モデルが、transformerモデルにおけるエンコーダモジュールである請求項5に記載の情報抽出方法。
  7. 前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップが、
    前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定するステップと、
    前記トランスポートコストの最も低い前記テキストエンティティメンションと前記画像類似度マトリクスに基づいて前記ターゲットテキストエンティティを決定するステップと、
    前記トランスポートコストの最も低い前記画像エンティティメンションと前記テキスト類似度マトリクスに基づいて前記ターゲット画像エンティティを決定するステップと、
    を含む請求項1に記載の情報抽出方法。
  8. 前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定するステップが、
    任意の2つの前記テキストエンティティメンションの埋め込み表現に基づいて任意の2つの前記テキストエンティティメンション間のテキスト統計分散度を計算するステップと、
    任意の2つの前記画像エンティティメンションの埋め込み表現に基づいて任意の2つの前記画像エンティティメンション間の画像統計分散度を計算するステップと、
    前記テキスト統計分散度と前記画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定するステップと、
    前記トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいて前記トランスポートコストの最も低い前記テキストエンティティメンションと前記トランスポートコストの最も低い前記画像エンティティメンションを決定するステップと、
    を含む請求項7に記載の情報抽出方法。
  9. 前記テキスト統計分散度および/または前記画像統計分散度が、グロモフ-ワッサースタイン距離である請求項8に記載の情報抽出方法。
  10. テキストと画像が含まれる情報ストリームを取得する取得モジュールと、
    前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する第1の生成モジュールと、
    前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する第2の生成モジュールと、
    前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定する決定モジュールと、
    を備える情報抽出装置。
  11. 前記第1の生成モジュールが、
    前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定する第1の決定ユニットと、
    前記テキストエンティティメンションに基づいて前記テキストエンティティメンションの埋め込み表現を生成する第1の生成ユニットと、
    前記候補テキストエンティティに基づいて前記候補テキストエンティティの埋め込み表現を生成する第2の生成ユニットと、
    前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得る第1の計算ユニットと、
    を備える請求項10に記載の情報抽出装置。
  12. 前記第1の決定ユニットが、
    前記テキストに基づいて前記テキストエンティティメンションを決定する第1の決定サブユニットと、
    前記テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いn個のテキストエンティティを初歩的な候補テキストエンティティとして決定する第2の決定サブユニットと、
    前記初歩的な候補テキストエンティティのうちリダイレクトリンク数の最も多いm個のテキストエンティティを前記候補テキストエンティティとして決定する第3の決定サブユニットと、
    前記テキストエンティティメンションと前記初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いp個のテキストエンティティを前記候補テキストエンティティとして決定する第4の決定サブユニットと、
    を備える請求項11に記載の情報抽出装置。
  13. 前記第1の計算ユニットが、
    前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、前記テキスト類似度マトリクスを得る入力サブユニットであって、前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現が、前記テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されて前記テキストエンティティメンションと前記候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の前記関連スコアを正規化し、前記テキスト類似度マトリクスを得る入力サブユニットを備える請求項11に記載の情報抽出装置。
  14. 前記第2の生成モジュールが、
    前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得る第1の入力ユニットと、
    前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得る第2の入力ユニットと、
    前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得る第2の計算ユニットと、
    を含む請求項10に記載の情報抽出装置。
  15. 前記画像符号化モデルが、transformerモデルにおけるエンコーダモジュールである請求項14に記載の情報抽出装置。
  16. 前記決定モジュールが、
    前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定する第2の決定ユニットと、
    前記トランスポートコストの最も低い前記テキストエンティティメンションと前記画像類似度マトリクスに基づいて前記ターゲットテキストエンティティを決定する第3の決定ユニットと、
    前記トランスポートコストの最も低い前記画像エンティティメンションと前記テキスト類似度マトリクスに基づいて前記ターゲット画像エンティティを決定する第4の決定ユニットと、
    を備える請求項10に記載の情報抽出装置。
  17. 前記第2の決定ユニットが、
    任意の2つの前記テキストエンティティメンションの埋め込み表現に基づいて任意の2つの前記テキストエンティティメンション間のテキスト統計分散度を計算する第1の計算サブユニットと、
    任意の2つの前記画像エンティティメンションの埋め込み表現に基づいて任意の2つの前記画像エンティティメンション間の画像統計分散度を計算する第2の計算サブユニットと、
    前記テキスト統計分散度と前記画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する第5の決定サブユニットと、
    前記トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいて前記トランスポートコストの最も低い前記テキストエンティティメンションと前記トランスポートコストの最も低い前記画像エンティティメンションを決定する第6の決定サブユニットと、
    を備える請求項16に記載の情報抽出装置。
  18. 前記テキスト統計分散度および/または前記画像統計分散度が、グロモフ-ワッサースタイン距離である請求項17に記載の情報抽出装置。
  19. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から9のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  20. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から9のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  21. プロセッサによって実行される場合、請求項1から9のいずれか一項に記載の方法のステップを実現するコンピュータプログラム。
JP2022136486A 2021-08-30 2022-08-30 情報抽出方法、装置、電子機器及び記憶媒体 Active JP7417679B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111006586.9 2021-08-30
CN202111006586.9A CN113806552B (zh) 2021-08-30 2021-08-30 信息提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022169743A true JP2022169743A (ja) 2022-11-09
JP7417679B2 JP7417679B2 (ja) 2024-01-18

Family

ID=78894381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022136486A Active JP7417679B2 (ja) 2021-08-30 2022-08-30 情報抽出方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20220406034A1 (ja)
EP (1) EP4131024A1 (ja)
JP (1) JP7417679B2 (ja)
KR (1) KR20220124120A (ja)
CN (1) CN113806552B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878760B (zh) * 2023-02-10 2023-05-23 北京知呱呱科技服务有限公司 一种基于图匹配的跨语种专利检索方法及***
CN116167434B (zh) * 2023-04-24 2023-07-04 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置
CN117094394B (zh) * 2023-10-16 2024-01-30 之江实验室 基于论文pdf的天文多模态知识图谱构建方法和***
CN117435714B (zh) * 2023-12-20 2024-03-08 湖南紫薇垣信息***有限公司 一种基于知识图谱的数据库和中间件问题智能诊断***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US20130218858A1 (en) * 2012-02-16 2013-08-22 Dmitri Perelman Automatic face annotation of images contained in media content
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6727097B2 (ja) * 2016-10-24 2020-07-22 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US11727243B2 (en) * 2019-01-30 2023-08-15 Baidu Usa Llc Knowledge-graph-embedding-based question answering
CN110928961B (zh) * 2019-11-14 2023-04-28 出门问问(苏州)信息科技有限公司 一种多模态实体链接方法、设备及计算机可读存储介质
CN112200317B (zh) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112560466B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US20130218858A1 (en) * 2012-02-16 2013-08-22 Dmitri Perelman Automatic face annotation of images contained in media content
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words

Also Published As

Publication number Publication date
US20220406034A1 (en) 2022-12-22
KR20220124120A (ko) 2022-09-13
CN113806552A (zh) 2021-12-17
CN113806552B (zh) 2022-06-14
JP7417679B2 (ja) 2024-01-18
EP4131024A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
EP3819809A1 (en) A dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US11741109B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
JP7417679B2 (ja) 情報抽出方法、装置、電子機器及び記憶媒体
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
WO2019154411A1 (zh) 词向量更新方法和装置
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN111737406A (zh) 文本检索方法、装置及设备、文本检索模型的训练方法
CN112307738B (zh) 用于处理文本的方法和装置
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN117290478A (zh) 一种知识图谱问答方法、装置、设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114780809A (zh) 基于强化学习的知识推送方法、装置、设备及存储介质
CN114065769A (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN112560466A (zh) 链接实体关联方法、装置、电子设备和存储介质
CN118113815B (zh) 内容搜索方法、相关装置和介质
CN113761157B (zh) 应答语句生成方法和装置
CN117112773B (zh) 一种基于nlp的适航非结构化数据的搜索方法及装置
CN114385814A (zh) 一种信息检索的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7417679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150