JP2022169743A

JP2022169743A - 情報抽出方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022169743A
Application number: JP2022136486A
Authority: JP
Inventors: ジングルガン，; Jingru Gan; ハイウェイワン，; Haiwei Wang; ジンチャンンルオ，; Jinchang Luo; クンビンチェン，; Kunbin Chen; ウェイヘ，; Wei He; シュフイワン，; Shuhui Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2022-08-30
Publication date: 2022-11-09
Anticipated expiration: 2042-08-30
Also published as: US20220406034A1; KR20220124120A; CN113806552A; CN113806552B; JP7417679B2; EP4131024A1

Abstract

【課題】情報抽出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】画像とテキストエンティティを同時にリンクさせることを実現する方法は、テキストと画像が含まれる情報ストリームを取得し、テキストエンティティメンションの埋め込み表現並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像エンティティメンションの埋め込み表現並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。【選択図】図１

Description

本開示は、人工知能技術の分野におけるナレッジグラフ、画像処理、自然言語処理、及び深層学習分野に関し、特に情報抽出方法、装置、電子機器及び記憶媒体に関する。

エンティティリンクはナレッジグラフにおける基礎タスクであり、マルチモーダルが混在する情報ストリームは現在のメディアで非常に一般的であり、異なるモーダル情報を用いてエンティティのリンクをどのように完成するかは新たな課題となっている。

関連技術では、マルチモーダルエンティティリンク方法は主にテキストエンティティリンクを基礎として、マルチモード情報を支援特徴として用いて、画像とテキストエンティティを同時にリンクさせることはできない。

本開示は、情報抽出方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、情報抽出方法を提供し、テキストと画像が含まれる情報ストリームを取得するステップと、前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップと、前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップと、前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップと、を含む。

本開示の別の態様によれば、情報抽出装置を提供し、テキストと画像が含まれる情報ストリームを取得する取得モジュールと、前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する第１の生成モジュールと、前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する第２の生成モジュールと、前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定する決定モジュールと、を備える。

本開示の別の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが本開示の一態様に記載の情報抽出方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の一態様に記載の情報抽出方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の一態様に記載の情報抽出方法のステップを実現する。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係る情報抽出方法の概略フローチャートである。本開示の第２の実施例に係る情報抽出方法の概略フローチャートである。本開示の第３の実施例に係る情報抽出方法の概略フローチャートである。本開示の第４の実施例に係る情報抽出方法の概略フローチャートである。本開示の第５の実施例に係る情報抽出方法の概略フローチャートである。本開示の第５の実施例に係る情報抽出方法のＧＷＤ距離損失関数概略図である。本開示の第６の実施例に係る情報抽出方法の全体的な概略フローチャートである。本開示の第１の実施例に係る情報抽出装置のブロック図である。本開示の第２の実施例に係る情報抽出装置のブロック図である。本開示の実施例に係る情報抽出方法を実現するための電子機器のブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと省略する）は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である。現在、ＡＩ技術は自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。

ナレッジグラフ（ＫｎｏｗｌｅｄｇｅＧｒａｐｈ、ＫＧと省略する）は、図書情報界で知識領域の可視化または知識分野のマッピングマップと呼ばれ、知識の発展プロセスと構造関係を表す一連の様々な異なる図形であり、可視化技術で知識リソースとそのキャリアを記述し、知識とそれらの相互関連を掘り起こし、分析し、構築し、描画し、且つ表す。ナレッジグラフは、応用数学、図形学、情報の可視化技術、情報科学などの学科の理論と方法を、計量学の引用分析、共起分析などの方法と結合させ、可視化のグラフを使用して学科の核心構造、発展歴史、先端領域及び全体的な知識構造をイメージ的に展示して多学科融合の目的に達する現代理論であり、それは学科研究に確実で価値のある参考を提供することができる。

画像処理（ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ）は、コンピュータで画像を分析して所望の結果に達す技術である。画像処理はコンピュータ使用して画像情報を加工して人の視覚心理あるいは応用需要を満たす行為であり、広く応用されており、測量学、大気科学、天文学、画像編集、画像の認識を高めるなどに多く使用されている。

自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）は、自然言語通信を効率的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野における重要な方向である。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬと省略する）は、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬと省略する）分野における新しい研究方向であり、サンプルデータの内的法則と表現レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。具体的な研究内容にとっては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク、多層ニューロンベースの自己コーディングニューラルネットワーク、及び多層自己コーディングニューラルネットワーク方式で予めトレーニングし、さらに認証情報と組み合わせてニューラルネットワークの重み値をさらに最適化する深層信頼ネットワークを含む。深層学習は検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦と個性化技術、及びその他の関連分野で多くの成果を収めた。

情報抽出（ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ）タスクとは、非構造化データから構造化情報を自動的に抽出することを指す。そのサブタスクはネーミングエンティティ識別、エンティティリンク、およびダウンストリームの関係抽出およびイベント抽出などを含む。ネーミングエンティティ識別（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）アルゴリズムは、自然言語テキストに存在するエンティティネームを抽出でき、当該エンティティネームをメンション（Ｍｅｎｔｉｏｎ）と呼ぶ。エンティティリンク（ＥｎｔｉｔｙＬｉｎｋｉｎｇ）タスクは、テキスト内のエンティティをナレッジベース内の対応するエンティティ（Ｅｎｔｉｔｙ）にリンクし、リンクされたテキストを他のダウンストリームタスクに応用する。

エンティティリンク（ＥＬ）タスクとは、非構造化されたテキストからエンティティを指すメンションを見つけ、構造化された知識ベースのエンティティに接続することを指す。エンティティリンクタスクはネーミングエンティティ識別と関係抽出と共に自然言語情報抽出タスクを構成し，長期にわたる研究の重点となっている。また、エンティティリンクは、ナレッジベースに基づく質問回答、コンテンツに基づく分析と推奨、意味エンティティに基づく検索エンジン、ナレッジベースに基づく反復更新などのさまざまなダウンストリームタスクの基礎である。

以下、図面を参照しながら、本開示の実施例に係る情報抽出方法、装置、電子機器及び記憶媒体を説明する。

図１は、本開示の第１の実施例に係る情報抽出方法の概略フローチャートである。

図１に示すように、本開示の実施例に係る情報抽出方法は以下のステップＳ１０１～Ｓ１０４を含むことができる。

Ｓ１０１、テキストと画像が含まれる情報ストリームを取得する。

具体的には、本開示の実施例に係る情報抽出方法の実行主体は、本開示の実施例によって提供される情報抽出装置であってもよく、当該情報抽出方法装置は、データ情報処理能力を有するハードウェア装置および／または当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、および他のデバイスを含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。

エンティティリンクを行うマルチモーダル情報ストリームを取得し、当該マルチモーダル情報ストリームに少なくともテキストと画像が含まれる。

Ｓ１０２、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する。

具体的には、ステップＳ１０１で取得された情報ストリームにおけるテキストに基づいてテキストエンティティメンションｍｔの埋め込み表現を生成し、テキストエンティティメンションｍｔと候補テキストエンティティｅｔのテキスト類似度マトリクスを生成する。候補テキストエンティティｅｔはテキストエンティティメンションｍｔに対応するリンクエンティティである。本開示の実施例では、ｍはエンティティメンションを表し、ｅはエンティティを表し、添え字ｔ、ｖはテキストと画像をそれぞれ表す。

Ｓ１０３、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する。

具体的には、ステップＳ１０１で取得された情報ストリームにおける画像に基づいて画像エンティティメンションｍｖの埋め込み表現を生成し、画像エンティティメンションｍｖと候補画像エンティティｅｖの画像類似度マトリクスを生成する。候補画像エンティティｅｖは画像エンティティメンションｍｖに対応するリンクエンティティである。

Ｓ１０４、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。

具体的には、本ステップでは、ステップＳ１０２とＳ１０３で取得された複数のモーダルエンティティメンション（すなわち、テキストエンティティメンションｍｔと画像エンティティメンションｍｖ）に対して共通の曖昧性解消を行う。最適輸送の方法を用いて、異なるモーダルエンティティメンションと候補エンティティとの潜在関係を発現する。同じモーダルエンティティメンション間は通常同じテーマに属するため、一定の関連があり、異なるモーダルエンティティメンションは同じエンティティをポインティングする可能性があるため、この連携曖昧性を解消するプロセスは、複数の接続の二部グラフマッチング問題としてモデリングすることができ、すなわち、テキスト特徴（すなわち、テキストエンティティメンションの埋め込み表現）と画像特徴（すなわち、画像エンティティメンションの埋め込み表現）との関連を１つの確率分布から別の確率分布に移動すると見なすため、最適輸送アルゴリズムを用いてこの問題を解決することができる。

最適輸送（ｏｐｔｉｍａｌｔｒａｎｓｐｏｒｔ）は、ワッサースタイン（Ｗａｓｓｅｒｓｔｅｉｎ）距離とも呼び、離散の場合に地球移動距離（ＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ、ＥＭＤと省略する）とも呼ばれ、確率分布間の距離のメトリックである。例えば、最適輸送問題の目標は、Ｎ個の倉庫の物品をＭ個の目的地に輸送する最適分配方式を探すことである。マルチモーダルエンティティリンク問題に適用すると、最適輸送問題の目標は最終的な最適輸送マッピングを探すことではなく、最適輸送代価を用いて統計分散度（ｄｉｖｅｒｇｅｎｃｅ）として２つの確率分布密度間の離散度を反映する。

でソース分布、すなわちテキスト特徴分布を表す。

でターゲット分布、すなわち画像特徴分布を表す。１つのドキュメント内のすべてのテキストメンション特徴を画像メンション特徴に変換するプロセスを表すトランスポート転送マトリクスＴ、Ｔ（Ｍｔ）＝Ｍｖを定義し、その距離Ｄ（μｔ，μｖ）はＭｔからＭｖに移動することに必要な最も低いトランスポートコストを表す。最も低いトランスポートコストに対応するトランスポート転送マトリクスＴ、及びＳ１０２とＳ１０３で取得されたテキスト類似度マトリクスと画像類似度マトリクスに基づいて、テキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティの推定を支援する。

以上、本開示の実施例に係る情報抽出方法は、まず、テキストと画像が含まれる情報ストリームを取得し、さらに、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出方法は、テキストと画像との２種類のモーダルエンティティメンションを同時にモデリングすることにより、テキスト類似度マトリクスと画像類似度マトリクスを生成し、最適輸送アルゴリズムに基づいて２つ種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。

図２は、本開示の第２の実施例に係る情報抽出方法の概略フローチャートである。図２に示すように、上記図１に示す実施例に加えて、本開示の実施例に係る情報抽出方法は、具体的に以下のステップＳ２０１～Ｓ２１１を含むことができる。

Ｓ２０１、テキストと画像が含まれる情報ストリームを取得する。

具体的には、本開示の実施例のステップＳ２０１は上記実施例のステップＳ１０１と同じであり、ここでは説明を省略する。

「テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する」という上記実施例のステップＳ１０２は具体的に以下のステップＳ２０２～Ｓ２０５を含むことができる。

Ｓ２０２、テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する。

具体的には、ステップＳ２０１で取得された情報ストリームにおけるテキストに基づいてテキストにおけるテキストエンティティメンションとテキストエンティティメンションに対応する候補テキストエンティティを決定する。

Ｓ２０３、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する。

具体的には、ステップＳ２０２で決定されたテキストエンティティメンションに基づいて、ＧｌｏＶｅ単語ベクトルとウィキペディアエンティティと、語共起頻度のＧａｎｅａ埋め込み符号化表現に基づいて、テキストエンティティメンションの埋め込み表現を生成する。

Ｓ２０４、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する。

具体的には、本開示の実施例のステップＳ２０４は上記ステップＳ２０３と同様であり、ここでは説明を省略する。

Ｓ２０５、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る。

具体的には、ステップＳ２０３で生成されたテキストエンティティメンションの埋め込み表現とステップＳ２０４で生成された候補テキストエンティティの埋め込み表現に基づいて、テキストエンティティメンションと候補テキストエンティティとの類似度を計算し、テキスト類似度マトリクスを得る。

「画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する」という上記実施例のステップＳ１０３は、具体的に以下のステップＳ２０６～Ｓ２０８を含むことができる。

Ｓ２０６、画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る。

具体的には、ステップＳ２０１で取得された情報ストリームにおける画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る。

Ｓ２０７、候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る。

具体的には、画像エンティティメンションに対応する候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る。候補画像エンティティは、すなわち、テキスト内のすべてのテキストエンティティによってリンクした単語における最初のピクチャである。

画像または候補画像エンティティを分割して画像特徴シーケンスとして展開させて画像符号化モデルに入力し、符号化圧縮された画像エンティティメンションの埋め込み表現または補画像エンティティの埋め込み表現を得て、画像または候補画像エンティティは具体的に未処理のＲＧＢ画像であってもよく、画像符号化モデルは、具体的に、６層のｔｒａｎｓｆｏｒｍｅｒモデルにおけるエンコーダモジュールを備えるが、これらに限定されない。ｔｒａｎｓｆｏｒｍｅｒモデルにおけるエンコーダモジュールの各層は、自己注意サブレイヤー（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎｌａｙｅｒ）とフィードフォワードニューラルネットワークサブレイヤー（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）という２つのサブ層からなる。

自己注意サブレイヤーはマルチヘッド注意機構（ｍｕｌｔｉ－ｈｅａｄａｔｔｅｎｔｉｏｎ）を使用し、モデルは複数のヘッドに分けられ、各ヘッドはサブ空間を形成するため、モデルに異なるレイヤーの情報に注目させることができる。マルチヘッド注意機構の計算方式は以下通りである：まず同じ入力情報から異なる重みＷＱ，ＷＫ，ＷＶマッピングによってクエリーベクトルＱ（Ｑｕｅｒｙ）、注目ベクトルＫ（Ｋｅｙ）と値ベクトルＶ（Ｖａｌｕｅ）を得る。ドット積ＱＫＴによって相関を計算し、ｓｏｆｔｍａｘ関数によって注意力分布マトリクスＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）を計算する。

フィードフォワードニューラルネットワークサブレイヤーは、全接続層と非線形活性化関数Ｒｅｌｕ関数から構成され、パラメータがいずれもトレーニングして得られる必要がある。

本開示の実施例では、入力された画像または候補画像エンティティは、まず６４ブロックに均等に分割され、シーケンスとして展開し、各ブロックの埋め込みベクトルと位置符号化ベクトルが加算された後、エンコーダの入力として使用する。エンコーダの各レイヤーでは、入力されたデータは、まず、グローバル特徴に注目するためにマルチヘッド自己注意サブレイヤーを通過し、さらにフィードフォワードニューラルネットワークサブレイヤーを通過し、最後に平均プーリング操作によって６４ブロックの画像の特徴シーケンスマッピングを最終的な埋め込み表現に圧縮し、以下の式を満たす。

ｘは入力シーケンスを表し、Ｏｖはマルチヘッド自己注意サブレイヤーの出力を表し、［z_i］^vはフィードフォワードニューラルネットワークサブレイヤーの出力を表し、ｅｖ，ｍｖはそれぞれ正規化された候補画像エンティティと画像エンティティメンションのモデル出力である。

なお、本開示の実施例では、Ｔｒａｎｓｆｏｒｍｅｒエンコーダは、ペア損失を減らしてトレーニングすることにより、画像エンティティメンションと候補画像エンティティのｔｒｉｐｌｅｔ損失を定義し、以下の式を満たす。

画像エンティティメンションに対して、ｍｖ，ｅｖは正しいリンクエンティティであり、

は負のサンプルエンティティである。

Ｓ２０８、画像エンティティメンションの埋め込み表現と候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る。

具体的には、ステップＳ２０６で得られた画像エンティティメンションの埋め込み表現とステップＳ２０７で得られた候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る。

「テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する」という上記実施例のステップＳ１０４は、具体的に以下のステップＳ２０９～Ｓ２１１を含むことができる。

Ｓ２０９、テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。

具体的には、ステップＳ１０４の関連説明を参照すると、最も低いトランスポートコストに対応するトランスポート転送マトリクスＴに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。

Ｓ２１０、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する。

具体的には、ステップＳ２０９で決定された輸送コストがトランスポートコストの最も低いテキストエンティティ指標のコストを重み付けして、ステップＳ２０８の画像類似度マトリクスに加算し、各テキストエンティティメンションに対して点数の最も高い候補テキストエンティティをターゲットテキストエンティティとして選択する。

Ｓ２１１、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する。

具体的には、本開示の実施例のステップＳ２１１は上記ステップＳ２１０と同様であり、ここでは説明を省略する。

さらに、図３に示すように、上記図２に示す実施例に加えて、「テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する」というステップＳ２０２は、具体的に以下のステップＳ３０１～Ｓ３０４を含むことができる。

Ｓ３０１、テキストに基づいてテキストエンティティメンションを決定する。

Ｓ３０２、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個のテキストエンティティを初歩的な候補テキストエンティティとして決定する。

具体的には、各テキストエンティティメンションに対して、ステップＳ３０１で決定されたテキストエンティティ指標とリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個の（例えば３０個）テキストエンティティを初歩的な候補テキストエンティティとして決定する。ここで、リダイレクトリンク数の統計は、ウィキペディアリダイレクトリンク数の統計を利用しでもよく、ウィキペディアリダイレクトリンク数の統計は、すべてのＷｅｂページのテキストエンティティメンションがテキストエンティティにリダイレクトされた数の統計である。

Ｓ３０３、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いｍ個のテキストエンティティを候補テキストエンティティとして決定する。

具体的には、ステップＳ３０２で決定されたｎ個の（例えば３０個）初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いｍ個の（例えば、４個）テキストエンティティを候補テキストエンティティとして決定する。

Ｓ３０４、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いｐ個のテキストエンティティを候補テキストエンティティとして決定する。

具体的には、ステップＳ３０１で決定されたテキストエンティティメンションとステップＳ３０２で決定されたｎ個の（例えば３０個）初歩的な候補テキストエンティティを、ＧｌｏＶｅ（ＧｌｏｂａｌＶｅｃｔｏｒｓｆｏｒＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎ）単語ベクトルモデルによってベクトル形式として表し、さらにベクトル間のドット積計算によって類似度を得て、類似度の最も高いｐ個の（例えば３個）のテキストエンティティを候補テキストエンティティとして決定する。

本開示の実施例では、ステップＳ３０３で決定されたｍ個の候補テキストエンティティと、Ｓ３０４で決定されたｐ個の候補テキストエンティティとが、最終的な候補テキストエンティティ集合を構成し、すなわち、テキストエンティティメンションは、ｍ＋ｐ個の（例えば、７個）候補テキストエンティティに対応する。

さらに、図４に示すように、上記図２に示す実施例に加えて、「テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る」というステップＳ２０５は、具体的に以下のステップＳ４０１を含むことができる。

Ｓ４０１、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得て、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る。

具体的には、テキストエンティティメンションの埋め込み表現がｍｔであり、候補テキストエンティティの埋め込み表現がｅｔであると仮定すると、その後、任意の２つのテキストエンティティメンション（ｍｔｉ，ｍｔｊ）間に重みの異なるＫ種類の潜在関係が存在すると仮定すると、各種類の関係は１つの潜在関係ベクトルαｉｊｋで表し、さらにテキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルにおける単層ニューラルネットワークｆ（ｍｔ，ｅｔ）を通過させ、その後、潜在関係ベクトルαｉｊｋにかけてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し（すなわち、すべてのテキストエンティティメンション－候補テキストエンティティペアの同じ種類の潜在関係の関連スコアの和を１にスケーリングする）、テキスト類似度マトリクスを得る。本開示の実施例では、テキストモーダルソート損失Ｌｔｒａｎｋｉｎｇを更新することによってトレーニングする。モデルテストでは、Ｋ種類の潜在関係の関連スコアを加算してこのペアのテキストエンティティメンション－候補テキストエンティティのグローバル点数を計算して得て、点数の最も高い候補テキストエンティティを最終的なリンク結果として使用する。

さらに、図５に示すように、上記図２に示す実施例に加えて、「テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する」というステップＳ２０９は具体的に以下のステップＳ５０１～Ｓ５０４を含むことができる。

Ｓ５０１、任意の２つのテキストエンティティメンションの埋め込み表現に基づいて任意の２つのテキストエンティティメンション間のテキスト統計分散度を計算する。

具体的には、ｉ，ｉ´が任意の２つのテキストエンティティメンションを表すと仮定すると、任意の２つのテキストエンティティメンションの埋め込み表現はｍｔｉ，ｍｔｉ´であり、計算して任意の２つのテキストエンティティメンション間のテキスト統計分散度ｃ１（ｘｉ，ｘｉ´）を得る。テキスト統計分散度は、具体的にグロモフ－ワッサースタイン距離（Ｇｒｏｍｏｖ－ＷａｓｓｅｒｓｔｅｉｎＤｉｓｔａｎｃｅ、ＧＷＤ）である。

Ｓ５０２、任意の２つの画像エンティティメンションの埋め込み表現に基づいて任意の２つの画像エンティティメンション間の画像統計分散度を計算する。

具体的には、ｊ、ｊ´が任意の２つの画像エンティティメンションを表すと仮定すると、任意の２つの画像エンティティメンションの埋め込み表現はｍｖｉ，ｍｖｉ´であり、計算して任意の２つの画像エンティティメンション間の画像統計分散度ｃ２（ｙｉ，ｙｉ´）を得る。画像統計分散度は具体的にグロモフ－ワッサースタイン距離であってもよい。

Ｓ５０３、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する。

具体的には、ステップＳ５０１で計算されたテキスト統計分散度とステップＳ５０２で計算された画像統計分散度に基づいて、１つのトランスポート転送マトリクスＴ、Ｔ（Ｍｔ）＝Ｍｖを定義することによって１つのファイルにおけるすべてのテキストメンション特徴を画像メンション特徴に変換するプロセスを表し、その距離Ｄ（μｔ，μｖ）はＭｔからＭｖに移動することに必要な最も低いトランスポートコストを表し、以下の式を満たす。

ｘ，ｙは埋め込み表現を表し、計算では、ｍｔｉ，ｍｔｉ´をｃ１（ｘｉ，ｘｉ´）に代入し、計算して２つのテキストエンティティメンション間のＷａｓｓｅｒｓｔｅｉｎＤｉｓｔａｎｃｅを得る。同様にｍｖｊ，ｍｖｊ´をｙｊ，ｙｊ´に代入し、計算して２つの画像エンティティメンション間のＷａｓｓｅｒｓｔｅｉｎＤｉｓｔａｎｃｅを得る。

μｔはテキスト特徴分布を表し、μｖは画像特徴分布を表す。Ｓｉｎｋｈｏｒｎアルゴリズムによってエントロピー正則化のグロモフ－ワッサースタイン距離を計算し、エントロピー正則化（ｅｎｔｒｏｐｉｃｒｅｇｕｌａｒｉｚａｔｉｏｎ）によって問題を１つの強凸である近似問題に変え、Ｓｉｎｋｈｏｒｎアルゴリズムを用いて解く、以下の式を満たす。

ハイパーパラメータβはエントロピーの重みを制御する。

Ｓ５０４、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。

具体的には、トランスポートコストの最も低い場合のトランスポート転送マトリクスＴに対応するテキストエンティティメンションをトランスポートコストの最も低いテキストエンティティメンションとして決定し、トランスポートコストの最も低い場合のトランスポート転送マトリクスＴに対応する画像エンティティメンションをトランスポートコストの最も低い画像エンティティメンションとして決定する。

なお、本開示の実施例では、ＧＷＤ距離損失関数を算出することによって１ペアのテキストエンティティメンションのＧＷＤ距離と、１ペアの画像エンティティメンションのＧＷＤ距離とのコサイン類似度を計算し、同じエンティティをポインティングする１ペアのテキストエンティティメンションの距離と、１ペアの画像エンティティメンション距離とが類似するようにし、例えば図６に示すＧＷＤ距離損失関数示意図、エンティティ「ＢｒｕｃｅＷａｙｎｅ」をポインティングする２つのテキストエンティティメンション（「Ｂａｔｍａｎ」，「ＢｒｕｃｅＷａｙｎｅ」）間の距離と２枚のバットマン画像間の距離とは類似するべきである。

本開示の実施例では、共通の損失関数を定義することによってトレーニングプロセスを制約し、共通の損失関数は、ステップＳ５０４で算出されたＧＷＤ距離損失関数、テキストモーダルソート損失及び画像モーダルｔｒｉｐｌｅｔ損失から以下の式で算出して得る。

以上、本開示の実施例に係る情報抽出方法は、まず、テキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出方法は、テキストと画像との２種類のモーダルエンティティメンションを同時にモデリングすることにより、ウィキペディアリダイレクトリンク数の統計に基づいて候補テキストエンティティを取得し、ＧｌｏＶｅ単語ベクトルとウィキペディアエンティティと、語共起頻度のＧａｎｅａ埋め込み符号化表現に基づいて候補テキストエンティティとテキストエンティティメンションの埋め込み表現を生成し、ピクチャをＴｒａｎｓｆｏｒｍｅｒモデルに入力して候補ピクチャエンティティと画像エンティティメンションの埋め込み表現を生成し、最適輸送アルゴリズムに基づいて２種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。

図７は、本開示の第５の態様の実施例に係る情報抽出方法の全体フローチャートである。図７に示すように、本開示の実施例に係る情報抽出方法は具体的に以下のステップＳ７０１～Ｓ７１７を含む。

Ｓ７０１、テキストと画像が含まれる情報ストリームを取得する。

Ｓ７０２、テキストに基づいてテキストエンティティメンションを決定する。

Ｓ７０３、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個のテキストエンティティを初歩的な候補テキストエンティティとして決定する。

Ｓ７０４、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いｍ個のテキストエンティティを候補テキストエンティティとして決定する。ステップＳ７０７を引続き実行する。

Ｓ７０５、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いｐ個のテキストエンティティを候補テキストエンティティとして決定する。ステップＳ７０７を引続き実行する。

Ｓ７０６、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する。

Ｓ７０７、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する。

Ｓ７０８、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得て、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る。引き続きステップＳ７１７を実行する。

Ｓ７０９、前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得る。

Ｓ７１０、前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得る。

Ｓ７１１、前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得る。引き続きステップＳ７１６を実行する。

Ｓ７１２、任意の２つのテキストエンティティメンションの埋め込み表現に基づいて任意の２つのテキストエンティティメンション間のテキスト統計分散度を計算する。引き続きステップＳ７１４を実行する。

Ｓ７１３、任意の２つの画像エンティティメンションの埋め込み表現に基づいて任意の２つの画像エンティティメンション間の画像統計分散度を計算する。

Ｓ７１４、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する。

Ｓ７１５、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する。

Ｓ７１６、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する。

Ｓ７１７、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する。

図８は、本開示の第１の実施例に係る情報抽出装置のブロック図である。

図８に示すように、本開示の実施例に係る情報抽出装置８００は、取得モジュール８０１、第１の生成モジュール８０２、第２の生成モジュール８０３及び決定モジュール８０４を備える。

取得モジュール８０１は、テキストと画像が含まれる情報ストリームを取得する。

第１の生成モジュール８０２は、テキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する。

第２の生成モジュール８０３は、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する。

決定モジュール８０４は、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。

なお、上記の情報抽出方法の実施例についての説明は、本実施例の情報抽出装置にも適用され、ここでは説明を省略する。

以上、本開示の実施例に係る情報抽出装置は、まずテキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出装置は、テキストと画像との２種類のモーダルエンティティメンションを同時にモデリングすることにより、テキスト類似度マトリクスと画像類似度マトリクスを生成し、最適輸送アルゴリズムに基づいて２つ種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。

図９は、本開示の第２の実施例に係る情報抽出装置のブロック図である。

図９に示すように、本開示の実施例に係る情報抽出装置９００は、取得モジュール９０１、第１の生成モジュール９０２、第２の生成モジュール９０３及び決定モジュール９０４を備える。

取得モジュール９０１は前実施例の取得モジュール８０１と同じ構造と機能を有し、第１の生成モジュール９０２は前実施例の第１の生成モジュール８０２と同じ構造と機能を有し、第２の生成モジュール９０３は前実施例の第２の生成モジュール８０３と同じ構造と機能を有し、決定モジュール９０４は前実施例の決定モジュール８０４と同じ構造と機能を有す。

さらに、第１の生成モジュール９０２は、具体的に、テキストに基づいてテキストエンティティメンションと候補テキストエンティティを決定する第１の決定ユニット９０２１と、テキストエンティティメンションに基づいてテキストエンティティメンションの埋め込み表現を生成する第１の生成ユニット９０２２と、候補テキストエンティティに基づいて候補テキストエンティティの埋め込み表現を生成する第２の生成ユニット９０２３と、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現に基づいて計算してテキスト類似度マトリクスを得る第１の計算ユニット９０２４とを備えることができる。

さらに、第１の決定ユニット９０２１は、テキストに基づいてテキストエンティティメンションを決定する第１の決定サブユニット９０２１１と、テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個のテキストエンティティを初歩的な候補テキストエンティティとして決定する第２の決定サブユニット９０２１２と、初歩的な候補テキストエンティティにおけるリダイレクトリンク数の最も多いｍ個のテキストエンティティを候補テキストエンティティとして決定する第３の決定サブユニット９０２１３と、テキストエンティティメンションと初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いｐ個のテキストエンティティを候補テキストエンティティとして決定する第４の決定サブユニット９０２１４と、を具体的に備えることができる。

さらに、第１の計算ユニット９０２４は、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、テキスト類似度マトリクスを得る入力サブユニット９０２４１であって、テキストエンティティメンションの埋め込み表現と候補テキストエンティティの埋め込み表現とが、テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されてテキストエンティティメンションと候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の関連スコアを正規化し、テキスト類似度マトリクスを得る入力サブユニット９０２４１を具体的に備えることができる。

さらに、第２の生成モジュール９０３は、画像を画像符号化モデルに入力し、画像エンティティメンションの埋め込み表現を得る第１の入力ユニット９０３１と、候補画像エンティティを画像符号化モデルに入力し、候補画像エンティティの埋め込み表現を得る第２の入力ユニット９０３２と、画像エンティティメンションの埋め込み表現と候補画像エンティティの埋め込み表現に基づいて、画像エンティティメンションと候補画像エンティティとのコサイン類似度を計算し、画像類似度マトリクスを得る第２の計算ユニット９０３３とを具体的に備えることができる。

さらに、画像符号化モデルはｔｒａｎｓｆｏｒｍｅｒモデルにおけるエンコーダモジュールである。

さらに、決定モジュール９０４は、テキストエンティティメンションの埋め込み表現と画像エンティティメンションの埋め込み表現をもとに、最適輸送に基づいて、トランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する第２の決定ユニット９０４１と、トランスポートコストの最も低いテキストエンティティメンションと画像類似度マトリクスに基づいてターゲットテキストエンティティを決定する第３の決定ユニット９０４２と、トランスポートコストの最も低い画像エンティティメンションとテキスト類似度マトリクスに基づいてターゲット画像エンティティを決定する第４の決定ユニット９０４３と、を具体的に備えることができる。

さらに、第２の決定ユニット９０４１は、任意の２つのテキストエンティティメンションの埋め込み表現に基づいて任意の２つのテキストエンティティメンション間のテキスト統計分散度を計算する第１の計算サブユニット９０４１１と、任意の２つの画像エンティティメンションの埋め込み表現に基づいて任意の２つの画像エンティティメンション間の画像統計分散度を計算する第２の計算サブユニット９０４１２と、テキスト統計分散度と画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する第５の決定サブユニット９０４１３と、トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいてトランスポートコストの最も低いテキストエンティティメンションとトランスポートコストの最も低い画像エンティティメンションを決定する第６の決定サブユニット９０４１４と、を具体的に備えることができる。

さらに、テキスト統計分散度および／または画像統計分散度はグロモフ－ワッサースタイン距離である。

以上、本開示の実施例に係る情報抽出装置は、まずテキストと画像が含まれる情報ストリームを取得し、さらにテキストに基づいてテキストエンティティメンションの埋め込み表現、並びにテキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成し、画像に基づいて画像エンティティメンションの埋め込み表現、並びに画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成し、テキストエンティティメンションの埋め込み表現、画像エンティティメンションの埋め込み表現、テキスト類似度マトリクス及び画像類似度マトリクスをもとに、最適輸送に基づいてテキストエンティティメンションに対応するターゲットテキストエンティティ、及び画像エンティティメンションに対応するターゲット画像エンティティを決定する。本開示の実施例に係る情報抽出装置は、テキストと画像との２種類のモーダルエンティティメンションを同時にモデリングすることにより、ウィキペディアリダイレクトリンク数の統計に基づいて候補テキストエンティティを取得し、ＧｌｏＶｅ単語ベクトルとウィキペディアエンティティと、語共起頻度のＧａｎｅａ埋め込み符号化表現に基づいて候補テキストエンティティとテキストエンティティメンションの埋め込み表現を生成し、ピクチャをＴｒａｎｓｆｏｒｍｅｒモデルに入力して候補ピクチャエンティティと画像エンティティメンションの埋め込み表現を生成し、最適輸送アルゴリズムに基づいて２種類のモーダルメンションに対してターゲットエンティティのリンクを行い、画像とテキストエンティティを同時にリンクさせることを実現することができ、マルチモーダルデータにおけるエンティティメンションとナレッジベースにおける対応するエンティティリンクの正確性を向上させる。

なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

図１０は、本開示の実施例を実行するための例示的な電子機器１０００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／または求められる本開示の実現を制限することを意図したものではない。

図１０に示すように、電子機器１０００は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されているコンピュータプログラムまたは記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット１００１を備える。ＲＡＭ１００３には、電子機器１０００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット１００１、ＲＯＭ１００２、及びＲＡＭ１００３は、バス１００４を介して互いに接続されている。バス１００４には、入力／出力（Ｉ／Ｏ）インターフェース１００５も接続されている。

電子機器１０００の複数のコンポーネントはＩ／Ｏインターフェース１００５に接続され、キーボード、マウスなどの入力ユニット１００６、各タイプのディスプレイ、スピーカなどの出力ユニット１００７、磁気ディスク、光ディスクなどの記憶ユニット１００８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１００９を備える。通信ユニット１００９は、電子機器１０００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット１００１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１００１は、前文に記載の各方法および処理、例えば、図１～図７に示す情報抽出方法を実行する。例えば、いくつかの実施例では、情報抽出方法を、記憶ユニット１００８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ１００２および／または通信ユニット１００９を介して電子機器１０００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされ、計算ユニット１００１によって実行される場合、前文に記載の情報抽出方法の１つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット１００１は情報抽出方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および／または解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／またはブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示される情報抽出方法のステップを実現する。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

テキストと画像が含まれる情報ストリームを取得するステップと、
前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップと、
前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップと、
前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップと、
を含む情報抽出方法。
前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成するステップが、
前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定するステップと、
前記テキストエンティティメンションに基づいて前記テキストエンティティメンションの埋め込み表現を生成するステップと、
前記候補テキストエンティティに基づいて前記候補テキストエンティティの埋め込み表現を生成するステップと、
前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得るステップと、
を含む請求項１に記載の情報抽出方法。
前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定するステップが、
前記テキストに基づいて前記テキストエンティティメンションを決定するステップと、
前記テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個のテキストエンティティを初歩的な候補テキストエンティティとして決定するステップと、
前記初歩的な候補テキストエンティティのうちリダイレクトリンク数の最も多いｍ個のテキストエンティティを前記候補テキストエンティティとして決定するステップと、
前記テキストエンティティメンションと前記初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いｐ個のテキストエンティティを前記候補テキストエンティティとして決定するステップと、
を含む請求項２に記載の情報抽出方法。
前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得るステップが、
前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、前記テキスト類似度マトリクスを得るステップであって、前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現が、前記テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されて前記テキストエンティティメンションと前記候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の前記関連スコアを正規化し、前記テキスト類似度マトリクスを得るステップを含む請求項２に記載の情報抽出方法。
前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成するステップが、
前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得るステップと、
前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得るステップと、
前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得るステップと、
を含む請求項１に記載の情報抽出方法。
前記画像符号化モデルが、ｔｒａｎｓｆｏｒｍｅｒモデルにおけるエンコーダモジュールである請求項５に記載の情報抽出方法。
前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定するステップが、
前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定するステップと、
前記トランスポートコストの最も低い前記テキストエンティティメンションと前記画像類似度マトリクスに基づいて前記ターゲットテキストエンティティを決定するステップと、
前記トランスポートコストの最も低い前記画像エンティティメンションと前記テキスト類似度マトリクスに基づいて前記ターゲット画像エンティティを決定するステップと、
を含む請求項１に記載の情報抽出方法。
前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定するステップが、
任意の２つの前記テキストエンティティメンションの埋め込み表現に基づいて任意の２つの前記テキストエンティティメンション間のテキスト統計分散度を計算するステップと、
任意の２つの前記画像エンティティメンションの埋め込み表現に基づいて任意の２つの前記画像エンティティメンション間の画像統計分散度を計算するステップと、
前記テキスト統計分散度と前記画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定するステップと、
前記トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいて前記トランスポートコストの最も低い前記テキストエンティティメンションと前記トランスポートコストの最も低い前記画像エンティティメンションを決定するステップと、
を含む請求項７に記載の情報抽出方法。
前記テキスト統計分散度および／または前記画像統計分散度が、グロモフ－ワッサースタイン距離である請求項８に記載の情報抽出方法。
テキストと画像が含まれる情報ストリームを取得する取得モジュールと、
前記テキストに基づいてテキストエンティティメンションの埋め込み表現、並びに前記テキストエンティティメンションと候補テキストエンティティとのテキスト類似度マトリクスを生成する第１の生成モジュールと、
前記画像に基づいて画像エンティティメンションの埋め込み表現、並びに前記画像エンティティメンションと候補画像エンティティとの画像類似度マトリクスを生成する第２の生成モジュールと、
前記テキストエンティティメンションの埋め込み表現、前記画像エンティティメンションの埋め込み表現、前記テキスト類似度マトリクス及び前記画像類似度マトリクスをもとに、最適輸送に基づいて前記テキストエンティティメンションに対応するターゲットテキストエンティティ、及び前記画像エンティティメンションに対応するターゲット画像エンティティを決定する決定モジュールと、
を備える情報抽出装置。
前記第１の生成モジュールが、
前記テキストに基づいて前記テキストエンティティメンションと前記候補テキストエンティティを決定する第１の決定ユニットと、
前記テキストエンティティメンションに基づいて前記テキストエンティティメンションの埋め込み表現を生成する第１の生成ユニットと、
前記候補テキストエンティティに基づいて前記候補テキストエンティティの埋め込み表現を生成する第２の生成ユニットと、
前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現に基づいて計算して前記テキスト類似度マトリクスを得る第１の計算ユニットと、
を備える請求項１０に記載の情報抽出装置。
前記第１の決定ユニットが、
前記テキストに基づいて前記テキストエンティティメンションを決定する第１の決定サブユニットと、
前記テキストエンティティメンションとリダイレクトリンク数の統計に基づいて、リダイレクトリンク数の最も多いｎ個のテキストエンティティを初歩的な候補テキストエンティティとして決定する第２の決定サブユニットと、
前記初歩的な候補テキストエンティティのうちリダイレクトリンク数の最も多いｍ個のテキストエンティティを前記候補テキストエンティティとして決定する第３の決定サブユニットと、
前記テキストエンティティメンションと前記初歩的な候補テキストエンティティとの類似度を計算し、類似度の最も高いｐ個のテキストエンティティを前記候補テキストエンティティとして決定する第４の決定サブユニットと、
を備える請求項１１に記載の情報抽出装置。
前記第１の計算ユニットが、
前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現をテキスト類似度モデルに入力し、前記テキスト類似度マトリクスを得る入力サブユニットであって、前記テキストエンティティメンションの埋め込み表現と前記候補テキストエンティティの埋め込み表現が、前記テキスト類似度モデルにおける単層ニューラルネットワークを通過した後に潜在関係ベクトルで乗算されて前記テキストエンティティメンションと前記候補テキストエンティティとの関連スコアを得て、同じ種類の潜在関係の前記関連スコアを正規化し、前記テキスト類似度マトリクスを得る入力サブユニットを備える請求項１１に記載の情報抽出装置。
前記第２の生成モジュールが、
前記画像を画像符号化モデルに入力し、前記画像エンティティメンションの埋め込み表現を得る第１の入力ユニットと、
前記候補画像エンティティを前記画像符号化モデルに入力し、前記候補画像エンティティの埋め込み表現を得る第２の入力ユニットと、
前記画像エンティティメンションの埋め込み表現と前記候補画像エンティティの埋め込み表現に基づいて、前記画像エンティティメンションと前記候補画像エンティティのコサイン類似度を計算し、前記画像類似度マトリクスを得る第２の計算ユニットと、
を含む請求項１０に記載の情報抽出装置。
前記画像符号化モデルが、ｔｒａｎｓｆｏｒｍｅｒモデルにおけるエンコーダモジュールである請求項１４に記載の情報抽出装置。
前記決定モジュールが、
前記テキストエンティティメンションの埋め込み表現と前記画像エンティティメンションの埋め込み表現をもとに、前記最適輸送に基づいて、トランスポートコストの最も低い前記テキストエンティティメンションとトランスポートコストの最も低い前記画像エンティティメンションを決定する第２の決定ユニットと、
前記トランスポートコストの最も低い前記テキストエンティティメンションと前記画像類似度マトリクスに基づいて前記ターゲットテキストエンティティを決定する第３の決定ユニットと、
前記トランスポートコストの最も低い前記画像エンティティメンションと前記テキスト類似度マトリクスに基づいて前記ターゲット画像エンティティを決定する第４の決定ユニットと、
を備える請求項１０に記載の情報抽出装置。
前記第２の決定ユニットが、
任意の２つの前記テキストエンティティメンションの埋め込み表現に基づいて任意の２つの前記テキストエンティティメンション間のテキスト統計分散度を計算する第１の計算サブユニットと、
任意の２つの前記画像エンティティメンションの埋め込み表現に基づいて任意の２つの前記画像エンティティメンション間の画像統計分散度を計算する第２の計算サブユニットと、
前記テキスト統計分散度と前記画像統計分散度に基づいてトランスポートコストの最も低い場合のトランスポート転送マトリクスを決定する第５の決定サブユニットと、
前記トランスポートコストの最も低い場合のトランスポート転送マトリクスに基づいて前記トランスポートコストの最も低い前記テキストエンティティメンションと前記トランスポートコストの最も低い前記画像エンティティメンションを決定する第６の決定サブユニットと、
を備える請求項１６に記載の情報抽出装置。
前記テキスト統計分散度および／または前記画像統計分散度が、グロモフ－ワッサースタイン距離である請求項１７に記載の情報抽出装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から９のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から９のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から９のいずれか一項に記載の方法のステップを実現するコンピュータプログラム。