JP2022510031A - 自然言語生成技術に基づく知識グラフ理解支援システム - Google Patents

自然言語生成技術に基づく知識グラフ理解支援システム Download PDF

Info

Publication number
JP2022510031A
JP2022510031A JP2021532885A JP2021532885A JP2022510031A JP 2022510031 A JP2022510031 A JP 2022510031A JP 2021532885 A JP2021532885 A JP 2021532885A JP 2021532885 A JP2021532885 A JP 2021532885A JP 2022510031 A JP2022510031 A JP 2022510031A
Authority
JP
Japan
Prior art keywords
knowledge graph
subject
predicate
target
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021532885A
Other languages
English (en)
Other versions
JP7064262B2 (ja
Inventor
▲勁▼松 李
勇 尚
可▲偉▼ ▲呂▼
天舒 周
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2022510031A publication Critical patent/JP2022510031A/ja
Application granted granted Critical
Publication of JP7064262B2 publication Critical patent/JP7064262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は自然言語生成技術に基づく知識グラフ理解支援システムを提供する。【解決手段】当該システムは、知識グラフ選択モジュール、知識グラフ翻訳モジュール及び結果表示モジュールを含む。本発明は、自然言語生成技術を用いて、知識グラフを自然言語テキストに変換することにより、係る分野の専門家が知識グラフのソースコードやソフトウェアが分からない場合でも、知識グラフを使用する前に、その分野の知識グラフを、正確で、深くかつ全面的に理解できるように役立つ。同時に、各短いセンテンスは、知識グラフ自体に対応するソースコードと関連していることから、知識グラフに冗長な情報や誤った情報が見つかると、即時に訂正することができ、しかも、当該方法は広く適用することができる。本発明は、視覚化の方法により、係る分野の専門家による知識グラフの理解をさらに加速することができる。【選択図】図1

Description

本発明は、知識グラフの技術分野に関し、特に、自然言語生成技術に基づく知識グラフ理解支援システムに関する。
知識グラフは、語義の知識ベースの一つであり、一般的に、主語-述語-目的語というトリプルの形式により、一つの知識ポイントを表現する。知識グラフは、オントロジーが論理や語義を厳密に要求することに比べると、弱い語義及び弱い論理を強調していることから、学術界及び産業界では、よく普及されている。グーグルをはじめとする大手のインターネット企業は、検索の品質を高めるように、知識グラフを研究し始めてきた。2014年の報告によると、現在、グーグルの知識グラフは、既に16憶を超える事実を収集しており、そのうち、2.71億個の事実の真実性が90%を超えると考えられる。2016年5月にGoogle検索では、知識グラフは、該月の1000億回の検索における約三分の一の問題に回答した。
自然言語生成技術は、自然言語で処理を行う技術において、重要な技術の一つである。自然言語理解と異なり、自然言語生成技術は、コンピューターがどのように自然言語テキストにより、所定の意味や思想などを表現するかということに注目する。知識グラフ、特に、特定の分野の知識グラフについては、実際に適用される知識グラフに正確性が極めて高く要求されており、例えば、医学に関連する知識グラフは、その知識グラフの品質がシステム全体の正確性に深刻的に関係している。しかしながら、知識グラフを構築するプログラミング言語は、オントロジーと同様に、主に、RDF(Resource Description Framework、資源記述の枠組み)やOWL(Web Ontology Language、ウェブオントロジー言語)であり、採用されているソフトウェアは、主に、スタンフォード大学により開発されてきた
Figure 2022510031000002
などである。これらの言語及びソフトウェアは、その専門性が高く、長時間に亘る勉強や訓練がなければ、非関連者がその具体的な意味への理解が極めて難しい。それと同時に、OWL及びRDFにより記憶される知識ポイントは、順序付けられておらず、同じコンテンツに関連する知識ポイントであっても、プログラムにおける異なる箇所に記憶されていることから、係る分野の専門家が知識グラフのソースコードを直接に理解することがより難しくなる。知識グラフは、その大部分がコンピューターの業界の従業員により構築されるが、その使用者が当該知識グラフコンテンツに係る分野の学者や専門家であり、両者の不一致により、かかる分野の専門家が知識グラフのコンテンツを理解できないことになり、予め知識グラフのコンテンツを直感的に理解して改善することができず、使用するだけで知識グラフをさらに改善できる。これは、間接に、知識グラフの品質の不安定性及び同じコンテンツの知識グラフの二次開発現象の深刻さにつながる。ある学者によると、2017年に、米国国立生物医学オントロジーセンターにおける200個の生物医学に関連するオントロジーがランダムに選ばれたところ、その対応する設計文書において専門家らによる正式評価を得たのは17個しかないと分かった。
数多くの分野の知識グラフは、実際に使用される過程における正確性を保証するように、使用される前にかかる分野の専門家にその表現するコンテンツを深くかつ完全に分からせることが必要となる。しかしながら、知識グラフに係る言語及びソフトウェアは、その専門性が強く、同じテーマの知識ポイントでも、分布がバラバラであるため、係る分野の専門家が短時間でそれらを習得して理解することが困難である。現在に、知識グラフの理解を支援するソフトウェアは、ほとんど、検索により、視覚化の手段で、異なる知識ノードの関連を表現しているが、このように表現された知識が知識の一部に過ぎず、しかも、知識グラフ自体に関連していない。同時に、これらの方法はいずれも知識グラフを使用する過程においてその存在する問題を発見し、それを使用する前にそれを全面的に理解し評価することがない。
本発明は、現在に知識グラフの品質への制御が不足であり、係る分野の専門家が関連分野の知識グラフを理解し難しいことに鑑み、自然言語生成技術に基づく知識グラフ理解支援システムを提供することを目的とする。本発明は、現実的なニーズに応じて、自然言語生成技術により、知識グラフのコンテンツに基づいて、自然言語テキストを生成すると共に、同一のテーマによる短いセンテンスをセンテンスで適正に集約し、しかも、各センテンスは、それぞれ、知識グラフにおけるプログラム言語と一対一対応することにより、係る分野の専門家が短時間で知識グラフを、迅速で、全面的かつ深く理解して、知識グラフの品質を制御するように助ける。
本発明は、以下の技術手段により実現される。
自然言語生成技術に基づく知識グラフ理解支援システムであって、当該システムは、知識グラフ選択モジュール、知識グラフ翻訳モジュール及び結果表示モジュールを含み、
前記知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものであり、
前記知識グラフ翻訳モジュールは、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスとしてなされておらず、他のセンテンスを補充する注釈情報としてなされており、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、センテンスをさらに規範化した後でローカルデータベース(MySQLデータベースを用いてもよい)に記憶し、しかも、クラスとサブクラス及びクラスとインスタンスの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立てる。
前記結果表示モジュールは、ローカルデータベースから、ターゲット知識グラフの翻訳コンテンツ(つまり、短いセンテンス及び長いセンテンス)を呼び出し、翻訳コンテンツとターゲット知識グラフのソースファイル(RDF(資源記述の枠組み)、OWL(ウェブオントロジー言語))を同時に表示すると共に、JSONフォーマットのファイルを取得し、視覚化ツール(D3ツールを用いてもよい)により、樹形図を描き、知識グラフにおけるクラスとサブクラス、及び、クラスとインスタンスの階層構造を視覚化して表示する。
さらに、前記知識グラフ選択モジュールがターゲット知識グラフを取得する経路は、
オープンソース知識グラフデータベース(当該システムは、生物医学分野の知識グラフを適用して理解を支援する際に、オープンソース知識グラフデータベースは、米国国立生物医学オントロジーセンター(National Center for Biomedical Ontology、NCBO)を選択しても良い。)からRDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを知識グラフ翻訳モジュールにより翻訳し、翻訳された結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられると、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する第一経路と、
ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフをターゲット知識グラフとしてアップロードする第二経路との二種類を含む。
さらに、ターゲット知識グラフを取得する第一経路においては、類似度へ判断係数に、Jaccard係数(ジャッカード係数)が用いられており、それは、限られたサンプルセット間に類似度や差異性を比較することによく用いられており、Jaccard係数の値が大きいほど、サンプルの類似度が高い。
ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、J(C,C
Figure 2022510031000003
とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされると、類似度が比較的高いN個の結果が現れ、Nがユーザーによりカスタマイズされたものである。
さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQL(SPARQL Protocol and RDF Query Language、SPARQLプロトコル及びRDFクエリ言語)を用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈など)に対応する主語、述語及び目的語を抽出して、それらを資源記述の枠組みのトリプル(RDF Triple)に符号化する。
さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築する。短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、直接に、短いセンテンスとして組み立てればよい。
さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフの長いセンテンスを生成するステップは具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞(及び、或いは)により接続される。
さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わない。
さらに、前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC(Java Data Base Connectivity)APIを用いて、データベースに接続し、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーなどを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が既にローカルデータベースに存在していると、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加する。
さらに、前記結果表示モジュールにおいては、翻訳コンテンツ及びソースファイルを表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、データベースから当該知識グラフに対応するすべての翻訳コンテンツを呼び出してインタフェースに表示すると共に、ローカルサーバーからターゲット知識グラフのソースファイルを読み出して、インタフェースに共に表示する。
さらに、前記結果表示モジュールにおいては、視覚化して表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、バックエンドに対応するJSONフォーマットのファイルを取得し、樹形図を描き、樹形図において、各ノードが主語或いは目的語を表し、各ノードが接続線により他の関連するノードに接続される。
本発明の有益な効果は、以下の通りである。
本発明は、自然言語生成技術を用いて、知識グラフを自然言語テキストに変換することにより、係る分野の専門家は知識グラフのソースコードとソフトウェアとが分からない場合でも、知識グラフを使用する前に、その分野の知識グラフを、正確で、深くかつ全面的に理解できるように役立つ。同時に、各短いセンテンスは、知識グラフ自体に対応するソースコードと関連していることから、知識グラフに冗長な情報や誤った情報が見つかると、即時に訂正することができ、しかも、当該方法は広く適用することができる。本発明は、視覚化の方法により、係る分野の専門家による知識グラフの理解をさらに加速することができる。
本発明に係る自然言語生成技術に基づく知識グラフ理解支援システムの構造ブロック図である。 本発明に係る自然言語生成技術に基づく知識グラフ理解支援システムを実現するフローチャートである。 本発明に係る知識グラフ翻訳モジュールにおける自然言語生成のフローチャートである。 ある知識グラフの一部のソースコードの模式図である。 自然言語技術を用いて生成された短いセンテンスの模式図である。 自然言語の技術を用いて生成された長いセンテンスの模式図である。 クラスとサブクラスとの樹形図である。
以下に、図面及び具体的な実施例を参照しつつ、本発明をさらに詳しく説明する。
図1及び図2に示すように、本発明が提供する自然言語生成技術に基づく知識グラフ理解支援システムは、知識グラフ選択モジュール、知識グラフ翻訳モジュール及び結果表示モジュールを含む。
一、知識グラフ選択モジュール
知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものである。ターゲット知識グラフを取得する経路は、以下の二種類を含む。
第一経路:オープンソース知識グラフデータベース(当該システムは、生物医学分野の知識グラフを適用して理解を支援する際に、オープンソース知識グラフデータベースは、米国国立生物医学オントロジーセンター(National Center for Biomedical Ontology、NCBO)を選択しても良い。)からRDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを知識グラフ翻訳モジュールにより翻訳し、翻訳された結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられると、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する。
類似度への判断係数に、Jaccard係数(ジャッカード係数)が用いられており、それは、限られたサンプルセット間に類似度や差異性を比較することによく用いられており、Jaccard係数の値が大きいほど、サンプルの類似度が高い。
ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、
Figure 2022510031000004
とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされると、類似度が比較的高いN個の結果が現れ、Nがユーザーによりカスタマイズされたものであり、Nが15に設置されてもよい。
第二経路:ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフを、ターゲット知識グラフとしてアップロードする。
二、知識グラフ翻訳モジュール
具体的なフローは、図3に示すように、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスとしてなされておらず、他のセンテンスを補充する注釈情報としてなされており、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、同時に、生成されたセンテンスは、例えば、センテンスの先頭にある英字を大文字でしたり、一部の名称にハイパーリンクを追加したりするなど、さらに規範化する必要がある。規範化されたセンテンスを、ローカルデータベースに挿入し、クラスとサブクラス、及び、クラスとインスタンスとの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立てる。ローカルデータベースは、MySQLデータベースを使用してもよい。MySQLは、現在に相対に普及している一つのオープンソースの関係型データベース管理システムであり、全てのデータを一つのセルに配置する代わりに、データを異なるテーブルに記憶できるため、速度が速くなる。
ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQL(SPARQL Protocoland RDF Query Language、SPARQLプロトコル及びRDFクエリ言語)を用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈等)に対応する主語、述語及び目的語を抽出し、それらを資源記述の枠組みのトリプル(RDF Triple)に符号化する。
ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築する。短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、直接に、短いセンテンスとして組み立てればよい。
ターゲット知識グラフの長いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞(及び、或いは)により接続される。
ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わない。
ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC(Java Data Base Connectivity)APIにより、Javaとデータベースとを接続させ、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーなどを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が知識ベースに存在している場合に、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加する。
三、結果表示モジュール
結果表示は、三つの部分に分けられる。ウェブページ端がターゲット知識グラフを選定するか、ウェブサイトでターゲット知識グラフをアップロードすると、ajaxにより、当該ファイル或いはパラメータをバックエンドに送信し、ファイルがバックエンドに送信された後に、そのソースコードがウェブページに表示されると共に、自然言語生成を自動的に行い、生成された結果がデータベースに挿入され、そして、データベースから、関連のコンテンツを読み出してウェブページ端に表示する。同時に、システムは、主語配列、述語配列、目的語配列という三つの動態的配列から、クラスとサブクラスと、及び、クラスとインスタンスとの関係のコンテンツを選択して、JSONフォーマットのファイルに組み立て、フロントエンドに送信すると共に、視覚化ツールD3により樹形図を描き、その主な階層構造を表示する。米国国立生物医学オントロジーセンターにより開示されている慢性腎臓病に関する一つの知識グラフを例に挙げると、その実行結果を、図4-7に示し、図7は、樹形図における一部のコンテンツを示している。
本発明に係るシステムによると、ターゲット知識グラフをウェブサイトにアップロードするか、又はウェブサイトでデータベースにおける知識グラフを選択すると、システムは、知識グラフにおける関連コンテンツを自動的にクエリし、文字列分割を行って、RDF Tripleを短いセンテンス及び長いセンテンスに翻訳し、センテンスの構造をさらに規範化し、最後、生成されたテキストを係る分野の専門家に表示し、ただし、各センテンスは、いずれも、その知識グラフのソースコードに対応している。同時に、システムは、知識グラフにおける重要なクラスとサブクラス、及び、クラスとインスタンスとの関係を、樹形図という形式で表示することにより、専門家が、当該知識グラフのコンテンツ及び情報を迅速に理解して把握するのに役立ち、短時間で品質の制御を行う。
以上は、本発明の実施形態に過ぎず、本発明の保護範囲を限定するものではない。本発明の趣旨及び原則を逸脱しない限り、創造的労働を経ずに行われたいかなる修正、均等置換や改良などは、いずれも、本発明の保護範囲に含まれる。

Claims (10)

  1. 知識グラフ選択モジュール、知識グラフ翻訳モジュール、及び、結果表示モジュールを含み、
    前記知識グラフ選択モジュールは、RDF又はOWLの規範文法が満たされるターゲット知識グラフを取得するためのものであり、
    前記知識グラフ翻訳モジュールは、まず、ターゲット知識グラフのトリプルを抽出し、抽出されたトリプルに対して文字列分割を行って、三者間に一対一対応の関係を有する主語配列、述語配列及び目的語配列という三つの動態的配列を取得し、次に、入れ子型ループにより、simplenlgのツールを用いて、主語、述語及び目的語を組み立て、一つの完全な短いセンテンスを生成し、同時に、主語-述語-目的語の関係が1対1対多数及び1対多数対多数の場合が存在する場合、特別な文字を述語配列及び目的語配列に加えて識別することにより、当該述語とある主語との対応及び当該目的語とある主語及びある述語との対応を決定し、そして、入れ子型ループにおいて、これらの特別な文字を判断して、主語、述語、目的語の対応関係を決定し、simplenlgツールを用いて、対応する主語、述語及び目的語を組み立て、一つの完全な長いセンテンスを生成し、ただし、注釈部分に対応するトリプルは、単独でセンテンスとしてなされておらず、他のセンテンスを補充する注釈情報としてなされており、そして、ターゲット知識グラフを、短いセンテンス及び長いセンテンスに翻訳し、センテンスをさらに規範化した後でローカルデータベースに記憶し、しかも、クラスとサブクラス及びクラスとインスタンスの関係のコンテンツを主語配列、述語配列、目的語配列という三つの動態的配列から選択して、JSONフォーマットのファイルに組み立て、
    前記結果表示モジュールは、ローカルデータベースからターゲット知識グラフの翻訳コンテンツを呼び出し、翻訳コンテンツとターゲット知識グラフのソースファイルとを同時に表示すると共に、JSONフォーマットのファイルを取得し、視覚化ツールにより、樹形図を描き、知識グラフにおけるクラスとサブクラス及びクラスとインスタンスの階層構造を視覚化して表示することを特徴とする自然言語生成技術に基づく知識グラフ理解支援システム。
  2. 前記知識グラフ選択モジュールがターゲット知識グラフを取得する経路は、
    オープンソース知識グラフデータベースから、RDF又はOWLの規範文法が満たされる知識グラフをクロールし、クロールされた知識グラフを、知識グラフ翻訳モジュールにより翻訳し、翻訳結果をローカルデータベースに記憶し、あるテーマの知識グラフをシステムから検索することに用いられる場合、名称と知識グラフの英語名称を入力して類似度計算を行い、類似度を降順でソートし、選択すべき知識グラフを取得する第一経路と、
    ユーザーは、RDF又はOWLの規範文法が満たされる知識グラフをターゲット知識グラフとしてアップロードする第二経路との二種類を含むことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  3. ターゲット知識グラフを取得する第一経路においては、類似度への判断係数にJaccard係数が用いられており、
    ユーザーにより入力された名称の概念集合をC、知識グラフの英語名称の概念集合をCとすると、両者間のJaccard係数J(C,C)が以下のとおりであり、
    Figure 2022510031000005
    とCとが全く同じである場合に、J(C,C)の値が1となり、各検索結果が類似度の大きさに応じてソートされることを特徴とする請求項2に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  4. 前記知識グラフ翻訳モジュールにおいては、ターゲット知識グラフのトリプルを抽出するステップは、具体的に、SPARQLを用いて、ターゲット知識グラフにおけるすべての知識ポイント(クラス、インスタンス、対象属性、データ属性、注釈など)に対応する主語、述語及び目的語を抽出し、それらを資源記述の枠組みのトリプルに符号化することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  5. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおける短いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、短いセンテンスの生成では、主語、述語及び目的語の関係が1対1対1の関係であることから、入れ子型ループにより、対応する主語、述語、目的語を、Simplenlgにより、短いセンテンスとして組み立てればよいことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  6. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおける長いセンテンスを生成するステップは、具体的に、まず、取得されたトリプルを文字列分割を行って、主語、述語及び目的語の名称を取得し、三つの動態的配列を構築し、長いセンテンスの生成では、一つの主語が複数の述語に対応でき、各述語が複数の目的語に対応できることが考えられることから、述語配列において、異なる主語に対応する述語の間を特別な識別子によりマークし、目的語配列において、異なる主語に対応する異なる述語の目的語の間を、他の特別な識別子によりマークし、主語、述語、目的語の一対一対応の関係を実現し、そして、入れ子型ループにより、これらの特別な識別子を判断し、対応する主語、述語及び目的語をSimplenlgにより組み立て、ただし、同じ主語と異なる述語とはそれぞれ、一つのセンテンスを構成しており、主語が同じである全てのセンテンスは一つの段落を構成し、異なる目的語の間が接続詞により接続されることを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  7. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフにおけるセンテンスの注釈情報を補充するステップは、具体的に、まず、述語配列をループし、述語が「comment」(目的語が主語の注釈であることを示す)であると、対応する主語及び目的語を抽出して、一つの新たな動態的配列である注釈配列を形成し、ただし、添え字が奇数である配列要素に主語を記憶し、添え字が偶数である配列要素に目的語を記憶し、そして、主語配列、述語配列及び目的語配列を入れ子型ループし、主語と目的語が注釈配列に存在しているかどうかを判断し、存在していると、当該主語或いは目的語の後ろに括弧を付加し、括弧内がその注釈となり、そして、述語を判断し、述語が「comment」ではないと、組み立てを行い、そうでない場合は組み立てを行わないことを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  8. 前記知識グラフ翻訳モジュールにおいて、ターゲット知識グラフの短いセンテンス及び長いセンテンスをデータベースに挿入するステップは、具体的に、JDBC APIを用いて、データベースに接続し、まず、翻訳結果を記憶するデータベース及びテータテーブルを作成し、テーブル名、テーブルフィールドを定義し、主キーなどを確認し、そして、知識グラフの英語名称とデータベースに記憶されている名称とをマッチングし、当該知識グラフの翻訳結果が既にローカルデータベースに存在していると、挿入操作を行わず、存在しないと、生成された短いセンテンス配列及び長いセンテンス配列をテータテーブルに追加することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  9. 前記結果表示モジュールにおいて、翻訳コンテンツ及びソースファイルを表示するステップは、具体的に、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、データベースから当該知識グラフに対応するすべての翻訳コンテンツを呼び出してインタフェースに表示すると共に、ローカルサーバーからターゲット知識グラフのソースファイルを読み出して、インタフェースに共に表示することを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
  10. 前記結果表示モジュールにおいて、視覚化して表示する具体的なステップは、ウェブインタフェースでターゲット知識グラフを選定した後、ajaxを用いて、バックエンドに対応するJSONフォーマットのファイルを取得し、樹形図を描き、樹形図において、各ノードが主語或いは目的語を表し、各ノードが接続線により他の関連するノードに接続されることを特徴とする請求項1に記載の自然言語生成技術に基づく知識グラフ理解支援システム。
JP2021532885A 2019-07-12 2020-04-07 自然言語生成技術に基づく知識グラフ理解支援システム Active JP7064262B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910629843.0A CN110347798B (zh) 2019-07-12 2019-07-12 一种基于自然语言生成技术的知识图谱辅助理解***
CN201910629843.0 2019-07-12
PCT/CN2020/083591 WO2020233261A1 (zh) 2019-07-12 2020-04-07 一种基于自然语言生成技术的知识图谱辅助理解***

Publications (2)

Publication Number Publication Date
JP2022510031A true JP2022510031A (ja) 2022-01-25
JP7064262B2 JP7064262B2 (ja) 2022-05-10

Family

ID=68176110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532885A Active JP7064262B2 (ja) 2019-07-12 2020-04-07 自然言語生成技術に基づく知識グラフ理解支援システム

Country Status (3)

Country Link
JP (1) JP7064262B2 (ja)
CN (1) CN110347798B (ja)
WO (1) WO2020233261A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347798B (zh) * 2019-07-12 2021-06-01 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解***
CN111370127B (zh) * 2020-01-14 2022-06-10 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持***
US20210295036A1 (en) * 2020-03-18 2021-09-23 International Business Machines Corporation Systematic language to enable natural language processing on technical diagrams
CN112100322B (zh) * 2020-08-06 2022-09-16 复旦大学 一种基于知识图谱的api元素比较结果自动生成方法
CN112101040B (zh) * 2020-08-20 2024-03-29 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112380864B (zh) * 2020-11-03 2021-05-28 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112749184B (zh) * 2021-01-13 2024-02-20 广东粤通天下科技有限公司 一种sparql联合查询的数据源选择方法
US11829726B2 (en) 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph
CN114840563B (zh) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN112966493A (zh) * 2021-02-07 2021-06-15 重庆惠统智慧科技有限公司 一种知识图谱构建方法及***
CN113111458B (zh) * 2021-04-13 2022-10-21 合肥工业大学 一种基于dxf的钣金件自动识别和定位方法
CN113094517A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品知识单元的构建方法和***
CN113157891B (zh) * 2021-05-07 2023-11-17 泰康保险集团股份有限公司 知识图谱路径排序方法、***、设备及存储介质
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113407688B (zh) * 2021-06-15 2022-09-16 西安理工大学 一种基于知识图谱的勘察规范智能问答***的建立方法
CN113377349B (zh) * 2021-06-21 2022-05-13 浙江工业大学 服务流程间差异检测与自然语言翻译方法
CN113467755B (zh) * 2021-07-12 2022-07-26 卡斯柯信号有限公司 需求符合性分析方法、***、电子设备及存储介质
CN113553443B (zh) * 2021-07-18 2023-08-22 北京智慧星光信息技术有限公司 记录知识图谱游走路径的关系图谱生成方法和***
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及***
CN113810480B (zh) * 2021-09-03 2022-09-16 海南大学 基于dikw内容对象的情感通讯方法
CN113890899B (zh) * 2021-09-13 2022-11-18 北京交通大学 一种基于知识图谱的协议转换方法
CN113805847A (zh) * 2021-09-15 2021-12-17 南通在渡教育咨询有限公司 在线无代码化开发***
CN114153943B (zh) * 2021-11-22 2024-05-17 之江实验室 一种基于知识图谱构建机器人行为树的***及方法
CN114201618B (zh) * 2022-02-17 2022-09-13 药渡经纬信息科技(北京)有限公司 药物研发文献可视化解读方法和***
WO2023159650A1 (en) * 2022-02-28 2023-08-31 Microsoft Technology Licensing, Llc Mining and visualizing related topics in knowledge base
CN115271683B (zh) * 2022-09-26 2023-01-13 西南交通大学 基于标准知识图谱元结构的bim自动标准审查***
CN115545006B (zh) * 2022-10-10 2024-02-13 清华大学 规则脚本生成方法、装置、计算机设备及介质
CN115577713B (zh) * 2022-12-07 2023-03-17 中科雨辰科技有限公司 一种基于知识图谱的文本处理方法
CN116628229B (zh) * 2023-07-21 2023-11-10 支付宝(杭州)信息技术有限公司 一种利用知识图谱生成文本语料的方法及装置
CN117436420A (zh) * 2023-12-18 2024-01-23 武汉大数据产业发展有限公司 一种基于自然语言处理生成业务流程模型的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033260A (zh) * 2018-07-06 2018-12-18 天津大学 基于rdf的知识图谱交互式可视化查询方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的***和方法
EP3281122A4 (en) * 2015-07-24 2018-04-25 Samsung Electronics Co., Ltd. Method for automatically generating dynamic index for content displayed on electronic device
US10229195B2 (en) * 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
CN110741389B (zh) * 2017-11-21 2024-07-05 谷歌有限责任公司 用于打通知识图谱的***、方法和计算机可读介质
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN110019471B (zh) * 2017-12-15 2024-03-08 微软技术许可有限责任公司 从结构化数据生成文本
CN108829696B (zh) * 2018-04-18 2019-10-25 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN108959613B (zh) * 2018-07-17 2021-09-03 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109146078B (zh) * 2018-07-19 2021-04-30 桂林电子科技大学 一种基于动态路径的知识图谱表示学习方法
CN109408811B (zh) * 2018-09-29 2021-10-22 联想(北京)有限公司 一种数据处理方法及服务器
CN110347798B (zh) * 2019-07-12 2021-06-01 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033260A (zh) * 2018-07-06 2018-12-18 天津大学 基于rdf的知识图谱交互式可视化查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NGAN T. DONG ET AL.: ""Natural Language Generation from Graphs"", INTERNATIONAL JOURNAL OF SEMANTIC COMPUTING, vol. 8, no. 3, JPN7022000177, 2014, pages 335 - 384, ISSN: 0004682586 *
片山 俊明: "「JavaScriptによるSPARQL検索結果の可視化ライブラリ」", 2015年度 人工知能学会全国大会(第29回)論文集[CD−ROM], vol. 1G3-OS-08b-1, JPN6022001201, 2015, pages 1 - 2, ISSN: 0004682587 *

Also Published As

Publication number Publication date
CN110347798A (zh) 2019-10-18
WO2020233261A1 (zh) 2020-11-26
JP7064262B2 (ja) 2022-05-10
CN110347798B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
JP7064262B2 (ja) 自然言語生成技術に基づく知識グラフ理解支援システム
Shigarov et al. Rule-based spreadsheet data transformation from arbitrary to relational tables
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
WO2021213314A1 (zh) 数据处理方法、装置及计算机可读存储介质
Zhao et al. Facilitating discourse analysis with interactive visualization
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
Utama et al. An end-to-end neural natural language interface for databases
Brando et al. REDEN: named entity linking in digital literary editions using linked data sets
WO2015043075A1 (zh) 面向微博的情感实体搜索***
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
US20230205996A1 (en) Automatic Synonyms Using Word Embedding and Word Similarity Models
Ta'a et al. Al-Quran ontology based on knowledge themes
Carta et al. Iterative zero-shot llm prompting for knowledge graph construction
Hu et al. Scalable aggregate keyword query over knowledge graph
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
Prudhomme et al. Automatic Integration of Spatial Data into the Semantic Web.
Cocco et al. Machine learning of SPARQL templates for question answering over LinkedSpending
Li et al. Neural factoid geospatial question answering
Isemann et al. Ontological access to images of fine art
CN114064913A (zh) 一种基于知识图谱的文档检索方法及***
To et al. Question-answering system with linguistic terms over RDF knowledge graphs
Borsje et al. Graphical query composition and natural language processing in an RDF visualization interface
CN114817510B (zh) 问答方法、问答数据集生成方法及装置
Xie et al. Research and implementation of automatic question answering system based on ontology
CN114840657A (zh) 一种基于混合模式的api知识图谱自适应构建及智能问答方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210609

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220415

R150 Certificate of patent or registration of utility model

Ref document number: 7064262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150