JP2024502730A - デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム - Google Patents

デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム Download PDF

Info

Publication number
JP2024502730A
JP2024502730A JP2023536557A JP2023536557A JP2024502730A JP 2024502730 A JP2024502730 A JP 2024502730A JP 2023536557 A JP2023536557 A JP 2023536557A JP 2023536557 A JP2023536557 A JP 2023536557A JP 2024502730 A JP2024502730 A JP 2024502730A
Authority
JP
Japan
Prior art keywords
column
data
vertex
data element
medical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023536557A
Other languages
English (en)
Other versions
JP7432801B2 (ja
Inventor
▲勁▼松 李
然 辛
宗峰 ▲楊▼
天舒 周
雨 田
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2024502730A publication Critical patent/JP2024502730A/ja
Application granted granted Critical
Publication of JP7432801B2 publication Critical patent/JP7432801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明は、デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムを提供する。【解決手段】本発明は、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することにより、デプスマップマッチングモデルの効果が同様に極低メタデータ情報の局所的なデータスワンプの状況に適用可能であり、最も少ないメタデータ情報を使用してデータエレメント自動化分類を完了する目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証する。表示学習方法に基づいて医療データエレメントのベクトル表現を算出し、ベクトル表現の分類により、標準データモデルへマッチング可能な有効データエレメントを迅速で自動化選別する。グラフ注意機構に基づいて列頂点のベクトル表現を算出し、デプスマップマッチングモデルを構築して医療データエレメントの自動化分類を完了する。本発明の方法及びシステムは、良好な拡張可能性を有し、各種のデータスワンプからデータレイクへの変換問題の処理に適用可能である。【選択図】図1

Description

本発明は、地域性医療ビッグデータセンター、データ生産プラットフォーム分野に属し、特にデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムに関する。
医療情報化の建設及び発展に伴い、ビッグデータと医療サービスとの融合は、スマート医療技術の継続的な向上を促進する。現在、スマート医療は、既に雛形を有し、地域性医療機関は、医療機関連体又は医者共同体を構成し且つ統一された医療ビッグデータセンターを構築して後続のインテリジェント医療データ管理システムの発展の必然的な傾向を達成する。しかしながら、医療機関の形態が異なる情報プラットフォーム、ソフトウェア及び構造が複雑であるシステムは、異なる機構プラットフォームの間にデータの共有と対話を実現することができず、データが断片化し、データアイランドを形成する。地域性医療機関の間に医療ビッグデータセンターを構築するプロセスにおいて、常に機構内のデータ(特に履歴の古いデータ)が管理不足であることを発見し、情報システム文書が効果的なメンテナンスを欠いており、フィールドメモが紛失し、文書の品質が低下し、データの血縁を迅速に効果的に遡り、局所的なデータスワンプを形成することが困難である。従来の医療ビッグデータセンターの開発過程において、各医療機関情報化部門及び情報システムは、メーカーの関連担当者が医療ビッグデータセンターの開発者と協力して標準データモデル(例えば、OMOP CDM)に基づいて開発されたデータインターフェース(データベースビュー、データ辞書を含む)に基づいてデータ発見、分類及びデータ関連マッピングタスクを完了し、且つ手動分類及び関連マッピングを完了するデータが標準データモデルに対応する標準データベースに存在する必要がある。データソースの多様性、データスワンプの密集及び予測不可能性は、一般的にデータインターフェース開発期間が長く、協調過程が複雑であり、リワーク回数が多いなどの問題をもたらし、大量の人力物資財力を消費し、地域性医療ビッグデータセンターの迅速な自動化構築を阻害すると同時に、後続の医療データの更なる利用に多くの困難をもたらす。
医療ビッグデータセンターの開発過程におけるデータ発見、分類及びデータ関連マッピングタスクは、医療データエレメントの選別、分類タスク、及び分類された医療データエレメント関連マッピングタスクに抽象化することができる。まず、プラットフォーム開発者の設計者は、標準データモデルに基づいて標準データエレメントの分類体系及び対応するデータインターフェース仕様を定義する。その後、開発者は、ルール検索及び手動検索選別によりデータインターフェース仕様に合致するデータエレメントを決定し、この過程は、データ発見と呼ばれ、データ発見プロセスは、プラットフォーム開発過程において医療機関データレイク内のどのデータエレメントが収集されるべきかを決定する。開発者は、データ発見の結果に基づいてデータインターフェースを開発し、且つデータ収集作業を完了する。最後に、開発者は、医療機関データレイク内の多源異性のデータエレメントを標準データエレメントの分類体系に応じて分類し、標準データエレメントの分類体系に統合してマッピングする。
従来技術の欠点は、主に以下の2つの点で体現される。
1)医療機関情報システムの数が多く、プロバイダのソースが異なり、データ収集プロセスが複雑であり、大量の工数に依存し、医療ビッグデータセンターの建設とビッグデータアプリケーションの効果的な展開を阻害する。三甲レベルの医療機関の情報システムの数は、100~300に達することができ、巨大なデータレイクを形成する。データレイク中のデータ量が大きく、関係が複雑であるため、データインターフェース開発段階のデータ発見作業が医療機関情報化部門及び情報システムプロバイダの担当者の長期的な協力に依存する必要があることは、決まっている。データインターフェースの間が互いに繋がり、データ発見動作の人件費が大きく、消費時間が長い。中のフローに故障が発生すると、問題の検査過程は、非常に複雑である。これは、医療ビッグデータセンターの開発及びビッグデータアプリケーションの効果的な展開を大幅に阻害する。
2)医療機関情報システムの更新が頻繁であり、履歴システムのドキュメントのメンテナンスが困難であり、欠けが深刻であるなどの一般的な問題は、医療機関のデータレイク内に局所的なデータスワンプを形成し、更にデータインターフェース開発の難しさを増加させる。医療データは、患者の診療プロセスにおいて生成された診療データ及び医療機関の運営過程における観測データを含み、供給源が多様であり、関係が複雑である。医療機関情報システムのバージョンのオーバラップに伴い、履歴データは、医療機関データレイク中に沈んで有効的な管理に欠け、局所的なデータスワンプを形成する。医療ビッグデータセンターの構築は、これらの履歴データを統合する必要があり、データスワンプからデータレイクへの変換を完了する。医療機関情報化部門及び情報システムのプロバイダの関連担当者が頻繁に交代し、履歴システムの文書の紛失が時々発生する。文書の紛失に対し、データインターフェース開発者は、繰り返し試行錯誤の方法で医療機関データレイク中の全ての可能なデータについて手動選別を行ってデータ発見を完了するしかできない。医療機関情報システムの数が多く且つ関連関係が複雑であるため、手動選別の方法は、医療機関データレイクのグローバル情報を効果的に利用することが困難であり、時間がかかり、エラー率が高く、データ発見動作の動作周期及び難しさを大幅に増加させる。データレイク内データ間の関連構造が複雑すぎて手動で許容できる程度を超える場合、対応するデータインターフェースの開発を放棄するしかできない。これにより、対応する種別のデータは、関連マッピング可能なデータを見つけることができず、当該分類のデータ紛失をもたらす。
医療ビッグデータセンターの構築過程において、医療機関の局所的なデータスワンプが普遍的に存在するなどの問題により、データインターフェースの開発時間が長く、メンテナンスが困難である。従来の解決手段は、手動処理に依存し、大量データのデータ発見、分類及び関連マッピング問題を大規模に完了することが困難である。医療機関データレイク内の多源異性のデータは、未知の分類のデータエレメントで構成された選別すべき医療データエレメントセットに抽象化することができる。過去の数年に、グラフニューラルネットワークの勃興及び運用の成功は、グラフ構造データの深層学習モードの発展を促進する。
本発明は、グラフニューラルネットワークに基づくデプスマップマッチングアルゴリズムを利用し、手動処理に基づくデータエレメント分類方法を改善し、情報システムデータ文書に対する依存を最大限に低減し、医療機関データレイク内の極めて少ないメタデータ情報のみを取得する条件下で、医療データテキスト意味に基づいて有効データエレメントの迅速な選別を実現し、医療機関データレイク内データの自動化データ発見を実現し、デプスマップマッチングアルゴリズムに基づいて医療データエレメントの迅速な分類を実現し、医療機関データレイク内データエレメントの標準データエレメント分類体系への自動化分類及び関連マッピングを実現し、医療ビッグデータセンターの開発過程におけるデータインターフェース開発の効率を大幅に向上させる。本発明に係るデータエレメントの分類方法は、良好な拡張可能性を有し、様々なデータスワンプからデータレイクへの変換問題の処理に適用することができる。
本発明の目的は、以下の解決手段によって実現される。
本発明の一態様は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、ステップ(1)~ステップ(3)を含み、
前記ステップ(1)では、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記ステップ(2)では、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(3)では、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
更に、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスである。
更に、前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含む。
更に、前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、
Figure 2024502730000002
とされ、
Figure 2024502730000003
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
Figure 2024502730000004
にて求められ、
mは、第j行の全文字数であり、
Figure 2024502730000005
は、データ
Figure 2024502730000006
を構成する文字であり、文字
Figure 2024502730000007
の初期ベクトル表現
Figure 2024502730000008
は、テキスト表示モデル
Figure 2024502730000009
で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
Figure 2024502730000010
においてn行データ
Figure 2024502730000011
はランダムに抽出され、第j行データのベクトル表現は、
Figure 2024502730000012
にて求められ、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
Figure 2024502730000013
での各行のデータの相関性を算出し、列頂点
Figure 2024502730000014
の列ベクトル表現
Figure 2024502730000015
を取得し、
Figure 2024502730000016
は、列頂点
Figure 2024502730000017
のベクトル表現であり、
Figure 2024502730000018
にて求められ、
Figure 2024502730000019
は、
Figure 2024502730000020
にて求められ、
Figure 2024502730000021
は、
Figure 2024502730000022
の次元であり、softmaxは、softmax関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含む。
更に、前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
選別すべき医療データエレメントグラフデータに格納された列頂点
Figure 2024502730000023
について、
Figure 2024502730000024
が除外された列頂点セットからp個の列頂点
Figure 2024502730000025
をランダムに抽出し、列頂点
Figure 2024502730000026
と抽出された列頂点との相関性を算出することにより、
Figure 2024502730000027
の医療データエレメントグラフデータモデルにおける重要度スコア
Figure 2024502730000028
を算出することを含み、
Figure 2024502730000029
は、
Figure 2024502730000030
によって定義され、
Figure 2024502730000031
を満たし、
Figure 2024502730000032
は、重要度関数である。
更に、前記医療データエレメント選別モデルのトレーニング及び予測は、具体的に、
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
Figure 2024502730000033
とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
Figure 2024502730000034
とし、
トレーニング時に、セット
Figure 2024502730000035
からq個の列頂点を正のサンプルセット
Figure 2024502730000036
としてランダムに抽出し、セット
Figure 2024502730000037
からq個の列頂点を負のサンプルセット
Figure 2024502730000038
としてランダムに抽出に、サンプル
Figure 2024502730000039
の重要度スコアを
Figure 2024502730000040
とし、
Figure 2024502730000041
を第i個の列頂点とし、
Figure 2024502730000042
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
Figure 2024502730000043

Figure 2024502730000044
により算出し、
前記医療データエレメント選別モデルは、予測時に、閾値
Figure 2024502730000045
を算出することにより、列頂点
Figure 2024502730000046
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
Figure 2024502730000047
計算式は、
Figure 2024502730000048
であり、
Figure 2024502730000049
≧0.5の場合に、列頂点
Figure 2024502730000050
は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
更に、前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
Figure 2024502730000051
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
Figure 2024502730000052
とし、
Figure 2024502730000053
の標準データエレメント分類体系における分類が
Figure 2024502730000054
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
Figure 2024502730000055
とし、医療データエレメント分類過程を、列頂点
Figure 2024502730000056
との合致度が最も高い列頂点
Figure 2024502730000057

Figure 2024502730000058
において見つけ出すことに抽象化させることにより、列頂点
Figure 2024502730000059
に対応する列の分類を
Figure 2024502730000060
として特定し、
列頂点
Figure 2024502730000061
について、
Figure 2024502730000062
に対応する列から
Figure 2024502730000063
個のデータ
Figure 2024502730000064
をランダムに抽出し、列頂点
Figure 2024502730000065
について、
Figure 2024502730000066
に対応する列から
Figure 2024502730000067
個のデータ
Figure 2024502730000068
をランダムに抽出する、
Figure 2024502730000069

Figure 2024502730000070
との合致度
Figure 2024502730000071
は、
Figure 2024502730000072
にて求められ、
Figure 2024502730000073
は、データ
Figure 2024502730000074
のベクトル表現を表し、
Figure 2024502730000075
に対応するシード頂点は、それとの合致度が最も高い列頂点
Figure 2024502730000076
となり、
Figure 2024502730000077
は、
Figure 2024502730000078
にて求められる。
更に、前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
分類すべき医療データエレメントグラフデータ中の、
Figure 2024502730000079
とは親子関係を有する列頂点セットを
Figure 2024502730000080
で示し、分類すべき医療データエレメントグラフデータ中の、
Figure 2024502730000081
とは外部キー関係を有する列頂点セットを
Figure 2024502730000082
で示すと、シード頂点
Figure 2024502730000083
によるカットで得られたサブグラフ
Figure 2024502730000084
は、
Figure 2024502730000085
にて求められ、
標準分類医療データエレメントグラフデータ中の、
Figure 2024502730000086
とは同一の親頂点に対応付けられた列頂点セットを
Figure 2024502730000087
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
Figure 2024502730000088
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
Figure 2024502730000089
中の列頂点に1つずつマッチングさせて、
Figure 2024502730000090
中の列頂点に対応する医療データエレメントの分類を図ることである。
前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
Figure 2024502730000091
のベクトル表現
Figure 2024502730000092
を算出し、
Figure 2024502730000093
は、
Figure 2024502730000094
にて求められ、
Figure 2024502730000095

を満たし、
Figure 2024502730000096
は、列頂点
Figure 2024502730000097
に対応する列からランダムに抽出された
Figure 2024502730000098
個のデータであり、
Figure 2024502730000099
は、
Figure 2024502730000100
中の列頂点
Figure 2024502730000101
の列頂点
Figure 2024502730000102
に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
Figure 2024502730000103
のベクトル表現
Figure 2024502730000104
を算出し、
Figure 2024502730000105
は、
Figure 2024502730000106
にて求められ、
Figure 2024502730000107
を満たし、
Figure 2024502730000108
は、列頂点
Figure 2024502730000109
に対応する列からランダムに抽出された
Figure 2024502730000110
個のデータであり、
Figure 2024502730000111
は、
Figure 2024502730000112
中の列頂点
Figure 2024502730000113
の列頂点
Figure 2024502730000114
に対する重み関数を示し、
列頂点
Figure 2024502730000115
と列頂点
Figure 2024502730000116
との合致度
Figure 2024502730000117
は、
Figure 2024502730000118
にて求められ、
Figure 2024502730000119
との合致度が最も高い列頂点
Figure 2024502730000120
は、
Figure 2024502730000121
にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点
Figure 2024502730000122
に対応する列の分類は、
Figure 2024502730000123
に対応する標準データエレメント分類体系中の種別である。
本発明の別の態様は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを提供する。当該システムは、
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
本発明は、以下の有利な作用効果を有する。
1)本発明は、医療機関データレイクに格納された極めて少ないメタデータ情報のみを利用し、医療データエレメントグラフデータモデルを使用して医療機関内の医療データエレメントの正規化収集、及び、スクリーニング、分類すべき医療データエレメントとの間の関係情報の十分な利用を実現した。
2)本発明の方法では、データ発見、分類及び関連マッピングのプロセスの医療機関情報システム履歴文書への依存度が低減され、履歴文書の欠失やエラーの医療データエレメントの分類結果に対する影響が小さい。
3)本発明の方法は、データ発見、分類及び関連マッピングのプロセスへの人工介入を大幅に減少させ、分類すべき医療データエレメントを人工知能アルゴリズムによって分類し、医療ビッグデータセンターデータのリアルタイム更新及び動的収集、深い利用需要に存在する医療データエレメント自動化分類の難関に対してヒューリスティックな解決手段を提供した。
本発明の方法の全体フローチャートである。 従来の医療データエレメント分類方法のフローチャートである。 本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法の実施過程の模式図である。 医療データエレメントグラフデータモデルの1つの例示である。 多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピングの模式図である。
本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。
本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。
以下では、まず、本発明に係る用語について説明する。
メタデータ:他のデータを記述するデータである。メタデータは、データに関するデータであり、ある単独のデータを指すものではないときもあり、データを記述するための1グループの情報グループ/データグループとして理解され得る。当該情報グループ/データグループにおける全てのデータ、情報がいずれもあるデータのある方面の特徴を記述/反映すると、当該情報グループ/データグループは、メタデータと呼ばれる。メタデータは、データについて、ある要素又は属性(名称、サイズ、データ型等)、又はその構造(長さ、フィールド、データ列)、又はその関連データ(どこに位置するか、どのように連絡するか、所有者)を説明してもよい。日常生活において、メタデータは、どこにもある。1類の物事があれば、1セットのメタデータを定義することができる。
データエレメント:データの基本的なユニットと理解され得る。衛生情報基本データエレメントは、の仕様及び医薬衛生分野における全ての関連情報の唯一の中国語名称及びコードを規定及び定義し、且つコードは、アルファベット、漢字、数字の文字列形式で示される。データエレメントは、特定の意味環境における1つの情報リソースを列挙して定義する。完全なデータエレメント名称=対象類用語+特徴類用語+表現類用語+(限定類用語)を表す。
データエレメントとメタデータの区別及び関連:メタデータは、データエレメントが表すデータを理解するために必要な全ての情報をカバーする可能性がない。データエレメントの関連情報は、何れか(組織の)のメタデータの完全な構成部分である。メタデータの各要素は、いずれも1つのデータエレメントであり、データエレメント標準に合致するメタデータ属性及び記述方法でメタデータを説明する。メタデータをライブラリに格納する。メソッド化するために、モデル化が必要である。モデル化には、データエレメントの登録システム又はライブラリからメタデータを取得する必要がある。メタデータは、一致且つ標準的な方式で表現されたデータエレメントである。メタデータとデータエレメント辞書フォーマットは、いずれも行番号、中国語名、英語名、識別子(フレーズ)、定義、制約/条件、最大出現回数、データ型、データの値域などの属性で構成される。相違点は、データエレメント辞書フォーマットには、コンテキスト及び同義語の名称等の属性が別途あることにある。
データレイク:データレイクは、システム又は格納ライブラリにネイティブフォーマットでデータを格納する方法であり、それは、様々なモード及び構造形式でデータを配置することに役立ち、一般的に対象ブロック又はファイルである。データレイクの主な思想は、企業における全てのデータを統一的に格納し、生データ(ソースシステムデータの正確なコピー)から報告、可視化、分析及び機械学習等の様々なタスクに用いられる目標データに変換することである。中国国内は、一般的にHDFS全体をデータウェアハウス(広義)、すなわち全てのデータを格納する場所と呼ばれ、国外は、一般的にデータレイク(data lake)と呼ばれる。データレイクが管理不足である場合、データスワンプを形成する。データレイクの構築が容易であるが、データレイクに価値を発揮させることは、困難である。最終的に、データレイクは、中にデータを入れるだけであり、応用シーンが極めて少なく、出力がない又は極めて少なく、単方向レークを形成する。データレイクを使用する大部分の企業は、データの使用を真に必要とする時にデータレイク中のデータが品質が悪いため最終的に使用できなくなる場合がよくある。
グラフニューラルネットワーク:過去の数年において、ニューラルネットワークの勃興及び運用の成功は、パターン認識及びデータマイニングの研究を促進する。特徴の手動抽出に大きく依存する多くの機械学習タスク(例えば、目標検出、機械翻訳及び音声認識)は、現在、様々なエンドツーエンドの深層学習ノルムにより徹底的に変更される。従来の深層学習方法がユークリッド空間データの特徴を抽出する方面で巨大な成功を取得するが、多くの実際応用シーンにおけるデータは、非ユークリッド空間から生成される。従来の深層学習方法は、非ユークリッド空間データを処理する効果が依然として不足である。図中の各データサンプル(ノード)には、いずれも図中の他の実データサンプルに関連する辺がある。これらの情報は、実例の間の相互依存関係をキャプチャするために用いられてもよい。グラフニューラルネットワークは、グラフ構造データ(非ユークリッド空間)に適用されるニューラルネットワークである。
デプスマップマッチング:グラフマッチングは、人工知能における典型的な問題であり、幾つかの分野にも重要な応用があり、例えばコンピュータビジョンにおいて2D/3D形状にマッチングし、生体情報学においてタンパク質ネットワークにマッチングし、ソーシャルネットワークにおいて異なるネットワーク中のユーザ等にマッチングする。デプスマップマッチングは、グラフニューラルネットワークに基づいてマップマッチング問題を解決する方法である。
図1に示すように、本発明は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、以下のステップ(1)~(3)を含む。
(1)多源異性データエレメントの正規化収集及びマッピングは、
最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することと、
医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納することとを含む。
(2)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。
(3)分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
図2は、従来の医療データエレメント分類方法のフローチャートである。以下では、本発明の方法の各部分の実施過程は、図3に詳細に記述されている。
一、多源異性データエレメントの正規化収集及びマッピング
1.1 医療データエレメントグラフデータモデルの定義
医療機関データは、集められてデータレイクを形成し、データレイクのデータは、多源異性の特性を有し、医療過程における診療過程及び医療機関の運営過程の観測データを含み、観測データベースの目的及び設計は、それぞれ異なる。診療プロセスで形成された電子カルテは、臨床実践をサポートすることを目的とし、医療機関運営データは、院内管理及び医療保障清算フローで構築される。各種類が異なる目的のために収集されるため、データは、異なる論理組織及び物理フォーマットを有する。
データモデルは、データベース設計において現実世界を抽象するためのツールであり、標準且つ統一のデータモデルを作成することにより、データ構造、データ操作、データ制約を定義し、収集されたデータ品質及びデータが表す標準の制御可能性を効果的に保証することができ、グラフデータモデルは、グラフデータベースに基づいて開発されたデータモデルである。
データレイク中のデータベースタイプが異なるため、データテーブル、データ列間の関係が複雑である。医療機関内の観測データの時間スパンが大きく、一般的にデータベース文書情報が欠失する現象が存在する。本発明に言及されたデプスマップマッチングモデルの効果を同様に極低メタデータ情報の局所的なデータスワンプの状況に適用するために、最小のメタデータ情報を使用しデータエレメントの自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証し、本発明は、データレイク内データベースの最小メタデータ情報に基づいて、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療ビッグデータセンターの確立過程における医療データエレメントの自動化分類のためにヒューリスティックな解決手段を提供する。
グラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点Vertexと辺Edgeとの2種の図要素で構成される。頂点は、ラベルと、ラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表す。頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含む。
本発明で定義される医療データエレメントグラフデータモデルの頂点の本体情報は、下の表に示される。
(表1)医療データエレメントグラフデータモデルの頂点の本体情報表
Figure 2024502730000124
ここでvidは、図における各頂点の唯一のインデックスidであり、ハッシュハッシュコードを統一して使用することができる。vector_embeddleは、列ベクトル表現モデルで予測された列ベクトル表現結果である。
グラフデータモデルにおいて、辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、有向辺は、1つの頂点(始点src)からもう1つの頂点(終点dst)へ指す関連関係を表す。辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含む。
本発明で定義される医療データエレメントグラフデータモデルの辺の本体情報は、下の表に示される。
(表2)医療データエレメントグラフデータモデルの辺の本体情報表
Figure 2024502730000125
図4は、医療データエレメントグラフデータモデルの1つの例示である。
1.2 多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピング
本発明のデータ収集及び関連マッピング過程において、多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成する。メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャする。列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得する。最後グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得する。図5を参照すると、具体的な実現形態は、以下に記述される。
(1)メタデータ収集ツール
a)データベース適応:医療機関内のデータレイクは、一般的に異なるタイプのデータベースを含み、メタデータ収集ツールは、異なるタイプのデータベースに対してデータベース適応モジュールを開発して適合を実現する必要がある。
b)解析構成:最終的な関連マッピング目標は、医療データエレメントグラフデータモデルであるため、収集情報は、メタデータ中のテーブル列情報、血縁関係情報及び各列の外部キー情報のみを収集するように配置される一方、主キー、制約、インデックス、権限、トリガなどの一般的なメタデータは、収集範囲内にない。
c)メタデータのキャプチャ:解析配置状況について、データレイク内の各データベースに対してメタデータのキャプチャ操作を実行する。
d)データ関連:データベース適応状況に対して、異なるタイプのデータベースのフィールド型をグラフデータベースのデータ型に統一的にマッピングする。例えば、oracleデータベースのvarchar2型及びMySQLデータベースのvarchar型は、グラフデータベースのstring型に統一的にマッピングされ、他のタイプのデータベースは、同様である。
(2)列ベクトル生成器
列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出する。
a)列ベクトル表現モデルのトレーニング
列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列と略称される。
標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有する。
医療データエレメントグラフデータ中の列頂点ベクトル表現方法を取得することは、対応する医療データエレメントセットにおける列に格納されたデータをテキストデータに変換し、各列のテキストデータの頭尾にそれぞれ[CLS]、[SEP]を加えてデータの先頭及び終了を示す。
標準分類医療データエレメントグラフデータにおける列頂点セットは、
Figure 2024502730000126
とされ、
Figure 2024502730000127
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
Figure 2024502730000128
にて求められ、
mは、第j行の全文字数であり、
Figure 2024502730000129
は、データ
Figure 2024502730000130
を構成する文字である。テキスト表示モデル
Figure 2024502730000131
によって文字
Figure 2024502730000132
の初期ベクトル表現
Figure 2024502730000133
を算出する。テキスト表示モデル
Figure 2024502730000134
は、Transformerモデルに基づくトランスフォーマーからの双方向エンコーダ表現モデル(BERTモデル)を採用してもよい。標準分類医療データエレメントグラフデータの列頂点
Figure 2024502730000135
において
Figure 2024502730000136
行データ
Figure 2024502730000137
をランダムに抽出し、第j行データのベクトル表現は、
Figure 2024502730000138
にて求められ、
自己注意機構(self-attention)基づいて標準分類医療データエレメントグラフデータ中の列頂点
Figure 2024502730000139
での各行のデータの相関性を算出し、列頂点
Figure 2024502730000140
の列ベクトル表現
Figure 2024502730000141
を取得し、
Figure 2024502730000142
は、列頂点
Figure 2024502730000143
のベクトル表現であり、
Figure 2024502730000144
にて求められ、
Figure 2024502730000145
は、
Figure 2024502730000146
にて求められる。
ただし、
Figure 2024502730000147
は、列頂点
Figure 2024502730000148
のベクトル表現であり、
Figure 2024502730000149
は、
Figure 2024502730000150
の次元であり、softmaxは、softmax関数である。
より正確な列頂点ベクトル表現を得るために、十分な量の標準分類列をトレーニングデータとして蓄積した場合に、標準分類列データを用いて列ベクトル表現モデルに対して更なる移動学習を行ってもよい。列単位で、対応する列データ中の15%の文字をランダムに上書きし、上書きされた文字を[MASK]ラベルを使用して置換する。列ベクトル表現モデルを用いて、上書きされる文字を予測して更にトレーニングしてモデルを更新する。このようにして得られた列ベクトル表現モデルは、有効データエレメントの選別タスクに一層フィットする。
b)列ベクトル表現モデルの予測
列ベクトル表現モデルの予測データは、データレーク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースする。選別すべき医療データエレメントセットに存在する列データ量が大きすぎることにより列ベクトル生成器の性能が低下することを回避するために、列ベクトル表現モデルを用いて列ベクトル表現を算出する過程において、ランダム抽出の方式(例えばランダムに単列1000個のデータを抽出し、100回抽出する)を使用することができ、列ベクトル表現モデルを用いて列頂点
Figure 2024502730000151
をs回目に抽出した列ベクトル表現
Figure 2024502730000152
を算出する。予測の複数回の抽出された列ベクトル表現結果について平均値を求め、
Figure 2024502730000153
の最終的な列ベクトル表現を
Figure 2024502730000154
とし、
Figure 2024502730000155
を医療データエレメントグラフデータモデルの列頂点
Figure 2024502730000156
のvector_embeddings属性内に格納する。
(3)グラフデータ関連マップ
計算して得られた選別すべき医療データエレメントセットにおける各列の列ベクトル表現、及びメタデータの収集結果を、それぞれ医療データエレメントグラフデータモデルにおける頂点と辺に対応する対象に対応付けてマッピングし、医療データエレメントグラフデータモデルをデータ標準とする選別すべき医療データエレメントグラフデータに入庫し、対応するマッピング関係は、以下の表に示される。
(表3)グラフデータ関連マッピング表
Figure 2024502730000157
二、有効医療データエレメントの迅速且つ自動化選別
医療機関内のデータレイクに格納された情報タイプが多く、標準データモデルのデータカバー範囲に比べて、一般的に大量の情報冗長が存在し、有効医療データエレメントを迅速で自動化選別するために、医療データエレメント自動化分類タスクを行う前に、選別すべき医療データエレメントセットにおけるデータエレメントを選別し、データエレメントの分類タスクの複雑度を低下させることができる。本発明は、有効医療データエレメントを迅速で自動化選別する方法を提供し、当該方法は、以下の2つステップを含む。(1)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出する。(2)医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、その中の有効医療データエレメントを選別して分類すべき医療データエレメントセットを構成する。
2.1 列頂点ベクトル表現に基づいて列頂点の医療データエレメントグラフデータモデルにおける重要度を算出する
選別すべき医療データエレメントグラフデータに格納された列頂点と選別すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。選別すべき医療データエレメントグラフデータに格納された列頂点
Figure 2024502730000158
について、
Figure 2024502730000159
が除外された列頂点セットからp個の列頂点
Figure 2024502730000160
をランダムに抽出し、列頂点
Figure 2024502730000161
と抽出された列頂点との相関性を算出することにより、
Figure 2024502730000162
の医療データエレメントグラフデータモデルにおける重要度スコア
Figure 2024502730000163
を算出する。
Figure 2024502730000164
は、
Figure 2024502730000165
によって定義され、
Figure 2024502730000166
を満たす。
Figure 2024502730000167
は、重要度関数である。
2.2 医療データエレメント選別モデルのトレーニング及び予測
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
Figure 2024502730000168
とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
Figure 2024502730000169
とする。
トレーニング時に、セット
Figure 2024502730000170
からq個の列頂点を正のサンプルセット
Figure 2024502730000171
としてランダムに抽出し、セット
Figure 2024502730000172
からq個の列頂点を負のサンプルセット
Figure 2024502730000173
としてランダムに抽出し、サンプル
Figure 2024502730000174
の重要度スコアを
Figure 2024502730000175
とし、
Figure 2024502730000176
を第i個の列頂点とし、
Figure 2024502730000177
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
Figure 2024502730000178

Figure 2024502730000179
により算出し、
Adamアルゴリズムによって重要度関数を更新する際に、医療データエレメント選別モデルを更新する。
前記医療データエレメント選別モデルは、予測時に、閾値
Figure 2024502730000180
を算出することにより、列頂点
Figure 2024502730000181
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
Figure 2024502730000182
の計算式は、
Figure 2024502730000183

であり、
Figure 2024502730000184
≧0.5の場合に、列頂点
Figure 2024502730000185
は、有効列頂点であり、対応する列は、有効データエレメントであり、
最終的に選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
三、デプスマップマッチングモデルに基づいて医療データエレメントの種別を特定する
3.1 分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する
分類すべき医療データエレメントグラフデータに格納された列頂点と分類すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
Figure 2024502730000186
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
Figure 2024502730000187
とし、
Figure 2024502730000188
の標準データエレメント分類体系における分類が
Figure 2024502730000189
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
Figure 2024502730000190
とすると、医療データエレメント分類過程を、列頂点
Figure 2024502730000191
との合致度が最も高い列頂点
Figure 2024502730000192

Figure 2024502730000193
において見つけ出すことに抽象化させてもよい。これにより、列頂点
Figure 2024502730000194
に対応する列の分類を
Figure 2024502730000195
として特定する。医療ビッグデータセンター開発過程におけるデータ分類及び関連マッピング過程は、標準データエレメント分類体系の全ての分類
Figure 2024502730000196
について、合致度が最も高い
Figure 2024502730000197
を見つけ出すことに抽象化されてもよい。
標準データモデルをデータ標準とする標準データベースにおける幾つかの列のデータのフォーマット又はコンテンツが比較的に統一であり、それとの関連マッピング関係を有する標準分類医療データエレメントセットの列のフォーマット又はコンテンツも比較的に統一となる。まずこれらの列に対応する頂点を分類すべき医療データエレメントグラフデータにおける対応する頂点(シードノードと呼ばれる)に位置決めすれば、デプスマップマッチングモデルの検索空間を絞り込むことができ、それによりその効率を向上させる。列頂点
Figure 2024502730000198
について、
Figure 2024502730000199
に対応する列から
Figure 2024502730000200
個のデータ
Figure 2024502730000201
をランダムに抽出し、分類すべき医療データエレメントグラフデータ中の列頂点
Figure 2024502730000202
について、同様に
Figure 2024502730000203
に対応する列から
Figure 2024502730000204
個のデータ
Figure 2024502730000205
をランダムに抽出すると、
Figure 2024502730000206

Figure 2024502730000207
との合致度
Figure 2024502730000208
は、
Figure 2024502730000209
にて求められ、

ただし、
Figure 2024502730000210
は、データ
Figure 2024502730000211
のベクトル表現を表し、
Figure 2024502730000212
に対応するシード頂点は、それとの合致度が最も高い列頂点
Figure 2024502730000213
となり、
Figure 2024502730000214
は、
Figure 2024502730000215
にて求められる。
3.2 シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う
分類すべき医療データエレメントグラフデータ中の、
Figure 2024502730000216
とは親子関係を有する列頂点セットを
Figure 2024502730000217
で示し、分類すべき医療データエレメントグラフデータ中の、
Figure 2024502730000218
とは外部キー関係を有する列頂点セットを
Figure 2024502730000219
で示すと、シード頂点
Figure 2024502730000220
によるカットで得られたサブグラフ
Figure 2024502730000221
は、
Figure 2024502730000222
にて求められ、
標準分類医療データエレメントグラフデータ中の、
Figure 2024502730000223
とは同一の親頂点に対応付けられた列頂点セットを
Figure 2024502730000224
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
Figure 2024502730000225
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
Figure 2024502730000226
中の列頂点に1つずつマッチングさせて、
Figure 2024502730000227
中の列頂点に対応する医療データエレメントの分類を図る。
3.3 デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する
医療データエレメント分類過程は、以下のステップを含む。
(1)グラフ注意機構を組み合わせ、標準分類医療データエレメントグラフデータ中の列頂点
Figure 2024502730000228
のベクトル表現
Figure 2024502730000229
と分類すべき医療データエレメントグラフデータの列頂点
Figure 2024502730000230
のベクトル表現
Figure 2024502730000231
とをそれぞれ算出する。具体的に、
グラフ注意機構に基づいて、
Figure 2024502730000232
のベクトル表現
Figure 2024502730000233
を算出し、
Figure 2024502730000234
は、
Figure 2024502730000235
にて求められ、
Figure 2024502730000236

を満たし、
Figure 2024502730000237
は、列頂点
Figure 2024502730000238
に対応する列からランダムに抽出された
Figure 2024502730000239
個のデータであり、
Figure 2024502730000240
は、
Figure 2024502730000241
中のある列頂点
Figure 2024502730000242
の列頂点
Figure 2024502730000243
に対する重み関数を表す。具体的な計算式は、
Figure 2024502730000244
である。
Figure 2024502730000245
は、非線形活性化関数であり、
Figure 2024502730000246
は、トレーニングによって得られた行列パラメータである。
グラフ注意機構に基づいて、
Figure 2024502730000247
のベクトル表現
Figure 2024502730000248
を算出し、
Figure 2024502730000249
は、
Figure 2024502730000250
にて求められ、
Figure 2024502730000251
を満たし、
Figure 2024502730000252
は、列頂点
Figure 2024502730000253
に対応する列からランダムに抽出された
Figure 2024502730000254
個のデータであり、
Figure 2024502730000255
は、
Figure 2024502730000256
中のある列頂点
Figure 2024502730000257
の列頂点
Figure 2024502730000258
に対する重み関数を表す。具体的な計算式は、
Figure 2024502730000259
である。
Figure 2024502730000260
は、非線形活性化関数であり、
Figure 2024502730000261
は、トレーニングによって得られた行列パラメータである。
(2)全ての
Figure 2024502730000262

Figure 2024502730000263
との合致度を算出し、合致度に基づいて列頂点
Figure 2024502730000264
の分類を算出し、それ相応に、分類すべき医療データエレメントセット中の
Figure 2024502730000265
に対応する列の分類結果を取得する。
標準分類医療データエレメントグラフデータの列頂点
Figure 2024502730000266
と分類すべき医療データエレメントグラフデータの列頂点
Figure 2024502730000267
との合致度
Figure 2024502730000268
は、
Figure 2024502730000269
にて求められ、
Figure 2024502730000270
との合致度が最も高い列頂点
Figure 2024502730000271
は、
Figure 2024502730000272
にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点
Figure 2024502730000273
に対応する列の分類が
Figure 2024502730000274
に対応する標準データエレメント分類体系中の種別であることを表明する。
本発明の実施例は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを更に提供する。当該システムは、多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える。
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納する。当該モジュールの実現は、上記ステップ一を参照可能である。
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。当該モジュールの実現は、上記ステップ二を参照可能である。
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。当該モジュールの実現は、上記ステップ三を参照可能である。
本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムは、以下の重要点を有する。
1)医療機構内のデータレイクの最小メタデータ情報を基に、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することにより、デプスマップマッチングモデルの効果は、同様に極低メタデータ情報の局所的なデータスワンプの状況に適用可能であり、最も少ないメタデータ情報を使用してデータエレメント自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証する。
2)表示学習方法に基づいて医療データエレメントのベクトル表現を算出し、ベクトル表現の分類により、標準データモデルへマッチング可能な有効データエレメントを迅速で自動化選別する。
3)グラフ注意機構に基づいて列頂点のベクトル表現を算出し、デプスマップマッチングモデルを構築して医療データエレメントの自動化分類を完了する。
上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims (9)

  1. デプスマップマッチングに基づく医療データエレメント自動化分類方法であって、
    ステップ(1)~ステップ(3)を含み、
    前記ステップ(1)では、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
    前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
    前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
    前記ステップ(2)では、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
    前記ステップ(3)では、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とする視覚フィードバックに基づく指力機能可視化異常検出システム。
  2. 前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
    多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
    メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
    列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
    グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含むことを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  3. 前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
    前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
    標準分類医療データエレメントグラフデータにおける列頂点セットは、
    Figure 2024502730000275
    とされ、
    Figure 2024502730000276
    は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
    Figure 2024502730000277
    にて求められ、mは、第j行の全文字数であり、
    Figure 2024502730000278
    は、データ
    Figure 2024502730000279
    を構成する文字であり、文字
    Figure 2024502730000280
    の初期ベクトル表現
    Figure 2024502730000281
    は、テキスト表示モデル
    Figure 2024502730000282
    で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
    Figure 2024502730000283
    においてn行のデータ
    Figure 2024502730000284
    はランダムに抽出され、第j行のデータのベクトル表現は、
    Figure 2024502730000285
    にて求められ、
    前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
    Figure 2024502730000286
    での各行のデータの相関性を算出し、列頂点
    Figure 2024502730000287
    の列ベクトル表現
    Figure 2024502730000288
    を取得し、
    Figure 2024502730000289
    は、列頂点
    Figure 2024502730000290
    のベクトル表現であり、
    Figure 2024502730000291
    にて求められ、
    Figure 2024502730000292
    は、
    Figure 2024502730000293
    にて求められ、
    Figure 2024502730000294
    は、
    Figure 2024502730000295
    の次元であり、softmaxは、softmax関数であり、
    前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含むことを特徴とする請求項2に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  4. 前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
    選別すべき医療データエレメントグラフデータに格納された列頂点
    Figure 2024502730000296
    について、
    Figure 2024502730000297
    が除外された列頂点セットからp個の列頂点
    Figure 2024502730000298
    をランダムに抽出し、列頂点
    Figure 2024502730000299
    と抽出された列頂点との相関性を算出することにより、
    Figure 2024502730000300
    の医療データエレメントグラフデータモデルにおける重要度スコア
    Figure 2024502730000301
    を算出することを含み、
    Figure 2024502730000302
    は、
    Figure 2024502730000303
    によって定義され、
    Figure 2024502730000304
    を満たし、
    Figure 2024502730000305
    は、重要度関数であることを特徴とする請求項3に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  5. 前記医療データエレメント選別モデルのトレーニング及び予測において、
    標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
    Figure 2024502730000306
    とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
    Figure 2024502730000307
    とし、
    トレーニング時に、セット
    Figure 2024502730000308
    からq個の列頂点を正のサンプルセット
    Figure 2024502730000309
    としてランダムに抽出し、セット
    Figure 2024502730000310
    からq個の列頂点を負のサンプルセット
    Figure 2024502730000311
    としてランダムに抽出し、サンプル
    Figure 2024502730000312
    の重要度スコアを
    Figure 2024502730000313
    とし、
    Figure 2024502730000314
    を第i個の列頂点とし、
    Figure 2024502730000315
    をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
    Figure 2024502730000316

    Figure 2024502730000317
    により算出し、
    前記医療データエレメント選別モデルは、予測時に、閾値
    Figure 2024502730000318
    を算出することにより、列頂点
    Figure 2024502730000319
    に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
    Figure 2024502730000320
    の計算式は、
    Figure 2024502730000321
    であり、
    Figure 2024502730000322
    ≧0.5の場合に、列頂点
    Figure 2024502730000323
    は、有効列頂点であり、対応する列は、有効データエレメントであり、
    選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成することを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  6. 前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
    標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
    Figure 2024502730000324
    とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
    Figure 2024502730000325
    とし、
    Figure 2024502730000326
    の標準データエレメント分類体系における分類が
    Figure 2024502730000327
    となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
    Figure 2024502730000328
    とし、医療データエレメント分類過程を、列頂点
    Figure 2024502730000329
    との合致度が最も高い列頂点
    Figure 2024502730000330

    Figure 2024502730000331
    において見つけ出すことに抽象化させることにより、列頂点
    Figure 2024502730000332
    に対応する列の分類を
    Figure 2024502730000333
    として特定し、
    列頂点
    Figure 2024502730000334
    について、
    Figure 2024502730000335
    に対応する列から
    Figure 2024502730000336
    個のデータ
    Figure 2024502730000337
    をランダムに抽出し、列頂点
    Figure 2024502730000338
    について、
    Figure 2024502730000339
    に対応する列から
    Figure 2024502730000340
    個のデータ
    Figure 2024502730000341
    をランダムに抽出すると、
    Figure 2024502730000342

    Figure 2024502730000343
    との合致度
    Figure 2024502730000344
    は、
    Figure 2024502730000345
    にて求められ、
    Figure 2024502730000346
    は、データ
    Figure 2024502730000347
    のベクトル表現を表し、
    Figure 2024502730000348
    に対応するシード頂点は、それとの合致度が最も高い列頂点
    Figure 2024502730000349
    となり、
    Figure 2024502730000350
    は、
    Figure 2024502730000351
    にて求められることを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  7. 前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
    分類すべき医療データエレメントグラフデータ中の、
    Figure 2024502730000352
    とは親子関係を有する列頂点セットを
    Figure 2024502730000353
    で示し、分類すべき医療データエレメントグラフデータ中の、
    Figure 2024502730000354
    とは外部キー関係を有する列頂点セットを
    Figure 2024502730000355
    で示すと、シード頂点
    Figure 2024502730000356
    によるカットで得られたサブグラフ
    Figure 2024502730000357
    は、
    Figure 2024502730000358
    にて求められ、
    標準分類医療データエレメントグラフデータ中の、
    Figure 2024502730000359
    とは同一の親頂点に対応付けられた列頂点セットを
    Figure 2024502730000360
    で示すと、デプスマップマッチングモデルの目標は、サブグラフ
    Figure 2024502730000361
    からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
    Figure 2024502730000362
    中の列頂点に1つずつマッチングさせて、
    Figure 2024502730000363
    中の列頂点に対応する医療データエレメントの分類を図ることであることを特徴とする請求項6に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  8. 前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
    グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
    Figure 2024502730000364
    のベクトル表現
    Figure 2024502730000365
    を算出し、
    Figure 2024502730000366
    は、
    Figure 2024502730000367
    にて求められ、
    Figure 2024502730000368

    を満たし、
    Figure 2024502730000369
    は、列頂点
    Figure 2024502730000370
    に対応する列からランダムに抽出された
    Figure 2024502730000371
    個のデータであり、
    Figure 2024502730000372
    は、
    Figure 2024502730000373
    中の列頂点
    Figure 2024502730000374
    の列頂点
    Figure 2024502730000375
    に対する重み関数を示し、
    グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
    Figure 2024502730000376
    のベクトル表現
    Figure 2024502730000377
    を算出し、
    Figure 2024502730000378
    は、
    Figure 2024502730000379
    にて求められ、
    Figure 2024502730000380
    を満たし、
    Figure 2024502730000381
    は、列頂点
    Figure 2024502730000382
    に対応する列からランダムに抽出された
    Figure 2024502730000383
    個のデータであり、
    Figure 2024502730000384
    は、
    Figure 2024502730000385
    中の列頂点
    Figure 2024502730000386
    の列頂点
    Figure 2024502730000387
    に対する重み関数を示し、
    列頂点
    Figure 2024502730000388
    と列頂点
    Figure 2024502730000389
    との合致度
    Figure 2024502730000390
    は、
    Figure 2024502730000391
    にて求められ、
    Figure 2024502730000392
    との合致度が最も高い列頂点
    Figure 2024502730000393
    は、
    Figure 2024502730000394
    にて求められ、
    分類すべき医療データエレメントグラフデータ中の列頂点
    Figure 2024502730000395
    に対応する列の分類は、
    Figure 2024502730000396
    に対応する標準データエレメント分類体系中の種別であることを特徴とする請求項7に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  9. デプスマップマッチングに基づく医療データエレメント自動化分類システムであって、
    多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
    前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
    前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
    前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
    前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
    前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類システム。
JP2023536557A 2021-12-30 2022-09-05 デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム Active JP7432801B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111649231.1 2021-12-30
CN202111649231.1A CN114003791B (zh) 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及***
PCT/CN2022/116971 WO2023124191A1 (zh) 2021-12-30 2022-09-05 基于深度图匹配的医疗数据元自动化分类方法及***

Publications (2)

Publication Number Publication Date
JP2024502730A true JP2024502730A (ja) 2024-01-23
JP7432801B2 JP7432801B2 (ja) 2024-02-16

Family

ID=79932292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536557A Active JP7432801B2 (ja) 2021-12-30 2022-09-05 デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム

Country Status (3)

Country Link
JP (1) JP7432801B2 (ja)
CN (1) CN114003791B (ja)
WO (1) WO2023124191A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及***
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及***
CN117312435A (zh) * 2023-11-23 2023-12-29 首都信息发展股份有限公司 数据采集方法、装置及电子设备
CN117349401B (zh) * 2023-12-06 2024-03-15 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备
CN117763129B (zh) * 2024-02-22 2024-05-28 神州医疗科技股份有限公司 基于生成式预训练模型的病历检索方法及***

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280886B2 (en) 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
CN105354266A (zh) * 2015-10-23 2016-02-24 北京航空航天大学 一种基于富图模型RichGraph的图数据管理方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎***及实现方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能***及方法
US11625620B2 (en) 2018-08-16 2023-04-11 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN109471945B (zh) * 2018-11-12 2021-11-23 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN109948680B (zh) * 2019-03-11 2021-06-11 合肥工业大学 病历数据的分类方法及***
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化***
US11481623B2 (en) * 2019-09-25 2022-10-25 International Business Machines Corporation Systems and methods for training a model using a few-shot classification process
US20210158161A1 (en) * 2019-11-22 2021-05-27 Fraud.net, Inc. Methods and Systems for Detecting Spurious Data Patterns
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台
CN112185515A (zh) * 2020-10-12 2021-01-05 安徽动感智能科技有限公司 一种基于动作识别的病患辅助***
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化***及方法
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及***

Also Published As

Publication number Publication date
JP7432801B2 (ja) 2024-02-16
CN114003791B (zh) 2022-04-08
WO2023124191A1 (zh) 2023-07-06
CN114003791A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
WO2021103492A1 (zh) 一种企业经营风险预测方法和***
CN111428054A (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
Froeschl Metadata management in statistical information processing: a unified framework for metadata-based processing of statistical data aggregates
CN111444348A (zh) 知识图谱架构的构建与应用方法、***及介质
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN111243748A (zh) 针推康数据标准化***
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索***及方法
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱***
CN115132372A (zh) 术语处理方法、装置、电子设备、存储介质及程序产品
JP6081609B2 (ja) データ分析システム及びその方法
Su et al. [Retracted] Design and Application of Intelligent Management Platform Based on Big Data
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和***
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing
CN112132534B (zh) 一种武器装备全寿命周期综合保障数据的管理方法及***
CN117251605B (zh) 基于深度学习的多源数据查询方法及***

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230615

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7432801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150