JP6915818B1 - パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム - Google Patents

パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム Download PDF

Info

Publication number
JP6915818B1
JP6915818B1 JP2020114658A JP2020114658A JP6915818B1 JP 6915818 B1 JP6915818 B1 JP 6915818B1 JP 2020114658 A JP2020114658 A JP 2020114658A JP 2020114658 A JP2020114658 A JP 2020114658A JP 6915818 B1 JP6915818 B1 JP 6915818B1
Authority
JP
Japan
Prior art keywords
disease
feature vector
pathway
molecular
molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020114658A
Other languages
English (en)
Other versions
JP2022012659A (ja
Inventor
博義 豊柴
博義 豊柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Priority to JP2020114658A priority Critical patent/JP6915818B1/ja
Priority to US17/995,338 priority patent/US20230122920A1/en
Priority to PCT/JP2020/043961 priority patent/WO2022003997A1/ja
Priority to TW109142623A priority patent/TW202203239A/zh
Application granted granted Critical
Publication of JP6915818B1 publication Critical patent/JP6915818B1/ja
Publication of JP2022012659A publication Critical patent/JP2022012659A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Medicinal Chemistry (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】文献等に記載されている既知の分子間相互作用の範囲を超えて新たな知見を得るのに有用なパスウェイを生成できるようにする。【解決手段】分析対象とする疾患について特定される疾患特徴ベクトルを第1学習済みモデルに入力することにより、疾患と関連がある複数の分子を推定する関連分子推定部12と、疾患特徴ベクトルおよび関連分子推定部12により推定された複数の分子について特定される分子特徴ベクトルを第2学習済みモデルに入力することにより、疾患に対して作用する分子の性質が原因性である確率を推定する分子性質推定部13と、分子性質推定部13により推定された分子の性質を用いて、原因性の分子が上流側で応答性の分子が下流側となり、かつ、既知の分子間接続関係性を反映させるように分子間相互作用を経路図として表したパスウェイを生成するパスウェイ生成部14とを備える。【選択図】図2

Description

本発明は、パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラムに関し、特に、分子間相互作用を経路図として表したパスウェイを生成する技術に用いて好適なものである。
従来、分子間相互作用を経路図として表したパスウェイが知られている。パスウェイは、遺伝子やタンパク質等の分子を丸や四角などのシンボルで表し、分子間の相互作用関係を意味する矢印でシンボル間を結ぶことによって表現される。このように分子間相互作用を可視化することにより、発現量の変化した遺伝子群がどの経路に含まれているかを調べることができるなど、生命現象を理解しやすくすることが可能となる。パスウェイは、例えば疾患の治療または創薬の分野において広く活用されている。
パスウェイには、人手により作成されるものと、コンピュータを利用して作成されるものとが存在する。前者のパスウェイは、主に研究者が生化学や医学の文献を読み、そこに文章として記述されている内容をパスウェイの経路図として描くことで作成される。後者のパスウェイは、例えば、文献に記述されている文章をテキストデータとして読み込み、これを自然言語処理することによって意味解釈した記載内容を経路図として描画することで作成される。
しかしながら、人手により作成される従来のパスウェイは、作成者が文献の記載から理解した既知の分子間相互作用をパスウェイとして描画したに過ぎないものである。そのため、人手により作成可能なパスウェイは、作成者が読み込む文献の記載内容の範囲に限定される。コンピュータにより作成される従来のパスウェイも基本的にはこれと同様であり、作成可能なパスウェイは、コンピュータがテキストデータとして読み込む文献の記載内容の範囲に限定される。コンピュータの場合は、読み込む文献の量を人手の場合より多くすることが可能で、その分、作成可能なパスウェイの幅は増えるが、文献に記載されている既知の分子間相互作用を描画したに過ぎないものであることに変わりはない。
なお、タンパク質に関する所定の属性を特徴ベクトルとした教師付き機械学習を行うことにより、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する方法が知られている(例えば、特許文献1参照)。この特許文献1に記載の予測システムでは、タンパク質に関する所定の属性の1つとして、各タンパク質の生物学的機能の属性を用いて機械学習を行う。特許文献1には各タンパク質の生物学的機能の属性の1つとして、各タンパク質が含まれるパスウェイの数を用いることが開示されている。
しかしながら、この特許文献1に記載の技術は、機械学習を利用してパスウェイを作成するものではなく、既に作成されている複数のパスウェイに関する属性を利用して機械学習を行うものであり、パスウェイがどのような方法により作成されるかについては、特許文献1には開示されていない。
特開2010−165230号公報
従来の手法により作成されるパスウェイは、有効な治療法や薬剤が確立されていない疾患などについて、それに効く新しい薬剤や新しい治療法を研究・開発する際に活用することが可能である。しかしながら、従来のパスウェイは、文献等に記載されている既知の分子間相互作用を描画したに過ぎないものであるため、そのパスウェイから人知を超えるような知見を得ることは難しい。特に、性質が未知の新たに発生した疾患や正体が未知の病原体などについては、どのような分子が関わっているのか、どのような既存薬が研究ターゲットとして有効なのかなどの知見を従来のパスウェイから得ることが難しいという問題があった。
本発明は、このような実情に鑑みて成されたものであり、文献等に記載されている既知の分子間相互作用の範囲を超えて新たな知見を得るのに有用なパスウェイを生成できるようにすることを目的とする。
上記した課題を解決するために、本発明は、分析対象とする疾患について特定される疾患特徴ベクトルを第1学習済みモデルに入力することにより、疾患と関連がある複数の分子を推定する関連分子推定部と、分析対象とする疾患について特定される疾患特徴ベクトルおよび関連分子推定部により推定された複数の分子について特定される分子特徴ベクトルを第2学習済みモデルに入力することにより、複数の分子のそれぞれについて、疾患に対して作用する性質として原因性または応答性である確率を推定する分子性質推定部と、分子性質推定部により推定された分子の性質と、分子間の接続関係性を示した既知の知識データベースとを用いて、関連分子推定部により推定された複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成するパスウェイ生成部とを備えている。
上記のように構成した本発明によれば、分析したい疾患について、疾患特徴ベクトルを第1学習済みモデルに入力すると、当該疾患に関連があるものとして既知の分子のみならず、疾患との関連性が未知であった分子についても、学習に基づく推定により、関連がある分子として出力される可能性がある。また、このように推定された分子の分子特徴ベクトルと疾患特徴ベクトルとを第2学習済みモデルに入力すると、その疾患との関連性が既知であった分子のみならず、関連性が未知であった分子についても、学習に基づく推定により、分子が疾患に対して原因性または応答性の何れの性質を発現する可能性があるかを示す確率が出力される。そして、このようにして疾患との関連があると推定された分子の性質に関する推定結果と、分子間の接続関係性を示した既知の知識データベースとを用いて、分子間相互作用を経路図として表したパスウェイが生成される。これにより、文献等に記載されている既知の分子間相互作用の範囲を超えて新たな知見を得るのに有用なパスウェイを生成することができる。
本実施形態によるパスウェイ生成装置を含むパスウェイ提供システムの全体構成例を示す図である。 本実施形態によるサーバ装置(パスウェイ生成装置)の機能構成例を示すブロック図である。 本実施形態によるクライアント端末の機能構成例を示すブロック図である。 特徴ベクトル算出装置の機能構成例を示すブロック図である。 疾患特徴ベクトルおよび分子特徴ベクトルの例を示す図である。 表示装置に表示されるパスウェイの一例を示す図である。 本実施形態によるサーバ装置(パスウェイ生成装置)の動作例を示すフローチャートである。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるパスウェイ生成装置を含むパスウェイ提供システムの全体構成例を示す図である。図1に示すように、本実施形態のパスウェイ提供システムは、サーバ装置10とクライアント端末20とを備えて構成され、サーバ装置10とクライアント端末20との間がインターネット等の通信ネットワーク30により接続されている。サーバ装置10は、本実施形態のパスウェイ生成装置を含んでいる。
本実施形態のパスウェイ提供システムでは、クライアント端末20から疾患を指定してパスウェイの提供をサーバ装置10に要求すると、サーバ装置10において、指定された疾患に関する分子間相互作用を経路図として表したパスウェイを生成し、生成したパスウェイをクライアント端末20に提供する。クライアント端末20は、サーバ装置10から提供されたパスウェイを表示装置に表示する。クライアント端末20は、例えばこのような処理をウェブブラウザを用いて行うことが可能である。
図2は、本実施形態によるサーバ装置10(パスウェイ生成装置)の機能構成例を示すブロック図である。図2に示すように、本実施形態のサーバ装置10は、機能構成として、疾患特徴ベクトル特定部11、関連分子推定部12、分子性質推定部13、パスウェイ生成部14およびパスウェイ提供部15を備えている。また、本実施形態のサーバ装置10は、記憶媒体として、第1モデル記憶部101、第2モデル記憶部102および知識DB記憶部103を備えている。本実施形態のパスウェイ生成装置は、パスウェイ提供部15を除く他のブロックにより構成される。なお、疾患特徴ベクトル特定部11は、クライアント端末20が備える構成であってもよい。
上記各機能ブロック11〜15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11〜15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。特に、機能ブロック11〜14は、パスウェイ生成用プログラムが動作することによって実現される。
図3は、本実施形態によるクライアント端末20の機能構成例を示すブロック図である。図3に示すように、本実施形態のクライアント端末20は、機能構成として、疾患指定部21、要求送信部22、パスウェイ取得部23およびパスウェイ表示部24を備えている。また、本実施形態のクライアント端末20は、ハードウェアとして、液晶ディスプレイまたは有機ELディスプレイなどの表示装置201を備えている。
上記各機能ブロック21〜24は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック21〜24は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
クライアント端末20の疾患指定部21は、クライアント端末20に対するユーザ操作に基づいて、分析対象とする疾患を指定する。例えば、クライアント端末20のユーザがキーボードまたはタッチパネルを操作し、分析対象とする疾患の名称を入力することにより、分析対象の疾患を指定する。なお、クライアント端末20のユーザがマウスまたはタッチパネルを操作し、分析対象とする疾患の名称を表示リストの中から選択することにより、分析対象の疾患を指定するようにしてもよい。
要求送信部22は、疾患指定部21により指定された疾患名を含んだパスウェイ取得要求をサーバ装置10に送信する。パスウェイ取得部23は、要求送信部22が送信したパスウェイ取得要求に対する応答として、サーバ装置10により生成されたパスウェイのデータをサーバ装置10から取得する。パスウェイ表示部24は、パスウェイ取得部23が取得したパスウェイのデータに基づいて、パスウェイを表示装置201に表示させる。
サーバ装置10の疾患特徴ベクトル特定部11は、クライアント端末20から受信したパスウェイ取得要求に含まれる疾患名(疾患指定部21により分析対象として指定された疾患名)に対応する特徴ベクトル(以下、疾患特徴ベクトルという)を特定する。疾患特徴ベクトルは、疾患が有する特徴(疾患を識別可能な特徴)を複数の要素の値の組み合わせとして表したデータである。本実施形態では一例として、複数の文章の中に単語として含まれる疾患名がどの文章に対してどの程度寄与しているのかを表したベクトルを疾患特徴ベクトルとして用いる。
本実施形態において対象とする文章は、1つのセンテンス(句点によって区切られる単位)から成るもの(一文)であってもよいし、複数のセンテンスから成るものであってもよい。複数のセンテンスから成る文章は、1つの文書に含まれる一部または全部の文章であってもよい。文章は、疾患に関する記述をしたものに限らず、それ以外の様々なテーマについて記述したものを含んでもよい。
単語としての疾患名は、疾患に関する記述をした文章の中で使われる一方、疾患とは無関係の文章の中では使われない傾向が強い。また、疾患について記述した文章の中でも、ある疾患名が単語として含まれる文章は、その疾患について記述した文章であり、他の種類の疾患について記述した文章中には当該疾患名が含まれない可能性が高い。すなわち、疾患名が単語として含まれる文章は、その文章がテーマとしている疾患の種類によって異なる傾向がある。よって、疾患名がどの文章に対してどの程度寄与しているのかを表したベクトルは、疾患を識別可能な特徴ベクトルとして用いることが可能である。
疾患特徴ベクトル特定部11は、例えば、疾患名とそれに対応する疾患特徴ベクトルとを関連付けて記憶したデータベース(図示せず)から、疾患指定部21により指定された疾患名に対応する疾患特徴ベクトルを読み出すことにより、疾患特徴ベクトルを特定する。このデータベースに記憶される疾患特徴ベクトルは、図1〜図3には図示していない特徴ベクトル算出装置によってあらかじめ算出しておいたものである。
別の例として、疾患特徴ベクトル特定部11は、クライアント端末20からパスウェイ取得要求を受信したときに、そのパスウェイ取得要求に含まれる疾患名から疾患特徴ベクトルをリアルタイムに算出するようにしてもよい。すなわち、上述した特徴ベクトル算出装置の機能を疾患特徴ベクトル特定部11が備え、当該特徴ベクトル算出装置の機能を実行することによって疾患特徴ベクトルを特定するようにしてもよい。
図4は、特徴ベクトル算出装置の機能構成例を示すブロック図である。図4に示す特徴ベクトル算出装置は、文章に関する文章データを入力し、文章とその中に含まれる単語との関係性を反映した疾患特徴ベクトルを算出して出力するものである。この特徴ベクトル算出装置の機能を疾患特徴ベクトル特定部11が備えて疾患特徴ベクトルをリアルタイムに算出する場合、サーバ装置10は複数の文章に関する文章データを記憶しており、疾患特徴ベクトル特定部11はこの文章データを利用して疾患特徴ベクトルを算出する。
図4に示すように、特徴ベクトル算出装置は、機能構成として、単語抽出部41、ベクトル算出部42、指標値算出部43および特徴ベクトル特定部44を備えて構成されている。ベクトル算出部42は、より具体的な機能構成として、文章ベクトル算出部42Aおよび単語ベクトル算出部42Bを備えている。
上記各機能ブロック41〜44は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック41〜44は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
単語抽出部41は、m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部41は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部41は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部41が抽出するn個の単語とは、n種類の単語という意味である。
ベクトル算出部42は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部42Aは、単語抽出部41による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは2以上の任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部42Bは、単語抽出部41により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章d(i=1,2,・・・,m)および各単語w(j=1,2,・・・,n)に対してそれぞれ文章ベクトルd→および単語ベクトルw→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wと任意の文章dに対して、次の式(1)に示す確率P(w|d)を計算する。
Figure 0006915818
なお、この確率P(w|d)は、上述した公知文献「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率pに倣って算出することが可能な値である。この公知文献には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。
公知文献に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。これに対し、本実施形態で用いる式(1)に示される確率P(w|d)は、m個の文章のうち一の文章dから、n個の単語のうち一の単語wが予想される正解確率を表している。1つの文章dから1つの単語wを予測するというのは、具体的には、ある文章dが出現したときに、その中に単語wが含まれる可能性を予測するということである。
なお、この式(1)は、dとwについて対称なので、n個の単語のうち一の単語wから、m個の文章のうち一の文章dが予想される確率P(d|w)を計算してもよい。1つの単語wから1つの文章dを予測するというのは、ある単語wが出現したときに、それが文章dの中に含まれる可能性を予測するということである。
式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章dと単語wとの組み合わせから計算される指数関数値と、文章dとn個の単語w(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章dから一の単語wが予想される正解確率として計算している。
ここで、単語ベクトルw→と文章ベクトルd→との内積値は、単語ベクトルw→を文章ベクトルd→の方向に投影した場合のスカラ値、つまり、単語ベクトルw→が有している文章ベクトルd→の方向の成分値とも言える。これは、単語wが文章dに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語w(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wについて計算される指数関数値の比率を求めることは、1つの文章dからn個の単語のうち1つの単語wが予想される正解確率を求めることに相当する。
なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
次に、ベクトル算出部42は、次の式(2)に示すように、式(1)により算出される確率P(w|d)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルd→および単語ベクトルw→を算出する。すなわち、文章ベクトル算出部42Aおよび単語ベクトル算出部42Bは、上記式(1)により算出される確率P(w|d)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルd→および単語ベクトルw→を算出する。
Figure 0006915818
m個の文章とn個の単語との全ての組み合わせについて算出した確率P(w|d)の合計値Lを最大化するというのは、ある文章d(i=1,2,・・・,m)からある単語w(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部42は、この正解確率が最大化するような文章ベクトルd→および単語ベクトルw→を算出するものと言える。
ここで、本実施形態では、上述したように、ベクトル算出部42は、m個の文章dをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルd→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルw→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルd→および単語ベクトルw→を算出することに相当する。
指標値算出部43は、ベクトル算出部42により算出されたm個の文章ベクトルd→とn個の単語ベクトルw→との内積をそれぞれとることにより、m個の文章dおよびn個の単語w間の関係性を反映した指標値を算出する。本実施形態では、指標値算出部43は、次の式(3)に示すように、m個の文章ベクトルd→の各q個の軸成分(d11〜dmq)を各要素とする文章行列Dと、n個の単語ベクトルw→の各q個の軸成分(w11〜wnq)を各要素とする単語行列Wとの積をとることにより、m×n個の指標値を各要素とする指標値行列DWを算出する。ここで、Wは単語行列の転置行列である。
Figure 0006915818
このようにして算出された指標値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値と言え、また、文章d1が単語w2に対してどの程度寄与しているのかを表した値と言える。これにより、指標値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。
特徴ベクトル特定部44は、n個の単語のうち、複数の疾患名のそれぞれについて、1つの疾患名についてm個の指標値から成る単語指標値群を疾患特徴ベクトルとして特定する。すなわち、特徴ベクトル特定部44は、図5(a)に示すように、指標値行列DWの各列を構成しているn組の単語指標値群(1列につきm個の指標値)のうち、疾患名に相当する単語に関する単語指標値群を、それぞれの疾患名に対する疾患特徴ベクトルとして特定する。
図2に戻り、サーバ装置10の構成について説明する。関連分子推定部12は、分析対象とする疾患について疾患特徴ベクトル特定部11により特定された疾患特徴ベクトルを、第1モデル記憶部101にあらかじめ記憶されている第1学習済みモデルに入力することにより、疾患と関連がある複数の分子を推定する。ここで、第1学習済みモデルは、疾患特徴ベクトルと分子特徴ベクトルとの類似性をもとに、疾患特徴ベクトルが入力されたときにこれに類似する分子特徴ベクトルに対応する分子の情報を出力するように機械学習されている。
第1モデル記憶部101に記憶される第1学習済みモデルの形態は、回帰モデル、木モデル、ニューラルネットワークモデル、ベイズモデル、クラスタリングモデルなどのうち何れかとすることが可能である。なお、ここに挙げたモデルは一例に過ぎず、これに限定されるものではない。例えば、疾患特徴ベクトルと分子特徴ベクトルとの類似度を算出し、疾患特徴ベクトルに対する類似度が所定値以上の分子特徴ベクトルに対応する分子の情報を出力するような関数モデルであってもよい。
ここで用いる分子特徴ベクトルは、タンパク質や遺伝子などの分子が有する特徴(分子を識別可能な特徴)を複数の要素の値の組み合わせとして表したデータである。本実施形態では一例として、複数の文章の中に単語として含まれる分子名がどの文章に対してどの程度寄与しているのかを表したベクトルを分子特徴ベクトルとして用いる。この分子特徴ベクトルは、図4に示した特徴ベクトル算出装置により算出することが可能である。
すなわち、特徴ベクトル特定部44は、n個の単語のうち、複数の分子名のそれぞれについて、1つの分子名についてm個の指標値から成る単語指標値群を分子特徴ベクトルとして特定する。具体的には、特徴ベクトル特定部44は、図5(b)に示すように、指標値行列DWの各列を構成しているn組の単語指標値群(1列につきm個の指標値)のうち、分子名に相当する単語に関する単語指標値群を、それぞれの分子名に対する分子特徴ベクトルとして特定する。
上述した特徴ベクトル算出装置により、複数の疾患名に関する疾患特徴ベクトルを算出するとともに、複数の分子名に関する分子特徴ベクトルを算出する。そして、これらのデータセットを用いて第1学習済みモデルの機械学習をあらかじめ行い、疾患特徴ベクトルと分子特徴ベクトルとの類似性をもとに学習された第1学習済みモデルを第1モデル記憶部101に記憶させる。
ここで、疾患特徴ベクトルと分子特徴ベクトルとの類似性については、様々方法で評価することが可能である。例えば、疾患特徴ベクトルおよび分子特徴ベクトルのそれぞれについて所定の関数を用いて特徴量を抽出し、特徴量の類似度を評価するという方法を適用することが可能である。あるいは、疾患特徴ベクトルの単語指標値群と分子特徴ベクトルの単語指標値群との間のユークリッド距離やコサイン類似度を用いるようにしてもよいし、編集距離を用いるようにしてもよい。
疾患特徴ベクトルと分子特徴ベクトルとが類似するということは、疾患名としての単語がどの文章に対してどの程度寄与しているのかという性質と、分子名としての単語がどの文章に対してどの程度寄与しているのかという性質とが似ているということである。文章は特定のテーマに沿って記述されるものであるから、疾患特徴ベクトルと分子特徴ベクトルとが類似関係にある疾患名と分子名は、各テーマに関連して記述された複数の文章に対する寄与の仕方が似ているということであり、その疾患と分子との間に何らかの関連があると推定することが可能である。
1つの文章の中で疾患名と分子名とが記述されている場合、その疾患と分子とが関連性を有していることは明らかである。一方、複数の文章の間にまたがって疾患名と分子名とが記述されている場合、ある文章に記述されている疾患と、別の文章に記述されている分子との間に関連性があるかどうかは不明であり、医療関係者がそれらの文章を読んだとしても、関連性があることを直ちに了解することは困難である。
これに対し、本実施形態によれば、このように複数の文章の間にまたがって疾患名と分子名とが記述されている場合においても、その疾患と分子と間に何らかの関連性を有している可能性があることを推定することができる。これにより、ある疾患名に対応する疾患特徴ベクトルを第1学習済みモデルに入力すれば、疾患との関連性が未知であった分子についても、学習に基づく推定により、関連がある分子として出力される可能性がある。
分子性質推定部13は、分析対象とする疾患について疾患特徴ベクトル特定部11により特定された疾患特徴ベクトルと、関連分子推定部12により推定された複数の分子について特定される分子特徴ベクトルとを、第2モデル記憶部102に記憶されている第2学習済みモデルに入力することにより、疾患と関連があると推定された複数の分子のそれぞれについて、当該疾患に対して作用する分子の性質として原因性または応答性である確率を推定する。
第2モデル記憶部102に記憶される第2学習済みモデルの形態は、回帰モデル、木モデル、ニューラルネットワークモデル、ベイズモデル、クラスタリングモデルなどのうち何れかとすることが可能である。なお、ここに挙げたモデルは一例に過ぎず、これに限定されるものではない。
ここで、第2学習済みモデルは、疾患特徴ベクトル、分子特徴ベクトルおよび疾患に対して作用する分子の性質を表す性質情報のデータセットを教師データとして、疾患特徴ベクトルおよび分子特徴ベクトルが入力されたときに分子の性質が原因性または応答性である確率を出力するように機械学習されている。原因性とは、その分子の存在または変異によって疾患を引き起こす可能性があるとされる性質である。応答性とは、疾患が発症したことによって分子が変異する可能性があるとされる性質である。本実施形態では一例として、第2学習済みモデルは、分子の疾患に対する性質が原因性である確率を出力するものであるとして説明する。
既知の疾患に関して、どの分子が原因性で、どの分子が応答性であるかという既知の情報が存在する。第2学習済みモデルは、この既知の情報から生成される疾患特徴ベクトル、分子特徴ベクトルおよび分子の性質情報のデータセットを教師データとし(分子の性質情報を正解データとする)、このデータセットを用いた機械学習によって作成されたものである。従って、既知の疾患に対して性質が原因性であることが既知の分子については、第2学習済みモデルから高い確率の値が出力される。一方、既知の疾患に対して性質が応答性であることが既知の分子については、第2学習済みモデルから低い確率の値が出力される。
また、関連分子推定部12により疾患との関連性が推定される複数の分子の中には、これまでの人知においては疾患との関連性が未知であった分子も含まれている可能性がある。そのような分子についても、学習に基づく推定により、分子が疾患に対して原因性の性質を発現する可能性があることを示す確率の値が第2学習済みモデルから出力される。
すなわち、ある疾患に対応する疾患特徴ベクトルおよびその疾患との関連性が未知であった分子に対応する分子特徴ベクトルの組み合わせ(から得られる特徴量)と、当該ある疾患に対応する疾患特徴ベクトルおよび原因性であることが既知の分子に対応する分子特徴ベクトルの組み合わせ(から得られる特徴量)との類似性が高い場合には、第2学習済みモデルから比較的高い確率の値が出力される傾向となる。
一方、ある疾患に対応する疾患特徴ベクトルおよびその疾患との関連性が未知であった分子に対応する分子特徴ベクトルの組み合わせ(から得られる特徴量)と、当該ある疾患に対応する疾患特徴ベクトルおよび応答性であることが既知の分子に対応する分子特徴ベクトルの組み合わせ(から得られる特徴量)との類似性が高い場合には、第2学習済みモデルから比較的低い確率の値が出力される傾向となる。
上述したように、分子性質推定部13は、疾患特徴ベクトルと分子特徴ベクトルとを第2学習済みモデルに入力することによって分子の疾患に対する作用の性質を推定するものである。ここで、疾患特徴ベクトルは、疾患特徴ベクトル特定部11により特定されたものを用いる。一方、分子特徴ベクトルは、関連分子推定部12により推定された複数の分子、つまり第1学習済みモデルから出力された分子の情報リストに対応する分子特徴ベクトルを用いる。
分子性質推定部13は、分子特徴ベクトルに関しては、例えば、分子名とそれに対応する分子特徴ベクトルとを関連付けて記憶したデータベース(図示せず)から、関連分子推定部12により推定された分子名に対応する分子特徴ベクトルを読み出す。なお、分子性質推定部13は、第1学習済みモデルから分子の情報リストが出力されたときに、それらの分子名から分子特徴ベクトルをリアルタイムに算出するようにしてもよい。すなわち、上述した特徴ベクトル算出装置の機能を分子性質推定部13が備え、当該特徴ベクトル算出装置の機能を実行することによって分子特徴ベクトルを特定するようにしてもよい。
別の例として、関連分子推定部12において使用する第1学習済みモデルとして、疾患特徴ベクトルと分子特徴ベクトルとの類似性をもとに、疾患特徴ベクトルが入力されたときにこれに類似する分子特徴ベクトルを出力するように機械学習されたものを用いるようにしてもよい。この場合、分子性質推定部13は、疾患特徴ベクトル特定部11から出力された疾患特徴ベクトルと、関連分子推定部12から出力された分子特徴ベクトルとをそのまま第2学習済みモデルに入力することが可能である。
パスウェイ生成部14は、分子性質推定部13により推定された分子の性質と、分子間の接続関係性を示した既知の知識データベースとを用いて、関連分子推定部12により疾患との関連性が推定された複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成する。
このときパスウェイ生成部14は、例えば、分子性質推定部13により原因性であると推定された確率の値が第1閾値Th1より大きい分子(以下、原因性分子という)がパスウェイの上流側に配置され、確率の値が第2閾値Th2(Th1>Th2)より小さい分子(以下、応答性分子という)がパスウェイの下流側に配置され、確率の値が第2閾値Th2以上で第1閾値Th1以下の分子(以下、連結性分子という)が原因性分子と応答性分子との間に配置されるようにしてパスウェイを生成する。
分子間の接続関係性を示した既知の知識データベースは、知識DB記憶部103にあらかじめ記憶しておく。分子間の接続関係性とは、例えば、ある分子の発現量が上がると(あるいは下がると)、それに連動して別の分子の発現量が上がる(下がる)といった関係性を含む。知識DB記憶部103は、このような分子間の関係性について既知の情報をあらかじめ記憶している。ただし、知識DB記憶部103に記憶される知識データベースが有する既知の情報は、どの分子とどの分子との間に関係性があるかを示したものに留まり、接続関係性の大きさを示す情報は含まれていない。また、当該既知の情報は、2つの分子間の接続関係性を示した情報の集合であり、3つ以上の分子間のシーケンシャル的な接続関係性を示した情報ではない。
これに対し、パスウェイ生成部14は、例えば関連分子推定部12により特定した疾患特徴ベクトルと分子特徴ベクトルとの類似度の値を利用することによって、既知の情報が有していない分子間の関係性の大きさを補足するようにしている。例えば、類似度の値が近い分子どうしの関係性が強いとの想定のもと、それらの分子間がつながりやすくなるようにしてパスウェイを生成することが可能である。また、パスウェイ生成部14は、例えばミニマムフローアルゴリズムを活用することによって、3つ以上の分子間のシーケンシャル的な接続関係性を特定するようにしている。
パスウェイ生成部14は、以上のようにして、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、知識データベースにより示される接続関係性を反映させるようにして、3つ以上の分子間の相互作用を経路図として表したパスウェイを生成する。なお、ここではミニマムフローアルゴリズムを用いる例について説明したが、これに限定されるものではない。
パスウェイ提供部15は、パスウェイ生成部14により生成されたパスウェイのデータをクライアント端末20に提供する。上述したように、クライアント端末20では、サーバ装置10から提供されたパスウェイのデータをパスウェイ取得部23にて取得し、パスウェイ表示部24によりパスウェイを表示装置201に表示させる。
図6は、表示装置201に表示されるパスウェイの一例を示す図である。図6において、主にパスウェイの上流側に示されている菱形のシンボルが原因性分子であり、主に下流側に示されている四角形のシンボルが応答性分子であり、楕円形のシンボルが連結性分子である。図面の都合上、それぞれのシンボルに分子名を記載していないが、実際には各シンボルの上に分子名が表示される。
上述したように、このパスウェイには、疾患との関連性が未知であった分子が含まれている可能性があり、その疾患に対する分子の性質が未知であった接続性(分子間相互作用)が含まれている可能性がある。クライアント端末20のユーザは、このようなパスウェイを見ることにより、分析対象とした疾患について、その疾患にどのような分子が関連している可能性があるのか、どの分子を操作するとどの分子に影響が及ぶ可能性があるのかといったことを容易に把握することが可能である。
図7は、上記のように構成した本実施形態によるサーバ装置10(パスウェイ生成装置)の動作例を示すフローチャートである。図7に示すフローチャートは、疾患特徴ベクトル特定部11がクライアント端末20からパスウェイ取得要求を受信したときに開始する。
疾患特徴ベクトル特定部11は、パスウェイ取得要求に含まれる疾患名に対応する疾患特徴ベクトルを特定する(ステップS1)。次いで、関連分子推定部12は、疾患特徴ベクトル特定部11により特定された疾患特徴ベクトルを第1学習済みモデルに入力することにより、疾患と関連がある複数の分子を推定する(ステップS2)。すなわち、関連分子推定部12は、疾患特徴ベクトルを第1学習済みモデルに入力し、当該疾患特徴ベクトルと類似する分子特徴ベクトルに対応する分子の情報リストを第1学習済みモデルから出力する。
次いで、分子性質推定部13は、疾患特徴ベクトル特定部11により特定された疾患特徴ベクトルと、関連分子推定部12により推定された複数の分子について特定される複数の分子特徴ベクトルとを第2学習済みモデルに入力することにより、疾患と関連があると推定された複数の分子のそれぞれについて、当該疾患に対して作用する分子の性質が原因性である確率を推定する(ステップS3)。
次いで、パスウェイ生成部14は、分子性質推定部13により推定された分子の性質と、知識DB記憶部103に記憶されている知識データベースとを用いて、関連分子推定部12により疾患との関連性が推定された複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成する(ステップS4)。
そして、パスウェイ提供部15は、パスウェイ生成部14により生成されたパスウェイのデータを、パスウェイ取得要求の送信元のクライアント端末20に提供する(ステップS5)。これにより、図7に示すフローチャートの処理が終了する。
以上詳しく説明したように、本実施形態によれば、分析したい疾患について、疾患特徴ベクトルを第1学習済みモデルに入力すると、当該疾患に関連があるものとして既知の分子のみならず、疾患との関連性が未知であった分子についても、学習に基づく推定により、関連がある分子として出力される可能性がある。また、このように推定された分子の分子特徴ベクトルと疾患特徴ベクトルとを第2学習済みモデルに入力すると、その疾患との関連性が既知であった分子のみならず、関連性が未知であった分子についても、学習に基づく推定により、分子が疾患に対して原因性または応答性の何れの性質を発現する可能性があるかを示す確率が出力される。そして、このようにして疾患との関連があると推定された分子の性質に関する推定結果と、分子間の接続関係性を示した既知の知識データベースとを用いて、分子間相互作用を経路図として表したパスウェイが生成される。
以上により、本実施形態のパスウェイ生成装置によれば、文献等に記載されている既知の分子間相互作用の範囲を超えて新たな知見を得るのに有用なパスウェイを生成することができ、当該パスウェイを疾患の治療または創薬などの研究・開発に有効活用することができる。例えば、新型の疾患に関わる重要な分子をパスウェイにより視覚的に捉えることができ、この可視化された情報をもとに、既存薬での治療可能性や、既存の知識では考えられない新たなターゲットまたはバイオマーカーの発見に加え、複数のパスを効率的に阻害するための併用薬候補の発見、薬剤投与の有効性・安全性の予測などを行うことができる。
なお、上記実施形態では、第1学習済みモデルおよび第2学習済みモデルをあらかじめ作成して第1モデル記憶部101および第2モデル記憶部102に記憶しておく例について説明した。この機械学習を行う装置は、サーバ装置10とは別の装置として構成するようにしてもよいし、サーバ装置10が機械学習を行う機能を備える構成としてもよい。
また、上記実施形態では、疾患特徴ベクトルおよび分子特徴ベクトルとして、図4に示す特徴ベクトル算出装置によって算出される特徴ベクトルを用いる例について説明したが、本発明はこれに限定されない。例えば、複数の文章の中に単語として含まれる疾患名または分子名がどの文章に対してどの程度寄与しているのかを表したベクトルであれば、図4に示す特徴ベクトル算出装置によって算出されるような特徴ベクトルに限定されない。また、文章と単語との関係性から求められる特徴ベクトルであることを必須とするものではなく、疾患または分子の特徴を識別可能なものであれば、疾患特徴ベクトルおよび分子特徴ベクトルとして用いることが可能である。
図4に示す特徴ベクトル算出装置によって算出される特徴ベクトルを疾患特徴ベクトルおよび分子特徴ベクトルとして用いる場合は、1つのアルゴリズムで算出された1つの指標値行列DWから疾患特徴ベクトルおよび分子特徴ベクトルを抽出することができ、互いの類似性あるいは関係性をより論理的に特定することができるというメリットを有する。これにより、第1学習済みモデルおよび第2学習済みモデルを用いて行う推定結果の確からしさを向上させることができ、生成されるパスウェイの有用性を高めることができる。
また、上記実施形態では、疾患特徴ベクトルおよび分子特徴ベクトルを作成する際に対象とする文章について、疾患に関する記述をしたものに限らず、それ以外の様々なテーマについて記述したものを含んでもよいと説明したが、本発明はこれに限定されない。例えば、特定の疾患に関連する記述内容を含む文章のみを対象とするようにしてもよい。この場合において、上述した指標値行列DWの各行を構成する単語指標値群(1行につきn個の指標値)が文章の類似性を評価するものとして用いることが可能であるという性質を利用して、各行の単語指標値群を文章特徴ベクトルとして用い、当該文章特徴ベクトルが互いに類似する複数の文章を抽出するようにしてもよい。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
10 サーバ装置(パスウェイ生成装置)
11 疾患特徴ベクトル特定部
12 関連分子推定部
13 分子性質推定部
14 パスウェイ生成部
101 第1モデル記憶部
102 第2モデル記憶部
103 知識DB記憶部

Claims (8)

  1. 分析対象とする疾患について特定される疾患特徴ベクトルを第1学習済みモデルに入力することにより、上記疾患と関連がある複数の分子を推定する関連分子推定部と、
    上記分析対象とする疾患について特定される疾患特徴ベクトルおよび上記関連分子推定部により推定された上記複数の分子について特定される分子特徴ベクトルを第2学習済みモデルに入力することにより、上記複数の分子のそれぞれについて、上記疾患に対して作用する性質として原因性または応答性である確率を推定する分子性質推定部と、
    上記分子性質推定部により推定された分子の性質と、分子間の接続関係性を示した既知の知識データベースとを用いて、上記関連分子推定部により推定された上記複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、上記知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成するパスウェイ生成部とを備えた
    ことを特徴とするパスウェイ生成装置。
  2. 上記第1学習済みモデルは、上記疾患特徴ベクトルと上記分子特徴ベクトルとの類似性をもとに、上記疾患特徴ベクトルが入力されたときにこれに類似する分子特徴ベクトルまたはそれに対応する分子の情報を出力するように機械学習されていることを特徴とする請求項1に記載のパスウェイ生成装置。
  3. 上記第2学習済みモデルは、上記疾患特徴ベクトル、上記分子特徴ベクトルおよび上記疾患に対して作用する分子の性質を表す性質情報のデータセットを教師データとして、上記疾患特徴ベクトルおよび上記分子特徴ベクトルが入力されたときに上記分子の性質が原因性または応答性である確率を出力するように機械学習されていることを特徴とする請求項1または2に記載のパスウェイ生成装置。
  4. 上記疾患特徴ベクトルは、複数の文章の中に単語として含まれる疾患名がどの文章に対してどの程度寄与しているのかを表したベクトルであり、
    上記分子特徴ベクトルは、複数の文章の中に単語として含まれる分子名がどの文章に対してどの程度寄与しているのかを表したベクトルである
    ことを特徴とする請求項1〜3の何れか1項に記載のパスウェイ生成装置。
  5. 上記疾患特徴ベクトルおよび上記分子特徴ベクトルは、
    m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出処理と、
    上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出処理と、
    上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出処理と、
    上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する指標値算出処理と、
    上記n個の単語に含まれる疾患名に関し、1つの疾患名についてm個の指標値から成る単語指標値群を上記疾患特徴ベクトルとして特定する疾患特徴ベクトル特定処理と、
    上記n個の単語に含まれる分子名に関し、1つの分子名についてm個の指標値から成る単語指標値群を上記分子特徴ベクトルとして特定する分子特徴ベクトル特定処理と、
    により算出されたものであることを特徴とする請求項4に記載のパスウェイ生成装置。
  6. m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
    上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
    上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
    上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映したm×n個の指標値を算出する指標値算出部と、
    上記n個の単語に含まれる疾患名または分子名に関し、1つの疾患名または分子名についてm個の指標値から成る単語指標値群を上記疾患特徴ベクトルまたは上記分子特徴ベクトルとして特定する特徴ベクトル特定部とを更に備えた
    ことを特徴とする請求項4に記載のパスウェイ生成装置。
  7. コンピュータの関連分子推定部が、分析対象とする疾患について特定される疾患特徴ベクトルを第1学習済みモデルに入力することにより、上記疾患と関連がある複数の分子を推定する第1のステップと、
    上記コンピュータの分子性質推定部が、上記分析対象とする疾患について特定される疾患特徴ベクトルおよび上記関連分子推定部により推定された上記複数の分子について特定される分子特徴ベクトルを第2学習済みモデルに入力することにより、上記複数の分子のそれぞれについて、上記疾患に対して作用する性質として原因性または応答性である確率を推定する第2のステップと、
    上記コンピュータのパスウェイ生成部が、上記分子性質推定部により推定された分子の性質と、分子間の接続関係性を示した既知の知識データベースとを用いて、上記関連分子推定部により推定された上記複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、上記知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成する第3のステップとを有する
    ことを特徴とするパスウェイ生成方法。
  8. 分析対象とする疾患について特定される疾患特徴ベクトルを第1学習済みモデルに入力することにより、上記疾患と関連がある複数の分子を推定する関連分子推定手段、
    上記分析対象とする疾患について特定される疾患特徴ベクトルおよび上記関連分子推定手段により推定された上記複数の分子について特定される分子特徴ベクトルを第2学習済みモデルに入力することにより、上記複数の分子のそれぞれについて、上記疾患に対して作用する性質として原因性または応答性である確率を推定する分子性質推定手段、および
    上記分子性質推定手段により推定された分子の性質と、分子間の接続関係性を示した既知の知識データベースとを用いて、上記関連分子推定手段により推定された上記複数の分子について、原因性の分子が上流側で応答性の分子が下流側となるようにし、かつ、上記知識データベースにより示される接続関係性を反映させるようにして、分子間相互作用を経路図として表したパスウェイを生成するパスウェイ生成手段
    としてコンピュータを機能させるためのパスウェイ生成用プログラム。
JP2020114658A 2020-07-02 2020-07-02 パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム Active JP6915818B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020114658A JP6915818B1 (ja) 2020-07-02 2020-07-02 パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム
US17/995,338 US20230122920A1 (en) 2020-07-02 2020-11-26 Pathway generation apparatus, pathway generation method, and pathway generation program
PCT/JP2020/043961 WO2022003997A1 (ja) 2020-07-02 2020-11-26 パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム
TW109142623A TW202203239A (zh) 2020-07-02 2020-12-03 途徑生成裝置、途徑生成方法及途徑生成用程式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020114658A JP6915818B1 (ja) 2020-07-02 2020-07-02 パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム

Publications (2)

Publication Number Publication Date
JP6915818B1 true JP6915818B1 (ja) 2021-08-04
JP2022012659A JP2022012659A (ja) 2022-01-17

Family

ID=77057547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020114658A Active JP6915818B1 (ja) 2020-07-02 2020-07-02 パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム

Country Status (4)

Country Link
US (1) US20230122920A1 (ja)
JP (1) JP6915818B1 (ja)
TW (1) TW202203239A (ja)
WO (1) WO2022003997A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP5067417B2 (ja) * 2007-02-23 2012-11-07 富士通株式会社 分子ネットワーク分析支援プログラム、分子ネットワーク分析支援装置、および分子ネットワーク分析支援方法
JP6884389B2 (ja) * 2017-11-07 2021-06-09 国立研究開発法人産業技術総合研究所 解析装置、解析方法およびプログラム
KR20190066483A (ko) * 2017-12-05 2019-06-13 한국전자통신연구원 패스웨이 분석 장치의 동작 방법
JP6733891B2 (ja) * 2018-09-12 2020-08-05 株式会社Fronteo 認知症予測装置、予測モデル生成装置および認知症予測用プログラム
US20220223293A1 (en) * 2019-06-02 2022-07-14 Predicta Med Ltd A method of evaluating autoimmune disease risk and treatment selection

Also Published As

Publication number Publication date
WO2022003997A1 (ja) 2022-01-06
JP2022012659A (ja) 2022-01-17
US20230122920A1 (en) 2023-04-20
TW202203239A (zh) 2022-01-16

Similar Documents

Publication Publication Date Title
JP7513396B2 (ja) 関連性を算出する方法、関連性を算出する装置、データクエリ装置及び非一時的なコンピュータ可読記録媒体
JP6962532B1 (ja) 事象予測装置および事象予測用プログラム
Cheatham et al. Semantic data integration
AU2016383052A1 (en) Systems and methods for suggesting emoji
KR20160025007A (ko) 헤드라인의 자동 생성
Morrison Genealogies: pedigrees and phylogenies are reticulating networks not just divergent trees
CN110612522B (zh) 实体模型的建立
JP2021136027A (ja) 文書のテーマ・カバレッジの分析
JP5235918B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP6346367B1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
US20180039646A1 (en) Method and apparatus for storing access log based on keyword
JP6915818B1 (ja) パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
Gan Correlating information contents of gene ontology terms to infer semantic similarity of gene products
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
Silva et al. Analyzing the retweeting behavior of influencers to predict popular tweets, with and without considering their content
WO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
JP7034453B1 (ja) 情報解析装置、情報解析方法および情報解析用プログラム
Hemavathi et al. AI-based interactive agent for health care using NLP and deep learning
Hidayat et al. BERT-based Topic Modeling Approach for Malaria Research Publication
Zeng et al. Multi-aspect attentive text representations for simple question answering over knowledge base
Leifeld et al. Package ‘btergm’
US20240028646A1 (en) Textual similarity model for graph-based metadata
US20230420073A1 (en) Machine learning models for determining pathogenic genetic variants

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210322

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210322

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210706

R150 Certificate of patent or registration of utility model

Ref document number: 6915818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250