KR20220142905A - Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data - Google Patents

Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data Download PDF

Info

Publication number
KR20220142905A
KR20220142905A KR1020210110364A KR20210110364A KR20220142905A KR 20220142905 A KR20220142905 A KR 20220142905A KR 1020210110364 A KR1020210110364 A KR 1020210110364A KR 20210110364 A KR20210110364 A KR 20210110364A KR 20220142905 A KR20220142905 A KR 20220142905A
Authority
KR
South Korea
Prior art keywords
information
tissue image
cell composition
tissue
cell
Prior art date
Application number
KR1020210110364A
Other languages
Korean (ko)
Inventor
최홍윤
김영태
나권중
Original Assignee
주식회사 포트래이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포트래이 filed Critical 주식회사 포트래이
Priority to EP22788243.8A priority Critical patent/EP4325505A1/en
Priority to AU2022257481A priority patent/AU2022257481A1/en
Priority to JP2023563310A priority patent/JP2024518035A/en
Priority to PCT/KR2022/002158 priority patent/WO2022220385A1/en
Priority to US18/555,419 priority patent/US20240194292A1/en
Publication of KR20220142905A publication Critical patent/KR20220142905A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

An apparatus for predicting cell type enrichment from tissue images using spatially resolved gene expression data comprises: a communication module for receiving tissue images of a test object; memory in which a program for predicting cell type enrichment information from the tissue images is stored; and a processor for executing the program. The program predicts the cell type enrichment information by inputting the tissue images to a cell type enrichment prediction model trained on the basis of training data composed of spatially resolved transcriptome information and tissue images spatially matched to the spatially resolved transcriptome information. The spatially resolved transcriptome information includes: transcriptome data including spatial information; and tissue image data sharing the spatial information. The spatial information refers to position information about a plurality of spots arranged as a two-dimensional plane in the tissue image data, and includes the coordinates of each of the spots.

Description

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING CELL TYPE ENRICHMENT FROM TISSUE IMAGES USING SPATIALLY RESOLVED GENE EXPRESSION DATA}Apparatus and method for predicting cellular composition of tissue images based on spatial gene expression information

본 발명은 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for predicting the cellular composition of a tissue image based on spatial gene expression information.

조직의 현미경 이미지는 다양한 세포로 구성된 정보를 갖고 있으며, 세포들은 기능에 따라 복잡한 구조를 이루고 있다. 이러한 복잡한 구조로부터 기능적으로 구분된 세포의 종류를 알아내고 생체표지자를 얻기 위해서는 단순한 조직 이미지 이외의 분자특이적인 염색방법 (면역조직화학염색이나 Fluorescence in Situ Hybridization) 등이 널리 활용되고 있다. Microscopic images of tissues contain information composed of various cells, and the cells form a complex structure according to their functions. In order to find out the types of cells that are functionally separated from these complex structures and obtain biomarkers, molecular-specific staining methods other than simple tissue images (immunohistochemical staining or fluorescence in situ hybridization) are widely used.

이러한 분자수준의 병리 이미지의 경우 분자정보를 한 실험당 한 가지 또는 수 개 수준의 종류씩만 획득할 수 있고, 조직에 대해 추가적인 실험 과정과 재료가 필요하다.In the case of such molecular-level pathology images, only one or several types of molecular information can be acquired per experiment, and additional experimental procedures and materials are required for tissues.

최근 개발되어 활용되는 공간 전사체 기술(Spatially Resolved Transcriptome)은 한번에 수백에서 수만가지의 유전자 발현 정보를 획득하되, 조직 위치 정보를 보존하면서 유전자 발현 정보의 획득이 가능하다. The recently developed and utilized spatially resolved transcriptome technology acquires hundreds to tens of thousands of gene expression information at once, but it is possible to acquire gene expression information while preserving tissue location information.

한편, 단순 조직 이미지(hematoxylin and eosin staining)로부터 형태학적으로 조직의 구성을 구분해내는 라벨링(labeling) 작업은 병리조직 이미지의 전문가에 의해 수행되고 있다. 이를 바탕으로 조직 이미지로부터 병리조직 이미지의 라벨링을 예측하는 딥러닝 기술이 최근 개발되고 있다. On the other hand, a labeling operation for morphologically distinguishing a tissue composition from a simple tissue image (hematoxylin and eosin staining) is being performed by a pathological tissue image expert. Based on this, a deep learning technology that predicts the labeling of pathological tissue images from tissue images has been recently developed.

이와 관련하여 대한민국 등록특허 제10-2108050호(발명의 명칭: 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치)는 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법에 관한 것을 개시하고 있다. In this regard, Republic of Korea Patent Registration No. 10-2108050 (title of the invention: breast cancer histological image classification method and apparatus through augmented convolutional network) discloses a method for classifying breast cancer histology images through an augmented convolutional network.

본 발명은 전술한 문제점을 해결하기 위한 것으로, 공간 정보를 공유하는 전사체 및 조직 이미지를 포함한 공간 전사체 정보를 기초로 학습된 세포 구성 예측 모델에 공간 전사체 정보가 없는 일반적인 조직 이미지를 입력하여 조직 내 세포의 복잡한 구성 정보를 예측하는 장치 및 방법을 제공하는 것을 일 기술적 과제로 한다. The present invention is to solve the above-mentioned problems, by inputting a general tissue image without spatial transcript information into a cell composition prediction model learned based on spatial transcript information including a transcript and tissue image sharing spatial information. One technical task is to provide an apparatus and method for predicting complex configuration information of cells in a tissue.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical task to be achieved by the present embodiment is not limited to the above-described technical task, and other technical tasks may exist.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치는 검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈; 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및 프로그램을 실행하는 프로세서를 포함하되, 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하고, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.As a technical means for solving the above technical problem, an apparatus for predicting a cellular composition of a tissue image based on spatial gene expression information according to a first aspect of the present invention includes: a communication module for receiving a tissue image of a test subject; a memory in which a program for predicting cell composition information from a tissue image is stored; and a processor executing the program, wherein the program predicts cell composition information by inputting a tissue image to the learned cell composition prediction model based on training data consisting of spatial transcriptome information and a tissue image spatially matched thereto; , the spatial transcriptome information includes transcriptome data including spatial information and tissue image data sharing spatial information, and the spatial information refers to location information on a plurality of spots arranged in a two-dimensional plane in the tissue image data. By doing so, the coordinates of each spot are included.

또한, 본 발명의 제2 측면에 따른 조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지를 수신하는 단계; 및 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측하는 단계를 포함하되, 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고, 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함한다.In addition, the method for predicting the cell composition of the tissue image based on spatial gene expression information using the apparatus for predicting the cell composition of the tissue image according to the second aspect of the present invention comprises the steps of: receiving a tissue image of a test subject; and predicting cell composition information by inputting a tissue image to the learned cell composition prediction model based on the training data consisting of the spatial transcript information and the tissue image spatially matched thereto, wherein the spatial transcript information is spatial information Tissue image data that shares spatial information with transcriptome data including include

본 발명의 일 실시예에 따르면 쉽게 획득 가능한 조직 이미지(H&E staining)의 형태학적인 정보만으로 다양한 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.According to an embodiment of the present invention, it is possible to present a learning model capable of predicting compositional information of various cells only with morphological information of easily obtainable tissue images (H&E staining).

또한, 다양한 질환에서 확보된 조직 이미지와 공간 정보를 공유하는 전사체 데이터가 포함된 공간 전사체 정보를 학습 데이터로서 활용하여 조직 또는 질병의 종류별로 세포의 구성 정보를 예측할 수 있는 학습 모델을 제시할 수 있다.In addition, we propose a learning model that can predict the composition information of cells by tissue or disease type by utilizing spatial transcriptome information, which includes tissue images obtained from various diseases and transcriptome data that shares spatial information, as learning data. can

한편 기존에는 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘이 보고된 바 있으나, 해당 기술은 조직 이미지 전문가의 시각적 판독과 레이블링이 필수적이라는 단점이 있었다. 또한 이러한 레이블링은 시간과 노력이 많이 소모되며, 평가자 간의 차이를 유발하는 문제가 있었다. 더불어, 분자 수준의 정보를 제공하는 것이 아니기 때문에 세부적인 분자-기능적 세포 분류하의 분포를 유추하는 알고리즘의 개발이 어려웠다.On the other hand, a deep learning-based algorithm for estimating the detailed classification of tissue by tissue image (H&E staining) has been previously reported. In addition, such labeling consumes a lot of time and effort, and there was a problem of causing differences between raters. In addition, since it does not provide information at the molecular level, it was difficult to develop an algorithm to infer the distribution under detailed molecular-functional cell classification.

그러나, 본 발명은 전술한 문제점을 해결하며, 첫째 다양한 질환에서 세포군의 다양성을 정량화하는 수치로서 활용될 수 있다. 즉, 학습 모델에 단순 조직 이미지만 입력하여 세포군의 다양성에 대한 정량 정보를 획득할 수 있다. 이를 이용하여 다양한 질환 (암, 염증성 질환 등)의 병태생리 연구, 신규 치료 기술 개발 연구, 진단적 바이오마커 개발 연구 등에 다양하게 응용될 수 있다. However, the present invention solves the above problems, and first, it can be utilized as a numerical value for quantifying the diversity of cell populations in various diseases. That is, quantitative information on the diversity of cell populations can be obtained by inputting only simple tissue images to the learning model. By using this, it can be applied to pathophysiology research of various diseases (cancer, inflammatory disease, etc.), research on development of new treatment technology, research on development of diagnostic biomarkers, and the like.

둘째 학습 모델에 단순 조직 이미지만 입력하여 분자 기능적 세포를 정량화할 수 있다. 이를 이용하여 특정 질환의 특성과 심각 정도를 나타내거나 치료 효과를 예측할 수 있는 바이오마커로서 활용가치가 있다. Second, we can quantify molecular and functional cells by inputting only simple tissue images into the learning model. Using this, it has value as a biomarker that can indicate the characteristics and severity of a specific disease or predict the therapeutic effect.

예를 들어, 종양에서 암세포 이외의 염증세포가 밀집된 경우 종양면역치료의 반응성 예측과도 밀접한 연관이 있다는 사실이 잘 알려져 있다. 즉, 본 발명에 따른 학습모델에 입력된 단순 조직 이미지는 염증세포의 분포 정보를 예측할 수 있으며, 정량적 바이오마커로서 활용될 수 있다.For example, it is well known that when inflammatory cells other than cancer cells are concentrated in a tumor, it is closely related to predicting the reactivity of tumor immunotherapy. That is, the simple tissue image input to the learning model according to the present invention can predict the distribution information of inflammatory cells and can be utilized as a quantitative biomarker.

도 1은 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다.
도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 분자마커 모델부를 설명하기 위한 도면이다.
도 5내지 도 8은 본 발명의 일 실시예에 따른 세포 구성 예측 모델에 입력한 조직 이미지로부터예측한 세포 구성 정보를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 방법을 도시한 순서도이다.
1 is a block diagram illustrating the configuration of an apparatus for predicting cell composition of a tissue image according to an embodiment of the present invention.
2 is a conceptual diagram illustrating the configuration of a cell composition prediction model according to an embodiment of the present invention.
3 is a diagram for explaining an image segmentation unit of a cell composition prediction model according to an embodiment of the present invention.
4 is a view for explaining the molecular marker model unit of the cell composition prediction model according to an embodiment of the present invention.
5 to 8 are diagrams illustrating cell composition information predicted from a tissue image input to a cell composition prediction model according to an embodiment of the present invention.
9 is a flowchart illustrating a method for predicting cell composition of a tissue image according to an embodiment of the present invention.

이하에서는 첨부한 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 다만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예들로 한정되는 것은 아니다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 도면에 나타난 각 구성요소의 크기, 형태, 형상은 다양하게 변형될 수 있다. 명세서 전체에 대하여 동일/유사한 부분에 대해서는 동일/유사한 도면 부호를 붙였다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and is not limited to the embodiments described herein. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in the present specification, and the technical ideas disclosed in the present specification are not limited by the accompanying drawings. In order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and the size, shape, and shape of each component shown in the drawings may be variously modified. The same/similar reference numerals are attached to the same/similar parts throughout the specification.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 “부” 등은 명세서 작성의 용이함만이 고려되어 부여 되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략하였다.The suffixes “module” and “part” for components used in the following description are given or mixed in consideration of only the ease of writing the specification, and do not have distinct meanings or roles by themselves. In addition, in describing the embodiments disclosed in the present specification, when it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed in the present specification, detailed descriptions thereof are omitted.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉 또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(접속, 접촉 또는 결합)"되어 있는 경우뿐만 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결 (접속, 접촉 또는 결합)"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함(구비 또는 마련)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 "포함(구비 또는 마련)"할 수 있다는 것을 의미한다. Throughout the specification, when a part is said to be "connected (connected, contacted, or coupled)" with another part, this means not only when it is "directly connected (connected, contacted, or coupled)" but also refers to another member in the middle. It also includes the case of "indirectly connected (connected, contacted, or combined)" between them. Also, when a part "includes (provides or provides)" a component, it does not exclude other components unless otherwise stated, but further "includes (provides or provides)" other components. means you can

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 나타내는 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 구성 요소들의 순서나 관계를 제한하지 않는다. 예를 들어, 본 발명의 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소도 제1구성 요소로 명명될 수 있다.As used herein, terms indicating ordinal numbers such as first, second, etc. are used only for the purpose of distinguishing one element from other elements, and do not limit the order or relationship of the elements. For example, a first component of the present invention may be referred to as a second component, and similarly, a second component may also be referred to as a first component.

도 1은 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 장치의 구성을 도시한 블록도이다.1 is a block diagram illustrating the configuration of an apparatus for predicting cell composition of a tissue image according to an embodiment of the present invention.

도 1을 참조하면, 조직이미지의 세포 구성 예측 장치(100)는 통신 모듈(110), 메모리(120) 및 프로세서(130)를 포함하며, 데이터베이스(140)를 더 포함할 수 있다. 조직이미지의 세포 구성 예측 장치(100)는 검사 대상체에 대한 조직 이미지를 수신하고, 이를 이용하여 세포 구성 정보를 예측하는 동작을 수행한다.Referring to FIG. 1 , the apparatus 100 for predicting cell composition of a tissue image includes a communication module 110 , a memory 120 , and a processor 130 , and may further include a database 140 . The apparatus 100 for predicting cell composition of a tissue image receives a tissue image of a test object and predicts cell composition information using the received tissue image.

이를 위해, 조직이미지의 세포 구성 예측 장치(100)는 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 각종 스마트폰, 태블릿 PC, 스마트 워치 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.To this end, the apparatus 100 for predicting the cell composition of the tissue image may be implemented as a computer or a portable terminal that can be connected to a server or other terminal through a network. Here, the computer includes, for example, a laptop equipped with a web browser, a desktop, a laptop, and the like, and the portable terminal is, for example, a wireless communication device that ensures portability and mobility. , may include all kinds of handheld-based wireless communication devices such as various smart phones, tablet PCs, smart watches, and the like.

네트워크는 단말들 및 장치들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.The network refers to a connection structure in which information can be exchanged between each node, such as terminals and devices, and includes a local area network (LAN), a wide area network (WAN), and the Internet (WWW: World). Wide Web), wired and wireless data communication networks, telephone networks, wired and wireless television networks, and the like. Examples of wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), Wi-Fi, Bluetooth communication, infrared communication, ultrasound communication, Visible Light Communication (VLC), LiFi, and the like, but are not limited thereto.

통신 모듈(110)은 검사 대상체에 대한 조직 이미지를 수신한다. 이때, 조직 이미지는 현미경을 통해 일반적으로 쉽게 획득이 가능한 조직 이미지로서 공간 전사체 정보를 포함하지 않는다. 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다. The communication module 110 receives a tissue image of the test object. In this case, the tissue image is a tissue image that is generally easily acquired through a microscope and does not include spatial transcript information. The communication module 110 may include a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.

메모리(120)는 통신 모듈(110)을 통해 수신한 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된다. 이때, 세포 구성 정보를 예측하는 프로그램은 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 조직 이미지를 입력하여 세포 구성 정보를 예측한다. 세포 구성 정보의 구체적인 내용에 대해서는 추후 설명하기로 한다.The memory 120 stores a program for predicting cell composition information from the tissue image received through the communication module 110 . At this time, the program for predicting the cell composition information predicts the cell composition information by inputting the tissue image to the learned cell composition prediction model based on the learning data consisting of the spatial transcript information and the tissue image spatially matched thereto. Details of the cell composition information will be described later.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(130)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.In this case, the memory 120 should be interpreted as a generic term for a non-volatile storage device that continuously maintains stored information even when power is not supplied, and a volatile storage device that requires power to maintain the stored information. The memory 120 may perform a function of temporarily or permanently storing data processed by the processor 130 . The memory 130 may include magnetic storage media or flash storage media in addition to the volatile storage device requiring power to maintain stored information, but the scope of the present invention is not limited thereto. not.

프로세서(130)는 메모리(120)에 저장된 세포 구성 정보를 예측하는 프로그램을 실행하고, 그 실행 결과로서 대상체에 대한 세포 구성 정보를 출력한다.The processor 130 executes a program for predicting the cell composition information stored in the memory 120 , and outputs the cell composition information of the object as a result of the execution.

일 예에서, 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.In one example, the processor 130 includes a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated circuit (ASIC), an FPGA ( field programmable gate array), but the scope of the present invention is not limited thereto.

데이터베이스(140)는 통신 모듈(110)을 통해 수신되는 조직 이미지나, 세포 구성 예측 모델의 학습을 위한 다양한 데이터가 저장될 수 있다. 또한, 데이터베이스(140)는 세포 구성 정보 추출 프로그램에 의해 추출된 세포 구성 정보를 누적적으로 저장하며, 이러한 세포 구성 정보를 기반으로, 조직 이미지에 의해 분자 기능적 세포를 정량화 하는 다양한 응용에 활용될 수 있도록 한다.The database 140 may store tissue images received through the communication module 110 or various data for learning a cell composition prediction model. In addition, the database 140 cumulatively stores the cell composition information extracted by the cell composition information extraction program, and based on this cell composition information, it can be utilized in various applications to quantify molecular and functional cells by tissue images. let it be

이하, 세포 구성 정보를 추출하는 세포 구성 예측 모델에 대하여 살펴보기로 한다.Hereinafter, a cell composition prediction model for extracting cell composition information will be described.

도 2는 본 발명의 일 실시예에 따른세포 구성 예측 모델의 구성을 도시한 개념도 이다. 도 3은 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 이미지 분할부를 설명하기 위한 도면이다. 2 is a conceptual diagram illustrating the configuration of a cell composition prediction model according to an embodiment of the present invention. 3 is a diagram for explaining an image segmentation unit of a cell composition prediction model according to an embodiment of the present invention.

공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다. 여기서 조직 이미지 데이터는 복수의 스팟의 좌표가 포함된 특수 슬라이드를 이용하여 H&E 염색을 한 후에 촬영한 조직 이미지로서, 종래 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다. The spatial transcriptome information 20 includes transcriptome data including spatial information and tissue image data sharing spatial information. Spatial information means position information on a plurality of spots 212 arranged in a two-dimensional plane in tissue image data, and includes coordinates of each spot 212 . Here, the tissue image data is a tissue image photographed after H&E staining using a special slide including coordinates of a plurality of spots, and since it corresponds to the prior art, a detailed description thereof will be omitted.

즉, 공간 전사체 정보(20)는 각 스팟(212) 마다 수백-수만 개의 전사체 데이터를 획득한 데이터로서, 스팟(212)의 좌표를 이용하여 전사체 데이터와 조직 이미지 데이터가 공간적으로 정합 가능한 데이터이다. That is, the spatial transcriptome information 20 is data obtained by acquiring hundreds to tens of thousands of transcript data for each spot 212 , and it is possible to spatially match transcriptome data and tissue image data using the coordinates of the spot 212 . is data.

세포 구성 예측 모델(200)은 기 수집된 사람 또는 동물의 조직 별 공간 전사체 정보(20)와 각 스팟(212)의 좌표 별로 분류한 전사체 데이터에 대하여 세포 구성 정보(240)를 매칭시킨 학습 데이터에 기반하여 구축된 것이다.The cell composition prediction model 200 is a learning method in which the cell composition information 240 is matched with the previously collected spatial transcriptome information 20 for each tissue of a human or animal and the transcriptome data classified by the coordinates of each spot 212 . It is built on data.

세포 구성 예측 모델(200)은 이미지 분할부(210), 분자마커 모델부(220) 및 예측부(230)를 포함한다.The cell composition prediction model 200 includes an image segmentation unit 210 , a molecular marker model unit 220 , and a prediction unit 230 .

이미지 분할부(210)는 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할한다. The image segmentation unit 210 divides tissue image data into patch tissue images having a preset size.

이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다.The image division unit 210 is a process of matching transcriptome data and tissue image data based on the coordinates of the spots 212, and placing a rectangular box of a preset size in the tissue image data including a plurality of spots 212 process, and a process of extracting tissue image data into at least one patch tissue image 211 so that the coordinates of the spot 212 located in the center among the plurality of spots 212 become the central coordinate value 213 of the rectangular box. it is built

예를 들어, 패치 조직 이미지(211)의 크기는 128 x 128의 이미지 사이즈일 수 있으며, 패치 한 변의 길이는 510um로 이루어질 수 있다.For example, the size of the patch tissue image 211 may be 128 x 128 image size, and the length of one side of the patch may be 510 μm.

예시적으로, 이미지 분할부(210)는 스팟(전사체 데이터를 획득하는 공간 단위)의 좌표에 기초하여, 전사체 데이터를 조직 이미지 데이터와 매칭을 시킬 수 있다. 이어서, 스팟(212)의 중앙 좌표값(213)에 기초하여, 조직 이미지 데이터가 일정한 크기의 사각형(사각 박스) 사이즈를 갖는 복수의 조각(patch) 이미지(패치 조직 이미지)로 분할될 수 있다. 이후 분자마커 모델부(220)가 분할된 패치 조직 이미지(211)에 포함된 전사체 데이터에 기초하여 각 세포군의 유형별 세포 분포 정보(세포의 밀집 정도)를 출력할 수 있다.For example, the image division unit 210 may match the transcriptome data with the tissue image data based on the coordinates of the spot (a spatial unit for obtaining the transcriptome data). Then, based on the central coordinate value 213 of the spot 212 , the tissue image data may be divided into a plurality of patch images (patch tissue images) having a predetermined size of a rectangle (square box). Thereafter, the molecular marker model unit 220 may output cell distribution information (a degree of cell density) for each type of cell group based on transcript data included in the segmented patch tissue image 211 .

분자마커 모델부(220)는 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력한다. 예시적으로, 분자마커 모델부(220)는 CellDART 모델로 구성될 수 있으나 이에 한정된 것은 아니며, 기존 조직 이미지(H&E staining)로 조직의 세부 분류를 추정하는 딥러닝 기반 알고리즘으로 구성될 수 있다.The molecular marker model unit 220 outputs cell distribution information for each type of labeled cell group through the transcript data. Illustratively, the molecular marker model unit 220 may be configured as a CellDART model, but is not limited thereto, and may be configured as a deep learning-based algorithm for estimating a detailed classification of a tissue using an existing tissue image (H&E staining).

도 4는 본 발명의 일 실시예에 따른 세포 구성 예측 모델의 분자마커 모델부를 설명하기 위한 도면이다.4 is a view for explaining the molecular marker model unit of the cell composition prediction model according to an embodiment of the present invention.

한편, 도 4를 참조하면 또한 분자마커 모델부(220)는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보(241)와 각 단일 세포 종류(242)가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축될 수 있다. 분자마커 모델부(220)는 기존 연구에 의해, 공개된 전사체 데이터와 레이블링된 세포군의 세포 분포 정보(241) 및 각 단일 세포 종류에 대한 정보(242)로 이루어진 학습 데이터에 기반하여 구축된 CellDART 모델을 이용하여 세포 구성 정보(240)를 출력할 수 있다. 예시적으로 CellDART 모델은 소스 분류기(source classifier) 및 도메인 분류기(domain classifier)를 포함한 특징 추출기를 포함한다. CellDART 모델은 기존 전사체 데이터 세트를 전처리하고 각 세포 클러스터(cell cluster)에 대한 통합된 마커 유전자를 추출한다. 이어서 풀링된 클러스터 마커(pooled cluster marker)와 공간 전사체 정보 간에 공유된 전사체 데이터가 다운스트림 분석(downstream analysis)을 위해 선택된다. 다음으로 단일 세포 데이터(single-cell data)에서 8개의 세포를 무작위로 선택하고 무작위 가중치를 부여하여 20000개의 유사점을 생성한다. Meanwhile, referring to FIG. 4 , the molecular marker model unit 220 also stores the cell distribution information 241 for each type of cell group included in the existing tissue image published on the Internet and the transcript data included in each single cell type 242 . It can be built based on matching learning data. The molecular marker model unit 220 is CellDART built on the basis of training data consisting of published transcript data, cell distribution information 241 of a labeled cell group, and information 242 on each single cell type, which are published by existing studies. Cell composition information 240 may be output using the model. Exemplarily, the CellDART model includes a feature extractor including a source classifier and a domain classifier. The CellDART model preprocesses existing transcriptome data sets and extracts integrated marker genes for each cell cluster. Transcript data shared between the pooled cluster marker and spatial transcript information is then selected for downstream analysis. Next, 8 cells are randomly selected from single-cell data and randomly weighted to generate 20000 similarities.

특징 추출기는 유사점에서 세포 분율을 추정하고 유사점이 공간 스팟과 구별하도록 학습된다. 먼저 도메인 분류기를 제외한 신경망의 가중치가 업데이트 되고, 다음으로 스팟과 유사 스팟에 대한 데이터 레이블이 반전되고 도메인 분류기만 업데이트 된다. 마지막으로 학습된 CellDART 모델이 공간 전사체 데이터에 적용하여 각 스팟의 세포 비율을 추정할 수 있다. CellDART 모델은 세포를 추정하기 위한 단일 세포 전사체 데이터는 공개된 데이터를 활용하여 기존 연구에 의해 레이블링된 세포별 이름이 적용될 수 있다. 이는 공개된 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다. The feature extractor is trained to estimate the cell fraction from similarities and distinguish similarities from spatial spots. First, the weights of the neural network except for the domain classifier are updated, then the data labels for spots and similar spots are inverted, and only the domain classifier is updated. Finally, the learned CellDART model can be applied to the spatial transcriptome data to estimate the percentage of cells in each spot. In the CellDART model, single-cell transcriptome data for estimating cells can be applied by cell-specific names labeled by existing studies using published data. Since this corresponds to the disclosed technology, a detailed description thereof will be omitted.

다시 도 2를 참조하면, 예측부(230)는 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출한다.Referring back to FIG. 2 , the prediction unit 230 is a cell labeled with transcript data based on the central coordinate value 213 of the spot 212 among the plurality of spots 212 included in the patch tissue image 211 . The configuration information 240 is extracted.

예시적으로 예측부(230)는 패치 조직 이미지(211)에 대한 전처리 과정을 포함할 수 있다. 전처리 과정은 H&E염색에 대한 스테인 표준화(Stain Normalization)를 수행할 수 있다. 예를 들어, 패치 조직 이미지(211)는 합성곱신경망의 학습 과정에 입력되는 데이터에 대하여 회전, 좌우상하 대칭, 확대 및 축소(20% 범주), 각 RGB 채널 별 변화를 임의의 함수로 수행하여 데이터 증량을 수행할 수 있다. For example, the prediction unit 230 may include a preprocessing process for the patch tissue image 211 . The pretreatment process may perform stain normalization for H&E staining. For example, the patch tissue image 211 performs rotation, left-right symmetry, enlargement and reduction (20% category), and change for each RGB channel as an arbitrary function on the data input to the learning process of the convolutional neural network. Data augmentation can be performed.

일 예로, 합성곱신경망은 이미지넷 기반의 ResNet-50을 기본 틀로 하여 이미지넷에서 훈련된 파라미터를 우선적으로 적용한 뒤 훈련과정에서 업데이트할 수 있다. 또한 전체 패치 조직 이미지(211)의 5%는 내부 확인(Validation)용으로 활용할 수 있다. 전체 학습 과정에서는 1회의 미니 배치(mini-batch)당 64개의 패치 조직 이미지 및 세포군을 입력하고, 최적화 과정에서는 아담 최적화(Adam optimizer)를 적용할 수 있다. 학습 률(Learning Rate)은 0.0001로 수행하고, 전체 에포크(epoch)는 100회 수행할 수 있다. 또한, 모델 훈련을 위한 손실함수(loss function)는 세포밀집정도에 대한분포를 고려하여 푸아송 손실(Poisson Loss)을 활용하였다.As an example, the convolutional neural network may use ImageNet-based ResNet-50 as a basic frame to apply parameters trained in ImageNet preferentially and then update it during the training process. In addition, 5% of the entire patch tissue image 211 may be used for internal validation. In the overall learning process, 64 patch tissue images and cell groups are input per mini-batch, and an Adam optimizer can be applied in the optimization process. The learning rate may be 0.0001, and the entire epoch may be performed 100 times. Also, as a loss function for model training, a Poisson loss was used in consideration of the distribution of cell density.

도 5내지 도 8은 본 발명의 일 실시예에 따른 세포 구성 예측 모델에 입력한 조직 이미지로부터예측한 세포 구성 정보를 도시한 도면이다.5 to 8 are diagrams illustrating cell composition information predicted from a tissue image input to a cell composition prediction model according to an embodiment of the present invention.

프로그램은 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.The program includes, as the cell composition information 240 , information on the type of cell group predicted from the tissue image 21 and a heat map tissue image indicating cell distribution information for each type of cell group.

도 5는 본 발명의 세포 구성 예측 모델(200)에 조직의 H&E 이미지를 입력하여 예측한 세포 군의 유형별 세포 구성 정보를 도시한 것이다. 5 shows cell composition information for each type of cell group predicted by inputting the tissue H&E image into the cell composition prediction model 200 of the present invention.

도시된 바와 같이 본 발명의 세포 구성 예측 모델(200)에 독립된 조직 이미지 데이터의 패치를 입력하여 세포밀집정도의 추정 이미지가 생성될 수 있다. As shown, an estimated image of the degree of cell density may be generated by inputting a patch of independent tissue image data to the cell composition prediction model 200 of the present invention.

이는 5%를 임의로 선정한 내부 확인 셋(validation set)에서 전사체로 예측한 세포군의 밀집정도와 H&E 이미지의 패치 조직 이미지로 예측한 모델의 결과를 나타낸 것이다. 가로축은 딥러닝 모델과 H&E 이미지의 패치 조직 이미지로 예측한값이고, 세로축은 전사체 데이터로부터 획득한 세포의 밀집정도를 나타낸 것이다.This shows the density of the cell population predicted as transcripts in an internal validation set randomly selected at 5% and the results of the model predicted by the patch tissue image of the H&E image. The horizontal axis is the value predicted by the patch tissue image of the deep learning model and the H&E image, and the vertical axis is the density of cells obtained from the transcriptome data.

도 6(a)는 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보이고, 도6(b)는 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지이다. 본 발명의 세포 구성 예측 모델(200)에 비슘(Visium) 에서 획득한 조직이미지를 입력하여 패치 조직 이미지를 기반으로 적용시 골수 유형(Myeloid Type)의 세포 분포 정보를 추정한 히트맵 조직 이미지가 출력될 수 있다. FIG. 6(a) is information on the type of cell group predicted in the tissue image 21, and FIG. 6(b) is a heat map tissue image showing cell distribution information for each type of cell group. When the tissue image obtained from Visium is input to the cell composition prediction model 200 of the present invention and applied based on the patch tissue image, a heat map tissue image estimating the cell distribution information of Myeloid Type is output can be

도 7은 독립적인 모델 작동 여부를 평가하기 위해 외부 공개된 데이터로서 폐선암의 조직이미지 패치별로 병리학과 의사의 의견에 따라 림프구에 침투하는 종양(Tumor Infiltrating Lymphocytes)이 패치 내에 존재하는지 알려주는 데이터셋에서, TIL이 존재하는 패치에서 통계적으로 유의미하게 더 높은 T/NK cell의 값이 나오는 것을 확인하였다.7 is an externally published data to evaluate whether an independent model works, according to the opinion of a pathologist for each tissue image patch of lung adenocarcinoma. , it was confirmed that a statistically significantly higher T/NK cell value appeared in the patch in which TIL was present.

도 8(a)는 독립적인 데이터로서, 공개된 폐선암의 H&E 이미지이고, 본 발명의 세포 구성 예측 모델(200)에 공개된 폐선암의이미지를 입력하면 도8(b)에 도시된 바와 같이, 조직 내 세포군의 유형별로 세포 분포 정보가 예측될 수 있다.FIG. 8(a) is independent data, and is an H&E image of lung adenocarcinoma that has been published. When the image of lung adenocarcinoma disclosed in the cell composition prediction model 200 of the present invention is input, as shown in FIG. 8(b), FIG. , cell distribution information can be predicted for each type of cell group in the tissue.

이하에서는 상술한 도 1 내지 도8에 도시된 구성 중 동일한 구성의 설명은 생략하도록 한다. Hereinafter, descriptions of the same components among the components shown in FIGS. 1 to 8 will be omitted.

도 9는 본 발명의 일 실시예에 따른 조직이미지의 세포 구성 예측 방법을 도시한 순서도이다.9 is a flowchart illustrating a method for predicting cell composition of a tissue image according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 조직 이미지의 세포 구성 예측 장치(100)를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법은 검사 대상체에 대한 조직 이미지(21)를 수신하는 단계(S110) 및 공간 전사체 정보(20)와 분자마커로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델(200)에 조직 이미지(21)를 입력하여 세포 구성 정보를 예측하는 단계(S120)를 포함한다. 이때 공간 전사체 정보(20)는 공간 정보를 포함하는 전사체 데이터와 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이다. 공간 정보는 조직 이미지 데이터에 2차원 평면으로 배치된 복수의 스팟(212)에 대한 위치정보를 의미하는 것으로서, 각 스팟(212)의 좌표를 포함한다.The method for predicting the cell composition of a tissue image based on spatial gene expression information using the apparatus 100 for predicting the cell composition of a tissue image according to an embodiment of the present invention comprises the steps of receiving a tissue image 21 for a test subject. (S110) and the step of predicting cell composition information by inputting the tissue image 21 into the learned cell composition prediction model 200 based on the learning data consisting of spatial transcript information 20 and molecular markers (S120) include In this case, the spatial transcriptome information 20 includes transcriptome data including spatial information and tissue image data sharing spatial information. Spatial information means position information on a plurality of spots 212 arranged in a two-dimensional plane in tissue image data, and includes coordinates of each spot 212 .

세포 구성 예측 모델(200)은 기 수집된 사람 또는 동물의 조직 별 공간 전사체 정보(20)와 각 스팟(212)의 좌표 별로 분류한 전사체 데이터에 대하여 세포 구성 정보(240)를 매칭시킨 학습 데이터에 기반하여 구축된 것이다.The cell composition prediction model 200 is a learning method in which the cell composition information 240 is matched with the previously collected spatial transcriptome information 20 for each tissue of a human or animal and the transcriptome data classified by the coordinates of each spot 212 . It is built on data.

세포 구성 예측 모델(200)은 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부(210), 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부(220), 및 패치 조직 이미지(211)에 포함된 복수의 스팟(212) 중에서 스팟(212)의 중앙 좌표값(213)에 기초하여 전사체 데이터와 레이블링된 세포 구성 정보(240)를 추출하는 예측부(230)를 포함한다.The cell composition prediction model 200 includes an image segmentation unit 210 that divides tissue image data into patch tissue images of a preset size, and a molecular marker model unit ( 220), and prediction of extracting transcript data and labeled cell composition information 240 based on the central coordinate value 213 of the spot 212 among the plurality of spots 212 included in the patch tissue image 211 part 230 .

세포 구성 예측 모델(200)의 이미지 분할부(210)는 스팟(212)의 좌표에 기초하여 전사체 데이터와 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 복수의 스팟(212)이 포함된 조직 이미지 데이터에 배치하는 과정, 및 복수의 스팟(212) 중에서 가운데 위치한 스팟(212)의 좌표가 사각 박스의 중앙 좌표값(213)이 되도록 조직 이미지 데이터가 적어도 하나 이상의 패치 조직 이미지(211)로 추출되는 과정을 수행하도록 구축된 것이다. The image segmentation unit 210 of the cell composition prediction model 200 performs a process of matching transcriptome data and tissue image data based on the coordinates of the spots 212, and sets a rectangular box of a preset size with a plurality of spots 212. The tissue image data is at least one patch tissue image 211 such that the coordinates of the centrally located spot 212 among the plurality of spots 212 become the central coordinate value 213 of the rectangular box. ) to perform the extraction process.

세포 구성 정보를 예측하는 단계(S120)는 세포 구성 정보(240)로서 조직 이미지(21)에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함한다.The predicting of the cell composition information ( S120 ) includes, as the cell composition information 240 , information on the type of cell group predicted in the tissue image 21 and a heat map tissue image indicating cell distribution information for each type of cell group.

이상에서 설명한 세포 구성 예측 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. The cell composition prediction method described above may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those of ordinary skill in the art to which the present invention pertains will be able to understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention based on the above description. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The scope of the present invention is indicated by the following claims, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention.

100: 조직이미지의 세포 구성 예측 장치
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
100: device for predicting cell composition of tissue image
110: communication module
120: memory
130: processor
140: database

Claims (13)

공간 유전자발현정보에 기반하여 조직 이미지의 세포 구성을 예측하는 장치에 있어서,
검사 대상체에 대한 조직 이미지를 수신하는 통신 모듈;
상기 조직 이미지로부터 세포 구성 정보를 예측하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행하는 프로세서를 포함하되,
상기 프로그램은, 공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하고,
상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,
상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
An apparatus for predicting the cell composition of a tissue image based on spatial gene expression information,
a communication module for receiving a tissue image of the test object;
a memory in which a program for predicting cell composition information from the tissue image is stored; and
a processor executing the program;
The program predicts the cell composition information by inputting the tissue image to a cell composition prediction model learned based on learning data consisting of spatial transcript information and a tissue image spatially matched thereto,
The spatial transcript information includes transcript data including spatial information and tissue image data sharing the spatial information,
The spatial information refers to location information on a plurality of spots disposed in the tissue image data, and includes coordinates of each spot, an apparatus for predicting cell composition of a tissue image.
제1항에 있어서,
상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
According to claim 1,
The cell composition prediction model is constructed based on learning data obtained by matching the cell composition information with the previously collected spatial transcript information for each human or animal tissue and the transcript data classified by the coordinates of each spot. Phosphorus, a device for predicting cell composition of tissue images.
제2항에 있어서,
상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
3. The method of claim 2,
The cell composition prediction model includes an image segmentation unit that divides the tissue image data into patch tissue images of a preset size, a molecular marker model unit that outputs cell distribution information for each type of cell group labeled through the transcriptome data, and the patch The apparatus for predicting cell composition of a tissue image, comprising a prediction unit for extracting the transcript data and the labeled cell composition information based on a central coordinate value of the spot from among the plurality of spots included in the tissue image.
제3항에 있어서,
상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
4. The method of claim 3,
The image division unit of the cell composition prediction model is a process of matching the transcriptome data and the tissue image data based on the coordinates of the spots, and a rectangular box of a preset size is placed in the tissue image data including the plurality of spots a process, and the tissue image data is constructed to perform a process of extracting the tissue image data into at least one or more patch tissue images so that the coordinates of the spots located in the center among the plurality of spots become the central coordinate values of the square box. of cell composition prediction device.
제3항에 있어서,
상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 장치.
4. The method of claim 3,
The molecular marker model unit of the cell composition prediction model is constructed based on learning data that matches the cell distribution information for each type of cell group included in the existing tissue image published on the Internet and the transcriptome data included in each single cell type, A device for predicting cell composition of tissue images.
제3항에 있어서,
상기 프로그램은 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 장치.
4. The method of claim 3,
Wherein the program includes a heat map tissue image showing information on the type of cell group predicted from the tissue image and cell distribution information for each type of each cell group as the cell composition information.
조직 이미지의 세포 구성 예측 장치를 이용하여 공간 유전자발현정보에 기반한 조직 이미지의 세포 구성을 예측하는 방법에 있어서,
검사 대상체에 대한 조직 이미지를 수신하는 단계; 및
공간 전사체 정보와 이와 공간적으로 정합된 조직 이미지로 이루어진 학습 데이터에 기반하여 학습된 세포 구성 예측 모델에 상기 조직 이미지를 입력하여 상기 세포 구성 정보를 예측하는 단계를 포함하되,
상기 공간 전사체 정보는 공간 정보를 포함하는 전사체 데이터와 상기 공간 정보를 공유하는 조직 이미지 데이터를 포함하는 것이고,
상기 공간 정보는 상기 조직 이미지 데이터에 배치된 복수의 스팟에 대한 위치정보를 의미하는 것으로서, 각 스팟의 좌표를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
In the method for predicting the cell composition of the tissue image based on spatial gene expression information using the cell composition prediction device of the tissue image,
receiving a tissue image of the test subject; and
Comprising the step of predicting the cell composition information by inputting the tissue image into a learned cell composition prediction model based on the learning data consisting of spatial transcript information and spatially matched tissue image,
The spatial transcriptome information includes transcriptome data including spatial information and tissue image data sharing the spatial information,
The spatial information means location information on a plurality of spots disposed in the tissue image data, and includes coordinates of each spot, a method for predicting cell composition of a tissue image.
제7항에 있어서,
상기 세포 구성 예측 모델은 기 수집된 사람 또는 동물의 조직 별 상기 공간 전사체 정보와 상기 각 스팟의 좌표 별로 분류한 상기 전사체 데이터에 대하여 상기 세포 구성 정보를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
8. The method of claim 7,
The cell composition prediction model is constructed based on learning data obtained by matching the cell composition information with the previously collected spatial transcript information for each human or animal tissue and the transcript data classified by the coordinates of each spot. Phosphorus, a method for predicting the cellular composition of tissue images.
제8항에 있어서,
상기 세포 구성 예측 모델은 상기 조직 이미지 데이터를 미리 설정된 크기의 패치 조직 이미지로 분할하는 이미지 분할부, 상기 전사체 데이터를 통해 레이블링된 세포군의 유형별 세포 분포 정보를 출력하는 분자마커 모델부, 및 상기 패치 조직 이미지에 포함된 상기 복수의 스팟 중에서 스팟의 중앙 좌표값에 기초하여 상기 전사체 데이터와 레이블링된 상기 세포 구성 정보를 추출하는 예측부를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
9. The method of claim 8,
The cell composition prediction model includes an image segmentation unit that divides the tissue image data into patch tissue images of a preset size, a molecular marker model unit that outputs cell distribution information for each type of cell group labeled through the transcriptome data, and the patch A method for predicting cell composition of a tissue image, comprising a prediction unit for extracting the transcript data and the labeled cell composition information based on a central coordinate value of the spot from among the plurality of spots included in the tissue image.
제9항에 있어서,
상기 세포 구성 예측 모델의 이미지 분할부는 상기 스팟의 좌표에 기초하여 상기 전사체 데이터와 상기 조직 이미지 데이터를 매칭하는 과정, 미리 설정된 크기의 사각 박스를 상기 복수의 스팟이 포함된 상기 조직 이미지 데이터에 배치하는 과정, 및 상기 복수의 스팟 중에서 가운데 위치한 스팟의 좌표가 상기 사각 박스의 중앙 좌표값이 되도록 상기 조직 이미지 데이터가 적어도 하나 이상의 상기 패치 조직 이미지로 추출되는 과정을 수행하도록 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
10. The method of claim 9,
The image division unit of the cell composition prediction model is a process of matching the transcriptome data and the tissue image data based on the coordinates of the spots, and a rectangular box of a preset size is placed in the tissue image data including the plurality of spots a process, and the tissue image data is constructed to perform a process of extracting the tissue image data into at least one or more patch tissue images so that the coordinates of the spots located in the center among the plurality of spots become the central coordinate values of the square box. A method of predicting cell composition in
제9항에 있어서,
상기 세포 구성 예측 모델의 분자마커 모델부는 인터넷에 공개된 기존 조직 이미지가 포함하는 세포군의 유형별 세포 분포 정보와 각 단일 세포 종류가 포함하는 전사체 데이터를 매칭시킨 학습 데이터에 기반하여 구축된 것인, 조직 이미지의 세포 구성 예측 방법.
10. The method of claim 9,
The molecular marker model unit of the cell composition prediction model is constructed based on learning data that matches the cell distribution information for each type of cell group included in the existing tissue image published on the Internet and the transcript data included in each single cell type, A method of predicting the cellular composition of tissue images.
제9항에 있어서,
상기 세포 구성 정보를 예측하는 단계는 상기 세포 구성 정보로서 상기 조직 이미지에서 예측한 세포군의 유형에 대한 정보와 각 세포군의 유형별 세포 분포 정보를 나타낸 히트맵 조직 이미지를 포함하는 것인, 조직 이미지의 세포 구성 예측 방법.
10. The method of claim 9,
Predicting the cell composition information includes a heat map tissue image showing information on the type of cell group predicted from the tissue image as the cell composition information and cell distribution information for each type of cell group, cells of the tissue image How to predict the composition.
제7항 내지 제12항 중 어느 한 항에 따른 조직 이미지의 세포 구성 예측 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록매체.13. A non-transitory computer-readable recording medium in which a computer program for performing the method for predicting a cell composition of a tissue image according to any one of claims 7 to 12 is recorded.
KR1020210110364A 2021-04-15 2021-08-20 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data KR20220142905A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP22788243.8A EP4325505A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
AU2022257481A AU2022257481A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
JP2023563310A JP2024518035A (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cellular composition of tissue images based on spatial gene expression information
PCT/KR2022/002158 WO2022220385A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
US18/555,419 US20240194292A1 (en) 2021-04-15 2022-02-14 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210049331 2021-04-15
KR20210049331 2021-04-15

Publications (1)

Publication Number Publication Date
KR20220142905A true KR20220142905A (en) 2022-10-24

Family

ID=83805911

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210110364A KR20220142905A (en) 2021-04-15 2021-08-20 Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data

Country Status (1)

Country Link
KR (1) KR20220142905A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024119326A1 (en) * 2022-12-05 2024-06-13 深圳华大生命科学研究院 Gene image data correction method and system, electronic device and storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024119326A1 (en) * 2022-12-05 2024-06-13 深圳华大生命科学研究院 Gene image data correction method and system, electronic device and storage medium

Similar Documents

Publication Publication Date Title
CN113454733B (en) Multi-instance learner for prognostic tissue pattern recognition
Heller et al. EpiTools: an open-source image analysis toolkit for quantifying epithelial growth dynamics
Jeckel et al. Advances and opportunities in image analysis of bacterial cells and communities
Hicks et al. Machine learning-based analysis of sperm videos and participant data for male fertility prediction
Nunez-Iglesias et al. A new Python library to analyse skeleton images confirms malaria parasite remodelling of the red blood cell membrane skeleton
US20220084660A1 (en) Artificial intelligence processing system and automated pre-diagnostic workflow for digital pathology
JP2019509057A (en) Automated image analysis for assessing fertility of human oocytes and pronuclear embryos
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
CA3190344A1 (en) Methods for identifying cross-modal features from spatially resolved data sets
US11176412B2 (en) Systems and methods for encoding image features of high-resolution digital images of biological specimens
KR20220142905A (en) Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
Graziani et al. Breast histopathology with high-performance computing and deep learning
Pechuan-Jorge et al. SPEX: A modular end-to-end analytics tool for spatially resolved omics of tissues
US20230281971A1 (en) Method and device for analyzing pathological slide image
Long et al. Domain adaptive cascade r-cnn for mitosis domain generalization (midog) challenge
US20240194292A1 (en) Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data
Higaki et al. Semi-automatic organelle detection on transmission electron microscopic images
Burlingame et al. 3D multiplexed tissue imaging reconstruction and optimized region of interest (ROI) selection through deep learning model of channels embedding
JP2024503977A (en) System and method for identifying cancer in pets
CN116057585A (en) Active learning system for digital pathology
Hillemanns et al. AMES: automated evaluation of sarcomere structures in cardiomyocytes
US20240136012A1 (en) Machine learning characterization of sperm quality for sperm selection for assisted reproduction technology
US20240086460A1 (en) Whole slide image search
Ali et al. Deep Learning Identifies Cardiomyocyte Nuclei in Murine Tissue with High Precision
Toth et al. Show me your neighbour and I tell what you are: fisheye transformation for deep learning-based single-cell phenotyping

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal