CN111128308B - 一种神经精神疾病新发突变信息知识平台 - Google Patents

一种神经精神疾病新发突变信息知识平台 Download PDF

Info

Publication number
CN111128308B
CN111128308B CN201911365589.4A CN201911365589A CN111128308B CN 111128308 B CN111128308 B CN 111128308B CN 201911365589 A CN201911365589 A CN 201911365589A CN 111128308 B CN111128308 B CN 111128308B
Authority
CN
China
Prior art keywords
data
module
mutation
platform
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911365589.4A
Other languages
English (en)
Other versions
CN111128308A (zh
Inventor
林关宁
王晗
王卫娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mental Health Center Shanghai Psychological Counselling Training Center
Original Assignee
Shanghai Mental Health Center Shanghai Psychological Counselling Training Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mental Health Center Shanghai Psychological Counselling Training Center filed Critical Shanghai Mental Health Center Shanghai Psychological Counselling Training Center
Priority to CN201911365589.4A priority Critical patent/CN111128308B/zh
Publication of CN111128308A publication Critical patent/CN111128308A/zh
Application granted granted Critical
Publication of CN111128308B publication Critical patent/CN111128308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)

Abstract

本发明公开了一种神经精神疾病新发突变信息知识平台,包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;多维数据存储层为采用高性能非SQL数据库管理***控制的大数据平台;多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。本申请通过神经精神疾病新发突变信息知识平台的建设,并通过大数据平台,涵盖了历史和最新数据的录入和调出,能够为神经精神疾病研究的用户实时映射或绘图显示查询数据,提高了科学研究的可视化和效率。

Description

一种神经精神疾病新发突变信息知识平台
技术领域
本发明涉及精神疾病的突变信息处理技术,尤其涉及一种神经精神疾病新发突变信息知识平台。
背景技术
除了遗传每个亲本基因组的一半之外,每个人天生就有一小组新的发生在配子发生过程中的遗传变化,称为新发变异(DNVs)。这些变异在亲代到后代的家系研究中鉴定,大小范围从单核苷酸变异到小***和缺失(***缺失)作为新发突变(DNM),以及作为新发拷贝数变异(CNV)的更大结构变异,已经涉及各种人类疾病。
在过去的几年中,通过全外显子组测序和全基因组测序发现了大量的DNVs,并在基因水平上进行了探索和分析,在评估它们对复杂疾病的贡献方面取得了巨大成功。然而,据估计多达95%的基因受到选择性剪接(AS)以产生各种转录本以增加人类转录组和蛋白质组多样性,每个基因大约有4到7个转录本。转录本是高度特异性的,其表达通常局限于同一组织内的某些器官,组织甚至细胞类型。值得注意的是,它在脑组织中以高频率发生,并调节神经发育过程中发生的生物过程,包括细胞命运决定,神经元迁移,轴突导向和突触发生。目前还未见有生物数据知识库提供这些探索,其主要存在的缺陷如下:
1、由于外显子在同一基因的转录本中差异使用,因此疾病突变可能仅选择性地影响具有携带突变的外显子的转录本。此外,如果某些转录本不在特定发育期或特定组织中表达,那么影响这些转录本的疾病突变可能不会在那个时期或该组织中表现出它们的功能性影响。然而,目前还未见有数据库知识平台将组织特异性转录本与疾病突变相关联;
2、由于大脑是AS事件数量最多的组织之一,因此必须研究与转录本异构水平的脑部疾病相关的突变与脑特异性表达。然而,在发育和神经精神病疾病中的转录本和DNMs之间的关联,例如自闭症(ASD),精神***症(SCZ),早期发作的阿尔茨海默病(AD)和先天性心脏病(CHD),由于样本组织特异性,很少出现大规模探索。
因此,为了神经疾病研究,急需一种可以高效快速、一站式数据查询和数据特征提取的信息平台,以提高数据支持和快速高效的关系研究。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种神经精神疾病新发突变信息知识平台,其能解决上述相关问题。
本发明的目的采用以下技术方案实现:
一种神经精神疾病新发突变信息知识平台,其特征在于:所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色***置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储;其中,多维数据存储层为采用高性能非SQL数据库管理***控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据;其中,多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能;所述特征分析模块采集生物数据类型,并进行归类特征处理;所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用;其中,所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。
优选的,在多维数据采集模块中,将新发突变分为包括新发位点突变和小***缺失的突变DNM和新发拷贝数变异CNV两类,其中CNV包括DNA区域拷贝数的缺失或重复。
优选的,所述高性能非SQL数据处理***为MongoDB,以使得所述大数据平台具有实时更新、数据集成和模块拓展功能。
优选的,所述内置脚本算法流程包括:①对数据进行标准化处理;②根据数据在数据源中的唯一标识以及相应键值进行消除重复、数据压缩。
优选的,所述归类特征处理分为①对DNM进行打分评估;②调控元件的选择和突变图谱构建;③突变所在蛋白互作网络构建。
优选的,所述分类管理模块的算法思想包括:①根据数据类型,对原始数据和经过特征分析的中间数据结果进行预处理,最后根据数据中基因唯一标识(Entrez ID)进行整合,生成以基因唯一标识(Entrez ID)为键值的字典;②调用python中的PyMongo模块控制Mongo DB,对上一步中生成的字典存储进相应聚集;③调用python中的PyMongo模块控制Mongo DB,进行数据读取。
相比现有技术,本发明的有益效果在于:通过神经精神疾病新发突变信息知识平台的建设,并通过大数据平台,使得知识平台涵盖了历史和最新数据的录入和调出,获得以新发突变为中心的遗传及表达信息,能够为神经疾病研究的用户实时映射或绘图显示查询数据,提高了研究的可视化和效率。
附图说明
图1为本发明一种神经精神疾病新发突变信息知识平台的模型框架流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,一种神经精神疾病新发突变信息知识平台(PsyMuKB),所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层。
数据采集和处理层
其中,所述数据采集和处理层负责原始数据的获取工作,根据数据源的相应配置文件进行数据下载、解析和存储,包括多维数据采集模块、数据解析模块和数据存储模块。
所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,并根据需要下载的数据源进行自动数据下载,其中包括FTP、HTTP等具体下载实现机制。
所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色***置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储。
进一步的,所述数据解析模块还根据已下载的数据文件信息自动分配相应的解析器进行数据解析,解析结果以统一的数据传输格式发送到所述数据存储模块,所述数据存储模块按照PsyMuKB网站存储设计存放解析结果。
进一步的,在多维数据采集模块中,将新发突变分为包括新发位点突变和小***缺失的突变DNM和新发拷贝数变异CNV两类,其中CNV包括DNA区域拷贝数的缺失或重复。
一个实施例中,DNM和CNV的所有变异的坐标均以GRCh37(人类参考基因组hg19)版本显示在神经精神疾病新发突变信息知识平台(PsyMuKB)的中,以确保注释的一致性。
多维数据存储层
其中,多维数据存储层为采用高性能非SQL数据库管理***控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据。
进一步的,所述高性能非SQL数据处理***为MongoDB,以使得所述大数据平台具有实时更新、数据集成和模块拓展功能。
多维数据整合处理层
多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块。
其中,所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能。进一步的,所述内置脚本算法流程包括:①对数据进行标准化处理;②根据数据在数据源中的唯一标识以及相应键值进行消除重复、数据压缩。
其中,所述特征分析模块采集生物数据类型,并进行归类特征处理。所述归类特征处理分为①对DNM进行打分评估;②调控元件的选择和突变图谱构建;③突变所在蛋白互作网络构建。
其中,所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用。
进一步的,所述分类管理模块的算法思想包括:①根据数据类型,对原始数据和经过特征分析的中间数据结果进行预处理,最后根据数据中基因唯一标识(Entrez ID)进行整合,生成以基因唯一标识(Entrez ID)为键值的字典;②调用python中的PyMongo模块控制Mongo DB,对上一步中生成的字典存储进相应聚集;③调用python中的PyMongo模块控制Mongo DB,进行数据读取。
具体实施例中,在神经精神疾病新发突变信息知识平台(PsyMuKB)中发表并包含的绝大多数DNM研究都使用了大规模并行测序方法,主要使用WES或WGS,并结合了大样本量(数百至数千个样本)。这些主要是从家系中收集的,通过比较从患病儿童那里获得的DNA序列和从父母那里获得的DNA序列,可以在过滤掉假阳性DNM。在数据收集和管理过程中,确保神经精神疾病新发突变信息知识平台(PsyMuKB)中包含的所有DNM数据均来自具有合理质量参数的发现方法,例如Werling等在2018年研究中使用的那些参数。接下来,使用ANNOVAR注释平台对所有收集的DNM进行批处理,以进行***注释,包括注释,例如变异功能(外显子,内含子,基因间,UTR等),外显子变异功能(非同义,同义词等),氨基酸变化,1000个基因组和ExAC数据库中的频率,以及SIFT,Polyphen2,GERP++和CADD进行的功能预测。由于变异的许多可用功能注释的重点在于非编码区域,因此在变异注释表中包含了DeepSea评分,以帮助用户评估变异在非编码位置的影响。另外,对于每个基因,我们都包括了单倍不足评分,以评估该基因表现出单倍不足的可能性,以及功能丧失(LoF)不耐受(pLI)分数的可能性,以评估出现单倍不足的可能性。
调控元件的选择和突变图谱构建。由于所有报告的DNM中有90%以上位于基因组的非编码区域,并且与编码区不同,没有明确的假设来确定哪个非编码区在人类中会导致疾病的罕见变异,也无法理解哪些特定等位基因不耐受那些非编码区中的突变。为了方便使用这些变异并更好地探索突变所知的非翻译基因组区域的潜在影响,神经精神疾病新发突变信息知识平台(PsyMuKB)还提供了调控元件注释,以帮助理解非编码突变是否位于调控元件上,从而可能影响下游基因/异构型。GeneHancer定义了250,733个基因增强子区域,FANTOM5定义了82,149个启动子。我们已经将定位在基因组非编码区域中的DNM映射到所有调控区域,并将它们列为突变注释的一部分。
PsyMuKB从BioGRID中提取了PPI数据,以构建人体相互作用的蛋白质的综合图谱。去除BioGRID中定义的非物理相互作用后,PsyMuKB获得了409,173个人PPI用于注释整合,从而使用户能够探索涉及受影响蛋白质的潜在功能途径。
数据可视化及访问层
数据可视化及访问层通过WEB界面的形式向用户实时映射或绘图显示查询数据,主要包括可视化处理模块、数据部署模块和数据访问模块。神经精神疾病新发突变信息知识平台(PsyMuKB)的Web界面和数据可视化主要在基于HTML5,层叠样式表(CSS)和JavaScript(JS)的Python脚本中实现。使用Plotly实现了表达数据可视化和调节元素映射。交互网络的可视化是使用Cytoscape.js实现的。通过指向muPIT交互式Web服务器(http://mupit.icm.jhu.edu/MuPIT_Interactive/)提供的相应可视化的链接,可以提供蛋白结构中突变位点的3D示意图。
具体实施例中,神经精神疾病新发突变信息知识平台(PsyMuKB)中的所有形式的元数据都存储在MongoDB数据库中,神经精神疾病新发突变信息知识平台(PsyMuKB)首先调查了所有已在全基因组范围内鉴定出人类DNV的已发表研究的文献,然后获取每个DNV的基本信息,包括样本标识符,参考和替代等位基因的染色***置,验证状态等。对于DNM和新发CNV,所有变异的坐标均显示以GRCh37(人类参考基因组hg19)展示。如果最初未在GRCh37中提供源变异坐标,则使用UCSC基因组浏览器(http://genome.ucsc.edu/cgi-bin/hgLiftOver)的“LiftOver”将坐标转化;而当查询相关数据时,将实时映射和绘制图形表示形式,例如表达谱,映射到转录本的突变以及PPI网络。
综上,神经精神疾病新发突变信息知识平台(PsyMuKB)将每个突变的基因组位置,转录特征和转录本的基因组结构,通过基因ID,基因符号或基因组坐标搜索和浏览基因,并提供详细的基因信息,包括描述和摘要,转录本的外显子和内含子结构,各种组织中基因或蛋白质的表达以及蛋白质和蛋白质相互作用。因此,PsyMuKB是通过转录和翻译信息以及相关可视化来探索疾病风险因素的综合资源。
神经精神疾病新发突变信息知识平台(PsyMuKB)基于四种主要临床表型,从各种研究中收集了DNM变异:精神疾病,神经疾病,先天缺陷疾病和对照研究。
在8种主要的发展性精神疾病中,大部分(93.7%)DNM来自ASD研究(n=312,167),其次是发育迟缓(DD)(n=8513),SCZ(n=3610)和智力障碍(ID)(n=2585)。在神经***疾病中,大多数DNM来自癫痫性脑病(EE)(n=564),以及发育性和癫痫性脑病(DEE)(n=508)。在先天缺陷疾病中,大多数DNM来自冠心病(97%,n=1,884)。对于DNMs,一半的变异位于基因间区域(n=442,200),而影响外显子区域的突变仅占约4.3%(n=28,259),而位于UTR,内含子,或转录本的上游或下游区域的突变占38.7%,而其余的6.6%DNM位于非编码RNA中。PsyMuKB从已报道的基因组规模研究中筛选了841个新发开始的CNV,涵盖了8种不同的临床表型,影响了369个非重叠基因组区域,范围从1Kb至600Mb。
最后以操控台,即数据可视化及访问层以互动界面的形式提供选择模式、处理结果显示,允许灵活过滤和探索受用户指定的选择影响突变和/或脑表达的转录本。
发明特点及优点
神经精神疾病新发突变信息知识平台(PsyMuKB)包含一个数据库和Web界面,以及一组支持搜索、过滤,可视化和共享查询数据的选项的网络界面。
神经精神疾病新发突变信息知识平台(PsyMuKB)中基因水平信息的检索和可视化通过三种不同方式实现:“基因ID”或“基因符号”,“染色体区域”和“变异”。在基本和高级搜索中都提供了“基因ID”或“基因符号”搜索。当用户有兴趣检索位于特定区域内的所有基因和变异时,“基本区域”和“高级”搜索中都提供了该功能。此外,神经精神疾病新发突变信息知识平台(PsyMuKB)允许用户按照其正式基因符号的字母顺序浏览“浏览”选项卡中的基因。“浏览”选项卡还允许用户浏览与神经发育精神疾病相关的不同基因集。选择基因后,结果的显示方式与通过“搜索”选项显示的方式相同。
当用户进行基因查询时,神经精神疾病新发突变信息知识平台(PsyMuKB)会将用户一个有表格的页面,该表格显示具有完全和部分匹配的ID或基因符号的所有基因。该表提供了两个可单击的链接:“基因信息”和“突变信息”。第一个链接到基因信息页面,该页面包含五个不同的子节:(1)“基因信息”,其中包括和功能描述的详细信息;(2)“表达”,包含不同组织中的基因和蛋白质表达;(3)“新发变异”,概述了所查询基因的可用DNV;(4)“转录本”,提供所查询基因的所有转录本的基因组结构信息;(5)“蛋白质-蛋白质相互作用”,列出了涉及所查询基因的所有物理相互作用。在“基因信息”部分中,神经精神疾病新发突变信息知识平台(PsyMuKB)还提供了“评估表”,其中包括一些与脑或疾病相关的遗传特征,例如pLI得分,单倍剂量不足得分等级,在脑组织中的表达情况等。
神经精神疾病新发突变信息知识平台(PsyMuKB)可以通过两种不同的方法来访问DNV:(1)在通过“Gene ID”或“Gene Symbol”搜索后,通过基因信息页面的“新发变异”统计表,该表列出了所有报告的变异基因;(2)通过在高级搜索中指定染色体区域,变异类型或临床表型来缩小结果范围。变异按与之关联的基因分组。因此,如果用户查询一个基因,则所有相关变异将一起显示在两个表格中:编码突变和非编码突变。变异表包含有关突变的信息,例如位置,突变类型,病例或对照,疾病表型,蛋白质结构中的突变位点,验证状态,主要人群数据库(1000个基因组,ExAC,gnomAD)的频率。重要的是,神经精神疾病新发突变信息知识平台(PsyMuKB)提供了“潜在严重性级别”评估注释,其中定义了三个严重性级别:1)高严重性:编码变异是LoF突变,或者被五个广泛使用的致病性预测工具(SIFT,Polyphen2,GERP++,CADD和ClinVar)中的至少三个预测为有害的。;2)中度:通过五个预测工具中的一个或两个预测为有害的;3)低严重性:所有其他编码变异。
神经精神疾病新发突变信息知识平台(PsyMuKB)还通过可视化基因在mRNA转录本上的位置,还提供了带注释的调控元件(如启动子和增强子)的基本基因组信息。此外,所有报告的DNM都在mRNA转录物的外显子-内含子结构及其调控元件上定位和可视化。此外,神经精神疾病新发突变信息知识平台(PsyMuKB)利用具有组织特异性表达信息的选择性剪接异构体。
神经精神疾病新发突变信息知识平台(PsyMuKB)还提供了所查询蛋白质相互作用图。交互网络是使用一级和二级交互构建的,并使用Cytoscape.js进行交互可视化。一级相互作用定义为所有蛋白质和查询的蛋白质之间的相互作用。二级相互作用定义为所查询蛋白的相互作用蛋白之间的所有相互作用。交互的线条粗细表示交互具有的支持证据的数量。神经精神疾病新发突变信息知识平台(PsyMuKB)将证据定义为单个报告的证据或单个受支持的实验。如果查询的蛋白质的PPI网络节点数超过200,则网络将仅显示至少两个证据项的相互作用。除了可视化之外,我们还提供一个PPI表,该表列出了所有交互信息,包括实验检测方法,报告的文献来源和总证据计数。
神经精神疾病新发突变信息知识平台(PsyMuKB)注释了DNM,在脑表达的转录本,并将其识别为“脑表达”突变,并鉴定了“非脑表达”突变。尽管DNM可以出现在基因组中的任何地方,但是在研究人类疾病时,通常首先要研究基因组的外显子组或蛋白质编码区域。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种神经精神疾病新发突变信息知识平台,其特征在于:所述信息知识平台包括通信连接的数据采集和处理层、多维数据存储层、多维数据整合处理层和数据可视化及访问层;
其中,所述数据采集和处理层包括多维数据采集模块、数据解析模块和数据存储模块;所述多维数据采集模块采集历史神经精神疾病新发突变数据信息,所述数据解析模块将采集到的历史新发突变数据进行样本标识符、参考和替代等位基因的染色***置、以及验证状态的信息解析,并将解析结果通过所述数据存储模块进行存储;
其中,多维数据存储层为采用高性能非SQL数据库管理***控制的大数据平台,所述大数据平台接收经所述数据采集和处理层解析和与存储的新发突变数据信息,并通过人工采集和联网实时获取神经精神疾病新发突变研究文献和数据;
其中,多维数据整合处理层包括去冗余处理模块、特征分析模块和分类管理模块;所述去冗余处理模块采用python语言撰写的内置脚本,实现了对突变、基因和表达数据进行去重处理和标准化处理功能;所述特征分析模块采集生物数据类型,并进行归类特征处理;所述分类管理模块使用python语言编写,并对原始数据以及经过去冗余模块和特征分析模块处理后的中间数据结果进行处理、储存和调用;
其中,所述数据可视化及访问层通过WEB界面的形式向用于实时映射或绘图显示查询数据。
2.根据权利要求1所述的信息知识平台,其特征在于:在多维数据采集模块中,将新发突变分为包括新发位点突变和小***缺失的突变DNM和新发拷贝数变异CNV两类,其中CNV包括DNA区域拷贝数的缺失或重复。
3.根据权利要求1所述的信息知识平台,其特征在于:所述高性能非SQL数据处理***为MongoDB,以使得所述大数据平台具有实时更新、数据集成和模块拓展功能。
4.根据权利要求1所述的信息知识平台,其特征在于:所述内置脚本算法流程包括:①对数据进行标准化处理;②根据数据在数据源中的唯一标识以及相应键值进行消除重复、数据压缩。
5.根据权利要求1所述的信息知识平台,其特征在于:所述归类特征处理分为①对DNM进行打分评估;②调控元件的选择和突变图谱构建;③突变所在蛋白互作网络构建。
6.根据权利要求1所述的信息知识平台,其特征在于:所述分类管理模块的算法思想包括:①根据数据类型,对原始数据和经过特征分析的中间数据结果进行预处理,最后根据数据中基因唯一标识进行整合,生成以基因唯一标识为键值的字典;②调用python中的PyMongo模块控制Mongo DB,对上一步中生成的字典存储进相应聚集;③调用python中的PyMongo模块控制Mongo DB,进行数据读取。
CN201911365589.4A 2019-12-26 2019-12-26 一种神经精神疾病新发突变信息知识平台 Active CN111128308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365589.4A CN111128308B (zh) 2019-12-26 2019-12-26 一种神经精神疾病新发突变信息知识平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365589.4A CN111128308B (zh) 2019-12-26 2019-12-26 一种神经精神疾病新发突变信息知识平台

Publications (2)

Publication Number Publication Date
CN111128308A CN111128308A (zh) 2020-05-08
CN111128308B true CN111128308B (zh) 2023-03-24

Family

ID=70503027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365589.4A Active CN111128308B (zh) 2019-12-26 2019-12-26 一种神经精神疾病新发突变信息知识平台

Country Status (1)

Country Link
CN (1) CN111128308B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160996B (zh) * 2021-01-19 2021-12-07 北京安智因生物技术有限公司 一种基于实体的心血管疾病数据集成方法
CN113628681A (zh) * 2021-07-21 2021-11-09 哈尔滨星云医学检验所有限公司 一种基于家系denovo突变的分析方法及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的***
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务***
CN108681569A (zh) * 2018-05-04 2018-10-19 亚洲保理(深圳)有限公司 一种数据自动分析***及其方法
CN109086573A (zh) * 2018-07-30 2018-12-25 东北师范大学 多源生物大数据融合平台

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953613B2 (en) * 2007-01-03 2011-05-31 Gizewski Theodore M Health maintenance system
US10796010B2 (en) * 2017-08-30 2020-10-06 MyMedicalImages.com, LLC Cloud-based image access systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的***
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务***
CN108681569A (zh) * 2018-05-04 2018-10-19 亚洲保理(深圳)有限公司 一种数据自动分析***及其方法
CN109086573A (zh) * 2018-07-30 2018-12-25 东北师范大学 多源生物大数据融合平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于MongoDB的蛋白质组学大数据存储***设计;张琳等;《计算机应用》;20160610;全文 *
神经精神疾病研究的现状和策略;罗建红等;《浙江大学学报(医学版)》;20080925(第05期);全文 *

Also Published As

Publication number Publication date
CN111128308A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Sarropoulos et al. Developmental dynamics of lncRNAs across mammalian organs and species
US20190311784A1 (en) Genome explorer system to process and present nucleotide variations in genome sequence data
Rubino et al. HmtDB, a genomic resource for mitochondrion-based human variability studies
US8417459B2 (en) Methods of selection, reporting and analysis of genetic markers using broad-based genetic profiling applications
Almasy et al. Data for Genetic Analysis Workshop 18: human whole genome sequence, blood pressure, and simulated phenotypes in extended pedigrees
Sadowski et al. Spatial chromatin architecture alteration by structural variations in human genomes at the population scale
CN109243530B (zh) 遗传变异判定方法、***以及存储介质
Merkel et al. Detecting short tandem repeats from genome data: opening the software black box
CN111192634A (zh) 用于处理基因组数据的方法
CN111883210B (zh) 基于临床特征和序列变异的单基因病名称推荐方法及***
CN111128308B (zh) 一种神经精神疾病新发突变信息知识平台
CN109994154A (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
Yuan et al. Evaluation of phenotype-driven gene prioritization methods for Mendelian diseases
Koire et al. A method to delineate de novo missense variants across pathways prioritizes genes linked to autism
Sifrim et al. Annotate-it: a Swiss-knife approach to annotation, analysis and interpretation of single nucleotide variation in human disease
Qian et al. Efficient clustering of identity-by-descent between multiple individuals
Bianco et al. Database tools in genetic diseases research
Umlai et al. Genome sequencing data analysis for rare disease gene discovery
CN111863132A (zh) 一种筛选致病性变异的方法和***
Chen et al. Functional genomics provide key insights to improve the diagnostic yield of hereditary ataxia
Karp et al. Improving the identification of phenotypic abnormalities and sexual dimorphism in mice when studying rare event categorical characteristics
EP4115428A1 (en) Genome dashboard
Erzurumluoglu et al. Identifying highly penetrant disease causal mutations using next generation sequencing: guide to whole process
Khan et al. Novel gene variants in patients with platelet‐based bleeding using combined exome sequencing and RNAseq murine expression data
Hu Qian et al. Integrating massive RNA-seq data to elucidate transcriptome dynamics in Drosophila melanogaster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant