CN104361033B - 一种癌症相关信息自动收集方法及*** - Google Patents

一种癌症相关信息自动收集方法及*** Download PDF

Info

Publication number
CN104361033B
CN104361033B CN201410584231.1A CN201410584231A CN104361033B CN 104361033 B CN104361033 B CN 104361033B CN 201410584231 A CN201410584231 A CN 201410584231A CN 104361033 B CN104361033 B CN 104361033B
Authority
CN
China
Prior art keywords
cancer
factor
known facts
memory module
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410584231.1A
Other languages
English (en)
Other versions
CN104361033A (zh
Inventor
杨欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiamei Kanglian Medical Technology Co.,Ltd.
Original Assignee
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Polytechnic filed Critical Shenzhen Polytechnic
Priority to CN201410584231.1A priority Critical patent/CN104361033B/zh
Publication of CN104361033A publication Critical patent/CN104361033A/zh
Application granted granted Critical
Publication of CN104361033B publication Critical patent/CN104361033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种癌症相关信息自动收集***及方法。所述***,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。所述方法包括以下步骤:(1)获取与特定癌症相关的文献数据;(2)内容分解成词汇,保留名词性词汇;(3)识别为已知因素和未知因素;(4)判断所述已知因素与癌症关联的显著程度;(5)指定显著关联的未知因素的为已知因素的某一类别或新增的类别。本发明提供的***及方法,用于收集癌症相关信息,综合性强,同时具备可扩展性。

Description

一种癌症相关信息自动收集方法及***
技术领域
本发明属于模式识别领域,更具体地,涉及一种癌症相关信息自动收集***及方法。
背景技术
癌症是一大类恶性肿瘤的统称。癌细胞的特点是无限制、无止境地增生,使患者体内的营养物质被大量消耗;癌细胞释放出多种毒素,使人体产生一系列症状;癌细胞还可转移到全身各处生长繁殖,导致人体消瘦、无力、贫血、食欲不振、发热以及严重的脏器功能受损等等。与之相对的有良性肿瘤,良性肿瘤则容易清除干净,一般不转移、不复发,对器官、组织只有挤压和阻塞作用,但癌症还可破坏组织、器官的结构和功能,引起坏死出血合并感染,患者最终由于器官功能衰竭而死亡。目前,癌症已成为人类健康的头号杀手。
现代医学研究认为,癌症与诸多因素相关联,是一种典型的多因素疾病。完整的收集和整理癌症相关信息,对于癌症的诊断治疗以及机理研究都有巨大的意义。然而,目前的癌症相关信息收集方法以及收集***,都是针对某一类因素,如基因、蛋白质或者miRNA建立的,对象单一,并不能综合癌症相关信息,另外扩展性不佳。另外,现有的癌症相关信息收集方法,多为人工整理,较为费时费力。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种癌症相关信息自动收集***及方法,其目的在于采用模式识别的方式,自动收集并整理癌症相关信息,并将与癌症显著相关的因素进行分类,由此解决现有的癌症相关信息收集技术对象单一、扩展性不佳或人工收集费时费力的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种癌症相关信息自动收集***,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块;
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块;
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块;
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器;
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
优选地,所述癌症相关信息自动收集***,其文献存储模块获取的与特定癌症相关的文献数据,为医学主题次***标记的特定癌症相关文献。
优选地,所述癌症相关信息自动收集***,其已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式。
优选地,所述癌症相关信息自动收集***,其已知因素识别存储模块,其类别包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
优选地,所述癌症相关信息自动收集***,其统计分析模块,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
按照本发明的另一个方面,提供了癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段、蛋白质和糖类分类;
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
优选地,所述癌症相关信息自动收集方法,其步骤(1)所述的与特定癌症相关的文献数据,为医学主题词***标记的特定癌症相关的文献。
优选地,所述癌症相关信息自动收集方法,其步骤(3)所述基因功能性片段为操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的癌症相关信息自动收集***及方法,对于文献中所有出现的名词性词汇,都进行了识别和鉴定,突破了癌症相关因素的种类,综合了各种癌症相关因素,比目前的针对某一类生物因子的癌症相关因素收集方法或数据库,更加全面,综合程度更高。
(2)本发明提供的癌症相关信息自动收集***及方法,可随着研究的不断深入,增加新的已知因素类别,从而具备良好的可扩展性,适用于新的癌症相关因素。
附图说明
图1是实施例1模块结构示意图;
图2是费舍尔检验示意图;
图3是实施例1miRNA类别展示表格。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的癌症相关信息自动收集***,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块。所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次***标记的特定癌症相关文献。
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块。所述已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式,其类别包括基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器。
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;优选地,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
本发明提供的癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;与特定癌症相关的文献数据,为医学主题词***(MeSH)标记的特定癌症相关的文献。
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
以下为实施例:
实施例1
一种癌症相关信息自动收集***,结构如图1所示,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块。所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次***标记的特定癌症相关文献。
所述文献存储模块,存储有检索得到的文献数据70,207,066篇。
检索的癌症种类包括20种常见癌症:膀胱癌、脑癌、乳腺癌、子宫癌、结肠癌、食道癌、肾癌、白血病、肝癌、肺癌、皮肤癌、骨髓瘤、淋巴癌、口腔癌、卵巢癌、胰腺癌、***癌、胃癌、甲状腺癌、以及***。
从MeSH数据库中,检索上述癌症相关的主题次文献,共计70,207,066篇,仅保留摘要数据。
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块。所述已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式,其类别包括miRNA和蛋白质和糖类分类。具体的正则表达式识别原则,如下:
miRNA的具体识别方法如下:
A、在步骤(1)获得的文献中,选取100篇miRNA相关文献,并人工标定其中miRNA表达方式,包括:
1、miRNA标准命名如“miR-1”、“miR-2”。
2、miRNA标准命名带有一个前缀或后缀的命名实体,前缀的主要作用是表明物种或者状态,例如“hsa-miR-1”前缀用来表明物种,含义是人类miR-1基因,又如“pre-miR-1”前缀表示miRNA前体,后缀的主要作用是暗示位置或者种类,例如“miR-1a-1”。
3、对于多个miRNA缩写在一起的情况,正则表达式也尽量涵盖,如“miR-221/222”,“miR-15&-16”。
B、建立miRNA识别正则表达式:根据步骤A中的上述规则,建立正则表达式,匹配miRNA类的名词性词汇。
蛋白质的具体识别方法,可参考:Naeem,H.,Küffner,R.,Csaba,G.,etal.miRSel:automated extraction of associations between microRNAs and genesfrom the biomedical literature.BMC bioinformatics,2010,11(1):135。
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器。
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素。
统计分析模块采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。p值阈值设定为10-4
使用了费舍尔检验来计算显著性参数P值,以miRNA为例具体步骤如下:对每一miRNA和癌症的关联做2×2的表格,如图2所示。在上述2×2的表格中,字母“a”、“b”、“c”、“d”分别代表特同时涉及到该miRNA和该癌症的文献摘要数量、仅涉及到该miRNA的文献摘要数量,仅涉及到该癌症的文献摘要数量、既没有涉及到该miRNA也没有涉及到该癌症的文献摘要数量。P值可通过超几何分布变换近似得到,计算公式如下:
其中:代表二项式系数,符号“!”表示阶乘运算。P值显示实际上该miRNA与癌症相互关联的可能性,P值越小,代表实际相关的可能性越大。
其他已知因素类别,费舍尔检验过程类似。
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
其中miRNA与癌症关联关系表,如图3所示,色块深浅表示相关性强弱,色块越深,相关性越强。
实施例2
一种癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;与特定癌症相关的文献数据,为医学主题词***(MeSH)标记的特定癌症相关的文献。
检索的癌症种类包括20种常见癌症:膀胱癌、脑癌、乳腺癌、子宫癌、结肠癌、食道癌、肾癌、白血病、肝癌、肺癌、皮肤癌、骨髓瘤、淋巴癌、口腔癌、卵巢癌、胰腺癌、***癌、胃癌、甲状腺癌、以及***。
从MeSH数据库中,检索上述癌症相关的主题次文献,共计70,207,066篇,仅保留摘要数据。
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段如miRNA和蛋白质。
miRNA的具体识别方法如下:
A、在步骤(1)获得的文献中,选取100篇miRNA相关文献,并人工标定其中miRNA表达方式,包括:
1、miRNA标准命名如“miR-1”、“miR-2”。
2、miRNA标准命名带有一个前缀或后缀的命名实体,前缀的主要作用是表明物种或者状态,例如“hsa-miR-1”前缀用来表明物种,含义是人类miR-1基因,又如“pre-miR-1”前缀表示miRNA前体,后缀的主要作用是暗示位置或者种类,例如“miR-1a-1”。
3、对于多个miRNA缩写在一起的情况,正则表达式也尽量涵盖,如“miR-221/222”,“miR-15&-16”。
B、建立miRNA识别正则表达式:根据步骤A中的上述规则,建立正则表达式,匹配miRNA类的名词性词汇。
蛋白质的具体识别方法,可参考:Naeem,H.,Küffner,R.,Csaba,G.,etal.miRSel:automated extraction of associations between microRNAs and genesfrom the biomedical literature.BMC bioinformatics,2010,11(1):135。
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素。具体过程参见实施例1。
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
费舍尔检验过程与步骤(4)相同。
我们设定当一种未知因素与癌症相互关联的P值小于10-4时,这种未知因素与癌症的相互关联显著。
检验结果,发现未知因素“let-7”与肺癌相关性显著,经人工审核,将“let-7”指定为miRNA类比,并更新miRNA识别正则表达式。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种癌症相关信息自动收集***,其特征在于,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块;
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块;
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素存储模块;
所述未知因素存储模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创建的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器;
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
2.如权利要求1所述的癌症相关信息自动收集***,其特征在于,所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次***标记的特定癌症相关文献。
3.如权利要求1所述的癌症相关信息自动收集***,其特征在于,所述已知因素识别存储模块,其已知因素类别识别器为相应类别名词性词汇的正则表达式。
4.如权利要求1所述的癌症相关信息自动收集***,其特征在于,所述已知因素识别存储模块,其类别包括基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
5.如权利要求1所述的癌症相关信息自动收集***,其特征在于,所述统计分析模块,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
6.一种应用如权利要求1至5所述***的癌症相关信息自动收集方法,其特征在于,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,分别存储在已知因素识别存储模块和未知因素存储模块,已知因素按照基因功能性片段、蛋白质和糖类分类;
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
7.如权利要求6所述的癌症相关信息自动收集方法,其特征在于,步骤(1)所述的与特定癌症相关的文献数据,为医学主题词***标记的特定癌症相关的文献。
8.如权利要求6所述的癌症相关信息自动收集方法,其特征在于,步骤(3)所述基因功能性片段为操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
CN201410584231.1A 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及*** Active CN104361033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410584231.1A CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410584231.1A CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及***

Publications (2)

Publication Number Publication Date
CN104361033A CN104361033A (zh) 2015-02-18
CN104361033B true CN104361033B (zh) 2017-06-09

Family

ID=52528295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410584231.1A Active CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及***

Country Status (1)

Country Link
CN (1) CN104361033B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765947B (zh) * 2015-03-02 2017-12-26 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN107767965B (zh) * 2017-11-14 2022-01-28 广东乐心医疗电子股份有限公司 多因素关联比对的健康监测***及方法
CN112151130B (zh) * 2019-01-15 2022-11-04 合肥工业大学 一种基于文献检索的决策支持***和构建方法
CN110299210A (zh) * 2019-07-05 2019-10-01 韩宗婧 一种癌症领域互动数据分析***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258170A1 (en) * 2010-01-15 2011-10-20 Duggan Matthew Systems and methods for automatically correcting data extracted from electronic documents using known constraints for semantics of extracted data elements
US9436663B2 (en) * 2012-12-17 2016-09-06 Hewlett Packard Enterprise Development Lp Presenting documents to a user based on topics and collective opinions expressed in the documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其***

Also Published As

Publication number Publication date
CN104361033A (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
CN104361033B (zh) 一种癌症相关信息自动收集方法及***
Li et al. Classification of breast cancer histology images using multi-size and discriminative patches based on deep learning
Yang et al. EMS-Net: Ensemble of multiscale convolutional neural networks for classification of breast cancer histology images
CN109528230B (zh) 一种基于多级变换网络的乳腺肿瘤分割方法及装置
CN113257350A (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN106529165A (zh) 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法
CN112766428B (zh) 肿瘤分子分型方法及装置、终端设备及可读存储介质
CN107290342A (zh) 一种基于细胞分析的木材树种类别鉴别方法及***
CN110349632A (zh) 一种从PubMed文献筛选基因关键词的方法
CN116064755B (zh) 一种基于连锁基因突变检测mrd标志物的装置
CN116052768A (zh) 恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置
Li et al. Computer-aided diagnosis of gastrointestinal stromal tumors: a radiomics method on endoscopic ultrasound image
CN114068002A (zh) 乳腺及甲状腺肿瘤临床决策、教学、科研辅助支持***及方法
US10002425B2 (en) Method of segmenting single neuron images with high-dynamic-range thresholds and computer readable storage medium thereof
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN114360718A (zh) 一种基于特征拟合的pet/ct自动肺癌诊断分类***及构建方法
Shetty et al. Duck pack optimization with deep transfer learning-enabled Oral squamous cell carcinoma classification on histopathological images
CN107735787A (zh) 用于种源测定的***和方法
CN107705829B (zh) 一种基于智能识别的医学影像传输方法
Swain et al. A Comparative Analysis of Machine Learning Models for Colon Cancer Classification
Palumbo et al. Approaches to quantify axonal morphology for the analysis of axonal degeneration
Lloyd-Williams Case studies in the data mining approach to health information analysis
CN115481681B (zh) 一种基于人工智能的乳腺采样数据的处理方法
CN116469473B (zh) T细胞亚型鉴定的模型训练方法、装置、设备及存储介质
Wu et al. Efficient Multi-Label Attribute Classification and Recognition of Microbiological Bacteria Based on Deep Learning and model fine-tuning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210506

Address after: 433140 Qili Avenue, ZhangJin Town, Qianjiang City, Hubei Province

Patentee after: Cai Zongfu

Address before: 510700 building G4, Dazhuang international, Lianhe street, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Yitong Intellectual Property Operation Co.,Ltd.

Effective date of registration: 20210506

Address after: 510700 building G4, Dazhuang international, Lianhe street, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Yitong Intellectual Property Operation Co.,Ltd.

Address before: 2190 Liuxian Avenue, Nanshan District, Shenzhen, Guangdong 518055

Patentee before: SHENZHEN POLYTECHNIC

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: No. 807, Building 22, Yuhuixili, Chaoyang District, Beijing 100000

Patentee after: Zhang Saizhu

Address before: 433140 Qili Avenue, ZhangJin Town, Qianjiang City, Hubei Province

Patentee before: Cai Zongfu

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221107

Address after: Room 602, Unit 1, Building 6, Yard 88, Kechuang 6th Street, Daxing District, Beijing (Yizhuang Cluster, High end Industrial Zone, Beijing Pilot Free Trade Zone)

Patentee after: Beijing Jiamei Kanglian Medical Technology Co.,Ltd.

Address before: No. 807, Building 22, Yuhuixili, Chaoyang District, Beijing 100000

Patentee before: Zhang Saizhu

TR01 Transfer of patent right