CN107735500A

CN107735500A - 用于检测乳腺癌的宏基因组组合物和方法

Info

Publication number: CN107735500A
Application number: CN201680035925.7A
Authority: CN
Inventors: E·S·罗伯逊; J·埃尔温
Original assignee: University of Pennsylvania Penn
Current assignee: University of Pennsylvania Penn
Priority date: 2015-04-20
Filing date: 2016-04-20
Publication date: 2018-02-23
Also published as: EP3286340A2; WO2016172179A3; WO2016172179A2; US20180291457A1; CA2982602A1; AU2016251655A1; JP2018512868A; EP3286340A4

Abstract

本发明提供了用于检测三阴性乳腺癌的组合物和方法。组合物和方法被提供用于检测来自对象的组织样品中的宏基因组签名，其指示对象患有三阴性乳腺癌。

Description

用于检测乳腺癌的宏基因组组合物和方法

相关申请的交叉引用

本申请要求2015年4月20日提交的美国临时申请号62/150,126的优先权和权益，其通过引用以其全部并入本文。

背景技术

在美国2015年估计的新癌症病例的数目是大约1,600,000例，超过500,000例死亡(American Cancer Society,www.cancer.org)。感染一种或多种病毒或微生物是发展出癌症的第三大促成因素，占肿瘤的至少20％(Sawyers et al.(2013)Clin Cancer Res19,S4-98；de Martel et al.(2012)Lancet Oncol13,607-615)。十种病毒(***瘤病毒，乙型或丙型肝炎病毒，多瘤病毒BK、JC和MCpyV，EB病毒，人疱疹病毒8，和T细胞白血病1型和2型病毒)、一种细菌(幽门螺杆菌)、和两种蠕虫(血吸虫和肝吸虫)已经被发现作为病原是人癌症的主要促成因素(de Martel et al.(2012)Lancet Oncol13,607-615)。考虑到许多病毒和其它微生物以人为宿主，很可能由于至今为止未识别的感染或机制它们与癌症的关联被低估。潜在地，微生物在癌症的起源和/或进展，以及与癌症相关的发病机理中可以具有甚至更大的作用。因而，知晓与癌症类型相关联的特定病毒和其它微生物菌剂(microbialagent)(癌症微生物签名(signature))可以提供对起因、治疗和诊断的深刻理解。例如，一种或多种感染原(感染剂，infectious agent)的持续性感染——其导致炎症或细胞过程的改变——可能参与致癌过程(Morales-Sanchez&Fuentes-Panana(2014)Viruses 6,4047-4079)。可选地，肿瘤微环境可以提供特化的生态位，这些生物体在其中可以以在正常组织中难以滋生(thrive)的方式持续。在任一种情况下，识别与特定癌症相关联的独特的微生物签名对于我们理解微生物组(microbiome)和癌症之间的相互影响，以及对于诊断是至关重要的。另外，识别与特定癌症相关联并且可以有助于其的病原体是重要的。然而，难以检测以低拷贝数在组织样品中存在的病原体。

近年来鉴定病原生物体——包括病毒、细菌、病毒、类病毒、细菌、真菌、蠕虫和原生动物——的需要已经变得更加严重。为了对许多肿瘤样品快速地筛查相关联的病毒和微生物，已经研发出基于微阵列的技术(PathoChip)，其包含用于病毒和其它人病原微生物的并行的DNA和RNA检测的探针集(probe set)(Baldwin et al.(2014)MBio5,e01714-01714)。PathoChip的现有版本包含代表所有已知的病毒、250种蠕虫、130种原生动物、360种真菌和320种细菌的60,000种探针。该阵列包含两种类型的探针：用于每种特定病毒和微生物的独特的探针，和靶向在病毒家族的成员之间保守的基因组区域的保守性探针，从而提供用于检测先前未表征的家族成员的手段。PathoChip筛查技术包括扩增步骤，其允许检测以低基因组拷贝数在样品中存在的微生物和病毒。因而，PathoChip技术具有相对于其它微生物组筛查试验增加的灵敏度，和较宽的跨领域覆盖度。这允许多种样品被快速地和灵敏地筛查微生物菌剂的存在。

由于从头编目(de novo cataloging)扩大了人微生物组中物种的计数并且表征了它们的分布，所以需要宏基因组工具以高效地鉴定与疾病强烈相关联的因子。评估微生物组的能力对理解病原体之间的相互作用，以及与共生生物体、宿主遗传学、和环境因素的病原体相互作用将是必需的。考虑到数以千计的物种包括正常人微生物组(Relman.Nature2012；486(7402):194-195)，很可能微生物群落实质上影响正常生理学以及包括癌症在内的疾病的病因和对该疾病的反应(Laass et al.Autoimmun Rev 2014)。这些作用在已知具有居民微生物组的组织——比如胃肠道(Laass et al.Autoimmun Rev 2014；Major andSpiller.Curr Opin Endocrinol Diabetes Obes 2014；21(1):15-21；Schwarzberg etal.PLoS One 2014；9(1):e86708；Scharschmidt and Fischbach.Drug Discov Today DisMech 2013；10(3-4))、皮肤(Scharschmidt and Fischbach.Drug Discov Today Dis Mech2013；10(3-4))和气道(Martinez et al.Ann Am Thorac Soc 2013；10Suppl:S170-179；Segal et al.Ann Am Thorac Soc 2014；11(1):108-116；Sze et al.HAnn Am Thorac Soc2014；11Suppl 1:S77)——中以及在免疫和炎性反应(Gjymishka et al.Immunotherapy2013；5(12):1357-1366；Kamada and Nunez.Gastroenterology 2014；Koboziev etal.Free Radic Biol Med 2013；68C:122-133；Ooi et al.PLoS One 2014；9(1):e86366)中是深入调查的对象。微生物组概况还正在揭示微生物以及它们在意料之外的位置中存在的较不明显的作用；与癌症相关的实例包括肿瘤微环境的调变(Iida et al.Science2013；342(6161):967-970)和乳腺癌组织中菌群失调(Xuan et al,PLoS One 2014；9(1):e83744)。

因此，基于病原体检测的新组合物和方法具有如下潜力：提供用于诊断癌症——尤其是与感染原相关联的癌症——的手段，和用于增进理解癌症和感染原之间的关联的手段。本发明满足这些需求。

发明内容

如本文描述的，本发明涉及用于检测样品中的三阴性乳腺癌的组合物和方法。本发明的一方面包括检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法。方法包括使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip阵列以生成第一杂交图谱(hybridization pattern)，然后使来自参考样品的可检测标记的核酸杂交至PathoChip阵列以生成第二杂交图谱。参考样品来自其它方面相同的来自对象的非肿瘤组织。接着，比较第一和第二杂交图谱。当第一杂交图谱基本上是微生物杂交签名并且第二杂交图谱基本上不是微生物杂交签名时，在肿瘤组织样品中检测到三阴性乳腺癌。

在另一方面，本发明包括检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法。方法包括使来自肿瘤组织样品的可检测标记的核酸杂交至第一微阵列以生成第一杂交图谱。第一微阵列包括至少三种选自SEQ ID NO:1-160的核酸探针。下一步是使来自参考样品的可检测标记的核酸杂交至第二微阵列以生成第二杂交图谱。第二微阵列包括至少三种选自SEQ ID NO:1-160的核酸探针。参考样品来自其它方面相同的来自对象的非肿瘤组织。接着，比较第一和第二杂交图谱。当第一杂交图谱基本上是微生物杂交签名并且第二杂交图谱基本上不是微生物杂交签名时，在肿瘤组织样品中检测到三阴性乳腺癌。

在又另一方面，本发明包括组合物，其包括至少三种选自SEQ ID NO:1-160的核酸探针。本发明的还另一方面包括微阵列，其包括至少三种选自SEQ ID NO:1-160的核酸探针。

本发明的另一方面包括微阵列，其包括至少三种核酸探针。这些探针选自如下的微生物：小鼠乳癌病毒(MMTV)、人嗜T淋巴细胞病毒(Human T-Lymphotropic virus)I型(HTLV-1)、弗吉纳米肿瘤病毒(FSV)、猿猴病毒40(SV40)、JC病毒(John Cunningham virus)(JC)、美克耳细胞多瘤病毒(MCPV)、人巨细胞病毒(HCMV)、EB病毒(EBV)、卡波西肉瘤相关疱疹病毒(KSHV)、人***瘤病毒16(HPV16)、人***瘤病毒6b(HPV6b)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV-1)、牛丘疹性口炎病毒(BPSV)、假牛痘病毒(PCP)、沙鼠痘病毒(Taterapoxvirus)(Tatera)、口疮病毒(Orf)、隐秘杆菌属(Arcanobacterium)、短波单胞菌属(Brevundimonas)某种、鞘氨醇杆菌属(Sphingobacteria)、普罗威登斯菌属、普氏菌属(Prevotella)、布鲁氏杆菌属、大肠埃希氏杆菌(大肠杆菌)、放线菌属、动弯杆菌属(Mobiluncus)、丙酸杆菌属(Propiniobacteria)、地芽孢杆菌属(Geobacillus)、罗氏菌属、嗜胨菌属(Peptinophilus)、嗜二氧化碳噬细胞菌属、匹里虫属(Pleistophora)、毛孢子菌属(Piedra)、产色芽生菌属(Foncecaea)、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马梨浆虫(马巴贝虫)、吸吮线虫属某种、或并殖吸虫属某种。

在另一方面，本发明包括试剂盒，其包括至少两种三种核酸探针。探针选自SEQ IDNO:1-160。试剂盒包括其使用说明材料。

在又另一方面，本发明包括试剂盒，其包括微阵列。微阵列包括至少三种核酸探针。探针选自如下的微生物：MMTV、HTLV-1、FSV、SV40、JC、MCPV、HCMV、EBV、KSHV、HPV16、HPV6b、HBV、HCV-1、BPSV、PCP Tatera、Orf、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠杆菌、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马巴贝虫、吸吮线虫属某种、并殖吸虫属某种。

在本文描绘的发明的上面的方面或任何其它方面的多种实施方式中，通过使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip上的至少三种核酸探针来生成微生物杂交签名。探针来自选自如下的微生物：MMTV、HTLV-1、FSV、SV40、JC、MCPV、HCMV、EBV、KSHV、HPV16、HPV6b、HBV、HCV-1、BPSV、PCP Tatera、Orf、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠杆菌、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马巴贝虫、吸吮线虫属某种、并殖吸虫属某种。

在另一个实施方式中，通过使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip上的至少三种核酸探针来生成第一杂交图谱。探针选自SEQ ID NO:1-160。

在又另一个实施方式中，肿瘤组织样品选自活组织检查，***-固定、石蜡-包埋(FFPE)样品，或非实体瘤。在还另一个实施方式中，对象是人。在某些实施方式中，当在来自对象的肿瘤组织样品中检测到三阴性乳腺癌时，则给对象提供用于三阴性乳腺癌的治疗。用于三阴性乳腺癌的治疗可以包括外科手术、化学疗法或放射疗法。

在另一个实施方式中，使用荧光团、放射性磷酸盐、生物素或酶标记可检测标记的核酸。在某些实施方式中，荧光团是Cy3或Cy5。

在又另一个实施方式中，微阵列中的核酸探针选自大约10至大约30种微生物并且包括大约3至大约5种探针/微生物。在另一个实施方式中，试剂盒中的核酸探针选自大约10至大约30种微生物并且包括大约3至大约5种探针/微生物。

在某些实施方式中，微阵列是生物芯片、载玻片、珠或纸。

附图说明

图1A-1J描绘了比对至PathoChip的宏基因组的MiSeq解读(read)，其揭示了在捕获测序期间由选择的探针(探针池VCP、探针池VSP、探针池Pox、探针池B1和B2、探针池P1和P2)捕获的靶标的同一性。显示了基因组定位连同单个捕获的Miseq解读。提及了单个登记(accession)的基因组定位，连同单个捕获的MiSeq解读的数目。IGV的比对径迹(alignmenttrack)展示了上方的覆盖径迹(coverage track)和下方的比对径迹。IGV通过标准色(水平的黑线)展示了偏离预期的双端(paired-end)比对。还在代表解读的灰色比对序列条上以黑色展示了错配的碱基。显示了在捕获测序期间由选择的探针捕获的病毒签名和其它微生物签名。

图2A-2D是列出用于靶标捕获的探针类型的表格。在表2中列出了探针的核苷酸序列。

图3A-3G描绘了候选生物体的探针百分比，其通过PathoChip筛查显示了100份乳腺癌样品(40个单一的和12个合并的)中不可检测的、低(>30至300)、中(300-3000)与高(>3000)杂交信号(Cy3-Cy5)。包括匹配的对照(MC)和不匹配的对照(NC)以显示探针在乳腺癌样品对比对照中显著的检测。图3A-3C显示了在乳腺癌样品中检测的病毒候选的特异性探针的检测百分比。图3D-3E显示了在乳腺癌样品中检测具有低、中与高杂交信号的细菌探针的检测百分比。图3F是显示在乳腺癌样品中检测具有低、中与高杂交信号的真菌探针的百分数的图表。图3G是显示在乳腺癌样品中检测具有低、中与高杂交信号的寄生虫探针的百分数的图表。

图4A-4D描绘了与三阴性乳腺癌样品相关联的病毒和微生物签名的检测。图4A是杂交至肿瘤样品和匹配的(MC)与不匹配的对照(NC)样品(y轴)二者的探针(x轴)的热点图(heat map)，其显示了在100份三阴性乳腺肿瘤样品中检测的保守性和特异性病毒探针的杂交信号(测试减去参考)。图4B是一系列图，其显示了根据流行率和探针对肿瘤减少的杂交信号排列的100份三阴性乳腺肿瘤样品中特异性病毒签名的检测百分比。图4C是杂交至肿瘤样品(y轴)的探针(x轴)的热点图，其显示了在100份三阴性乳腺肿瘤样品中检测的保守性和特异性细菌、真菌和寄生虫探针的杂交信号(测试减去参考)。图4D是一系列图，其显示了根据流行率和减少的杂交信号排列的100份三阴性乳腺肿瘤样品中特异性微生物签名的检测百分比。

图5是显示100份三阴性乳腺癌样品中选择的候选感染原的层次聚类(hierarchial clustering)的热点图。样品基于类似的病毒、细菌、真菌、和寄生虫候选签名检测进行分组。

图6A-6C是一系列图像，其显示通过PCR验证PathoChip杂交结果。由杂交至在PathoChip筛查中使用的靶标的保守性和特异性探针设计PCR扩增的引物。在每个PCR扩增凝胶图像的左图组中显示了跨越癌症和对照样品，探针——由其设计PCR引物——的热点图。扩增的PCR产物验证了PathoChip杂交结果。MC：匹配的对照(来自乳腺癌患者的邻近的非癌性乳腺组织)；NC：不匹配的对照(来自健康个体的乳腺组织)。NTC：无模板对照——无菌水，其用于排除PCR反应中的任何污染。

图7A-7D描绘了核酸捕获和MiSeq数据分析的捕获池。图7A是热点图，其指示来自从4种不同的分析选择的探针(Y轴)的测试减去参考信号。如指示的，使用5种探针池进行靶标核酸的七种(7)单独的捕获。图7B-7D是一系列图组，其显示了由三阴性乳腺癌样品的MiSeq获得的单个解读。使全基因组扩增的DNA加cDNA杂交至一组生物素化的保守性和特异性病毒、细菌、真菌、寄生虫和类病毒探针，在链酶抗生物素珠上进行捕获，并且用于tagmentation文库制备和使用双端250-nt解读进行深度测序。使用病毒保守性探针(捕获探针池VCP)、病毒特异性探针(捕获探针池VSP)、痘病毒探针(捕获探针池Pox)、细菌探针(捕获探针池B1和B2)、真菌/寄生虫和类病毒探针(捕获探针池P1和P2)对通过捕获序列生成的文库进行MiSeq。当与PathoChip(芯片探针)的宏基因组进行比对时，来自单个捕获的Miseq解读被发现主要地在代表的生物体的捕获探针区域处聚类。基因组定位连同MiSeq解读的数目被显示在图上并且代表基因组坐标。

图8A-8F是7种不同的捕获反应中的候选——即细菌探针(B1和B2)、寄生虫-真菌-类病毒探针(P1和P2)、痘保守性探针(pox)、病毒特异性探针(VSP)和病毒保守性探针(VCP)——的MiSeq解读的列表。跨越7种捕获测序(分别是B1、B2、P1、P2、Pox、VCP和VSP)概述了映射(map)至每种生物体的解读。具体地，计数比对至全物种(*_生物体)、捕获探针区域(*_探针)、和探针外区域(*_探针外)的解读的总数目。参见例如，通过P1捕获测序检测的生物体DQ118536.1。存在与此生物体比对的168条解读(P1_生物体)，其中160条解读(p1_探针)比对至捕获探针区域并且其余的8条解读(P1_探针外)比对至捕获探针外区域。对于每种生物体，分数栏给出解读在其下被映射至捕获探针区域和探针外区域二者的捕获测序的数目。例如，生物体的分数DQ118536.1是2，这是因为解读通过P1和P2捕获测序被发现映射至探针区域和探针外区域二者。在探针_分数栏中总结了在所有7种捕获测序条件中映射至捕获探针区域的解读的总数目。通过分数栏列出和排列了具有解读——其映射至捕获探针区域——的那些候选生物体(探针_分数>0)。

具体实施方式

定义

除非另外限定，本文使用的所有技术和科学术语具有本发明所属领域技术人员一般理解的含义。下列参考文献给技术人员提供了在本发明中使用的许多术语的一般定义：Singleton et al.,Dictionary of Microbiology and Molecular Biology(2nded.1994)；The Cambridge Dictionary of Science and Technology(Walker ed.,1988)；The Glossary of Genetics,5th Ed.,R.Rieger et al.(eds.),Springer Verlag(1991)；和Hale&Marham,The Harper Collins Dictionary of Biology(1991)。如本文使用的，除非另外规定，下列术语具有归属于下面的它们的含义。

如本文使用的，除非上下文另外明确地指示，冠词“一个”、“一种”和“该”包括复数指代物。举例而言，“要素”意思是一个要素或多于一个要素。

如本文使用的，术语“大约”将由本领域普通技术人员理解并且将在其使用的上下文中在一定程度上变化。如本文使用的，当提及可测量的值比如量、浓度、时距等时，术语“大约”意思是涵盖从规定值±20％或±10％，更优选地±5％，甚至更优选地±1％，和还更优选地±0.1％的变化，这是由于这样的变化适合于执行公开的方法。

如本文使用的，“生物标志物”或“标志物”通常指的是核酸分子、临床指示物、蛋白质、或与疾病相关联的其它分析物。在某些实施方式中，核酸生物标志物指示样品中病原生物体——包括但不限于病毒、类病毒、细菌、真菌、蠕虫和原生动物——的存在。在多种实施方式中，标志物在由对象——其患有疾病(例如，传染病)或处于发展出疾病(例如，传染病)的风险下——获得的生物学样品中相对于参考差异地存在。如果在样品中存在的生物标志物的平均或中值水平在统计学上不同于在参考中存在的水平，则标志物差异地存在。参考水平可以是，例如，在由清洁或未污染来源获得的环境样品中存在的水平。参考水平可以是，例如，在由健康对照对象获得的样品中存在的水平或在较早的时间点——即治疗之前——由对象获得的水平。用于统计学显著性的常用检验包括t检验、ANOVA、Kruskal-Wallis、Wilcoxon、Mann-Whitney和优势比等。生物标志物——单独地或组合地——提供了对象属于感兴趣的表型状态的相对可能性的量度。对象样品中本发明的标志物的差异存在对如下可以是有用的：将对象表征为患有疾病(例如，传染病)或处于发展出疾病(例如，传染病)的风险下，确定对象的预后，评价治疗功效，或选择治疗方案。

“剂(agent)”的意思是任意核酸分子、小分子化合物、抗体、或多肽、或其片段。

“变化”或“改变”的意思是增加或减少。变化可以少至1％、2％、3％、4％、5％、10％、20％、30％、或40％、50％、60％，或甚至多至70％、75％、80％、90％、或100％。

“生物学样品”的意思是任意组织、细胞、流体、或源自生物体的其它材料。

“捕获试剂”的意思是特异性地结合核酸分子或多肽以选择或分离核酸分子或多肽的试剂。

如本文使用的，术语“测定”、“评估”、“试验”、“测量”和“检测”指的是定量和定性测定二者，并且因此，术语“测定”在本文与“试验”、“测量”等可交换地使用。在意欲定量测定时，使用短语“测定分析物的量”等。在意欲定性和/或定量测定时，使用短语分析物的“测定分析物的水平”或“检测”分析物。

“可检测的部分”的意思是如下组合物：当连接至感兴趣的分子时其致使后者经由光谱学、光化学、生物化学、免疫化学或化学手段可检测。例如，有用的标记物包括放射性同位素、磁珠、金属珠、胶粒、荧光染料、电子致密试剂、酶(例如，如在ELISA中常用的)、生物素、洋地黄毒苷或半抗原。

“片段”的意思是核酸分子的部分。该部分包含，优选地，参考核酸分子或多肽的全长的至少10％、20％、30％、40％、50％、60％、70％、80％或90％。片段可以包含5、10、15、20、30、40、50、60、70、80、90或100个核苷酸。

“杂交”意思是互补的核碱基之间的氢键键合，其可以是Watson-Crick、Hoogsteen或反Hoogsteen氢键键合。例如，腺嘌呤和胸腺嘧啶是互补的核碱基，其通过形成氢键配对。

术语“分离的”、“纯化的”或“生物纯的”指的是在不同程度上不含如下组分的材料：如在所述材料的天然状态中发现的，所述组分正常地伴随所述材料。“分离”表示与原始来源或环境的分开程度。“纯化”表示比分离更高的分开程度。“纯化的”或“生物纯的”蛋白质足够地不含其它材料，以便任何杂质不实质上影响蛋白质的生物学性质或引起其它不利后果。即，如果当通过重组DNA技术产生时本发明的核酸或肽基本上不含细胞材料、病毒材料、或培养基，或当化学合成时基本上不含化学前体或其它化学品，则其是纯化的。通常使用分析化学技术——例如，聚丙烯酰胺凝胶电泳或高效液相色谱法——测定纯度和均一性。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中产生基本上一条带。对于可以经受修饰——例如磷酸化或糖基化——的蛋白质，不同的修饰可以产生不同的分离的蛋白质，其可以被单独地纯化。

“参考”的意思是比较标准。如对本领域技术人员明显的，适当的参考是其中改变要素以便测定该要素的作用。在一个实施方式中，在样品中存在的靶标核酸分子的水平可以与在清洁或未污染样品中存在的该靶标核酸分子的水平比较。例如，在样品中存在的靶标核酸分子的水平可以与在对应的健康细胞或组织中或者患病细胞或组织(例如，源自患有疾病、障碍或病症的对象的细胞或组织)中存在的靶标核酸分子的水平比较。

“标志物概况”的意思是两种或多种标志物(例如，多核苷酸)的信号、水平、表达或表达水平的表征。

术语“微生物”的意思是归类在常用的术语“微生物学”内的任意和所有生物体，其包括但不限于细菌、病毒、真菌和寄生虫。

术语“微阵列”的意思是固定化在基底上的核酸探针的集合。如本文使用的，术语“核酸”指的是脱氧核糖核苷酸、核糖核苷酸、或修饰的核苷酸、和以单链或双链形式的其聚合物。该术语涵盖包含已知的核苷酸类似物或修饰的主链残基或连接的核酸，其是合成的、天然存在的、和非天然存在的。在本发明的方法中有用的核酸分子包括特异性地结合靶标核酸(例如，核酸生物标志物)的任意核酸分子。这样的核酸分子不需要与内源性核酸序列100％同一，但是将通常展现基本上同一性。与内源性序列具有“基本上同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”的意思是在各种严格性条件下在互补的多核苷酸序列(例如，本文描述的基因)或其部分之间配对以形成双链分子。(参见，例如，Wahl,G.M.and S.L.Berger(1987)Methods Enzymol.152:399；Kimmel,A.R.(1987)MethodsEnzymol.152:507)。

例如，严格的盐浓度将一般小于大约750mM NaCl和75mM柠檬酸三钠，优选地小于大约500mM NaCl和50mM柠檬酸三钠，和更优选地小于大约250mM NaCl和25mM柠檬酸三钠。低严格性杂交可以在不存在有机溶剂例如甲酰胺的情况下获得，而高严格性杂交可以在存在至少大约35％甲酰胺，和更优选地至少大约50％甲酰胺的情况下获得。严格的温度条件将一般包括至少大约30℃，更优选地至少大约37℃，和最优选地至少大约42℃的温度。变化的另外的参数，比如杂交时间、清洁剂——例如十二烷基硫酸钠(SDS)——的浓度、和包括或排除运载体DNA是本领域技术人员熟知的。根据需要通过组合这些各种条件实现各种水平的严格性。在优选的实施方式中，杂交将在750mM NaCl、75mM柠檬酸三钠和1％SDS中在30℃下发生。在更优选的实施方式中，杂交将在500mM NaCl、50mM柠檬酸三钠、1％SDS、35％甲酰胺和100μg/ml变性的大马哈鱼***DNA(ssDNA)中在37℃下发生。在最优选的实施方式中，杂交将在250mM NaCl、25mM柠檬酸三钠、1％SDS、50％甲酰胺和200μg/ml ssDNA中在42℃下发生。这些条件的有用的变化对本领域技术人员将是显而易见的。

对于大部分应用，杂交之后的洗涤步骤也将在严格性方面改变。可以通过盐浓度和通过温度限定洗涤严格性条件。如上面的，可以通过降低盐浓度或通过增加温度增加洗涤严格性。例如，洗涤步骤的严格的盐浓度将优选地小于大约30mM NaCl和3mM柠檬酸三钠，和最优选地小于大约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格的温度条件将一般包括至少大约25℃，更优选地至少大约42℃，并且甚至更优选地至少大约68℃的温度。在优选的实施方式中，洗涤步骤将在30mM NaCl、3mM柠檬酸三钠和0.1％SDS中在25℃下发生。在更优选的实施方式中，洗涤步骤将在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中在42℃下发生。在更优选的实施方式中，洗涤步骤将在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中在68℃下发生。这些条件的另外的变化对本领域技术人员将是显而易见的。杂交技术对本领域技术人员是熟知的并且在如下中描述，例如，Benton and Davis(Science 196:180,1977)；Grunstein and Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975)；Ausubel et al.(Current Protocols in Molecular Biology,Wiley Interscience,New York,2001)；Berger and Kimmel(Guide to Molecular Cloning Techniques,1987,Academic Press,New York)；和Sambrook et al.,Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory Press,New York。

“基本上同一的”的意思是展现与参考氨基酸序列(例如，本文描述的氨基酸序列中的任一种)或核酸序列(例如，本文描述的核酸序列中的任一种)至少50％同一性的多肽或核酸分子。优选地，在氨基酸水平或核酸下，这样的序列至少60％，更优选地80％或85％，和更优选地90％、95％、96％、97％、98％或甚至99％或更大同一于用于比较的序列。

通常使用序列分析软件(例如，Sequence Analysis Software Package of theGenetics Computer Group,University of Wisconsin Biotechnology Center,1710University Avenue,Madison,Wis.53705(1710University Avenue,Madison,Wis.53705威斯康星大学生物技术中心遗传学计算机组的序列分析软件程序包)、BLAST、BESTFIT、GAP或PILEUP/PRETTYBOX程序)测量序列同一性。这样的软件通过向多种置换、缺失和/或其它修饰指定同源性程度匹配同一的或相似的序列。保守性置换通常包括在下列组内的置换：甘氨酸、丙氨酸；缬氨酸、异亮氨酸、亮氨酸；天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺；丝氨酸、苏氨酸；赖氨酸、精氨酸；和苯丙氨酸、酪氨酸。在测定同一性程度的示例性方法中，可以使用BLAST程序，其中e^-3和e^-100之间的可能性分数指示密切相关的序列。

如本文使用的，术语“样品”包括生物学样品比如任何组织、细胞、流体、或源自生物体的其它材料。

“特异性地结合”的意思是识别和结合分子(例如，核酸生物标志物)，但是基本上不识别和结合样品——例如生物学样品——中的其它分子的化合物(例如，核酸探针或引物)。

术语“基本上微生物杂交签名”是相对术语并且意思是如下杂交签名：其指示在肿瘤样品中比在参考样品中存在更多的微生物。

术语“基本上不是微生物杂交签名”是相对术语并且意思是如下杂交签名：其指示在参考样品中比在肿瘤样品中存在更少的微生物。

“对象”的意思是哺乳动物，其包括但不限于人或非人哺乳动物，比如牛、马、犬、绵羊、猫、小鼠或猴。术语“对象”可以指的是动物，其是治疗、观察或实验的目标(例如，患者)。

“靶标核酸分子”的意思是待分析的多核苷酸。这样的多核苷酸可以是靶标序列的正义链或反义链。术语“靶标核酸分子”还指的是原始靶标序列的扩增子。在多种实施方式中，靶标核酸分子是一种或多种核酸生物标志物。

术语“肿瘤组织样品”的意思是来自对象中的肿瘤——包括对象中的任何实体瘤和非实体瘤——的任何样品。

如本文使用的，术语“治疗(treat、treating、treatment)”等指的是减少或减轻障碍和/或与其相关联的症状。应当领会虽然没有排除，但是治疗障碍或病症不需要障碍、病症或与其相关联的症状被完全地消除。

本文提供的范围被理解是该范围内所有值的简写。例如，1至50的范围被理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50构成的组的任意数字、数字的组合、或子范围。

本文提供的任何化合物、组合物或方法可以与本文提供的任何其它组合物和方法中的一种或多种组合。还应理解本文使用的术语是仅出于描述具体的实施方式的目的，并且不意欲是限制性的。

除非具体地陈述或由上下文明显的，如本文使用的，术语“或”被理解是包括性的。

术语“包括”在本文使用意思是短语“包括但不限于”，并且与该短语可交换地使用。

如本文使用的，术语“包括”、“包含”、“含有”、“具有”等可以具有在美国专利法中归属于它们的含义并且可以意思是“包罗”、“涵盖”等；“大体上由……构成”或“大体上构成”同样具有在美国专利法中归属的含义并且术语是开放式的，其允许存在比叙述的多的要素，只要存在比叙述的多的要素不改变叙述的要素的基本或新颖特性，但是排除现有技术实施方式。

由下列其期望的实施方式的描述，和由权利要求书，本发明的其它特征和优势将是明显的。

描述

本发明的特征在于：用于检测或诊断对象中的三阴性乳腺癌的组合物和方法，其包括检测来自对象的组织样品中来自一种或多种感染原的遗传物质的存在。鉴定指示对象患有三阴性乳腺癌的宏基因组签名，其包括检测来自大量病毒、细菌、真菌和寄生虫感染原的遗传物质。

如本文描述的，PathoChip方法被用于筛查100份三阴性乳腺癌(TNBC)样品以及20份匹配的和20份不匹配的对照。为了对许多肿瘤样品快速地筛查相关联的病毒和微生物，我们研发出基于微阵列的方法(PathoChip)，其包含用于病毒和其它人病原微生物的并行的DNA和RNA检测的探针集(Baldwin et al.(2014)MBio5,e01714-01714)。PathoChip的现有版本包含代表所有已知的病毒、250种蠕虫、130种原生动物、360种真菌和320种细菌的60,000种探针。该阵列包含两种类型的探针：用于每种特定病毒和微生物的独特的探针，和靶向在病毒家族的成员之间保守的基因组区域的保守性探针，从而提供用于检测先前未表征的家族成员的手段。PathoChip筛查技术包括扩增步骤，其允许检测以低基因组拷贝数在样品中存在的微生物和病毒。因而，PathoChip技术具有相对于其它微生物组筛查试验增加的灵敏度，和较宽的跨领域覆盖度。这允许多种肿瘤样品被快速地和灵敏地筛查微生物菌剂的存在。

鉴定如下探针：其代表与对照比较在乳腺癌样品中显著地检测的病毒和其它微生物序列。这些探针被用于PCR验证，并且被用作磁珠上的捕获试剂以选择来自乳腺癌样品的杂交序列，其通过miSeq测序进行额外的验证。该数据建立了三阴性乳腺癌的独特的微生物签名。

乳腺癌和三阴性乳腺癌(TNBC)

乳腺癌是最流行的癌症之一：在2015年，估计200,000个新病例在美国将被诊断出，其导致超过40,000例死亡(参见例如，http://seer.cancer.gov/statfacts/html/breast.html)。基于存在或不存在某些激素和生长受体分类乳腺癌。存在4种主要类型：内分泌受体(***或孕酮受体)阳性、人表皮生长因子受体2(Her2)阳性、三阳性(***、孕酮和HER2受体阳性)和三阴性(不存在***、孕酮和HER2受体)(www.webmd.com/breast-cancer)。乳腺癌的后一形式不能通过内分泌疗法治疗并且是最攻击性形式的疾病(http://www.cancercenter.com)。研究已经致力于在对乳腺癌有遗传倾向的那些中突变的基因(例如BRCA1/2等)(Shiovitz and Korde(2015)Ann Oncol20；Cornejo-Moreno etal.(2014)Isr Med Assoc J16,787-792；Sun et al.(2015)Int J Mol Sci16,4121-4135；Chacon-Cortes et al.,(2015)Tumour Biol14,14)，以及在这些癌症的发展和进展中发挥主要作用的其它因素，如家族史(Pilato et al.(2014)J Hum Genet59,51-53)、种族划分(ethnicity)(Tehranifar et al.(2015)Am J Epidemiol181,204-212)、肥胖(Kruk(2014)Asian Pac J Cancer Prev15,9579-9586)、乳腺组织密度(Yaghjyan et al.(2015)BreastCancer Res Treat13,13)、性别(Sherman and Lane(2014)J Cancer Educ17,17)、环境因素(Hiatt RA,Haslam SZ,&Osuch J(2009)Environ Health Perspect117,1814-1822)和与生活方式相关的因素(Kruk(2014)Asian Pac J Cancer Prev15,9579-9586)。然而，尽管数个研究已经显示了与疱疹病毒、多瘤病毒、***瘤病毒和逆转录病毒的关联(Shiovitz andKorde(2015)Ann Oncol20)，但是较少的重点致力于确定病毒和微生物与乳腺癌的关联。

宏基因组签名和三阴性乳腺癌

在本申请中，使用PathoChip阵列——其包含覆盖所有已知的病毒剂以及人病原细菌、真菌和寄生虫的60,000种探针集——在100份三阴性乳腺癌样品中检测占主导的病毒、细菌、真菌和寄生虫基因组序列。此灵敏的方法检测单个乳腺癌样品中的多种病毒和微生物。通过PCR和靶标捕获测序验证这些结果。层次分析显示可以在测试的TNBC样品内发现至少两种主要的微生物签名。重要地，该数据提供了关于这些病毒和其它微生物菌剂如何与肿瘤组织或肿瘤微环境相关联的有限的信息。该数据没有表明这些病毒和微生物是TNBC的原因或有助于TNBC的发展。虽然这些病毒和微生物可能有助于癌症病理学，但是也可能肿瘤组织和肿瘤微环境为它们提供了保持持续的友好的生态位。至少，这些病毒和微生物签名的存在提供了诊断能力。

有趣地，TNBC样品落入显示至少两种特定(distinct)的微生物签名的层次组。一种层次签名在病毒中是流行的：疱疹病毒-签名(主要是β-和γ-疱疹病毒样)；副痘病毒签名(副痘病毒家族样)；黄病毒(丙型肝炎样和GB型肝炎样)；多瘤病毒(JC样、MCPV样和SV40样)；逆转录病毒(MMTV样、HERV-K样、HTLV样)；嗜肝DNA病毒(乙型肝炎样)和***瘤病毒(HPV-2、6b和18样)。此层次签名还倾向于在代表鞭虫属、弓蛔虫属、利什曼原虫属、巴贝虫属和吸吮线虫属家族的寄生虫签名中是较高的。对寄生虫与转移性乳腺癌的关联已经存在一篇报道(Schafer A(1969)Experientia25,729-732)。第二种占主导的层次签名显示了较少的病毒和寄生虫但是较高的细菌含量，其由代表大量家族(放线菌科、柄杆菌科(Caulobacteriaceae)、鞘氨醇杆菌科、肠杆菌科、普氏菌科、布鲁氏杆菌科、芽孢杆菌科、消化链球菌科、黄杆菌科)指示，其中的一些已经与癌症相关联(Han and Andrade(2005)JAntimicrob Chemother55,853-859；Dobinsky et al.(1999)Eur J Clin MicrobiolInfect Dis18,804-806；Alison et al.(2014)EJSO40,650-651；Gupta et al.(2012)Breast Care(Basel)7,153-154)。真菌签名可以在两种层次签名之间相对均等地发现并且建议代表匹里虫属、毛孢子菌属、着色芽生菌属(Fonsecaea)和瓶霉菌属家族。

PathoChip筛查还提供一些令人惊讶的结果。例如，检测与秋葵花叶病毒(Stephanet al.(2008)Virus Genes36,231-240)和柑桔类病毒V相关的序列(图4A-4D和表5)。有趣地，检测类病毒的RNA通过表明乳腺癌中的核内类病毒的研究支持(Schafer(1969)Experientia25,729-732)。此外，饮食的生水果和蔬菜将个体暴露于大量的植物病毒和类病毒，并且一些可以持续。筛查还检测与杆状病毒相似的基因组序列。不受限于具体的理论，很可能昆虫和植物病毒的变体在特定的情况下可以在人中持续。

因而，随着可以在新鲜组织中完成更多研究，TNBC微生物签名可以被拓展。因为RNA病毒基因组更易于在FFPE样品中降解，所以筛查可能对DNA病毒是偏倚的(biased)。然而，数据清楚地指示了微生物签名可以在TBNC中描绘并且此签名在正常组织中是代表性不足的。

在一个实施方式中，本发明包括检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法。该方法包括使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip阵列以生成第一杂交图谱，和使来自参考样品的可检测标记的核酸杂交至PathoChip阵列以生成第二杂交图谱的步骤。参考样品来自其它方面相同的来自对象的非肿瘤组织。接着，比较第一和第二杂交图谱。当第一杂交图谱基本上是微生物杂交签名并且第二杂交图谱基本上不是微生物杂交签名时，在肿瘤组织样品中检测到三阴性乳腺癌。

在方法的另一个实施方式中，通过使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip上的至少三种核酸探针来生成微生物杂交签名。在本发明的方法中有用的核酸探针的数目可以是至少3种探针、至少10种探针、至少30种探针、至少90种探针、至少120种探针、至少140种探针、至少160种探针、或其间的任意和所有数目的探针。这些数目的核酸探针的使用适用于本文描述的每种方法、组合物和试剂盒。

在方法的一个实施方式中，探针来自选自如下的微生物：MMTV、HTLV-1、FSV、SV40、JC、MCPV、HCMV、EBV、KSHV、HPV16、HPV6b、HBV、HCV-1、BPSV、PCP Tatera、Orf、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠杆菌、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马巴贝虫、吸吮线虫属某种、并殖吸虫属某种。

方法还可以包括如下步骤：其中通过使来自肿瘤组织样品的可检测标记的核酸杂交至PathoChip上的至少三种核酸探针来生成第一杂交图谱。在此情况下，探针选自SEQ IDNO:1-160。

在另一个实施方式中，本发明包括检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法，其包括使来自肿瘤组织样品的可检测标记的核酸杂交至第一微阵列以生成第一杂交图谱，和使来自参考样品的可检测标记的核酸杂交至第二微阵列以生成第二杂交图谱的步骤。微阵列由至少三种选自SEQ ID NO:1-160的核酸探针组成。参考样品来自其它方面相同的来自对象的非肿瘤组织。接着，比较第一和第二杂交图谱。如果第一杂交图谱基本上是微生物杂交签名并且第二杂交图谱基本上不是微生物杂交签名，则在肿瘤组织样品中检测到三阴性乳腺癌。

肿瘤组织样品可以来自活组织检查、石蜡-包埋(FFPE)样品，或非实体瘤。并且，对象可以是人。可以使用荧光团(比如Cy3或Cy5)、放射性磷酸盐、生物素或酶标记可检测标记的核酸。

方法还可以包括当在来自对象的肿瘤组织样品中检测出三阴性乳腺癌时给对象提供用于三阴性乳腺癌的治疗。治疗的实例包括但不限于外科手术、化学疗法或放射疗法。

靶标核酸分子

本发明的方法和组合物对鉴定待分析的生物学样品中的靶标核酸分子是有用的。靶标序列由包括靶标核酸分子的任意生物学样品扩增。这样的样品可以包括真菌、孢子、病毒或细胞(例如，原核生物、真核生物——包括人)。这样的样品可以包括病毒、细菌、真菌和寄生虫核酸分子。在具体的实施方式中，本发明的方法和组合物检测来自一种或多种病原生物体——包括病毒、类病毒、细菌、真菌、蠕虫和/或原生动物——的一种或多种核酸序列。

在一个实施方式中，样品是生物学样品，比如组织或肿瘤样品。测量生物学样品中一种或多种多核苷酸生物标志物(例如，以检测或鉴定病毒、类病毒、细菌、真菌、蠕虫和/或原生动物)的水平。在一个实施方式中，生物学样品是包括乳腺细胞或肿瘤细胞的组织样品，例如，来自活组织检查或***固定、石蜡包埋的(FFPE)样品。示例性测试样品还包括体液(例如血液、血清、血浆、羊水、痰、尿、脑脊液、淋巴液、泪液、***物、或胃液)、***物、组织提取物和培养基(例如，细胞比如病原体细胞在其中已经生长的液体)。如果期望的话，使用通常用于由生物学样品分离核酸分子的任何标准方法在检测之前纯化样品。在一个实施方式中，通过引物寡核苷酸扩增病原体的靶标核酸以检测样品中感染原的核酸序列的存在。这样的核酸序列可以源自包括真菌、细菌、病毒和酵母的病原体。

靶标核酸分子包括双链和单链核酸分子(例如，DNA、RNA、和能够与本文描述的核酸分子杂交的本领域已知的其它核碱基聚合物)。适合使用本发明的可检测的寡核苷酸探针或可检测的引物/模板寡核苷酸进行检测的RNA分子包括但不限于包括靶标序列的双链和单链RNA分子(例如，信使RNA、病毒RNA、核糖体RNA、转移RNA、微RNA与微RNA前体、和siRNA或本文描述的或本领域已知的其它RNA)。适合使用本发明的可检测的寡核苷酸探针或引物/模板寡核苷酸进行检测的DNA分子包括但不限于双链DNA(例如，基因组DNA、质粒DNA、线粒体DNA、病毒DNA、和合成的双链DNA)。单链DNA靶标核酸分子包括，例如，病毒DNA、cDNA、和合成的单链DNA、或本领域已知的其它类型的DNA。一般而言，用于检测的靶标序列的长度在大约30和大约300个核苷酸之间(例如，10、15、20、25、30、35、40、45、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300个核苷酸)。在具体的实施方式中，靶标序列的长度是大约60个核苷酸。用于检测的靶标序列还可以与探针序列具有至少大约70、80、90、95、96、97、98、99、或甚至100％同一性。探针序列可以比靶标序列更长或更短。例如，60个核苷酸的探针可以杂交至靶标序列的至少大约44个核苷酸。

在具体的实施方式中，生物标志物是在生物学样品中差异地存在的生物分子(例如，核酸分子)。例如，生物标志物取自对象的一种表型状态(例如，患有三阴性乳腺癌)——与另一种表型状态(例如，未患有三阴性乳腺癌)对比。如果不同组中生物标志物的平均或中值表达水平被计算为是统计学上显著的，则生物标志物在不同的表型状态之间差异地存在。统计学显著性的常用检验包括t检验、ANOVA、Kruskal-Wallis、Wilcoxon、Mann-Whitney和优势比等。生物标志物——单独地或组合地——提供了对象属于一种表型状态或另一种表型状态的相对风险的测量。因此，它们作为用于表征疾病(例如，患有三阴性乳腺癌)的标志物是有用的。

探针选择

在本发明的方法中使用选择用于检测多种靶标核酸分子(例如，对应于多种生物体)的探针集。在多种实施方式中，探针集基于宏基因组的构建和其选择探针——其鉴定与感染原相关联的靶标核酸分子——的用途。如本文使用的“宏基因组”指的是来自多于一种生物体的遗传物质，例如，在环境样品中。宏基因组被用于选择探针集和/或验证探针集。在一些实施方式中，宏基因组包括大约20、30、40、50、60、70、80、90、100、200、300、400、500、1000、1500、2000或更多种生物体的序列或基因组。在一个实例中，连接数千种生物体的核酸序列以生成包括58条染色体的宏基因组。

离散的宏基因组探针选择

A.将单个基因组、基因和部分序列下载入登记的本地数据库

B.使用生物信息学工具掩蔽(mask)低复杂性序列。在一个实例中，使用mdust(http://doc.bioperl.org/bioperl-run/lib/Bio/Tools/Run/Mdust.html)掩蔽低复杂性序列，接着BLASTN 2.0MP-WashU31鉴定病毒登记中独特的区域

C.针对所有其它登记BLASTN序列比较每个登记

D.鉴定每个登记内的特异性靶标区域

1.250-300bp区域

2.不超过50个连续核苷酸，其与任何其它登记或与人基因组具有70％或更大序列同源性

E.补充的特异性靶标

1.鉴定具有零个或一个靶标区域的任何登记

2.放松严格性参数至不超过30个连续核苷酸与任何其它登记具有50％或更大序列同源性，但是不超过50个连续核苷酸与人基因组具有70％或更大序列同源性

3.对来自l.E.l的登记子集重新运行靶标区域鉴定

F.鉴定保守性靶标区域

1.70-300bp区域，其与至少一个其它登记具有70％或更大同源性

2.去除具有50或更多个连续核苷酸——其与人基因组具有70％或更大序列同源性——的保守性靶标

G.选择探针

1.对特异性和保守性靶标区域运行Agilent阵列CGH探针选择算法

2.通过Agilent设计分数排列探针

3.由每个登记中的1-5个特异性靶标区域选择1-3个最高排列的探针

4.由每个保守性靶标区域选择1-3个最高排列的探针

多联宏基因组(concatenated metagenome)探针选择

A.将单个基因组、基因和部分序列下载入登记的本地数据库

B.将所有登记编译入单一多联宏基因组以利于使用基因组学生物信息学工具

1.放置100个非特异性核苷酸(“N”)作为每个登记之间的间隔区

2.将登记和间隔区接合入6,000,000-10,000,000个碱基的染色体

C.在宏基因组内针对特异性运行Agilent阵列CGH探针选择算法

D.针对人、小鼠、和/或其它哺乳动物基因组的特异性过滤探针

E.选择特异性探针

1.通过Agilent设计分数排列探针

2.由每个登记选择10-20个最高排列的探针

3.探针之间需要至少100bp分隔

F.选择保守性探针

1.如l.F中鉴定保守性区域

2.由每个保守性区域选择5-10个最高排列的探针

3.探针之间需要至少100bp分隔

G.经验性探针选择

1.制造包含所有特异性和保守性探针的微阵列

2.将微阵列杂交至标记的人DNA

3.由具有最低交叉杂交信号的每个登记选择5-10个特异性探针

4.由具有最低交叉杂交信号的每个保守性区域选择3-5个保守性探针

在一个实施方式中，本发明包括至少两种选自SEQ ID NO:1-160的核酸探针。

样品制备

本发明提供了用于分析在样品中存在的多种类型的核酸——包括DNA和RNA——的手段。在多种实施方式中，样品制备包括提取核酸分子(例如，DNA和RNA)的混合物。在其它实施方式中，样品制备包括从多种生物体、细胞类型、感染原、或其任意组合提取核酸的混合物。在一个实施方式中，样品制备包括下面的工作流程。

A.破碎基因组DNA

B.通过随机引发的逆转录酶将总RNA转化为第一链cDNA

C.使用生物素或荧光染料通过化学或酶促并入标记基因组DNA

D.使用生物素或荧光染料通过化学或酶促并入标记cDNA

E.在相同的化学或酶促反应中标记基因组DNA和cDNA的混合物

F.混合C+D并且共杂交至探针的微阵列

G.使E杂交至探针的微阵列

H.扩增靶向的基因组DNA

1.使用全基因组扩增(GE GenomiPhi,Sigma WGA,NuGEN Ovation DNA)以非特异性地扩增基因组DNA

2.使用扩增的产物作为4.C或4.E的输入

I.扩增靶向的总RNA

1.使用全转录物组扩增(Sigma WTA,Ambion体外转录，NuGEN Ovation RNA)以非特异性地扩增总RNA

2.使用扩增的产物作为输入

样品被杂交至微阵列(例如，PathoChip)，并且在多种严格性下洗涤微阵列。微阵列被扫描用于检测荧光。应用背景校正和阵列间归一化算法。应用检测阈值。结果进行统计学显著性分析。

核酸扩增

靶标核酸序列任选地在检测前被扩增。术语“扩增”限定由单或低拷贝数的核酸序列分子制造多拷贝的核酸的过程。通过本领域技术人员已知的生物化学过程体外实施核酸序列的扩增。在鉴定之前或与鉴定同时，病毒样品可以通过各种机制被扩增，其中的一些可以采用PCR。例如，PCR的引物可以被设计以扩增序列的区域。对于RNA病毒，第一逆转录酶步骤可以被用于由单链RNA生成双链DNA。参见，例如，PCR Technology:Principles andApplications for DNA Amplification(Ed.H.A.Erlich,Freeman Press,NY,N.Y.,1992)；PCR Protocols:A Guide to Methods and Applications(Eds.Innis,et al.,AcademicPress,San Diego,Calif.,1990)；Mattila et al.,Nucleic Acids Res.19,4967(1991)；Eckert et al.,PCR Methods and Applications 1,17(1991)；PCR(Eds.McPherson etal.,IRL Press,Oxford)；和美国专利号4,683,202、4,683,195、4,800,159、4,965,188、和5,333,675。样品可以在阵列上被扩增。参见，例如，美国专利号6,300,070和美国序列号09/513,300。

其它合适的扩增方法包括连接酶链反应(LCR)(例如，Wu and Wallace,Genomics4,560(1989),Landegren et al.,Science 241,1077(1988)和Barringer et al.Gene 89:117(1990))、转录扩增(Kwoh et al.,Proc.Natl.Acad.Sci.USA 86,1173(1989)和WO88/10315)、自动维持序列复制(Guatelli et al.,Proc.Nat.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶标多核苷酸序列的选择性扩增(美国专利号6,410,276)、共有序列引发的PCR(CP-PCR)(美国专利号4,437,975)、任意引发的PCR(AP-PCR)(美国专利号5,413,909、5,861,245)和基于核酸的序列扩增(NABSA)(参见，美国专利号5,409,818、5,554,517和6,063,603)。在美国专利号5,242,794、5,494,810、4,988,617和在美国序列号09/854,317中描述了可以使用的其它扩增方法。

在Dong et al.,Genome Research 11,1418(2001)，在美国专利号6,361,947、6,391,592和美国序列号09/916,135、09/920,491(美国专利申请公布20030096235)、09/910,292(美国专利申请公布20030082543)、和10/013,598中描述了样品制备的另外的方法和用于降低核酸样品的复杂性的技术。

生物标志物的检测

可以通过任何合适的方法检测本发明的生物标志物。本文描述的方法可以被单独地或组合地用于生物标志物的更精确的检测。本领域已经研发出执行多核苷酸杂交试验的方法。杂交试验程序和条件将取决于应用而变化并且根据已知的一般结合方法进行选择，所述方法包括在如下中被提及的那些：Sambrook and Russell,Molecular Cloning:ALaboratory Manual(3^rd Ed.Cold Spring Harbor,N.Y,2001)；Berger and KimmelMethods in Enzymology,Vol.152,Guide to Molecular Cloning Techniques(AcademicPress,Inc.,San Diego,Calif.,1987)；Young and Davism,P.N.A.S,80:1194(1983)。已经在美国专利号5,871,928、5,874,219、6,045,996和6,386,749、6,391,623中描述了用于实施重复和可控杂交反应的方法和设备。用于解译来自阵列的杂交结果的数据分析算法(E-predict)是可以公开获得的(参见Urisman,2005,Genome Biol 6:R78)。

在一个实施方式中，通过检测附连至样品核酸或在样品核酸内并入的一种或多种标记物来检测杂交的核酸。可以通过本领域技术人员熟知的任何许多手段附连或并入标记物。在一个实施方式中，在样品核酸的制备中，在扩增步骤期间同时并入标记物。因而，例如，使用标记的引物或标记的核苷酸进行PCR将提供标记的扩增产物。在另一个实施方式中，如上面描述的，使用标记的核苷酸(例如荧光素标记的UTP和/或CTP)进行转录扩增将标记物并入转录的核酸。在另一个实施方式中，PCR扩增产物被碎片化并且通过末端脱氧转移酶和标记的dNTP进行标记。可选地，标记物可以被直接地添加至原始核酸样品(例如，mRNA、polyA mRNA、cDNA等)或在完成扩增后添加至扩增产物。将标记物附连至核酸的手段对本领域技术人员是熟知的并且包括，例如，切口平移或末端标记(例如使用标记的RNA)，其通过激活(kinasing)核酸和随后将接合样品核酸的核酸连接体附连(连接)至标记物(例如，荧光团)。在另一个实施方式中，标记物使用末端脱氧转移酶被添加至片段的末端。

适合用于本发明的可检测的标记物包括通过光谱学、光化学、生物化学、免疫化学、电学、光学或化学手段可检测的任何组合物。本发明中有用的标记物包括但不限于：与标记的链酶抗生物素缀合物一起用于染色的生物素；抗生物素抗体、磁珠(例如，Dynabeads^TM.)；荧光染料(例如，荧光素、德克萨斯红、罗丹明、绿色荧光蛋白等)；放射性标记物(例如，³H、¹²⁵I、³⁵S、⁴C、或³²P)；磷光标记物；酶(例如，辣根过氧化物酶、碱性磷酸酶和在ELISA中常用的其它酶)；和比色标记物比如胶体金或着色玻璃或塑料(例如，聚苯乙烯、聚丙烯、乳胶等)珠。教导使用这样的标记物的专利包括美国专利号3,817,837、3,850,752、3,939,350、3,996,345、4,277,437、4,275,149和4,366,241。

检测这样的标记物的手段对本领域技术人员是熟知的。因而，例如，可以使用胶卷或闪烁计数器检测放射性标记物；可以使用光检测器检测发射光来检测荧光标志物。通常通过给酶提供底物和检测通过酶对底物的作用产生的反应产物来检测酶促标记物，并且通过简单地可视化着色的标记物来检测比色标记物。

在例如美国专利号5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758；5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639；6,218,803；和6,225,625，在美国序列号10/389,194、60/493,495和在PCT申请PCT/US99/06097(公布为WO99/47964)中公开了用于信号检测和处理强度数据的方法和设备。

通过微阵列的检测

在本发明的方面，借助微阵列(也称为生物芯片)分析样品。本发明的核酸分子可用作微阵列中可杂交的阵列单元。微阵列一般包括固体基底并且具有大体上平的表面，捕获试剂(也称为吸附或亲和试剂)被附连至所述表面。经常地，生物芯片的表面包括多个可寻址的位置，其中的每个具有结合在那里的捕获试剂。

阵列单元以有序方式被组织，以便每个单元在基底上的规定位置处存在。有用的基底材料包括由纸、尼龙或其它材料构成的膜，过滤器，芯片，载玻片，和其它固体支持物。阵列单元的有序布置允许杂交图谱和强度被解译为特定基因或蛋白质的表达水平。用于制造核酸微阵列的方法对技术人员是已知的并且在例如美国专利号5,837,832、Lockhart等(Nat.Biotech.14:1675-1680,1996)、和Schena等(Proc.Natl.Acad.Sci.93:10614-10619,1996)中描述，其通过引用并入本文。美国专利号5,800,992和6,040,138描述了用于制造核酸探针阵列——其可以被用于检测包含特定核苷酸序列的核酸的存在——的方法。以最小数目的合成步骤形成核酸、肽和其它聚合物序列的高密度阵列的方法是已知的。可以通过各种方法在固体基底上合成核酸阵列，包括但不限于光定向的化学偶联和机械定向的偶联。对于与再测序阵列相关的额外描述和方法，参见美国专利申请序列号10/658,879、60/417,190、09/381,480、60/409,396，和美国专利号5,861,242、6,027,880、5,837,832、6,723,503。

本发明的一个实施方式包括微阵列，其包括至少两种选自SEQ ID NO:1-160的核酸探针。微阵列可以是生物芯片，或在载玻片、珠、或纸上。

通过核酸生物芯片的检测

在本发明的方面，借助核酸生物芯片(也称为核酸微阵列)分析样品。为了生产核酸生物芯片，寡核苷酸可以使用化学偶联程序和喷墨施加设备被合成或结合至基底的表面，如在PCT申请W095/251116(Baldeschweiler等)中描述的。可选地，栅格阵列(griddedarray)可以使用真空***，热、UV、机械或化学结合程序被用于将cDNA片段或寡核苷酸布置和连接至基底的表面。在本发明中有用的示例性核酸分子包括多核苷酸和其片段，所述多核苷酸将核酸生物标志物特异性地结合至一种或多种病原生物体。

如本文描述的，源自生物学样品的核酸分子(例如RNA或DNA)可以被用于产生杂交探针。生物学样品通常源自患者，例如，如体液(比如血液、血清、血浆、唾液、尿、腹水、囊液等)；匀浆的组织样品(例如，通过活组织检查获得的组织样品)；或由患者样品分离的细胞或细胞群。对于一些应用，可以使用培养的细胞或其它组织制剂。根据标准方法分离mRNA，并且cDNA被产生并用作模板以制造适于杂交的互补的RNA。这样的方法是本领域熟知的。在存在荧光核苷酸的情况下扩增RNA，并且标记的探针然后与微阵列一起培育以允许探针序列杂交至互补的寡核苷酸——其结合至生物芯片。

调节培育条件，以便取决于采用的严格性程度，在精确的互补匹配或在多种较小互补性程度的情况下发生杂交。例如，严格的盐浓度将一般小于大约750mM NaCl和75mM柠檬酸三钠，小于大约500mM NaCl和50mM柠檬酸三钠，或小于大约250mM NaCl和25mM柠檬酸三钠。低严格性杂交可以在不存在有机溶剂——例如甲酰胺——的情况下获得，而高严格性杂交可以在存在至少大约35％甲酰胺，并且最优选地至少大约50％甲酰胺的情况下获得。严格的温度条件将一般包括至少大约30℃、至少大约37℃、或至少大约42℃的温度。变化的另外的参数，比如杂交时间、去污剂——例如十二烷基硫酸钠(SDS)——的浓度、和包括或排除运载体DNA，对本领域技术人员是熟知的。根据需要通过组合这些各种条件来实现各种水平的严格性。在优选的实施方式中，杂交将在750mM NaCl、75mM柠檬酸三钠和1％SDS中在30℃下发生。在实施方式中，杂交将在500mM NaCl、50mM柠檬酸三钠、1％SDS、35％甲酰胺和100μg/ml变性的大马哈鱼***DNA(ssDNA)中在37℃下发生。在其它实施方式中，杂交将在250mM NaCl、25mM柠檬酸三钠、1％SDS、50％甲酰胺和200μg/ml ssDNA中在42℃下发生。这些条件的有用的变化对本领域技术人员将是显而易见的。

可以例如通过洗涤实现未杂交的探针的去除。杂交之后的洗涤步骤也可以在严格性方面改变。可以通过盐浓度和通过温度限定洗涤严格性条件。如上面的，可以通过降低盐浓度或通过增加温度增加洗涤严格性。例如，洗涤步骤的严格的盐浓度将优选地小于大约30mM NaCl和3mM柠檬酸三钠，和最优选地小于大约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格的温度条件将一般包括至少大约25℃、至少大约42℃、或至少大约68℃的温度。在实施方式中，洗涤步骤将在30mM NaCl、3mM柠檬酸三钠和0.1％SDS中在25℃下发生。在更优选的实施方式中，洗涤步骤将在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中在42℃下发生。在其它实施方式中，洗涤步骤将在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中在68℃下发生。这些条件的另外的变化对本领域技术人员将是显而易见的。

用于测量所有特定的核酸序列的杂交存在、不存在和量的检测***是本领域熟知的。例如，在Heller et al.,Proc.Natl.Acad.Sci.94:2150-2155,1997中描述了同时检测。在实施方式中，使用扫描器测定荧光的水平和图谱。

诊断试验

本发明提供了许多诊断试验，其可用于鉴定或表征疾病或障碍(例如，三阴性乳腺癌)，或发展出这样的病症的倾向。在一个实施方式中，三阴性乳腺癌的特征在于定量来自一种或多种病原生物体——包括病毒、类病毒、细菌、真菌、蠕虫和原生动物——的一种或多种生物标志物的水平。虽然下面提供的实施例描述了检测这些标志物的水平的具体方法，但是技术人员领会本发明不限于这样的方法。标志物水平是通过任何标准方法可定量的，这样的方法包括但不限于实时PCR、DNA印迹、PCR和/或质谱法。

本文描述的标志物中的任意两种或更多种的水平限定了疾病、障碍、病症的标志物概况。标志物的水平与参考进行比较。在一个实施方式中，参考是在对照样品——其由未患有三阴性乳腺癌的患者获得——中存在的标志物的水平。在另一个实施方式中，参考是健康组织或细胞(即，对三阴性乳腺癌是阴性的)。在另一个实施方式中，参考是在生物学样品——其源自三阴性乳腺癌的治疗之前、期间、或之后的患者——中存在的标志物的基线水平。在又另一个实施方式中，参考是标准化曲线。单独地的或与其它标准方法组合地使用本文描述的标志物中的任一种或多种(例如，病毒、细菌、真菌、蠕虫和/或原生动物生物标志物的组合)的水平，以表征疾病、障碍或病症(例如，三阴性乳腺癌)。

在某些实施方式中，可以使用捕获试剂(例如，抗体)由样品分离或提取本文描述的一种或多种病原生物体和/或使用ELISA对其进行检测。在具体的实施方式中，用于捕获病原生物体的试剂包括链酶抗生物素结合的磁珠和生物素标记的探针。这样的技术可以被进一步用于使用基于核酸的探针获得核酸病原生物体检测或用于直接测序(例如，miSeq；Illumin)。

试剂盒

本发明提供了用于检测生物标志物的试剂盒，所述生物标志物能够指示与三阴性乳腺癌相关联的一种或多种生物学序列或剂的存在。试剂盒可以被用于检测与三阴性乳腺癌相关联的多种生物剂的存在。试剂盒可以被用于诊断或检测三阴性乳腺癌。在一些实施方式中，试剂盒包括本文描绘为对检测三阴性乳腺癌特异性的核酸生物标志物的探针组(panel)或集合(例如，PathoChip)。在额外的或可选的实施方式中，试剂盒包括对与三阴性乳腺癌相关联的病原生物体特异性的抗体。这样的抗体可以被用于ELISA检测或提取与三阴性乳腺癌相关联的病原生物体(例如，生物素标记的抗体连同链酶抗生物素结合的磁珠)。

在一些实施方式中，试剂盒包括一个或多个无菌的容器，其包含探针组、核酸生物标志物或微阵列芯片。这样的容器可以是盒、安瓿、瓶、小瓶、管、袋、小袋、泡罩包装、或本领域已知的其它合适的容器形式。这样的容器可以由塑料、玻璃、层压纸、金属箔、或适合容纳药物的其它材料制成。

说明书将一般包括关于使用组合物进行检测或诊断三阴性乳腺癌的信息。在其它实施方式中，说明书包括下列至少之一：治疗剂的描述；用于治疗或预防三阴性乳腺癌或其症状的剂量方案和施用；预防措施；警告；适应症；禁忌症；过剂量信息；不良反应；动物药理学；临床研究；和/或参考文献。说明书可以被直接地印刷在容器(当存在时)上，或作为标签被施加至容器，或作为单独页、小册子、卡片、或文件夹在容器中供应或与容器一起供应。

除非另外指示，本发明的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术，其充分地在技术人员的范围内。这样的技术在文献中被充分地说明，比如，“Molecular Cloning:A Laboratory Manual”,second edition(Sambrook,1989)；“Oligonucleotide Synthesis”(Gait,1984)；“Animal Cell Culture”(Freshney,1987)；“Methods in Enzymology”“Handbook of Experimental Immunology”(Weir,1996)；“Gene Transfer Vectors for Mammalian Cells”(Miller and Calos,1987)；“Current Protocols in Molecular Biology”(Ausubel,1987)；“PCR:ThePolymerase Chain Reaction”,(Mullis,1994)；“Current Protocols in Immunology”(Coligan,1991)。这些技术可适用于本发明的多核苷酸和多肽的产生，并且因此，可以在进行和实践本发明中考虑。将在如下部分中讨论用于具体实施方式的特别有用的技术。

本发明的一个实施方式是试剂盒，其包括至少三种选自SEQ ID NO:1-160的核酸探针。试剂盒可以包括探针，其来自大约10-30种生物体并且每种生物体大约3-5种探针。本发明的另一个实施方式是试剂盒，其包括具有至少三种选自SEQ ID NO:1-160的核酸探针的微阵列。试剂盒包含其使用说明材料。

提出下列实施例以便于给本领域普通技术人员提供如何进行和使用本发明的试验、筛查、和治疗方法的完整的公开内容和描述，并且不意欲限制本发明人视为其发明的范围。

实施例

材料和方法

PathoChip设计。

先前已经描述了用于设计称为PathoChip阵列的选择的微生物的60,000种探针集的宏基因组方法(Baldwin et al.(2014)MBio5,e01714-01714)。设计的探针集被制造为SurePrint载玻片微阵列(Agilent Technologies Inc.)。探针被表示为60-nt DNA寡聚物，其中60,000种探针在每个载玻片的8个重复阵列上。这些靶标病原病毒基因组、原核基因组和真核基因组——其中每个生物体多种探针——与上游样品制备和扩增方案组合以检测微生物的DNA和RNA并且下游数据分析。已经建立了由***固定、石蜡包埋的(FFPE)肿瘤组织PathoChip筛查DNA加RNA，并且先前验证了致癌病毒的检测(Baldwin et al.(2014)MBio5,e01714-01714)。先前的研究证明使用PathoChip技术——与PCR和HT测序组合——作为用于检测人癌症和其它疾病中病原体的存在的有价值的策略(Baldwin et al.(2014)MBio5,e01714-01714)。

样品制备和微阵列加工。

去识别化的***固定、石蜡包埋的(FFPE)三阴性乳腺癌样品(n＝100)以不带电的载玻片上10μm切片的形式由Abramson Cancer Center Tumor Tissue和BiosampleCore接收，并且匹配的(n＝20)对照样品和不匹配的(n＝20)对照样品作为石蜡卷(paraffin roll)提供。由相同患者——由其获得癌组织——的邻近的非癌性乳腺组织获得匹配的对照。不匹配的对照是由健康个体获得的乳腺组织。来自FFPE样品的卷或安置的切片(每个样品5个切片)被用于如先前描述的并行的DNA和RNA提取(Baldwin et al.(2014)MBio5,e01714-01714)。通过测量A_260/280比率评估提取的DNA/RNA的质量。通过琼脂糖凝胶电泳测定提取的核酸的大小分布。提取的RNA和DNA样品如预期地部分降解，并且使用RNA和DNA(每种50ng)作为输入经受如先前描述的RNA/DNA扩增(Baldwin et al.(2014)MBio5,e01714-01714)。在筛查的100份三阴性乳腺癌样品中，40份被单一地筛查并且60份以每个反应5个样品的池(RNA/DNA中的每种10ng)被筛查，所以总计52个阵列被用于筛查100份三阴性癌症样品。由20个匹配的和20个不匹配的对照，每个反应5个样品的池(RNA/DNA中的每种10ng)被用于4个阵列，每个用于筛查匹配的和不匹配的对照。通过琼脂糖凝胶电泳检查扩增产物，并且如预期地，扩增子的大小对于FFPE样品在200-400bp的范围内。由BJAB人B细胞系提取的人参考RNA和DNA(每种15ng)也经受WTA。使用PCR纯化试剂盒(Qiagen,Germantown,MD,USA)纯化扩增的产物，并且来自FFPE癌组织的扩增的产物(2μg)被用于Cy3标记(SureTag标记试剂盒，Agilent Technologies,Santa Clara,CA)和Cy5标记在作为对照的人参考cDNA/DNA扩增产物(2μg)上进行以测定探针与人DNA的交叉杂交。标记的DNA被纯化并且通过用于Cy3的A₅₅₀和用于Cy5的A₆₅₀测定标记程度。标记的样品使用常规方法被杂交至PathoChip(例如，如由AgilentTechnologies,Santa Clara,CA描述的)。在杂交缓冲剂中包含CGH封闭剂的杂交混合剂(cocktail)(按照制造商的说明书)被添加至标记的测试样品(Cy3)和参考(Cy5)，变性并在Agilent杂交炉中伴随旋转在65℃下在8-腔室垫片载玻片(chamber gasket slide)中杂交至8×阵列(PathoChip是包含8个阵列的载玻片)。在杂交之后，使用洗涤缓冲剂洗涤载玻片和使用Agilent SureScan G4900DA阵列扫描器进行扫描。

PathoChip数据的统计学分析。

如先前描述的，使用Partek Genomics Suite(Partek Inc.,St.Louis,MO,USA)完成数据分析(Baldwin et al.(2014)MBio5,e01714-01714)。进行基于模型的瓦片阵列(tiling array)的分析(MAT)，其利用每种肿瘤的探针信号的滑动窗分析(sliding windowanalysis)；在单一探针水平(对于特异性和保守性探针二者)和在登记水平(考虑每个登记的所有探针)下的分析。虽然在单一(特异性探针离群值和保守性探针离群值)或在登记水平(登记离群值)下的离群值分析揭示了在一些样品中显示较高杂交信号的探针，但是在单一探针(特异性探针t检验，保守性探针t检验)下或在登记水平(登记t检验)下的配对t检验以及错误发现率(FDR)多重校正揭示了跨越分析的100份肿瘤样品显著检测的探针。进行双样品Wilcoxon检验以测定癌症样品与对照(匹配的和不匹配的二者)样品比较是否具有显著检测的候选生物体签名。使用R程序(欧几里得距离、完全连锁、非调节的值(non-adjusted value))完成基于病原签名的检测的样品的层次聚类。

PathoChip结果的PCR验证。

由生物体的保守性和特异性探针——其具有代表签名图谱的杂交信号——设计PCR引物。用于每个反应的PCR扩增反应混合物包含200ng的肿瘤DNA和每种10pmol的正向与反向引物(表1)，300μM的dNTP和2.5U的LongAmpTaq DNA聚合酶。DNA在94℃下变性5min，接着进行如下的30个循环：94℃30秒，48-57℃30秒，和65℃20-60秒。对于使用的不同引物组，退火温度不同，主要地比每个引物组的正向与反向引物的解链温度低5度。用于每个引物组的PCR条件在表1中提供。通过PCR验证PathoChip杂交结果在图6A-6C中呈现。

表1：用于PathoChip筛查的PCR验证的引物。

探针捕获和高通量测序。

通过磁珠捕获靶向的序列的文库以生成用于高通量测序的文库。仅在三阴性乳腺癌样品中具有高杂交信号的选择的PathoChip探针被合成为5′-生物素化的DNA寡聚物(Integrated DNA Technologies,Coralville,IA,USA)，混合为5个捕获探针池(池1-5)(图7A-7D，表2，图2A-2D)，并且杂交至肿瘤样品池。池1包含52种选择的病毒保守性探针(VCP)，排除痘病毒保守性探针；池2包含18种保守性痘病毒探针(Pox)；池3包含43种病毒特异性探针(VSP)；池4包括20种选择的细菌探针(B)和池5包含28种真菌、寄生虫探针(P)。通过合并用于PathoChip筛查(用于VCP、Pox、VSP捕获)的所有100个WTA产品或通过以两组合并100个WTA样品(组1包括对B和P探针显示高杂交信号的18个WTA样品的池和组2包括其余的WTA样品)来捕获靶标。在包含3M四甲基氯化铵、0.1％Sarkosyl、50mM Tris-HCl、4mM EDTA的pH8.0(1×TMAC缓冲剂)的反应混合物中，每个捕获探针池被添加至每个靶标池。完成七(7)种单一靶标捕获：VCP、Pox、VSP、B1、B2、P1和P2。反应混合物被变性(100℃持续10分钟)，接着是杂交步骤(60℃持续3小时)。在室温下伴随连续混合添加链酶抗生物素免疫磁珠(LifeTechnologies,Carlsbad,CA,USA)，接着在0.30M NaCl加0.030M柠檬酸钠缓冲剂(2×SSC)中三次洗涤捕获的珠-探针-靶标复合物，和使用0.1×SSC进行三次洗涤。在Tris-EDTA(TE)中洗脱捕获的单链靶标DNA用于文库制备和下一代测序。

表2：用于靶标捕获的探针

通过GenomePlex反应(Sigma-Aldrich,St.Louis,MO)再扩增七种捕获的洗脱物，纯化和通过琼脂糖凝胶电泳评估大小分布。使用Nextera XT样品制备试剂盒(Illumina,San Diego,CA,USA)，根据制造商方案，制备测序文库。样品被递交至WashingtonUniversity Genome Technology Access Center(St.Louis,MO)进行质量控制测量、文库合并、和使用具有双端250-nt解读的Illumina MiSeq仪器测序。预处理的原始解读被修整以去除低质量末端(Phredscore<30)。使用Bowtie2(灵敏-本地模式(sensitive-localmode))针对人参考基因组比对解读(Langmead et al.(2009)Genome Biol10,R25)。排除可以以高质量映射至人基因组的解读。使用Bowtie2(灵敏-本地模式)将其余的解读比对至PathoChip宏基因组(Langmead et al.(2009)Genome Biol10,R25)。来自每个文库的解读的总数目，映射至病原基因组(pathogenome)对人基因组的解读的数目在表6中显示。存在比对至PathoChip宏基因组的来自7种文库的680,534条解读。具有映射质量分数MapQ>＝20的202,905条解读被用于使用Integrative Genomics Viewer 2.3.25进一步可视化和定量分析(Petropoulos(1997)Retroviral Taxonomy,Protein Structures,Sequences,andGenetic Maps.In:Coffin JM,Hughes SH,Varmus HE,editors.Retroviruses.ColdSpring Harbor(NY):Cold Spring Harbor Laboratory Press)。

表6：在MiSeq中生成的解读的数目

结果

三阴性乳腺癌样品的PathoChIP筛查检测病毒和其它病原生物体的签名。

使用PathoChip筛查TNBC样品(n＝100)连同匹配的(n＝17)和不匹配的对照(n＝20)。所有样品源自***固定、石蜡包埋的档案样品(archival sample)(参见上面的材料和方法)。在筛查的100份TNBC样品中，40份被单一地筛查并且60份以每个反应5个样品的池(RNA/DNA中的每种10ng)被筛查，总计52个阵列被用于筛查100份三阴性癌症样品。由17个匹配的和20个不匹配的对照，样品被合并以具有4个阵列，每个用于筛查匹配的和不匹配的对照。归一化的信号——其在对照中是阳性的——然后与测试样品进行比较以测定如下探针：其以显著较高信号对测试样品是独特的。结果检测出癌症样品中的病毒保守性和特异性探针，以及细菌、真菌和寄生虫探针(图4A-4D；表3-4)。

表3：通过PathoChip筛查100份三阴性乳腺样品检测的病毒和微生物(microbiomic)探针签名的数目。

A.通过单一探针分析检测的病毒探针签名的数目。

B.检测的特异性微生物探针签名的数目。

表4：在100份三阴性乳腺癌样品中检测的病毒和微生物探针的杂交信号(计算为每个登记的所有探针的杂交信号的总和)和流行率。

提及了检测候选的方法；AO：登记离群值，SO：特异性探针离群值，CO：保守性探针离群值，CT：保守性探针t检验；MAT：基于模型的瓦片阵列的分析。

当与匹配的或不匹配的对照样品比较，PathoChip筛查在癌症样品中对探针显示显著较高杂交信号时，该探针被认为是阳性的(图3A-3G；表5)。

表5：在乳腺癌样品对比对照中检测的微生物的探针百分比。

表5显示了在三阴性乳腺癌样品对匹配的和不匹配的对照样品中检测的候选生物体的探针百分比的统计学显著性。显著性通过Wilcoxon检验测定，并且如果p值<0.05，则认为与对照组织相比，癌组织中病原签名的检测百分比是显著的。

与分析的不匹配的和匹配的对照样品相比，在三阴性乳腺癌样品中检测的病毒、细菌、真菌和寄生虫签名被发现与癌症样品(p<0.05)显著地相关联。在表5中提供了如通过在癌组织对比对照组织中探针信号测定的候选生物体的关联性的p值。病毒的两个不同种类的探针集包含在PathoChip中。第一种是特异性探针，其被设计以检测特异性病毒，例如将遍及所有其它疱疹病毒检测人巨细胞病毒的探针。第二种集是保守性探针，其代表在病毒或微生物家族的成员之间高度保守的序列，例如在所有疱疹病毒之间保守的序列。保守性探针的目的是能够检测至今未知的家族成员，例如新的人疱疹病毒。

通过TNBC样品检测的候选生物体的探针显示了跨越肿瘤样品的大范围的杂交信号(图3A-3G)。在此，报告了针对生物体的每种探针具有可检测的杂交信号(g-r>30)而不区分高或低信号的样品的百分数。此外，列出了通过PathoChip上的特异性探针检测的特异性病毒和微生物的名称。然而，不受限于具体的理论，通过特异性检测的检测可以表明紧密相关的家族成员而不是指定的特定的一个。这在如下情况中是特别相关的：其中TNBC样品针对特异性病毒或微生物显示了跨越探针集的一系列杂交信号。这可能也意味着这些基因组区域在该特定肿瘤中被缺失或在菌株中变异。

在保守性探针之中，检测出属于疱疹病毒科、逆转录病毒科、副痘病毒科、多瘤病毒科、***瘤病毒科的病毒签名。对于疱疹病毒科，人巨细胞病毒(HCMV)、人疱疹病毒1(HHV1；单纯疱疹病毒1型)、卡波西肉瘤疱疹病毒(KSHV)、EB病毒或人疱疹病毒4(EBV/HHV4)的探针分别在92％、65％、96％和78％的乳腺癌样品之中被显著地检测出(图4A-4B和表5)。在痘病毒科，用于副痘病毒的保守性探针在83％的三阴性乳腺癌样品中被显著地检测出(p<0.05)(图4A-4B和表5)。在逆转录病毒之中，弗吉纳米肿瘤病毒(FSV)和小鼠乳癌病毒(MMTV)的特异性探针分别在90.4％和78.8％的乳腺癌样品中被检测出(图4A-4B和表5)。在多瘤病毒之中，特异性探针分别在90.3％和75％的乳腺癌样品中检测出美克耳细胞多瘤病毒(MCPV)和SV40的签名(图4A-4B)。对于***瘤病毒家族，特异性探针分别在78.8％、75％、84.6％和78.8％的乳腺癌样品中检测出HPV 6b、HPV18、HPV2和HPV16(图4A-4B)。特异性探针还分别在82.7％、90.4％和86.5％的癌症样品中检测出GB型、丙型和乙型肝炎的信号(图4A-4B)。

当根据流行率百分比(不管杂交强度如何)排列时，检测的病毒探针显示如下的签名：嗜肝DNA病毒(Hapadnavirus)和黄病毒(86.5％)，接着副痘病毒(83.3％)、疱疹病毒(83.2％)、逆转录病毒(79.6％)和***瘤病毒(79.3％)。然而，当根据降低杂交信号(每个生物体的单一探针的总杂交信号，即，探针总和/登记)排列时，疱疹病毒探针跨越肿瘤具有最高杂交信号，接着是副痘病毒、黄病毒、多瘤病毒、逆转录病毒、嗜肝DNA病毒(hapadnavirus)和***瘤病毒(papilloma)(图4A-4B和表4)。

细菌签名在三阴性乳腺癌样品中被检测到并且根据流行率百分比排列(图4C-4D)。对于检测的细菌签名(图4C-4D和表3-4)，检测隐秘杆菌属的探针具有最高的流行率(75％)，接着是检测短波单胞菌属、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、埃希氏杆菌属、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、和嗜二氧化碳噬细胞菌属的16S rRNA签名的探针(图4C-4D)。普氏菌属的细菌探针显示了最高杂交信号，接着是非常高杂交信号：短波单胞菌属、动弯杆菌属、罗氏菌属、地芽孢杆菌属、丙酸杆菌属、放线菌属和隐秘杆菌属的探针；中杂交信号：嗜胨菌属、鞘氨醇杆菌属、布鲁氏杆菌属、普罗威登斯菌属和嗜二氧化碳噬细胞菌属的探针；和低杂交信号：埃希氏杆菌属的探针。

真菌签名具有识别在98％的乳腺癌样品中检测到的匹里虫属的rRNA探针，接着是毛孢子菌属、产色芽生菌属、瓶霉菌属和拟青霉属的探针(图4C-4D和表4)。对于毛孢子菌属的探针可见最高杂交信号，接着是瓶霉菌属、产色芽生菌属和匹里虫属的探针中的高杂交信号，以及拟青霉属的探针的中杂交信号(图4C-4D)。

在96％的三阴性乳腺癌样品中检测出检测鞭虫属的寄生虫签名的探针，接着是弓蛔虫属、利什曼原虫属、巴贝虫属和吸吮线虫属(图4C-4D和表4)。基于杂交信号的排列，鞭虫属的探针显示最高杂交信号，接着是弓蛔虫属的探针的高杂交信号，以及吸吮线虫属、巴贝虫属和利什曼原虫属的中杂交信号。

层次聚类揭示了TNBC样品中两种特定的微生物签名

为了测定在肿瘤样品内的检测中是否存在相似性，进行筛查100份乳腺癌样品(52个阵列)的结果的层次聚类。此分析将样品聚类入两个大组(图5)。与组A TNBC样品相比，组B显示了检测病毒和真菌的探针的强的杂交信号。基于细菌和寄生虫剂的信号，使组B TNBC样品进一步分类，其被发现在子组a中较低和在子组b中较高。在组A TNBC样品内，一些样品(子组a)与其它(子组b)相比具有更高的细菌和寄生虫的探针的检测。值得注意地，在筛查的几乎所有TNBC样品中检测出寄生虫鞭虫属的探针。然而，由于测试的TNBC样品是去识别化的，两种特定的签名的表型原因不能立刻清楚。

通过PathoChip检测的签名的PCR验证

基于来自保守性和特异性PathoChip探针的序列设计用于数种病毒，以及流行性细菌(短波单胞菌属)、真菌(匹里虫属)和寄生虫(鞭虫属)的PCR引物，所述PathoChip探针在这些病毒和生物体的PathoChip筛查中显示中至高的杂交信号。作为这些数据的实例，***瘤病毒保守性引物7和8——其由***瘤病毒的保守性探针设计——显示了对许多样品的显著杂交。PCR结果显示了样品Br15、Br16和Br38——其对PathoChip筛查中的那些***瘤病毒探针是阳性的——的预期的扩增子。相反地，样品Br18对PathoChip筛查中的这些探针是阴性的并且通过PCR也是阴性的(图6A-6C)。在所有测试的情况下(图6A-6C)，PCR扩增显示了PathoChip检测的病毒，以及选择的细菌、真菌和寄生虫的预期的扩增子(图6A-6C)。PCR产物的测序验证了适当的病毒或其它微生物的检测。同样，通过筛查对特定病毒或生物体阴性的样品在PCR分析中是阴性的。这些数据验证了来自PathoChip筛查的结果支持在TNBC样品中这些微生物的存在。

探针捕获进行靶标测序以鉴定与三阴性乳腺癌相关联的签名生物体。

对于TNBC样品中病毒、细菌、真菌和寄生虫的PathoChip检测的额外验证，与乳腺癌样品并且不在对照中具有较强的杂交信号的探针被选择用于靶标捕获和测序。跨越在研究中分析的所有三阴性乳腺癌、匹配的和不匹配的对照的那些探针的杂交信号在图7A中被呈现为热点图。五个探针池(探针池1-5)被用于捕获来自合并的样品的靶标。使用5个探针池进行七种靶标捕获反应(图7A-7D)[病毒保守性探针(VCP)捕获、痘(Pox)捕获、病毒特异性探针(VSP)、细菌探针捕获(B1和B2)和真菌/寄生虫/类病毒探针捕获(P1和P2)]。七种捕获的靶标测序文库被制造、合并和使用MiSeq测序。MiSeq数据与PathoChip宏基因组进行比对。数据显示了Miseq解读在很大程度上围绕在捕获反应中使用的探针的基因组位置聚类；但是偶尔检测到探针位置外的靶标基因组的区域(图7B-7D)。每种捕获的候选生物体的MiSeq解读的数目在图1A-1J和8A-8F中显示。

病毒基因组。

MiSeq解读确认了多瘤病毒(SV40、JC、MCPV)；疱疹病毒(HCMV)；***瘤病毒(HPV16、HPV18、HPV2)；逆转录病毒(HTLV1、MMTV)；痘病毒(假牛痘病毒、牛丘疹性口炎病毒和口疮病毒)的病毒基因组区域的存在(图1A-1J)。

最流行的MiSeq解读(9669)之一比对至JC多瘤病毒的非编码调控区并且通过病毒保守性探针(VCP)捕获进行选择。此外，使用SV40和MCPV的特异性探针的靶标捕获揭示了304和1375条Miseq解读，其分别映射至SV40和MCVP的大T抗原基因。这些数据支持多瘤样病毒与三阴性乳腺癌的关联性。VCP捕获还产生2,552条MiSeq解读，其映射至HCMV的UL70(引发酶)和UL104(衣壳)，并且特异性探针捕获产生382条解读，其映射至HCMV非编码RNA 4.9，以及UL77和UL98基因。特异性探针捕获产生670条解读，其比对至HPV16基因组的E2、E4和L2区域；和99条解读，其比对至HPV18基因组的L1区域。此外，HPV-2序列由比对至HPV-2E1以及HPV-2E4和L2基因之间的基因组序列的86条解读指示。肝炎病毒基因组由与E1/E2多聚蛋白内的探针序列和丙型肝炎基因型1的非结构性5A基因组序列比对的111条解读指示。九十六条(96)解读与对应于乙型肝炎的S蛋白的探针比对。通过VCP捕获检测逆转录病毒基因组，其中7,319条解读比对至HTLV-1的Rex/Tax和env基因；并且来自VCP和特异性病毒探针捕获的33和78条解读映射至弗吉纳米肿瘤病毒的p140多聚蛋白基因(Petropoulos(1997)Retroviral Taxonomy,Protein Structures,Sequences,and Genetic Maps.In:CoffinJM,Hughes SH,Varmus HE,editors.Retroviruses.Cold Spring Harbor(NY):ColdSpring Harbor Laboratory Press)。进一步，特异性探针捕获产生138条序列解读，其比对至小鼠乳癌病毒的超抗原和pol/env基因(Petropoulos(1997)Retroviral Taxonomy,Protein Structures,Sequences,and Genetic Maps.In:Coffin JM,Hughes SH,VarmusHE,editors.Retroviruses.Cold Spring Harbor(NY):Cold Spring Harbor LaboratoryPress)。痘病毒基因组区域由VCP捕获指示，其中637条解读比对至假牛痘病毒的DNA聚合酶和酪氨酸磷酸酶基因，3,277条解读比对至牛丘疹性口炎病毒的ORF041(假设蛋白)、ORF044(核心蛋白)和ORF064(mRNA加帽酶大亚基)，并且588条解读比对至口疮病毒的编码假设蛋白的基因。

细菌基因组。

用于靶标捕获和测序的特异性细菌探针产生MiSeq解读，其比对至通过PathoChip筛查检测的细菌签名的16S rRNA基因组位置；即，缺陷短波单胞菌、溶血隐秘杆菌、吲哚嗜胨菌、变黑普氏菌、詹氏丙酸杆菌和犬咬嗜二氧化碳细胞菌(Capnocytophaga canimorsus)(图1A-1J和图8A-8F)。

真菌和寄生虫基因组。

真菌和寄生虫合并的探针(P)捕获靶标，所述靶标映射至下列真菌生物体的rRNA基因：象缪氏匹里虫、霍塔毛孢子菌、肾脏拟青霉、疣状瓶霉菌和佩德罗索着色芽生菌；和下列寄生虫的18S rRNA区域：毛首鞭虫、大口吸吮线虫和硕大利什曼原虫(图1A-1J、7B-7D和8A-8F)。

PathoChip筛查数据与其它报道的发现——其表明病毒与各种癌症的关联性——一致。例如，先前的研究表明了乳腺癌中疱疹病毒、***瘤病毒、多瘤病毒和MMTV样序列的存在(Alibek et al.(2013)Infect Agent Cancer8,32；de Martel&Franceschi(2009)Crit Rev Oncol Hematol70,183-194；Porta et al.(2011)Cancer Lett305,250-262；Harkins et al.(2010)Herpesviridae1,8；Amarante and Watanabe(2009)J Cancer ResClin Oncol135,329-337；Mazouni et al.(2011)Br J Cancer104,332-337；Piana et al.(2014)Virol J11,190；Pogo and Holland(1997)Biol Trace Elem Res56,131-142；Salmons et al.(2014)J Gen Virol95,2589-2593)。一个研究通过免疫组织化学报道了与对照相比乳腺癌患者的活组织检查样本中高得多比率的HCMV感染(97％)(Harkins LE,Matlaf LA,Soroceanu L,Klemm K,Britt WJ,Wang W,Bland KI,&Cobbs CS(2010)Herpesviridae1,8)。其它已经通过PCR报告了来自乳腺癌样品的EBV DNA并且表明了EBV与更严重形式的乳腺癌的关联性(Alibek et al.(2013)Infect Agent Cancer8,32；Amarante and Watanabe(2009)J Cancer Res Clin Oncol135,329-337；Mazouni et al.(2011)Br J Cancer104,332-337)。检查1,535个病例的研究显示了EBV与增加的乳腺癌风险的显著关联性(Huo et al.(2012)PLoS One7,e31656)。如通过PCR测定以及通过免疫组织化学确认的，在22％的109份乳腺癌样品中报告了来自T抗原基因的SV40 DNA序列(Alibek et al.(2013)Infect Agent Cancer8,32)。另外，通过PCR在123个乳腺癌病例的23％中检测出另一种多瘤病毒JCV(Hachana et al.(2012)Breast Cancer Res Treat133,969-977)。此外，已经表明了高风险HPV与乳腺癌的关联性(Simoes et al.(2012)Int JGynecol Cancer22,343-347)。最近的研究通过PCR在15％的三阴性乳腺癌患者(40个病例)而未在40个非三阴性病例中检测出HPV(Hachana et al.(2012)Breast Cancer ResTreat133,969-977)。检测的最常见基因型是HPV-16(28.6％)，并且其它是HPV-31、-45、52、-6、-66(Piana et al.(2014)Virol J11,190)。

其它研究已经提出了β-逆转录病毒人乳癌病毒(HMTV)和乳腺癌之间的关联性。这是由于在乳腺癌样品而未在正常组织中检测到MMTV样序列(Pogo BG&Holland JF(1997)Biol Trace Elem Res56,131-142)；HMTV与MMTV具有95％序列同源性(Bittner andImagawa(1953)Cancer Res13,525-528)。来自患有乳腺癌的患者的env、gag和sag HMTV基因序列已经被克隆并测序，其表明在乳腺癌患者中存在此病毒(Zenit-Zhuravleva et al.(2012)European Journal of Cancer 48)。已经通过研究表明多种病毒可以在相同的乳腺癌样品中共存：所述研究显示了EBV(68％)、HPV(50％)和MMTV(78％)的存在和共存(Alibeket al.(2013)Infect Agent Cancer8,32)。总之，这些数据表明肿瘤组织中病毒的实质性存在。TNBC的PathoChip筛查指示许多这些病毒签名，连同细菌、寄生虫和真菌的签名的存在，与一种特定的癌症TNBC相关联。

有趣的是TNBC样品落入显示至少两种特定的微生物签名的层次组。一种层次组(组B)在病毒中是流行的：疱疹病毒-签名(主要是β-和γ-疱疹病毒样)；副痘病毒签名(副痘病毒家族样)；黄病毒(丙型肝炎样和GB型肝炎样)；多瘤病毒(JC样、MCPV样和SV40样)；逆转录病毒(MMTV样、HERV-K样、HTLV样)；嗜肝DNA病毒(乙型肝炎样)和***瘤病毒(HPV-2、6b和18样)。此层次组还倾向于在真菌签名中是较高的并且建议匹里虫属、毛孢子菌属、着色芽生菌属、瓶霉菌属和拟青霉属家族的代表。细菌和寄生虫签名可以在两种层次组之间均等地发现。细菌探针包括大量科(放线菌科、柄杆菌科、鞘氨醇杆菌科、肠杆菌科、普氏菌科、布鲁氏杆菌科、芽孢杆菌科、消化链球菌科、黄杆菌科)的代表，其中的一些已经与癌症相关联，并且寄生虫签名包括鞭虫属(在大部分筛查的TNBC样品中高度检测出)、弓蛔虫属、利什曼原虫属、吸吮线虫属和巴贝虫属家族的代表。事实上，已经存在关于寄生虫与转移性乳腺癌的关联性的一篇报道38。有趣的是相关联的病毒签名可以基于先前的报道提供关于潜在的病原作用的线索。基于层次分析存在两种特定的组的事实表明TNBC基于相关联的微生物的可能的分隔。然而，表征这些组的将来研究将对提供对疾病的进一步理解是至关重要的。

总之，靶向的探针捕获和测序数据支持PathoChip筛查的结果，其表明与正常组织相比，检测的病毒、其它微生物、或它们紧密相关的家族成员的基因组签名与TNBC组织更加频繁地相关联。

将理解无论值和范围被提供在本文的任何地方，由这些值和范围涵盖的所有值和范围意思是涵盖在本发明的范围内。而且，落入这些范围内的所有值，以及值的范围的上限或下限也是本申请预期的。

本领域技术人员将使用不超出常规实验认识到或能够确定本文描述的具体程序、实施方式、权利要求和实施例的众多等价物。这样的等价物被认为在本发明的范围内并且由所附权利要求覆盖。例如，应当理解反应条件的改变——包括但不限于反应时间，反应大小/体积，和实验试剂，比如溶剂、催化剂、压力，其使用本领域知晓的替代方案并且使用不超出常规实验——在本申请的范围内。

本文引用的每个专利、专利申请和出版物的公开内容由此通过引用以其全部并入本文。虽然已经参考具体的实施方式公开了本发明，但明显的是，本领域其它技术人员可以设想本发明的其它实施方式和变型，而不背离本发明的真实精神和范围。所附权利要求意欲解释为包括所有这样的实施方式和等价变型。

序列表

<110> 宾夕法尼亚大学

E·S·罗伯逊

J·埃尔温

<120> 用于检测乳腺癌的宏基因组组合物和方法

<130> 046483-7076WO1 (01123)

<150> 美国临时申请号62/150,126

<151> 2015-04-20

<160> 160

<170> PatentIn version 3.5

<210> 1

<211> 45

<212> DNA

<213> 探针

<400> 1

tttctcgctc tcacccttaa cccgctggcg cgcctgcacc atctt 45

<210> 2

<211> 45

<212> DNA

<213> 探针

<400> 2

cccgcactga caccacacgt catgcgcccc cttgatttgc agtct 45

<210> 3

<211> 54

<212> DNA

<213> 探针

<400> 3

gatgaattta cagacgcaca ccggaatgca taagcaacca aacgggatat aaag 54

<210> 4

<211> 53

<212> DNA

<213> 探针

<400> 4

accatgaaca aaactacagg aatcaagaac aaaacggaag gagcaggatc tac 53

<210> 5

<211> 45

<212> DNA

<213> 探针

<400> 5

caaaaacacg gcaggagggg cctttttcca cgagtaagac tccat 45

<210> 6

<211> 52

<212> DNA

<213> 探针

<400> 6

cttctaaact gtcgtttgat gcactagacg cacccccgac tcaaattata ga 52

<210> 7

<211> 45

<212> DNA

<213> 探针

<400> 7

gtaaaaccac cactcgttgg caccctgctt caccgcaact cccaa 45

<210> 8

<211> 45

<212> DNA

<213> 探针

<400> 8

gcggccctcc tcgccgccca agaaggccac ggggatctcc ttgta 45

<210> 9

<211> 45

<212> DNA

<213> 探针

<400> 9

ctatatagca ggagagggag acccgacagc cggtgttttt gaaca 45

<210> 10

<211> 45

<212> DNA

<213> 探针

<400> 10

gcagcgcgtg gccctgccag tcgccgcagt cgcaccacac gtcgt 45

<210> 11

<211> 45

<212> DNA

<213> 探针

<400> 11

ctttgtctcc aaggggaccc cgcgccgcgc cgtctgctac atcat 45

<210> 12

<211> 45

<212> DNA

<213> 探针

<400> 12

cttaaacgga cagcccctgg gagaaacctc ctactacggc ggttg 45

<210> 13

<211> 45

<212> DNA

<213> 探针

<400> 13

aaacccctcg agccgatcct cgtccgtgtc gctgttccag aacca 45

<210> 14

<211> 45

<212> DNA

<213> 探针

<400> 14

accaggaagg accaggcaaa caccaacgcc cgcttcgaga acacg 45

<210> 15

<211> 45

<212> DNA

<213> 探针

<400> 15

gcgaggagca gcaggatcag gtcggcgtgt ccccacgcgt ccgcg 45

<210> 16

<211> 45

<212> DNA

<213> 探针

<400> 16

ctgcacgaag aggatcgccc cggcgcccgt ctcccacgcc gcggg 45

<210> 17

<211> 45

<212> DNA

<213> 探针

<400> 17

gagatcgtgc cctcgacgcc cgccatgctg ggcctgggga cccgc 45

<210> 18

<211> 45

<212> DNA

<213> 探针

<400> 18

ctgcgtcacc tgccggcgcg cgcgggcgtg gcgggccgtt aaaag 45

<210> 19

<211> 45

<212> DNA

<213> 探针

<400> 19

gaagacgctg atgaaccacg agggcgaggt ggggcagagg aagac 45

<210> 20

<211> 45

<212> DNA

<213> 探针

<400> 20

ctggatctgc tcctccaggc acttgatgac ctgcttctta aacag 45

<210> 21

<211> 45

<212> DNA

<213> 探针

<400> 21

gctcctggca aactatgtca ccaggctccc caaccagaga aacgc 45

<210> 22

<211> 46

<212> DNA

<213> 探针

<400> 22

tatttgcaaa gggaggcgag gagatggagt gactgaagga gcgata 46

<210> 23

<211> 45

<212> DNA

<213> 探针

<400> 23

atctctgccg ccatcccggc caggaaggcc tcgatgaccg agtct 45

<210> 24

<211> 51

<212> DNA

<213> 探针

<400> 24

caacctctgc tcccctctat tctcctcttg cgttatctcc aatagaattt g 51

<210> 25

<211> 45

<212> DNA

<213> 探针

<400> 25

gaacagaccg actccgggcg cgaggaggac gcacaggaga gcgag 45

<210> 26

<211> 45

<212> DNA

<213> 探针

<400> 26

cgtccaccgt ccctctcacc cccactcgaa tcgcgcaggc gcgtc 45

<210> 27

<211> 45

<212> DNA

<213> 探针

<400> 27

ggcaagcacc tcgtttattg ggaccggggc tgtccggcgt ctatt 45

<210> 28

<211> 45

<212> DNA

<213> 探针

<400> 28

caatcagtgc gcccgatctc ccggccactg aaccacaacg gcatg 45

<210> 29

<211> 45

<212> DNA

<213> 探针

<400> 29

agcacaacgc agactccgcc tagactcccg cctccatccg ctgac 45

<210> 30

<211> 45

<212> DNA

<213> 探针

<400> 30

ataggccaga gccacttcca gaagcgcagc aagataaagg tgaac 45

<210> 31

<211> 45

<212> DNA

<213> 探针

<400> 31

caaacacaac gtgacccccc gggagaccgt cctggatggc gatac 45

<210> 32

<211> 54

<212> DNA

<213> 探针

<400> 32

ataataaaaa cgataacaca gaagacccca cacaccttgt tgcatctagg ctgc 54

<210> 33

<211> 57

<212> DNA

<213> 探针

<400> 33

attttatcca accggcacca aacagggtag acttgttatt caaagatata cccgaat 57

<210> 34

<211> 45

<212> DNA

<213> 探针

<400> 34

ctacacggtg gacacccggg ccggagagcg cacccgcgtt ccact 45

<210> 35

<211> 45

<212> DNA

<213> 探针

<400> 35

cacaggcggc gtggcgatcc tgccctcatc cgtctcgctt aatcg 45

<210> 36

<211> 50

<212> DNA

<213> 探针

<400> 36

aaacaagcag acatgatgat gagcatgggg agacattagt gtggcagttt 50

<210> 37

<211> 50

<212> DNA

<213> 探针

<400> 37

cagaaactac tacaggcccg aggacacact aatagccctc taggagatat 50

<210> 38

<211> 45

<212> DNA

<213> 探针

<400> 38

cataccactc taaaccctgc aatcctgccc agccagtttg ttcat 45

<210> 39

<211> 45

<212> DNA

<213> 探针

<400> 39

ccaacattcc accctccttc ctccaggcca tgcgcaaata ctccc 45

<210> 40

<211> 45

<212> DNA

<213> 探针

<400> 40

gtcatggccc ggcgctgcgc ccgcagcagc acgcaccgct ccatg 45

<210> 41

<211> 45

<212> DNA

<213> 探针

<400> 41

gacgtggtgc ggtcgctcat cacctccacg ctgcagcggg ccggc 45

<210> 42

<211> 45

<212> DNA

<213> 探针

<400> 42

gttcttccgg aagacgaccc gctccacggc gtccaccatg tccac 45

<210> 43

<211> 45

<212> DNA

<213> 探针

<400> 43

ctgctccggc actccaccga gcgccgccac ctattcgtcg acttc 45

<210> 44

<211> 60

<212> DNA

<213> 探针

<400> 44

taatatcttc tggaaggttt gtattctgaa tggatccacc atctgccata atcctattct 60

<210> 45

<211> 60

<212> DNA

<213> 探针

<400> 45

taaagacact ccacatgccg tcactacctc cgttagaaga catattaata agacttaaga 60

<210> 46

<211> 47

<212> DNA

<213> 探针

<400> 46

taatagagga aatcccaccg cctttctgga tctcaccaac gacgata 47

<210> 47

<211> 45

<212> DNA

<213> 探针

<400> 47

gatgatgccc ttggcctcgc ggtcgaagac ggccacctcg ctcac 45

<210> 48

<211> 45

<212> DNA

<213> 探针

<400> 48

agacacttga agtcgacgcc ggactcgccg cgcagcaccg agcgc 45

<210> 49

<211> 45

<212> DNA

<213> 探针

<400> 49

tatggattcg gctatccagt ccttgaccga gcccacgatg cccgc 45

<210> 50

<211> 45

<212> DNA

<213> 探针

<400> 50

gtccgcgtag cccgcgccca cggccttgcc gcagtccgcg atcat 45

<210> 51

<211> 48

<212> DNA

<213> 探针

<400> 51

gaagagtttt cacaaaaagt tttcgggagg agaggctgac ctaccttc 48

<210> 52

<211> 45

<212> DNA

<213> 探针

<400> 52

ggcgggaggg aggggtctcg actgcgggcg gtcctttttc acttt 45

<210> 53

<211> 45

<212> DNA

<213> 探针

<400> 53

gatcaagaac aagacgcgcg tgcccttcct gctgctctcg gcctc 45

<210> 54

<211> 45

<212> DNA

<213> 探针

<400> 54

aacgaccctg gctaccactc gcgggagact ctctgcagcg gacct 45

<210> 55

<211> 58

<212> DNA

<213> 探针

<400> 55

tctttctctt cttcgctaca tctgatgtcg atagacacct cacagtcttt gatcatag 58

<210> 56

<211> 56

<212> DNA

<213> 探针

<400> 56

ctatcaataa ctggcacaac aataacagga gttttcgccg ccgccattta gttatt 56

<210> 57

<211> 60

<212> DNA

<213> 探针

<400> 57

attacgaaga agacgacgag gacggagacg gtagaataag tgtagcaaat aaaatctata 60

<210> 58

<211> 45

<212> DNA

<213> 探针

<400> 58

taacagccag taaacaaagc acaaggggaa gtggaaagca gccaa 45

<210> 59

<211> 45

<212> DNA

<213> 探针

<400> 59

cgtccggtct ccataacaac acatcctccc gctctgtgtt ctcac 45

<210> 60

<211> 48

<212> DNA

<213> 探针

<400> 60

ttagactcta caaaaggcag gagatgaggg acatgacaat ggctcagt 48

<210> 61

<211> 45

<212> DNA

<213> 探针

<400> 61

cttgacattg tgtgtcctgc ctgtgccaag caacgagaac gaaat 45

<210> 62

<211> 55

<212> DNA

<213> 探针

<400> 62

gttaaagaag caaactatgt taaaccacca gcaggaggca gacacctttg aatta 55

<210> 63

<211> 52

<212> DNA

<213> 探针

<400> 63

atgagacaga ggaagaaggg gactggaagg ttattgcaaa cttccttaga ta 52

<210> 64

<211> 58

<212> DNA

<213> 探针

<400> 64

atatgatgga aattgggttt ggggctgcaa atttcaaggc cttaaatcag tctaaatc 58

<210> 65

<211> 50

<212> DNA

<213> 探针

<400> 65

atagatgagg aaggggactg gaagcacata gggaactttc ttagattcca 50

<210> 66

<211> 45

<212> DNA

<213> 探针

<400> 66

gactgtggag gagggtgcag gatagagtct ggaaagattg tctct 45

<210> 67

<211> 45

<212> DNA

<213> 探针

<400> 67

gcactccttg agcctctccc ccttgaccct catcttcttg acaag 45

<210> 68

<211> 45

<212> DNA

<213> 探针

<400> 68

agatctctcc gggtggctcc tgttgaccgg ggtggccgtc cagtt 45

<210> 69

<211> 45

<212> DNA

<213> 探针

<400> 69

atcaagatga gcaagattgg aaagggctgc accctcgtca tggcg 45

<210> 70

<211> 50

<212> DNA

<213> 探针

<400> 70

tttccataga cgacgtggac gcgtttgtgt ctgttttgac ggtttttaaa 50

<210> 71

<211> 45

<212> DNA

<213> 探针

<400> 71

acatccatgg ctcgccgtct gcttctctgc cgctcgtggt gccga 45

<210> 72

<211> 45

<212> DNA

<213> 探针

<400> 72

ggacgctgct acaaccaccg tgtcgtccgc gttcgtcgtc cccag 45

<210> 73

<211> 45

<212> DNA

<213> 探针

<400> 73

gtctcgcggc ggctccctct cggcggctcc ggttgggctc ccctc 45

<210> 74

<211> 45

<212> DNA

<213> 探针

<400> 74

gaccacatcc cgctcctgct catcgtcacg cccgtggtct ttgac 45

<210> 75

<211> 45

<212> DNA

<213> 探针

<400> 75

aaaggggttg gacatgaagg aggacacgcc cgacacggcc gatac 45

<210> 76

<211> 45

<212> DNA

<213> 探针

<400> 76

atcccctcga agaacgcgcc caggcccgca aacatggcgg cgttg 45

<210> 77

<211> 45

<212> DNA

<213> 探针

<400> 77

gaccccaggc gtgccggggg aactcggagc cgccgacgcc accag 45

<210> 78

<211> 45

<212> DNA

<213> 探针

<400> 78

cggagtggca gggcccccgt tcgccgcctg ggtcgcggcc gcgac 45

<210> 79

<211> 45

<212> DNA

<213> 探针

<400> 79

atatacctcc cgaacaccat gaggaaccca cctcatcctc tggat 45

<210> 80

<211> 46

<212> DNA

<213> 探针

<400> 80

tctggatcca gtagcagaga ggagaccacc aattcaggaa gagaat 46

<210> 81

<211> 49

<212> DNA

<213> 探针

<400> 81

gtttacagat taggaataca tatcctcctc cttcaccacc ccgaagacc 49

<210> 82

<211> 45

<212> DNA

<213> 探针

<400> 82

gaatatgggc ccaatccaca cggggccaac tcaagatcca gaaag 45

<210> 83

<211> 45

<212> DNA

<213> 探针

<400> 83

tatgatcatg aacagactgt gaggactgag gggcctgaaa tgagc 45

<210> 84

<211> 45

<212> DNA

<213> 探针

<400> 84

taattaacag gaggacacag agggtggatg ggcagcctat gattg 45

<210> 85

<211> 54

<212> DNA

<213> 探针

<400> 85

agcagtagcc tcatcatcac tagatggcat ttcttctgag caaaacaggt tttc 54

<210> 86

<211> 51

<212> DNA

<213> 探针

<400> 86

ttcaggggga ggtgtgggag gttttttaaa gcaagtaaaa cctctacaaa t 51

<210> 87

<211> 51

<212> DNA

<213> 探针

<400> 87

ttttcctcat taaaggcatt ccaccactgc tcccattcat cagttccata g 51

<210> 88

<211> 45

<212> DNA

<213> 探针

<400> 88

aacgcgtcac ctcatccgcc cgatggctat ccaaaaccgc cacct 45

<210> 89

<211> 45

<212> DNA

<213> 探针

<400> 89

cttcggtcca aacaactcac ctgctccgaa atccgaatct tccaa 45

<210> 90

<211> 45

<212> DNA

<213> 探针

<400> 90

ttcaacacct cctccgaact cgcccctttt cctccttccg cgtct 45

<210> 91

<211> 45

<212> DNA

<213> 探针

<400> 91

gagaaaccag caacggagcg gcgaatcgac aagggagaaa caact 45

<210> 92

<211> 45

<212> DNA

<213> 探针

<400> 92

ctcatcgacc acctgctgca gagccagcgg cccatcaccc gcaag 45

<210> 93

<211> 45

<212> DNA

<213> 探针

<400> 93

cgtgagttag gtcgagcaga gccaaagccc ccggtgcttc gtcgc 45

<210> 94

<211> 45

<212> DNA

<213> 探针

<400> 94

ttgccttgcg ccttccctga ccagggggtg agtttttctc caaaa 45

<210> 95

<211> 45

<212> DNA

<213> 探针

<400> 95

gagagtgtcc tacacttagg ggagaagcag ccaaggggtt gtttc 45

<210> 96

<211> 45

<212> DNA

<213> 探针

<400> 96

accttcctcc tgaggcaagg accacagcca acttcctctt acaag 45

<210> 97

<211> 45

<212> DNA

<213> 探针

<400> 97

caggagcgat ggcagaggcc agggaaaaag gagatttgac tttta 45

<210> 98

<211> 59

<212> DNA

<213> 探针

<400> 98

gaaagatttt tcattatacc aaggaggggg cagtggctag acaattagaa cacatttct 59

<210> 99

<211> 48

<212> DNA

<213> 探针

<400> 99

aacagtaaac cctgttccga ctactgcctc acccatatcg tcaatctt 48

<210> 100

<211> 46

<212> DNA

<213> 探针

<400> 100

gcgctttcca ccggatactc tggcaacttt gactcagtta ctgatt 46

<210> 101

<211> 45

<212> DNA

<213> 探针

<400> 101

tctcttgcct gactgtgccc gcttcagcct accaagtgcg caatt 45

<210> 102

<211> 45

<212> DNA

<213> 探针

<400> 102

gcaggagatg ggcggcaaca tcaccagggt tgagtcagag aacaa 45

<210> 103

<211> 45

<212> DNA

<213> 探针

<400> 103

acccatacca gggtctcgcc cagtggcacg cctaggatta tatag 45

<210> 104

<211> 45

<212> DNA

<213> 探针

<400> 104

gaagaaacac agacgactat ccagcgacca agatcagagc cagac 45

<210> 105

<211> 47

<212> DNA

<213> 探针

<400> 105

acacatctgc ttgtgctact gctcttcctg tggctctctc aactaac 47

<210> 106

<211> 45

<212> DNA

<213> 探针

<400> 106

tagacctaaa cagtccagag gagcaggacg acaatggaaa cactg 45

<210> 107

<211> 45

<212> DNA

<213> 探针

<400> 107

caccataggc cctcgcaaac gttctgctcc atctgccact acgtc 45

<210> 108

<211> 45

<212> DNA

<213> 探针

<400> 108

tttccaaagc ctctgctgcc cctaaacgta agcgcgccaa aacta 45

<210> 109

<211> 45

<212> DNA

<213> 探针

<400> 109

gtccaaggca ccctgggtcc tcttacgaat gtctgactac ttcag 45

<210> 110

<211> 45

<212> DNA

<213> 探针

<400> 110

gtaagaggga gacccaaagg cggcggcact aaagattgtt ctggt 45

<210> 111

<211> 45

<212> DNA

<213> 探针

<400> 111

ttcttgaaaa ggacgaccag cacatggagc agcaggttat ggcaa 45

<210> 112

<211> 45

<212> DNA

<213> 探针

<400> 112

agtcatccct gttacagtct ccgggaaggg cctttgcacc cgtta 45

<210> 113

<211> 45

<212> DNA

<213> 探针

<400> 113

gaatccctta aagccagtct cagttcggat tggggtctgc aactc 45

<210> 114

<211> 45

<212> DNA

<213> 探针

<400> 114

cgtggcctaa ctcgtttgag ggggagcgga cgaaggtggg attag 45

<210> 115

<211> 45

<212> DNA

<213> 探针

<400> 115

gaatccctta aagccagtct cagttcggat tggggtctgc aactc 45

<210> 116

<211> 54

<212> DNA

<213> 探针

<400> 116

gagttgcaga ggacaatccg aactgagaca attttaagga ttaaccctct gtag 54

<210> 117

<211> 45

<212> DNA

<213> 探针

<400> 117

aaagccacgt ctccgtgcgg tccaggcatg tcaaaaggtg gtaag 45

<210> 118

<211> 45

<212> DNA

<213> 探针

<400> 118

caactcgacc ccatgaagtt ggagtcgcta gtaatcgcag atcag 45

<210> 119

<211> 45

<212> DNA

<213> 探针

<400> 119

gaatctcaaa aagccagtct cagttcggat tggggtctgc aactc 45

<210> 120

<211> 55

<212> DNA

<213> 探针

<400> 120

aatatgatgc taatctctaa aagccattca cagttcggat tggggtctgc aactc 55

<210> 121

<211> 45

<212> DNA

<213> 探针

<400> 121

gggaacttcg gtccttgcgc tatcggatga acccatatgg gatta 45

<210> 122

<211> 45

<212> DNA

<213> 探针

<400> 122

cctgagaggg tgaacggcca cattggaact gagaaacggt ccaaa 45

<210> 123

<211> 54

<212> DNA

<213> 探针

<400> 123

gatagcaagc gaatctcaaa aagcctatct cagttcggat tgttctctgc aact 54

<210> 124

<211> 45

<212> DNA

<213> 探针

<400> 124

caacggccca ccaaggcgac gatcagtagg ggttctgaga ggaag 45

<210> 125

<211> 45

<212> DNA

<213> 探针

<400> 125

gaaccttacc cgggcttgaa ttgcaggtgc tgcccacaga gacgt 45

<210> 126

<211> 45

<212> DNA

<213> 探针

<400> 126

gaatcccaaa aagccgctct cagttcggat tgcaggctgc aactc 45

<210> 127

<211> 45

<212> DNA

<213> 探针

<400> 127

gatcccagac cccggctttg cgccagcaca cgaagcggtt gtaac 45

<210> 128

<211> 45

<212> DNA

<213> 探针

<400> 128

caactcgacc ccatgaagtt ggagtcgcta gtaatcgcag atcag 45

<210> 129

<211> 60

<212> DNA

<213> 探针

<400> 129

gggcgtctaa gttaccaatt ctcgtctgat ggctacatac ggcggtcagt ttacgcttac 60

<210> 130

<211> 45

<212> DNA

<213> 探针

<400> 130

atgaaagccg gcgacacccg aagcccgtgg ccctgtgggg agcgg 45

<210> 131

<211> 45

<212> DNA

<213> 探针

<400> 131

ctaatcccta aaagccggtc tcagttcgga ttggggtctg caact 45

<210> 132

<211> 52

<212> DNA

<213> 探针

<400> 132

gttaagtcct ataacgagcg caacccctgc gaatagttgc catcattaag tt 52

<210> 133

<211> 45

<212> DNA

<213> 探针

<400> 133

cttcttgacc aggctcactt cgccgccgac gggccagcat cgctt 45

<210> 134

<211> 45

<212> DNA

<213> 探针

<400> 134

aaacgaagcc cgggcgagta ggcaggcgcg ggggccgtga cgaag 45

<210> 135

<211> 45

<212> DNA

<213> 探针

<400> 135

ccgcagaggg tgatagcccc gtaaccggcg acagcgaggg agtag 45

<210> 136

<211> 45

<212> DNA

<213> 探针

<400> 136

cgaacgaact gcgaatgagc ctggcgcggc gtgcgtttta atgac 45

<210> 137

<211> 45

<212> DNA

<213> 探针

<400> 137

gatgcgcctc tagaggtagg ggggcggacc gatgctgcag aaggc 45

<210> 138

<211> 45

<212> DNA

<213> 探针

<400> 138

gatagagaaa caggggtgtg ttcctgtccc gcgctgccgt gcggc 45

<210> 139

<211> 46

<212> DNA

<213> 探针

<400> 139

aggtctccta ggtgaatagc ctctggttga tgttgaacgc aggtaa 46

<210> 140

<211> 45

<212> DNA

<213> 探针

<400> 140

cttaatctga ccgccggagg accgcctaat acgggtgttg cctct 45

<210> 141

<211> 45

<212> DNA

<213> 探针

<400> 141

ttgctttggc ggacccgtct cacgaccgcc ctgggaccgc tgaaa 45

<210> 142

<211> 45

<212> DNA

<213> 探针

<400> 142

aaatgacttg gcggcctcgt cgcggccctc ctctgcgtag tatag 45

<210> 143

<211> 45

<212> DNA

<213> 探针

<400> 143

aacttgcttg ccgcgtcctc ctcgcgccct gcaaccaggc ctctc 45

<210> 144

<211> 45

<212> DNA

<213> 探针

<400> 144

ctgctctaag atcttcgctg ctgaggcccg cgccgccgct cttcc 45

<210> 145

<211> 45

<212> DNA

<213> 探针

<400> 145

aaagaagaag ataggggcag agggggagtg agcctcgtcg tcgac 45

<210> 146

<211> 45

<212> DNA

<213> 探针

<400> 146

caacggaatc cagtgcccac cggagcgcca gttcgtgcga gagtt 45

<210> 147

<211> 45

<212> DNA

<213> 探针

<400> 147

cttccgtctc taccctcccg aggcgctttt ctcactgacc gactt 45

<210> 148

<211> 45

<212> DNA

<213> 探针

<400> 148

actctcacgc ccacccgcac ggctgctccg agggaggggc tctct 45

<210> 149

<211> 57

<212> DNA

<213> 探针

<400> 149

acgacgacaa cgcacagaaa tattagtagt aaaccggctg ctcattggaa atacttt 57

<210> 150

<211> 45

<212> DNA

<213> 探针

<400> 150

aattcgggcg tgtttttcac caaatcccac atggccgggc tacta 45

<210> 151

<211> 52

<212> DNA

<213> 探针

<400> 151

cgacaacgac aactctatga taatagactt gtgttccgac gcgcgcataa tc 52

<210> 152

<211> 45

<212> DNA

<213> 探针

<400> 152

gtttgtttat gatcttggag gcggacaagg cggtgttgtt gtgtg 45

<210> 153

<211> 45

<212> DNA

<213> 探针

<400> 153

tatttcatca caacgttgtt gcacatgagc aggctggaca cgacc 45

<210> 154

<211> 47

<212> DNA

<213> 探针

<400> 154

aaactttttt actgccgtct ttgttacacg cacgccgact ggttgtg 47

<210> 155

<211> 45

<212> DNA

<213> 探针

<400> 155

gcgtggtgac cgagaccgct gtagatggcc ctgatgcagt gatcc 45

<210> 156

<211> 45

<212> DNA

<213> 探针

<400> 156

ctcgtggctg tggggtgcca gatctgtggc gtttccctaa catat 45

<210> 157

<211> 49

<212> DNA

<213> 探针

<400> 157

taaccataaa cgatgccgac tagagattgg aggtcgtcag tttgaacga 49

<210> 158

<211> 49

<212> DNA

<213> 探针

<400> 158

taacccgttg aaaatcctcc gtgatcggga tcgggaattg caattattt 49

<210> 159

<211> 51

<212> DNA

<213> 探针

<400> 159

ctaattccga tatcgaacga gactctggcc tactaactag cggcggtatt a 51

<210> 160

<211> 60

<212> DNA

<213> 探针

<400> 160

ctcgccggcc cgccgccgat gatgatgatg aagcgacagc ctccaacaac aataatgata 60

Claims

1.检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法，所述方法包括：

使来自所述肿瘤组织样品的可检测标记的核酸杂交至PathoChip阵列以生成第一杂交图谱；

使来自参考样品的可检测标记的核酸杂交至PathoChip阵列以生成第二杂交图谱，其中所述参考样品来自其它方面相同的来自对象的非肿瘤组织；

比较所述第一杂交图谱和第二杂交图谱，其中当所述第一杂交图谱基本上是微生物杂交签名并且所述第二杂交图谱基本上不是微生物杂交签名时，在所述肿瘤组织样品中检测到三阴性乳腺癌。

2.权利要求1所述的方法，其中通过使来自所述肿瘤组织样品的所述可检测标记的核酸杂交至所述PathoChip上的至少三种核酸探针来生成所述微生物杂交签名，其中所述探针来自选自如下的微生物：小鼠乳癌病毒(MMTV)、人嗜T淋巴细胞病毒I型(HTLV-1)、弗吉纳米肿瘤病毒(FSV)、猿猴病毒40(SV40)、JC病毒(JC)、美克耳细胞多瘤病毒(MCPV)、人巨细胞病毒(HCMV)、EB病毒(EBV)、卡波西肉瘤相关疱疹病毒(KSHV)、人***瘤病毒16(HPV16)、人***瘤病毒6b(HPV6b)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV-1)、牛丘疹性口炎病毒(BPSV)、假牛痘病毒(PCP)、沙鼠痘病毒(Tatera)、口疮病毒(Orf)、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠埃希氏杆菌(大肠杆菌)、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马梨浆虫(马巴贝虫)、吸吮线虫属某种或并殖吸虫属某种。

3.权利要求1所述的方法，其中通过使来自所述肿瘤组织样品的所述可检测标记的核酸杂交至所述PathoChip上的至少三种核酸探针来生成所述第一杂交图谱，其中所述探针选自SEQ ID NO:1-160。

4.检测来自对象的肿瘤组织样品中的三阴性乳腺癌的方法，所述方法包括：

使来自所述肿瘤组织样品的可检测标记的核酸杂交至第一微阵列以生成第一杂交图谱，所述第一微阵列包括至少三种选自SEQ ID NO:1-160的核酸探针；

使来自参考样品的可检测标记的核酸杂交至第二微阵列以生成第二杂交图谱，所述第二微阵列包括至少三种选自SEQ ID NO:1-160的核酸探针，其中所述参考样品来自其它方面相同的来自对象的非肿瘤组织；

5.权利要求1-4中任一项所述的方法，其中所述肿瘤组织样品选自活组织检查，***-固定、石蜡-包埋的(FFPE)样品，或非实体瘤。

6.权利要求1-5中任一项所述的方法，其中所述对象是人。

7.权利要求1-6中任一项所述的方法，其中使用荧光团、放射性磷酸盐、生物素或酶标记所述可检测标记的核酸。

8.权利要求7所述的方法，其中所述荧光团是Cy3或Cy5。

9.权利要求1-8中任一项所述的方法，进一步包括其中当在来自对象的所述肿瘤组织样品中检测到三阴性乳腺癌时，给所述对象提供用于三阴性乳腺癌的治疗。

10.权利要求9所述的方法，其中所述治疗包括外科手术、化学疗法或放射疗法。

11.组合物，其包括至少三种选自SEQ ID NO:1-160的核酸探针。

12.微阵列，其包括至少三种选自SEQ ID NO:1-160的核酸探针。

13.权利要求12所述的微阵列，其中所述核酸探针选自大约10至大约30种微生物并且包括大约3至大约5种探针/微生物。

14.微阵列，其包括至少三种核酸探针，所述核酸探针选自如下的微生物：MMTV、HTLV-1、FSV、SV40、JC、MCPV、HCMV、EBV、KSHV、HPV16、HPV6b、HBV、HCV-1、BPSV、PCP Tatera、Orf、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠杆菌、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马巴贝虫、吸吮线虫属某种、并殖吸虫属某种。

15.权利要求12-14中任一项所述的组合物，其中所述微阵列是生物芯片、载玻片、珠或纸。

16.试剂盒，其包括至少三种选自SEQ ID NO:1-160的核酸探针，和其使用说明材料。

17.试剂盒，其包括微阵列和其使用说明材料，所述微阵列包括至少三种选自SEQ IDNO:1-160的核酸探针。

18.试剂盒，其包括微阵列，所述微阵列包括至少三种核酸探针，所述核酸探针选自如下的微生物：MMTV、HTLV-1、FSV、SV40、JC、MCPV、HCMV、EBV、KSHV、HPV16、HPV6b、HBV、HCV-1、BPSV、PCP Tatera、Orf、隐秘杆菌属、短波单胞菌属某种、鞘氨醇杆菌属、普罗威登斯菌属、普氏菌属、布鲁氏杆菌属、大肠杆菌、放线菌属、动弯杆菌属、丙酸杆菌属、地芽孢杆菌属、罗氏菌属、嗜胨菌属、嗜二氧化碳噬细胞菌属、匹里虫属、毛孢子菌属、产色芽生菌属、瓶霉菌属、拟青霉属、鞭虫属某种、弓蛔虫属某种、利什曼原虫属某种、马巴贝虫、吸吮线虫属某种、并殖吸虫属某种。

19.权利要求16-18中任一项所述的试剂盒，其中所述核酸探针选自大约10至大约30种微生物并且包括大约3至大约5种探针/微生物。