CN111627492B

CN111627492B - 癌症基因组Hi-C数据仿真方法、装置和电子设备

Info

Publication number: CN111627492B
Application number: CN202010447104.2A
Authority: CN
Inventors: 陈河兵; 洪浩; 李�昊; 江帅; 杜桂芳; 陶欢; 孙昱; 王军婷; 许康; 伯晓晨
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-04-28
Anticipated expiration: 2040-05-25
Also published as: CN111627492A

Abstract

本申请实施例提供了一种癌症基因组Hi‑C数据仿真方法、装置和电子设备，涉及基因组学技术领域。该方法可通过指定的变异方式，模拟癌症基因组的染色体结构变异，以交互频率矩阵和参考酶切片段的基因信息作为模板，结合所述染色体结构变异特征得到所述癌症基因组的仿真Hi‑C数据，支持模拟染色体多种变异情况，可反映癌症基因组不同位置的互作特征，从而提高了对癌症基因组Hi‑C数据进行仿真的准确性。

Description

癌症基因组Hi-C数据仿真方法、装置和电子设备

技术领域

本申请涉及基因组学技术领域，具体而言，涉及一种癌症基因组Hi-C数据仿真方法、装置和电子设备。

背景技术

高通量染色体构象捕获技术(High-throughput chromosome conformationcapture，Hi-C)是利用高通量测序技术，结合生物信息学分析方法，研究全基因组范围内整个染色质脱氧核糖核酸(DeoxyriboNucleic Acid，DNA)在空间位置上的关系，构建染色体跨度单体型，同时捕获不同基因座位之间的空间交互信息，获得高分辨率的染色质三维结构信息，并能开发调控基因的DNA元件的技术。

基于Hi-C技术得到的Hi-C测序数据表示了所有酶切片段间的互作频率图谱，后续可转化为交互矩阵等形式，以用于三维基因组学分析。癌症细胞系的基因组存在着复杂的染色体结构变异，染色体结构的变异改变了不同染色体区间的测序可及性(测序深度)及原有的三维结构，因此其Hi-C数据也会产生相应的变化。

目前，一般通过基于染色体互作频率随基因组距离增加而下降的平均衰退曲线模拟癌症基因组的Hi-C数据，但是这种方法不能反映不同基因组位置的特异性互作特征，同时，可模拟的结构变异情形有限，不能支持模拟染色体倒转或者多个易位染色体连续连接等复杂情形。

发明内容

有鉴于此，本申请提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备，以解决上述问题。

本申请的实施例可以这样实现：

第一方面，本申请实施例提供一种癌症基因组Hi-C数据仿真方法，应用于电子设备，所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系，所述方法包括:

响应操作指令，对所述参考基因组进行染色体结构变异，得到癌症基因组和所述癌症基因组的染色体结构变异特征；

响应酶切指令，对所述癌症基因组进行切割，得到多个癌症酶切片段；

获取所述多个参考酶切片段的基因信息；

根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据。

在可选的实施方式中，所述多个参考酶切片段和所述交互频率矩阵是按照以下方式进行建立的：

获取参考基因组、所述参考基因组对应的多个酶切片段及非癌症细胞系的Hi-C数据；

将所述非癌症细胞系的Hi-C数据与所述参考基因组进行序列比对，得到多个参考测序片段，其中，每个所述参考测序片段均包括两个连接的酶切片段；

根据每个所述参考测序片段中包括的两个酶切片段的互作关系，建立所述交互频率矩阵；

将所有酶切片段中未在任意一个参考测序片段中出现的酶切片段去除，得到多个所述参考酶切片段。

在可选的实施方式中，所述根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据的步骤包括：

根据所述交互频率矩阵和所述染色体结构变异特征，计算每个所述癌症酶切片段的概率分布；

基于每个所述癌症酶切片段的概率分布，对每个所述癌症酶切片段进行模拟测序，得到多个癌症测序片段，其中，每个所述癌症测序片段均包括两个连接的癌症酶切片段；

根据每个所述癌症测序片段中包括的两个癌症酶切片段，得到每个所述癌症酶切片段之间的互作关系；

获取所述多个参考酶切片段的基因信息；

根据所述基因信息以及所述多个癌症酶切片段之间的互作关系，得到所述癌症基因组的仿真Hi-C数据。

在可选的实施方式中，所述概率分布包括第一概率分布和第二概率分布；

所述根据所述交互频率矩阵和所述染色体结构变异特征，计算每个癌症酶切片段的概率分布的步骤包括：

根据所述染色体结构变异特征，确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数；

根据所述交互频率矩阵，计算每个所述参考酶切片段的初始概率分布；

根据所述对应关系，将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布；

将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积，作为每个所述癌症酶切片段的中间采样频率；

对所有所述中间采样频率进行归一化处理，得到每个所述癌症酶切片段的第一概率分布；

在所述交互频率矩阵中，查找每个所述癌症酶切片段所在的列；

查找该列中对应的第一概率分布，并利用每个所述癌症酶切片段所在列的列向量除以该第一概率分布，得到每个所述癌症酶切片段的第二概率分布。

在可选的实施方式中，所述基于所述概率分布，对所述癌症酶切片段进行模拟测序，得到多个癌症测序片段的步骤包括：

基于所述第一概率分布，按照蒙特卡洛采样法对所述癌症基因组包括的所有癌症酶切片段进行采样，得到每个所述癌症测序片段的第一端的第一癌症酶切片段；

当确定存在与任意一个参考酶切片段一致的第一癌症酶切片段时，基于所述第二概率分布，按照蒙特卡洛采样法对所述癌症基因组包括的所有癌症酶切片段进行采样，得到每个所述癌症测序片段的第二端的第二癌症酶切片段；

当确定不存在与任意一个参考酶切片段一致的第一癌症酶切片段时，基于所述染色体结构变异特征，查找所述交互频率矩阵，得到每个所述癌症测序片段的第二端的第二癌症酶切片段；

对每个所述第一癌症酶切片段和每个所述第二癌症酶切片段进行拼接，得到多个癌症测序片段。

在可选的实施方式中，所述染色体结构变异特征包括拷贝数变异、删除、易位和倒转中的至少一种。

在可选的实施方式中，所述基因信息包括每个参考酶切片段的正链信息、负链信息及每个参考酶切片段与酶切位点之间的距离信息。

第二方面，本申请实施例还提供了一种癌症基因组Hi-C数据仿真装置，应用于电子设备，所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系，所述装置包括：

第一响应模块，用于响应操作指令，对所述参考基因组进行染色体结构变异，得到癌症基因组和所述癌症基因组的染色体结构变异特征。

第二响应模块，用于响应酶切指令，对所述癌症基因组进行切割，得到多个癌症酶切片段。

获取模块，用于获取所述多个参考酶切片段的基因信息。

仿真模块，用于根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括处理器、存储器及总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器及所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述的癌症基因组Hi-C数据仿真方法的步骤。

第四方面，本申请实施例还提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，计算机程序被执行时实现上述的癌症基因组Hi-C数据仿真方法。

本申请实施例提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备，该方法根据用户指定的变异方式，模拟癌症基因组的染色体结构变异，以交互频率矩阵和参考酶切片段的基因信息作为模板，结合所述染色体结构变异特征得到所述癌症基因组的仿真Hi-C数据，支持模拟染色体多种变异情况，可反映癌症基因组不同位置的互作特征，从而提高了对癌症基因组Hi-C数据仿真的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构框图。

图2为本申请实施例提供的癌症基因组Hi-C数据仿真方法的流程图之一。

图3为本申请实施例提供的癌症基因组Hi-C数据仿真方法的示意图之二。

图4为本申请实施例提供的癌症基因组Hi-C数据仿真方法的子步骤示意图。

图5为本申请实施例提供的癌症基因组Hi-C数据仿真装置的功能模块框图。

图标：100-电子设备；110-存储器；120-处理器；130-癌症基因组Hi-C数据仿真装置；131-第一响应模块；132-第二响应模块；133-获取模块；134-仿真模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以用各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

如背景技术所介绍，高通量染色体构象捕获技术是利用高通量测序技术，结合生物信息学分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，构建染色体跨度单体型，同时捕获不同基因座位之间的空间交互信息，获得高分辨率的染色质三维结构信息，并能开发调控基因的DNA元件的技术。

Hi-C技术近年来被广泛用于研究染色体的三维结构，该技术通过甲醛交联(crosslink)固定细胞核中空间邻近的DNA片段，经酶切(enzyme cutting)后连接(ligating)所有交联的酶切片段，后续通过剪切(shearing)和纯化(purifying)得到待测样本，并对待测样本进行双端测序，因此其有效测序片段的两端为不同位置的DNA片段组成的嵌合体，两端的序列可对应到其相应的酶切片段。

基于Hi-C技术得到的Hi-C测序数据表示了所有酶切片段间的互作频率图谱，后续可转化为交互矩阵等形式，以用于三维基因组学分析。癌症细胞系的基因组存在着复杂的染色体结构变异染色体结构的变异改变了不同染色体区间的测序可及性(测序深度)及原有的三维结构，因此其Hi-C数据也会产生相应的变化。

目前，一般通过基于染色体互作频率随基因组距离增加而下降的平均衰退曲线模拟癌症基因组的Hi-C数据，但是这种方法不能反映不同基因组位置的特异性互作特征，同时，可模拟的结构变异情形有限，不能支持模拟染色体多种变异等复杂情形。

如何提供一种可反映癌症基因组不同位置的互作特征，同时支持模拟染色体多种变异情况的癌症基因组Hi-C数据仿真方法，是当前亟需解决的问题。

有鉴于此，本申请实施例提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备，该方法通过预先对非癌症细胞系的Hi-C数据和参考基因组数据进行处理，得到参考基因组中基因的互作关系。根据用户指定的变异方式，模拟癌症基因组的染色体结构变异，基于参考基因组中基因的互作关系得到癌症基因组的仿真Hi-C数据。下面对上述方案进行详细阐述。

请参阅图1，图1为本申请实施例提供的一种电子设备100的结构框图。设备可以包括处理器120、存储器110、癌症基因组Hi-C数据仿真装置130及总线，存储器110存储有处理器120可执行的机器可读指令，当电子设备100运行时，处理器120及存储器110之间通过总线通信，处理器120执行机器可读指令，并执行癌症基因组Hi-C数据仿真方法的步骤。

存储器110、处理器120以及其他各元件相互之间直接或间接地电性连接，以实现信号的传输或交互。

例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。癌症基因组Hi-C数据仿真装置130包括至少一个可以软件或固件(firmware)的形式存储于存储器110中的软件功能模块。处理器120用于执行存储器110中存储的可执行模块，例如癌症基因组Hi-C数据仿真装置130所包括的软件功能模块或计算机程序。

其中，存储器110可以是，但不限于，随机读取存储器(Random ACCessmemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器120可以是一种集成电路芯片，具有信号处理能力。上述处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等。

还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例中，存储器110用于存储程序，处理器120用于在接收到执行指令后，执行程序。本申请实施例任意一个实施方式所揭示的流程定义的方法可以应用于处理器120中，或者由处理器120实现。

在本申请实施例中，电子设备100可以是但不限于智能手机、个人电脑、平板电脑等具有处理功能的设备。

可以理解，图1所示的结构仅为示意。电子设备100还可以具有比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

作为一种可能的实施方式，本申请实施例提供了一种癌症基因组Hi-C数据仿真方法，应用于上述电子设备100，电子设备100存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，交互频率矩阵用于反映多个参考酶切片段之间的互作关系，请结合参阅图2，图2为本申请实施例提供的癌症基因组Hi-C数据仿真方法的流程图之一，下面结合图2所示的具体流程进行详细描述。

步骤S1，响应操作指令，对参考基因组进行染色体结构变异，得到癌症基因组和癌症基因组的染色体结构变异特征。

步骤S2，响应酶切指令，对癌症基因组进行切割，得到多个癌症酶切片段。

步骤S3，获取多个参考酶切片段的基因信息。

步骤S4，根据交互频率矩阵、染色体结构变异特征及基因信息，得到癌症基因组的仿真Hi-C数据。

其中，参考基因组可以是人类参考基因组hg19、hg38、GRCH37、b37、hs37d5中的任意一种。为方便阐述，本申请实施例以人类参考基因组hg19为例做详细说明。

进一步地，染色体结构变异特征包括拷贝数变异、删除、易位和倒转中的至少一种。

作为一种可能的实施场景，以个人电脑为例，用户可通过该个人电脑的外部输入设备(例如，鼠标)选中需要对参考基因组进行染色体结构变异的相关特征，进而对参考基因组进行染色体结构变异，得到癌症基因组以及该癌症基因组的染色体结构变异特征，并对其进行保存。

例如，用户可以选择将一号染色体的部分基因片段易位至二号染色体，从而得到包括新的变异染色体的癌症基因组，该癌症基因组的染色体变异特征为易位。又例如，用户还可以在上述易位的基础上选择对三号染色体进行倒转，得到新的癌症染色体，从而得到包括新的变异染色体的癌症基因组，该癌症基因组的染色体变异特征为易位和倒转。

进一步地，通过该酶切指令可以模拟使用限制性内切酶对癌症基因组进行切割的过程，得到多个癌症酶切片段。例如，多个癌症酶切片段中任意一个酶切片段为(chr：chr19，start：64919，end：65222，name：HIC_chr19_9，cn：2)，即该癌症酶切片段为19号染色体的第9个片段，其在癌症基因组的起始位置为64919，终止位置为65222，拷贝数为2(cn为拷贝数，即染色体倍性)。

最后将交互频率矩阵和参考酶切片段的基因信息作为模板，结合染色体结构变异特征得到癌症基因组的仿真Hi-C数据。

本申请实施例根据用户指定的变异方式，模拟癌症基因组的染色体结构变异，以交互频率矩阵和参考酶切片段的基因信息作为模板，结合染色体结构变异特征得到癌症基因组的仿真Hi-C数据，支持模拟染色体多种变异情况，可反映癌症基因组不同位置的互作特征，从而提高了对癌症基因组Hi-C数据仿真的准确性。

应当理解，在其它实施例中，本实施例的癌症基因组Hi-C数据仿真方法中的部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。

进一步地，请结合参阅图3，图2中提出的多个参考酶切片段和交互频率矩阵可按照图3所示的流程图进行建立：

步骤S10，获取参考基因组、参考基因组对应的多个酶切片段及非癌症细胞系的Hi-C数据。

步骤S20，将非癌症细胞系的Hi-C数据与参考基因组进行序列比对，得到多个参考测序片段，其中，每个参考测序片段均包括两个连接的酶切片段。

步骤S30，根据每个参考测序片段中包括的两个酶切片段的互作关系，建立交互频率矩阵。

步骤S40，将所有酶切片段中未在任意一个参考测序片段中出现的酶切片段去除，得到多个参考酶切片段。

上述非癌症细胞系的Hi-C数据可以是任何已知的非癌症细胞系的Hi-C数据。例如，非癌症细胞系的Hi-C数据可以是ENCODE中IMR-90细胞系的Hi-C数据(实验号为ENCSR852KQC)。为方便阐述，本申请实施例以非癌症细胞系的Hi-C数据为ENCODE中IMR-90细胞系的Hi-C数据作详细说明。

参考基因组即通过人类基因组计划(Human Genome Project，HGP)经过测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，所获得的人类基因组图谱。通过将非癌症细胞系的Hi-C数据与参考基因组进行序列比对，即可知晓每个参考测序片段所包括的不同的酶切片段，进而得知不同酶切片段之间的互作关系。

可以理解的是，非癌症细胞系的Hi-C数据相当于一幅拼图打碎后的碎片，而参考基因组则相当于这幅拼图原来的样子，通过以参考基因组为模板，进行序列比对即可获得不同酶切片段之间的互作关系。

可能地，经过序列比对得到的多个参考测序片段中的其中一个参考测序片段可以是：

HIC_chr19_199，HIC_chr20_201，+，121，-，98

该参考测序片段表示，非癌症细胞系的19号染色体第199个片段与20号染色体的第201个片段有1个连接，同时参考测序片段的两端分别比对到了参考基因组的正链(+)与参考基因组的负链(-)，并且两端与酶切位点分别相距121个碱基和98个碱基。

进一步地，为了减少内存大小，减少电子设备的计算开销，可将上述数据转化为矩阵的形式，由于每个参考测序片段反应两个酶切片段的互作关系，即可根据互作关系，建立交互频率矩阵，使得内存减小，电子设备的计算开销减少，从而使得仿真计算速率提高。

其中，交互频率矩阵可以包括多个元素M_ij，即列向量，M_ij表示交互频率矩阵中第i列第j行的向量，元素M_ij还表示某一参考测序片段中酶切片段f_i与酶切片段f_j有M次连接互作。

进一步地，序列比对之后，由于一些酶切片段位于着丝粒区域，因而可能存在一些没有在任意一个参考测序片段中出现的酶切片段，为了提高仿真数据的准确性，故而需要将这些酶切片段去除，得到参考酶切片段。

作为一种可选的实施方式，在图2的基础上，本申请实施例还提供了图2中步骤S2的子步骤。请结合参阅图4，图4为本申请实施例提供的癌症基因组Hi-C数据仿真方法的子步骤示意图。根据交互频率矩阵、染色体结构变异特征及基因信息，得到癌症基因组的仿真Hi-C数据的一种可能的实现方式包括：

步骤S41，根据交互频率矩阵和染色体结构变异特征，计算每个癌症酶切片段的概率分布。

步骤S42，基于每个癌症酶切片段的概率分布，对每个癌症酶切片段进行模拟测序，得到多个癌症测序片段，其中，每个癌症测序片段均包括两个连接的癌症酶切片段。

步骤S43，根据每个癌症测序片段中包括的两个癌症酶切片段，得到每个癌症酶切片段之间的互作关系。

步骤S44，获取多个参考酶切片段的基因信息。

步骤S45，根据基因信息以及多个癌症酶切片段之间的互作关系，得到癌症基因组的仿真Hi-C数据。

其中，基因信息包括每个参考酶切片段的正链信息、负链信息及每个参考酶切片段与酶切位点之间的距离信息。

作为一种可能的实施方式，概率分布包括第一概率分布和第二概率分布，其中，步骤S41：根据交互频率矩阵和染色体结构变异特征，计算每个癌症酶切片段的概率分布的过程包括：

首先，根据染色体结构变异特征，确定每个癌症酶切片段与每个参考酶切片段之间的对应关系以及每个癌症酶切片段的拷贝数。

其次，根据交互频率矩阵，计算每个参考酶切片段的初始概率分布。

然后，根据对应关系，将每个参考酶切片段的初始概率分布作为对应的每个癌症酶切片段的初始概率分布。

接着，将每个癌症酶切片段的初始概率分布与拷贝数的乘积，作为每个癌症酶切片段的中间采样频率。

然后，对所有中间采样频率进行归一化处理，得到每个癌症酶切片段的第一概率分布。

接着，在交互频率矩阵中，查找每个癌症酶切片段所在的列。

然后，查找该列中对应的第一概率分布，并利用每个所述癌症酶切片段所在列的列向量除以该第一概率分布，得到每个所述癌症酶切片段的第二概率分布。

其中，每个癌症酶切片段的拷贝数可根据用户指定的染色体变异特征以及发生变异的发生频率确定。

例如，作为一种可能的实施场景，有19号染色体的25％的基因与20号染色体发生易位，则易位后的19号染色体及20号染色体的癌症酶切片段的拷贝数cn＝1.5(即2×(1-25％))，而基于19号染色体与20号染色体易位后构建的新染色体得到的片段的拷贝数cn＝0.5(即2×25％)。

其中，根据交互频率矩阵，计算每个参考酶切片段的初始概率分布可通过以下方式得到：首先，计算交互频率矩阵中每一列数据的和，接着将该和除以交互频率矩阵中所有数据的总数，如此，可得到每个参考测序片段的初始概率分布。

作为一种可能的实施场景，计算得到每个参考测序片段初始概率分布后，第一概率分布和第二概率分布分别可通过以下过程计算得到：

假设多个参考测序片段为1000个，每个参考测序片段的初始概率分布分别为

和

每个参考测序片段对应的拷贝数分别为2、2、1.5、……和0.5。

则每个癌症酶切片段的中间采样频率有

和

对所有中间采样频率进行归一化处理，即可得到每个癌症酶切片段的第一概率分布分别为：0.14、0.18、0.15、……和0.01。

进一步地，假设每个癌症酶切片段所在的列对应的第一概率分布分别为：0.14、0.18、0.15、……和0.01。

并假设所有癌症酶切片段所在列的列向量分别为

和

则，计算可得每个癌症酶切片段的第二概率分布分别为

作为一种可能的实施方式，步骤S42：基于概率分布，对癌症酶切片段进行模拟测序，得到多个癌症测序片段可通过以下步骤实现：

首先，基于第一概率分布，按照蒙特卡洛采样法对癌症基因组包括的所有癌症酶切片段进行采样，得到每个癌症测序片段的第一端的第一癌症酶切片段。

接着，当确定存在与任意一个参考酶切片段一致的第一癌症酶切片段时，基于第二概率分布，按照蒙特卡洛采样法对癌症基因组包括的所有癌症酶切片段进行采样，得到每个癌症测序片段的第二端的第二癌症酶切片段。

当确定不存在与任意一个参考酶切片段一致的第一癌症酶切片段时，基于染色体结构变异特征，查找交互频率矩阵，得到每个癌症测序片段的第二端的第二癌症酶切片段。

最后，对每个第一癌症酶切片段和每个第二癌症酶切片段进行拼接，得到多个癌症测序片段。

蒙特卡洛采样法(Monte Carlo Simulation)是一种随机模拟(或者统计模拟)方法，即，给定一个概率分布，生成满足这个概率分布的样本。

进一步地，可以理解的是，当存在与任意一个参考酶切片段一致的第一癌症酶切片段，即可确定该参考酶切片段所属的染色体是未经过染色体结构变异的正常染色体。因此可直接基于第二概率分布，按照蒙特卡洛采样法对癌症基因组包括的所有癌症酶切片段进行采样，得到每个癌症测序片段的第二端的第二癌症酶切片段。

当不存在与任意一个参考酶切片段一致的第一癌症酶切片段，即可确定该参考酶切片段所属的染色体是经过染色体结构变异得到的新染色体(即发生了癌变的癌症基因)。因此，需要结合癌症基因组的染色体变异结构特征，查找交互频率矩阵，得到每个癌症测序片段的第二端的第二癌症酶切片段。

其中，作为一种可能的实施场景，当癌症基因组的4号染色体的第20个片段到40个片段被删除，产生了新的24号染色体，即癌症基因组的染色体结构变异特征为删除，24号染色体中的片段均来自4号染色体。因此，可从交互频率矩阵中查找到与4号染色体的酶切片段连接的酶切片段，将该酶切片段作为癌症测序片段的第二端的第二癌症酶切片段。

又例如，2号染色体的第21个片段至第120个片段与3号染色体的第15个片段至第64个片段发生了易位，产生了新的25号染色体，即癌症基因组的染色体结构变异特征为易位，25号染色体中基因片段一部分为3号染色体中的片段，另一部分为2号染色体中的片段。因此，可从交互频率矩阵中分别查找到与第2号染色体的酶切片段(若该片段来自2号染色体)以及3号染色体的酶切片段(若该片段来自3号染色体)的连接的酶切片段，将该酶切片段作为癌症测序片段的第二端的第二癌症酶切片段。

若发生了其他染色体变异情况，同样可按照上述阐述结合先前得到的癌症基因组的染色体变异特征，在交叉频率矩阵中查找到与对应片段连接的酶切片段，将该酶切片段作为癌症测序片段的第二端的第二癌症酶切片段。

基于同一发明构思，请结合参阅图5，本申请实施例中还提供了与上述癌症基因组Hi-C数据仿真方法对应的癌症基因组Hi-C数据仿真装置130，该装置应用于电子设备100，电子设备100存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，交互频率矩阵用于反映多个参考酶切片段之间的互作关系，装置包括：

第一响应模块131，用于响应操作指令，对参考基因组进行染色体结构变异，得到癌症基因组和癌症基因组的染色体结构变异特征。

第二响应模块132，用于响应酶切指令，对癌症基因组进行切割，得到多个癌症酶切片段。

获取模块133，用于获取多个参考酶切片段的基因信息。

仿真模块134，用于根据交互频率矩阵、染色体结构变异特征及基因信息，得到癌症基因组的仿真Hi-C数据。

由于本申请实施例中的装置解决问题的原理与本申请实施例上述癌症基因组Hi-C数据仿真方法相似，因此装置的实施原理可以参见方法的实施原理，重复之处不再赘述。

本实施例也提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序被执行时实现上述的癌症基因组Hi-C数据仿真方法。

综上所述，本申请实施例提供了一种癌症基因组Hi-C数据仿真方法、装置和电子设备，该方法应用于电子设备，电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，交互频率矩阵用于反映多个参考酶切片段之间的互作关系，该方法首先响应操作指令，对参考基因组进行染色体结构变异，得到癌症基因组和癌症基因组的染色体结构变异特征，接着响应酶切指令，对癌症基因组进行切割，得到多个癌症酶切片段，然后获取多个参考酶切片段的基因信息，最后根据交互频率矩阵、染色体结构变异特征及基因信息，得到癌症基因组的仿真Hi-C数据，该方法支持模拟染色体多种变异情况，可反映癌症基因组不同位置的互作特征，从而提高了对癌症基因组Hi-C数据仿真的准确性。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种癌症基因组Hi-C数据仿真方法，其特征在于，应用于电子设备，所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系，所述方法包括:

获取所述多个参考酶切片段的基因信息；

根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据；

所述根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据的步骤包括：根据所述交互频率矩阵和所述染色体结构变异特征，计算每个所述癌症酶切片段的概率分布；基于每个所述癌症酶切片段的概率分布，对每个所述癌症酶切片段进行模拟测序，得到多个癌症测序片段，其中，每个所述癌症测序片段均包括两个连接的癌症酶切片段；根据每个所述癌症测序片段中包括的两个癌症酶切片段，得到每个所述癌症酶切片段之间的互作关系；获取所述多个参考酶切片段的基因信息；根据所述基因信息以及所述多个癌症酶切片段之间的互作关系，得到所述癌症基因组的仿真Hi-C数据；

所述概率分布包括第一概率分布和第二概率分布；所述根据所述交互频率矩阵和所述染色体结构变异特征，计算每个癌症酶切片段的概率分布的步骤包括：根据所述染色体结构变异特征，确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数；根据所述交互频率矩阵，计算每个所述参考酶切片段的初始概率分布；根据所述对应关系，将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布；所述初始概率分布的计算方式为：计算所述交互频率矩阵中每一列数据的和；将所述和除以所述交互频率矩阵中所有数据的总数，得到所述初始概率分布；将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积，作为每个所述癌症酶切片段的中间采样频率；对所有所述中间采样频率进行归一化处理，得到每个所述癌症酶切片段的第一概率分布；在所述交互频率矩阵中，查找每个所述癌症酶切片段所在的列；查找该列中对应的第一概率分布，并利用每个所述癌症酶切片段所在列的列向量除以该第一概率分布，得到每个所述癌症酶切片段的第二概率分布。

2.根据权利要求1所述的癌症基因组Hi-C数据仿真方法，其特征在于，所述多个参考酶切片段和所述交互频率矩阵是按照以下方式进行建立的：

3.根据权利要求1所述的癌症基因组Hi-C数据仿真方法，其特征在于，所述基于所述概率分布，对所述癌症酶切片段进行模拟测序，得到多个癌症测序片段的步骤包括：

4.根据权利要求1所述的癌症基因组Hi-C数据仿真方法，其特征在于，所述染色体结构变异特征包括拷贝数变异、删除、易位和倒转中的至少一种。

5.根据权利要求1所述的癌症基因组Hi-C数据仿真方法，其特征在于，所述基因信息包括每个参考酶切片段的正链信息、负链信息及每个参考酶切片段与酶切位点之间的距离信息。

6.一种癌症基因组Hi-C数据仿真装置，其特征在于，应用于电子设备，所述电子设备存储有参考基因组、预先建立的多个参考酶切片段及预先建立的交互频率矩阵，所述交互频率矩阵用于反映所述多个参考酶切片段之间的互作关系，所述装置包括：

第一响应模块，用于响应操作指令，对所述参考基因组进行染色体结构变异，得到癌症基因组和所述癌症基因组的染色体结构变异特征；

第二响应模块，用于响应酶切指令，对所述癌症基因组进行切割，得到多个癌症酶切片段；

获取模块，用于获取所述多个参考酶切片段的基因信息；

仿真模块，用于根据所述交互频率矩阵、所述染色体结构变异特征及所述基因信息，得到所述癌症基因组的仿真Hi-C数据；

所述仿真模块，具体用于：根据所述交互频率矩阵和所述染色体结构变异特征，计算每个所述癌症酶切片段的概率分布；基于每个所述癌症酶切片段的概率分布，对每个所述癌症酶切片段进行模拟测序，得到多个癌症测序片段，其中，每个所述癌症测序片段均包括两个连接的癌症酶切片段；根据每个所述癌症测序片段中包括的两个癌症酶切片段，得到每个所述癌症酶切片段之间的互作关系；获取所述多个参考酶切片段的基因信息；根据所述基因信息以及所述多个癌症酶切片段之间的互作关系，得到所述癌症基因组的仿真Hi-C数据；

所述概率分布包括第一概率分布和第二概率分布；所述仿真模块，还具体用于：根据所述染色体结构变异特征，确定每个所述癌症酶切片段与每个所述参考酶切片段之间的对应关系以及每个所述癌症酶切片段的拷贝数；根据所述交互频率矩阵，计算每个所述参考酶切片段的初始概率分布；根据所述对应关系，将每个所述参考酶切片段的初始概率分布作为对应的每个所述癌症酶切片段的初始概率分布；所述初始概率分布的计算方式为：计算所述交互频率矩阵中每一列数据的和；将所述和除以所述交互频率矩阵中所有数据的总数，得到所述初始概率分布；将每个所述癌症酶切片段的初始概率分布与所述拷贝数的乘积，作为每个所述癌症酶切片段的中间采样频率；对所有所述中间采样频率进行归一化处理，得到每个所述癌症酶切片段的第一概率分布；在所述交互频率矩阵中，查找每个所述癌症酶切片段所在的列；查找该列中对应的第一概率分布，并利用每个所述癌症酶切片段所在列的列向量除以该第一概率分布，得到每个所述癌症酶切片段的第二概率分布。

7.一种电子设备，其特征在于，所述电子设备包括处理器、存储器及总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器及所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行权利要求1-5中任意一项所述的癌症基因组Hi-C数据仿真方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，计算机程序被执行时实现权利要求1-5中任意一项所述的癌症基因组Hi-C数据仿真方法。