CN113793644A

CN113793644A - 一种dna检测数据的质量评估方法

Info

Publication number: CN113793644A
Application number: CN202111082029.5A
Authority: CN
Inventors: 宋丹璐; 王礼斌; 平原; 白仲南
Original assignee: Ningbo Health Gene Technologies Co ltd
Current assignee: Ningbo Health Gene Technologies Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Anticipated expiration: 2041-09-15
Also published as: CN113793644B

Abstract

本发明公开了一种DNA检测数据的质量评估方法，所述方法包括以下步骤：A、获取DNA检测数据信息；B、根据所述DNA检测数据信息，识别并自动纠正样本类型；C、根据不同的样本类型，对所述DNA检测数据信息进行质量评估；D、导出质量评估结果。通过本发明对DNA检测数据的质量评估，可同时对不同项目之间的大批量数据进行质量控制，进一步提示问题隐患，帮助提高数据的准确性。

Description

一种DNA检测数据的质量评估方法

技术领域

本发明涉及数据分析技术领域，尤其涉及一种DNA检测数据的质量评估方法。

背景技术

目前法庭DNA(Deoxyribo Nucleic Acid，脱氧核糖核酸)检测主要以STR(ShortTandem Repeat，短串联重复序列)检测为主，检测技术为PCR(Polymerase ChainReaction，聚合酶链反应)-毛细管电泳技术，毛细管电泳是采用“电进样”的方法将带电的样品分子加到灌好电泳胶的毛细管的进样端(负极)，然后在毛细管两端加上直流电压，样品中不同大小的DNA片段开始从负极向正极移动，移动的速度受到片段自身大小影响，片段越短移动得越快。电泳的结果是使长度不同的带电DNA片段互相分离，并且按片段的长短顺序通过检测窗口，产生信号，短片段先到达检测窗口。当标有荧光素的DNA 片段移动到检测窗口时，荧光素受到激光束的激发而产生荧光信号，该荧光信号被CCD(Charge-CoupledDevice，电荷耦合器件)检测器所检测并被转化为电信号传递到计算机，由计算机产生HID或FSA 格式的原始数据(例如，31XX和310遗传分析仪电泳生成的文件格式为.fsa，而35XX遗传分析仪电泳生成的文件格式为.hid)，以上格式的文件通过相应的数据分析软件进行识别与分析，将原始数据转化成肉眼可辨别的数据图谱，便于人工对原始数据做进一步的分析与审核，以确保数据的准确性，之后将人工分析审核后的数据导出成 CODIS(CombinedDNAIndex System，联合DNA索引***)文件，录入DNA数据库，为法庭科学提供有力的DNA证据。

目前主流的数据分析软件是GeneMapper ID-X软件，该软件主要提供一套较直观的数据分析与审核工具，用户将原始数据导入 GeneMapper ID-X软件后，按照软件使用说明操作，该软件会自动识别相应文件并进行分析，将原始数据转化成便于辨识的数据图谱，同时可根据设置给予相应提示，便于人工对数据图谱进一步的审核与修改，但是GeneMapper ID-X软件自带的质量评估方法功能较单一，且不支持同时对不同项目之间较大批量数据的质量评估；此外 GeneMapper ID-X软件亦提供质控库和样本查重比对功能，但是一次也只能同时比对同一项目文件内的小批量数据，并需要进行人工较对。因此，采用现有的DNA检测数据分析方法对数据进行分析，会使得分析出的DNA数据质量参差不齐。

同时在法庭DNA数据库建设过程中存在大量重复性工作，目前市场上无类似软件可协助人工高效准确的完成此类重复性工作，必须依靠大量的人力堆积，耗时耗力，且难以保证准确性。

发明内容

(一)要解决的技术问题

本发明要解决的问题是提供一种DNA检测数据的质量评估方法，以克服现有技术中分析出的DNA数据质量参差不齐的缺陷。

(二)技术方案

为解决上述技术问题，本发明提供了一种DNA检测数据的质量评估方法，所述方法包括以下步骤：

A、获取DNA检测数据信息；

B、根据所述DNA检测数据信息，识别并自动纠正样本类型；

C、根据不同的样本类型，对所述DNA检测数据信息进行分析；

D、导出质量评估结果。

进一步，所述步骤A具体为：通过用户导入的文件获取所述DNA 检测数据信息或从ID-X数据分析软件的Oracle文件获取所述DNA 检测数据信息，文件类型支持TXT、DAT、EXCEL格式。

进一步，所述DNA检测数据信息包括样本板号、孔位、样本编号、及相应的基因座信息。

进一步，所述DNA检测数据信息还包括样本类型、标本类别、试剂盒种类中的一种或几种。

进一步，可一次导入1-1000条DNA检测数据，并且可同时分析一次导入的所有数据。

进一步，可一次导入1001-50000条DNA检测数据，并且可同时分析一次导入的所有数据。

进一步，所述步骤B包括：

B1、识别样本类型；

B2、判断样本类型是否匹配；

B3、当识别出的样本类型不匹配时，自动纠正样本类型。

进一步，在所述步骤B2中，还包括：

支持用户的个性化设置，并根据接收到的用户设置，调整算法判断样本类型是否匹配。

进一步，所述步骤C包括：

C1、对样本类型为非sample的数据进行质量评估，所述样本类型为非sample的数据包括Allelic Ladder、Positive、Negative；

C2、对样本类型为sample的数据进行质量评估。

进一步，非sample数据和sample数据各存在一套不同的质量评估标准，优先执行步骤C1，当非sample数据的质量评估不符合预设的标准时，则提示风险，用户可选择人工复核后重新进行质量评估或略过以上风险继续执行步骤C2。

进一步，在所述步骤C2中，包括偏峰分析、Y-marker分析、检出率分析、结果异同分析和质控库分析中的一种或几种，其中：

偏峰分析：对文件中读取的信息，按等位基因分型标准物的结果进行校正，若不一致提示偏峰风险；

Y-marker分析：对文件中读取的信息，按结果分析的标准进行校正，若女性样本的Y-marker上有基因座信息则提示风险，若Y-marker 尤其是Y-indel上的基因座信息不符合标准亦提示风险；

检出率分析：对文件中读取的信息，按结果分析的标准进行校正，若核心基因座或优选基因座少于设置的标准则分别提示风险；

结果异同分析：对文件中读取的信息，按软件构建的算法两两之间结果比较，若出现同型异号或同号异型则分别提示风险；

质控库分析：对文件中读取的信息，按软件构建的算法将每一个样本信息均与质控库内数据进行比较，若有重复则提示风险，重复比例支持用户个性化设置。

进一步，所述方法还包括步骤E：文件移动；所述步骤E具体包括：

E1、读取文件：获取用户导入的原始数据文件信息；

E2、自动识别样本类型：根据用户导入的原始数据文件信息，自动识别样本类型与样本编号是否匹配，若不匹配则进行纠正；

E3、样本查重：根据识别到的样本编号进行查重，并自动分组提示样本编号完全一致的数据文件，每组文件为一组编号重复文件；

E4、移动文件：重复样本编号的原始数据文件支持进行正向、反向、双向移动中的一种或几种。

进一步，在所述步骤E1中，可一次导入1-50000条原始数据文件信息，并且可同时对导入的所有数据进行所需的移动。

进一步，，所述方法还包括步骤F：表格编辑；所述步骤F具体包括：

F1、新建项目：新建一个表格编辑项目，所述项目支持搜索、编辑、删除功能；

F2、读取文件：获取用户导入的Excel文件信息；

F3、补全固定孔位：软件自动补全非sample孔位；

F4、导出文件：一次快速批量的导出表格文件，支持不同格式的电子表和电泳表文件。

(三)有益效果

本发明针对GeneMapper ID-X软件以及人工审核后仍可能存在的问题数据，贴合用户实际数据分析审核过程中的痛点与需求，提供一套更准确高效，功能更完整的质量综合评估体系。通过本发明的 DNA检测数据的质量评估方法，可同时对不同项目之间的大批量数据进行分析，进一步提示问题隐患，帮助提高数据的准确性。

本发明针对GeneMapper ID-X软件虽然提供质控库和样本查重比对功能，但是一次只能比对同一项目文件内约一百条数据的缺陷，将一次可查重比对的数据量扩大至约五万条数据，同时可支持不同项目之间的数据查重比对，满足用户查重比对的日常需求。

本发明可协助人工高效准确的完成数据库建设过程中存在的部分重复性工作，提高用户工作效率，同时可减少因人为因素而导致的重复错误。

附图说明

图1是本发明实施例的一种DNA检测数据的质量评估方法的流程图；

图2是本发明实施例的一种文件移动方法的流程图；

图3是本发明实施例的一种表格编辑方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

本发明实施例的一种DNA检测数据的质量评估方法如图1所示，包括以下步骤：

步骤s101，新建一个结果分析项目。本实施例中，该项目支持搜索、编辑、删除功能，便于用户查找及使用。

步骤s102，获取DNA检测数据信息。该步骤通过用户导入的文件或者直接从ID-X等数据分析软件里的Oracle文件获取所述DNA 检测数据信息，文件类型支持TXT、DAT、EXCEL等格式。本实施例中，获取用户导入的TXT文件信息，可一次导入1-1000条或1001-50000条DNA检测数据，并且可同时分析一次导入的所有数据，通过用户导入到软件端的TXT文件获取所述DNA检测数据信息。在导入TXT文件之后，还包括备份所述TXT文件到软件端对应的项目列表中。

所述DNA检测数据信息包括样本板号、孔位、样本编号、及相应的基因座信息，还可以包括样本类型、标本类别、试剂盒种类中的一种或几种。

步骤s103，根据所述DNA检测数据信息，识别样本类型并自动纠正。本实施例中，该步骤根据用户导入的TXT文件信息，自动识别样本类型与样本编号等信息是否匹配。本实施例针对不同类型的样本，结果分析的标准不同，故在结果分析之前需事先正确识别不同类型的样本。该步骤的具体过程包括：

首先识别样本类型，并根据软件自带的算法逻辑判断样本类型是否匹配，当识别出的样本类型不匹配时，自动纠正样本类型。本实施例中，当识别出的样本类型为PositiveControl时，则直接判断为阳性；当识别出的样本类型为Negative Control时，则直接判断为阴性；当识别出的样本类型为Ladder时，则直接判断为等位基因分型标准物。

然后，当识别出的样本类型为sample时，识别样本编号。当样本编号为positive时，则判断为阳性；当样本编号为negative时，则判断为阴性；当样本编号为ladder时，则判断为等位基因分型标准物。

另外，本实施例还支持手动修改样本类型。具体为：实施例中支持用户的个性化设置，并根据接收到的用户设置，调整算法判断样本类型是否匹配。

步骤s104，根据不同的样本类型，对所述DNA检测数据信息进行质量评估。本实施例中，首先对样本类型为非sample的数据进行质量评估，即进行预分析数据，所述样本类型为非sample的数据包括Allelic Ladder、Positive、Negative；然后对样本类型为sample的数据进行质量评估。非sample数据和sample数据各存在一套不同的质量评估标准，优先评估非sample数据，当非sample数据的质量评估不符合预设的标准时，则提示风险，用户可选择人工复核后重新进行质量评估或略过以上风险继续评估sample数据。

本实施例中，预分析数据的过程具体为：对Allelic Ladder、 Positive、Negative文件进行准确性分析，当准确性与预设的标准不一致时，则给用户提示；用户可手动选择跳过问题直接分析或不分析。另外，该步骤中用户还可以进行其他设置，具体为：接收用户输入的设置信息，并根据所述设置信息进行设置，所述设置信息包括结果一致性分析的重复比例。

本实施例中，对样本类型为sample的数据进行分析的过程包括偏峰分析、Y-marker分析、检出率分析、结果异同分析和质控库分析中的一种或几种，软件默认包括以上全部分析，用户可个性化选择进行其中任意N项分析，其中：

(1)偏峰分析：对文件中读取的信息，按等位基因分型标准物的结果进行校正，若不一致提示偏峰风险。其中，读取的信息包括基因座名称、基因座数值。

(2)Y-marker分析：对文件中读取的信息，按结果分析的标准进行校正。其中，读取的信息包括基因座名称、基因座数值，若女性样本的Y-marker上有基因座信息则提示风险，若Y-marker尤其是 Y-indel上的基因座信息不符合标准亦提示风险。本实施例中，如 Y-indel基因座应有且只有1条峰，且基因座数值只有1或2的可能性；如常染色体数据判读性别为女性时，即AMEL基因座有且只有一条X基因座信息时，Y-marker上应无任何基因座信息；若不符合以上等标准，应给予相应提示。

(3)检出率分析：对文件中读取的信息，按结果分析的标准进行校正。其中，读取的信息包括基因座名称、等位基因数值，若核心基因座或优选基因座少于设置的标准则分别提示风险，此项标准支持用户个性化设置。本实施例中，如核心或优选基因座上无等位基因信息时，提示基因座等位基因信息缺失；如单个样本上读取到的基因座数量少于设置的最低基因座数量时，提示检出数量低于最低值。

(4)结果异同分析：对文件中读取的信息，按软件构建的算法两两之间结果比较。其中，读取的信息包括样本名称、基因座名称、基因座数值，若出现同型异号(基因座信息相同，样本编号不同)或同号异型(样本编号相同，基因座信息不同)则分别提示风险。本实施例中共有四种可能，其中不同编号不同分型为正常现象，不予提示；其余相同编号不同分型、相同编号相同分型、不同编号相同分型三种可能，分别提示每组具体的样本信息。

(5)质控库分析：对文件中读取的信息，按软件构建的算法将每一个样本信息均与质控库内数据进行比较，若有重复则提示风险，重复比例支持用户个性化设置。其中，读取的信息包括样本名称、基因座名称、基因座数值。本实施例中，若有结果相同数据提示应为人源性污染。

步骤s105，导出质量评估结果。本实施例中，在数据分析完成后，用户可直接在软件里查看分析结果或导出Excel格式的分析结果。

本实施例针对GeneMapper ID-X软件以及人工审核后仍可能存在的问题数据，贴合用户实际数据分析审核过程中的痛点与需求，提供一套更准确高效，功能更完整的质量综合评估体系。通过本发明的 DNA检测数据的质量评估方法，可同时对不同项目之间的大批量数据进行分析，进一步提示问题隐患，帮助提高数据的准确性。

实施例二

本发明实施例的一种文件移动方法如图2所示，所述方法包括以下步骤：

步骤s201，读取文件。该步骤首先获取用户导入的原始数据文件，再读取文件中的信息。该原始数据文件的格式一般为FSA或HID格式，可一次导入1-50000条原始数据文件信息，并且可同时对导入的所有数据进行所需的移动。其中，原始数据文件信息包括文件夹名、文件名、样本板号、样本编号、孔位、样本类型。

本实施例中，通过用户导入到软件端的原始数据文件获取所述原始数据文件信息；用户导入原始数据文件后，将所述文件备份到软件端对应的项目列表中，用户可进行批量导入、导出、删除操作。

步骤s202，自动识别样本类型。该步骤根据用户导入的原始数据文件信息，自动识别样本类型与样本编号是否匹配，若不匹配则将按照软件自带的算法逻辑进行纠正。本实施例中，针对不同类型的样本，文件移动的查重标准不同，故在结果分析之前需事先正确识别不同类型的样本。

步骤s203，样本查重。本实施例中，根据识别到的样本编号，使用软件构建的算法进行查重，并自动分组提示样本编号完全一致的数据文件，每组文件为一组编号重复文件；并按照板号顺序正序排序显示。

步骤s204，移动文件。本实施例中，用户可根据实际需求，重复样本编号的原始数据文件支持进行正向、反向、双向移动中的一种或几种；同时支持移动非sample文件。

本实施例针对GeneMapper ID-X软件虽然提供质控库和样本查重比对功能，但是一次只能比对同一项目文件内约一百条数据的缺陷，将一次可查重比对的数据量扩大至约五万条数据，同时可支持不同项目之间的数据查重比对，满足用户查重比对的日常需求。

实施例三

本发明实施例的一种表格编辑方法如图3所示，所述方法包括以下步骤：

步骤s301，新建项目。本实施例中，新建一个表格编辑项目，所述项目支持搜索、编辑、删除功能，便于用户查找及使用。

步骤s302，读取文件。本实施例中，首先获取用户导入的Excel 文件，然后读取文件的信息。其中，Excel文件信息包括板号、孔位、样本编号、保存号、人员姓名、性别、身份证信息，以上信息根据用户提供的Excel表格识别，若为空则不识别。同时默认性别与身份证信息做复核，若不一致则高亮提示用户有误，支持用户手动修改。

步骤s303，补全固定孔位。本实施例中，软件自动补全非sample 孔位，自动填充使每板样本数量为96个，若非sample孔位实际有 sample样本，用户可根据实际需求选择是否跳过填充。

步骤s304，导出文件。本实施例中，可一次快速批量的导出表格文件，支持不同格式的电子表和电泳表文件，如支持导出3500及3730 模式电泳表，单页版，三页版及横版电子表，便于用户使用，用户可根据实际需求选择一次导出以上不同类型文件的一种或几种。

本实施例可协助人工高效准确的完成数据库建设过程中存在的部分重复性工作，提高用户工作效率，同时可降低因人为因素而导致的重复错误。

综上，本发明针对法庭DNA数据质量参差不齐的问题，使用软件构建的算法，可一次对大批量的数据进行质量评估，通过人性化设置质量要求，筛选出不合格数据，提高数据质量；同时软件设有质控库和大批量样本查重比对功能，可一次对大批量的数据进行质控比对和查重比对，从而排查人源性污染数据，降低样本因人为因素而导致的分型错误；此外在法庭DNA数据库建设过程中存在大量重复性工作，本发明可协助人工快速完成部分重复性工作，提高工作效率，更好的减少劳力成本及人为失误的成本。

目前市场上暂无类似功能软件，但是本发明易被竞争对手模仿以实现与本发明接近的技术效果。最有可能在结果分析模块里根据已有的分析内容构建相似的代码算法，甚至在此基础上进一步的完善优化结果分析的内容及算法，此外文件移动及表格编辑模块亦容易被竞争对手复制，如GeneMapper ID-X软件可新增相似的功能插件，在 GeneMapperID-X软件内实现不同项目之间大批量数据的质量分析及查重比对。故凡依本发明申请专利范围所述的算法所做的等效变化或修饰，均应包括于本发明专利申请范围内。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种DNA检测数据的质量评估方法，其特征在于，所述方法包括以下步骤：

A、获取DNA检测数据信息；

B、根据所述DNA检测数据信息，识别并自动纠正样本类型；

C、根据不同的样本类型，对所述DNA检测数据信息进行分析；

D、导出质量评估结果。

2.如权利要求1所述的DNA检测数据的质量评估方法，其特征在于，所述步骤A具体为：通过用户导入的文件获取所述DNA检测数据信息或从ID-X数据分析软件的Oracle文件获取所述DNA检测数据信息，文件类型支持TXT、DAT、EXCEL格式。

3.如权利要求2所述的DNA检测数据的质量评估方法，其特征在于，所述DNA检测数据信息包括样本板号、孔位、样本编号、及相应的基因座信息。

4.如权利要求3所述的DNA检测数据的质量评估方法，其特征在于，所述DNA检测数据信息还包括样本类型、标本类别、试剂盒种类中的一种或几种。

5.如权利要求2所述的DNA检测数据的质量评估方法，其特征在于，可一次导入1-1000条DNA检测数据，并且可同时分析一次导入的所有数据。

6.如权利要求2所述的DNA检测数据的质量评估方法，其特征在于，可一次导入1001-50000条DNA检测数据，并且可同时分析一次导入的所有数据。

7.如权利要求1所述的DNA检测数据的质量评估方法，其特征在于，所述步骤B包括：

B1、识别样本类型；

B2、判断样本类型是否匹配；

B3、当识别出的样本类型不匹配时，自动纠正样本类型。

8.如权利要求7所述的DNA检测数据的质量评估方法，其特征在于，在所述步骤B2中，还包括：

9.如权利要求1所述的DNA检测数据的质量评估方法，其特征在于，所述步骤C包括：

C2、对样本类型为sample的数据进行质量评估。

10.如权利要求9所述的DNA检测数据的质量评估方法，其特征在于，非sample数据和sample数据各存在一套不同的质量评估标准，优先执行步骤C1，当非sample数据的质量评估不符合预设的标准时，则提示风险，用户可选择人工复核后重新进行质量评估或略过以上风险继续执行步骤C2。

11.如权利要求9所述的DNA检测数据的质量评估方法，其特征在于，在所述步骤C2中，包括偏峰分析、Y-marker分析、检出率分析、结果异同分析和质控库分析中的一种或几种，其中：

Y-marker分析：对文件中读取的信息，按结果分析的标准进行校正，若女性样本的Y-marker上有基因座信息则提示风险，若Y-marker尤其是Y-indel上的基因座信息不符合标准亦提示风险；

12.如权利要求1～11任一项所述的DNA检测数据的质量评估方法，其特征在于，所述方法还包括步骤E：文件移动；所述步骤E具体包括：

E1、读取文件：获取用户导入的原始数据文件信息；

13.如权利要求12所述的DNA检测数据的质量评估方法，其特征在于，在所述步骤E1中，可一次导入1-50000条原始数据文件信息，并且可同时对导入的所有数据进行所需的移动。

14.如权利要求1～11任一项所述的DNA检测数据的质量评估方法，其特征在于，所述方法还包括步骤F：表格编辑；所述步骤F具体包括：

F2、读取文件：获取用户导入的Excel文件信息；

F3、补全固定孔位：软件自动补全非sample孔位；