CN104133836A

CN104133836A - 一种实现变更数据检测的方法及装置

Info

Publication number: CN104133836A
Application number: CN201410288761.1A
Authority: CN
Inventors: 陈瑭羲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2014-11-05
Anticipated expiration: 2034-06-24
Also published as: WO2015196962A1; US20170154277A1; CN104133836B; US10540600B2

Abstract

本发明公开了一种实现变更数据检测的方法及装置，用于实现检测变更数据是否存在错误变更的情况，该方法包括：记录在版本变更时数据表中各个数据字段的变更状态信息；根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率；当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段；判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，如果否，提示不相匹配的变更数据字段的位置。

Description

一种实现变更数据检测的方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种实现变更数据检测的方法及装置。

背景技术

在应用程序版本变更过程中，往往会涉及到对大量数据的变更。在现有技术中，可以采用精确测试的方式通过对两个版本的程序、代码、资源以及数据进行比对，检测出两者之间的差异，使测试人员可以了解到两个版本之间对于数据进行了哪些调整，从而可以进一步判断这些调整是否符合预期的修改。

但是，在一些数据表中变更数据涉及的字段很多，数据具体含义也不十分明确，会导致数据变更除了负责人之外其他人很难看懂；或者一些数据表的关联性很强，一点改动需要关联修改多条数据甚至多个表格，以上这些情况均需要测试人员耗费大量时间去验证变更的数据是否正常，这在时间紧张的版本测试中是无法实现的。即在现有技术中存在通过人工对大量变更数据进行检测速度慢、效率低下的问题。

发明内容

有鉴于此，本发明提供一种实现变更数据检测的方法及装置，以解决现有技术中对大量变更数据进行检测速度慢、效率低下的问题。

为解决上述问题，本发明提供的技术方案如下：

一种实现变更数据检测的方法，所述方法包括：

记录在版本变更时数据表中各个数据字段的变更状态信息；

根据全部所述变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率；

当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于所述数据表的置信率阈值时，则确定大于所述置信率阈值的置信率分别对应的第二数据字段为组合字段；

判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，如果否，提示不相匹配的变更数据字段的位置，所述组合字段模板为任一所述组合字段或者至少两个不包括相同数据字段的所述组合字段的组合。

相应的，所述根据全部所述变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，包括：

根据全部所述变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数；

将所述在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率。

相应的，所述根据全部所述变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数，包括：

根据全部所述变更状态信息输出变化矩阵表，所述变化矩阵表中第i列第j行的元素代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

相应的，所述将所述在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，包括：

根据所述变化矩阵表输出置信矩阵表，所述置信矩阵表中第i列第j行的元素为将所述变化矩阵表中第i列第j行的元素除以所述变化矩阵表中第i列第i行的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

相应的，所述当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于所述数据表的置信率阈值时，则确定大于所述置信率阈值的置信率分别对应的第二数据字段为组合字段，包括：

当在所述置信矩阵表中第i列的元素存在至少两个大于置信率阈值时，则确定大于所述置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

根据全部所述变更状态信息输出变化矩阵表，所述变化矩阵表中第i行第j列元素的代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

根据所述变化矩阵表输出置信矩阵表，所述置信矩阵表中第i行第j列的元素为将所述变化矩阵表中第i行第j列的元素除以所述变化矩阵表中第i行第i列的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

当在所述置信矩阵表中第i行的元素存在至少两个大于置信率阈值时，则确定大于所述置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

相应的，所述方法还包括：

利用梯度下降算法计算所述数据表的置信率阈值。

一种实现变更数据检测的装置，所述装置包括：

记录单元，用于记录在版本变更时数据表中各个数据字段的变更状态信息；

获得单元，用于根据全部所述变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率；

确定单元，用于当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于所述数据表的置信率阈值时，则确定大于所述置信率阈值的置信率分别对应的第二数据字段为组合字段；

判断单元，用于判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，所述组合字段模板为任一所述组合字段或者至少两个不包括相同数据字段的所述组合字段的组合；

提示单元，用于如果所述判断单元的判断结果为否，提示不相匹配的变更数据字段的位置。

相应的，所述获得单元包括：

记录子单元，用于根据全部所述变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数；

获得子单元，用于将所述在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率。

相应的，所述记录子单元具体用于：

相应的，所述获得子单元具体用于：

相应的，所述确定单元具体用于：

相应的，所述记录子单元具体用于：

相应的，所述获得子单元具体用于：

相应的，所述确定单元具体用于：

相应的，所述装置还包括：

计算单元，用于利用梯度下降算法计算所述数据表的置信率阈值。

由此可见，本发明实施例具有如下有益效果：

本发明实施例通过记录大量在版本变更时数据表中各个数据字段的变更情况，分析获得在任意一张数据表中某些数据字段之间的关联关系，根据数据字段之间的关联关系可以判断出在数据变更时是否存在多改或者漏改了某些数据字段的情况，从而减少了在大量数据变更情况下人工的判断行为，提高了对大量变更数据进行检测的速度与效率。

附图说明

图1为本发明实施例中实现变更数据检测的方法实施例一的流程图；

图2为本发明实施例中实现变更数据检测的方法实施例二的流程图；

图3为本发明实施例中实现变更数据检测的装置实施例的示意图；

图4为本发明实施例中实现变更数据检测方法的服务器实施例的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

在现有技术中，精确测试通过对两个版本的程序、代码、资源以及数据进行对比，检测出两者之间的差异，并根据事先制定好的映射规则，输出具有指导意义的测试内容。尽管在精确测试中已经详细列出了变更前后数值等信息，但是测试人员还需要花费大量时间与精力去验证变更的数据是否正常，特别在版本变更时间紧张时这是很难实现的，如果抱着侥幸心理简单看一下变更数据，那么精确测试所提供的变更数据信息也就失去了意义，无法检测出变更数据是否正常。

本发明实施例提供的实现变更数据检查的方法及装置，是针对现有技术中存在的对大量变更数据进行检测速度慢、效率低下的技术问题，提出利用在不断版本变更中精确测试所积累的海量数据，研究在任意一张数据表中某些数据字段是否有关联，通过这种关联关系在对变更数据进行检测时，直接获得是否存在多改或者漏改了某些数据字段的检测结果，从而可以减少在大量数据变更情况下人工的判断行为，提高对大量变更数据进行检测的速度与效率。

本发明实施例将从实现变更数据检测的装置的角度进行描述，该实现变更数据检测的装置具体可以集成在客户端中，该客户端可以装载在终端中，该终端具体可以为膝上型便携计算机、台式计算机或者服务器等等。

参见图1所示，本发明实施例中提供的实现变更数据检测的方法实施例一，可以包括以下步骤：

步骤101：记录在版本变更时数据表中各个数据字段的变更状态信息。

在每一次版本变更时将数据表中各个数据字段是否发生了变更逐项按顺序进行记录，变更状态信息可以代表某一数据字段是否发生了变更，例如在某次版本变更中数据字段A发生了变更，则数据字段A的变更状态信息可以为1，代表其发生了变更，如果没有发生变更，则其变更状态信息为0。

在具体实现中，可以按照数据表原始数据字段的顺序记录在版本变更时数据表中各个数据字段的变更状态信息，形成一变更状态信息表。例如参见表一所示，是一个变更状态信息表的示例，除了在第一列增加了版本号这一标识字段用于区分各次版本变更，其他的数据字段均与原始数据表中的数据字段保持一致，可以采用简单模型设计，数据字段发生了变更则用1表示，数据字段未发生变更则用0表示，这样可以记录下在每次版本变更时数据表中各个数据字段的变更状态信息。

表一变更状态信息表

版本号	id	buff_remark	name	MaxLayer
					20140601001	0	0	1	0
20140601002	0	0	0	0
					20140602001	1	0	1	0
20140602002	1	0	0	0
					20140602003	1	1	0	0

另外，由于变更状态信息表以当前数据表的结构为基准，即变更状态信息表除版本号字段外其他数据字段与当前数据表中的各个数据字段保持一致，但是为了记录对数据表结构发生的变更，可以在第一行增加一行数据作为数据字段的增加或删除标识位，例如版本号命名为0，其他数据字段用1或者0表示当前版本对应的数据字段是否在使用，当标记为当前版本不使用的数据字段时，后续计算则可以忽略该数据字段的数据，从而提高计算速度。

步骤102：根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率。

A事件发生时B事件同时发生的概率，称为B事件在A事件的置信率。在本发明实施例中，A事件为第一数据字段发生变更，B事件为第二数据字段发生变更，则在第一数据字段发生变更时第二数据字段同时发生变更的概率，为第二数据字段发生变更在第一数据字段发生变更的置信率。

第一数据字段与第二数据字段均为数据表中按顺序的全部字段，以上表中的数据为例，数据表中有四个数据字段：字段id、字段buff_remark、字段name、字段MaxLayer，则第一数据字段为字段id、字段buff_remark、字段name、字段MaxLayer，第二数据字段也为字段id、字段buff_remark、字段name、字段MaxLayer。区分第一数据字段与第二数据字段是因为需要区分A事件与B事件，例如在字段id发生变更时字段buff_remark同时发生变更的概率(此时字段id为第一数据字段、字段buff_remark为第二数据字段)，与字段buff_remark发生变更时字段id同时发生变更的概率(此时字段buff_remark为第一数据字段、字段id为第二数据字段)并不相同。

在本发明的一些实施例中，根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率的具体实现可以包括：

根据全部变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数；

将在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率。

当第一数据字段与第二数据字段为同一数据字段时，在第一数据字段发生变更时第二数据字段同时发生变更的次数即为第一数据字段发生变更的次数。例如第一数据字段(字段id)发生变更时第二数据字段(字段id)同时发生变更的次数，即为第一数据字段(字段id)本身发生变更的次数。

因此，当第一数据字段与第二数据字段为同一数据字段时，在第一数据字段发生变更时第二数据字段同时发生变更的概率为1。例如第一数据字段(字段id)发生变更时第二数据字段(字段id)同时发生变更的概率必然为1。

又例如在字段id发生变更时字段buff_remark同时发生变更的概率等于字段id发生变更时字段buff_remark同时发生变更的次数30除以字段id发生变更时字段id同时发生变更的次数100(即字段id发生变更的次数)，可以得到在第一数据字段(字段id)发生变更时第二数据字段(字段buff_remark)同时发生变更的概率为0.3。

步骤103：当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段。

存在多个事件时，也存在多个事件之间的置信率。在规定一个置信率α的前提下，所有事件在A事件的置信率上大于α的都属于A事件在α的置信模版，小于α的则为A在α置信的独立模板。本步骤则是获取在某一第一数据字段发生变更在置信率阈值的置信模版。

依然以上述数据字段为例，例如第一数据字段为字段id，如果置信率阈值为0.3，则有第一数据字段(字段id)发生变更时第二数据字段(字段id)同时发生变更的概率为1、第一数据字段(字段id)发生变更时第二数据字段(字段buff_remark)同时发生变更的概率为0.3两个置信率大于置信率阈值，则可以确定对应的第二数据字段：字段id与字段buff_remark为组合字段。组合字段相当于组合字段内的各个数据字段具有关联关系，有比较高的可能性一同进行变更。

步骤104：判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，如果否，提示不相匹配的变更数据字段的位置，组合字段模板为任一组合字段或者至少两个不包括相同数据字段的组合字段的组合。

例如，通过步骤103确定了三个组合字段，分别为[字段id、字段buff_remark]、[字段id、字段buff_remark、字段name]、[字段name、字段MaxLayer]，这三个组合字段本身可以为组合字段模板，其中不包括数据字段的组合字段[字段id、字段buff_remark]、[字段name、字段MaxLayer]可以一起组合一个组合字段模板。当当前版本变更时判断变更数据字段的组合是否与获得的组合字段模板相匹配，例如当前变更数据字段为[字段id、字段buff_remark、字段MaxLayer]，则与任一个组合字段模板都不匹配，则有可能是多改了字段MaxLayer，或者是漏改了字段name，需要进行相应的提示。这样通过对记录的数据字段的变更情况，可以快速获得变更数据是否存在多改漏改的检测结果，大量减少了人工进行的判断，提高了检测变更数据的速度与效率。

参见图2所示，本发明实施例中提供的实现变更数据检测的方法实施例二，可以包括以下步骤：

步骤201：记录在版本变更时数据表中各个数据字段的变更状态信息。

在本实施例中，步骤201与步骤101相同，相应说明可以参见上述实施例，在此不再赘述。

步骤202：根据全部变更状态信息输出变化矩阵表。

在本发明的一些实施例中，根据全部变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数的具体实现可以包括：根据全部变更状态信息输出变化矩阵表。

在本发明的一些实施例中，变化矩阵表的具体实现可以包括以下至少两种：

第一种为变化矩阵表中第i列第j行的元素代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

第二种为变化矩阵表中第i行第j列元素的代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

步骤203：根据变化矩阵表输出置信矩阵表。

在本发明的一些实施例中，将在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率的具体实现可以包括：根据变化矩阵表输出置信矩阵表。

在本发明的一些实施例中，对应于上述变化矩阵表的两种具体实现，置信矩阵表的具体实现可以包括以下对应的至少两种：

第一种为置信矩阵表中第i列第j行的元素为将变化矩阵表中第i列第j行的元素除以变化矩阵表中第i列第i行的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率；

第二种为置信矩阵表中第i行第j列的元素为将变化矩阵表中第i行第j列的元素除以变化矩阵表中第i行第i列的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

步骤204：当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段。

在本发明的一些实施例中，对应于上述置信矩阵表的两种具体实现，当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段的具体实现可以包括以下对应的至少两种：

第一种为当在置信矩阵表中第i列的元素存在至少两个大于置信率阈值时，则确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段；

第二种为当在置信矩阵表中第i行的元素存在至少两个大于置信率阈值时，则确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

步骤205：判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，如果否，提示不相匹配的变更数据字段的位置，组合字段模板为任一组合字段或者至少两个不包括相同数据字段的组合字段的组合。

在本实施例中，步骤205与步骤105相同，相应说明可以参见上述实施例，在此不再赘述。

以下将通过具体示例，说明在本实施例中涉及的两种不同的根据全部变更状态信息输出变化矩阵表、根据变化矩阵表输出置信矩阵表、根据置信矩阵表确定组合字段的具体实现形式。

第一种根据全部变更状态信息输出变化矩阵表、根据变化矩阵表输出置信矩阵表、根据置信矩阵表确定组合字段的具体实现形式：

根据全部变更状态信息输出变化矩阵表，变化矩阵表中第i列第j行的元素代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

参见表二所示，是变化矩阵表的示例一，变化矩阵表中列标题代表第一数据字段，行标题代表第二数据字段，例如第1列第2行的元素为第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的次数为30次，而第1列第1行的元素为第1个第一数据字段(字段id)发生变更时第1个第二数据字段(字段id)同时发生变更的次数为100次，即第1个第一数据字段发生变更的次数为100次。

需要注意的是，变化矩阵表为对称矩阵，第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数与第j个第一数据字段发生变更时第i个第二数据字段同时发生变更的次数相同。

表二变化矩阵表示例一

	id	buff_remark	name	MaxLayer
					id	100	30	21	5
buff_remark	30	46	23	3
					name	21	23	50	12
MaxLayer	5	3	12	40

根据变化矩阵表可以输出置信矩阵表，置信矩阵表中第i列第j行的元素为将变化矩阵表中第i列第j行的元素除以变化矩阵表中第i列第i行的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

参见表二所示，是置信矩阵表的示例一，置信矩阵表中列标题代表第一数据字段，行标题代表第二数据字段，例如第1列第2行的元素为第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的概率0.3，是由变化矩阵表中第1列第2行的元素30除以变化矩阵表中第1列第1行的元素100获得的，即由第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的次数除以第1个第一数据字段(字段id)发生变更的次数。

需要注意的是，置信矩阵表并不是对称矩阵，例如字段id发生变更时字段buff_remark同时发生变更的概率为0.3，而字段buff_remark发生变更时字段id同时发生变更的概率为0.6521。

表三置信矩阵表示例一

	id	buff_remark	name	MaxLayer
					id	1	0.6521	0.42	0.125
buff_remark	0.3	1	0.46	0.075
					name	0.21	0.5	1	0.3
MaxLayer	0.05	0.0652	0.24	1

虽然有了置信率，但是一次变更一般是伴随着多个数据字段的变更，于是需要确定哪些数据字段为组合字段。

当在置信矩阵表中第i列的元素存在至少两个大于置信率阈值时，则可以确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

参见表四所示，是组合字段的示例一，置信矩阵表中列标题代表第一数据字段，行标题代表第二数据字段，则每一列元素对应于同一第一数据字段，当一列元素中有大于或等于两个元素大于置信率阈值，则可以确定这些元素对应的行标题字段可以组合为组合字段。例如假设置信率阈值为0.3，置信矩阵表中第1列中有两个元素大于等于0.3，分别是第1个与第2个第二数据字段(字段id、字段buff_remark)，则这两个字段为一个组合字段。同理，在第2列中，第1-3行元素大于置信率阈值，则对应的字段id、字段buff_remark、字段name可以组成一个组合字段；在第3列中，第1-3行元素大于置信率阈值，则对应的字段id、字段buff_remark、字段name可以组成一个组合字段；在第4列中，第3-4行元素大于置信率阈值，则对应的字段name、字段MaxLayer可以组成一个组合字段。表中以列为单位具有灰度的单元格对应的行名称字段即为组合字段。

表四组合字段示例一

这样可以获得[字段id、字段buff_remark]、[字段id、字段buff_remark、字段name]、[字段name、字段MaxLayer]三个组合字段，以及各自独立的字段id、字段buff_remark、字段name、字段MaxLayer四个独立字段。

此时如果有变更记录为[字段id、字段buff_remark、字段MaxLayer]，则通过组合字段模版看出有2种可能：

(1)[字段id、字段buff_remark]和独立字段MaxLayer，当id发生变化时有5％的概率MaxLayer也发生变化，则有95％的概率字段MaxLayer被多改了；

(2)[字段id、字段buff_remark]和[字段name、字段MaxLayer]，字段name最高有30％的概率发生了漏改。

下面再来说明第二种根据全部变更状态信息输出变化矩阵表、根据变化矩阵表输出置信矩阵表、根据置信矩阵表确定组合字段的具体实现形式：

根据全部变更状态信息输出变化矩阵表，变化矩阵表中第i行第j列元素的代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的次数，i、j均为不小于1的整数。

参见表五所示，是变化矩阵表的示例二，变化矩阵表中行标题代表第一数据字段，列标题代表第二数据字段，例如第1行第2列的元素为第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的次数为30次，而第1行第1列的元素为第1个第一数据字段(字段id)发生变更时第1个第二数据字段(字段id)同时发生变更的次数为100次，即第1个第一数据字段发生变更的次数为100次。

需要注意的是，由于变化矩阵表位对称矩阵，因此变化矩阵表的示例一与示例二相同。

表五变化矩阵表示例二

根据变化矩阵表可以输出置信矩阵表，置信矩阵表中第i行第j列的元素为将变化矩阵表中第i行第j列的元素除以变化矩阵表中第i行第i列的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

参见表六所示，是置信矩阵表的示例二，置信矩阵表中行标题代表第一数据字段，列标题代表第二数据字段，例如第1行第2列的元素为第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的概率0.3，是由变化矩阵表中第1行第2列的元素30除以变化矩阵表中第1行第1列的元素100获得的，即由第1个第一数据字段(字段id)发生变更时第2个第二数据字段(字段buff_remark)同时发生变更的次数除以第1个第一数据字段(字段id)发生变更的次数。

表六置信矩阵表示例二

	id	buff_remark	name	MaxLayer
					id	1	0.3	0.21	0.05
buff_remark	0.6521	1	0.5	0.0652
					name	0.42	0.46	1	0.24
MaxLayer	0.125	0.075	0.3	1

当在置信矩阵表中第i行的元素存在至少两个大于置信率阈值时，则可以确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

参见表七所示，是组合字段的示例二，置信矩阵表中行标题代表第一数据字段，列标题代表第二数据字段，则每一行元素对应于同一第一数据字段，当一行元素中有大于或等于两个元素大于置信率阈值，则可以确定这些元素对应的列标题字段可以组合为组合字段。例如假设置信率阈值为0.3，置信矩阵表中第1行中有两个元素大于等于0.3，分别是第1个与第2个第二数据字段(字段id、字段buff_remark)，则这两个字段为一个组合字段。同理，在第2行中，第1-3列元素大于置信率阈值，则对应的字段id、字段buff_remark、字段name可以组成一个组合字段；在第3行中，第1-3列元素大于置信率阈值，则对应的字段id、字段buff_remark、字段name可以组成一个组合字段；在第4行中，第3-4列元素大于置信率阈值，则对应的字段name、字段MaxLayer可以组成一个组合字段。表中以行为单位具有灰度的单元格对应的列名称字段即为组合字段。

表七组合字段示例二

另外，在本发明的一些实施例中，本发明实施例提供的实现变更数据检测的方法实施例还可以包括：利用梯度下降算法计算数据表的置信率阈值。

计算数据表的置信率阈值，需要先计算消耗值，在α置信模板下对数据表对应的全部置信率数据进行模板匹配，所产生的不匹配的数量的总和为α置信模版下的消耗值。假设对错误变更数据进行修改的次数为n，则消耗值介于n-2n之间是合理的。采用梯度下降法，取数据表中已知的最低置信率为起点开始计算对应的消耗值，直到置信率对应的消耗值落入n-2n区间，如果有多个置信率结果满足对应的消耗值落入n-2n区间，则可以取其中最大的置信率为置信率阈值。

其中，梯度下降法的定义为如果实数函数F(x)在点a处可微且有定义，那么函数F(x)在a点沿着梯度相反的方向-▽F(a)下降最快。因而，如果b＝a–γ▽F(a)对于γ>0为一个够小数值时成立，那么F(a)≥F(b)。可以从函数F的局部极小值的初始估计x0出发，如下序列x0、x1、x2、…，使得xn+1＝xn-γn▽F(xn)，n≥0，可得到F(x0)≥F(x1)≥F(x2)≥…，顺利的话序列(xn)收敛到期望的极值，每次迭代步长γ可以改变。

这样，本发明实施例通过记录大量在版本变更时数据表中各个数据字段的变更情况，分析获得在任意一张数据表中某些数据字段之间的关联关系，根据数据字段之间的关联关系可以判断出在数据变更时是否存在多改或者漏改了某些数据字段的情况，从而减少了在大量数据变更情况下人工的判断行为，提高了对大量变更数据进行检测的速度与效率。

相应的，参见图3所示，本发明实施例还提供实现变更数据检测的装置实施例，可以包括：

记录单元301，用于记录在版本变更时数据表中各个数据字段的变更状态信息。

获得单元302，用于根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率。

确定单元303，用于当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段。

判断单元304，用于判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，组合字段模板为任一组合字段或者至少两个不包括相同数据字段的组合字段的组合。

提示单元305，用于如果判断单元的判断结果为否，提示不相匹配的变更数据字段的位置。

在本发明的一些实施例中，获得单元可以包括：

记录子单元，用于根据全部变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数。

获得子单元，用于将在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率。

在本发明的一些实施例中，记录子单元可以具体用于：

获得子单元可以具体用于：

根据变化矩阵表输出置信矩阵表，置信矩阵表中第i列第j行的元素为将变化矩阵表中第i列第j行的元素除以变化矩阵表中第i列第i行的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

确定单元可以具体用于：

当在置信矩阵表中第i列的元素存在至少两个大于置信率阈值时，则确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

在本发明的另一些实施例中，记录子单元可以具体用于：

获得子单元可以具体用于：

根据变化矩阵表输出置信矩阵表，置信矩阵表中第i行第j列的元素为将变化矩阵表中第i行第j列的元素除以变化矩阵表中第i行第i列的元素的结果，代表在第i个第一数据字段发生变更时第j个第二数据字段同时发生变更的概率。

确定单元可以具体用于：

当在置信矩阵表中第i行的元素存在至少两个大于置信率阈值时，则确定大于置信率阈值的元素分别对应的第j个第二数据字段为组合字段。

在本发明的一些实施例中，实现变更数据检测的装置实施例还可以包括：

计算单元，用于利用梯度下降算法计算数据表的置信率阈值。

相应的，本发明实施例还提供一种服务器，参见图4所示，可以包括：

处理器401、存储器402、输入装置403和输出装置404。浏览器服务器中的处理器401的数量可以一个或多个，图4中以一个处理器为例。在本发明的一些实施例中，处理器401、存储器402、输入装置403和输出装置404可通过总线或其它方式连接，其中，图4中以通过总线连接为例。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行浏览器服务器的各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置403可用于接收输入的数字或字符信息，以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。

具体在本实施例中，处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

记录在版本变更时数据表中各个数据字段的变更状态信息；

根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，该概率为第二数据字段发生变更在第一数据字段发生变更的置信率；

当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段；

判断在当前版本变更时变更数据字段的组合是否与组合字段模板相匹配，如果否，提示不相匹配的变更数据字段的位置，组合字段模板为任一组合字段或者至少两个不包括相同数据字段的组合字段的组合。

相应的，根据全部变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，可以包括：

相应的，根据全部变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数，可以包括：

相应的，将在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，可以包括：

相应的，当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于数据表的置信率阈值时，则确定大于置信率阈值的置信率分别对应的第二数据字段为组合字段，可以包括：

相应的，还可以包括：

利用梯度下降算法计算数据表的置信率阈值。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种实现变更数据检测的方法，其特征在于，所述方法包括：

记录在版本变更时数据表中各个数据字段的变更状态信息；

2.根据权利要求1所述的方法，其特征在于，所述根据全部所述变更状态信息获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据全部所述变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，包括：

5.根据权利要求4所述的方法，其特征在于，所述当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于所述数据表的置信率阈值时，则确定大于所述置信率阈值的置信率分别对应的第二数据字段为组合字段，包括：

6.根据权利要求2所述的方法，其特征在于，所述根据全部所述变更状态信息记录在第一数据字段发生变更时第二数据字段同时发生变更的次数，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述在第一数据字段发生变更时第二数据字段同时发生变更的次数除以第一数据字段发生变更的次数，获得在第一数据字段发生变更时第二数据字段同时发生变更的概率，包括：

8.根据权利要求7所述的方法，其特征在于，所述当存在至少两个第二数据字段发生变更在同一第一数据字段发生变更的置信率大于所述数据表的置信率阈值时，则确定大于所述置信率阈值的置信率分别对应的第二数据字段为组合字段，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

利用梯度下降算法计算所述数据表的置信率阈值。

10.一种实现变更数据检测的装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述获得单元包括：

12.根据权利要求11所述的装置，其特征在于，所述记录子单元具体用于：

13.根据权利要求12所述的装置，其特征在于，所述获得子单元具体用于：

14.根据权利要求13所述的装置，其特征在于，所述确定单元具体用于：

15.根据权利要求11所述的装置，其特征在于，所述记录子单元具体用于：

16.根据权利要求15所述的装置，其特征在于，所述获得子单元具体用于：

17.根据权利要求16所述的装置，其特征在于，所述确定单元具体用于：

18.根据权利要求10-17任一项所述的装置，其特征在于，所述装置还包括：