CN111310108A

CN111310108A - 一种线性拟合方法和***以及储存介质

Info

Publication number: CN111310108A
Application number: CN202010081987.XA
Authority: CN
Inventors: 汪建基; 丁健; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2020-06-19

Abstract

本发明公开了一种线性拟合方法和***以及储存介质，本发明提出的方法可以批量删除噪声点，极大地提高了去噪的效率。本发明在去除数据噪声时，通过利用数据的相关性，与传统方法相比可以快速删除数据中存在的噪声，本发明的拟合方法在数据中存在大量噪声的前提下，仍具有很好的鲁棒性。

Description

一种线性拟合方法和***以及储存介质

技术领域

本发明属于数据拟合领域，具体涉及一种线性拟合方法和***以及储存介质。

背景技术

目前，数据噪声是广泛存在的，例如通过传感器获取到的数据，由于传感器的采集精度，或者与数据采集设备的交互过程中受到的外界干扰，所获取的数据往往包含有噪声，造成数据分析结果的不准确。

在统计学中，线性回归是利用成为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个成为回归系数的模型参数的线性组合。

假设x₁,x₂,...x_d,d个因素，有考虑如下的线性关系式：

y＝β₀+β₁x₁+β₂x₂+...+β_dx_d+ε (1)

对y与x₁,x₂,...x_d同时做n次独立观察的n组观测值(x_t1,x_t2....x_k)，它们满足关系式：

y＝β₀+β₁x_t1+β₂x_t2+...+β_dx_td+ε_t (2)

其中，ε₁...ε_n互不相关均是与ε同分布的随机变量。线性回归得到线性方程的系数估计值(β′₀,β′₁...β′_d)。

最小二乘法(又称最小平方法)是一种数据拟合技术，它通过最小化误差的平方和和寻找数据的最佳函数匹配，利用最小二乘法可以渐变地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和最小。在利用最小二乘法进行线性拟合时，由于数据噪声的存在，该方法拟合出的结果往往和真实的数据模型存在较大的差异。

如果R是k个向量x₁,x₂,…,x_d的相关矩阵，则这些向量的无符号多元相关系数(UCC)r和无符号多元不相关系数(UIC)ω分别定义为：

r²＝1–det(R) (3)

ω²＝det(R) (4)

r和ω的主要性质有：r和ω都是所涉及变量的对称函数；r和ω都属于[0,1]；r＝1当且仅当所涉及变量是线性相关的；r＝0当且仅当所涉及变量两两垂直；一组向量的r值不会小于这些向量中部分向量的r值；如果一组线性无关向量的UMCC值为r，并且这些向量和某个新的非零方差向量的UCC为r′，那么当且仅当新向量垂直于这些变量所张成的超平面时，r′取最小值r。

无符号多元相关系数r和无符号多元不相关系数ω的上述性质表明r和ω是一般性的多元相关性和多元不相关性度量。

传统的线性拟合算法在对数据进行拟合时，由于数据存在噪声，拟合的结果往往不精确，在对数据进行拟合之后，拟合的结果与真实的数据模型存在很大的偏差。

发明内容

本发明的目的在于解决线性拟合时数据存在噪声导致拟合结果不准确的问题，提供一种线性拟合方法和***以及储存介质，能够显著提高数据拟合的准确性和数据拟合的效率。

为了达到上述目的，一种线性拟合方法，包括以下步骤：

步骤一，对于m个d维输入数据P₁,P₂,…,P_m，构造其属性向量x₁,x₂,…,x_d，计算属性向量的无符号不相关系数的平方ω²；

步骤二，通过属性向量的无符号不相关系数的平方ω²判断噪声的大小：

若噪声不满足要求，执行步骤三；

若噪声的大小已满足要求，则执行步骤四；

步骤三，计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方，从整体数据中删除通过该方法获得的最小的n个无符号不相关系数的平方对应的输入数据；将m赋值为m-n,执行步骤一和步骤二；

步骤四，对数据进行拟合，得到拟合方程。

其中，属性向量x₁,x₂,…,x_d的无符号不相关系数的平方ω²等于x₁,x₂,…,x_d的相关矩阵的行列式的值。

步骤一中，输入数据为：

构造其属性向量为：

其中，P_n为第n个d维输入数据，x_nd为第n个数据的第d维分量，x_d为第d个属性向量，集合{r₁,r₂,…,r_m}＝{1,2,…,m}，集合{c₁,c₂,…,c_d}＝{1,2,…,d}。

步骤二的判断方法如下：

判断无符号多元不相关系数的平方ω²是否小于阈值δ，若ω²小于阈值δ，则数据中噪声的大小已满足要求，对数据直接进行拟合，执行步骤四；

若ω²不小于阈值δ，数据噪声不满足要求，执行步骤三。

步骤三的具体方法如下：

第一步，从m个数据中删除一个数据，将剩余数据重复步骤一，得到剩余数据的无符号不相关系数的平方ω²，将该无符号不相关系数的平方值加入数组保存；

第二步，将第一步中删除的数据重新放回，重复第一步，得到每个数据都被删除一次之后，剩余点的无符号多元不相关系数的平方的数列

其中下标表示每次删除数据的顺序数；

第三步，删除

中最小的n个值对应下标的数据点，并将m赋值为m-n；

第四步，继续执行权利要求1中的步骤一和步骤二。

步骤四中利用线性回归方法拟合线性方程。

一种线性拟合方法的***，其特征在于，包括数据预处理模块、数据去噪模块和数据拟合模块，预处理模块连接数据去噪模块，数据去噪模块连接数据拟合模块；

数据预处理模块用于将有噪声数据按维度构造成d个属性向量x₁,x₂,…,x_d，计算属性向量的无符号不相关系数的平方ω²；

数据去噪模块用于判断数据中的噪声，如果噪声不满足要求，则计算每个数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方；从所有单个数据被删除后获得的无符号不相关系数的平方中找到最小的n个无符号不相关系数的平方对应的数据，从整体数据中删除这些数据；对剩余数据计算多元不相关系数的平方，根据该无符号不相关系数的平方判断剩余数据中的噪声是否满足要求，如果噪声不再满足要求，则继续删除数据直到获得的无符号不相关系数的平方小于给定的阈值δ；

数据拟合模块用于对数据进行拟合，得到拟合方程。

一种针对有噪声数据的线性拟合方法的储存介质，包含可执行指令，可执行指令由处理器调用执行，以实现数据处理方法。

与现有技术相比，本发明的首先输入m个数据，按数据维度构造属性向量，计算向量的无符号不相关系数的平方，设定一个阈值并对数据噪音进行判断，若数据噪音较大，则计算每个数据点被删除后剩余数据的无符号不相关系数的平方，对无符号不相关系数的平方排序，删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点；对剩余数据计算多元不相关系数的平方，判断剩余数据是否仍然存在较大噪声，若仍有存在较大噪声，继续删除噪点直到向量无符号不相关系数的平方小于阈值，剩余数据基本符合线性关系；对无噪声数据拟合，得到拟合方程。本方法首先删除数据中存在的噪声点，与其他去噪算法相比，本发明提出的方法可以批量删除噪声点，极大地提高了去噪的效率。本发明在去除数据噪声时，通过利用数据的相关性，与传统方法相比可以快速删除数据中存在的噪声，本发明的拟合方法在数据中存在大量噪声的前提下，仍具有很好的鲁棒性。

附图说明

图1是本发明的实施例所提供的一种针对有噪声数据的线性拟合方法的流程示意图；

图2是本发明实施例中当数据维度k＝3，m＝1810输入的有噪声的数据点；

图3是本发明实施例中对图2有噪声的数据点进行去噪后的结果；

图4是本发明实施例所提供的一种针对有噪声数据的线性拟合方法装置的示意图；

图5是本发明实例所提供的服务器的示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明包括以下步骤：

若噪声较大，执行步骤三；

若噪声的大小已满足要求，则执行步骤四；

步骤四，对数据进行拟合，得到拟合方程。

对于有m个有噪声的数据，每个数据有d个维度，假设数据满足线性关系式：

β₀+β₁x₁+β₂x₂+...+β_dx_d＝0

数据线性拟合的目的是找到最优的方程参数

使得找到的方程参数尽可能接近真实线性关系式的参数。

本发明中所使用的所有符号如m,d,P₁,P₂,…,P_m,x₁,x₂,…,x_d,ω²,r₁,r₂,…,r_m,c₁,c₂,…,c_d,

等都是为了具体表示方便而选择的数据符号，在实际使用中它们都可以替换为任何其他的能够表示正确的符号。

首先对数据按照维度构造k个向量x₀,x₁,...,x_k，计算这些向量的相关矩阵R，根据式(3)可以直接计算这这些向量的无符号不相关系数(UIC)的平方ω²，根据无符号不相关系数的性质，当ω＝0当且仅当所涉及变量是线性相关的，且ω越接近0，所涉及变量越线性相关。当给定一组数据时，为了判断该组数据是否存在噪声，根据无符号并不相关系数设定一个阈值ω_t，当构造的向量的无符号不相关系数的平方ω²大于阈值δ，判定该组数据存在噪声。无符号相关系数r和无符号不相关系数ω都是所涉及变量的对称函数，所以同样地可以通过无符号相关系数r来判断输入的数据是否存在噪声，最小化无符号不相关系数和最大化无符号相关系数是等价的，即当无符号相关系数的平方r²越接近0，数据中包含的噪声越多。向量不相关系数和向量不相关系数的平方是等价的，同样可以通过计算向量不相关系数的d次方来判断数据中是否包含噪声。

如果数据中包有噪声，将数据中的噪声点去除，具体做法是计算删除每个数据点后剩余数据的无符号相关系数，具体方法是，尝试每次从m个数据中删除一个点，剩余点构造向量x′₀,x′₁,...x′_k-1，对这些向量根据公式(3)计算无符号不相关系数，每次从m个数据中挑选一个数据点删除，计算无符号不相关系数的平方，得到m个无符号相关系数ω₁,ω₂,ω₃...ω_i...ω_m。根据无符号不相关系数的性质可以知道，当删除一个数据点后，如果剩余的数据点相关性变大，说明剩余的点更满足线性关系，从而判断该点可能为一个噪声点。当删除一个数据点后，剩余的数据点无符号相关系数与删除前数据点，即无符号多元相关系数越接近0，说明该数据点为噪声最大的点，距离超平面最远。

在计算得到m个数据点尝试被删除后的无符号不相关系数的平方之后，对

进行排序，删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点。在找到最大噪点之后，在m个数据中删掉该点，重新计算m-1个数据的无符号不相关系数的平方ω²。接着在剩余数据中找到最大的噪声点，仍通过上述的算法，在m-1个数据中每个点都被尝试删除，计算剩余点的无符号不相关系数的平方，通过降序排序得到最大的噪点，之后进行删除。

通过上述算法不断删除噪声点，当删除一定次数之后，剩余的数据的无符号不相关系数的平方会接近0，通过设置一个接近0的阈值δ，当剩余数据点的无符号不相关系数的平方小于于阈值δ，认定数据中没有噪声点，去噪过程结束。

对上述去噪算法进行分析，每次去噪过程删除一个噪点，算法运行效率较低。采用如下算法提高去噪算法的运行效率：在得到m个数据点依次尝试被删除之后剩余数据点的无符号不相关系数的平方

之后，上述算法仅删除

中最小的点，改进去噪算法每次删除一定比例的数据点，之后对剩余数据点通过相关性判断是否仍有噪声点，重复删除一定比例的数据点直到剩余数据没有噪声。通过该改进措施，去噪算法运行效率提升，对于存在噪声的数据，该改进去噪算法经过去噪之后，剩余的数据点仍可以通过拟合方法得到数据线性关系的方程参数。

得到无噪声的数据之后，对无噪声的数据进行拟合。可以利用最小二乘法、线性回归方法以及帽子矩阵方法等进行拟合。

实施例：

参见图1，下面以k＝3时的三维数据点为例说明本发明的可行性并给出应用实施例。

步骤一，对于一个需要拟合的数据点，输入三维点如图2所示，数据点个数m＝1810；

步骤二，对输入有m个噪声的数据按照维度构造向量x₀,x₁,x₂；

步骤三，计算向量x₀,x₁,x₂两两之间的皮尔逊相关系数，构成相关矩阵R；

步骤四，根据公式(3)计算向量之间的无符号不相关系数的平方ω²；

步骤五，判断无符号多元不相关系数平方ω²是否大于阈值ω_t，若ω小于阈值δ，数据不存在噪声，对数据直接进行拟合，若ω大于等于阈值δ，数据存在噪声，对数据直接进行拟合；

步骤六，从m个数据删除一个数据，剩余数据重复步骤一至步骤三，计算剩余数据的无符号不相关系数的平方，将该无符号不相关系数平方值加入数组保存；

步骤七，将步骤六中删除的数据重新放回，重复步骤六，得到每个数据都被删除一次之后，剩余点的无符号不相关系数平方值数组

步骤八，对

进行升序序排序，按照一定的比例删除前n个相关系数对应下标的数据点；

步骤九，计算删除点后剩余数据的无符号多元相关系数平方ω^2*，如果ω^2*小于阈值δ，去噪步骤结束，如果ω^2*不小于于阈值δ，对剩余数据点重复步骤一至步骤九；

步骤十，对剩余数据点构造向量并0均值化，得到向量x′₁,x′₂,x′₃，计算每个向量的模长l₁,l₂,l₃，根据拟合公式得到估计的方程参数

对应于图1所示的方法实施例，本发明实施例还提供了一种针对有噪声数据的线性拟合方法的求解装置，输入m个带有噪声的数据，按数据维度构造k个向量，计算k个向量的无符号不相关系数(UIC)的平方ω²，设定一个接近0的阈值δ，如果ω²小于δ，对数据进行拟合，得到拟合方程；如果ω²不小于δ，数据存在噪声，对数据进行去噪，计算每个数据点被删除后剩余数据的无符号不相关系数的平方，对无符号不相关系数的平方排序，删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点；对剩余数据计算多元不相关系数的平方，判断剩余数据是否仍存在噪声点，若仍有剩余的噪声点，继续删除噪点直到向量无符号不相关系数的平方接近0，剩余数据基本符合线性关系；对无噪声数据拟合，得到拟合方程。

如图4所示，一种针对有噪声数据的线性拟合方法的***，包括：数据预处理模块401、数据去噪模块402、数据拟合模块403；其中，

数据预处理模块：将有噪声数据按维度构造成k个向量x₁,x₂,…,x_k，计算向量的无符号不相关系数(UIC)的平方ω²；

数据去噪模块：对于存在噪声的数据，计算每个数据点被删除后剩余数据的无符号不相关系数平方，对无符号不相关系数平方排序，删除排序后从小到大的前n个无符号不相关系数的平方对应的数据点；对剩余数据计算多元不相关系数的平方，根据该无符号不相关系数判断剩余数据是否仍存在噪声点，若仍有剩余的噪声点，继续删除噪点直到向量无符号不相关系数的平方接近0，剩余数据基本符合线性关系，去噪步骤结束；

数据拟合模块：对去噪后的数据进行拟合，得到拟合方程；

对于***或装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图5所示，一种针对有噪声数据的线性拟合方法的储存介质，包含可执行指令，可执行指令由处理器调用执行，以实现数据处理方法。具体包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现本发明实施例所提供的方法。

本发明实施例提供的一种设备，输入m个带有噪声的数据，按数据维度构造k个向量，计算k个向量的无符号不相关系数(UIC)的平方ω²，设定一个接近0的阈值δ，如果ω²小于δ，对数据进行拟合，得到拟合方程；如果ω²不小于δ，数据存在噪声，对数据进行去噪，计算每个数据点被删除后剩余数据的无符号不相关系数的平方，对无符号不相关系数的平方排序，删除排序后从小到大的前n个无符号不相关系数平方值对应的数据点；对剩余数据计算多元不相关系数的平方，判断剩余数据是否仍存在噪声点，若仍有剩余的噪声点，继续删除噪点直到向量无符号不相关系数的平方接近0，剩余数据基本符合线性关系；对无噪声数据拟合，得到拟合方程。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的的一种用户信用评分的获取方法，以获取相同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

实施例2：

本发明使用了属性向量的不相关系数的平方，并且利用属性向量的不相关系数的平方来判断噪声的强弱。事实上，由于最小化无符号不相关系数的平方等价于最大化无符号相关系数的平方，等价于最小化无符号不相关系数，等价于最小化无符号不相关系数加任意常数，等价于最小化无符号不相关系数加任意常数，等价于最小化无符号不相关系数乘以任意大于零的常数等，也等价于最大化无符号不相关系数乘以任意小于零的常数等，所以相应的等价表达都可以参照权利要求中的步骤给出，例如，对于无符号相关系数，在保持其他内容不变时可作如下修改：

本发明包括以下步骤：

步骤一，对于m个d维输入数据P₁,P₂,…,P_m，构造其属性向量x₁,x₂,…,x_d，计算属性向量的无符号相关系数的平方r²；

步骤二，通过属性向量的无符号不相关系数的平方r²判断噪声的大小：

若噪声较大，执行步骤三；

若噪声的大小已满足要求，则执行步骤四；

步骤三，计算每个输入数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号相关系数的平方，从整体数据中删除通过该方法获得的最大的n个无符号相关系数的平方对应的输入数据；将m赋值为m-n,执行步骤一和步骤二；

步骤四，对数据进行拟合，得到拟合方程。

计算属性向量x₁,x₂,…,x_d的无符号相关系数的平方r²，使其值等于1减去x₁,x₂,…,x_d的相关矩阵的行列式的值。

步骤一中的输入数据为：

构造其属性向量为：

步骤二的判断方法如下：

判断无符号多元相关系数的平方r²是否大于阈值δ，若r²大于阈值δ，则数据中噪声的大小已满足要求，对数据直接进行拟合，执行步骤四；

若r²不大于阈值δ，数据存在较大噪声，执行步骤三。

步骤三的具体方法如下：

第一步，从m个数据中删除一个数据，将剩余数据重复步骤一，得到剩余数据的无符号相关系数的平方r²，将该无符号相关系数的平方值加入数组保存；

第二步，将第一步中删除的数据重新放回，重复第一步，得到每个数据都被删除一次之后，剩余点的无符号多元相关系数的平方的数列

其中下标表示每次删除数据的顺序数；

第三步，删除

中最大的n个值对应下标的数据点，并将m赋值为m-n；

第四步，继续执行权利要求1中的步骤一和步骤二。

属性向量有时并不需要实体构造，只需要在计算属性向量的无符号不相关系数时体现这一思想即可。

Claims

1.一种线性拟合方法，其特征在于，包括以下步骤：

若噪声不满足要求，则执行步骤三；

若噪声的大小已满足要求，则执行步骤四；

步骤四，对数据进行拟合，得到拟合方程。

2.根据权利要求1所述的一种线性拟合方法，其特征在于，计算属性向量x₁,x₂,…,x_d的无符号不相关系数的平方ω²，使其值等于x₁,x₂,…,x_d的相关矩阵的行列式的值。

3.根据权利要求1所述的一种线性拟合方法，其特征在于，步骤一中的输入数据为：

构造其属性向量为：

4.根据权利要求1所述的一种线性拟合方法，其特征在于，步骤二的判断方法如下：

若ω²不小于阈值δ，数据噪声不满足要求，执行步骤三。

5.根据权利要求1所述的一种线性拟合方法，其特征在于，步骤三的具体方法如下：

其中下标表示每次删除数据的顺序数；

第三步，删除

中最小的n个值对应下标的数据点，并将m赋值为m-n；

第四步，继续执行权利要求1中的步骤一和步骤二。

6.根据权利要求1所述的一种线性拟合方法，其特征在于，步骤四中利用线性回归方法拟合线性方程。

7.基于权利要求1所述的一种线性拟合方法的***，其特征在于，包括数据预处理模块(401)、数据去噪模块(402)和数据拟合模块(403)，预处理模块(401)连接数据去噪模块(402)，数据去噪模块(402)连接数据拟合模块(403)；

数据预处理模块(401)用于将有噪声数据按维度构造成d个属性向量x₁,x₂,…,x_d，计算属性向量的无符号不相关系数的平方ω²；

数据去噪模块(402)用于判断数据中的噪声，如果噪声不满足要求，则计算每个数据被单独从整体数据中删除后剩余数据构成的属性向量的无符号不相关系数的平方；从所有单个数据被删除后获得的无符号不相关系数的平方中找到最小的n个无符号不相关系数的平方对应的数据，从整体数据中删除这些数据；对剩余数据计算多元不相关系数的平方，根据该无符号不相关系数的平方判断剩余数据中的噪声是否满足要求，如果不满足要求，则继续删除数据直到获得的无符号不相关系数的平方小于给定的阈值δ；

数据拟合模块(403)用于对数据进行拟合，得到拟合方程。

8.一种线性拟合方法的储存介质，其特征在于，包含可执行指令，可执行指令由处理器调用执行，以实现如上述权利要求1至6任一所述的数据处理方法。