CN113421176B - 一种学生成绩分数中异常数据智能筛选方法 - Google Patents

一种学生成绩分数中异常数据智能筛选方法 Download PDF

Info

Publication number
CN113421176B
CN113421176B CN202110805616.6A CN202110805616A CN113421176B CN 113421176 B CN113421176 B CN 113421176B CN 202110805616 A CN202110805616 A CN 202110805616A CN 113421176 B CN113421176 B CN 113421176B
Authority
CN
China
Prior art keywords
data
training
data set
sigma
covered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110805616.6A
Other languages
English (en)
Other versions
CN113421176A (zh
Inventor
邓飞
何俊
洪孙焱
岳维好
陈震霆
石宝坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University
Original Assignee
Kunming University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University filed Critical Kunming University
Priority to CN202110805616.6A priority Critical patent/CN113421176B/zh
Publication of CN113421176A publication Critical patent/CN113421176A/zh
Application granted granted Critical
Publication of CN113421176B publication Critical patent/CN113421176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种异常数据智能筛选方法,首先,寻找数据集的中心数据;其次,设置中心半径;第三,数据标注;第四,获取平衡数据集;第五,训练高阶神经网络模型;第六,判断异常数据结论。通过计算机***把判断为异常的数据,自动提取并存储起来。该方法较之于传统的异常数据判别方法,是集判断、抽取、存储为一体的方法,计算简便,直观明了,数据标注原则明确,训练数据集和测试数据集的数据平衡性好,模型具有良好的非线性处理能力,判断结论明确。

Description

一种学生成绩分数中异常数据智能筛选方法
技术领域
本发明涉及数据治理、深度学习领域领域,特别涉及一种学生成绩分数中异常数据智能筛选方法。
背景技术
近年来,我国已将“数字经济”列入国家发展战略,大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
在“数据治理”中,保证数据质量、确保数据的准确性是非常重要的基础工作。在这基础工作中,关注异常数据是关键点,对异常数据的处理是确保数据质量和数据准确性的前提。所以,如何从数据集中筛选出异常数据成为必然。
发明内容
本发明所要解决的技术问题是提供一种,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种学生成绩分数中异常数据智能筛选方法,包括如下步骤:
步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;
步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;
步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;
步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;
步骤5)训练模型,采用Pi-Sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;
步骤6)判断异常数据结论,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。
优选的,将学生成绩分数作为数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个学生的成绩,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1;
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i,μ,∑,μi,∑i均可通过计算得出实际值。
优选的,所述步骤1)中,下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1i-μ)
然后寻找偏移量最小的数据,记为X0
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
优选的,所述步骤2)中,以X0的数据元素为圆心,当X0的数据元素个数为多个时,随机选取其中一个作为圆心,设置初始半径R0,计算1个或者多个圆,对应X0的数据元素个数,覆盖的数据数量:(1)当覆盖的数据数量大于[n/2],缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout
优选的,所述步骤3)中,把Xin里的数据元素,添加标注为0,表示数据正常;把Xout里的数据元素,添加标注为1,表示数据异常;标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
优选的,所述步骤4)中,设训练数据集和测试数据集分别记为H0和H1,从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),
其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),
其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
优选的,所述步骤5)中,Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1;输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
Figure GDA0003814732040000041
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
Figure GDA0003814732040000042
网络误差函数取为传统的平方误差函数:
Figure GDA0003814732040000051
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,
Figure GDA0003814732040000052
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2]。
优选的,所述步骤6)中,针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机***中,为下一步的“数据治理”做准备。
采用以上技术方案的有益效果是:该方法较之于传统的异常数据判别方法,是集判断、抽取、存储为一体的方法,计算简便,直观明了,数据标注原则明确,训练数据集和测试数据集的数据平衡性好,模型具有良好的非线性处理能力,判断结论明确。
附图说明
图1为本发明一种学生成绩分数中异常数据智能筛选方法的流程图;
图2是Pi-Sigma神经网络函数图;
图3是误差变化示意图。
具体实施方式
下面详细说明本发明的优选实施方式。
一种学生成绩分数中异常数据智能筛选方法,首先,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;其次,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;第三,把圆所覆盖的数据,添加标注为0(表示数据正常);把圆没有覆盖的数据,添加标注为1(表示数据异常);第四,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;第五,采用一种Pi-Sigma高阶神经网络来训练模型,利用训练数据集和测试数据集寻找到最优权向量及判断阈值;第六,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理,当实际输出值小于判断阈值时,判断该数据异常;最后,把判断为异常的数据,通过计算机***自动提取并存储起来,为下一步“数据治理”做准备。
把“数据治理”中的一种类型的数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个数据,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1。
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i(μ,∑,μi,∑i均可通过计算得出实际值)。
寻找中心数据:
下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1i-μ)
然后寻找偏移量最小的数据,记为X0
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
设置中心半径:
以X0的数据元素为圆心(当X0的数据元素个数为多个时,随机选取其中一个作为圆心),设置初始半径R0,计算1个或者多个圆(对应X0的数据元素个数)覆盖的数据数量:(1)当覆盖的数据数量大于[n/2](取整),缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout
数据标注:
把Xin里的数据元素,添加标注为0(表示数据正常);把Xout里的数据元素,添加标注为1(表示数据异常)。标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
获取平衡数据集:
设训练数据集和测试数据集分别记为H0和H1。从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
用这种方式获取训练数据集和测试数据集,是为了加强两个数据集的数据平衡性,减少因数据不平衡性导致的模型不准确性。
训练模型:
本专利采用一种高阶神经网络Pi-Sigma神经网络来作为训练模型。针对传统的神经网络结构,只包含一种求和神经元(∑),这种结构效率低下,面对非线性问题时束手无策,而现实生活中到处存在着非线性问题;而Pi-Sigma高阶神经网络结构中包含求积神经元(Π)的前馈神经网络,包含了多项式乘积的特点,很好地提高了网络效率,增强了非线性能力,还有效地克服了“维数灾难”问题。因此,利用Pi-Sigma神经网络来训练模型。
Pi-Sigma神经网络由一个输入层、一个隐含层(求和层)和一个输出层(求积层)组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1(如图2)。输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
Figure GDA0003814732040000091
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
Figure GDA0003814732040000092
网络误差函数取为传统的平方误差函数:
Figure GDA0003814732040000093
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,即
Figure GDA0003814732040000101
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2];
训练以前,对数据集H1进行归一化处理;
通过数据集H1测试Pi-Sigma神经网络,确定模型效果及判断阈值A*(选取的判断阈值,要确保判断结论的准确率最高)。
判断、抽取、存储异常数据:
针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机***中,为下一步的“数据治理”做准备。
实施例
这里以某专业某班级学生的成绩分数为例:
假设该班12名学生的各科成绩如表1。
表1学生成绩表
X 高等数学 大学英语 数据结构 操作*** 数据库原理
X<sub>1</sub> 96 97 68 94 71
X<sub>2</sub> 89 98 78 51 78
X<sub>3</sub> 65 89 76 86 74
X<sub>4</sub> 97 68 85 89 88
X<sub>5</sub> 73 0 84 45 64
X<sub>6</sub> 32 52 13 62 52
X<sub>7</sub> 42 24 25 23 42
X<sub>8</sub> 74 84 74 63 69
X<sub>9</sub> 120 53 85 96 74
X<sub>10</sub> 59 75 76 63 120
X<sub>11</sub> 313 64 55 84 150
X<sub>12</sub> 64 85 74 96 181
数据集X,X=(X1,X2,…,Xi,…,X12),其中,数据集X包含的数据个数为12,Xi为数据集X中的第i个学生的成绩,Xi为1×5的多维数据,即C=1,D=5。
寻找数据集的中心数据:
接下来通过计算子元素Xi与总体数据集X的各个均值与协方差矩阵,得到子元素Xi与总体数据集X的数据偏移量
σ1=30.0963,σ2=16.8609,σ3=13.1709,σ4=11.6793,σ5=97.7867,σ6=110.1493,
σ7=98.1713,σ8=4.0000,σ9=7.4563,σ10=6.2771,σ11=320.0841,σ12=310.0842
根据最小原则,确定出中心数据:X8
设置中心半径:
以中心数据X8为圆心,当半径为R=13时,使该圆所覆盖的数据为6,所覆盖的数据分别为:X2,X3,X4,X8,X9,X10
数据标注:
X2,X3,X4,X8,X9,X10,加标注为0;X1,X5,X6,X7,X11,X12,加标注为1。
获取平衡数据集:
把标注为0的X2,X4,X10列入数据集H0,再把标注为1的X5,X7,X12列入数据集H0,最终形成数据集H0
表2数据集H0
Figure GDA0003814732040000121
把标注为0的X3,X8,X9列入数据集H1,再把标注为1的X1,X6,X11列入数据集H1,最终形成数据集H1
表3数据集H1
Figure GDA0003814732040000131
训练Pi-Sigma高阶神经网络模型:
在训练Pi-Sigma高阶神经网络前,先确认几个参数:
隐含层节点数为:3,最大训练次数为:100000,学习率为:0.01,目标误差为:1.50001,输入层与隐含层的初始权值在0-1之间随机选取。在数据输入前,把H0和H1中的成绩进行归一化处理。
H0数据输入后,得到训练的误差变化如图3所示:
当迭代次数得到24904时,满足误差要求。此时得到最优权向量
w*=0.3465 0.4296 0.4900 -0.1989 -0.3981 -0.1517 1.2246 1.2241 0.98001.3099 1.4715 1.3877 0.5620 0.2308 0.3897 1.0377 1.0586 1.1846
然后保持w*不变,把H1数据输入后,得出实际输出值:
表4测试实际输出值与判断阈值选取表
Figure GDA0003814732040000141
从表4可以看出,当判断阈值取A*=0.5011时,判断结果准确率最高(5/6≈83.33%,X3,X6,X8,X9,X11判断正确,X1判断错误)。
判断异常数据结论:
另外列出三个数据:X13=[95,65,74,86,90];X14=[101,180,89,64,140];X15=[0,100,100,99,100],把这三个数据分别输入训练好的Pi-Sigma模型中,各自的输出值为:y13=0.5011;y14=0.5001;y15=0.5010。
因为y13>=A*,所有X13数据正常;
(分数的取值范围正常情况下为0-100之间,所以X13的判断结论正确)
因为y14<A*,所有X14数据异常,把该数据自动提取处理,存储在计算机***中,为下一步的“数据治理”做准备。
(分数的取值范围正常情况下为0-100之间,而X14的出现了101、180、140等数据,所以X14的判断结论正确)
因为y15<A*,所有X15数据异常,把该数据自动提取处理,存储在计算机***中,为下一步的“数据治理”做准备。
(从X15的成绩可以看出,后面四门课程的成绩为满分或接近满分,应该是优等生,但出现了一门0分,可以推测该学生的成绩异常,所以X15的判断结论正确)
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种学生成绩分数中异常数据智能筛选方法,其特征在于,
将学生成绩分数作为数据处理对象,定义为数据集X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据集X包含的数据个数,Xi为数据集X中的第i个学生的成绩,Xi为C×D的多维数据,当Xi为一个数值时,C=D=1;
设X的所有数据元素样本均值为μ,协方差矩阵为∑,Xi的数据样本均值为μi,协方差矩阵为∑i,μ,∑,μi,∑i均可通过计算得出实际值;
包括如下步骤:
步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;
步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;
步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;
步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;
步骤5)训练模型,采用Pi-Sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;
步骤6)判断异常数据结论,针对待判断的数据,输入训练好的Pi-Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。
2.根据权利要求1所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤1)中,下面通过计算子元素Xi与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,Xi与X的偏移量定义如下:
σi=(μi-μ)'(∑i)-1i-μ)
然后寻找偏移量最小的数据,记为X0
X0={Xi|min(σi),i=1,2,…,n}
X0即为X的中心数据,X0的数据元素个数为1个或者多个。
3.根据权利要求2所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤2)中,以X0的数据元素为圆心,当X0的数据元素个数为多个时,随机选取其中一个作为圆心,设置初始半径R0,计算1个或者多个圆,对应X0的数据元素个数,覆盖的数据数量:(1)当覆盖的数据数量大于[n/2],缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找,把圆所覆盖的所有数据集,记为:Xin;把圆没有覆盖的所有数据集,记为:Xout
4.根据权利要求3所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤3)中,把Xin里的数据元素,添加标注为0,表示数据正常;把Xout里的数据元素,添加标注为1,表示数据异常;标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。
5.根据权利要求4所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤4)中,设训练数据集和测试数据集分别记为H0和H1,从Xin中随机抽取一半的数据,归入H0,再从Xout中随机抽取一半的数据,归入H0,由此得到训练数据集H0;把Xin和Xout剩下的各一半的数据归入H1,由此得到测试数据集H1
H0=(X0,1,X0,2,…,X0,j…,X0,[n/2]),
其中,X0,j=(x0,j,1,x0,j,2,…,x0,j,d,…,x0,j,D),D为X0,j的数据维度,与Xi一致,O0,j为X0,j对应的数据标注值;
H1=(X1,1,X1,2,…,X1,j…,X1,n-[n/2]),
其中,X1,j=(x1,j,1,x1,j,2,…,x1,j,d,…,x1,j,D),D为X1,j的数据维度,与Xi一致,O1,j为X1,j对应的数据标注值。
6.根据权利要求5所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤5)中,Pi-Sigma神经网络由一个输入层、一个隐含层和一个输出层组成,假设输入层、隐含层和输出层的神经元个数分别为N、K和1;输入样本Xm=(xm,1,xm,2,…,xm,N-1,xm,N)T,其中xm,N=-1是对应的阈值,相应的实际输出为y,理想输出为O,wi,k为第i个输入点与第k个求和层结点间的权值,wk=(w1,k,w2,k,…,wi,k,…,wN-1,k,wN,k)为输入层各结点与求和层k结点的权值向量,其中wNk=1,则求和层的hk为:
Figure FDA0003814732030000041
设激活函数为f(x),这里取f(x)为Sigmoid函数(1/1+e-x),则对于样本集(yj,Oj),网络实际输出为:
Figure FDA0003814732030000042
网络误差函数取为传统的平方误差函数:
Figure FDA0003814732030000043
使用梯度算法来训练Pi-Sigma神经网络,目的就是寻找到权值向量w*,使E(w)达到最小,
Figure FDA0003814732030000044
在使用训练数据集H0进行模型训练时:
输入层的神经元个数为:N=D+1,即Xm=(X0,j,-1)T
样本集(yj,Oj)对应的理想输出Oj为:Oj=O0,j,j=[n/2];
训练以前,对数据集H0进行归一化处理;
通过数据集H0训练Pi-Sigma神经网络,找出最优权值向量w*
在使用测试数据集H1进行模型测试时:
输入层、隐含层、输出层的神经元个数保持不变,权值向量为w*
样本集(yj,Oj)对应的理想输出Oj为:Oj=O1,j,j=n-[n/2]。
7.根据权利要求6所述的学生成绩分数中异常数据智能筛选方法,其特征在于,所述步骤6)中,通过数据集H1测试Pi-Sigma神经网络,确定模型效果及判断阈值A*,A*为选取的判断阈值;针对任何一个数据Xi,输入训练好的Pi-Sigma神经网络,对应的实际输出值为yi
当yi>=A*时,判断该数据Xi正常,判断结束;
当yi<A*时,判断该数据Xi异常,把该数据自动提取处理,存储在计算机***中,为下一步的“数据治理”做准备。
CN202110805616.6A 2021-07-16 2021-07-16 一种学生成绩分数中异常数据智能筛选方法 Active CN113421176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110805616.6A CN113421176B (zh) 2021-07-16 2021-07-16 一种学生成绩分数中异常数据智能筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110805616.6A CN113421176B (zh) 2021-07-16 2021-07-16 一种学生成绩分数中异常数据智能筛选方法

Publications (2)

Publication Number Publication Date
CN113421176A CN113421176A (zh) 2021-09-21
CN113421176B true CN113421176B (zh) 2022-11-01

Family

ID=77721082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110805616.6A Active CN113421176B (zh) 2021-07-16 2021-07-16 一种学生成绩分数中异常数据智能筛选方法

Country Status (1)

Country Link
CN (1) CN113421176B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429798A (zh) * 2021-12-31 2022-05-03 王昊昱 一种人工智能筛选错误数据的***及方法

Citations (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184512A (zh) * 2011-05-10 2011-09-14 天津大学 利用手机数据发现城市活动中异常事件的方法
EP2547733A1 (en) * 2010-03-17 2013-01-23 Nanologica AB Enhanced folic acid fluorescent material, multifluorescent porous compositions of matter and potential applications thereof
CN103047946A (zh) * 2012-12-10 2013-04-17 北京航空航天大学 一种基于虚拟数据的轴对称参数分布图像重建方法
CN104779562A (zh) * 2015-04-26 2015-07-15 成都创行信息科技有限公司 爬虫数据中心数据传输线拔线临时定位排放***
CN105976078A (zh) * 2016-03-09 2016-09-28 浪潮通用软件有限公司 一种企业客商主数据的形成方法
CN106204366A (zh) * 2016-07-22 2016-12-07 三峡大学 一种基于模糊推理的法律大数据管理***
CN106564503A (zh) * 2016-11-08 2017-04-19 交通运输部公路科学研究所 产生异常驾驶行为的行为信息确定方法及装置
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法
CN106844977A (zh) * 2017-01-23 2017-06-13 重庆市勘测院 一种市政道路bim设计模型与gis数据集成方法
CN107247885A (zh) * 2017-07-06 2017-10-13 中国水产科学研究院黄海水产研究所 一种电压‑门控钠离子通道的结构预测方法
CN107633301A (zh) * 2017-08-28 2018-01-26 广东工业大学 一种bp神经网络回归模型的训练测试方法及其应用***
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108761227A (zh) * 2018-04-02 2018-11-06 深圳市益鑫智能科技有限公司 一种高铁电能质量数据处理***
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN108921218A (zh) * 2018-06-29 2018-11-30 炬大科技有限公司 一种目标物体检测方法及装置
WO2018232388A1 (en) * 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN109255441A (zh) * 2018-10-18 2019-01-22 西安电子科技大学 基于人工智能的航天器故障诊断方法
CN109283962A (zh) * 2018-09-21 2019-01-29 河南元祖信息技术有限公司 数据安全智慧运维监控***
CN109447674A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 电子装置、保险代理人目标服务区域确定方法及存储介质
CN109508846A (zh) * 2017-09-15 2019-03-22 新奥(中国)燃气投资有限公司 一种机组数据异常波动的检测方法及装置
CN109600792A (zh) * 2019-02-01 2019-04-09 中南民族大学 一种lte mr数据的定位方法
CN109633369A (zh) * 2018-12-08 2019-04-16 国网山东省电力公司德州供电公司 一种基于多维数据相似性匹配的电网故障诊断方法
CN109685122A (zh) * 2018-12-12 2019-04-26 浙江工业大学 一种基于密度峰和引力影响的半监督游客画像数据聚类方法
CN109858509A (zh) * 2018-11-05 2019-06-07 杭州电子科技大学 基于多层随机神经网络单分类器异常检测方法
CN110032609A (zh) * 2019-02-28 2019-07-19 东南大学 一种基于定位数据的生活圈识别方法
CN110175651A (zh) * 2019-05-28 2019-08-27 桂林电子科技大学 一种数据自适应平衡分组方法
CN110232420A (zh) * 2019-06-21 2019-09-13 安阳工学院 一种数据的聚类方法
WO2019245597A1 (en) * 2018-06-18 2019-12-26 Google Llc Method and system for improving cancer detection using deep learning
CN110737726A (zh) * 2018-07-03 2020-01-31 北京京东尚科信息技术有限公司 一种确定待测试接口的测试数据的方法和装置
CN110941603A (zh) * 2019-12-30 2020-03-31 东软集团股份有限公司 一种数据的扩充方法、装置、存储介质和电子设备
WO2020106631A1 (en) * 2018-11-20 2020-05-28 Arterys Inc. Machine learning-based automated abnormality detection in medical images and presentation thereof
CN111310963A (zh) * 2018-12-12 2020-06-19 汉能移动能源控股集团有限公司 电站的发电数据预测方法、装置、计算机设备和存储介质
CN111382862A (zh) * 2018-12-27 2020-07-07 国网辽宁省电力有限公司信息通信分公司 一种电力***异常数据辨识方法
CN112149607A (zh) * 2020-10-08 2020-12-29 吉林大学 基于贝叶斯算法的远程智能运维方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080306346A1 (en) * 2007-06-07 2008-12-11 Claus Ralf A Diagnostic tool detecting the degradation status of Von Willebrand Factor multimers

Patent Citations (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2547733A1 (en) * 2010-03-17 2013-01-23 Nanologica AB Enhanced folic acid fluorescent material, multifluorescent porous compositions of matter and potential applications thereof
CN102184512A (zh) * 2011-05-10 2011-09-14 天津大学 利用手机数据发现城市活动中异常事件的方法
CN103047946A (zh) * 2012-12-10 2013-04-17 北京航空航天大学 一种基于虚拟数据的轴对称参数分布图像重建方法
CN104779562A (zh) * 2015-04-26 2015-07-15 成都创行信息科技有限公司 爬虫数据中心数据传输线拔线临时定位排放***
CN105976078A (zh) * 2016-03-09 2016-09-28 浪潮通用软件有限公司 一种企业客商主数据的形成方法
CN106204366A (zh) * 2016-07-22 2016-12-07 三峡大学 一种基于模糊推理的法律大数据管理***
CN106564503A (zh) * 2016-11-08 2017-04-19 交通运输部公路科学研究所 产生异常驾驶行为的行为信息确定方法及装置
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法
CN106844977A (zh) * 2017-01-23 2017-06-13 重庆市勘测院 一种市政道路bim设计模型与gis数据集成方法
WO2018232388A1 (en) * 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
EP3638115A1 (en) * 2017-06-16 2020-04-22 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN107247885A (zh) * 2017-07-06 2017-10-13 中国水产科学研究院黄海水产研究所 一种电压‑门控钠离子通道的结构预测方法
CN107633301A (zh) * 2017-08-28 2018-01-26 广东工业大学 一种bp神经网络回归模型的训练测试方法及其应用***
CN109508846A (zh) * 2017-09-15 2019-03-22 新奥(中国)燃气投资有限公司 一种机组数据异常波动的检测方法及装置
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108761227A (zh) * 2018-04-02 2018-11-06 深圳市益鑫智能科技有限公司 一种高铁电能质量数据处理***
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
WO2019245597A1 (en) * 2018-06-18 2019-12-26 Google Llc Method and system for improving cancer detection using deep learning
CN108921218A (zh) * 2018-06-29 2018-11-30 炬大科技有限公司 一种目标物体检测方法及装置
CN110737726A (zh) * 2018-07-03 2020-01-31 北京京东尚科信息技术有限公司 一种确定待测试接口的测试数据的方法和装置
CN109447674A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 电子装置、保险代理人目标服务区域确定方法及存储介质
CN109283962A (zh) * 2018-09-21 2019-01-29 河南元祖信息技术有限公司 数据安全智慧运维监控***
CN109255441A (zh) * 2018-10-18 2019-01-22 西安电子科技大学 基于人工智能的航天器故障诊断方法
CN109858509A (zh) * 2018-11-05 2019-06-07 杭州电子科技大学 基于多层随机神经网络单分类器异常检测方法
WO2020106631A1 (en) * 2018-11-20 2020-05-28 Arterys Inc. Machine learning-based automated abnormality detection in medical images and presentation thereof
CN109633369A (zh) * 2018-12-08 2019-04-16 国网山东省电力公司德州供电公司 一种基于多维数据相似性匹配的电网故障诊断方法
CN111310963A (zh) * 2018-12-12 2020-06-19 汉能移动能源控股集团有限公司 电站的发电数据预测方法、装置、计算机设备和存储介质
CN109685122A (zh) * 2018-12-12 2019-04-26 浙江工业大学 一种基于密度峰和引力影响的半监督游客画像数据聚类方法
CN111382862A (zh) * 2018-12-27 2020-07-07 国网辽宁省电力有限公司信息通信分公司 一种电力***异常数据辨识方法
CN109600792A (zh) * 2019-02-01 2019-04-09 中南民族大学 一种lte mr数据的定位方法
CN110032609A (zh) * 2019-02-28 2019-07-19 东南大学 一种基于定位数据的生活圈识别方法
CN110175651A (zh) * 2019-05-28 2019-08-27 桂林电子科技大学 一种数据自适应平衡分组方法
CN110232420A (zh) * 2019-06-21 2019-09-13 安阳工学院 一种数据的聚类方法
CN110941603A (zh) * 2019-12-30 2020-03-31 东软集团股份有限公司 一种数据的扩充方法、装置、存储介质和电子设备
CN112149607A (zh) * 2020-10-08 2020-12-29 吉林大学 基于贝叶斯算法的远程智能运维方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于云计算的数据异常智能检测技术研究";徐静;《自动化与仪器仪表》;20200225(第2期);第23-26页 *

Also Published As

Publication number Publication date
CN113421176A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
Roffo et al. Infinite latent feature selection: A probabilistic latent graph-based ranking approach
Aydadenta et al. A clustering approach for feature selection in microarray data classification using random forest
Tang et al. A pruning neural network model in credit classification analysis
CN108564117B (zh) 一种基于svm的贫困生辅助认定方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和***
CN113421176B (zh) 一种学生成绩分数中异常数据智能筛选方法
CN114609994A (zh) 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
Adeyemo et al. Effects of normalization techniques on logistic regression in data science
CN108153818B (zh) 一种基于大数据的聚类方法
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
Reddy et al. Neural networks for prediction of loan default using attribute relevance analysis
CN114169007B (zh) 基于动态神经网络的医疗隐私数据识别方法
Lasri et al. Toward an effective analysis of COVID-19 Moroccan business survey data using machine learning techniques
Mohseni et al. Improving classification in imbalanced educational datasets using over-sampling
Niu et al. A hybrid model for predicting academic performance of engineering undergraduates
CN115083511A (zh) 基于图表示学习与注意力的***基因调控特征提取方法
Rochman et al. Utilizing LSTM and K-NN for Anatomical Localization of Tuberculosis: A Solution for Incomplete Data.
Veluvolu The Establishment of a Financial Crisis Early Warning System for Domestic Listed Companies Based on Two Neural Network Models in the Context of COVID‐19
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
Mythily et al. An efficient feature selection algorithm for health care data analysis
Liang et al. Research on higher education evaluation system based on AHP-NBM comprehensive evaluation model
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets
Rao et al. Early Prediction of Student Performance Using Deep Neural Networks
Kashani et al. Evolving data stream clustering based on constant false clustering probability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210921

Assignee: Luxi County Yunrui Agricultural Development Co.,Ltd.

Assignor: KUNMING University

Contract record no.: X2023980037184

Denomination of invention: An Intelligent Filtering Method for Abnormal Data in Student Scores

Granted publication date: 20221101

License type: Common License

Record date: 20230628