CN110766273A - 一种优化特征权值的半监督聚类教学资产分类方法 - Google Patents
一种优化特征权值的半监督聚类教学资产分类方法 Download PDFInfo
- Publication number
- CN110766273A CN110766273A CN201910871026.6A CN201910871026A CN110766273A CN 110766273 A CN110766273 A CN 110766273A CN 201910871026 A CN201910871026 A CN 201910871026A CN 110766273 A CN110766273 A CN 110766273A
- Authority
- CN
- China
- Prior art keywords
- asset
- teaching
- cluster
- samples
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种优化特征权值的半监督聚类教学资产分类方法。该方法包括:针对资产样本的特性,分析资产属性特征的表现方式,提取资产样本特征项,引入特征项权重计算公式,计算对应的特征项权值,得到资产样本的向量空间表示;对处理后的资产样本进行无监督的初始聚类,得到初始聚类簇;利用样本的成对约束集合对资产样本进行半监督聚类;依据半监督层次聚类结果对新增资产样本分类。本发明将聚类和成对约束结合,用于资产样本的分类,提出基于半监督聚类的资产分类方法,减少了人工分类所需的时间,避免了因主观差异而引起的分类结果不同;同时通过成对约束集合,从而进一步挖掘监督信息所包含的知识,拥有更高的有效性与正确性。
Description
技术领域
本发明涉及一种优化特征权值的半监督聚类教学资产分类方法。
背景技术
教学资产是为各项学习、活动等的有效开展提供的素材等各种可被利用的条件。随着计算机和互联网的不断发展,出现教学资产数量和类别的极速增长,在管理中,如果没有进行分类或分类不准确,将会严重影响教学资产的管理和使用,并且无法从海量的教学资产中找到合适的可利用资产。
现有资产分类方法,多为人工分类,其依赖人们的主观经验。因此存在资产类别划分不同、分类不准确,甚至难于分类等问题。且当样本数量庞大时,人工分类所需的时间和花费巨大。将聚类算法应用到资产分类,可以大大节省人工分类所需的时间和花费,并且避免了人们主观经验对分类结果的影响,因此也得到了越来越多的关注。
目前大多聚类分类完全依赖资产样本的数值类参数,如通过聚类算法,按照资产的使用时长和资产投入金额将资产分为易管理型、难管理型、耗资大型、耗资小型;按照资产的设备总额、使用学生人数、使用教师人数、资产耗材费将教学资产按管理方式分类;按照硬件资产的IP地址、故障报警次数等将资产按故障维护方式分类等。上述分类都是以资产的数值参数作为资产特征进行聚类实现的,此类数值参数如:使用时长、资产投入金额、使用人数、资产耗材费等计算机可以直接处理的数值类特征,称为数值类特征。这类数值类特征可以被计算机直接处理,不需要进一步计算特征权值。但是,这类特征是人们为满足特定的资金管理和维修需求而进行得分类(是人们为衡量资产的耗资多少,是否易于管理及使用情况而进行的分类),且这些数值类特征不是资产的固有特征,只能在使用过程和购买中体现出来,随着资产的使用时间、地点的不同也会发生变化,因此在不同情况下的资产分类结果也有不同,不具备通用性。另外,在高校的资产管理中,人们通常根据资产的用途、资产规格等将资产分类,上述分类方法不符合人们通常按照用途等属性分类的习惯。例如国家标准固定资产分类标准主要是按照资产的经济用途、使用用途进行分类,这是上述分类方法无法实现的。
因此本发明提出依据资产样本的属性特征,对教学资产进行分类。资产属性特征是资产固有的特征,它是客观存在的,不随资产摆放的位置、人们的偏好、工作需求度等改变,如:资产用途、资产形态、资产规格、资产所有权等。例如:在人工分类中,人们通常把资产分为工程建筑、设备装备、图书档案、文物标本、知识产权、自然资源、许可权益、数据信息等,这就是按照资产的用途、形态等按照属性特征对资产进行分类。资产的属性特征不能直接用于聚类,因此,需要先对资产属性特征进行特征提取和特征权值计算,将资产的属性特征转化为计算机可以处理的数值化形式。简单的无差别的特征权值计算方法是:对某一资产样本中出现的属性特征赋值为1,未出现的属性特征赋值为0。但在资产分类中各个属性的重要程度不同,这种计算方法在资产分类中没有区分不同属性特征的差异,因此分类效果并不理想。本方法通过引入权值计算公式,计算不同属性特征的特征权值。
本发明按照教学资产属性特征的来源不同,引入特征权值公式,通过不同的特征权重系数来区分不同来源的属性特征的重要程度,进而将教学资产样本表示为可以被计算机处理的向量空间形式。另外,本方法通过约束集合调整类簇之间的距离,从而利用半监督层次聚类的方法实现对教学资产的分类。
本发明的优点在于:一方面节省了人工分类的时间和资金成本,并且使资产分类结果不受主观经验的影响。另一方面利用资产固有的属性特征对教学资产进行分类,使分类结果具有通用性。此外,考虑了不同来源的特征对教学资产分类的不同影响程度,引入教学资产的属性特征权值计算公式,优化特征权值计算。最后通过半监督方法提高聚类的准确度,改善了教学资产聚类的运行效果。
发明内容
本发明所要解决的技术问题是:现有教学资产的分类过程中人工分类消耗大量成本;自动分类方法单一、不具备通用性,提供一种优化特征权值的半监督聚类教学资产分类方法,将教学资产的一些基本属性作为特征,引入教学资产的属性特征权值计算公式,计算教学资产样本属性特征权值;采用层次聚类方法对教学资产进行分类;通过半监督约束集合,改善聚类结果;依据聚类结果对某一待分类教学资产样本进行分类。
本发明采用的技术方案如下:
一种优化特征权值的半监督聚类教学资产分类方法,包括以下步骤:
步骤一:获取教学资产样本,包括资产名称、资产属性集及资产词条信息。
资产属性集是指某一资产的一部分属性所形成的一个词集,例如某设备的属性集可以为:设备号、功率、型号、供应商、规格、品牌、使用年限等。
资产词条信息即资产的词条解释,例如百度词条、搜狗百科中对某一资产的词条解释。
步骤二:针对教学资产样本的特性,从不同的属性特征来源提取教学资产属性特征,引入教学资产的特征权值计算公式,计算对应的属性特征权值,得到教学资产样本的向量空间表示,具体是:
S21提取教学资产属性特征
在进行资产属性特征提取时,首先按照资产名称、资产属性集及资产词条信息的优先级顺序提取最能描述教学资产样本的多个属性特征,合并语义相似属性特征,去除无关属性,从而减少运行时间,提高运行效率。
语义相似属性特征如:资产名称中仪、器等,均可以表达仪器类资产特征,此时可将这两个语义相似特征合并为同一个属性特征。
无关属性例如:使用期限、品牌等。此时需要去除无关属性,以避免因无关属性过多而使算法运行过长。
S22获取教学资产属性特征权值
将上述属性特征根据其来源(即资产名称、资产属性集和/或资产词条信息),依据资产名称、资产属性集、资产词条信息的优先级顺序排序,设定不同的特征权重系数,教学资产的属性特征权值计算见公式:
其中ωij表示第j个属性特征在第i个教学资产样本中的权重值;α(j)为属性特征来源系数;SD(i)为第i个教学资产样本中包含的确指性属性特征个数;n为从教学资产样本集中提取到的所有属性特征个数。确指性属性特征指可以明确将某教学资产指向某一类别的属性特征,即可以明确将某教学资产划分为某一类别的属性特征,如:若教学资产样本中包含确指性属性特征例如仪、功率等,则可以将该教学资产样本划分为仪器设备类。
S23采用向量空间模型来表示教学资产的属性特征,将选取的教学资产属性特征及其属性特征权值表示成特征向量的形式,即将教学资产看成多维向量空间的一个向量:
在此模型中,一个包含m个教学资产样本,n个属性特征的教学资产样本集合可以表示为向量空间:
C={d1,d2,…dm} 式(2)
每一个教学资产样本Di(1≤i≤m)可以表示为一个n维的行向量:
di=(ωi1,ωi2,…,ωin)T 式(3)
其中(1≤i≤m),T表示转置。
步骤三:对处理后的教学资产样本进行无监督的初始聚类,得到初始聚类簇;具体是:
S31:对于给定样本集合,初始化m个教学资产样本点作为m个类簇,计算m个类簇两两之间的距离,将m个类簇两两之间的距离排列为矩阵的形式,记为初始距离矩阵;具体是:
将任意两个样本D1和D2表示成VSM中的两个向量d1=(ω11,ω12,…,ω1n)T和d2=(ω21,ω22,…,ω2n)T,T表示转置,则样本D1和D2即表示类簇D1和D2,此时两类簇D1和D2的距离计算公式如下:
S32:通过S31中得到的初始距离矩阵,查找每个类簇最近的类簇,将距离最近的两类簇合并形成一个新类簇。
通过查找初始距离矩阵,距离最近的样本会合并为一个类簇,再依次计算合并后的类簇两两之间的距离,计算方法为:
设S是一个包含t个样本的类簇,dx是S中的样本,则S的中心点为:
则类簇S1和S2间的距离即为聚类簇S1和S2的中心点O(S1)和O(S2)之间的距离d(O(S1),O(S2)),即:
d(S1,S2)=d(O(S1),O(S2))=‖O(S1)O(S2)‖ 式(6)
S33:重复步骤S32,直到得到的聚类簇个数为设定的初始聚类簇个数K1。
步骤四:通过吸收经验知识,利用样本的成对约束集合对教学资产样本进行半监督层次聚类,以提高聚类效果的准确度;具体是:
S41:利用经验知识,设定样本集中的成对约束样本集合;
成对约束包括must-link约束和cannot-link约束。其中,must-link约束表示两个样本一定被分配到同一个簇,cannot-link约束代表两个样本一定被分到不同的簇。将某一类簇中的成对约束集合表示为M(S;d)和N(S;d)。M(S;d)指在聚类簇S中与样本d具有must-link约束关系的样本的集合,N(S;d)指在聚类簇S中与样本d具有cannot-link约束关系的样本的集合。相应地,M(S;S′)表示在聚类簇S与聚类簇S′中所有具有must-link约束关系的样本的集合,N(S;S′)表示在聚类簇S与聚类簇S′中所有具有cannot-link约束关系的样本的集合。
S42:结合步骤三初始无监督聚类结果,利用成对约束信息改变聚类簇之间的距离;
所述S42改变聚类簇之间距离的方法为:引入KNN算法,该方法的思路是,如果一个样本dy在与其最接近的t个已有教学资产样本中的大多数属于某一个类别,则该样本也属于这个类别。用表示与样本dy最接近的t个有标记样本(即已有教学资产样本),则样本dy与距离其最近的t个有标记样本的接近程度表示为:
最后用P(S;S′)表示聚类簇S和S′之间的约束程度:
其中ρu表示样本du与距离其最近的t个有标记样本的接近程度;ρl表示样本dl与距离其最近的t个有标记样本的接近程度;表示聚类簇S和S′间的must-link约束程度;表示聚类簇S和S′间的cannot-link约束程度。
当P(S;S′)>1时则认为S是must-link约束于S′;当P(S;S′)<1时则认为S是cannot-link约束于S′。
根据约束程度P(S;S′),聚类簇S1和聚类簇S2的距离被改变为:
d′(S1,S2)=d(O(S1),O(S2))P(S1;S2)P(S2;S1)式(9)
其中O(S1)和O(S2)分别为聚类簇S1和S2的中心点;d(O(S1),O(S2))为聚类簇S1和S2的中心点O(S1)和O(S2)之间的距离。
S43:寻找两个距离最近的聚类簇,依据层次聚类算法原理,将距离最近的聚类簇合并为一个聚类簇;
S44:重复步骤S43,直到得到的聚类簇个数为设定的教学资产类别个数K;
步骤五:依据步骤四半监督层次聚类结果对待分类教学资产样本分类。
若待分类教学资产为已有教学资产,则按照半监督层次聚类结果将教学资产样本分类到所属的类别。若待分类教学资产为新增教学资产样本Dm+1,初始化新增教学资产样本Dm+1为类簇Sm+1,则所述新增教学资产Dm+1与K个教学资产类别的距离为:
d(Sm+1,Si)=‖O(Sm+1),O(Si)‖式(10)
比较式(10)的距离计算结果,确定K个所述教学资产类别中与待分类教学资产拥有最小距离的目标教学资产类别,将所述新增教学资产加入目标教学资产类别。
本发明按照教学资产属性特征的来源不同,引入特征权值公式,通过不同的特征权重系数来区分不同来源的属性特征的重要程度,进而将教学资产样本表示为可以被计算机处理的向量空间形式。另外,本方法通过约束集合调整类簇之间的距离,从而利用半监督层次聚类的方法实现对教学资产的分类。
本发明相较于现有的人工分类技术,大大节省了分类所需的人力和时间,同时避免了因人们主观经验不同导致的分类结果差异。相较于简单的无差别的权值赋值方法,本发明按照教学资产属性特征的来源不同,引入教学资产属性特征权值计算公式,通过改变权重系数,使教学资产特征权值按照重要程度对应不同的数值。此方法突出不同教学资产样本的差异性,使分类结果更加准确,减小分类结果误差。相较于无监督的聚类方法,本发明通过约束集合实现半监督聚类,有效改善了聚类结果的准确度。
附图说明
图1是本发明教学资产样本的分类方法流程图。
图2是本发明基于约束的半监督聚类算法子流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明将基于半监督聚类的分类方法应用到教学资产分类中去,依据资产样本特性,提取教学资产样本属性特征、计算属性特征权值;并根据样本空间向量进行初始聚类计算;通过半监督学习方法,添加约束集合信息,调整教学资产聚类簇的距离,以优化教学资产数据的聚类效果;依据半监督聚类结果对新增教学资产进行分类。
如图1所示,为本发明所示的一种教学教学资产样本的分类方法,包括:
(1)获取高校教学资产样本;
(2)半监督聚类算法对教学资产样本集聚类。
(3)依据半监督层次聚类结果对待分类教学资产样本分类。
以下是对各部分的详细说明:
(1)获取高校教学资产样本。按照高校资产管理要求,高校已有的教学资产在录入资产管理***时已经录入了资产名称、填入了资产属性集信息,这些信息形成了高校特有的资产数据库。因此,某一高校已有教学资产样本集可以通过计算机导入到聚类算法中。按照教学资产数据库的资产信息,将教学资产类别名称及类别数确定为:房屋类、仪器设备类、图书档案类、家具用品类,4大类。
区别于其他样本,教学资产属性特征可以从三个途径获得,即:资产名称、资产属性集、词条信息。选出最能代表资产类别概念的特征。例如:教学资产样本的类别信息大多可以从其名称中获得如楼、仪、器、机、架、桌、纸等,而部分教学资产参数中如面积、功率、出版社等属性也能反映其类别信息,此外,对于不常见的或新增未知的教学资产,可以通过其资产词条信息解释中获取类别属性特征。
例如:教学资产样本数据库中,某教学楼的信息为:资产名称:第二教学科研楼,资产属性集:开发方、地址、总面积、建筑类型、开工日期、竣工日期等;教学资产样本数据库中,某品牌投影仪的信息为:资产名称:投影仪(或投影机),资产属性集:型号、功率、规格、供应商、使用期限等;教学资产样本数据库中,某图书的信息为:资产名称:机器人技术与应用,资产属性集:出版社、出版日期、出版编号、使用年限等。需要说明的是:对于此类已有资产一般不需要资产词条信息解释。对于不常见的或新增未知的教学资产,可以通过其词条信息解释中获取类别属性特征,如“觇标又称测标,设置在三角点或导线点上供观测或测站照准使用的标架”,此时可提取“的”后的关键词特征“标架”作为其属性特征。
(2)如图2半监督聚类算法对教学资产样本集聚类。此处半监督聚类算法具体包括:教学资产样本属性特征提取和特征权值计算;教学资产样本集的向量空间表示;初始无监督聚类;带有约束信息的半监督聚类。
教学资产样本属性特征提取和特征权值计算:
获取上述教学资产样本后,提取对样本属性,主要是合并语义相同或相似特征,去除无关属性。如上述教学资产某品牌投影仪:名称投影仪(或投影机),其中“仪”和“机”为同义词,应该合并为同一个特征项。而其资产属性集中,供应商、使用期限为与分类无关的属性,应该去除此类特征,以减少算法运行时间。按照资产名称、资产属性集的优先级顺序,对上述某品牌投影仪的特征提取为:仪、额定功率、额定电压、规格。其中,确指性属性特征如:仪、功率可以明确将教学资产划分为仪器设备类,属性特征型号、规格为非确指性属性特征,其并不能表示此教学资产一定属于仪器设备,但与仪器设备类也存在联系。任意经特征提取后,包含上述特征的教学资产和投影仪同属于同一类教学资产类别的可能性更高。经上述处理后将教学资产属性特征按照资产名称、资产属性集及资产词条信息的优先级顺序提取教学资产属性特征,这里的优先级顺序为认为设定。
提取属性特征后,计算特征权值。经特征提取后,对某教学资产所述的教学资产样本集样本集,确定其属性特征个数为12,某教学资产样本中包含的确指性属性特征个数为3。将提取到的属性特征按照先确指性属性特征,后非确指性属性特征的顺序排列,且所有确指性属性特征、非确指性属性特征分别按照其来源的优先级排序为,资产名称来源属性特征,资产属性集来源属性特征,资产词条信息来源属性特征。令依据教学资产的属性特征权值计算公式(1)可以计算出样本特征项权重。
投影仪的特征项“仪”的特征权值计算方法为:假设此投影仪为第3个样本,其属性特征“仪”在教学资产样本集的12个属性特征的排列序号为1,其属性特征“额定功率”在12个属性特征的排列序号为2,其属性特征“额定电压”在12个属性特征的排列序号为6,其属性特征“规格”在12个属性特征的排列序号为10,则上述四个属性特征在此教学资产投影仪中的特征权值分别为:ω31=0.911;ω32=0.3205;ω36=0.254;ω310=0.0519,其余在该教学资产样本中未提取到的属性特征权值均为0。
教学资产样本的向量空间表示:
此教学资产样本集用中,包含15个教学资产样本,12个属性特征,每一个教学资产样本Di(1≤i≤m)可以表示为一个n维的行向量di=(ωi1,ωi2,…,ωin)T,(1≤i≤m),T表示转置。。其中ωij表示第j个属性特征在第i个资产样本中的权重值,具体数值通过上述特征项权重计算公式得到。完成向量转换操作之后,将各个样本的空间向量坐标存放于空间向量库当中,用于下一步的样本间距离计算。如上述教学资产样本D3“投影仪”的可以表示为向量:
d3=(0.736,0.575,0,0,0,0.321,0,0,0,0.158,0,0)T
在教学资产样本中台式计算机、摄像机、投影仪有一定的相似度,同属于仪器设备,所以这三个样本间坐标差异较小,而其中投影仪、摄像机相似度更高,因此这两个向量所处的坐标差异更小。例:教学资产样本D1“台式计算机”可以表示为向量:d1=(0.692,0.514,0,0,0.341,0.302,0,0,0,0.148,0,0)T,教学资产样本D2“摄像机”可以表示为向量:d2=(0.73,0.571,0,0,0,0.318,0,0,0,0.156,0,0.124)T。
初始无监督聚类:
经过教学资产样本数据预处理和结构化转化操作之后,每一个教学资产样本Di对应一个向量di。然后利用样本间距离度量公式,计算教学资产样本之间的距离,作为衡量样本是否可聚类到同一个聚类簇的依据。则教学资产样本D1、D2、D2两两之间的距离为:d(D1,D2)=0.366,d(D1,D3)=0.346,d(D2,D3)=0.124。将距离最近的教学资产样本合并成一个类簇,即将D2(摄像机)和D3(投影仪)合并为一个类簇S1,D1(台式计算机)为类簇S2。计算类簇S1的中心点O(S1)的坐标为:(0.733,0.573,0,0,0,0.32,0,0,0,0.157,0,0.062),则类簇S1和类簇S2间的距离为d(S1,S2)=0.351。计算所有样本和所有类簇间的距离,不断合并距离最近的两类形成一个新类,直到得到的聚类簇个数为设定的初始聚类簇个数K1=7。
利用成对约束进行半监督聚类:
对给定的教学资产样本数据进行初始无监督聚类分类,得到初始分类结果。由于初始无监督聚类不具备学习能力,其分类准确性并不理想。因此,下面增加半监督环节对聚类方法进一步改进。基于约束的半监督聚类算法子流程图如图2所示。
对于一个己进行初始聚类的教学资产样本集{Di},设其所形成的聚类分组为{S1,S2,…SN}初始的聚类个数为Y=K1=7,设定教学资产样本类别个数为4,即要求输出聚类簇个数K=4;计算所有的P(S;S′),此处使用带有约束信息例如:类簇S1与样本d1具有must-link约束关系,类簇S2与样本d1具有cannot-link约束关系,从而利用公式调整类簇S1与类簇S2间的距离。计算调整后7个类间的距离,寻找两个最近的聚类簇(Sp,Sq),合并这两个聚类簇为一个新的聚类簇Sr,并令Y=Y-1,如果Y=K=4,算法停止,输出结果;如果Y>K,则返回到上一步,再次计算所有的P(S;S′)和所有的距离d(S,S′),重新寻找距离最近的两个聚类簇并合并,直到Y=K=4。
输出半监督聚类结果,即4类教学资产中分别包含15个教学资产样本中的哪些样本:
S1(仪器设备类):D1,D2,D3,D6,D7,D13
S2(房屋类):D5,D8,D10,D14
S3(图书档案类):D4,D9,D11
S4(家具用品类):D12,D15
(3)依据半监督层次聚类结果对待分类教学资产样本分类。
输入待分类教学资产Dr,若待分类教学资产为已有教学资产,例如待分类教学资产为D3,则按照半监督层次聚类结果将教学资产样本分类到D3所属的类别S1(仪器设备类)。
若待分类教学资产为新增教学资产,通过教学资产样本特征提取、教学资产样本特征项权值计算,得到新增教学资产样本D16对应的向量d16=(0.738,0.577,0,0,0,0.322,0,0,0,0,0.141,0)T,分别计算所述新增教学资产样本D16与最终输出的4个教学资产类别的距离d(Dm+1,Si),(i=1,2,3,4),比较这4个距离,确定4个所述教学资产类别中与新增教学资产距离最小的目标教学资产类别,将所述新增教学资产加入目标教学资产类别。如:分别计算样本D16与类簇S1,S2,S3,S4间的距离,比较上述4个距离,若D16与类簇S1的距离的距离最近,则将样本D16分类到类簇S1中。
本发明按照教学资产属性特征的来源不同,引入教学资产属性特征权值计算公式,通过改变权重系数,使教学资产属性特征权值按照重要程度对应不同的数值。此方法突出教学资产样本的差异性,使分类结果更加准确,减小分类结果误差。相较于无监督的聚类方法,本发明结合经验知识,通过约束集合实现半监督聚类,有效提高教学资产分类的准确性。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (4)
1.一种优化特征权值的半监督聚类教学资产分类方法,其特征在于包括以下步骤:
步骤一:获取教学资产样本,包括资产名称、资产属性集及资产词条信息;
步骤二:针对教学资产样本的特性,从不同的属性特征来源提取教学资产属性特征,引入教学资产的特征权值计算公式,计算对应的属性特征权值,得到教学资产样本的向量空间表示。
步骤三:对处理后的教学资产样本进行无监督的初始聚类,得到初始聚类簇;
步骤四:通过吸收经验知识,利用样本的成对约束集合对教学资产样本进行半监督层次聚类,以提高聚类效果的准确度;具体是:
S41:利用经验知识,设定样本集中的成对约束样本集合;
成对约束包括must-link约束和cannot-link约束;其中,must-link约束表示两个样本一定被分配到同一个簇,cannot-link约束代表两个样本一定被分到不同的簇;将某一类簇中的成对约束集合表示为M(S;d)和N(S;d);M(S;d)指在聚类簇S中与样本d具有must-link约束关系的样本的集合,N(S;d)指在聚类簇S中与样本d具有cannot-link约束关系的样本的集合;相应地,M(S;S′)表示在聚类簇S与聚类簇S′中所有具有must-link约束关系的样本的集合,N(S;S′)表示在聚类簇S与聚类簇S′中所有具有cannot-link约束关系的样本的集合;
S42:结合步骤三初始无监督聚类结果,利用成对约束信息改变聚类簇之间的距离;
S43:寻找两个距离最近的聚类簇,将距离最近的聚类簇合并为一个聚类簇;
S44:重复步骤S43,直到得到的聚类簇个数为设定的教学资产类别个数K;
步骤五:依据步骤四半监督层次聚类结果对待分类教学资产样本分类;
若待分类教学资产为已有教学资产,则按照半监督层次聚类结果将教学资产样本分类到所属的类别;若待分类教学资产为新增教学资产,则计算所述新增教学资产与K个教学资产类别的距离,依据距离比较结果确定K个所述教学资产类别中与待分类教学资产拥有最小距离的目标教学资产类别,将所述新增教学资产加入目标教学资产类别。
2.如权利要求1所述的一种优化特征权值的半监督聚类教学资产分类方法,其特征在于步骤二具体是:
S21提取教学资产属性特征
在进行资产属性特征提取时,首先按照资产名称、资产属性集及资产词条信息的优先级顺序提取最能描述教学资产样本的多个属性特征,合并语义相似属性特征,去除无关属性;
S22获取教学资产属性特征权值
将上述属性特征根据其来源,依据资产名称、资产属性集、资产词条信息的优先级顺序排序,设定不同的特征权重系数,教学资产的属性特征权值计算见公式:
其中ωij表示第j个属性特征在第i个教学资产样本中的权重值;α(j)为属性特征来源系数;SD(i)为第i个教学资产样本中包含的确指性属性特征个数;n为从教学资产样本集中提取到的所有属性特征个数;
S23采用向量空间模型来表示教学资产的属性特征,将选取的教学资产属性特征及其属性特征权值表示成特征向量的形式,即将教学资产看成多维向量空间的一个向量:
在此模型中,一个包含m个教学资产样本,n个属性特征的教学资产样本集合可以表示为向量空间:
C={d1,d2,…dm} 式(2)
每一个教学资产样本Di(1≤i≤m)可以表示为一个n维的行向量:
di=(ωi1,ωi2,…,ωin)T 式(3)
其中(1≤i≤m),T表示转置。
3.如权利要求2所述的一种优化特征权值的半监督聚类教学资产分类方法,其特征在于步骤三具体是:
S31:对于给定样本集合,初始化m个教学资产样本点作为m个类簇,计算m个类簇两两之间的距离,记为初始距离矩阵;具体是:
将任意两个样本D1和D2表示成VSM中的两个向量d1=(ω11,ω12,…,ω1n)T和d2=(ω21,ω22,…,ω2n)T,T表示转置,则样本D1和D2即表示类簇D1和D2,此时两类簇D1和D2的距离计算公式如下:
S32:通过距离矩阵d(D1,D2),查找每个类簇最近的类簇,将距离最近的两类簇合并形成一个新类簇;
通过查找初始距离矩阵,距离最近的样本会合并为一个类簇,再依次计算合并后的类簇两两之间的距离,计算方法为:
设S是一个包含t个样本的类簇,dx是S中的样本,则S的中心点为:
则类簇S1和S2间的距离为:
d(S1,S2)=d(O(S1),O(S2))=||O(S1)O(S2)|| 式(6)
S33:重复步骤S32,直到得到的聚类簇个数为设定的初始聚类簇个数K1。
4.如权利要求3所述的一种优化特征权值的半监督聚类教学资产分类方法,其特征在于所述S42改变聚类簇之间距离的方法为:
如果一个样本dy在与其最接近的t个已有教学资产样本中的大多数属于某一个类别,则该样本也属于这个类别;用表示与样本dy最接近的t个有标记样本,则样本dy与距离其最近的t个有标记样本的接近程度表示为:
最后用P(S;S′)表示聚类簇S和S′之间的约束程度:
其中ρu表示样本du与距离其最近的t个有标记样本的接近程度;ρl表示样本dl与距离其最近的t个有标记样本的接近程度;表示聚类簇S和S′间的must-link约束程度,表示聚类簇S和S′间的cannot-link约束程度;
当P(S;S′)>1时则认为S是must-link约束于S′;当P(S;S′)<1时则认为S是cannot-link约束于S′;
根据约束程度P(S;S′),聚类簇S1和聚类簇S2的距离被改变为:
d′(S1,S2)=d(O(S1),O(S2))P(S1;S2)P(S2;S1)式(9)
其中,O(S1)和O(S2)分别为聚类簇S1和S2的中心点,d(O(S1),O(S2))为聚类簇S1和S2的中心点O(S1)和O(S2)之间的距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871026.6A CN110766273A (zh) | 2019-09-16 | 2019-09-16 | 一种优化特征权值的半监督聚类教学资产分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910871026.6A CN110766273A (zh) | 2019-09-16 | 2019-09-16 | 一种优化特征权值的半监督聚类教学资产分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766273A true CN110766273A (zh) | 2020-02-07 |
Family
ID=69329951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910871026.6A Pending CN110766273A (zh) | 2019-09-16 | 2019-09-16 | 一种优化特征权值的半监督聚类教学资产分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766273A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897962A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN112200212A (zh) * | 2020-08-17 | 2021-01-08 | 广州市自来水有限公司 | 一种基于人工智能的企业物资分类目录构建方法 |
CN112506930A (zh) * | 2020-12-15 | 2021-03-16 | 北京三维天地科技股份有限公司 | 一种基于机器学***台 |
CN113035281A (zh) * | 2021-05-24 | 2021-06-25 | 浙江中科华知科技股份有限公司 | 医疗数据的处理方法及装置 |
CN113052534A (zh) * | 2021-03-30 | 2021-06-29 | 上海东普信息科技有限公司 | 基于半监督聚类的地址分配方法、装置、设备及存储介质 |
CN113239968A (zh) * | 2021-04-15 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 实现服务器分类的方法、装置、计算机存储介质及终端 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
-
2019
- 2019-09-16 CN CN201910871026.6A patent/CN110766273A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897962A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN111897962B (zh) * | 2020-07-27 | 2024-03-15 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN112200212A (zh) * | 2020-08-17 | 2021-01-08 | 广州市自来水有限公司 | 一种基于人工智能的企业物资分类目录构建方法 |
CN112506930A (zh) * | 2020-12-15 | 2021-03-16 | 北京三维天地科技股份有限公司 | 一种基于机器学***台 |
CN113052534A (zh) * | 2021-03-30 | 2021-06-29 | 上海东普信息科技有限公司 | 基于半监督聚类的地址分配方法、装置、设备及存储介质 |
CN113052534B (zh) * | 2021-03-30 | 2023-08-01 | 上海东普信息科技有限公司 | 基于半监督聚类的地址分配方法、装置、设备及存储介质 |
CN113239968A (zh) * | 2021-04-15 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 实现服务器分类的方法、装置、计算机存储介质及终端 |
CN113035281A (zh) * | 2021-05-24 | 2021-06-25 | 浙江中科华知科技股份有限公司 | 医疗数据的处理方法及装置 |
CN115310879A (zh) * | 2022-10-11 | 2022-11-08 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN115310879B (zh) * | 2022-10-11 | 2022-12-16 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766273A (zh) | 一种优化特征权值的半监督聚类教学资产分类方法 | |
Wang et al. | Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning | |
Roy et al. | Inferring concept prerequisite relations from online educational resources | |
Chen et al. | General functional matrix factorization using gradient boosting | |
KR20190118477A (ko) | 엔티티 추천 방법 및 장치 | |
Ma et al. | Course recommendation based on semantic similarity analysis | |
Isljamovıc et al. | PREDICTING STUDENTS’ACADEMIC PERFORMANCE USING ARTIFICIAL NEURAL NETWORK: A CASE STUDY FROM FACULTY OF ORGANIZATIONAL SCIENCES | |
Santoso et al. | The analysis of student performance using data mining | |
Karan et al. | FAQIR–a frequently asked questions retrieval test collection | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
Wang et al. | Data-driven flow cytometry analysis | |
Ramachandran et al. | Integration of machine learning algorithms for E-Learning System course recommendation based on Data Science | |
García-Romero et al. | Another brick in the wall: a new ranking of academic journals in Economics using FDH | |
Alsultanny | Selecting a suitable method of data mining for successful forecasting | |
CN103279549A (zh) | 一种目标对象的目标数据的获取方法及装置 | |
Tone et al. | How to deal with non-convex frontiers in data envelopment analysis | |
Zahir et al. | Access plan recommendation: A clustering based approach using queries similarity | |
Hafdi et al. | Student Performance Prediction in Learning Management System Using Small Dataset | |
Rashid et al. | Student Career Recommendation System Using Content-Based Filtering Method | |
Darwiesh et al. | A business intelligence system for governing risks in SMEs | |
Siahaan et al. | Implementation of Data Mining Using the K-Nearest Neighbor Method to Determine the feasibility of a lecturer's functional promotion | |
Wang et al. | Personalized recommendation method of ideological and political education resources based on data mining | |
Wang | Summary of Research on Learning Analysis Based on Educational Big Data | |
Göksün et al. | The role of learning analytics in distance learning: a SWOT analysis | |
Prakash et al. | App Review Prediction Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |