CN116226747A - 数据分类模型的训练方法、数据分类方法和电子设备 - Google Patents

数据分类模型的训练方法、数据分类方法和电子设备 Download PDF

Info

Publication number
CN116226747A
CN116226747A CN202310124795.6A CN202310124795A CN116226747A CN 116226747 A CN116226747 A CN 116226747A CN 202310124795 A CN202310124795 A CN 202310124795A CN 116226747 A CN116226747 A CN 116226747A
Authority
CN
China
Prior art keywords
data
data set
classification
classification model
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310124795.6A
Other languages
English (en)
Inventor
孙思齐
邹丹
薛蕊
王沛然
吴江
邵赛
杨东盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Original Assignee
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Railway Sciences Corp Ltd CARS, Institute of Computing Technologies of CARS, Beijing Jingwei Information Technology Co Ltd filed Critical China Academy of Railway Sciences Corp Ltd CARS
Priority to CN202310124795.6A priority Critical patent/CN116226747A/zh
Publication of CN116226747A publication Critical patent/CN116226747A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种数据分类模型的训练方法、数据分类方法和电子设备。其中,数据分类模型的训练方法包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,根据各个数据集样本对应的类别标签和分类结果对初始数据分类模型的模型参数进行更新,以得到训练好的数据分类模型;将预分类数据集基于与分类体系的距离进行归堆,将距离近的数据集输入到预训练好的分类模型中进行分类。通过以上分类模型,对待分类数据进行分类效率较高。

Description

数据分类模型的训练方法、数据分类方法和电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数据分类模型的训练方法、数据分类方法和电子设备。
背景技术
随着信息技术的不断发展,各行各业积累了大量的数据,如何对数据进行分类管理和存储是需要关注的重点问题。
例如,伴随着轨道交通科技的不断发展和信息化水平的不断完善,铁路行业积累了海量的数据资源,如何对海量数据资源进行有效管控利用成为了铁路行业亟待解决的问题。铁路数据服务平台是铁路大数据应用的基础支撑,是铁路行业的基础性数据平台,用于整合全路的数据资源。数据分类是建立统一、准确、完善的数据资源目录的基础,也是数据管理的一项关键内容,良好的数据分类有助于帮助企业从海量数据中迅速定位有价值的信息,实现数据的规范存储、管理和高效应用。在当前铁路数据分类过程中,面对海量的铁路数据,不仅需要耗费大量具备铁路业务知识的人力判断标记,还同时要耗费大量资金投入和大量时间,严重影响工作效率。
因此,现有技术中通过人工对数据进行分类的方法效率较低。
发明内容
本发明提供一种数据分类模型的训练方法、数据分类方法和电子设备,用以解决现有技术中通过人工对数据进行分类效率较低的技术问题。
一方面,本发明提供一种数据分类模型的训练方法,包括:
获取多个数据集样本,以及各个数据集样本对应的类别标签;
将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
根据本发明提供的一种数据分类模型的训练方法,所述初始数据分类模型包括数据预处理模块、特征提取模块、支持向量机网络和层次分类器;所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果包括:
针对每个所述数据集样本执行以下处理:
将所述数据集样本输入至所述数据预处理模块中,得到所述数据集样本对应的数据集特征;
将所述数据集特征输入至所述特征提取模块中,得到所述数据集样本对应的特征集合;
将所述数据集样本对应的特征集合和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵;
将所述特征分类矩阵输入至所述层次分类器中,得到所述数据集样本对应的预测分类结果。
根据本发明提供的一种数据分类模型的训练方法,所述初始数据分类模型还包括权重赋值模块;
所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果还包括:
将所述特征集合输入至所述权重赋值模块,以对所述特征集合中的每个特征进行权重赋值,得到加权特征集;
将所述数据集样本对应的加权特征集和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵。
根据本发明提供的一种数据分类模型的训练方法,所述获取多个数据集样本,以及各个数据集样本对应的类别标签包括:
获取多个初始数据集;
针对每个所述初始数据集执行以下处理:
对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;
采用最临近算法计算所述第一向量和第二向量之间的距离,将距离小于或等于预设阈值的初始数据集作为数据集样本。
根据本发明提供的一种数据分类模型的训练方法,还包括:将距离大于所述预设阈值的初始数据集作为异常数据集,采用人工提取和标注的方法获取所述异常数据集对应的类别;
根据所述异常数据集对应的类别更新或者扩展所述预设的数据分类体系叶子节点。
根据本发明提供的一种数据分类模型的训练方法,所述预设的数据分类体系叶子节点为铁路业务数据分类体系叶子节点;
所述铁路业务数据分类体系叶子节点包括以下类别中的多个:
人力资源、综合协同、战略决策、建设管理、资产经营开发、财务管理、调度、货运、客户、设施装备、安全管控和物资管理。
另一方面,本发明还提供一种数据分类方法,包括:
获取待分类的数据集;
将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述任一种所述的数据分类模型。
另一方面,本发明还提供一种数据分类模型的训练装置,包括:
第一获取单元,用于获取多个数据集样本,以及各个数据集样本对应的类别标签;
第一处理单元,用于将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
更新单元,用于根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
另一方面,本发明还提供一种数据分类装置,包括:
第二获取单元,用于获取待分类的数据集;
第二处理单元,用于将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述任一种所述的数据分类模型。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的数据分类模型的训练方法,或者实现如上述任一种所述的数据分类方法。
本发明提供的数据分类模型的训练方法,其包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。这样采用训练后得到的数据分类模型,对待分类数据进行分类效率较高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据分类模型的训练方法的流程示意图;
图2为本发明实施例的初始数据分类模型的结构示意图;
图3为本发明实施例提供的铁路业务数据分类体系示意图;
图4为本发明实施例提供的数据集样本获取方法的流程示意图;
图5为本发明实施例提供的聚类方法示意图;
图6为本发明实施例提供的数据分类方法流程示意图;
图7为本发明实施例提供的铁路业务数据分类流程示意图;
图8为本发明实施例提供的训练和识别阶段数据处理流程图;
图9为本发明实施例提供的数据分类模型的训练装置结构示意图;
图10为本发明实施例提供的数据分类装置的结构示意图;
图11本发明实施例提供电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本发明的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本发明提供一种数据分类模型的训练方法,主要用于对数据进行分类。本发明基于深度学习的思想,首先获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。然后采用训练后的数据分类模型对待分类数据进行分类效率较高。
进一步的,本发明的数据分类方案尤其针对铁路业务数据分类领域,首先对铁路业务数据进行人工分类,构建一个铁路数据分类体系,数据分类体系叶子节点表示各类别,在训练数据分类模型时,采用铁路业务数据作为模型的训练样本,同时结合铁路数据分类体系,使得训练得到的数据分类模型可以将待识别数据划分到铁路数据分类体系的一个类别中,提高了铁路业务数据的分类效率。
下面,将通过下述几个具体的实施例对本发明提供的数据分类模型的训练方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的数据分类模型的训练方法的流程示意图,该数据分类模型的训练方法可以由软件和/或硬件装置执行。示例地,该硬件装置可以为嵌入式设备,或者个人电脑、或者服务器等设备。本实施例以铁路业务数据分类为例,对本发明的数据分类模型的训练方法进行说明,示例的,请参见图1所示,该数据分类模型的训练方法可以包括:
S101:获取多个数据集样本,以及各个数据集样本对应的类别标签。
示例的,本实施例以铁路词林作为语料库,从语料库获取多个数据集样本,然后提取每个数据集样本的关键词作为数据集样本对应的类别标签。
示例的,根据业务的需要,确定待分类的数据集合,数据分类的最小单元为业务层面不能再细分的最小数据集。因此,本实施例获取的数据集样本也为业务层面的最小数据集。
S102:将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果。
示例的,图2为本发明实施例的初始数据分类模型的结构示意图,如图2,该初始数据分类模型包括数据预处理模块201、特征提取模块202、支持向量机网络203和层次分类器204。
其中,将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果包括:
针对每个数据集样本执行以下处理:
将数据集样本输入至数据预处理模块中,数据预处理模块得到数据集样本对应的数据集特征。将数据集特征输入至特征提取模块中,得到数据集样本对应的特征集合;具体的,首先使用铁路内部分词平台对训练数据进行分词,形成词集;然后过滤掉词集中无意义词汇,形成特征集合;对于任意一个最小数据集,如果包含某个特征词则标记为1,不包含则标记为0,如此可将任意最小数据集转化为对应的初始特征向量,初始特征向量表示如下:
DATA=<O1,O2...Oi...On>,(i=1,2,3...,n)
其中,
Figure BDA0004081725460000071
将数据集样本对应的特征集合和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵。其中,预设的分类项为铁路业务数据的分类项,例如,本实施例中的铁路分类项包括12个大的分类项,每个大的分类项又包括多个小的分类项。其中,首先构建样本数据集×特征向量的二元数据集特征矩阵A;再在特征矩阵A中加入数据集分类信息(即分类项)以形成机器学习的对象,即在A矩阵基础上加入一个分类列向量,形成矩阵B。
Figure BDA0004081725460000081
其中横向每行为一个最小数据集,i=1,2,3...,n;纵向每列为一个特征,j=1,2,3...,m。
Figure BDA0004081725460000082
其中,C1…Cm为对应的铁路业务分类的类别,i=1,2,3...,n;j=1,2,3...,m。
最后,将特征分类矩阵输入至层次分类器中,得到数据集样本对应的预测分类结果。其中,层次分类器也可以理解为层次分类器。
本实施例选用层次分类法将铁路业务分类体系转化为树状层次结构,层次分类法采取“递归”策略,从根节点开始,通过训练为每个节点建立多元分类器(元类个数对应叶子节点个数),图3为本发明实施例提供的铁路业务数据分类体系示意图,例如图3中的战略决策、建设管理等可以理解为节点,而战略决策和建设管理下包括的子分类可以理解为子节点,元类个数可以理解为叶子节点个数,最小数据集对应的类别即为叶子节点对应的类别,每个最小数据集均采用铁路数据分类叶子节点项进行标记,且每一个最小数据集均只对应一个分类类别。在数据分析时,从根节点开始逐层分析直到到达无法继续细分的叶子节点,分类过程即结束。图3展示了层次分类法的原理,虚线箭头标出了测试实例层次分类的方向。引入支持向量机方法,通过学习获得层次分类器。
示例的,为了使得分类的结果更加精确,本实施例的初始数据分类模型还包括权重赋值模块;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果还包括:将特征集合输入至权重赋值模块,以对特征集合中的每个特征进行权重赋值,得到加权特征集;将数据集样本对应的加权特征集和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵。
具体的,为了使得分类的结果更加精确,需要根据特征的重要程度对特征集进行赋权。数据集信息描述来源一般有数据集名称(数据集名摘要)、摘要和字段名称等,从这几类文本中都可以提取出数据集特征描述。数据集名是数据集内容的深度概括;摘要文本篇幅较长,是对数据集内容的详细描述;字段名是数据集内部数据内容的一个个缩影,但是由于在实际应用场景中,字段命名多以英文格式进行,且中文解释较少,含义挖掘可能性较低。所以,在最终训练过程中选择采用数据集名称和摘要作为训练的特征来源,其中数据集名的权重>摘要权重。根据数据集名称和摘要对数据集内容的反应程度深浅,为特征词赋予不同权值,修正数据集的特征向量。
例如:Oi=WT×HTi+WS×HSi,其中,WT和WS分别表示数据集名称、摘要的权重;HTi和HSi分别表示第i个特征词在数据集名和摘要中出现次数。
S103:根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
示例的,根据数据集样本对应的类别标签和预测分类结果构建误差损失函数,对初始数据分类模型的模型参数进行更新,直到更新后的数据分类模型收敛,将收敛的数据分类模型确定为最终训练得到的图像处理模型。
其中,由于本实施例训练的数据分类模型是基于预先建立好的铁路业务数据分类体系完成的,因此只有对铁路业务数据分类体系包括的类别才能实现准确分类,为了避免无法识别的(即无效的)数据集样本,本实施例在获取数据集样本时首先剔除不符合标准的数据集。具体的,请参考图4,获取多个数据集样本,以及各个数据集样本对应的类别标签包括:
S401、获取多个初始数据集。
示例的,本实施例以铁路词林作为语料库,获取多个初始数据集。然后转入步骤S402,即对于每个初始数据集执行以下步骤S402和S403的处理。
S402、对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;其中,GloVe模型(Global Vectors)是以铁路词林作为语料库,多次训练得到的,可以进行词的向量化表示。同时,运行运用GloVe文本模型将待分类数据集名称、铁路数据分类体系叶子节点转化为向量表示。
S403、采用最临近算法计算第一向量和第二向量之间的距离,将距离小于或等于预设阈值的初始数据集作为数据集样本。
具体的,基于距离的聚类KNN(K-Nearest Neighbor)算法,依次计算每个待分类的初始数据集节点与铁路数据分类体系中叶子节点间的距离,按照距离递增排序,再将计算的距离与预设阈值进行比较,如果大于阈值,则认为该初始数据集是异常点,否则认为是正常点,如图5,将正常点与异常点(大于预设阈值的节点)对应的初始数据集分别过滤归堆,将正常点对应的初始数据集作为数据集样本,将数据集样本对应的数据分类体系中叶子节点的类别作为对应的类别标签。
示例的,将距离大于预设阈值的初始数据集作为异常数据集,采用人工提取和标注的方法获取所述异常数据集对应的类别;根据异常数据集对应的类别更新或者扩展预设的数据分类体系的叶子节点,使得数据分类体系包括的叶子节点更加丰富,即可以识别更多的数据类别。
本实施例提供的铁路业务数据的分类体系如下表1所示,该铁路业务数据分类体系叶子节点包括以下大的类别:人力资源、综合协同、战略决策、建设管理、资产经营开发、财务管理、调度、货运、客户、设施装备、安全管控和物资管理,每个大的类别中包括多种小类别。
表1:铁路业务数据分类体系表
Figure BDA0004081725460000111
/>
Figure BDA0004081725460000121
经过测试,采用本实施例训练方法得到的数据分类模型,对待分类的铁路业务数据进行分类时,分类效率较高,且分类准确。
图6为本发明实施例提供的数据分类方法流程示意图,如图6所示,该数据分类方法包括:
S601:获取待分类的数据集。
S602:将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果;其中,数据分类模型为采样上述实施例的模型训练方法训练得到的数据分类模型。
可选的,本实施例的数据分类模型可以包括:数据预处理模块、特征提取模块、支持向量机网络和层次分类器。请参考图2和图8,将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果包括:
将待分类的数据集输入至数据预处理模块中,得到待分类的数据集对应的数据集特征;将数据集特征输入至特征提取模块中,得到待分类的数据集对应的特征集合;将数据集样本对应的特征集合和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵;
将特征分类矩阵输入至层次分类器中,得到待分类的数据集对应的预测分类结果。
可选的,数据分类模型还可以包括权重赋值模块;将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果还包括:
将待分类的数据集对应的特征集合输入至权重赋值模块,以对特征集合中的每个特征进行权重赋值,得到加权特征集;将数据集样本对应的加权特征集和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵,将特征分类矩阵输入至层次分类器中,得到待分类的数据集对应的预测分类结果。
可选的,请参考图7,在将待分类的数据集输入到数据分类模型之前,还对待分类的数据集进行以下预处理:
对待分类数据集名称、数据分类体系叶子节点进行关键特征词提取,并采用训练好的GloVe模型将所述初始数据集名称和预设的数据分类体系叶子节点分别转化为第一向量和第二向量;
采用最临近算法计算第一向量和第二向量之间的距离,将距离小于或等于预设阈值的待分类的数据集作为正常的待分类的数据集,将距离大于预设阈值的待分类的数据集作为异常的待分类的数据集。然后将正常的待分类的数据集输入到数据分类模型,得到待分类的数据集对应的预测分类结果,对于异常的待分类的数据集,采用人工提取和标注的方法获取其对应的类别;根据异常的待分类的数据对应的类别更新或者扩展预设的数据分类体系叶子节。
采用本实施例提供的数据分类方法,对待分类的铁路业务数据进行分类时,分类效率较高,且分类准确。
图9为本发明实施例提供的数据分类模型的训练装置结构示意图,如图9,该训练装置70包括:第一获取单元701、第一处理单元702和更新单元703。
其中,第一获取单元701用于获取多个数据集样本,以及各个数据集样本对应的类别标签;第一处理单元702,用于将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;更新单元703,用于根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
可选的,本实施例的初始数据分类模型的结构示意图,如图2,该初始数据分类模型包括数据预处理模块201、特征提取模块202、支持向量机网络203和层次分类器204。
其中,将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果包括:
针对每个数据集样本执行以下处理:
将数据集样本输入至数据预处理模块中,数据预处理模块得到数据集样本对应的数据集特征。将数据集特征输入至特征提取模块中,得到数据集样本对应的特征集合。将数据集样本对应的特征集合和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵。最后,将特征分类矩阵输入至层次分类器中,得到数据集样本对应的预测分类结果。
可选的,本实施例的初始数据分类模型还可以包括包括权重赋值模块;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果还包括:将特征集合输入至权重赋值模块,以对特征集合中的每个特征进行权重赋值,得到加权特征集;将数据集样本对应的加权特征集和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵。
可选的,本实施例的第一获取单元701具体用于,获取多个初始数据集,针对每个所述初始数据集执行以下处理:
对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;
采用最临近算法计算所述第一向量和第二向量之间的距离,将距离小于或等于预设阈值的初始数据集作为数据集样本。
图10为本发明实施例提供的数据分类装置的结构示意图,如图10所示,该数据分类装置80包括第二获取单元801和第二处理单元802。
其中,第二获取单元801,用于获取待分类的数据集。第二处理单元802,用于将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果;其中,数据分类模型为上述实施例提供的训练好的数据分类模型。
可选的,本实施例的数据分类模型可以包括:数据预处理模块、特征提取模块、支持向量机网络和层次分类器。第二处理单元802,具体用于将待分类的数据集输入至数据预处理模块中,得到待分类的数据集对应的数据集特征;将数据集特征输入至特征提取模块中,得到待分类的数据集对应的特征集合;将数据集样本对应的特征集合和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵;
将特征分类矩阵输入至层次分类器中,得到待分类的数据集对应的预测分类结果。
可选的,数据分类模型还可以包括权重赋值模块;第二处理单元802,还用于将待分类的数据集对应的特征集合输入至权重赋值模块,以对特征集合中的每个特征进行权重赋值,得到加权特征集;将数据集样本对应的加权特征集和预设的分类项输入至支持向量机网络中,得到包括特征和分类项的特征分类矩阵,将特征分类矩阵输入至层次分类器中,得到待分类的数据集对应的预测分类结果。
可选的,第二获取单元801,具体用于对待分类的数据集进行以下预处理:
对待分类的数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将待分类的数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;
采用最临近算法计算第一向量和第二向量之间的距离,将距离小于或等于预设阈值的待分类的数据集作为正常的待分类的数据集,将距离大于预设阈值的待分类的数据集作为异常的待分类的数据集。然后将正常的待分类的数据集输入到数据分类模型,得到待分类的数据集对应的预测分类结果。
图11示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)830和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行上述各方法提供的数据分类模型的训练方法,或者执行上述各方法提供的数据分类方法。
其中,数据分类模型的训练方法包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
其中,数据分类方法包括:获取待分类的数据集;将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果;其中,所述数据分类模型为上述各方法提供的训练好的数据分类模型。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法提供的上述各方法提供的数据分类模型的训练方法,或者执行上述各方法提供的数据分类方法。
其中,数据分类模型的训练方法包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
其中,数据分类方法包括:获取待分类的数据集;将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果;其中,所述数据分类模型为上述各方法提供的训练好的数据分类模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的上述各方法提供的数据分类模型的训练方法,或者执行上述各方法提供的数据分类方法。
其中,数据分类模型的训练方法包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
其中,数据分类方法包括:获取待分类的数据集;将待分类的数据集输入到数据分类模型中,得到待分类的数据集的分类结果;其中,所述数据分类模型为上述各方法提供的训练好的数据分类模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据分类模型的训练方法,其特征在于,包括:
获取多个数据集样本,以及各个数据集样本对应的类别标签;
将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
2.根据权利要求1所述的数据分类模型的训练方法,其特征在于,所述初始数据分类模型包括数据预处理模块、特征提取模块、支持向量机网络和层次分类器;所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果包括:
针对每个所述数据集样本执行以下处理:
将所述数据集样本输入至所述数据预处理模块中,得到所述数据集样本对应的数据集特征;
将所述数据集特征输入至所述特征提取模块中,得到所述数据集样本对应的特征集合;
将所述数据集样本对应的特征集合和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵;
将所述特征分类矩阵输入至所述层次分类器中,得到所述数据集样本对应的预测分类结果。
3.根据权利要求2所述的数据分类模型的训练方法,其特征在于,所述初始数据分类模型还包括权重赋值模块;
所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果还包括:
将所述特征集合输入至所述权重赋值模块,以对所述特征集合中的每个特征进行权重赋值,得到加权特征集;
将所述数据集样本对应的加权特征集和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵。
4.根据权利要求1所述的数据分类模型的训练方法,其特征在于,所述获取多个数据集样本,以及各个数据集样本对应的类别标签包括:
获取多个初始数据集;
针对每个所述初始数据集执行以下处理:
对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;
采用最临近算法计算所述第一向量和第二向量之间的距离,将距离小于或等于预设阈值的初始数据集作为数据集样本。
5.根据权利要求4所述的数据分类模型的训练方法,其特征在于,还包括:将距离大于所述预设阈值的初始数据集作为异常数据集,采用人工提取和标注的方法获取所述异常数据集对应的类别;
根据所述异常数据集对应的类别更新或者扩展所述预设的数据分类体系叶子节点。
6.根据权利要求4所述的数据分类模型的训练方法,其特征在于,所述预设的数据分类体系叶子节点为铁路业务数据分类体系叶子节点;
所述铁路业务数据分类体系叶子节点包括以下类别中的多个:
人力资源、综合协同、战略决策、建设管理、资产经营开发、财务管理、调度、货运、客户、设施装备、安全管控和物资管理。
7.一种数据分类方法,其特征在于,包括:
获取待分类的数据集;
将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述权利要求1-6任一项所述的数据分类模型。
8.一种数据分类模型的训练装置,其特征在于,包括:
第一获取单元,用于获取多个数据集样本,以及各个数据集样本对应的类别标签;
第一处理单元,用于将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
更新单元,用于根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
9.一种数据分类装置,其特征在于,包括:
第二获取单元,用于获取待分类的数据集;
第二处理单元,用于将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述权利要求1-6任一项所述的数据分类模型。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的数据分类模型的训练方法,或者实现如权利要求7所述的数据分类方法。
CN202310124795.6A 2023-02-06 2023-02-06 数据分类模型的训练方法、数据分类方法和电子设备 Pending CN116226747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310124795.6A CN116226747A (zh) 2023-02-06 2023-02-06 数据分类模型的训练方法、数据分类方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310124795.6A CN116226747A (zh) 2023-02-06 2023-02-06 数据分类模型的训练方法、数据分类方法和电子设备

Publications (1)

Publication Number Publication Date
CN116226747A true CN116226747A (zh) 2023-06-06

Family

ID=86588645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310124795.6A Pending CN116226747A (zh) 2023-02-06 2023-02-06 数据分类模型的训练方法、数据分类方法和电子设备

Country Status (1)

Country Link
CN (1) CN116226747A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402241A (zh) * 2023-06-08 2023-07-07 浙江大学 一种基于多模型的供应链数据预测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402241A (zh) * 2023-06-08 2023-07-07 浙江大学 一种基于多模型的供应链数据预测方法及装置
CN116402241B (zh) * 2023-06-08 2023-08-18 浙江大学 一种基于多模型的供应链数据预测方法及装置

Similar Documents

Publication Publication Date Title
CN111222305B (zh) 一种信息结构化方法和装置
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及***
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
US10977290B2 (en) Transaction categorization system
CN109948160B (zh) 短文本分类方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112836509A (zh) 一种专家***知识库构建方法及***
CN110704616A (zh) 设备告警工单识别方法及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN114691525A (zh) 测试用例的选择方法及装置
CN113849653A (zh) 一种文本分类方法及装置
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备
CN111930944B (zh) 文件标签分类方法及装置
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN112860900B (zh) 文本分类方法、装置、电子设备及存储介质
CN115033699A (zh) 基金用户分类方法及装置
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN111914915A (zh) 基于支持向量机的数据分类器集成方法、装置及存储介质
CN111309904A (zh) 一种基于广义特征词库的公共数据分级方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination