CN114780438A

CN114780438A - 一种基于k-means算法测试产品的方法、***、设备和存储介质

Info

Publication number: CN114780438A
Application number: CN202210595423.7A
Authority: CN
Inventors: 吴磊; 王电轻
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-05-29
Filing date: 2022-05-29
Publication date: 2022-07-22

Abstract

本发明提供一种基于K‑MEANS算法测试产品的方法、***、设备和存储介质，方法包括：根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；根据所述样本集合通过K‑MEANS算法进行快速聚类以选出预设数量个聚类中心；以及将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。本发明通过K‑MEANS聚类算法进行模块缺陷聚类，寻找缺陷集中的子模块，对精准测试和提高存储***的可靠性起到关键作用。

Description

一种基于K-MEANS算法测试产品的方法、***、设备和存储介质

技术领域

本发明涉及存储测试领域，更具体地，特别是指一种基于K-MEANS算法测试产品的方法、***、设备和存储介质。

背景技术

随着IT(Information Technology，信息技术)领域技术的不断发展，金融等行业数据中心对存储***的可靠性要求越来越高，这就对存储***的可靠性提出了严格的要求，而软件***的缺陷是无法穷尽的，在软件测试活动中，80％的缺陷发生在20％的模块中，这就需要对精准测试提出了较高的要求，基于存储***往往出现缺陷集群的效应，且这些缺陷涉及的模块或者子模块往往是频繁出现的，因此特别需要软件测试人员通过对已测试出来的bug(漏洞)进行缺陷分析，快速找到缺陷集中的子模块进行质量加固，特别是在回归测试时，这将决策产品如何选择测试模块和用例集。由于版本迭代快，不可能选择所有的用例进行测试覆盖，而且还要决策重点反复测试哪些模块或子模块。当想要探索存储***集中出现问题的模块时，通过缺陷分析是一种很好的方法，但是对于大型的功能模块，像存储NAS，FC SAN将面临大量的测试用例，这就无法快速寻找到缺陷集中的子模块进行质量加固和测试覆盖了。

传统缺陷分析方法往往是通过分类的方式进行分析的，首先把缺陷进行特征标记，每个缺陷都会生成一组特征数据，通过这个特征数据把不同的缺陷划分开，其过程是通过人工训练缺陷数据集获得一个分类器，再通过分类器对新的缺陷分类，这属于有监督的学习，这依赖先验知识的积累，且存在认知瓶颈，只能分类已知的特征，但是存储***代码量庞大，逻辑复杂，不是通过有限认知就可以覆盖所有特性模块的，模块分类比较笼统，譬如远程复制模块，其实按拓扑类型分为FC远程复制和IP远程复制，按照同步类型包含了同步远程复制、异步远程复制和周期异步复制子功能模块，而每个子功能模块中都包含启动远程复制、停止远程复制和切换远程复制等，因此缺陷分析时分类太笼统会导致测试覆盖范围及其庞大。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基于K-MEANS算法测试产品的方法、***、计算机设备及计算机可读存储介质，本发明通过K-MEANS聚类算法进行模块缺陷聚类，寻找缺陷集中的子模块，作为版本测试或回归验证的重要依据，对精准测试和提高存储***的可靠性起到关键作用。

基于上述目的，本发明实施例的一方面提供了一种基于K-MEANS算法测试产品的方法，包括如下步骤：根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

在一些实施方式中，所述从每个选取的特性中随机选取预设数量个样本以组成训练样本集包括：将产品缺陷数据进行标准化处理，并对样本特征设置对应的权重以使得样本数据标准且处于同一维度。

在一些实施方式中，所述根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心包括：从所述样本集合中随机选取一个样本点作为初始聚类中心；计算每个样本与当前已有聚类中心之间的最短距离，根据所述最短距离计算每个样本点被选为下一个聚类中心的概率，并将最大概率值对应的样本点作为下一个聚类中心；以及重复上述步骤直到选择出预设数量个聚类中心。

在一些实施方式中，所述从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集包括：将与存储缺陷不相关的特征删除，并将冗余的特征进行合并。

本发明实施例的另一方面，提供了一种基于K-MEANS算法测试产品的***，包括：特性模块，配置用于根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；集合模块，配置用于对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；聚类模块，配置用于根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及执行模块，配置用于将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

在一些实施方式中，所述特性模块配置用于：将产品缺陷数据进行标准化处理，并对样本特征设置对应的权重以使得样本数据标准且处于同一维度。

在一些实施方式中，所述聚类模块配置用于：从所述样本集合中随机选取一个样本点作为初始聚类中心；计算每个样本与当前已有聚类中心之间的最短距离，根据所述最短距离计算每个样本点被选为下一个聚类中心的概率，并将最大概率值对应的样本点作为下一个聚类中心；以及重复上述步骤直到选择出预设数量个聚类中心。

在一些实施方式中，所述集合模块配置用于：将与存储缺陷不相关的特征删除，并将冗余的特征进行合并。

本发明实施例的又一方面，还提供了一种计算机设备，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现如上方法的步骤。

本发明实施例的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。

本发明具有以下有益技术效果：通过K-MEANS聚类算法进行模块缺陷聚类，寻找缺陷集中的子模块，作为版本测试或回归验证的重要依据，对精准测试和提高存储***的可靠性起到关键作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的基于K-MEANS算法测试产品的方法的实施例的示意图；

图2为本发明提供的基于K-MEANS算法测试产品的***的实施例的示意图；

图3为本发明提供的基于K-MEANS算法测试产品的计算机设备的实施例的硬件结构示意图；

图4为本发明提供的基于K-MEANS算法测试产品的计算机存储介质的实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明实施例的第一个方面，提出了一种基于K-MEANS算法测试产品的方法的实施例。图1示出的是本发明提供的基于K-MEANS算法测试产品的方法的实施例的示意图。如图1所示，本发明实施例包括如下步骤：

S1、根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；

S2、对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；

S3、根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及

S4、将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

本发明实施例通过聚类(Clustering)把相似的数据归类到一起，聚类是一种无监督学习(Unsupervised Learning)方法，这样可以通过对缺陷进行聚类从而找到缺陷集中的特征，从而根据特征来找到产品功能极其薄弱的环节。

根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集。

进行数据准备和标准化，梳理缺陷管理***中的各项参数及取值，按照缺陷的特征如卷数量f1、IOPS压力f2、存储带宽f3、CPU数量、CPU主频、内存规格fN等，得到缺陷样本bug1{f1_1，f1_2......f1_n}、bug2{f2_1，f2_2......f2_n}......bugn{fn_1，fn_2......fn_n}，并根据缺陷样本获取原始样本集S{bug1，bug2......bugn}，并对每个特征参数进行降维和赋权重，根据存储交付的功能特性数feature_num，从每个特性中随机选取100个样本，共计100*feature_num个训练样本组成训练样本集记为T_set，K值(也即是聚类中心个数)根据产品复杂度设定，本发明实施例将复杂度设置为100，进行缺陷样本数据的准备，将产品缺陷数据进行标准化处理，并对样本特征定义合理的权重，使得样本数据标准且处于同一维度。

对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合。

对T_set中的样本进行特征选择，从最初的特征中选出一个子集来最小化冗余和最大化与目标的相关性，将与存储缺陷不相关的特征删除，并将冗余的特征进行合并，得到样本子集sub_bug1{fs1_1，fs1_2......fs1_n}、sub_bug2{fs2_1，fs2_2......fs2_n}......sub_bugn{fsn_1，fsn_2......fsn_n}，并根据样本子集得到样本集合X{sub_bug1，sub_bug2......sub_bugn}，以提高聚类效率和质量，减少所需的存储和计算时间。

根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心。

从数据集X中随机(均匀分布)选取一个样本点作为第一个初始聚类中心Ci，接着计算每个样本与当前已有聚类中心之间的最短距离，用D(x)表示；然后计算每个样本点被选为下一个聚类中心的概率P(x)，最后选择最大概率值所对应的样本点作为下一个簇中心，并重复上述步骤多次直到选择出k个聚类中心，计算每个样本点被选为下一个聚类中心的概率的具体公式如下：

这样就避免人为依据先验知识将部分样本加入到不合理的簇中，收敛情况不会严重依赖于簇中心的初始化状况。初始化的簇中心彼此相距都十分的远，从而不可能再发生初始簇中心在同一个簇中的情况。

将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

对所有的缺陷通过上述聚类方法进行归类，聚合到相应的类别中，确认一轮产品测试完成后的缺陷集中的模块，由于前述方法将缺陷分类精细到100类，则可以对该模块进行较为精准的测试覆盖。

需要特别指出的是，上述基于K-MEANS算法测试产品的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于K-MEANS算法测试产品的方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种基于K-MEANS算法测试产品的***。如图2所示，***200包括如下模块：特性模块，配置用于根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；集合模块，配置用于对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；聚类模块，配置用于根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及执行模块，配置用于将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备，包括：至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行以实现如下步骤：S1、根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；S2、对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；S3、根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及S4、将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

如图3所示，为本发明提供的上述基于K-MEANS算法测试产品的计算机设备的一个实施例的硬件结构示意图。

以如图3所示的装置为例，在该装置中包括一个处理器301以及一个存储器302。

处理器301和存储器302可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于K-MEANS算法测试产品的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现基于K-MEANS算法测试产品的方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据基于K-MEANS算法测试产品的方法的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个基于K-MEANS算法测试产品的方法对应的计算机指令303存储在存储器302中，当被处理器301执行时，执行上述任意方法实施例中的基于K-MEANS算法测试产品的方法。

执行上述基于K-MEANS算法测试产品的方法的计算机设备的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时执行基于K-MEANS算法测试产品的方法的计算机程序。

如图4所示，为本发明提供的上述基于K-MEANS算法测试产品的计算机存储介质的一个实施例的示意图。以如图4所示的计算机存储介质为例，计算机可读存储介质401存储有被处理器执行时执行如上方法的计算机程序402。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，基于K-MEANS算法测试产品的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于K-MEANS算法测试产品的方法，其特征在于，包括如下步骤：

根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；

对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；

根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及

2.根据权利要求1所述的方法，其特征在于，所述从每个选取的特性中随机选取预设数量个样本以组成训练样本集包括：

将产品缺陷数据进行标准化处理，并对样本特征设置对应的权重以使得样本数据标准且处于同一维度。

3.根据权利要求1所述的方法，其特征在于，所述根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心包括：

从所述样本集合中随机选取一个样本点作为初始聚类中心；

计算每个样本与当前已有聚类中心之间的最短距离，根据所述最短距离计算每个样本点被选为下一个聚类中心的概率，并将最大概率值对应的样本点作为下一个聚类中心；以及

重复上述步骤直到选择出预设数量个聚类中心。

4.根据权利要求1所述的方法，其特征在于，所述从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集包括：

将与存储缺陷不相关的特征删除，并将冗余的特征进行合并。

5.一种基于K-MEANS算法测试产品的***，其特征在于，包括：

特性模块，配置用于根据存储交付的功能特性数确定选取的特性，并从每个选取的特性中随机选取预设数量个样本以组成训练样本集；

集合模块，配置用于对所述训练样本集中的样本进行特征选择，从原始样本集中选出一个子集来最小化冗余和最大化与目标的相关性以得到样本子集，并根据样本子集得到样本集合；

聚类模块，配置用于根据所述样本集合通过K-MEANS算法进行快速聚类以选出预设数量个聚类中心；以及

执行模块，配置用于将所有缺陷聚合到对应的聚类中心中，并根据聚类结果确认缺陷集中的模块。

6.根据权利要求5所述的***，其特征在于，所述特性模块配置用于：

7.根据权利要求5所述的***，其特征在于，所述聚类模块配置用于：

从所述样本集合中随机选取一个样本点作为初始聚类中心；

重复上述步骤直到选择出预设数量个聚类中心。

8.根据权利要求5所述的***，其特征在于，所述集合模块配置用于：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-4任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。