CN110727593B

CN110727593B - 基于历史需求数据挖掘的测试用例智能生成方法及介质

Info

Publication number: CN110727593B
Application number: CN201910966703.2A
Authority: CN
Inventors: 熊阳
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-07-25
Anticipated expiration: 2039-10-12
Also published as: CN110727593A

Abstract

本发明公开了一种基于历史需求数据挖掘的测试用例智能生成方法及介质，属于计算机软件开发及软件测试领域，解决现有技术中生成的测试用例有效性和可用性不高的问题。本发明对获取的一个历史需求文档进行处理得到一个需求子项序列，同时，对获取的历史需求文档对应的测试用例进行处理，得到测试用例序列；基于需求子项序列的测试用例序列建立预测测试用例的隐马尔科夫模型；基于训练集和测试集采用监督学习的方式隐马尔科夫模型，得到参数最优的预测模型；将待预测的需求文档的需求子项序列和最优参数的预测模型输入维特比算法，求解最优的测试用例序列并输出，基于输出和映射关系查找最终的测试用例。本发明用于测试用例的生成。

Description

基于历史需求数据挖掘的测试用例智能生成方法及介质

技术领域

一种基于历史需求数据挖掘的测试用例智能生成方法及介质，用于测试用例的生成，属于计算机软件开发及软件测试领域。

背景技术

当前，测试人员设计测试用例的主要思路，是在产品需求分析的过程中形成的。基于需求分析文档的分析和研究，测试人员针对业务实现逻辑和***实现逻辑，结合自身经验和技能，进行测试工作重点和要点的挖掘，形成测试思路，最后将测试思路转化为测试用例输出。

以上过程，全部由测试人员人工完成，测试人员的经验和技能至关重要。不同的测试人员，对于同一个需求设计的测试用例有所不同，导致测试用例的设计质量参差不齐。同时，由于依靠人工完成，效率低下。

另外，也有不少公司将关注点放到测试用例生成相关技术的研究上，但基本上都没有采用机器学习技术，尤其是自然语言处理相关的机器学习技术来解决此问题。

机器学习相关的技术，可以将历史数据中蕴含的经验进行挖掘和量化，并用于预测未来。而测试用例的设计过程本身就是一个利用经验预测未来的过程。因此，如果建立机器学习模型，以产品需求作为输入，进行挖掘和分析，输出预测的测试用例，是一个可以改善当前测试用例设计方案的弊病的新思路，但现有技术中采用机器学习相关的技术生成测试用例的不足之处是没有使用线性序列的自然语言处理相关的机器学习算法来生成测试用例，导致测试用例的生成结果的有效性和可用性不高，即造成预测的准确率真低下，且处理速度慢等问题。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于历史需求数据挖掘的测试用例智能生成方法及介质，解决现有技术中，基于机器学习，没有使用线性序列的自然语言处理相关的机器学习算法来生成测试用例，导致测试用例的生成结果的有效性和可用性不高，即造成预测的准确率真低下，且处理速度慢等问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于历史需求数据挖掘的测试用例智能生成方法，包括如下步骤：

S1、对获取的一个历史需求文档进行处理，得到多个需求子项，并对需求子项进行处理得到一个需求子项序列，同时，对获取的历史需求文档对应的测试用例进行处理，得到测试用例序列；

S2、以需求子项序列为观测序列、测试用例序列为隐藏状态序列，建立预测测试用例的隐马尔科夫模型，建立后初始化隐马尔科夫模型的参数；

S3、获取大量的历史需求文档和对应其的测试用例进行处理得到对应的需求子项序列、测试用例序列，以及需求文档、需求子项序列与对应的测试用例、测试用例序列之间的映射关系；

S4、基于步骤S3得到的需求子项序列和测试用例序列作为训练集和测试集，基于训练集采用监督学习的方式训练初始化后的隐马尔科夫模型，训练后采用测试集进行测试，用测试后的结果进行参数调优，得到参数最优的预测模型；

S5、将待预测的需求文档的需求子项序列和最优参数的预测模型输入维特比算法，求解最优的测试用例序列并输出，基于输出和步骤S3得到映射关系查找最终的测试用例。

进一步，所述步骤S1的具体步骤为：

S1.1、将历史需求文档里的每个需求按照(U,V)范式进行格式化处理，得到包含多个(U,V)的二元数组序列，即需求子项序列，其中，U表示需求来源对象，V表示需求内容，包括U为后台运维人员和V为增加一个新增配置参数的页面、U为开放平台***和V为核心***增加一个接口、U为用户和V为去掉页面上的一个删除按钮；

S1.2、将历史需求文档所对应的测试用例按照(W,X,Y)范式进行格式化，得到包含多个(W,X,Y)的三元数组序列，即测试用例序列，其中，W表示***，X表示***中的模块，Y表示对***中的模块进行测试的期望结果；

S1.3、基于步骤S1.1和步骤S1.2得到的结果，建立历史需求文档、需求子项序列与对应的测试用例、测试用例序列之间的映射关系(N:N)，保存在数据库中。

进一步，所述步骤S2的具体步骤为：

S2.1、以需求子项序列(U,V)为观测序列、测试用例序列(W,X,Y)为隐藏状态序列，建立隐马尔科夫模型λ＝(A,B,π)，其中，A为隐藏状态序列的状态转移概率的矩阵、B为隐藏状态序列生成观测序列的概率矩阵、π为初始的隐藏状态序列的概率分布矩阵；

其中，隐马尔科夫模型由隐藏状态序列的状态转移概率的矩阵、隐藏状态序列生成观测序列的概率矩阵以及初始的隐藏状态序列的概率分布矩阵确定，其形式化定义如下:

设Q是所有隐藏状态序列集合，V是所有的观测序列的集合:

Q＝{q₁,q₂,…q_N},V＝{v₁,v₂..v_M}

其中，N是可能的状态数，M是可能的观测数；

I＝(i₁,i₂…i_T),O＝(o₁,o₂,…,o_T)

I是长度为T的隐藏状态序列集合，O是对应I的观测序列集合，O和I具有线性关系，其中，I是Q的子集，O是V的子集；

A是为隐藏状态序列的状态转移概率的矩阵：

A＝[a_ij]_N×N

a_ij＝P(i_t+1＝q_j|i_t＝q_i),i＝1,2,…,N；j＝1,2,…,N

其中，a_ij表示的是t时刻处于隐藏状态序列q_i的条件下在t+1时刻状态转移到隐藏状态序列q_j的概率，

B是隐藏状态序列生成观测序列的概率矩阵：

B＝[b_j(k)]_N×N

b_j(k)＝P(o_t＝v_k|i_t＝q_j)k＝1,2,…,M；j＝1,2,…,N

b_j(k)是在时刻t处于隐藏状态序列q_j的条件下生成观测序列v_k的概率；

π是初始的隐藏状态序列的概率分布矩阵:

π＝(π_i)

π_i＝P(i₁＝q_i),i＝1,2,…,N

其中，π_i是在时刻t＝1处于隐藏状态序列q_i的概率；

所以隐马尔科夫模型λ用三元符号表示，即：

λ＝(A,B,π)；

S2.2、初始化隐马尔科夫模型参数，即根据需求子项序列到测试用例序列的转换，将模型参数变量设置为1，设置为1即认为需求子项到测试用例的转换是一定会发生的、测试用例能够完全体现对需求子项的分析结果的。

进一步，所述步骤S3中，大量的历史需求文档为数量不低于200个的历史需求文档，大量的测试用例为数量不低于20000个的测试用例；

所述处理得到的需求子项序列、测试用例序列，以及需求文档、需求子项序列与对应的测试用例、测试用例序列之间的映射关系存储在数据库中。

进一步，所述步骤S4的具体步骤为：

S4.1、基于步骤S3得到的需求子项序列和测试用例序列作为训练集和测试集，从训练集中挑选一组数据，输入初始化后的隐马尔科夫模型，进行隐马尔科夫模型参数的估计，具体采用极大似然估计法来估计模型参数：

假设训练集包含S个长度相同的观测序列和对应的隐藏状态序列{(O₁,I₁),(O₂,I₂),…,(O_S,I_S)}；

t时刻处于隐藏状态序列q_i的条件下在t+1时刻状态转移到隐藏状态序列q_j的概率a_ij的估计为：

设样本中时刻t处于状态i、时刻t+1处于状态j的频数为A_ij，那么状态转移的概率a_ij的估计为：

在时刻t处于隐藏状态序列q_j的条件下生成观测序列v_k的概率b_j(k)的估计为:

设样本中状态为j并观测为k的频数是B_jk，那么状态为j观测为k的概率b_j(k)的估计为：

在时刻t＝1处于隐藏状态序列q_i的概率π_i的估计值为S个样本中初始状态为q_i的概率；

S4.2、根据步骤S4.1中得到的估计结果后，通过损失函数进行训练效果度量，若度量结果超过给定阈值，则使用训练集中余下的训练数据，重复4.1步骤，进行参数的调校，否则，用测试集进行测试，若测试结果符合要求，得到一组能够最优拟合训练数据集的模型参数，即得到参数最优的预测模型，否则，将测试集做为训练集，训练集作为测试集进行训练和测试。

进一步，所述步骤S5的具体步骤为：

S5.1：将待预测的需求文档的需求子项序列和最优参数的预测模型输入维特比算法，进行最优的测试用例序列的求解，具体如下：

定义在时刻t状态为i的隐藏状态序列集合(i₁,i₂,…,i_T)中概率最大的值为:

由定义可得变量δ的递推公式：

定义在时刻t状态为i的隐藏状态序列集合(i₁,i₂,…,i_t-1,i)中最大概率的路径的第t-1个节点为:

ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji]，i＝1，2，...，N

基于上述维特比算法求解最佳测试用列序列的过程如下：

输入：最优参数的预测模型λ＝(A,B,π)和观测序列O＝(o₁,o₂,…,o_T)；

输出：最优路径

具体如下：

1).初始化：

δ₁(i)＝π_ib_i(o₁),i＝1,2,…,N

ψ₁(i)＝0

2).递推：对于t＝2,3...,T

δ_t(i)＝max_1≤j≤N[δ_t-1(j)a_ji]b_i(o_t),i＝1,2,…,N

ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji],i＝1,2,…,N

3).终止：

P^*＝max_1≤i≤Nδ_T(i)

4).最优路径回溯：

对于t＝T-1,T-2,...,1：

于是求得最优路径：

S5.3：对输出的测试用例序列，根据映射关系，在数据库中查找测试用例，得到最终的测试用例。

一种基于历史需求数据挖掘的测试用例智能生成方法的介质，包括供处理器调用的存储器，存储器内存储有基于历史需求数据挖掘的测试用例智能生成方法。

本发明同现有技术相比，其有益效果表现在：

一、本发明基于自然语言处理技术，因此预测结果的可读性和可用性优于其他技术，本方案在相同的训练样本数量级下，预测准确率提升20％以上。

二、本发明基于20000数据量的预测结果的有效比率在50％左右，随着训练样本的丰富，预测有效率将会继续提升；

三、本发明对测试人力成本的节约可达到50％以上，随着训练的持续推进，最终将达到90％以上接近100％，只需要将10％及以下的人力投入到测试用例的有效性判别上；

四、本发明的处理耗时在毫秒级，在计算资源和存储资源的耗用与现有技术接近的情况下，提升了处理速度。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

具体步骤为：

设Q是所有隐藏状态序列集合，V是所有的观测序列的集合:

Q＝{q₁,q₂,...q_N},V＝{v₁,v₂..v_M}

其中，N是可能的状态数，M是可能的观测数；

I＝(i₁,i₂...i_T),O＝(o₁,o₂,...,o_T)

A是为隐藏状态序列的状态转移概率的矩阵：

A＝[a_ij]_N×N

a_ij＝P(i_t+1＝q_j|i_t＝q_i),i＝1,2,...,N；j＝1,2,...,N

B是隐藏状态序列生成观测序列的概率矩阵：

B＝[b_j(k)]_N×N

b_j(k)＝P(o_t＝v_k|i_t＝q_j)k＝1,2,...,M；j＝1,2,...,N

π是初始的隐藏状态序列的概率分布矩阵:

π＝(π_i)

π_i＝P(i₁＝q_i),i＝1,2,...,N

其中，π_i是在时刻t＝1处于隐藏状态序列q_i的概率；

所以隐马尔科夫模型λ用三元符号表示，即：

λ＝(A,B,π)；

S3、获取大量的历史需求文档和对应其的测试用例进行处理得到对应的需求子项序列、测试用例序列，以及需求文档、需求子项序列与对应的测试用例、测试用例序列之间的映射关系；大量的历史需求文档为数量不低于200个的历史需求文档，大量的测试用例为数量不低于20000个的测试用例；其中，得到需求子项序列、测试用例序列的处理方式跟步骤S1相同。

具体步骤为：

S5、将待预测的需求文档的需求子项序列(得到需求子项序列的处理方式跟步骤S1相同)和最优参数的预测模型输入维特比算法，求解最优的测试用例序列并输出，基于输出和步骤S3得到映射关系查找最终的测试用例。

具体步骤为：

定义在时刻t状态为i的隐藏状态序列集合(i₁,i₂,...,i_T)中概率最大的值为:

由定义可得变量δ的递推公式：

定义在时刻t状态为i的隐藏状态序列集合(i₁,i₂,...,i_t-1,i)中最大概率的路径的第t-1个节点为:

ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji]，i＝1，2，···，N

基于上述维特比算法求解最佳测试用列序列的过程如下：

输入：最优参数的预测模型λ＝(A,B,π)和观测序列O＝(o₁,o₂,...,o_T)；

输出：最优路径

具体如下：

1).初始化：

δ₁(i)＝π_ib_i(o₁),i＝1,2,...,N

ψ₁(i)＝0

2).递推：对于t＝2,3...,T

δ_t(i)＝max_1≤j≤N[δ_t-1(j)a_ji]b_i(o_t),i＝1,2,...,N

ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji],i＝1,2,…,N

3).终止：

P^*＝max_1≤i≤Nδ_T(i)

4).最优路径回溯：

对于t＝T-1,T-2,...,1：

于是求得最优路径：

实施例

现有一个产品需求文档，内容是要求官方网站提供一个注册页面，便于访客注册成为用户。注册页面中要求访客输入用户名、密码、确认密码三个信息，在访客提交注册后，提示访客注册成功或者注册失败。

此历史需求文档对应的测试用例有50条左右，现举若干例如下：

(1)访客进入注册页面，输入信息并提交，且各项信息正确，未注册过。期望：页面提示“注册成功！”。

(2)访客进入注册页面，输入信息并提交，且用户名已存在。期望：页面提示“注册失败：该用户已经注册”。

(3)访客进入注册页面，填写注册信息时输入特殊字符，填写完成后提交。期望：页面提示“注册失败：不允许输入特殊字符”。

(4)对用户***的注册接口进行调用测试，接口参数符合接口要求，发起调用。期望：接口返回“Success”。

(5)对鉴权***的鉴权接口进行调用测试，接口参数中用户名已经存在，发起调用。期望：接口返回“Fail：User already exist”。

一、将历史需求文档处理为需求子项序列。

a.将历史需求文档中的需求内容拆解为以下需求子项：

①作为“访客”，我希望“官网提供注册页面”。

②作为“官网”，我希望“用户***提供注册接口”。

③作为“用户***”，我希望“鉴权***提供鉴权接口”。

④作为“访客”，我希望“注册成功时得到注册成功提示”。

⑤作为“访客”，我希望“注册失败时得到注册失败提示”。

b.将需求子项处理形成需求子项序列：

①(访客，官网提供注册页面)；

②(官网，用户***提供注册接口)；

③(用户***，鉴权***提供鉴权接口)；

④(访客，注册成功时得到注册成功提示)；

⑤(访客，注册失败时得到注册失败提示)。

二、将对应历史需求文档对应的测试用例处理为测试用例序列，测试用例序列由测试用例子项构成。

①(官网，注册页面，注册成功)；

②(官网，注册页面，注册失败:该用户已经注册)；

③(官网，注册页面，注册失败:不允许输入特殊字符)；

④(用户***，注册接口，Success)；

⑤(鉴权***，鉴权接口，Fail：User already exist)；

三、建立隐马尔科夫模型后，初始化隐马尔科夫模型的参数

隐马尔科夫模型模型参数变量设置为1,用于后续训练。

四、训练隐马尔科夫模型

a.使用200个历史需求文档，历史需求文档内容形式与步骤一的内容形式一致。按照步骤一的处理操作将需求文档转换为需求子项。

b.这些需求文档对应的20000个测试用例，内容形式与步骤二的内容形式一致。按照步骤二的处理操作将测试用例转换为测试用例子项。

c.按照步骤三的操作，将以上需求子项和测试用例的子项建立映射关系，并全部保存在数据库中。如果有重复的子项，则略过。建立需求子项序列和测试用例序列的映射关系，并保存在数据库中的具体步骤为：

a.数据库表结构字段设计为：需求文档id、需求子项id、测试用例id、测试用例子项id。

b.将所有需求子项序列以及对应的测试用例序列按照以上字段要求，将映射关系保存在数据库中。

d.将需求子项序列和对应的测试用例序列的id，形成集合，举例如下：

观测序列：(1,5,4,6,9)

隐藏状态序列：(22,30,45,12,18)

e.按照上述步骤d对所有数据进行处理，得到训练集和测试集。

f.训练初始化后的隐马尔科夫模型，根据训练结果逐次调校，直到对训练样本集最佳拟合。以测试样本集测试模型，继续调校参数，直到对测试样本集最佳拟合。最后得到模型的最优参数，即得到最优参数的预测模型。

五、使用预测模型和新需求进行测试用例预测。

a.新需求(即待预测的需求文档)按照步骤一和步骤四处理为需求子项序列，举例如下：

观测序列：(42,87,1,5,7)

b.将预测模型和观测序列输入已实现维特比算法的程序，求解测试用例序列。

输出结果：(22,30,45,4,9)

六、将预测结果转换为测试用例。

将步骤五中得到的测试用例序列，按照id在数据库中查找对应的测试用例子项和测试用例，输出。如果没有找到测试用例，则意味着会产生新的测试用例，此时由人工接入对需求子项进行处理，形成新的测试用例，并将测试用例结果更新到数据库中。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，所述步骤S1的具体步骤为：

3.根据权利要求1所述的一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，所述步骤S2的具体步骤为：

设Q是所有隐藏状态序列集合，V是所有的观测序列的集合:

Q＝{q₁,q₂,...q_N},V＝{v₁,v₂..v_M}

其中，N是可能的状态数，M是可能的观测数；

I＝(i₁,i₂...i_T),O＝(o₁,o₂,...,o_T)

A是为隐藏状态序列的状态转移概率的矩阵：

A＝[a_ij]_N×N

a_ij＝P(i_t+1＝q_j|i_t＝q_i),i＝1,2,...,N；j＝1,2,…,N

B是隐藏状态序列生成观测序列的概率矩阵：

B＝[b_j(k)]_N×N

b_j(k)＝P(o_t＝v_k|i_t＝q_j)k＝1,2,…,M；j＝1,2,…,N

π是初始的隐藏状态序列的概率分布矩阵:

π＝(π_i)

π_i＝P(i₁＝q_i),i＝1,2,...,N

其中，π_i是在时刻t＝1处于隐藏状态序列q_i的概率；

所以隐马尔科夫模型λ用三元符号表示，即：

λ＝(A,B,π)；

4.根据权利要求1-3任意一项所述的一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，所述步骤S3中，大量的历史需求文档为数量不低于200个的历史需求文档，大量的测试用例为数量不低于20000个的测试用例；

5.根据权利要求4所述的一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，所述步骤S4的具体步骤为：

6.根据权利要求5所述的一种基于历史需求数据挖掘的测试用例智能生成方法，其特征在于，所述步骤S5的具体步骤为：

由定义可得变量δ的递推公式：

ψ_t(i)＝argmax1≤j≤N[δ_t-1(j)a_ji]，i＝1，2，…，N

基于上述维特比算法求解最佳测试用列序列的过程如下：

输出：最优路径

具体如下：

1).初始化：

δ₁(i)＝π_ib_i(o₁),i＝1,2,…,N

ψ₁(i)＝0

2).递推：对于t＝2,3...,T

δ_t(i)＝max_1≤j≤N[δ_t-1(j)a_ji]b_i(o_t),i＝1,2,…,N

ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji],i＝1,2,…,N

3).终止：

P^*＝max_1≤i≤Nδ_T(i)

4).最优路径回溯：

对于t＝T-1,T-2,...,1：

于是求得最优路径：

7.一种基于历史需求数据挖掘的测试用例智能生成方法的介质，其特征在于，包括供处理器调用的存储器，存储器内存储有用以实现如权利要求1-6任一所述的基于历史需求数据挖掘的测试用例智能生成方法的程序。