CN110941719B

CN110941719B - 数据分类方法、测试方法、装置及存储介质

Info

Publication number: CN110941719B
Application number: CN201911214205.9A
Authority: CN
Inventors: 杨玉; 刘华英; 刘燕; 李凤亭; 梁雨霏; 刘晓刚
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2023-12-19
Anticipated expiration: 2039-12-02
Also published as: CN110941719A

Abstract

本说明书实施例提供一种数据分类方法、测试方法、装置及存储介质。所述方法包括：获取目标数据集；所述目标数据集中包括多个文本数据；计算在每个文本数据中多个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。本说明书实施例提供的车辆自适应巡航控制方法，可以根据数据中多个预设关键词出现的频率对数据进行分类，提高了数据分类的准确度，还可以对大量数据进行自动分类，也提高了数据分类的效率。

Description

数据分类方法、测试方法、装置及存储介质

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据分类方法、测试方法、装置及存储介质。

背景技术

智能客服***通过客户之声，收集客服中心海量语音数据和文本数据，通过大数据分析，将有价值的信息整理提炼，并将其推送到业务部门，不断改善产品和服务，推动客服中心从服务部门向决策支撑部门转型、从售后服务环节向全程服务参与转型。其中，大数据分析是通过分析***进行的。中国银行在应用大数据分析***之前，软件中心测试条线必须对分析***进行功能测试，验证分析***一些功能是否可以正常使用需要大量数据作支撑，而且数据量越大，对大数据分析***的测试相对来说更充分，例如聚类与分类功能、建立业务模型功能、提取高频词功能以及热词词频占比等。

在现有的对大数据分析***测试方法中，大都是通过人工对获得的数据源进行抽样的方法得到需要的测试数据，即样本数据，然后用该样本数据对相关功能进行验证。人工抽样获取测试数据，需要对每一条文本数据进行分类和筛选，在数据量比较大的情况下，耗时比较长，效率低且成本高。而在测试过程中，由于测试数据中数据分类的准确性不高，影响了测试结果的准确性和效率。

发明内容

本说明书实施例的目的是提供数据分类方法、测试方法、装置及存储介质，以提高数据分类的准确性和效率以及***测试的准确性和效率。

为解决上述问题，本说明书实施例提供一种数据分类方法、测试方法、装置及存储介质是这样实现的。

一种数据分类方法，所述方法包括：获取目标数据集；所述目标数据集中包括多个文本数据；计算在每个文本数据中多个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。

一种测试方法，所述方法包括：获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：获取目标数据集；所述目标数据集中包括多个文本数据；获取多个预设的关键词，并计算各个文本数据中每个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。

由以上本说明书实施例提供的技术方案可见，本说明书实施例可以获取目标数据集；所述目标数据集中包括多个文本数据；获取多个预设的关键词，并计算各个文本数据中每个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。本说明书实施例提供的数据分类方法，可以根据数据中多个预设关键词出现的频率对数据进行分类，提高了数据分类的准确度，进一步的还可以对大量数据进行自动分类，同时也提高了数据分类的效率。

本说明书实施例可以获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。本说明书实施例提供的测试方法对***的测试采用的是两次测试结合的测试方法，既可以提高测试效率，又可以提高测试的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种数据分类方法的流程图；

图2为本说明书实施例一种场景示例的示意图；

图3为本说明书实施例一种测试方法的流程图；

图4为本说明书实施例一种场景示例的示意图；

图5为本说明书实施例一种数据分类装置的功能模块图；

图6为本说明书实施例一种测试装置的功能模块图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

现有的文本分类方法通常可以利用人工智能的方法建立分类模型，通过分类模型进行数据的分类。其中，所述分类模型通常是基于支持向量机(SVM)、朴素贝叶斯分类器、K-近邻(KNN)、决策树、随机森林等算法建立的。但由于通过人工智能的方法建立分类模型进行数据的分类通常具有不确定性，即具有一定的误报率，使得数据分类的准确性不够。因此，需要一种准确性更高的文本分类方法对文本进行分类。

在本实施方式中，执行所述数据分类方法的主体可以是具有逻辑运算功能的电子设备，所述电子设备可以是服务器或客户端，所述客户端可以为台式电脑、平板电脑、笔记本电脑、智能手机、工作站等。当然，客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。还可以是一种通过程序开发形成的程序软件，该程序软件可以运行于上述电子设备中。

图1为本说明书实施例一种数据分类方法的流程图。如图1所示，所述数据分类方法可以包括以下步骤。

S110：获取目标数据集；所述目标数据集中包括多个文本数据。

在一些实施例中，所述目标数据集可以包括多个文本数据，例如XML、HTML等格式的文本数据或者其他格式的文本数据。所述目标数据集还可以包括音频数据，例如AIFF、MP3的音频数据。

在一些实施例中，所述目标数据集可以从数据源中获取，例如从指定的数据库中下载目标数据集。举例来说，在银行工作***中，可以将智能客服平台中的数据库作为数据源，获取音频数据和/或文本数据。其中，所述音频数据可以是座席与客户通话录音的音频类的数据；所述文本数据可以是座席与客户的文本交互、收集到的客户意见或建议等文本类的数据。

在一些实施例中，从银行工作***中获取的目标数据集通常涉及客户的安全数据或者一些商业性敏感数据。为实现对敏感隐私数据的保护，还可以对目标数据集中的数据进行改造后使用，例如对目标数据集中如身份证号、手机号、***、客户号等个人信息进行数据脱敏处理。

在一些实施例中，如果所述目标数据集中包括音频数据，则还可以将所述音频数据转换为文本数据。具体的，可以通过语音识别技术，将音频数据中表达的内容以文本的形式输出。

在一些实施例中，在获取目标数据集后，可以判断目标数据集中的数据是文本数据还是音频数据。如果所述目标数据集中的数据是文本数据，则可以的得到文本数据的集合{T₁,T₂,T₃,...T_m}，其中，T_m(m＝1,2,3...)表示文本数据。如果所述目标数据集中的数据包括音频数据的集合{S₁,S₂,S₃,...S_n}，可以将所述音频数据转换为对应的文本数据，得到转换后的文本数据的集合其中S_n(n＝1,2,3...)表示音频数据，/>表示音频数据S_n对应的文本数据。进一步地，可以得到只包含文本数据的目标数据集{T₁,T_S1,T₂,T_S2,T₃,T_S3,...T_m,T_Sn}。

S120：计算在每个文本数据中多个预设的关键词出现的频率。

在一些实施例中，所述预设的关键词可以用于表征目标数据集中文本数据的类别。例如所述文本数据的类别名称可以包括所述预设的关键词，或者所述文本数据的类别名称也可以预设的关键词相对应。具体的，如果将目标数据集中的文本数据的类别名称确定为理财类别、贷款类别、存款类别和转账类别，则所述多个预设的关键词可以包括“理财”、“贷款”、“存款”、“转账”，也就是说，这种情况下，可以将关键词作为文本数据的类别名称。如果将目标数据集中的文本数据的类别名称确定为a类别、b类别、c类别和d类别，则可以将a类别确定为预设的关键字“理财”对应的类别，b类别确定为预设的关键字“贷款”对应的类别，c类别确定为预设的关键字“存款”对应的类别，d类别确定为预设的关键字“转账”对应的类别。

在本说明书实施例中，服务器可以采用任何方式获取多个预设的关键词。例如，用户可以输入多个预设的关键词，服务器可以进行接收；又如除去所述服务器以外的其它电子设备可以向服务器发送多个预设的关键词，服务器可以进行接收。

在一些实施例中，以所述多个预设的关键词包括“理财”、“贷款”、“存款”为例，在获取多个预设的关键词后，可以得到关键词集合{F₁,F₂,F₃,...,F_n}，其中F₁＝“理财”，F₂＝“贷款”，F₃＝“存款”，n＝1,2,3...。

在本说明书实施例中，服务器可以识别文本数据中的文字内容，并可以通过对各个文本数据进行识别，计算出每个文本数据中每个预设的关键词出现的频率。具体的，服务器可以读取包含文本数据的目标数据集{T₁,T_S1,T₂,T_S2,T₃,T_S3,...T_m,T_Sn}，并分别计算每一个文本数据中每个预设的关键词出现频率，得到频率矩阵{f₁,f₂,f₃,...,f_n}。其中，每个文本对应一个频率矩阵；f_n对应为关键词F_n出现的频率，n＝1,2,3...。

S130：根据所述频率确定所述目标数据集中各个文本数据的类别。

在本说明书实施例中，可以根据各个文本数据中每个预设的关键词出现的频率来确定所述目标数据集中各个文本数据的类别。具体的，可以将所述文本数据的类别确定为待定类别、单类别、多类别。其中所述待定类别表示所述文本数据不属于预设的关键词对应的类别中的任一类别；所述单类别表示所述文本数据属于某个预设的关键词对应的文本类别；所述多类别表示所述文本数据可以同时属于至少两个预设的关键词对应的文本类别。

在本说明书实施例中，如果所述文本数据中每个预设的关键词出现的频率都小于预设频率，则该文本数据不属于预设的关键词对应的类别中的任一类别；如果所述文本数据中某一预设关键词出现的频率大于或等于预设频率，且其他预设关键词出现的频率小于预设频率，则所述文本数据的类别为单类别，所述文本数据属于出现的频率大于或等于预设频率的关键词对应的类别；如果所述文本数据中至少有两个预设的关键词出现的频率大于或等于预设频率，则所述文本数据的类别为多类别。

在一些实施例中，所述预设频率可以为零。具体的，如果文本数据中每个预设的关键词出现的频率都为零，显然，所述文本数据不属于预设的关键词对应的类别中的任一类别；如果所述文本数据中某一预设关键词出现的频率大于零，且其他预设关键词出现的频率等于零，则所述文本数据的类别为单类别，所述文本数据属于出现的频率大于零的关键词对应的类别；如果所述文本数据中至少有两个预设的关键词出现的频率大于零，则所述文本数据的类别为多类别。在本说明书实施例中，为了更为精确地确定文本数据的类别，所述预设频率还可以是任何大于零的值，例如可以是1、3、10等，本说明书对此不作限定。

下面以所述预设频率为零的情况下，说明本说明书实施例中如何根据所述频率确定所述目标数据集中各个文本数据的类别。在一些实施例中，对于每一文本数据，如果每个预设的关键词出现的频率都为零，则该文本数据不属于每个预设的关键词对应类别的任何一种，可以将该文本数据的类别确定为待定类别。具体的，服务器可以判断该文本数据的频率矩阵是否等于零，如果等于零，即{f₁＝0,f₂＝0,f₃＝0,...,f_n＝0}，则可以将该文本数据的类别确定为待定类别。

在一些实施例中，对于每一文本数据，如果每个预设的关键词出现的频率不都为零，即该文本数据中出现预设的关键词中的一个或多个，则可以进一步判断该文本数据的所属类别是否单一。如果该文本数据中只出现多个预设的关键词中的其中一个，其他预设的关键词均未出现则可以判断该文本数据的所属类别单一，否则该文本数据的所属类别不单一，可以将所属类别不单一的文本数据的类别确定为多类别。

在一些实施例中，服务器可以通过文本数据的频率矩阵进行判断文本数据的所属类别是否单一。具体的，如果所述频率矩阵中有且只有一个不为零的值，例如频率矩阵{f₁＝0,f₂＝0,f₃＝r...，f_n＝0}，其中r＝{1,2,3…}，则可以判断该文本数据的所属类别单一。如果所述频率矩阵中不为零的值不唯一，例如频率矩阵{f₁＝0,f₂＝0,f₃＝0,f₄＝k,f₅＝j,...,f_n＝0}，其中k，j均不为0，则可以判断该文本数据的所属类别不单一。

在一些实施例中，如果文本数据的所述类别单一，即仅有一个预设的关键词出现的频率不为零，其他预设的关键词出现的频率为零，则可以记录出现的频率不为零的关键词，并将所述文本数据的类别确定为所述出现的频率不为零的关键词对应的类别。例如，频率矩阵{f₁＝0,f₂＝0,f₃＝r...，f_n＝0}，其中r＝{1,2,3…}，则将所述文本数据确定为f₃对应为关键词F₃“存款”对应的类别，如果将预设的关键词作为所述文本数据的类别名称，则将所述文本数据的类别确定为存款类别。

在一些实施例中，如果文本数据的所述类别不单一，即在至少有两个预设的关键词出现的频率不为零，则可以记录出现的频率不为零的关键词，并将所述文本数据的类别确定为多类别。例如，频率矩阵{f₁＝0,f₂＝0,f₃＝0,f₄＝k,f₅＝j,...,f_n＝0}，其中k，j均不为0，则可以计算频率不为零的个数，得到所述文本数据出现不同预设关键词的个数，同时记录频率f₃对应的关键词F₃和频率f₄对应的关键词F₄，并将所述文本数据的类别确定为多类别。

本说明书实施例可以获取目标数据集；所述目标数据集中包括多个文本数据；获取多个预设的关键词，并计算各个文本数据中每个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。本说明书实施例提供的数据分类方法，可以根据数据中多个预设关键词出现的频率对数据进行分类，提高了数据分类的准确度，进一步的还可以对大量数据进行自动分类，同时也提高了数据分类的效率。

本实施方式提供了一个场景示例，如图2所示，图2为本实施方式提供的一个场景示例的示意图。

在本场景示例中，用户可以输入预设的关键词，服务器可以进行接收，并将所述预设的关键词作为文本数据的类别名称。

具体的，在本场景示例中，所述预设的关键词分别可以包括“理财”、“贷款”、“存款”。服务器可以根据预设的关键词将文本数据的类别名称确定为理财、贷款、存款，当然，文本数据的类别名称还包括待定和多类别。

在本场景示例中，服务器可以创建文本数据的类别名称对应的文件夹，例如将理财类别对应的文件夹命名为理财，将贷款类别对应的文件夹命名为贷款，将存款类别对应的文件夹命名为存款，将待定类别对应的文件夹命名为待定，将多类别对应的文件夹命名为多类别。

在本场景示例中，服务器可以获取预设的关键词集合，即获取文本数据类别名称的集合{F₀,F₁,F₂,F₃,...,F_n+1}，其中F₀＝“待定”，F₁＝“理财”，F₂＝“贷款”，F₃＝“存款”，…，F_n+1＝“多类别”。服务器还可以在预设的存储路径下创建文本数据的类别名称对应的“待定”、“理财”、“贷款”、“存款”…“多类别”文件夹。

在本场景示例中，可以计算每一个文本中各个类别名称出现的频率，得到频率矩阵。具体的，服务器可以读取文本数据{T₁,T_S1,T₂,T_S2,T₃,T_S3,...T_m,T_Sn}，分别计算每一个文本中出现自定义“类别名称”{F₁,F₂,F₃,...,F_n}的频率，得到频率矩阵{f₁,f₂,f₃,...,f_n}。其中，每个文本对应一个频率矩阵。

在本场景示例中，所述预设频率可以为零，在得到频率矩阵后，可以判断频率矩阵是否为零。具体的，服务器可以筛选出频率不为零的文本数据。若文本数据对应的频率矩阵为零，即{f₁＝0,f₂＝0,f₃＝0,...,f_n＝0}，则可以将该文本数据放入“待定”文件夹下；若文本数据对应的频率矩阵不为零，则进行下一步。

在本场景示例中，若文本数据对应的频率矩阵不为零，则判断该文本数据的所属类别是否单一。具体的，若文本所属类别单一，即所文本数据对应的频率矩阵中有且只有一个不为零的值，例如所述频率矩阵{f₁＝0,f₂＝0,f₃＝r...，f_n＝0}，其中r＝{1,2,3…}，则该文本数据属于类别F₃＝“存款”,将该文本数据放入对应的“存款”文件夹下，并记录对应的频率值f₃＝r。若文本所属类别不单一，即频率矩阵中不为零的值不唯一，例如所述频率矩阵{f₁＝0,f₂＝0,f₃＝0，f₄＝k，f₅＝j，...，f_n＝0}，其中k，j均不为0，则计算频率不为零的个数，可得到该文本数据所属类别的数量λ，在本场景示例中λ＝2，同时记录下所有类别的名称，在本场景示例中可以记录F₄、F₅对应的类别名称，并将该文本数据放入“多类别”文件下。

在本场景示例中，服务器还可以判断是否遍历所有文本数据{T₁,T_S1,T₂,T_S2,T₃,T_S3,...T_m,T_Sn}。若已遍历所有文本数据，则结束；若还未遍历所有文本数据，则继续进行文本数据的分类过程。

图3为本说明书实施例一种测试方法的流程图。如图3所示，所述测试方法可以包括以下步骤。

S310：获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V，即数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。大数据分析可以通过分析***进行，在应用大数据分析***之前，可以对分析***进行功能测试，例如测试分析***的聚类与分类功能、建立业务模型功能、提取高频词功能以及热词词频占比功能等。通过测试来验证分析***一些功能是否可以正常使用需要大量测试数据作支撑，而且数据量越大，对大数据分析***的测试相对来说更充分。

在本说明书实施例中，测试分析***不同的功能需要采用不同类别的测试数据，例如测试分析***的聚类与分类功能，则需要已经分类好的数据作为测试数据，如果测试分析***的提取高频词功能，则需要将包含某些高频词的数据作为测试数据。

在一些实施例中，可以采用第一测试数据集来作为测试分析***功能的测试数据。其中，所述测试数据集中至少可以包括一种类别的文本数据。

在一些实施例中，第一测试数据集中可以包括经过分类的文本数据，这样可以根据文本数据的分类计算出测试的预期结果。例如，要测试分析***的提取高频词功能，可以将包含不同关键词的文本数据划分为不同的类别，并将这些文本数据作为第一测试数据集，可以根据文本数据的类别确定测试的预期结果。

在一些实施例中，可以根据以下步骤获取第一测试数据集。

S311：获取目标数据集；所述目标数据集中包括多个文本数据。

在一些实施例中，所述目标数据集可以包括文本数据，例如XML、HTML等格式的文本数据或者其他格式的文本数据。所述目标数据集还可以包括音频数据，例如AIFF、MP3的音频数据。

在一些实施例中，所述目标数据集可以从数据源中获取，例如从指定的数据库中下载目标数据集。具体的，在银行工作***中，可以从智能客服平台中的数据库作为数据源，获取语音数据和/或文本数据。其中，所述语音数据可以是座席与客户通话录音的音频数据；所述文本数据可以是座席与客户的文本交互、收集到的客户意见或建议等文本类数据。

S312：计算在每个文本数据中多个预设的关键词出现的频率。

S313：根据所述频率确定所述目标数据集中各个文本数据的类别。

下面以所述预设频率为零的情况下，说明本说明书实施例中如何根据所述频率确定所述目标数据集中各个文本数据的类别。

在一些实施例中，对于每一文本数据，如果每个预设的关键词出现的频率都为零，则该文本数据不属于每个预设的关键词对应类别的任何一种，可以将该文本数据的类别确定为待定类别。具体的，服务器可以判断该文本数据的频率矩阵是否等于零，如果等于零，即{f₁＝0,f₂＝0,f₃＝0,...,f_n＝0}，则可以将该文本数据的类别确定为待定类别。

S314：获取经过分类后的目标数据集中至少一个类别的文本数据作为所述第一测试数据集。

在本说明实施例中，可以根据测试分析***功能的需要，从经过分类后的目标数据集中至少一个类别的文本数据作为所述第一测试数据集。

S320：将所述第一测试数据集输入待测试***中，获取第一测试结果。

在本说明书实施例中，所述第一测试结果是将所述第一测试数据集输入待测试***后，测试***的输出结果。

S330：在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。

在本说明书实施例中，所述第一预期结果可以根据所述第一测试数据集来确定。具体的，以测试***提取高频词的功能，所述第一测试数据集可以包括类别为理财、贷款、存款、转账的文本数据为例。其中，每一类别的文本数据都包含相应的高频词，例如理财类别的文本数据包含高频词“理财”，贷款类别的文本数据包含高频词“贷款”。在***功能良好的情况下，将所述第一测试数据集输入***后，***的输出结果为提取了高频词为“理财”、“贷款”、“存款”、“转账”。因此，可以确定采用所述第一测试数据集的第一预期结果为***提取了高频词为“理财”、“贷款”、“存款”、“转账”。当然，如果第一测试数据集包括其他类别的文本数据，也可以基于文本数据的类别确定相应的第一预期结果。

在本说明书实施例中，可以比较所述第一测试结果和第一预期结果来确定测试是否通过。

在一些实施例中，在所述第一测试结果完全符合第一预期结果的情况下，可以确定测试通过。例如所述第一测试结果为***提取了高频词为“理财”、“贷款”、“存款”、“转账”，所述第一预期结果也是***提取了高频词为“理财”、“贷款”、“存款”、“转账”，第一测试结果完全符合第一预期结果，可以确定***提取高频词的功能良好，确定测试通过。

在一些实施例中，在所述第一测试结果完全不符合第一预期结果的情况下，可以确定测试不通过。例如所述第一测试结果为***未提取到任何高频词，或者***提取到的高频词与第一预设结果完全不相同，则可以确定***提取高频词的功能出现问题，确定测试不通过。

在一些实施例中，在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。其中，所述第二预期结果可以根据所述第一测试结果中与所述第一预期结果不符合的部分来确定。具体的，例如所述第一测试结果为***提取了高频词除了“理财”、“贷款”、“存款”、“转账”之外，还包括“借记卡”，所述第一预期结果是***提取了高频词为“理财”、“贷款”、“存款”、“转账”，可以确定第一测试结果并不完全符合第一预期结果，在这种情况下，并不能确定***提取高频词的功能出现了问题，也有可能是第一测试数据集中的文本数据包含了高频词“借记卡”，但由于第一测试数据集中的各个类别文本数据并没有考虑到高频词“借记卡”导致所述第一预期结果缺少了高频词“借记卡”。在此情况下，如果***高频词的功能良好，则第一测试数据集中的各个类别的文本包含了高频词“借记卡”。因此，可以确定所述第二预期结果可以是关键词“借记卡”为第一测试数据集中的高频词，可以通过判断第一测试数据集中关键词“借记卡”是否为高频词来确定***提取高频词的功能是否良好。

在一些实施例中，可以根据以下步骤判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果。

S331：根据所述第一测试结果中与所述第一预期结果不符合的部分，得到至少一个关键词。

在一些实施例中，以测试***提取高频词的功能，所述第一测试数据集可以包括类别为理财、贷款、存款、转账的文本数据为例。所述第一测试结果为***提取了高频词为“理财”、“贷款”、“存款”、“转账”、“借记卡”，所述第一预期结果为***提取了高频词为“理财”、“贷款”、“存款”、“转账”，可以确定所述第一测试结果中与所述第一预期结果不符合的部分为高频词“借记卡”。进一步地，可以根据高频词“借记卡”确定关键词为“借记卡”。当然，上述仅仅是测试***提取高频词的功能，所述第一测试数据集可以包括类别为理财、贷款、存款、转账的文本数据的一个具体的例子，在本说明书实施例中，还可以是测试***的其他功能，以及包含不同类别文本数据的测试数据集。

S332：计算所述第一测试数据集中，各个文本数据中每个关键词出现的频率。

在一些实施例中，所述关键词可以作为所述文本数据的类别名称，也可以将每一预设关键词与一种文本数据的类别相对应。具体的，以所述多个预设的关键词包括“理财”、“贷款”、“存款”、“转账”为例，可以将目标数据集中的文本数据分为理财类别、贷款类别、存款类别和转账类别。

在一些实施例中，以所述关键词包括“理财”、“贷款”、“存款”为例，在获取多个预设的关键词后，可以得到关键词集合{F₁,F₂,F₃,...,F_n}，其中F₁＝“理财”，F₂＝“贷款”，F₃＝“存款”，n＝1,2,3...。

S333：根据所述频率判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果。

在一些实施例中，根据所述频率判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果可以包括：根据所述频率确定出现每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率；判断每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率是否符合第二预期结果。如果符合，则可以确定测试通过；否则测试不通过。

在一些实施例中，以测试***提取高频词的功能，所述第一测试数据集可以包括类别为理财、贷款、存款、转账的文本数据为例。根据所述第一测试结果中与所述第一预期结果不符合的部分为高频词“借记卡”确定关键词为“借记卡”。可以根据频率矩阵来确定出现关键词“借记卡”的文本数据的数量，以及关键词“借记卡”在所述第一测试数据集中出现的总频率。具体的，如果频率矩阵{f₁,f₂,f₃,...,f_n}中的f₁对应的关键词为“借记卡”，则可以确定f₁不为零的频率矩阵的数量，将f₁不为零的频率矩阵的数量确定为出现关键词“借记卡”的文本数据的数量；还可以将频率矩阵中f₁的值相加，得到关键词“借记卡”在所述第一测试数据集中出现的总频率。如果出现关键词“借记卡”的文本数据的数量大于预设数量和/或关键词“借记卡”在所述第一测试数据集中出现的总频率大于预设频率，则可以确定关键词“借记卡”为第一测试数据集中的高频词，所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，测试通过，***提取高频词的功能良好；否则测试不通过，***提取高频词的功能出现问题。

本说明书实施例可以获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。本说明书实施例提供的测试方法采用了根据数据中多个预设关键词出现的频率对数据进行分类的方法获取测试数据集，并且采用了两次测试结合的测试方法，既可以提高测试效率，又可以提高测试的准确性。

本实施方式提供了一个场景示例，如图4所示，图4为本实施方式提供的一个场景示例的示意图。

在本场景示例中，可以以测试***提取高频词的功能为例，从数据源中获取目标数据集，并对目标数据集进行分类，得到分类后的文本数据，再从分类后的文本数据中选取至少一个类别的文本数据作为测试数据集，以该测试数据集测试***提取高频词的功能。具体的，可以包括以下步骤。

S1：获取目标数据集。

在本场景示例中，所述目标数据可以包括文本数据和/或音频数据。

S2：对所述目标数据集进行脱敏处理。

在本场景示例中，从银行工作***中获取的目标数据集通常涉及客户的安全数据或者一些商业性敏感数据。为实现对敏感隐私数据的保护，还可以对目标数据集中的数据进行改造后使用，例如对目标数据集中如身份证号、手机号、***、客户号等个人信息进行数据脱敏处理。

S3：判断所述目标数据集是否为文本数据。

如果是，则执行S5，否则执行S4。

S4：将音频数据转换为对应的文本数据。

在本场景示例中，可以通过语音识别技术，将音频数据中表达的内容以文本的形式输出，得到对应的文本数据并执行S5。

S5：对文本数据进行分类。

在本场景示例中，可以获取多个预设的关键词“理财”、“贷款”、“存款”、“转账”、“汇款”，并计算各个文本数据中每个预设的关键词出现的频率。

在本场景示例中，可以将预设的关键词作为文本数据的类别名称。根据所述频率可以确定所述目标数据集中各个文本数据的类别为待定、理财、贷款、存款、转账、汇款、多类别。

S6：选取经过分类后的目标数据集中至少一个类别的文本数据作为测试数据集。

在本场景示例中，可以类别为理财、贷款、存款、转账的文本数据作为测试数据集。

S7：测试***提取高频词的功能。

具体的，可以将测试数据集输入***中，得到输出结果。

S8：判断输出结果是否完全符合第一预期结果。

在本场景示例中，第一预期结果为***提取的高频词为“理财”、“贷款”、“存款”、“转账”。如果输出结果为***提取了高频词“理财”、“贷款”、“存款”、“转账”，则输出结果完全符合第一预期结果，测试通过；如果输出结果为***提取了高频词“理财”、“贷款”、“存款”、“转账”、“借记卡”，则输出结果不完全符合第一预期结果，可以执行S9。

S9：根据输出结果中与第一预期结果不符合的部分确定类别名称。

在本场景示例中，输出结果中与第一预期结果不符合的部分为***提取了高频词“借记卡”，则可以确定“借记卡”为关键词，并将“借记卡”作为文本数据的类别名称。

S10：将测试数据集根据所述确定的类别名称进行分类。

在本场景示例中，可以计算关键词“借记卡”在测试数据集的文本数据中出现的频率，根据频率确定对测试数据集中的文本数据进行重新分类，可以得到新的类别为待定、理财、贷款、存款、转账、借记卡、多类别。

S11：判断新分类的文本数据是否符合第二预期结果。

在本场景示例中，可以根据输出结果中与第一预期结果不符合的部分可以得出，第二预期结果为关键词“借记卡”为测试数据集中的高频词。

在本场景示例中，可计算新分类的文本数据中，借记卡类别的文本数据，以及多类别的文本数据中出现关键词“借记卡”的总频率，并根据计算结果判断是否符合第二预期结果。具体的，如果借记卡类别的文本数据的数量大于预设数量和/或多类别的文本数据中出现关键词“借记卡”的总频率大于预设频率，则可以确定关键词“借记卡”为测试数据集中的高频词，所述输出结果中与所述第一预期结果不符合的部分符合第二预期结果，测试通过，***提取高频词的功能良好；否则测试不通过，***提取高频词的功能出现问题。

本说明书实施例还提供了一种数据分类方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取目标数据集；所述目标数据集中包括多个文本数据；计算在每个文本数据中多个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。在本实施方式中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图5，在软件层面上，本说明书实施例还提供了一种数据分类装置，该装置具体可以包括以下的结构模块。

获取模块510，用于获取目标数据集；所述目标数据集中包括多个文本数据；

计算模块520，用于计算在每个文本数据中多个预设的关键词出现的频率；

分类模块530，用于根据所述频率确定所述目标数据集中各个文本数据的类别。

在一些实施例中，所述分类模块530可以包括：第一分类子模块，用于在每个预设的关键词出现的频率都为预设频率的情况下，确定所述文本数据的类别为待定类别；第二分类子模块，用于在仅有一个预设的关键词出现的频率不为预设频率，其他预设的关键词出现的频率为预设频率的情况下，确定所述文本数据的类别为所述出现的频率不为预设频率的关键词对应的类别；第三分类子模块，用于在至少有两个预设的关键词出现的频率不为预设频率的情况下，确定所述文本数据的类别为多类别。

本说明书实施例还提供了一种测试方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过。

参阅图6，在软件层面上，本说明书实施例还提供了一种测试装置，该装置具体可以包括以下的结构模块。

获取模块610，用于获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；

第一测试模块620，用于将所述第一测试数据集输入待测试***中，获取第一测试结果；

第二测试模块630，用于在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则测试通过。

在一些实施例中，所述装置还可以包括：第一确定模块，用于在所述第一测试结果完全符合第一预期结果的情况下，确定测试通过。

在一些实施例中，所述装置还可以包括：第二确定模块，用于在所述第一测试结果完全不符合第一预期结果的情况下，确定测试不通过。

在一些实施例中，所述装置还可以包括：第三确定模块，用于在所述第一测试结果中与所述第一预期结果不符合的部分不符合第二预期结果的情况下，确定测试不通过。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合，这些组合也在本说明书公开和保护的范围内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种数据分类方法，其特征在于，所述方法包括：

获取目标数据集；所述目标数据集中包括多个文本数据；

计算在每个文本数据中多个预设的关键词出现的频率；

根据所述频率确定所述目标数据集中各个文本数据的类别；

所述方法还包括：在确定目标数据集至少包括一种类别的文本数据的情况下，将所述目标数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过；

所述方法还包括：根据以下步骤判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果：

根据所述第一测试结果中与所述第一预期结果不符合的部分，得到至少一个关键词；

计算所述第一测试数据集中，各个文本数据中每个关键词出现的频率；

根据所述频率判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果，以确定待测试***提取高频词的功能是否良好；

所述根据所述频率判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果包括：根据所述频率确定出现每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率；判断每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率是否符合第二预期结果。

2.根据权利要求1所述的方法，其特征在于，所述目标数据集还包括音频数据；相应的，还包括：所述音频数据转换为文本数据。

3.根据权利要求1所述的方法，其特征在于，所述文本数据的类别名称包括所述预设的关键词。

4.根据权利要求1所述的方法，其特征在于，所述根据所述频率确定所述目标数据集中各个文本数据的类别包括：

在每个预设的关键词出现的频率都小于预设频率的情况下，确定所述文本数据的类别为待定类别。

5.根据权利要求1所述的方法，其特征在于，所述根据所述频率确定所述目标数据集中各个文本数据的类别包括：

在仅有一个预设的关键词出现的频率大于或等于预设频率，其他预设的关键词出现的频率为小于预设频率的情况下，确定所述文本数据的类别为所述出现的频率大于或等于预设频率的关键词对应的类别。

6.根据权利要求1所述的方法，其特征在于，所述根据所述频率确定所述目标数据集中各个文本数据的类别包括：

在至少有两个预设的关键词出现的频率大于或等于预设频率的情况下，确定所述文本数据的类别为多类别。

7.一种测试方法，其特征在于，所述方法包括：

获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；

将所述第一测试数据集输入待测试***中，获取第一测试结果；

在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过；

8.根据权利要求7所述的方法，其特征在于，在所述第一测试结果完全符合第一预期结果的情况下，确定测试通过。

9.根据权利要求7所述的方法，其特征在于，在所述第一测试结果完全不符合第一预期结果的情况下，确定测试不通过。

10.根据权利要求7所述的方法，其特征在于，若所述第一测试结果中与所述第一预期结果不符合的部分不符合第二预期结果，则确定测试不通过。

11.根据权利要求7所述的方法，其特征在于，所述获取第一测试数据集包括：

获取目标数据集；所述目标数据集中包括多个文本数据；

计算在每个文本数据中多个预设的关键词出现的频率；

根据所述频率确定所述目标数据集中各个文本数据的类别；

获取经过分类后的目标数据集中至少一个类别的文本数据作为所述第一测试数据集。

12.一种数据分类装置，其特征在于，所述装置包括：

获取模块，用于获取目标数据集；所述目标数据集中包括多个文本数据；

计算模块，用于计算在每个文本数据中多个预设的关键词出现的频率；

分类模块，用于根据所述频率确定所述目标数据集中各个文本数据的类别；

所述装置还用于：在确定目标数据集至少包括一种类别的文本数据的情况下，将所述目标数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过；

所述装置还用于根据以下步骤判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果：

所述装置还用于：根据所述频率确定出现每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率；判断每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率是否符合第二预期结果。

13.根据权利要求12所述的装置，所述分类模块包括：

第一分类子模块，用于在每个预设的关键词出现的频率都为预设频率的情况下，确定所述文本数据的类别为待定类别。

14.根据权利要求12所述的装置，所述分类模块包括：

第二分类子模块，用于在仅有一个预设的关键词出现的频率不为预设频率，其他预设的关键词出现的频率为预设频率的情况下，确定所述文本数据的类别为所述出现的频率不为预设频率的关键词对应的类别。

15.根据权利要求12所述的装置，所述分类模块包括：

第三分类子模块，用于在至少有两个预设的关键词出现的频率不为预设频率的情况下，确定所述文本数据的类别为多类别。

16.一种测试装置，其特征在于，所述装置包括：

获取模块，用于获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；

第一测试模块，用于将所述第一测试数据集输入待测试***中，获取第一测试结果；

第二测试模块，用于在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则测试通过；

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

第一确定模块，用于在所述第一测试结果完全符合第一预期结果的情况下，确定测试通过。

18.根据权利要求16所述的装置，其特征在于，所述装置还包括：

第二确定模块，用于在所述第一测试结果完全不符合第一预期结果的情况下，确定测试不通过。

19.根据权利要求16所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于在所述第一测试结果中与所述第一预期结果不符合的部分不符合第二预期结果的情况下，确定测试不通过。

20.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：获取目标数据集；所述目标数据集中包括多个文本数据；计算在每个文本数据中多个预设的关键词出现的频率；根据所述频率确定所述目标数据集中各个文本数据的类别；所述计算机程序指令被执行时还实现：在确定目标数据集至少包括一种类别的文本数据的情况，将所述目标数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过；

所述计算机程序指令被执行时实现：根据以下步骤判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果：

所述计算机程序指令被执行时实现：根据所述频率确定出现每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率；判断每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率是否符合第二预期结果。

21.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：获取第一测试数据集；所述第一测试数据集至少包括一种类别的文本数据；将所述第一测试数据集输入待测试***中，获取第一测试结果；在所述第一测试结果不完全符合第一预期结果的情况下，若所述第一测试结果中与所述第一预期结果不符合的部分符合第二预期结果，则确定测试通过；

根据所述频率判断所述第一测试结果中与所述第一预期结果不符合的部分是否符合第二预期结果，以确定待测试***提取高频词的功能是否良好；所述计算机程序指令被执行时实现：根据所述频率确定出现每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率；判断每个关键词的文本数据的数量，以及每个关键词在所述第一测试数据集中出现的总频率是否符合第二预期结果。