CN110728313B - 一种用于意图分类识别的分类模型训练方法及装置 - Google Patents
一种用于意图分类识别的分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN110728313B CN110728313B CN201910936280.XA CN201910936280A CN110728313B CN 110728313 B CN110728313 B CN 110728313B CN 201910936280 A CN201910936280 A CN 201910936280A CN 110728313 B CN110728313 B CN 110728313B
- Authority
- CN
- China
- Prior art keywords
- training
- intention
- classification
- samples
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种用于意图分类识别的分类模型训练方法及装置,包括:从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集并对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:利用测试样本集对新的分类模型进行测试,根据测试结果确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集并对当前分类模型训练,得到新的分类模型。本申请解决了训练样本随机占比的问题,提高了分类模型的训练效率和分类精度。
Description
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种用于意图分类识别的分类模型训练方法及装置。
背景技术
随着云计算、大数据等人工智能技术的发展与应用,自然语言处理(NaturalLanguage Processing,NLP)结合机器学习和深度学习,在实时性、全面性、有效性和准确性等方面有了较大提升。
自然语言处理过程中首先需要识别输入的文本信息的意图类别,之后根据意图类别采用对应的槽位抽取方式抽取槽位值,通过语义词库理解语义。其中通过机器学习和/深度学习形成具有识别文本信息所属的意图类别的分类模型(机器学习模型/深度学习模型),在进行相应的分类模型训练时,需要依赖大量的带标签训练样本,也即训练样本集以形成良好性能的分类模型。
由于训练样本集中的各类意图类别的训练样本的数据特征分布不同,因此上述分类模型在训练过程中对各意图类别样本集分类的难易程度也不同,具有明显数据特征的意图类别样本,分类模型可以利用少量的训练样本学习,而对于数据特征不明显的意图类别样本,则需要更多的训练样本集。
在实际应用中,训练样本集中各意图类别训练样本占比通常是随机的,且并没有条件证明上述数据特征被分类模型学习到的难易程度。目前在模型训练的过程中通常采用训练样本全集训练模型,或者依据以往的经验按照一定比例对各类别样本集进行采样,并通过有限次的实验去探寻最佳的训练样本比例,由此消耗了巨大的人力和计算机算力,且根据经验判断的方法往往会造成数据冗余和比例占比不佳,由此影响了分类模型的精度及计算机的性能:
1)由于分类模型需要不断的迭代更新,因此数据量冗余将直接导致分类模型训练耗时增多,增加额外的计算力开销,造成大量的额外消耗。
2)分类模型学习会偏向数据特征不明显的意图类别采用较大比例数据量,如果不能探寻到最佳的不同意图类别的训练样本的比例划分,会造成分类模型分类精度下降。
发明内容
本申请提供一种用于意图分类识别的分类模型训练方法及装置,用以解决现有的分类模型训练样本集中各意图类别训练样本占比通常为随机占比,消耗了巨大的人力和计算机算力,且根据经验判断的方法往往会造成数据冗余和比例占比不佳,由此影响了分类模型的精度及计算机的性能的问题。
第一方面,本申请提供一种用于意图分类识别的分类模型训练方法,该方法包括:
从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:
利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求。
可选地,各意图类别的测试样本包括正测试样本和负测试样本,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度,包括:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
可选地,将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度,包括:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
可选地,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量。
可选地,所述类别分类精度为归一化处理的类别分类精度,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,Dm为每个意图类别的训练样本。
可选地,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
可选地,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
可选地,从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集,包括:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
可选地,利用测试样本集对新的分类模型进行测试,包括:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对新的分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对新的分类模型进行测试。
本申请实施例提供的用于意图分类识别的分类模型训练方法,具有以下有益效果:
本申请提供的一种用于意图分类识别的分类模型训练方法及装置,可以在分类模型训练时,通过不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度,在分类模型精度不够时,根据不同意图类别测试样本的类别分类精度动态调整各意图类别的训练样本,直至分类模型的分类精度达到设定要求,在进行动态调整时各意图类别的样本增加数与该类别的分类精度相关,因此可以动态实现不同类别的较优比例占比,且不会存在样本数量过大导致训练度复杂,也同时保证了分类模型的分类精度,在应用与自然语言处理NPL的意图分类时,提高了意图分类的精度。
第二方面,本申请提供一种用于意图分类识别的分类模型训练装置,该装置包括:
样本初始化模块,用于从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
模型训练模块,用于将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件;
模型测试模块,用于利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
精度确定模块,用于确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
重新抽取模块,用于按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求。
可选地,各意图类别的测试样本包括正测试样本和负测试样本,模型测试模块在根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度时,具体用于:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
可选地,模型测试模块在将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度时,具体用于:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
可选地,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量。
可选地,所述类别分类精度为归一化处理的类别分类精度,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,Dm为每个意图类别的训练样本。
可选地,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
可选地,精度确定模块依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
可选地,重新抽取模块从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集时,具体用于:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
可选地,模型测试模块利用测试样本集对新的分类模型进行测试时,具体用于:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对新的分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对新的分类模型进行测试。
第三方面,本申请提供一种用于意图分类识别的分类模型训练装置,包括:至少一个处理单元和至少一个存储单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:
利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求。
可选地,各意图类别的测试样本包括正测试样本和负测试样本,处理单元在根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度时,具体用于:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
可选地,处理单元在将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度时,具体用于:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量。
可选地,所述类别分类精度为归一化处理的类别分类精度,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,Dm为每个意图类别的训练样本。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
可选地,处理单元从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集时,具体用于:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
可选地,处理单元利用测试样本集对新的分类模型进行测试时,具体用于:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对新的分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对新的分类模型进行测试。
第四方面,本申请还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理单元执行时实现第一方面所述方法的步骤。
第五方面,本申请还提供一种提供计算机程序产品,包括计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行上述任意一项的用于意图分类识别的分类模型训练方法。
另外,第二方面至第五方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用于意图分类识别的分类模型训练方法示意图;
图2为本申请实施例提供的一种用于意图分类识别的分类模型训练方法示意图;
图3为本申请实施例提供的一种用于意图分类识别的分类模型训练装置示意图;
图4为本申请实施例提供的一种用于意图分类识别的分类模型训练装置示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
1)训练样本下采样:对于包括多个不用意图类别的训练样本全集,每个意图类别的训练样本的样本数不等,按照最小的样本数,分别抽取各意图类别的训练样本,为训练样本下采样;
2)训练样本上采样:对于包括多个不用意图类别的训练样本全集,每个意图类别的训练样本的样本数不等,按照最大的样本数,分别补全各意图类别的训练样本,为训练样本上采样,补全的方式可以为手动添加或自动重复增加;
3)混淆矩阵:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示;
4)Softmax函数:也称归一化指数函数,是逻辑函数的一种推广,Softmax函数实际上是有限项离散概率分布的梯度对数归一化。
本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的,本申请中识别意图类别,包括识别意图所属的领域/场景,具体示例为可以识别意图属于天气查询领域/导航领域/音乐播放领域等,或者包括识别意图所属的领域/场景,及该领域/场景下所属的具体意图类别,具体示例为可以识别意图属于天气查询领域/导航领域/音乐播放领域等,在查询到意图属于天气查询领域时,进一步识别属于湿度温度查询/空气污染指数查询/紫外先指出查询等具体的意图类别。
在NLP的意图识别过程中,需要区分不同意图类别以采用对应的槽位抽取方式进行槽位值抽取,其中不同意图类别的样本数据特征分布差异较为明显,具体示例为在天气查询领域下,识别出意图属于天气查询领域比较容易,但进一步识别湿度温度查询/空气污染指数查询/紫外先指出查询等具体的意图类别,由于温度湿度查询/空气污染指数查询/紫外线指数查询的数据特征都为数字,数据特征不明显,分类模型进行分类比较困难。
目前用于文本信息的意图类别识别的分类模型训练过程中,更关注分类模型的设计和构建,忽略了训练样本集的质量对分类模型性能的影响。
鉴于上述问题,本申请提供一种用于意图分类识别的分类模型训练方法,当然,不仅仅适用于自然语言处理领域,对于其他通过提高样本集的质量得到较好性能的领域也同样适用。
如图1所示为本申请提供的一种用于意图分类识别的分类模型训练方法,包括:
步骤S101,从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
上述设定值可以根据训练样本全集中,各意图类别的训练样本对应的样本数中的最小值进行设定,作为一种可选的实施方式,可以直接取该最小值为设定值,则相当于从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集,该新训练样本集为初始的新训练样本集。下采样即间隔几个样本取样一次,直至取样数量达到设定值。
作为另一种可选的实施方式,可以将上述最小值向上浮动设定数量得到设定值,从训练样本全集中每个意图类别的训练样本中,抽取设定值个训练样本得到新训练样本集。
其中,在初始时,不同意图类别的训练样本所占的样本比例均相同;本实施例中,新训练样本集为D={x1,x2,...,xm},Xi表示每个意图类别的训练样本,i的取值范围为1~m,m为意图类别的总数。
步骤S102,将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件;
将从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成的初始训练样本集,按照上述抽取训练样本形成初始的新训练样本时,会触发利用新训练样本对分类模型训练;
在初始时,可以采用随机化的方法随机化分类模型,在分类模型的训练过程中,可以基于机器学习方法或深度学习方法对分类模型进行训练;
其中,所述训练结束条件为整体分类精度满足设定要求,若确定整体分类精度满足设定要求时,确定不再需要增加新的训练样本进行分类模型训练,结束生成新样本进行训练的过程。
步骤S103,利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
测试样本集包括不同意图类别的测试样本,每个意图类别的测试样本,包括带属于该意图类别标签的正测试样本,和带不属于该意图类别标签的负测试样本。
利用测试样本对分类模型进行测试的过程,为将测试样本作为输入特征,输入到当前分类模型进行测试,根据当前分类模型输出的是否属于该意图类别的结果,及测试样本对应的标签,确定各个测试样本的意图类别分类是否正确,依据各个测试样本的意图类别分类是否正确,评价对不同意图类别测试样本的类别分类精度,依据对不同意图类别测试样本的类别分类精度确定对测试样本集的整体分类精度。
依据各个测试样本的意图类别分类是否正确,评价对不同意图类别测试样本的类别分类精度时,可以采用现有的评价分类模型分类精度的函数进行评价,如损失函数等。
需要说明的是,本实施例中分类模型的输出结果为二维的分类向量,作为一种可选的实施方式,分类向量中每行的不同位置对应不同的意图类别的分类结果,对应同一意图类别的同一行中包括两列元素,分别代表属于该意图类别的概率,及不属于该意图类别的概率。
作为另一种可选的实施方式,分类向量中每列的不同位置对应不同的意图类别的分类结果,对应同一意图类别的同一列中包括两行元素,分别代表属于该意图类别的概率,及不属于该意图类别的概率。
进一步地,可以对属于该意图类别的概率,及不属于该意图类别的概率,通过归一化指数函数进行归一化得到一概率值,从而得到一维的分类向量。其中在每个类别意图对应的概率值大于设定阈值时,认为属于该意图类别,否则认为不属于该意图类别。
上述新训练样本集后,一种可能的生成方式为从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对当前分类模型进行测试;另一种可能的方式为从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对当前分类模型进行测试。上述测试样本集可以从训练样本全集中抽取不同意图类别的训练形成的,也可以是训练样本全集外的测试样本集。
步骤S104,确定整体分类精度不满足设定要求;
整体分类精度满足要求,可以是整体分类精度大于设定精度阈值。
步骤S105,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
类别分类精度越高,说明需要增加的样本数越少,可以按照约定的规则,确定对应增加的样本数量,具体的规则可以灵活进行定义。
步骤S106,按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
每次从训练样本全集中重新抽取不同意图类别的训练样本时,从训练样本全集中抽取未被抽取过的训练样本形成新训练样本集;
在初始的新训练样本的基础上增加样本形成新训练样本时,触发利用新训练样本对分类模型进行训练,得到新的分类模型。
新训练样本集中包括不同意图类别的训练样本,每个意图类别的训练样本,包括带属于该意图类别标签的正训练样本,和带不属于该意图类别标签的负训练样本。
利用新训练样本对分类模型进行训练的过程,为将训练样本作为输入特征,将训练样本对应的标签作为输出特征,对分类模型进行训练的过程。
实施中,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,可以采用如下任一方式:
方式一
1)根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到各意图类别训练样本的增加数量。
作为一种可选的实施方式,各意图类别训练样本的增加数量随着各类别分类精度增加而线性减少,通过将所述线性减少系数与设定的样本基数的乘积,得到各意图类别训练样本的增加数量。
作为另一种可选的实施方式,通过将所述线性减少系数与完成训练的该意图类别的训练样总数乘积,得到各意图类别训练样本的增加数量。
实施中,上述类别分类精度为归一化处理的类别分类精度,假设F11为某一意图类别归一化处理的类别分类精度,该意图类别训练样本的增加数量为(1-F11)*Dm,其中Dm为设定的样本基数,或者为完成训练的该意图类别的样本总数。具体的示例1为类别分类精度为0.8,设定的样本基数为100,则需要增加的样本数量为(1-0.8)*100,即需要增加20个样本数量。具体的示例2为类别分类精度为0.8,该完成训练的该意图类别的样本总数目前为100,则需要增加的样本数量为(1-0.8)*100,即需要增加20个样本数量。
方式二
根据预先设定的不同分类精度范围所对应的增加数量,确定当前各类别分类精度所在的设定范围对应的增加数量,其中越大数值的分类精度范围,对应的增加数量越少。
则在增加样本数量时,确定当前各类别分类精度所在的设定范围对应的增加数量,得到各意图类别训练样本的增加数量。
具体的示例如表1所示,不同的分类精度对应不同的增加数量,若当前某一类别分类精度中为0.7时,确定需要增加20个样本数量。
表1
分类精度 | 增加数量 |
(0-0.2] | 50 |
(0.2-0.4] | 40 |
(0.4-0.6] | 30 |
(0.6-0.8] | 20 |
(0.8-1] | 10 |
方式三
根据预先设定的不同分类精度范围所对应的增加数量,确定当前各类别分类精度所在的设定范围对应的增加幅度,其中越大数值的分类精度范围,对应的增加幅度越少。
则在增加样本数量时,确定当前各类别分类精度所在的设定范围对应的增加幅度,将该增加幅度乘以设定样本数,或者乘以完成训练的该意图类别的训练样本的样本总数,得到各意图类别训练样本的增加数量。
具体的示例如表2所示,不同的分类精度对应不同的增加数量,若当前某一类别分类精度中为0.7时,确定需要增加的幅度为0.3,若设定样本数为50,确定需要增加15个样本数量。
表2
方式四
对各类别分类精度进行反比运算,并与设定的样本基数乘积,得到各意图类别训练样本的增加数量。
对各类别分类精度进行反比运算,具体为进行如下运算:利用数值1除以类别分类精度,得到一系数,利用该系数乘以设定的样本基数并进行向上取整或向下取整,得到各意图类别训练样本的增加数量。具体示例为:对于某一意图类别,类别分别精度为0.7,设定的样本基数为20,则该意图类别的训练样本的增加数量为(1/0.6)*20的结果向下取整,具体为33。
各意图类别的测试样本包括正测试样本和负测试样本,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度一种可选的实施方式为:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
对不同意图类别测试样本的类别分类精度进行平滑处理,可以是将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
混淆矩阵包括正测试样本和负测试样本对应的测试结果参数,如前所述,对于每个类别意图,当前分类模型会输出一个二维的向量,本实施例中将二维向量通过归一化指数函数进行归一化处理为一个概率值,根据该概率值可以到正测试样本被分类正样本/负样本,负测试样本被分类为负样本/正样本的结果,从而得到如下表3所示的混淆矩阵:
表3混淆矩阵
其中,预测类别中正(P)表示正测试样本,负(N)表示负测试样本,所述混淆矩阵的阵列元素还包括正测试样本中被识别为正样本的数量,即真正(TP),正测试样本中被识别为负样本的数量,即假负(FN),及负测试样本中被识别为正样本数量,即假正(FP),负测试样本中被识别为负样本数量,即真负(TN)。
实施中,依据上述混淆矩阵中的元素,按照如下步骤确定各意图类别的类别分类精度:
1)计算真正率参数
正的测试样本中被识别为正样本的数量占所述正的测试样本总数量比例的真正率TPR:TPR=TP/(TP+FN);
2)计算假正率参数
负的测试样本中被识别为正样本的数量占所述负的测试样本总数量比例的假正率FPR:FPR=FP/(FP+TN);
3)计算召回率
正的测试样本中被识别为正样本的数量占所述正的测试样本总数量比例召回率Recall:Recall=(TP)/(TP+FN);
4)计算精确率参数
正的测试样本中被识别为正样本的数量占总的测试样本中被识别为正样本数量比例,得到精确率Precision:Precision=TP/(TP+FP);
根据各意图类别训练样本的评价参数,计算该意图类别测试样本的类别分类精度F1,作为一种可选地实施方式,该分类精度表达式为:
F1=2*(Precision*Recall)/(Precision+Recall)
再将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度,所述平滑处理即将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
上述任一方式中的类别分类精度为归一化处理后的分类精度,如前所述,在进行分类模型测试,分类模型的输出结果为二维的向量,基于分类模型的输出结果得到归一化的类别分类精度,取值范围为(0-1)。
本实施例中采用Softmax函数对所述各类别分类精度做归一化处理,之后依据公式(1-F11)*Dm计算各意图类别训练样本的增加数量,F11为归一化处理的类别分类精度,其中Dm为设定的样本基数,或者为完成训练的该意图类别的样本总数。
作为一种可选地实施方式,当整体分类精度大于一定数值时,确认满足设定要求,该数值可以设定为0.8,即当整体分类精度大于0.8时,结束训练,也可以为其他数值,在此不做限定。
本实施例中意图分类识别模型应用到NPL中意图类别识别,具体为获取文本信息,将所述文本信息输入到分类模型,得到文本信息对应的用户意图类别,当然,也可以应用到其他需要分类的场景。
用户查询意图一般分为3类,包括导航型、信息型和事务型,其中每一用户查询意图又可以细分为多种子意图,在此不做阐述,优化意图分类识别模型中训练样本集中各意图类别训练样本占比,可以减少采用冗余的数据进行分类模型训练,并得到性能良好的分类模型,可以在用户查询数据时提高查询精度。
意图识别分类模型具体可以为以下几种,包括利用双向的GRU+CRF作为意图与槽位的联合模型、利用语义分析树构造了路径特征对槽位与意图的识别的联合模型、基于CNN+Tri-CRF的模型以及基于attention-based RNN。本申请提出的一种用于类意图分类识别的分模型训练方法应用在上述模型中,可以增加上述分类模型的分类精度,减少数据量冗余及计算机计算量消耗。
实施例2
下面结合具体实施例对以上本申请中一种用于意图分类识别的分类模型训练方法进行说明,如图2所示:
步骤S201,从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
步骤S202,将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件;
其中,训练结束条件为确定整体分类精度不小于设定阈值。
步骤S203,根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵;
步骤S204,根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度,对类别分类精度进行归一化处理,并将归一化后的各类别分类精度取平均值,得到测试样本集的整体分类精度;
步骤S205,确定整体分类精度小于设定阈值;
步骤S206,确定各意图类别训练样本的增加数量为(1-F11)*Dm,其中,Dm为每个意图类别的训练样本,F11为归一化处理的类别分类精度;
步骤S207,按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
若确定整体分类精度满足设定要求时,确定不再需要增加新的训练样本进行分类模型训练,结束生成新样本进行训练的过程。
以上对本申请中一种用于意图分类识别的分类模型训练方法进行说明,以下对执行上述用于意图分类识别的分类模型训练装置进行说明。
请参阅图3本申请实施例提供的一种用于意图分类识别的分类模型训练装置,包括:
样本初始化模块301,用于从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
模型训练模块302,用于将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件;
模型测试模块303,用于利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
精度确定模块304,用于确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
重新抽取模块305,用于按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求。
可选地,各意图类别的测试样本包括正测试样本和负测试样本,模型测试模块在根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度时,具体用于:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
可选地,模型测试模块在将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度时,具体用于:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
可选地,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量。
可选地,所述类别分类精度为归一化处理的类别分类精度,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,Dm为每个意图类别的训练样本。
可选地,精度确定模块在依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
可选地,精度确定模块依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
可选地,重新抽取模块从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集时,具体用于:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
可选地,模型测试模块利用测试样本集对当前分类模型进行测试时,具体用于:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对当前分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对当前分类模型进行测试。
上面从模块化功能实体的角度对本申请实施例中的一种用于意图分类识别的分类模型训练装置进行了描述,下面从硬件处理的角度对本申请实施例中的用于意图分类识别的分类模型训练装置进行描述。
请参阅图4,本申请实施例中一种用于意图分类识别的分类模型训练装置,包括:
至少一个处理单元401和至少一个存储单元402,以及总线***409;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:
利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求。
图4是本公开实施例提供的一种用于意图分类识别的分类模型训练装置示意图,该设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(英文全称:central processing units,英文简称:CPU)401(例如,一个或一个以上处理器)和存储器402,一个或一个以上存储应用程序404或数据405的存储介质403(例如一个或一个以上海量存储设备)。其中,存储器402和存储介质403可以是短暂存储或持久存储。存储在存储介质403的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地,处理器401可以设置为与存储介质403通信,在设备400上执行存储介质403中的一系列指令操作。
设备400还可以包括一个或一个以上有线或无线网络接口407,一个或一个以上输入输出接口408,和/或,一个或一个以上操作***406,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等。
可选地,各意图类别的测试样本包括正测试样本和负测试样本,处理单元在根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度时,具体用于:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
可选地,处理单元在将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度时,具体用于:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量。
可选地,所述类别分类精度为归一化处理的类别分类精度,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,Dm为每个意图类别的训练样本。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
可选地,处理单元依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量时,具体用于:
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
可选地,处理单元从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集时,具体用于:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
可选地,处理单元利用测试样本集对当前分类模型进行测试时,具体用于:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对当前分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对当前分类模型进行测试。
本申请实施例还提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述实施例提供的用于意图分类识别的分类模型训练方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种用于意图分类识别的分类模型训练方法,其特征在于,包括:
从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:
利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求;
所述依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量;或,
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
2.根据权利要求1所述的方法,其特征在于,各意图类别的测试样本包括正测试样本和负测试样本,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度,包括:
根据各意图类别的测试样本测试结果,确定各意图类别测试样本对应的混淆矩阵,所述混淆矩阵包括正测试样本和负测试样本对应的测试结果参数;
根据所述混淆矩阵中的测试结果参数,计算该意图类别测试样本的类别分类精度;
将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度。
3.根据权利要求2所述的方法,其特征在于,将不同意图类别测试样本的类别分类精度进行平滑处理,得到测试样本集的整体分类精度,包括:
将不同意图类别测试样本的类别分类精度取平均值,得到测试样本集的整体分类精度。
4.根据权利要求1所述的方法,其特征在于,所述类别分类精度为归一化处理的类别分类精度,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
各意图类别训练样本的增加数量为(1-F11)*Dm,其中,F11为该意图类别归一化处理的类别分类精度,D m为每个意图类别的训练样本。
5.根据权利要求1所述的方法,其特征在于,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据预先设定的不同分类精度范围所对应的增加数量/增加幅度,确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,其中越大数值的分类精度范围,对应的增加数量/增加幅度越少;
确定当前各类别分类精度所在的设定范围对应的增加数量/增加幅度,得到各意图类别训练样本的增加数量。
6.根据权利要求1所述的方法,其特征在于,从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成新训练样本集,包括:
从包括不同意图类别训练样本的训练样本全集中,按照下采样方式,抽取各意图类别的训练样本形成新训练样本集。
7.根据权利要求1所述的方法,其特征在于,利用测试样本集对新的分类模型进行测试,包括:
从新训练样本集中抽取不同意图类别的训练样本作为测试样本,利用测试样本集对新的分类模型进行测试;或者
从新训练样本集外的测试样本集中,抽取不同意图类别的测试样本,利用所述测试样本集对新的分类模型进行测试。
8.一种用于意图分类识别的分类模型训练装置,其特征在于,该装置包括:
样本初始化模块,用于从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
模型训练模块,用于将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件;
模型测试模块,用于利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
精度确定模块,用于确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
重新抽取模块,用于按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求;
所述依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量;或,
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
9.一种用于意图分类识别的分类模型训练装置,其特征在于,包括:至少一个处理单元和至少一个存储单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
从包括不同意图类别训练样本的训练样本全集中,抽取各意图类别的训练样本形成初始训练样本集,其中抽取的各意图类别的训练样本数小于设定值;
将初始训练样本集对初始的分类模型进行训练,得到新的分类模型,循环执行如下步骤至满足训练结束条件:
利用测试样本集对新的分类模型进行测试,根据测试结果确定对不同意图类别测试样本的类别分类精度及对测试样本集的整体分类精度;
确定整体分类精度不满足设定要求时,依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量;
按照各意图类别训练样本的增加数量,从训练样本全集重新抽取不同意图类别的训练样本形成新训练样本集,利用新训练样本集对当前分类模型训练,得到新的分类模型;
其中,所述训练结束条件为整体分类精度满足设定要求;
所述依据类别分类精度越高对应的增加数量越少的原则,确定各意图类别训练样本的增加数量,包括:
根据各类别分类精度得到对应的线性减少系数,并与设定的样本基数/完成训练的该意图类别的训练样本总数乘积,得到该意图类别训练样本的增加数量;或,
对各类别分类精度进行反比运算,并与设定的样本基数/完成训练的该意图类别的训练样本乘积,得到各意图类别训练样本的增加数量。
10.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936280.XA CN110728313B (zh) | 2019-09-29 | 2019-09-29 | 一种用于意图分类识别的分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936280.XA CN110728313B (zh) | 2019-09-29 | 2019-09-29 | 一种用于意图分类识别的分类模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728313A CN110728313A (zh) | 2020-01-24 |
CN110728313B true CN110728313B (zh) | 2023-01-17 |
Family
ID=69218615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936280.XA Active CN110728313B (zh) | 2019-09-29 | 2019-09-29 | 一种用于意图分类识别的分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728313B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326857B (zh) * | 2020-02-28 | 2022-09-23 | 合肥美亚光电技术股份有限公司 | 模型训练方法及装置 |
CN112541739B (zh) * | 2020-12-15 | 2022-04-15 | 平安科技(深圳)有限公司 | 问答意图分类模型的测试方法、装置、设备及介质 |
CN112329896B (zh) * | 2021-01-05 | 2021-05-14 | 武汉精测电子集团股份有限公司 | 模型训练方法及装置 |
CN112905869B (zh) * | 2021-03-26 | 2024-07-26 | 深圳好学多智能科技有限公司 | 语言模型的自适应训练方法、装置、存储介质及设备 |
CN113080864B (zh) * | 2021-04-07 | 2022-02-01 | 电子科技大学 | 一种通过自动睡眠分期结果的常见睡眠疾病检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320957A (zh) * | 2014-07-10 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 分类器训练方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2323080B1 (en) * | 2008-08-05 | 2019-05-15 | Fujitsu Limited | Sample attribution class estimation method, sample attribution class estimation program, and attribution class estimation apparatus |
CN101944122A (zh) * | 2010-09-17 | 2011-01-12 | 浙江工商大学 | 一种融合增量学习的支持向量机多类分类方法 |
US11663409B2 (en) * | 2015-01-23 | 2023-05-30 | Conversica, Inc. | Systems and methods for training machine learning models using active learning |
CN106228182B (zh) * | 2016-07-17 | 2019-02-15 | 西安电子科技大学 | 基于spm和深度增量svm的sar图像分类方法 |
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN110298391B (zh) * | 2019-06-12 | 2023-05-02 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
-
2019
- 2019-09-29 CN CN201910936280.XA patent/CN110728313B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320957A (zh) * | 2014-07-10 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 分类器训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110728313A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN109766497B (zh) | 排行榜生成方法及装置、存储介质、电子设备 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
US11790174B2 (en) | Entity recognition method and apparatus | |
CN111125658B (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN110442516A (zh) | 信息处理方法、设备及计算机可读存储介质 | |
CN109726391B (zh) | 对文本进行情感分类的方法、装置及终端 | |
CN113723618B (zh) | 一种shap的优化方法、设备及介质 | |
CN109656545A (zh) | 一种基于事件日志的软件开发活动聚类分析方法 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN111767738A (zh) | 一种标签校验方法、装置、设备和存储介质 | |
CN111444956A (zh) | 低负载信息预测方法、装置、计算机***及可读存储介质 | |
CN112990035A (zh) | 一种文本识别的方法、装置、设备以及存储介质 | |
CN113934851A (zh) | 用于文本分类的数据增强方法、装置及电子设备 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN117422182A (zh) | 数据预测方法、装置及存储介质 | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及*** | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN115858780A (zh) | 一种文本聚类方法、装置、设备及介质 | |
CN112989040B (zh) | 一种对话文本标注方法、装置、电子设备及存储介质 | |
CN113836005A (zh) | 一种虚拟用户的生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |