CN111339292A - 文本分类网络的训练方法、***、设备及存储介质 - Google Patents

文本分类网络的训练方法、***、设备及存储介质 Download PDF

Info

Publication number
CN111339292A
CN111339292A CN201811555318.0A CN201811555318A CN111339292A CN 111339292 A CN111339292 A CN 111339292A CN 201811555318 A CN201811555318 A CN 201811555318A CN 111339292 A CN111339292 A CN 111339292A
Authority
CN
China
Prior art keywords
training
texts
text
category
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811555318.0A
Other languages
English (en)
Inventor
王颖帅
李晓霞
苗诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811555318.0A priority Critical patent/CN111339292A/zh
Publication of CN111339292A publication Critical patent/CN111339292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本分类网络的训练方法、***、设备及存储介质,所述方法包括:接收训练用文本和训练用文本的类别标签,作为训练集;统计训练集中各个类别的文本的数量;调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。本发明通过平衡训练集中的文本数量,并且构建更为精准的卷积神经网络作为文本分类网络,从而提供了更准确的文本分类网络,可以更准确地对用户输入进行分类,精准定位用户需求,提升用户体验。

Description

文本分类网络的训练方法、***、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类网络的训练方法、***、设备及存储介质。
背景技术
深度学***台。
现有技术中,智能助理对文本分类网络的训练的理解方式为:基于模板的正则匹配,根据话术进行分类,每个类别需要产品预先想好话术,话术模板不断跟进线上业务。然而,采用该种方法,需要人工想到更多的句式,由于人的认知有限,不可能覆盖到所有的线上句式,预测比较死板。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种文本分类网络的训练方法、***、设备及存储介质,提供更准确的文本分类网络,可以更准确地对用户输入进行分类,精准定位用户需求,提升用户体验。
本发明实施例提供一种文本分类网络的训练方法,所述方法包括如下步骤:
接收训练用文本和训练用文本的类别标签,作为训练集;
统计训练集中各个类别的文本的数量;
调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
可选地,所述方法还包括如下步骤:
根据句子长度将训练集中的文本分为不同长度区间的文本;
调整各个长度区间中的文本的数量,使得训练集中各个长度区间的文本的数量比值满足第二预设比例要求。
可选地,所述调整训练集中各个类别的文本的数量,包括如下步骤:
对于文本的数量过少而无法满足第一预设比例要求的类别,进一步增补该类别的文本的数量;
对于文本的数量过多而无法满足第一预设比例要求的类别,从该类别的文本中筛选指定数量的文本,筛选得到的该类别的文本的数量满足第一预设比例要求。
可选地,所述统计训练集中各个类别的文本的数量之前,还包括如下步骤:
将训练集中的文本分为多个批次;
分别对于各个批次,统计该批次中各个类别的文本的数量,并调整该批次中各个类别的文本的数量,使得该批次中各个类别的文本的数量比值满足第一预设比例要求。
可选地,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
采用预设的滤除语句对训练用文本进行正则匹配;
滤除正则匹配到的训练用文本。
可选地,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
筛选所述训练用文本,去除所述训练用文本中重复的文本。
可选地,所述卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类层。
可选地,所述第一卷积层、第二卷积层和第三卷积层分别采用1*1卷积核、3*3卷积核和5*5卷积核;所述第一池化层、第二池化层和第三池化层的池化区域分别采用2*2矩阵。
可选地,所述卷积神经网络基于局部感知野实现,且每一层与上一层共享局部连接参数。
可选地,训练用于文本分类的卷积神经网络时,得到的最优文本分类模型的损失小于0.05,精确度为0.91,F1值为0.92。
可选地,所述文本分类网络包括Highway网络层,所述Highway网络层对训练集中的汉字级别特征、分词级别特征和词向量级别特征进行特征融合。
可选地,还包括如下步骤:
获取文本分类网络的评测数据;
查找评测数据中分类错误数据,对分类错误数据重新添加正确分类的标签;
将分类错误数据和正确的标签加入训练集;
采用更新后的训练集重新训练文本分类网络。
本发明实施例还提供一种文本分类网络的训练***,应用于所述的文本分类网络的训练方法,所述文本分类网络的训练***包括:
文本采集模块,用于接收训练用文本和训练用文本的类别标签,作为训练集;
训练集平衡模块,用于统计训练集中各个类别的文本的数量,以及调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
分类网络训练模块,用于采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
本发明实施例还提供一种文本分类网络的训练设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的文本分类网络的训练方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的文本分类网络的训练方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的文本分类网络的训练方法、***、设备及存储介质具有下列优点:
本发明通过平衡训练集中的文本数量,保证文本分类网络对于每个类别的泛化能力都很好,并且构建更为精准的卷积神经网络作为文本分类网络,从而提供了更准确的文本分类网络,可以更准确地对用户输入进行分类,精准定位用户需求,预测的用户句式覆盖度更大,提升用户体验;进一步地,本发明通过对文本分类网络进行评测,根据评测数据中的分类错误数据,建立badcase反馈,根据反馈数据更新训练集,从而实现文本分类网络的不断完善。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的文本分类网络的训练方法的流程图;
图2是本发明一实施例的卷积神经网络的结构示意图;
图3是本发明一具体实例的文本分类网络的训练***的结构框图;
图4是本发明一实施例的文本分类网络的训练设备的结构示意图;
图5是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件单元或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种文本分类网络的训练方法,所述方法包括如下步骤:
S100:接收训练用文本和训练用文本的类别标签,作为训练集;
S200:统计训练集中各个类别的文本的数量;
S300:调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
S400:采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
因此,本发明通过平衡训练集中的文本数量,保证文本分类网络对于每个类别的泛化能力都很好,并且构建更为精准的卷积神经网络作为文本分类网络,从而提供了更准确的文本分类网络,可以更准确地对用户输入进行分类,精准定位用户需求,预测的用户句式覆盖度更大,提升用户体验。
在该实施例中,文本分类的场景包括七个,分别是:
ACT_COMMODITY,表示特定商品查询业务场景;
ACT_ORDER,表示订单查询业务场景;
ACT_DISCOUNT,表示模糊优惠查询业务场景;
ACT_SPECIFY_DISCOUNT,表示特定优惠查询业务场景;
ACT_AFTER_SALES,表示售后服务的业务场景;
ACT_SHORTCUT,表示全站直达的业务场景;
ACT_UNKNOWN,表示未知。
此处仅为分类场景的一个举例,在实际应用中,可以变更其中的场景,也可以增加或删除其中的某个场景,对应调整文本分类网络所对应的类别的种类和数量。
所述步骤S100中,接收训练用文本和训练用文本的类别标签,可以筛选用户首句输入或者从智能助理日志中提取训练用文本,然后进行人工标注。本发明人工标注的目标是,对用户在智能助理输入的有价值的话,标注出正确的购物场景意图,作为深度学习模型训练集的标签,训练网络。在智能助理项目中,用户和小机器人的对话,最需要识别的是用户对话的首句,所以程序筛选用户每次会话的第一句。对于智能助理日志来说,智能助理的日志落到大数据Hive表(Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行)中,全部字段有“业务场景”、“频道编号”、“当前场景”、“设备id”、“输入文本”、“用户pin”、“用户位置”、“时间”、“会话id”、“上下文信息”等,本发明是根据用户输入文本,标注用户购物意图。智能助理日志表中的数据,可以作为模板对应话术的补充,加入训练集。
所述步骤S300中,调整训练集中各个类别的文本的数量,包括如下步骤:
对于文本的数量过少而无法满足第一预设比例要求的类别,进一步增补该类别的文本的数量;增补该类别的文本的数量可以包括人工添加一些属于该类别的文本,或者将一部分该类别的文本复制副本等等;
对于文本的数量过多而无法满足第一预设比例要求的类别,从该类别的文本中筛选指定数量的文本,筛选得到的该类别的文本的数量满足第一预设比例要求,此处满足第一预设比例要求,指的是将未被选中的该类别的文本去除后,剩余的该类别的文本的数量与其他类别的文本的数量满足第一预设比例要求。
此处第一预设比例要求可以根据线上分布来设置,使得训练集中的文本比例调试基本与线上分布一致,例如可以如下表1所示,在实际应用中,各个类别的文本的数量的比例可以根据需要设置。
表1
ACT_COMMODITY 2436
ACT_ORDER 1015
ACT_DISCOUNT 779
ACT_SPECIFY_DISCOUNT 597
ACT_AFTER_SALES 690
ACT_SHORTCUT 501
在该实施例中,所述文本分类网络的训练方法还包括如下步骤:
根据句子长度将训练集中的文本分为不同长度区间的文本;
调整各个长度区间中的文本的数量,使得训练集中各个长度区间的文本的数量比值满足第二预设比例要求。
此处第二预设比例要求的设置可以根据用户线上真实输入的句子长度的分布来设置。长度区间可以简单地分为两种:字数大于长度阈值的长句和字数小于等于长度阈值的短句,也可以划分为多个长度区间,以文本的字数来将文本归入对应的长度区间中。
在该实施例中,在卷积神经网络训练中,数据的批量处理,样本分批次进入模型训练,每一批数据是一个batch,所述统计训练集中各个类别的文本的数量之前,还包括如下步骤:
将训练集中的文本分为多个批次(batch);
分别对于各个批次,统计该批次中各个类别的文本的数量,并调整该批次中各个类别的文本的数量,使得该批次中各个类别的文本的数量比值满足第一预设比例要求。
因此,本发明对每一个batch里面的样本设计了采样模块,采样模块支持不同的采样方式,对于类别数量少的样本,可以选择有放回或无放回重复采样,也可以选择权重采样方式,这种在每个batch里面平衡各个类别中文本的方式,更适合神经网络优化算法迭代的思路,可以更好地提高文本分类网络对于各个类别的泛化能力。
在该实施例中,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
采用预设的滤除语句对训练用文本进行正则匹配;
滤除正则匹配到的训练用文本,此处去除的是垃圾的没有信息含量的用户输入,从而使得训练集的预料有效,更能提升模型泛化能力。
该实施例的正则话术是提前设置好的,为了平衡训练语料尽量覆盖到所有的正则,对用户输入文本在正则下的分布进行了统计,并进行筛选。例如,设置正则话术有“你好”,“在吗”等对于用户意愿分类没有帮助的语句,首先采用正则匹配的方式对于类似的语句进行滤除,减少无效的训练用文本。
在该实施例中,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
筛选所述训练用文本,去除所述训练用文本中重复的文本。
具体地,首先对训练集的语料进行去重,过滤由于做活动或热门商品被重复训练的样本,然后会对所有类别做个shuffle操作,穿插打散让不同的类别在训练集中交替出现,可以提升模型学习的能力和泛化效果。
如图2所示,示出了本发明一实施例的卷积神经网络CNN的结构。CNN全称是Convolutional Neural Network,卷积神经网络,是一种前馈神经网络,主要包括卷积层和池化层,一般用来解决分类问题,该实施例是指把用户在智能助理的短文本输入信息,分到购物不同的7个业务场景中。在该实施例中,所述卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类层。
在该实施例中,所述第一卷积层、第二卷积层和第三卷积层分别采用1*1卷积核、3*3卷积核和5*5卷积核;所述第一池化层、第二池化层和第三池化层的池化区域分别采用2*2矩阵。
卷积是一种数学运算,这种运算的目的是简化更复杂的数据表达,过滤掉复杂数据中多余的噪声,提取出来关键的特征,调整卷积核的数值,可以实现特征边缘检测、锐化、模糊等效果,本发明卷积的具体操作是:
从原始特征的左上角开始,选择和卷积大小相同的区域;
选出来的区域和卷积核逐个元素做乘积,然后求和,得到的值作为新特征映射的一个细粒度特征;
水平和垂直原始特征区域,移动指定步长;
为了不让新生成的特征映射缩小,可以填充。
本发明的卷积神经网络采用了局部感知野的技术。神经网络的输入是一个向量,然后在一系列隐层中对它做变换,每个隐层都由若干神经元组成,每个神经元都与前一层中的所有神经元连接,但是在一个隐层中,神经元相互独立不进行任何连接,为了减少隐层参数的数量,加快训练速度,本发明通过选用“局部感知野”的方式,即一层中的节点不必和前面一层所有的节点相连,只需要和部分节点连接就可以了。
进一步地,本发明的卷积神经网络中,采用了参数共享的概念。从生物视觉中获得灵感,采用神经元局部连接的方式大大降低了神经网络中的参数个数,但是还是比较大,模型训练还会用很长时间,正是在这种情况下,本发明采用了参数共享,即每一层的节点对上一层的局部连接参数都是一样的,这就可以满足对神经网络训练速度的要求。
本发明选用1*1,3*3,5*5三种卷积核进行特征提取,然后用多层卷积网络。每层的输出经过非线性激活函数做转换,第一层卷积是根据用户输入文本检测到一些汉字级别的特征,第二层检测出一些词语共现的概率特征,后面层是利用这些高级特征的分类器,智能助理中,用户说的话,由汉字构成词语,由词语构成句子,由句子构成语料,CNN分类器通过语料识别语义用户意图。
对于池化层,本发明对池化做了两个设置选项,分为平均池化和最大池化:
(1)平均池化
假设输入是一个4*4的矩阵,池化区域是2*2的矩阵,经过池化之后的大小是2*2的,在反向传播的计算过程中,经过池化之后的4个节点的残差从最后一层反向传播得到,其中一个节点对应池化之前的4个节点,因为需要满足反向传播时各层的残差总和不变,所以池化之前的神经元的残差值是池化之后的平摊;
(2)最大池化
和平均池化基本流程是一样的,就是池化公式不同,同样假设输入一个4*4的矩阵,池化区域是2*2的矩阵,经过池化之后的大小是2*2的,在前向计算的过程中,需要记录被池化的2*2区域中哪个元素被选中作为最大值,则反向的残差传播,只将残差传播给最大位置的神经元,在赤化之前,如果做非线性激活计算的话,还需要加上激活函数的导数.
此外,前馈神经网络包含大量的神经元,包括多个层组织:一个输入层,一个或多个隐藏层,一个输出层,每个神经元都与前一层的所有神经元相连接,并非所有连接都相同,因为它们具有不同的权重,这些链接的权重承载了整个网络的信息,含有足够多隐藏神经元的前馈神经网络可以在一定精度内拟合以下类型的函数:任何连续函数,需要一个隐藏层;任何函数,甚至是不连续的,需要两个隐藏层;计算非线性性函数达到指定精度需要多少个隐藏层、多少个神经元,需要通过经验和一些启发式方法来确定结构。
在卷积神经网络中,反向传播算法的目标是:使网络的实际输出值和正确输出之间的误差最小,由于网络是前馈的,所以激励总是由输入单元流向输出单元,到达输出单元后,网络的输出会与正确输出比较,然后将代价函数的梯度反向传播,同时更新权重,这种方法是可以递归的,并且可以应用于任何数量的隐藏层。
本发明的分类器的算法离线评估指标是loss(损失)值、精确度和F1值,其中保存的最优模型loss小于0.05,精确度达到0.91,F1值达到0.92。
进一步地,所述文本分类网络包括Highway网络层,所述Highway网络层对训练集中的汉字级别特征、分词级别特征和词向量级别特征进行特征融合,对于特征维度的用户意图捕获具有更好的提升效果。
在该实施例中,测试小组每隔一段时间,会对智能助理的线上数据进行测试,测试模型预测跟人工认为的正确答案是否一致,测试模型是否达到了上线的门槛要求,人工评测结果作为重要的评测指标。智能助理上线需要跟算法端、服务端、客户端等多方进行联调和测试,保证每一个接口性能优良,逻辑正确。
在模型评测之后,所述文本分类网络的训练方法还包括如下步骤:
获取文本分类网络的评测数据;
查找评测数据中分类错误数据,对分类错误数据重新添加正确分类的标签,此处分类错误数据即为badcase(错误案例);
将分类错误数据和正确的标签加入训练集,此处加入训练集的可以是实际提取出来的错误数据,也可以是根据错误数据的规律人工扩充的训练用文本数据;
采用更新后的训练集重新训练文本分类网络。
具体地,测试人员把badcase反馈到算法端,找到badcase的规律后,分析是通过数据处理解决badcse还是通过模型网络优化解决badcase,在每一次更新迭代后,解决了当前一批的badcase的同时,还要确保以前的case不能出现新的badcase,为了确保迭代效果一次次提升,本发明设计了回归测试集,回归测试机不断扩充,尽量覆盖到几乎全部的线上句式。
例如,本发明可以通过badcase模拟数据实现短文本模拟。初始的文本分类网络对短文本预测效果不太好,所以设计了一个模块,生成短文本的训练语料,比如用户在智能助理输入“拖把一个”、“青岛啤酒”等超短文本,理论上希望模型能识别为“商品查询”业务场景,初始的CNN分类器会识别到“未知unknown”的业务场景,短文本模拟改进了这种例子的识别效果,将一些短文本加入到训练集中,并且为这些短文本添加商品查询的类别标签,从而弥补了短文本无法正确分类的缺陷。
随着业务的扩充,不断会有新的话术被加入,为了模型能及时覆盖正则匹配的效果,可以通过对训练集的不断扩充和完善,实现文本分类网络更大的覆盖。
在该实施例中,文本分类网络的评测结果达到上线门槛之后,可以将智能助理上线。首先智能助理中的文本分类网络模型和语义理解模型训练好之后,先进行预发布,可视化测试,是否有逻辑错误;智能助理不同版本的模型在线上做了ABtest,分别切流量,转化成同等比例后,测试模型效果;随着线上用户的输入的不断增多,在测评过程中,会被测试人员人工标注业务场景类别,重新标注产品词、品牌词,搜集到的新产品词和品牌词,将更新的数据内容添加到词库中和训练集中,不断提高文本分类网络的覆盖能力,不断优化模型,解决新的badcase,进一步提高文本识别分类的准确性,提升用户使用体验。
如图3所示,本发明实施例还提供一种文本分类网络的训练***,应用于所述的文本分类网络的训练方法,所述文本分类网络的训练***包括:
文本采集模块M100,用于接收训练用文本和训练用文本的类别标签,作为训练集;
训练集平衡模块M200,用于统计训练集中各个类别的文本的数量,以及调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
分类网络训练模块M300,用于采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
本发明实施例还提供一种文本分类网络的训练设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的文本分类网络的训练方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“单元”或“平台”。
下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
因此,该实施例的文本分类网络的训练设备的处理器执行存储单元中的程序代码时,可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用,方便用户操作,提高抓包效率,并降低抓包成本。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序单元6205的程序/实用工具6204,这样的程序单元6205包括但不限于:操作***、一个或者多个应用程序、其它程序单元以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它单元通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件单元,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的文本分类网络的训练方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
因此,该实施例的计算机存储介质中的程序代码被执行时,可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用,方便用户操作,提高抓包效率,并降低抓包成本。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***、设备和计算机存储介质的实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本发明所提供的文本分类网络的训练方法、***、设备及存储介质具有下列优点:
本发明通过平衡训练集中的文本数量,保证文本分类网络对于每个类别的泛化能力都很好,并且构建更为精准的卷积神经网络作为文本分类网络,从而提供了更准确的文本分类网络,可以更准确地对用户输入进行分类,精准定位用户需求,预测的用户句式覆盖度更大,提升用户体验;进一步地,本发明通过对文本分类网络进行评测,根据评测数据中的分类错误数据,建立badcase反馈,根据反馈数据更新训练集,从而实现文本分类网络的不断完善。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (15)

1.一种文本分类网络的训练方法,其特征在于,包括如下步骤:
接收训练用文本和训练用文本的类别标签,作为训练集;
统计训练集中各个类别的文本的数量;
调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
2.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述方法还包括如下步骤:
根据句子长度将训练集中的文本分为不同长度区间的文本;
调整各个长度区间中的文本的数量,使得训练集中各个长度区间的文本的数量比值满足第二预设比例要求。
3.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述调整训练集中各个类别的文本的数量,包括如下步骤:
对于文本的数量过少而无法满足第一预设比例要求的类别,进一步增补该类别的文本的数量;
对于文本的数量过多而无法满足第一预设比例要求的类别,从该类别的文本中筛选指定数量的文本,筛选得到的该类别的文本的数量满足第一预设比例要求。
4.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述统计训练集中各个类别的文本的数量之前,还包括如下步骤:
将训练集中的文本分为多个批次;
分别对于各个批次,统计该批次中各个类别的文本的数量,并调整该批次中各个类别的文本的数量,使得该批次中各个类别的文本的数量比值满足第一预设比例要求。
5.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
采用预设的滤除语句对训练用文本进行正则匹配;
滤除正则匹配到的训练用文本。
6.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述接收训练用文本和训练用文本的类别标签之后,还包括如下步骤:
筛选所述训练用文本,去除所述训练用文本中重复的文本。
7.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类层。
8.根据权利要求7所述的文本分类网络的训练方法,其特征在于,所述第一卷积层、第二卷积层和第三卷积层分别采用1*1卷积核、3*3卷积核和5*5卷积核;所述第一池化层、第二池化层和第三池化层的池化区域分别采用2*2矩阵。
9.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述卷积神经网络基于局部感知野实现,且每一层与上一层共享局部连接参数。
10.根据权利要求1所述的文本分类网络的训练方法,其特征在于,训练用于文本分类的卷积神经网络时,得到的最优文本分类模型的损失小于0.05,精确度为0.91,F1值为0.92。
11.根据权利要求1所述的文本分类网络的训练方法,其特征在于,所述文本分类网络包括Highway网络层,所述Highway网络层对训练集中的汉字级别特征、分词级别特征和词向量级别特征进行特征融合。
12.根据权利要求1所述的文本分类网络的训练方法,其特征在于,还包括如下步骤:
获取文本分类网络的评测数据;
查找评测数据中分类错误数据,对分类错误数据重新添加正确分类的标签;
将分类错误数据和正确的标签加入训练集;
采用更新后的训练集重新训练文本分类网络。
13.一种文本分类网络的训练***,其特征在于,应用于权利要求1至12中任一项所述的文本分类网络的训练方法,所述文本分类网络的训练***包括:
文本采集模块,用于接收训练用文本和训练用文本的类别标签,作为训练集;
训练集平衡模块,用于统计训练集中各个类别的文本的数量,以及调整训练集中各个类别的文本的数量,使得训练集中各个类别的文本的数量比值满足第一预设比例要求;
分类网络训练模块,用于采用调整后的训练集训练用于文本分类的卷积神经网络,得到训练好的文本分类网络。
14.一种文本分类网络的训练设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任一项所述的文本分类网络的训练方法的步骤。
15.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至12中任一项所述的文本分类网络的训练方法的步骤。
CN201811555318.0A 2018-12-18 2018-12-18 文本分类网络的训练方法、***、设备及存储介质 Pending CN111339292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811555318.0A CN111339292A (zh) 2018-12-18 2018-12-18 文本分类网络的训练方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811555318.0A CN111339292A (zh) 2018-12-18 2018-12-18 文本分类网络的训练方法、***、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111339292A true CN111339292A (zh) 2020-06-26

Family

ID=71184998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811555318.0A Pending CN111339292A (zh) 2018-12-18 2018-12-18 文本分类网络的训练方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111339292A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答***及对话机器人
CN112489794A (zh) * 2020-12-18 2021-03-12 推想医疗科技股份有限公司 一种模型的训练方法、装置、电子终端及存储介质
CN112765348A (zh) * 2021-01-08 2021-05-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN113656575A (zh) * 2021-07-13 2021-11-16 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
CN114724132A (zh) * 2022-04-11 2022-07-08 深圳市星桐科技有限公司 文本识别模型训练方法、识别方法、装置、介质和设备
WO2023173555A1 (zh) * 2022-03-15 2023-09-21 平安科技(深圳)有限公司 模型的训练方法、文本分类方法和装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN111859987B (zh) * 2020-07-28 2024-05-17 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答***及对话机器人
CN112417111B (zh) * 2020-11-04 2022-08-23 厦门快商通科技股份有限公司 文本分类方法、问答***及对话机器人
CN112489794A (zh) * 2020-12-18 2021-03-12 推想医疗科技股份有限公司 一种模型的训练方法、装置、电子终端及存储介质
CN112765348A (zh) * 2021-01-08 2021-05-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN113656575A (zh) * 2021-07-13 2021-11-16 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
CN113656575B (zh) * 2021-07-13 2024-02-02 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
WO2023173555A1 (zh) * 2022-03-15 2023-09-21 平安科技(深圳)有限公司 模型的训练方法、文本分类方法和装置、设备、介质
CN114724132A (zh) * 2022-04-11 2022-07-08 深圳市星桐科技有限公司 文本识别模型训练方法、识别方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CN107679234B (zh) 客服信息提供方法、装置、电子设备、存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111339292A (zh) 文本分类网络的训练方法、***、设备及存储介质
CN109492164A (zh) 一种简历的推荐方法、装置、电子设备及存储介质
CN110019736B (zh) 基于语言模型的问答匹配方法、***、设备及存储介质
CN107491547A (zh) 基于人工智能的搜索方法和装置
US20200193095A1 (en) Method, apparatus, device and storage medium for evaluating quality of answer
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN109299245B (zh) 知识点召回的方法和装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
WO2021169485A1 (zh) 一种对话生成方法、装置及计算机设备
CN113326374B (zh) 基于特征增强的短文本情感分类方法及***
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
CN107463935A (zh) 应用分类方法和应用分类装置
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111177351A (zh) 基于规则的自然语言表达意图获取方法、装置和***
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
KR20200041199A (ko) 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN111553140A (zh) 数据处理方法、数据处理设备及计算机存储介质
US20230121404A1 (en) Searching for normalization-activation layer architectures
CN112102116B (zh) 基于旅游会话的输入预测方法、***、设备及存储介质
CN109885695A (zh) 资产建议生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination