CN110457369A

CN110457369A - 一种模型的训练方法及相关设备

Info

Publication number: CN110457369A
Application number: CN201910728775.3A
Authority: CN
Inventors: 甘伟; 陈联忠; 金伟
Original assignee: Beijing Jiahesen Health Technology Co Ltd
Current assignee: Beijing Jiahesen Health Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-15

Abstract

本申请实施例提供了一种模型的训练方法及相关设备，用于提高模型的准确率以及减少模型训练的时间。该方法包括：确定N个预测主题；对N个预测主题对应的数据进行关键词标注，得到N组标注关键词；对N组标注关键词进行预处理，得到N个时序数据集；通过预设循环神经网络模型对N个时序数据集进行训练，得到N个模型；判断N个模型中每个模型的预测准确率是否达到第一预设值；若N个模型中存在预测准确率未达到第一预设值的目标模型时，则对目标模型重复执行上述步骤、直至目标模型的预测准确率达到第一预设值。

Description

一种模型的训练方法及相关设备

技术领域

本申请涉及模型训练领域，尤其涉及一种模型的训练方法及相关设备。

背景技术

随着网络的进步，社会各界科研人员已逐步意识到数据应用的重要性，开始挖掘数据潜在的海量应用价值。功能强大的数据挖掘工具，可以提升数据结果的可信度和减少研究人员的难度，提高研究效率。R既是一种编程语言，又是一种集多种算法和功能的软件，具有开源，免费和非商业化的特征，该软件集成了大量常用的数据挖掘和分析算法，包括分类算法，回归算法，神经网络等等，用户可以根据需求调整算法参数，还包括可视化分析功能，能满足绝大部分的分析需求，还可以根据特定的业务需求，创新编写新算法，因此可将其封装集成用于模型的训练。

现有模型训练过程中的训练数据有限，且训练数据过多的依赖于人工处理，另外，在模型优化过程中，需要反复执行该过程。其带来的关键问题如下：

现有的数据存在获取周期长，变量有限、干扰因素多等缺陷，传统研究中一般使用统计学方法，多数是研究单一因素对研究目的影响，较少解释多因素之间的关联。另外，预测模型需要不断进行调优，若后期结果偏离预期，则需要扩大样本量或增加新关键词输入，而这就需要不断反复执行以上过程，延长整个研究实施产出周期。

发明内容

本申请提供了一种模型的训练方法及相关设备，可以提高模型的准确率，减少模型训练的时间。

本申请实施例第一方面提供一种模型的训练方法，所述方法包括：

步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应，所述N组标注关键词中每组标注关键词的关键词均携带有时间标识；

步骤3、对所述N组标注关键词进行预处理，得到N个时序数据集；

步骤4、通过预设循环神经网络模型对所述N个时序数据集进行训练，得到所述N个预测主题对应的N个模型；

步骤5、判断所述N个模型中每个模型的预测准确率是否达到第一预设值；

步骤6、若所述N个模型中存在预测准确率未达到所述第一预设值的目标模型时，则对所述目标模型重复执行步骤2至步骤5、直至所述目标模型的预测准确率达到所述第一预设值。

可选地，所述对所述N组标注关键词进行预处理，得到N个时序数据集包括：

将所述N组标注关键词进行数据整合，得到N个整合时序数据集；

将所述N个整合时序数据集进行数据清洗，得到N个清洗后的时序数据集；

对所述N个清洗后的时序数据集进行数据缺失值填补，以得到所述N个时序数据集。

可选地，所述将所述N组标注关键词进行数据整合，得到N个整合时序数据集包括：

提取所述N组标注关键词中每组标注关键词的关键词对应的时间标识；

将所述N组标注关键词中每组标注关键词按照时间标识进行排序，以得到所述N个整合时序数据集，所述N个整合时序数据集与所述N组标注关键词具有关联关系。

可选地，所述对所述N个清洗后的时序数据集进行数据缺失值填补，以得到所述N个时序数据集包括：

判断目标时序数据集中是否存在缺失值大于第二预设值的目标时序特征，所述目标时序数据集为所述N个清洗后的时序数据集中的任意一个时序数据集；

若是，则将所述目标时序特征删除；

通过所述目标时序数据集中与所述目标时序特征时序相邻的时序特征对已删除的所述目标时序特征进行填补，得到所述N个时序数据集。

可选地，所述判断所述N个模型中每个模型的预测准确率是否达到第一预设值包括：

判断所述每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数是否达到其对应的预设值；

若所述每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数达到其对应的预设值，则确定所述每个模型的预测准确率达到所述第一预设值；

若所述每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数未达到其对应的预设值，则确定所述每个模型的预测准确率未达到所述第一预设值。

本申请实施例第二方面提供了一种模型的训练装置，包括：

确定单元，用于执行步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

标注单元，用于执行步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应，所述N组标注关键词中每组标注关键词的关键词均携带有时间标识；

预处理单元，用于执行步骤3、对所述N组标注关键词进行预处理，得到N个时序数据集；

训练单元，用于执行步骤4、通过预设循环神经网络模型对所述N个时序数据集进行训练，得到所述N个预测主题对应的N个模型；

判断单元，用于执行步骤5、判断所述N个模型中每个模型的预测准确率是否达到第一预设值；

处理单元，用于执行步骤6、若所述N个模型中存在预测准确率未达到所述第一预设值的目标模型时，则对所述目标模型重复执行步骤2至步骤5、直至所述目标模型的预测准确率达到所述第一预设值。

可选地，所述预处理单元具体用于：

可选地，所述预处理单元将所述N组标注关键词进行数据整合，得到N个整合时序数据集包括：

可选地，所述预处理单元对所述N个清洗后的时序数据集进行数据缺失值填补，以得到所述N个时序数据集包括：

若是，则将所述目标时序特征删除；

可选地，所述判断单元具体用于：

本申请实施例第四方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的操作。

本申请实施例第五方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的操作。

综上所述，可以看出，本申请提供的实施例中，相对于现有技术来说，首先，在训练数据的获取以及预处理的过程中不需要复杂的人工处理，其次采用循环神经网络模型进行训练，可以解决训练过程中时序性数据面临的问题，最后，当未达到预设的模型预测效果时，仅仅需要调整关键词标注即可，而无需全部重新获取训练数据。本申请提供的实施例可以提高模型的准确率，减少模型训练的时间。

附图说明

图1为本申请实施例提供的循环神经网络的网络结构示意图；

图2为本申请实施例提供的长短期记忆模型的网络结构示意图；

图3为本申请实施例提供的模型的训练方法的流程示意图；

图4为本申请实施例提供的模型的训练装置的虚拟结构示意图；

图5为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

本申请供了一种模型的训练方法及相关设备，可以提高模型的准确率，减少模型训练的时间。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

目前来说，在训练模型的过程中，存在的问题是，现有的训练数据有限，且训练数据依赖于人工处理，在模型的优化的过程中，需要反复执行该过程，这样就会导致现有的训练数据存在获取周期长，变量有限，干扰因素多等缺陷，且传统逻辑回归分析模型，其无法考虑时间这一因素带来的影响，而是单纯从数据本身挖掘背后的意义，另外训练好的模型需要不断的进行调试，若后期结果偏离预期，则需要扩大样本量或增加新关键词的输入，而这就需要不断反复执行获取训练数据以及通过训练数据训练模型的过程，延长整个研究实施产出周期。

有鉴于此，本申请结合现有数据格式，利用循环神经网络(RNN)及其变体长短期记忆模型(LSTM)，可以灵活处理变长的时序数据的重要特征，对全量数据进行重新整合和梳理，构建全量大数据智能疾病预测的策略，依托数据清洗，数据集成、缺失值处理、模型搭建与评价，以智能选择出最优的预测模型。

首先对本申请中涉及的一些算法以及方法进行说明：

请参阅图1，图1为本申请实施例提供的循环神经网络的结构示意图，循环神经网络(Recurrent Neural Network，RNN)：是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络，它能循环的接收不同时间戳下的数据输入，将其中蕴藏的信息，以某种方式存储，同时给出在该时间戳下的输出。在网络上接收下一个时间戳的输入时，网络结构能利用之前的信息，结合当前的输入信息，对当前的网络状态进行一个更新，并给出该时间戳下的合理输出。

请参阅图2，图为本申请实施例提供的长期记忆模型的结构示意图，长短期记忆模型(Long Short Term Memory networks，LSTM)，是一种特殊的RNN类型，可以学习长期依赖信息。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。LSTM是一种拥有三个“门”结构的特殊网络结构，由遗忘门、输入门和输出门组成。靠“门”的结构让信息有选择性地影响RNN中每个时刻的状态。所谓“门”的结构就是一个使用sigmod神经网络和一个按位做乘法的操作，这两个操作合在一起就是一个“门”结构。之所以该结构叫做门是因为使用sigmod作为激活函数的全连接神经网络层会输出一个0到1之间的值，描述当前输入有多少信息量可以通过这个结构，于是这个结构的功能就类似于一扇门，当门打开时(sigmod输出为1时)，全部信息都可以通过；当门关上时(sigmod输出为0)，任何信息都无法通过。

逻辑(logistic)回归：logistic回归是一种广义线性回归，通过函数L将w*x+b对应一个隐状态p，p＝L(w*x+b)，然后根据p与1-p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归，因变量为二分类的logistic回归更为常用。

交叉熵：主要用于度量两个概率分布间的差异性信息，其在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。在二分类问题中，对于样本(x，y)来讲，x为样本y为对应的标签。在二分类问题中，其取值的集合可能为{0，1}，我们假设某个样本的真实标签为yt，该样本的yt＝1的概率为yp，则该样本的损失函数为：

log(yt|yp)＝-(yt*log(yp)+(1-yt)log(1-yp))。

随机梯度下降(Stochastic gradient descent，SGD)：根据确定的损失函数找到函数的最小值，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快，每次迭代使用一个样本来对参数进行更新，而不是使用所有样本来进行梯度的更新，使得训练速度加快。

下面从模型的训练装置的角度对本申请实施例提供的模型的训练方法进行说明，该模型的训练装置可以为服务器也可以为服务器中的服务单元，具体不做限定。

请参阅图3，图3为本申请实施例提供的模型的训练方法的流程示意图，包括：

301、确定N个预测主题。

本实施例中，模型的训练装置可以首先确定N个预测主题，其中，N为大于或等于1的正整数。也就是说，在开始训练之前，模型的训练装置可以首先确定训练的模型的应用场景，例如预测天气的状况、预测天气的温度降低的概率、预测某个植物下一个生长周期所需要的养料预测某项手术后的并发症等等。

302、对N个预测主题对应的数据进行关键词标注，得到N组标注关键词。

本实施例中，模型的训练装置可以首先获取N个预测主题对应的数据，之后对N个预测主题对应的数据进行关键词标注，得到N组标注关键词，其中，该N个预测主题与N组标注关键词相对应，该N组标注关键词中每组标注关键词的关键词均携带有时间标识，也就是说，一个预测主题对应一组标注关键词。该关键词标注指的是一个预测主题所含有的所有字段(也可以称为变量或者特征)，例如天气的状况的描述可能有3000个字段，但对于每个应用场景来说，可能只需要这3000个字段中的1000个，另外，这些字段中还有一些需要二次计算的变量，比如预测天气突变的概率，则跟上一次天气突变有紧密的联系，这个时候，在这3000个中没有是否发生天气突变的字段，此时需要通过一定的逻辑判断规则，生成新的变量。这1000个字段加上二次生成的字段，由后台工作人员进行选择存储，这个过程就是标注。

需要说明的是，在关键词标注的过程中，还需要将所有的关键词加上时间标识，例如预测主题为预测深圳的天气状况，该预测主题对应的数据可以为当前时刻之前的一个周期(例如一年或6个月，具体不限定)或多个周期带有时间标识的天气数据，该天气数据例如可以为深圳2019年7月17日的天气温度为28～30℃，相对湿度低于70％，PM2.5为158.4微克，空气质量指数(Air Quality Index，AQI)为80等等数据，在关键词标注的过程中，需要带上时间标识。

303、对N组标注关键词进行预处理，得到N个时序数据集。

本实施例中，模型的训练装置在得到N组标注关键词之后，可以对N组标注关键词进行预处理，得到N个时序数据集。具体的：

将N组标注关键词进行数据整合，得到N个整合时序数据集；

将N个整合时序数据集进行数据清洗，得到清洗后的N个整合时序数据集；

对N个整合时序数据集进行数据优化处理，以得到N个时序数据集。

也就是说，首先，由于在获取N个预测主题对应的数据时，可能是通过不同的路径(也即通过不同的信息***)获取得到的数据，不同路径获取的数据可能存在一些数据结构上的差异，因此需要对N组标注关键词进行数据整合，也就是将多个路径中的字段合并到一起得到N个整合时序数据集。具体的，可以提取N组标注关键词中每组标注关键词的关键词对应的时间标识，将N组标注关键词中每组标注关键词按照时间标识进行排序，以得到N个整合时序数据集，该N个整合时序数据集与N组标注关键词具有关联关系。以一个周期为6个月为例进行说明，例如深圳2019年1月1日至2019年6月30日为一个周期，则可以按照时间标识对每天的天气数据对应的标注关键词进行排序，得到整合时序数据集。

其次，在得到N个整合时序数据集之后，可以对N个整合时序数据集进行数据清洗，数据清洗的过程一般包括：剔除、逻辑运算、格式转换、二次计算等等，剔除一般采用逻辑可查的方法，撰写逻辑判断规则：例如天气的温度不是数字格式或者天气的温度大于100度，天气的湿度为负数等等，将这些异常的数据筛选出来删除；逻辑运算：是指按照一定的逻辑规则，生成新的字段；二次计算：一般天气状况中会有温差，若没有，可以根据一定的数学计算出来；格式转换：数据库中包含来自不同路径的数据：例如对于同一个天气指数，单位不同，则需要将格式转换为相同，做到归一。

最后，在对数据进行清洗之后，可以对N个清洗后的时序数据集进行数据缺失值填补，得到N个时序数据集。具体如下：

判断目标时序数据集中是否存在缺失值大于第二预设值的目标时序特征，该目标时序数据集为N个清洗后的时序数据集中的任意一个时序数据集；

若是，则将目标时序特征删除；

通过目标时序数据集中与目标时序特征时序相邻的时序特征对已删除的目标时序特征进行填补，得到N个时序数据集。

也就是说，若数据集中的某个特征的缺失值(此处具体不限定计算特征的缺失值的方式)大于整个数据集条数的40％，则将该特征删除，并用该特征缺失时间点之前最近的数据进行补全，例如2019年6月15日天气数据中的PM2.5指数为缺失特征，在用2019年6月14日天气数据中的PM2.5指数或者2019年6月16日天气数据中的PM2.5指数进行填补。

需要说明的是，若N个时序数据集中的数据过多，可以对N个时序数据集中的数据进行降维处理，此处具体不限定降维方式，只要能进行数据降维即可。

304、通过预设神经网络模型分别对N个时序数据集进行训练，得到N个预测主题对应的N个模型。

本实施例中，可以通过预设循环神经网络模型对N个关键是数据集进行训练，得到N个预测主题对应N个模型，也就是说，N个预测主题中的每个预测主题都对应一个模型。

需要说明的是，该预设循环神经网络模型可以单独的RNN对N个时序数据集进行训练得到N个模型，也可以为RNN和LSTM结合对时序数据进行训练得到N个模型，下面进行结合图1以及图2进行详细说明：

1、单独用RNN模型进行训练得到预测主题对应的N个模型；

请参阅图1，X为N个时序数据集中每个时序数据集的任意一个时序数据，将X输入的RNN模型的输入向量，其中包括N个预测主题对应的数据信息，h为RNN对X1，X2，.....X(t)处理后的隐藏层状态，而Y则是预测主题对应的概率值，U，V，W是待学习的参数矩阵，RNN模型通过这三个参数的学习，寻找到从X到h和Y的映射关系。对于每一个时间标识下输入的X，给出模型的隐藏状态h和输出值Y的计算方法：

h(t)＝φ(UX(t)+Wh(t-1)+b)；

其中φ(.)为激活函数，一般来说会选择tanh函数，b为偏置系数，则t时刻的输出：

Y(t)＝σ(Vh(t)+c)；

其中σ为激活函数，激活函数通常选择softmax函数，定义交叉熵函数(上述已经对交叉熵进行说明，此处不再赘述)作为损失函数L，

通过随机梯度下降法(上述已经对随机梯度下降法进行详细说明，此处不再赘述)，最小化损失函数L，迭代执行上述步骤，直至达到预置的迭代终止条件，将达到预置的迭代终止条件的RNN作为预测主题对应的模型。

2、结合RNN以及LSTM对N个时序数据集进行训练得到N个模型。

LSTM是一种RNN特殊的类型，通过特别的设计可以学习长期依赖信息，其代替RNN中的重复神经网络模块，在标准的RNN中，这个重复的模块只有一个非常简单的结构，例如一个tanh层，而LSTM则是由复杂的“门”的结构来去除或者增加信息到隐藏状态的能力。

从图2中可以看出，在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态h(t)，还多了另一个隐藏状态，这个隐藏状态一般称为细胞状态(Cell State)，记为C(t)，细胞状态类似于传送带。LSTM在每个序列索引位置t的门一般包括遗忘门、输入门和输出门三种。下面分别对LSTM的遗忘门、输入门、输出门以及细胞状态进行说明：遗忘门的值越大，表示有更多的历史信息被遗忘，输入门的值越大则表示更多新的信息被更新到隐藏状态中，每个LSTM对应一个当前时间戳t下的输入向量X，和上一个时间戳t-1的隐藏状态h(t-1)和细胞状态C(t-1)，下面对LSTM的遗忘门、输入门、输出门、细胞状态以及RNN的预测输出进行说明：

遗忘门：

f_t＝σ(W_fh_t-1+U_fX_t+b_f)；

其中，f_t表示t时刻遗忘门的输出，W_f以及U_f表示遗忘门的参数，h_t-1表示t-1时刻输出门的输出，X_t表示t时刻的输入向量，b_f表示遗忘门的偏置系数。

输入门两部分输出：

i_t＝σ(W_ih_t-1+U_iX_t+b_i)；

a_t＝tanh(W_ah_t-1+U_aX_t+b_a)；

其中，i_t以及a_t分别表示输入门的输出，σ以及tanh为激活函数，W_i、W_a、U_i以及U_a分别为输入门的参数，b_i以及b_a表示输入门的偏置系数。

在得到输入门的两部分输出之后，可以通过输入门的两部分输出更新细胞状态，具体可以通过如下公式来执行的：

C_t＝C_t-1f_t+i_ta_t：

其中，C_t为t时刻细胞状态，C_t-1为t-1时刻的细胞状态，f_t表示t时刻遗忘门的输出，i_t以及a_t分别表示输入门的输出。

输出门输出：

o_t＝σ(W_oh_t-1+U_oX_t+b₀)；

h_t＝o_t tanh(C_t)；

其中，o_t是输出门的数据，h_t表示t时刻输出门的输出，C_t为t时刻细胞状态，W_o以及U_o表示输出门的参数，h_t-1表示t-1时刻输出门的输出，X_t表示t时刻的输入向量。

当前时间戳t预设循环神经网络的输出：

Y_t＝σ(Vh_t+c)；

同样σ为激活函数，c为偏置系数，激活函数通常选择softmax函数，相当于把普通RNN中h(t)中涉及的参数，采用LSTM来控制计算，通过随机梯度下降法，最小化损失函数，计算最优U，V，W参数，实现模型的不断训练，从而达到训练模型的目的。也就是说，每次的输入为当前时刻的输入向量以及上一时刻的隐藏状态以及上一时刻的细胞状态，并通过RNN输出预测值，且在每次输出之后，通过反向传播算法更新LSTM的参数，直至达到预置的迭代终止条件，且将达到预置的迭代终止条件的预设循环神经网络模型作为预测主题对应的模型。

需要说明的是，在每个时间戳计算完成，输出Y_t之后，可以判断是否达到预置的迭代终止条件，具体的，可以判断当前的迭代次数是否达到预设值，或者判断预设循环神经网络模型的参数是否收敛，当迭代次数达到预设值或者预设循环神经网络模型的参数收敛，确定达到预置的迭代终止条件，则终止模型的训练，得到预测主题对应的N个模型。

305、判断N个模型中每个模型的预测准确率是否达到第一预设值，若否，则执行步骤306，若是，则执行步骤307。

本实施例中，在将N个模型训练完成之后，可以分别判断N个模型中每个模型的预测准确率是否达到第一预设值，具体的，可以通过每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数判断每个模型的预测准确率是否达到其对应的预设值；若每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数均达到其对应的预设值，则确定每个模型的预测准确率达到第一预设值，执行步骤307；若每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数未达到其对应的预设值，则确定每个模型的预测准确率未达到第一预设值，执行步骤306。

也就是说，可以提前设置模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积以及Kappa系数对应的各自的预设值，之后进行判断来确定N个模型中的每个模型的预测准确率是否达到第一预设值。

需要说明的是，在对N个模型中每个模型的预测准确率进行判定的过程中，会存在N个行中由部分模型的预测准确率已经达到第一预设值，有部分模型的预测准确率未达到第一预设值，则对于该已经达到预设准确率的模型，则执行步骤307，对于部分预测准确率未达到第一预设值的模型，则执行步骤306。

306、若N个模型中存在预测准确率未达到第一预设值的目标模型，则对目标模型重复执行步骤302至步骤305，直至目标模型的预测准确率达到第一预设值。

本实施例中，若N个模型中存在预测准确率未达到第一预设值的目标模型，则对目标模型重复执行步骤302至步骤305，直至目标模型的预测准确率达到第一预设值，具体的可以通过查找文献，纳入更多更重要的字段，比如1000个中漏掉了关键的字段，之后对关键词进行标注，重复执行上述步骤302至步骤305直至目标模型的预测准确率达到第一预设值为止。

307、执行其他操作。

本实施例中，可以接收用户的操作指令(该操作指令为对预测主题的预测的操作指令)，并根据用户的操作指令选择与操作指令对应的预测模型，并对预测主题进行预测，得到预测结果。

上面从模型的训练方法的角度对本申请实施例进行描述，下面从模型的训练装置的角度对本申请实施例进行描述。

请参阅图4，图4为本申请实施例中模型的训练装置的虚拟结构示意图，该模型的训练装置包括：

确定单元401，用于执行步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

标注单元402，用于执行步骤2、对所述N个预测主题对应的数据进行关键词标注，得到N组标注关键词，所述N个预测主题与所述N组标注关键词相对应，所述N组标注关键词中每组标注关键词的关键词均携带有时间标识；

预处理单元403，用于执行步骤3、对所述N组标注关键词进行预处理，得到N个时序数据集；

训练单元404，用于执行步骤4、通过预设循环神经网络模型对所述N个时序数据集进行训练，得到所述N个预测主题对应的N个模型；

判断单元405，用于执行步骤5、判断所述N个模型中每个模型的预测准确率是否达到第一预设值；

处理单元406，用于执行步骤6、若所述N个模型中存在预测准确率未达到所述第一预设值的目标模型时，则对所述目标模型重复执行步骤2至步骤5、直至所述目标模型的预测准确率达到所述第一预设值。

可选地，所述预处理单元403具体用于：

可选地，所述预处理单元403将所述N组标注关键词进行数据整合，得到N个整合时序数据集包括：

可选地，所述预处理单元403对所述N个清洗后的时序数据集进行数据缺失值填补，以得到所述N个时序数据集包括：

若是，则将所述目标时序特征删除；

可选地，所述判断单元405具体用于：

上面从模块化功能实体的角度对本申请实施例中的模型的训练装置进行了描述，下面从硬件处理的角度分别对本申请实施例中的服务器进行描述。

图5是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作***541，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由模型的训练装置所执行的步骤可以基于该图5所示的服务器结构。

本申请实施例还提供了一种计算机存储介质，其上存储有程序，该程序被处理器执行时实现所述模型的训练方法。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述模型的训练方法。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述所述模型的训练方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述模型的训练方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型的训练方法，其特征在于，包括：

步骤1、确定N个预测主题，其中，N为大于或等于1的正整数；

2.根据权利要求1所述的方法，其特征在于，所述对所述N组标注关键词进行预处理，得到N个时序数据集包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述N组标注关键词进行数据整合，得到N个整合时序数据集包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述N个清洗后的时序数据集进行数据缺失值填补，以得到所述N个时序数据集包括：

若是，则将所述目标时序特征删除；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述判断所述N个模型中每个模型的预测准确率是否达到第一预设值包括：

6.一种模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述预处理单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述预处理单元将所述N组标注关键词进行数据整合，得到N个整合时序数据集包括：

9.一种计算机装置，其特征在于，所述装置包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-5中任一项所述的方法的步骤。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一所述的方法的步骤。