WO2021139255A1

WO2021139255A1 - 基于模型的预测数据变化频率的方法、装置和计算机设备

Info

Publication number: WO2021139255A1
Application number: PCT/CN2020/118530
Authority: WO
Inventors: 张圣
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-27
Filing date: 2020-09-28
Publication date: 2021-07-15
Also published as: CN111859238A

Abstract

一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质，其中方法包括：从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体（S1）；从所述初始数据中提取出与所述指定实体对应的指定特征数据（S2）；调用预先训练好的预测模型，其中，预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成（S3）；将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理（S4）；获取所述预设模型输出的与所述指定词条页面对应的输出结果（S5）；将所述输出结果作为所述指定实体的变化频率预测值（S6）。通过所述方法可以基于词条页面的变化频率的预测来智能方便地实现对于知识库中实体的变化频率的预测。

Description

基于模型的预测数据变化频率的方法、装置和计算机设备

本申请要求于2020年7月27日提交中国专利局、申请号为202010734520.0，发明名称为“基于模型的预测数据变化频率的方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种基于模型的预测数据变化频率的方法、装置和计算机设备。

背景技术

现有的网络数据变化频率的估计方案主要是基于统计学的一个统计假设：网络数据的变化频率服从泊松分布。基于泊松分布假设，X/T即是一个有效的变化频率估计方案(T表示时间间隔，X表示该网络数据在时间间隔T内的变化次数)。但是这个估计方案会存在以下不足：很多网络资源没有提供变化历史，这种情况下只有对比前后两次访问的相同页面的数据是否有变化才能知道是否变化。即便前后两次访问该网络数据不同，依然无法准确获取时间间隔T内该网络资源变化的次数。如果时间间隔T内的变化次数无法准确获取，对应的变化频率的估计也是不准确的。但发明人意识到，对于知识库内一些新出现的实体，例如新型冠状病毒肺炎，由于目前缺乏与新出现的实体相关的数据，且新出现的实体的变化历史数据也比较少的，此时如果还是使用基于泊松分布的估计方案来对该新出现的实体的变化频率进行预测，则会导致对于新出现的实体的变化频率的预测准确性较低。

技术问题

本申请的主要目的为提供一种基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质，旨在解决现有使用基于泊松分布的估计方案来对新出现的实体的变化频率进行预测，会导致对于新出现的实体的变化频率的预测准确性较低的技术问题。

技术解决方案

为实现上述目的，第一方面，本申请提出一种基于模型的预测数据变化频率的方法，所述方法包括步骤：

从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

获取所述预设模型输出的与所述指定词条页面对应的输出结果；

将所述输出结果作为所述指定实体的变化频率预测值。

第二方面，本申请还提供一种基于模型的预测数据变化频率的装置，包括：

第一获取模块，用于从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

提取模块，用于从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用模块，用于调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

预测模块，用于将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

第二获取模块，用于获取所述预设模型输出的与所述指定词条页面对应的输出结果；

第一确定模块，用于将所述输出结果作为所述指定实体的变化频率预测值。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于模型的预测数据变化频率的方法，其中，所述基于模型的预测数据变化频率的方法包括以下步骤：

将所述输出结果作为所述指定实体的变化频率预测值。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于模型的预测数据变化频率的方法，其中，所述基于模型的预测数据变化频率的方法包括以下步骤：

将所述输出结果作为所述指定实体的变化频率预测值。

有益效果

本申请中提供的基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质，智能方便地实现了对于知识库中实体的变化频率的预测，有效地提高了对于知识库中实体的变化频率的预测准确性。

附图说明

图1是本申请一实施例的基于模型的预测数据变化频率的方法的流程示意图；

图2是本申请一实施例的基于模型的预测数据变化频率的装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本发明的最佳实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的基于模型的预测数据变化频率的方法，包括：

S1：从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

S2：从所述初始数据中提取出与所述指定实体对应的指定特征数据；

S3：调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

S4：将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

S5：获取所述预设模型输出的与所述指定词条页面对应的输出结果

S6：将所述输出结果作为所述指定实体的变化频率预测值。

如上述步骤S1至S6所述，本方法实施例的执行主体为一种基于模型的预测数据变化频率的装置。在实际应用中，上述基于模型的预测数据变化频率的装置可以通过虚拟装置，例如软件代码实现，也可以通过写入或集成有相关执行代码的实体装置实现，且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例的基于模型的预测数据变化频率的装置能够快速准确地生成知识库内任意一个实体的变化频率预测值。具体地，首先从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，上述指定实体为预设知识库中的任意一个实体。上述实体包括预设知识库中具有独立意义、能够用于指示任意一个对象的词语。上述百科网站可为任意的一个或多个在线百科类网站，例如百度百科网站、***网站，等等。另外，上述指定词条页面可包括与上述指定实体对应的指定实体描述页面，以及与上述指定实体对应的指定实体更新历史页面。上述与指定实体对应的指定词条页面内的初始数据是指百科网站中指定词条页面内包含的所有属性数据，例如可包括指定实体的描述文本信息、基本信息表信息，一些与用户相关的统计信息，等等。举例地，预设知识库中的一个实体通常对应到百科类网站的一个词条页面，假如预设知识库中存在一个名称为“新型冠状病毒肺炎”的实体，则该实体“新型冠状病毒肺炎”在百科网站中对应的一个词条页面可以为：https://baike.***.com/item/新型冠状病毒肺炎。此外，上述预设知识库的自动化构建的主要方式之一是通过高质量的百科类、专业垂直型网站来获取实体知识。比如目前通用领域的知识库多使用通过百科类网站，比如***、百度百科等来自动构建。例如对于医学领域的知识库可使用百科类网站以及医学专业垂直型网站自动构建。因此，对于知识库中实体变化频率的预测问题可以转化为对应的百科网站的与实体对应的词条页面对应到实体的变化频率的估计，也就是网络数据(网页等)的变化频率的预测。然后从上述初始数据中提取出与上述指定实体对应的指定特征数据。其中，上述指定特征数据具体可包括四种指定特征数据，分别为基本统计特征、用户行为特征、语义特征、以及动态特征。之后调用预先训练好的预测模型。其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成。另外，上述样本标签数据集包括与实体相关的特征数据，且该样本标签数据集中还包含有与该实体对应的变化频率标签值，上述变化频率标签值为与实体对应的未来一个预设周期内的变化频率值。具体可为实体在未来一个预设周期内的变化次数与一个预设周期之间的商值，并可从与实体对应的词条页面(包括与实体对应的实体描述页面，以及与实体对应的实体更新历史页面)中进行相关计算来得到与实体对应的未来一个预设周期内的变化频率值，且对于上述一个预设周期不作具体限定，例如可设为5天。此外，上述预测模型可为预先训练好的回归模型，该回归模型例如可为线性回归(Linearregression)模型、SVM回归模型、随机森林回归(RandomForestregression)模型、以及基于深度学习的多层感知器网络(MLP,Multilayer Perceptron)的回归模型。或者还可以对基于集成学习算法对预先训练好的多个回归模型进行组合，并训练出一个训练好的学习元模型来作为上述预测模型。在完成对于预测模型的调用后，再将上述指定特征数据输入至上述预测模型内，以通过上述预测模型对上述指定特征数据进行预测处理。在上述预测模型完成了对于上述指定特征数据的预测处理后，获取上述预测模型输出的与上述指定词条页面对应的输出结果，该输出结果即为与上述指定词条页面对应的未来一个预设周期内的变化频率的预测值。最后在得到了上述输出结果时，将上述输出结果作为上述指定实体的变化频率预测值。其中，上述与指定实体对应的变化频率预测值是指该指定实体在未来一个预设周期内的变化次数与一个预设周期之间的商值。进而智能地将知识库中的实体的变化频率的预测与百科网站中的词条页面也建立对应关系，从而可以通过求取百科网站中的词条页面的变化频率预测值来快速便捷地实现对于知识库中的实体的变化频率的预测处理。举例地，对于实体新型冠状病毒肺炎，在当前时间点从与实体新型冠状病毒肺炎对应的词条页面获取到所需的特征数据后，并将所需的特征数据输入至上述预测模型后，预测模型便会输出：该词条页面在未来一个预设周期内的变化频率，也即是实体新型冠状病毒肺炎在未来一个预设周期内的变化频率。本申请当需要求取知识库中的指定实体的指定变化频率预测值时，首先会从百科网站中获取与该指定实体对应的指定词条页面内的初始数据。并基于指定词条页面的初始数据构建相应的指定特征数据，以及使用机器学习回归模型来实现对于百科网站的词条页面的变化频率的预测，进而将机器学习回归模型输出的与词条页面对应的变化频率的预测值来作为指定实体的变化频率预测值。相比与现有的基于泊松分布的估计方案，本申请通过使用机器学习回归模型来实现对于百科网站的词条页面的变化频率的预测，使得可以基于词条页面的变化频率的预测来智能方便地实现对于知识库中实体的变化频率的预测，有效地提高了对于知识库中实体的变化频率的预测准确性。

进一步地，本申请一实施例中，上述从所述初始数据中提取出与所述指定实体对应的指定特征数据步骤S2，包括：

S200：获取预设的特征类别信息；

S201：根据所述特征类别信息，从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。

如上述步骤S200至S201所述，上述从上述初始数据中提取出与上述指定实体对应的指定特征数据的步骤，具体可包括：首先获取预设的特征类别信息。其中，上述特征类别信息具体可包括四种特征类别信息，分别为基本统计特征信息、用户行为特征信息、语义特征信息以及动态特征信息。在得到了上述特征类别信息后，再根据上述特征类别信息，从上述初始数据中提取出与上述特征类别信息对应的指定特征数据。其中，根据上述基本统计特征信息、用户行为特征信息、语义特征信息以及动态特征信息，可以从上述初始数据中只提取出与上述指定实体对应的基本统计特征、用户行为特征、语义特征以及动态特征所对应的特征数据，而不会提取出上述指定特征数据之外的其他数据。另外，在提取出上述指定特征数据的过程中，可采用直接从指定词条页面获取方式进行提取的提取方式，以及还会采用对指定词条页面中的相关数据进行计算后再提取的方式。下面对上述基本统计特征信息、用户行为特征信息、语义特征信息以及动态特征信息进行详细的阐述。(1)上述基本统计特征都是针对实体对应的词条页面的一些信息进行简单的计算得到的特征，具体可包括第一特征(已存在的时间)、第二特征(页面文本大小)、第三特征(描述实体文本大小)。具体地，上述第一特征计算的是当前时间和词条创建时间的时间间隔。可从与指定实体对应的指定实体更新历史页面中获取指定实体的创建时间，再获取当前时间，并使用当前时间减去创建时间即可得到指定实体的第一特征，即指定实体的已存在的时间。实体的变化频率在最开始会比较高，后面随着时间应该会逐渐减少；上述第二特征统计了词条页面的中所有文本的长度，文本信息越丰富暗示这个实体是比较热门的，趋于变化的。即该第二特征为与指定实体对应的指定实体描述页面中的全部文本字数，具体包括与指定实体相关的描述文本以及参考链接等实体不相关的描述文本；上述第三特征仅统计了词条页面中描述对用实体的正文的文本长度，去除了词条页面中外链、广告等文本信息没有计算在内。即该第三特征为与指定实体对应的指定实体描述页面中的实体相关的描述文本字数。(2)上述用户行为特征是与用户行为直接相关的特征，具体可包括第四特征(用户编辑次数)、第五特征(用户浏览次数)。具体地，上述第四特征统计的是总编辑次数，直观上看编辑次数越多，该实体更易于再次被编辑或发生变化。可从与指定实体对应的指定实体描述页面中直接获取与指定实体关联的用户编辑次数；上述第五特征统计的是实体对应词条页面的访问次数。访问次数越多，直观上说明该实体越热门，很有可能会发生变化。同理，可从与指定实体对应的指定实体描述页面中直接获取与指定实体关联的用户编辑次数。(3)上述语义特征是指基于超链接信息得到的与实体直接语义相关的信息，具体可包括第六特征(超链接数量)和第七特征(链接到实体的超链接数量)。具体地，上述第六特征统计的是词条页面所有超链接的个数，其中一部分超链接是会链接到其他实体，而剩余部分则是会链接到外部参考信息。如果这些相关链接对应的内容发生变化，则这些变化很有可能会传播到该实体。即该第六特征为与指定实体对应的指定实体描述页面中所有超链接的个数，包括链接到实体的超链接个数，以及链接到外部参考的超链接的个数；上述第七特征仅统计链接到实体的超链接个数。相互关联的实体之间一般都是语义相关的，相互关联的实体的变化的影响更为直接。即该第六特征为与指定实体对应的指定实体描述页面中链接到实体的超链接的个数。(4)上述动态特征是指从词条对应历史变化记录中获取到实体的动态信息，具体可包括第八特征(历史变化频率)、第九特征(最近一个预设周期变化次数)和第十特征(最近四个预设周期内变化次数)。上述第八特征统计的是此页面的历史变化频率，词条的变化频率和历史变化频率一般是有很强的相关性。可先从与指定实体对应的指定实体描述页面中获取历史用户编辑次数，再使用该历史用户编辑次数除以指定实体已存在的时间即可得到该第八特征；上述第九特征从时间序列(Time Series，TS)角度来看，未来一个预设周期的变化次数与过去的变化历史是有很强的相关性。可根据与指定实体对应的指定实体更新历史页面来直接计算得到，距离当前时间最近的一个预设周期的变化次数。其中，对于上述一个预设周期不作具体限定，例如可设为5天；上述第十特征统计的是词条页面最近四个预设周期内的变化次数。同理，可根据与指定实体对应的指定实体更新历史页面来直接计算得到，距离当前时间最近的四个预设周期的变化次数。本实施例根据特征类别信息，能够快速准确地从上述初始数据中提取出所需的目标数据，即与上述特征类别信息对应的指定特征数据，有利于后续将得到的指定特征数据输入至预设的预测模型内，以通过上述预测模型来快速准确地对上述指定特征数据进行预测处理，并输出与上述指定词条页面对应的变化频率预测值，从而后续可以基于词条页面的变化频率的预测来实现对于知识库中实体的变化频率的估计。进一步地，在进行从上述初始数据中提取出与上述特征类别信息对应的指定特征数据的步骤之前，还可先对上述初始数据进行数据清洗，以清洗掉上述初始数据中的杂质/无用数据，从而可以减少后续的特征提取过程的数据处理量，提高特征提取的处理效率。

进一步地，本申请一实施例中，上述调用预先训练好的预测模型步骤S3之前，包括：

S300：获取预先训练好的回归模型；

S301：将所述预先训练好的回归模型作为所述预测模型。

如上述步骤S300至S301所述，在进行调用预先训练好的预测模型的调用过程之前，还包括确定预测模型的确定过程。具体地，上述调用预先训练好的预测模型的步骤之前，包括：首先获取预先训练好的回归模型。其中，对上述回归模型不作具体限定，上述回归模型具体可包括线性回归(Linearregression)模型、SVM回归模型、随机森林回归(RandomForestregression)模型、以及基于深度学习的多层感知器网络(MLP,Multilayer Perceptron)的回归模型。在得到了上述预先训练好的回归模型后，再将上述预先训练好的回归模型作为上述预测模型。其中，本实施例可以预先训练好四个回归模型：线性回归模型、SVM回归模型、随机森林回归模型以及基于MLP的回归模型，然后从四个回归模型中选取出任意一个回归模型来作为上述预测模型。例如可根据用户的实际使用意愿来选出对应的一个回归模型来作为上述预测模型，也可以由装置自行选取任意一个回归模型来作为上述预测模型。另外，优选采用训练好的基于深度学习的多层感知器网络(MLP)的回归模型来作为上述预测模型。由于深度学习可以通过建立类似于大脑神经元结构，并通过神经元的之间的连接学习到数据更深层次的表示。且深度学习模型在理论上可以拟合任意连续的函数，这使得深度学习模型可以很好处理回归问题。通过预先训练好了具有不同隐层数的多个多层全连接神经网络(MLP)模型，并经过实验对比不同隐层数(2-5层)的基于MLP的回归模型的效果，由于使用了两个隐层的基于MLP的回归MLP模型在没有很好的效果；当隐层数为3、4、5时，各个基于MLP的回归模型的效果均取得了不错的效果并且效果基本相当，而进一步根据奥卡姆剃刀原则(Occam’s Razor principle)，最终可选定训练好的且隐层数为3的基于MLP的回归模型来作为上述预测模型。本实施例通过使用预先训练好的回归模型作为上述预测模型，有利于后续将得到的指定特征数据输入至该预测模型内，以通过上述预测模型来快速准确地对上述指定特征数据进行预测处理，并输出与上述指定词条页面对应的变化频率的预测值，从而后续可以基于词条页面的变化频率的预测来实现对于知识库中实体的变化频率的估计，有效地提高了对于知识库中实体的变化频率的预测准确性。

进一步地，本申请一实施例中，上述获调用预先训练好的预测模型的步骤S3之前，包括：

S310：从百科网站中收集第一指定数量的词条页面信息；

S311：按照预设的特征构造规则，使用所述词条页面信息构建样本标签数据集，其中，所述样本标签数据集包括与实体相关的特征数据，以及与实体对应的变化频率标签值；

S312：将所述标签数据集划分为训练数据集与测试数据集；

S313：利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型；

S314：采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过；

S315：若验证通过，则将所述训练好的第一初始模型作为所述预测模型；

S316：将所述预测模型存储至区块链网络。

如上述步骤S310至S316所述，在调用预先训练好的预测模型的过程之前，还包括创建该预测模型的创建过程。具体地，上述获取预先训练好的回归模型的步骤之前，还可包括：首先从百科网站中收集第一指定数量的词条页面信息。其中，对于上述词条页面信息的第一指定数量不作具体限定，可根据实际情况进行设置，例如可根据知识库中的实体数量来设置。假如预设知识库中存在20万个实体，则可将上述第一指定数量设置为20万，并从百科网站中收集对应数量的与实体对应的词条页面信息。然后按照预设的特征构造规则，使用上述词条页面信息构建标签数据集。其中，上述特征构造规则是根据预设的上述特征类别信息，来根据上述词条页面信息构造成与实体的特征类别信息对应的样本标签数据集。另外，上述样本标签数据集包括与实体相关的特征数据，且该样本标签数据集中还包含有与该实体对应的变化频率标签值，上述变化频率标签值为与实体对应的未来一个预设周期内的变化频率值。具体可为实体在未来一个预设周期内的变化次数与一个预设周期之间的商值，并可从与实体对应的词条页面(包括与实体对应的实体描述页面，以及与实体对应的实体更新历史页面)中进行相关计算来得到与实体对应的未来一个预设周期内的变化频率值。并将上述标签数据集划分为训练数据集与测试数据集。另外，上述将上述标签数据集划分为训练数据集与测试数据集的步骤，可以从上述标签数据值中随机抽取出预设比例的数据作为训练数据集，再将剩余的其他数据作为测试数据集。对上述预设比例不作具体限定，可根据实际需求进行设定，举例地，预设比例可设为80％，即可从上述标签数据值中随机抽取出80％的数据作为训练数据集，并将上述标签数据值中剩余的20％的数据作为测试数据集。在得到了上述训练数据集与测试数据集后，再利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型。其中，对于上述预设的初始模型的模型种类不作具体限定，可包括线性回归模型、SVM回归模型、随机森林回归模型以及基于MLP的回归模型。另外，使用上述随机梯度下降法进行模型训练回归模型的训练流程可参照现有的训练流程，在此不再赘述。最后在生成了上述训练好的第一初始模型时，再采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过。如果验证通过，则将所述训练好的第一初始模型作为所述预测模型，以便能够直接使用该预测模型来准确地输出与上述指定词条页面对应的变化频率的预测值，进而能够基于词条页面的变化频率的预测来智能地实现对于知识库中实体的变化频率的估计，有效地提高了对于知识库中实体的变化频率的预测准确性。进一步地，上述若验证通过，则将所述训练好的第一初始模型作为所述预测模型的步骤之后，还可包括：将上述预测模型存储至区块链网络，通过使用区块链来对训练生成的上述预测模型进行存储和管理，能够有效地保证上述预测模型的安全性与不可篡改性。

本申请一实施例中，上述采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过的步骤S314，包括：

S3140：将所述测试数据集中的各测试样本输入至所述训练好的第一初始模型内，以得到所述各测试样本的测试结果；

S3141：根据所述各测试样本的测试结果，获取所述训练好的第一初始模型的准确率；

S3142：判断所述准确率是否大于预设的准确率阈值；

S3143：若判断出所述准确率大于预设的准确率阈值，则判定验证通过；

S3144：若判断出所述准确率不大于预设的准确率阈值，则判定验证不通过。如上述步骤S3140至S3144所述，上述采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过的步骤，具体可包括：在得到了上述训练好的第一初始模型后，将上述测试数据集中的各测试样本输入至上述训练好的第一初始模型内，以得到上述各测试样本的测试结果。之后根据上述各测试样本的测试结果，获取上述训练好的第一初始模型的准确率。最后在得到了上述训练好的第一初始模型的准确率时，判断上述准确率是否大于预设的准确率阈值。其中，对于上述准确率阈值的数值不作具体限定，可以根据实际需求进行设置，例如可设置为0.9。如果判断出所述准确率不大于预设的准确率阈值，则判定验证不通过。而如果判断出上述准确率大于预设的准确率阈值，则判定验证通过，以便能够直接使用该预测模型来准确地输出与上述指定词条页面对应的变化频率的预测值，进而能够基于词条页面的变化频率的预测来智能地实现对于知识库中实体的变化频率的估计，有效地提高了对于知识库中实体的变化频率的预测准确性。

本申请一实施例中，上述判断所述准确率是否大于预设的准确率阈值步骤S3142之后，包括：

S31420：若判断出所述准确率不大于预设的准确率阈值，筛选出所述测试样本集中测试结果错误的指定测试样本；

S31421：将所述指定测试样本加入所述训练样本集，生成更新后的训练样本集；

S31422：根据所述更新后的训练样本集对所述回归模型进行训练，生成训练好的第二初始模型；

S31423：将所述训练好的第二初始模型作为所述预测模型。

如上述步骤S31420至S31423所述，在进行判断上述训练好的第一初始模型的准确率是否大于预设的准确率阈值的过程中，还可能出现该准确率不大于预设的准确率阈值的情况，则后续需要对上述回归模型进行重新训练，以生成准确率符合标准的预测模型。具体地，上述判断上述准确率是否大于预设的准确率阈值的步骤之后包括：若判断出上述准确率不大于预设的准确率阈值，则，筛选出上述测试样本集中测试结果错误的指定测试样本。在得到了上述指定测试样本后，再将上述指定测试样本加入上述训练样本集，生成更新后的训练样本集。然后根据上述更新后的训练样本集对上述回归模型进行训练，生成训练好的第二初始模型。最后将上述训练好的第二初始模型作为上述预测模型。其中，上述根据上述更新后的训练样本集对上述初始模型进行训练，生成训练好的第二初始模型，并将上述训练好的第二初始模型作为上述预测模型的过程具体可包括：迭代地执行执行以下步骤，直至训练好的第二初始模型的准确率大于上述准确率阈值：根据上述更新后的训练样本集对上述回归模型进行训练，生成训练好的第二初始模型；使用上述训练样本集对上述训练好的第二初始模型进行测试，并判断上述训练好的第二初始模型的准确率是否大于上述准确率阈值；若不大于，则根据上述测试样本集中测试结果错误的测试样本，再次对上述更新后的训练样本集进行更新；迭代结束后，将在最后一轮迭代过程中生成的训练好的第二初始模型作为上述预测模型。本实施例在训练好的第一初始模型的准确率不大于预设的准确率阈值，通过使用更新后的训练样本对回归模型进行重新训练来生成准确率大于准确率阈值的预测模型，从而后续能够使用该预测模型来准确地输出与上述指定词条页面对应的变化频率的预测值，并基于词条页面的变化频率的预测来实现对于知识库中实体的变化频率的估计，有效地提高了对于知识库中实体的变化频率的预测准确性。

进一步地，本申请一实施例中，上述调用预先训练好的预测模型的步骤S3之前，包括：

S320：获取预先训练好的第二指定数量的子学习器；

S321：根据预设的集成学习算法，使用所有所述子学习器对预设的元模型进行训练，生成训练好的元模型；

S322：将所述训练好的元模型作为所述预测模型。

如上述步骤S320至S322所述，除了可以使用预先训练好的回归模型作为上述预测模型，还可以对基于集成学习算法对多个回归模型进行组合，并训练出一个训练好的元模型来作为上述预测模型。具体地，上述调用预先训练好的预测模型的步骤之前，还可包括：首先获取预先训练好的第二指定数量的子学习器。其中，对于上述第二指定数量不作具体限定，可根据实际需求进行设置，优选将该第二指定数量设置为四。另外，上述自学习器可为上述回归模型。然后根据预设的集成学习算法，使用所述四个子学习器对预设的元模型进行训练，生成训练好的元模型。在得到了上述训练好的元模型后，再将该训练好的元模型作为所述预测模型，以便后续将得到的指定特征数据输入至预设的预测模型内，以通过所述预测模型来快速准确地对所述指定特征数据进行预测处理，并输出与所述指定词条页面对应的变化频率预测值。其中，当上述第二指定数量为四个时，却上述预先训练好的子学习器为预先训练好的四个回归模型：即线性回归模型、SVM回归模型、随机森林回归模型以及基于MLP的回归模型，为了综合利用这四种回归器的模型，再使用基于Stacking集成学习技术来综合利用上述四个回归模型，即使用Stacking方法，通过训练一个元模型(meta-regressor)来组合其他子学习器，并将这些子学习器的输出作为元模型的输入来训练元模型，以得到训练好的元模型，最后将训练好的元模型作为所述预测模型。上述使用的预设的元模型可为GDBT(GradientBoost Decision Tree)模型。具体地，将收集的与实体相关的特征数据x分别输入到上述四个回归模型中，可得到各个回归模型的输出结果分别为：y _l＝W _l*x，W _l是线性回归模型的模型参数，y _l是线性回归模型的输出；y _svm＝SVM(x)，y _svm是SVM回归模型的输出；y _rf＝RandomForest(x)，y _rf是随机森林回归模型的输出；y _mlp＝W ₃*(W ₂*(W ₁*x))，W ₁,W ₂,W ₃分别是基于MLP的回归模型中对应的三个隐藏层的参数，y _mlp是基于MLP的回归模型的输出。将以上四个回归模型的输出拼起来可以得到一个四维向量

之后将四个回归模型的输出拼接的向量作为

作为元模型GDBT的输入，并采用随机梯度下降算法及集成学习算法对元模型GDBT进行训练，得到训练好的元模型，训练好的元模型在接收到输入的实体的特征向量时，会输出

元模型GDBT的输出y即是对应于实体的变化频率预测值。本实施例通过使用集成学习算法将多个回归模型进行综合利用来生成训练好的元模型，并将该训练好的元模型作为预测模型来用于对输入的所述指定实体对应的指定特征数据进行预测处理，有效地提高了模型的预测效果。

进一步地，本申请一实施例中，上述从百科网站中获取与指定实体对应的指定词条页面内的初始数据的步骤S1，包括：

S100：调用与所述百科网站对应的数据查询接口；

S101：通过所述数据查询接口获取与所述指定实体对应的指定词条页面内的初始数据。

如上述步骤S100至S101所述，上述从百科网站中获取与指定实体对应的指定词条页面内的初始数据的步骤，具体可包括：首先调用与上述百科网站对应的数据查询接口。在完成对于上述数据查询接口的调用后，再通过上述数据查询接口获取与上述指定实体对应的指定词条页面内的初始数据。其中，上述与指定实体对应的指定词条页面内的初始数据是指百科网站中指定词条页面内包含的所有数据，该指定词条页面的初始数据至少可包括指定实体的描述文本信息、基本信息表信息，一些用户相关的统计信息(比如被编辑的次数、词条浏览次数)，指定实体对应的词条的每一次变化的时间信息以及变化的原因信息，变化历史信息，超链接信息，等等。另外，上述超链接信息隐含着实体之间的相互关系(例如语义关系)，在指定词条页面中还会存在很多超链接信息，其中一部分超链接是链接到百科网站中与上述指定实体不同的其他实体，而剩余的其他超链接则是链接到与上述指定实体对应的外部参考信息。本实施例通过调用与上述百科网站对应的数据查询接口，来获取与上述指定实体对应的指定词条页面内的初始数据，有利于后续能够根据得到的指定词条页面内的初始数据，来从该初始数据中快速便捷地提取出与上述指定实体对应的指定特征数据。

参照图2，本申请一实施例中还提供了一种基于模型的预测数据变化频率的装置，包括：

第一获取模块1，用于从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

提取模块2，用于从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用模块3，用于调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

预测模块4，用于将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

第二获取模块5，用于获取所述预设模型输出的与所述指定词条页面对应的输出结果；

第一确定模块6，用于将所述输出结果作为所述指定实体的变化频率预测值。

本实施例中，上述基于模型的预测数据变化频率的装置中的第一获取模块、提取模块、调用模块、预测模块、第二获取模块与第一确定模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S1至S6的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述提取模块，包括：

第二获取子模块，用于获取预设的特征类别信息；

提取子模块，用于根据所述特征类别信息，从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。

本实施例中，上述基于模型的预测数据变化频率的装置中的第二获取子模块与提取子模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S200至S201的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述基于模型的预测数据变化频率的装置，包括：

第三获取模块，用于获取预先训练好的回归模型；

第二确定模块，用于将所述预先训练好的回归模型作为所述预测模型。

本实施例中，上述基于模型的预测数据变化频率的装置中的第三获取模块与第二确定模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S300至S301的实现过程，在此不再赘述。

收集模块，用于从百科网站中收集第一指定数量的词条页面信息；

构建模块，用于按照预设的特征构造规则，使用所述词条页面信息构建样本标签数据集，其中，所述样本标签数据集包括与实体相关的特征数据，以及与实体对应的变化频率标签值；

划分模块，用于将所述标签数据集划分为训练数据集与测试数据集；

第一训练模块，用于利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型；

验证模块，用于采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过；

第三确定模块，用于若验证通过，则将所述训练好的第一初始模型作为所述预测模型；

存储模块，用于将所述预测模型存储至区块链网络。

本实施例中，上述基于模型的预测数据变化频率的装置中的收集模块、构建模块、划分模块、第一训练模块、验证模块、第三确定模块与存储模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S310至S316的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述验证模块，包括：

输入子模块，用于将所述测试数据集中的各测试样本输入至所述训练好的第一初始模型内，以得到所述各测试样本的测试结果；

第三获取子模块，用于根据所述各测试样本的测试结果，获取所述训练好的第一初始模型的准确率；

判断子模块，用于判断所述准确率是否大于预设的准确率阈值；

第一确定子模块，用于若判断出所述准确率大于预设的准确率阈值，则判定验证通过；

第二确定子模块，用于若判断出所述准确率不大于预设的准确率阈值，则判定验证不通过。

本实施例中，上述基于模型的预测数据变化频率的装置中的输入子模块、第三获取子模块、判断子模块、第一确定子模块与第二确定子模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S3140至S3144的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述验证模块，包括：

筛选子模块，用于若判断出所述准确率不大于预设的准确率阈值，筛选出所述测试样本集中测试结果错误的指定测试样本；

生成子模块，用于将所述指定测试样本加入所述训练样本集，生成更新后的训练样本集；

训练子模块，用于根据所述更新后的训练样本集对所述回归模型进行训练，生成训练好的第二初始模型；

第三确定子模块，用于将所述训练好的第二初始模型作为所述预测模型。

本实施例中，上述基于模型的预测数据变化频率的装置中的筛选子模块、生成子模块、训练子模块与第三确定子模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S31420至S31423的实现过程，在此不再赘述。

第四获取模块，用于获取预先训练好的第二指定数量的子学习器；

第二训练模块，用于根据预设的集成学习算法，使用所有所述子学习器对预设的元模型进行训练，生成训练好的元模型；

第四确定模块，用于将所述训练好的元模型作为所述预测模型。

本实施例中，上述基于模型的预测数据变化频率的装置中的第四获取模块、第二训练模块与第四确定模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S320至S322的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第一获取模块，包括：

调用子模块，用于调用与所述百科网站对应的数据查询接口；

第一获取子模块，用于通过所述数据查询接口获取与所述指定实体对应的指定词条页面内的初始数据。

本实施例中，上述基于模型的预测数据变化频率的装置中的调用子模块与第一获取子模块的功能和作用的实现过程具体详见上述基于模型的预测数据变化频率的方法中对应步骤S100至S101的实现过程，在此不再赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储指定实体、指定词条页面内的初始数据、指定特征数据以及变化频率预测值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一个示例性实施例所示出的基于模型的预测数据变化频率的方法。

上述处理器执行上述基于模型的预测数据变化频率的方法的步骤：

将所述输出结果作为所述指定实体的变化频率预测值。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一个示例性实施例所示出的基于模型的预测数据变化频率的方法，所述基于模型的预测数据变化频率的方法包括以下步骤：

将所述输出结果作为所述指定实体的变化频率预测值。

综上所述，本申请实施例中提供的基于模型的预测数据变化频率的方法、装置、计算机设备和存储介质，通过将知识库中的实体与百科网站中的词条页面建立对应关系，并基于词条页面的初始数据构建相应的特征数据，以及使用机器学习回归模型来实现对于百科网站的词条页面的变化频率的预测，使得可以基于词条页面的变化频率的预测来智能方便地实现对于知识库中实体的变化频率的预测，有效地提高了对于知识库中实体的变化频率的预测准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于模型的预测数据变化频率的方法，其中，包括：

从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

获取所述预设模型输出的与所述指定词条页面对应的输出结果；

将所述输出结果作为所述指定实体的变化频率预测值。
根据权利要求1所述的基于模型的预测数据变化频率的方法，其中，所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤，包括：

获取预设的特征类别信息；

根据所述特征类别信息，从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。
根据权利要求1所述的基于模型的预测数据变化频率的方法，其中，所述调用预先训练好的预测模型的步骤之前，包括：

从百科网站中收集第一指定数量的词条页面信息；

按照预设的特征构造规则，使用所述词条页面信息构建样本标签数据集，其中，所述样本标签数据集包括与实体相关的特征数据，以及与实体对应的变化频率标签值；

将所述样本标签数据集划分为训练数据集与测试数据集；

利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型；

采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过；

若验证通过，则将所述训练好的第一初始模型作为所述预测模型；

将所述预测模型存储至区块链网络。
根据权利要求3所述的基于模型的预测数据变化频率的方法，其中，所述采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过的步骤，包括：

将所述测试数据集中的各测试样本输入至所述训练好的第一初始模型内，以得到所述各测试样本的测试结果；

根据所述各测试样本的测试结果，获取所述训练好的第一初始模型的准确率；

判断所述准确率是否大于预设的准确率阈值；

若判断出所述准确率大于预设的准确率阈值，则判定验证通过；

若判断出所述准确率不大于预设的准确率阈值，则判定验证不通过。
根据权利要求4所述的基于模型的预测数据变化频率的方法，其中，所述判断所述准确率是否大于预设的准确率阈值的步骤之后，包括：

若判断出所述准确率不大于预设的准确率阈值，筛选出所述测试样本集中测试结果错误的指定测试样本；

将所述指定测试样本加入所述训练样本集，生成更新后的训练样本集；

根据所述更新后的训练样本集对所述回归模型进行训练，生成训练好的第二初始模型；

将所述训练好的第二初始模型作为所述预测模型。
根据权利要求1所述的基于模型的预测数据变化频率的方法，其中，所述调用预先训练好的预测模型的步骤之前，包括：

获取预先训练好的第二指定数量的子学习器；

根据预设的集成学习算法，使用所有所述子学习器对预设的元模型进行训练，生成训练好的元模型；

将所述训练好的元模型作为所述预测模型。
根据权利要求1所述的基于模型的预测数据变化频率的方法，其中，所述从百科网站中获取与指定实体对应的指定词条页面内的初始数据的步骤，包括；

调用与所述百科网站对应的数据查询接口；

通过所述数据查询接口获取与所述指定实体对应的指定词条页面内的初始数据。
一种基于模型的预测数据变化频率的装置，其中，包括：

第一获取模块，用于从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

提取模块，用于从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用模块，用于调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

预测模块，用于将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

第二获取模块，用于获取所述预设模型输出的与所述指定词条页面对应的输出结果；

第一确定模块，用于将所述输出结果作为所述指定实体的变化频率预测值。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于模型的预测数据变化频率的方法：

其中，所述基于模型的预测数据变化频率的方法包括：

从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

获取所述预设模型输出的与所述指定词条页面对应的输出结果；

将所述输出结果作为所述指定实体的变化频率预测值。
根据权利要求9所述的计算机设备，其中，所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤，包括：

获取预设的特征类别信息；

根据所述特征类别信息，从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。
根据权利要求9所述的计算机设备，其中，所述调用预先训练好的预测模型的步骤之前，包括：

从百科网站中收集第一指定数量的词条页面信息；

按照预设的特征构造规则，使用所述词条页面信息构建样本标签数据集，其中，所述样本标签数据集包括与实体相关的特征数据，以及与实体对应的变化频率标签值；

将所述样本标签数据集划分为训练数据集与测试数据集；

利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型；

采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过；

若验证通过，则将所述训练好的第一初始模型作为所述预测模型；

将所述预测模型存储至区块链网络。
根据权利要求11所述的计算机设备，其中，所述采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过的步骤，包括：

将所述测试数据集中的各测试样本输入至所述训练好的第一初始模型内，以得到所述各测试样本的测试结果；

根据所述各测试样本的测试结果，获取所述训练好的第一初始模型的准确率；

判断所述准确率是否大于预设的准确率阈值；

若判断出所述准确率大于预设的准确率阈值，则判定验证通过；

若判断出所述准确率不大于预设的准确率阈值，则判定验证不通过。
根据权利要求12所述的计算机设备，其中，所述判断所述准确率是否大于预设的准确率阈值的步骤之后，包括：

若判断出所述准确率不大于预设的准确率阈值，筛选出所述测试样本集中测试结果错误的指定测试样本；

将所述指定测试样本加入所述训练样本集，生成更新后的训练样本集；

根据所述更新后的训练样本集对所述回归模型进行训练，生成训练好的第二初始模型；

将所述训练好的第二初始模型作为所述预测模型。
根据权利要求9所述的计算机设备，其中，所述调用预先训练好的预测模型的步骤之前，包括：

获取预先训练好的第二指定数量的子学习器；

根据预设的集成学习算法，使用所有所述子学习器对预设的元模型进行训练，生成训练好的元模型；

将所述训练好的元模型作为所述预测模型。
根据权利要求9所述的计算机设备，其中，所述从百科网站中获取与指定实体对应的指定词条页面内的初始数据的步骤，包括；

调用与所述百科网站对应的数据查询接口；

通过所述数据查询接口获取与所述指定实体对应的指定词条页面内的初始数据。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于模型的预测数据变化频率的方法，其中，所述基于模型的预测数据变化频率的方法包括以下步骤：

从百科网站中获取与指定实体对应的指定词条页面内的初始数据，其中，所述指定实体为预设知识库中的任意一个实体；

从所述初始数据中提取出与所述指定实体对应的指定特征数据；

调用预先训练好的预测模型，其中，所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成；

将所述指定特征数据输入至所述预测模型内，以通过所述预测模型对所述指定特征数据进行预测处理；

获取所述预设模型输出的与所述指定词条页面对应的输出结果；

将所述输出结果作为所述指定实体的变化频率预测值。
根据权利要求16所述的计算机可读存储介质，其中，所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤，包括：

获取预设的特征类别信息；

根据所述特征类别信息，从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。
根据权利要求16所述的计算机可读存储介质，其中，所述调用预先训练好的预测模型的步骤之前，包括：

从百科网站中收集第一指定数量的词条页面信息；

按照预设的特征构造规则，使用所述词条页面信息构建样本标签数据集，其中，所述样本标签数据集包括与实体相关的特征数据，以及与实体对应的变化频率标签值；

将所述样本标签数据集划分为训练数据集与测试数据集；

利用所述训练数据集，并采用随机梯度下降法对预设的回归模型进行训练，生成训练好的第一初始模型；

采用所述测试数据集对所述训练好的第一初始模型进行验证，并判断是否验证通过；

若验证通过，则将所述训练好的第一初始模型作为所述预测模型；

将所述预测模型存储至区块链网络。
根据权利要求16所述的计算机可读存储介质，其中，所述调用预先训练好的预测模型的步骤之前，包括：

获取预先训练好的第二指定数量的子学习器；

根据预设的集成学习算法，使用所有所述子学习器对预设的元模型进行训练，生成训练好的元模型；

将所述训练好的元模型作为所述预测模型。
根据权利要求16所述的计算机可读存储介质，其中，所述从百科网站中获取与指定实体对应的指定词条页面内的初始数据的步骤，包括；

调用与所述百科网站对应的数据查询接口；

通过所述数据查询接口获取与所述指定实体对应的指定词条页面内的初始数据。