CN109670534A

CN109670534A - 政策热点预测的方法、装置、计算机设备和存储介质

Info

Publication number: CN109670534A
Application number: CN201811417602.1A
Authority: CN
Inventors: 张依; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-23
Anticipated expiration: 2038-11-26
Also published as: CN109670534B

Abstract

本申请涉及大数据技术领域，提供了一种政策热点预测的方法、装置、计算机设备和存储介质。所述方法包括：获取历史政策新闻数据集合，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合。采用本方法能够实现对待处理新闻数据集合中潜在政策热点的准确预测。

Description

政策热点预测的方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种政策热点预测的方法、装置、计算机设备和存储介质。

背景技术

随着机器学习技术的发展，出现了政策分析技术，政策分析包括政策热点发现，政策热点指的是比较受广大群众关注或者欢迎的新闻或者信息。通常来说用新词发现、主题词发现以及热词统计等技术可以实现政策热点发现的功能，大部分的政策热点发现方案是基于分词结果、词频统计、点击次数以及页面浏览等指标的。

然而，传统的政策热点发现方案存在无法准确预测潜在政策热点的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确预测潜在政策热点的政策热点预测的方法、装置、计算机设备和存储介质。

一种政策热点预测的方法，所述方法包括：

获取历史政策新闻数据集合；

根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合；

获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合；

根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合；

根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合。

在其中一个实施例中，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合包括：

根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征；

根据各政策类型的特征和预设的政策类型，确定所需的政策类型的特征；

获取待处理新闻数据集合中各待处理新闻数据的特征；

根据所需的政策类型的特征和各待处理新闻数据的特征，确定政策样本数据；

根据政策样本数据，获取政策样本数据集合。

在其中一个实施例中，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合包括：

获取各政策样本数据的标题的每个组成字的字向量；

将各政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各完整语句中每个组成字的字向量；

根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合。

在其中一个实施例中，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合包括：

根据候选高频词集合中的候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词；

根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词；

将候选高频词作为热点组合词，根据热点组合词，确定热点组合词集合。

在其中一个实施例中，根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合包括：

统计热点组合词在历史政策新闻数据集合中出现的时间和次数；

根据出现的时间和次数，确定候选热点词；

根据候选热点词，确定候选热点词集合；

根据候选热点词集合，确定政策热点词集合。

在其中一个实施例中，根据候选热点词集合，确定政策热点词集合包括：

两两比较候选热点词集合中的候选热点词；

当两个候选热点词中包含至少两个相同字时，分别确定两个候选热点词的字数；

获取两个候选热点词中字数较多的词语，作为政策热点词；

根据政策热点词，确定政策热点词集合。

计算候选热点词集合中任意两个候选热点词的词向量距离；

当两个候选热点词的词向量距离在预设的第二距离阈值范围内时，获取两个候选热点词中字数较多的词语，作为政策热点词；

根据政策热点词，确定政策热点词集合。

一种政策热点预测的装置，其特征在于，所述装置包括：

获取模块，用于获取历史政策新闻数据集合；

筛选模块，用于根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合；

第一处理模块，用于获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合；

第二处理模块，用于根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合；

第三处理模块，用于根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取历史政策新闻数据集合；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取历史政策新闻数据集合；

上述政策热点预测的方法、装置、计算机设备和存储介质，获取历史政策新闻数据集合，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，实现对待处理新闻数据集合的准确筛选，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据历史政策新闻数据集合对热点组合词集合进行筛选，确定政策热点词集合，实现对待处理新闻数据集合中潜在政策热点的准确预测。

附图说明

图1为一个实施例中政策热点预测的方法的应用场景图；

图2为一个实施例中政策热点预测的方法的流程示意图；

图3为一个实施例中图2中步骤S204的子流程示意图；

图4为一个实施例中图2中步骤S206的子流程示意图；

图5为一个实施例中图2中步骤S208的子流程示意图；

图6为一个实施例中图2中步骤S210的子流程示意图；

图7为一个实施例中图6中步骤S608的子流程示意图；

图8为一个实施例中图6中步骤S608的子流程示意图；

图9为一个实施例中政策热点预测的装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的政策热点预测的方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取历史政策新闻数据集合；

根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合，推送政策热点词集合至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种政策热点预测的方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取历史政策新闻数据集合。

历史政策新闻数据集合指的是搜集的已经公开的政策新闻数据的集合，其中包括各种类型的政策新闻数据，包括财政政策以及公共政策等。

S204：根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合。

服务器根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征，根据预设的政策类型和各政策类型的特征，确定与预设的政策类型对应的特征，即所需的政策类型的特征，获取待处理新闻数据集合中各待处理新闻数据的特征，根据所需的政策类型的特征和各待处理新闻数据的特征，确定待处理新闻数据集合中符合预设的政策类型要求的待处理新闻数据，并将符合要求的待处理新闻数据作为政策样本数据，根据政策样本数据，获取政策样本数据集合。其中，预设的政策类型可按照需求自行设置。

S206：获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合。

服务器获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段进行新词发现，确定候选高频词集合。其中，候选高频词指的是根据各政策样本数据的标题和首段进行新词发现确定的新词。新词发现指的是依据文本片段的凝固程度和自由程度，确定文本片段中的新词。在本实施例中采用的新词发现的方案包括：获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，进一步获取各政策样本数据的标题的每个组成字的字向量，将各政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各完整语句中每个组成字的字向量，根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合。

S208：根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合。

服务器根据候选高频词集合中的候选高频词，遍历政策样本数据集合，对政策样本数据进行筛选，筛选出与候选高频词相关的词语，进而根据候选高频词以及与候选高频词相关的词语确定热点组合词集合，热点组合词集合中包括候选高频词集合。其中，对政策样本数据进行筛选，筛选出与候选高频词相关的词语，进而根据候选高频词以及与候选高频词相关的词语确定热点组合词集合包括：根据候选高频词集合中的候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词，根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词，将候选高频词作为热点组合词，根据热点组合词，确定热点组合词集合。

S210：根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合。

服务器根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，统计热点组合词在历史政策新闻数据集合中出现的时间和次数，根据出现的时间和次数，确定候选热点词，根据候选热点词，确定候选热点词集合，根据候选热点词集合，确定政策热点词集合。其中，候选热点词指的是根据热点组合词出现的时间和次数，对热点组合词集合中的热点组合词进行筛选过后留下的热点组合词，政策热点词指的是对候选热点词集合中的候选热点词进行筛选过后留下的候选热点词。

在其中一个实施例中，如图3所示，S204包括：

S302：根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征；

S304：根据各政策类型的特征和预设的政策类型，确定所需的政策类型的特征；

S306：获取待处理新闻数据集合中各待处理新闻数据的特征；

S308：根据所需的政策类型的特征和各待处理新闻数据的特征，确定政策样本数据；

S310：根据政策样本数据，获取政策样本数据集合。

服务器根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征，根据各政策类型的特征和预设的政策类型，确定所需的政策类型的特征，获取待处理新闻数据集合中各待处理新闻数据的特征，根据所需的政策类型的特征和各待处理新闻数据的特征，确定政策样本数据，根据政策样本数据，获取政策样本数据集合。

预设的分类模型可以为常见的文本分类模型，常见的文本分类模型包括随机森林算法模型。各政策类型的特征可以为各政策类型的特征词，预设的特征类型可按照需求自行设置。在确定预设的政策类型之后，可以根据各政策类型的特征，确定所需的政策类型的特征，进而根据所需的政策类型的特征和待处理新闻数据集合中各待处理新闻数据的特征，对待处理新闻数据集合中各待处理新闻数据进行筛选，确定政策样本数据，进而根据政策样本数据获取政策样本数据集合。

上述实施例，根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征，根据各政策类型的特征、预设的政策类型以及各待处理新闻数据的特征，实现了对待处理新闻数据集合的准确筛选，筛选出与预设的政策类型对应的政策样本数据。

在其中一个实施例中，如图4所示，S206包括：

S402：获取各政策样本数据的标题的每个组成字的字向量；

S404：将各政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各完整语句中每个组成字的字向量；

S406：根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合。

服务器获取政策样本数据集合中各政策样本数据的标题和首段，获取各政策样本数据的标题的每个组成字的字向量，将各政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各完整语句中每个组成字的字向量，根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合。其中，根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合包括：根据标题的每个组成字的字向量，确定每两个组成字之间的自由度和凝固度，根据每两个组成字之间的自由度和凝固度，确定标题中的词语，根据拆分后各完整语句中每个组成字的字向量，确定每两个组成字之间的自由度和凝固度，根据每两个组成字之间的自由度和凝固度，确定拆分后各完整语句中的词语，根据标题中的词语和拆分句子中的词语，确定候选高频词集合。

上述实施例，获取政策样本数据集合中各政策样本数据的标题和首段，进而根据标题的每个组成字的字向量以及将首段以完整语句为单位进行拆分后，获取拆分后各完整语句中每个组成字的字向量，实现了对候选高频词集合的准确获取。

在其中一个实施例中，如图5所示，S208包括：

S502：根据候选高频词集合中的候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词；

S504：根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词；

S506：将候选高频词作为热点组合词，根据热点组合词，确定热点组合词集合。

服务器根据候选高频词集合中的候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词，根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词，将候选高频词作为热点组合词，根据热点组合词，确定热点组合词集合。其中，同一词性的词语指的是在句子中的位置与候选高频词相同的词语，预设的第一距离阈值范围可以按照需要自行设置。举例说明，若候选高频词在句子中是作为宾语，则根据候选高频词的位置，获取在政策样本数据集合的词语中也是作为宾语的词语，作为热点组合词。

上述实施例，根据候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词，根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词，将候选高频词作为热点组合词，实现对热点组合词的准确获取，进而根据热点组合词实现对热点组合词集合的准确获取。

在其中一个实施例中，如图6所示，S210包括：

S602：统计热点组合词在历史政策新闻数据集合中出现的时间和次数；

S604：根据出现的时间和次数，确定候选热点词；

S606：根据候选热点词，确定候选热点词集合；

S608：根据候选热点词集合，确定政策热点词集合。

服务器根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，统计热点组合词在历史政策新闻数据集合中出现的时间和次数，根据出现的时间和次数，确定候选热点词，根据候选热点词，确定候选热点词集合，根据候选热点词集合，确定政策热点词集合。其中，根据出现的时间和次数，确定候选热点词包括：设置时间窗口和回溯时间，分别统计时间窗口内和回溯时间内热点组合词出现的次数，根据统计结果，确定候选热点词。举例说明，设置时间窗口为最近一个月，回溯时间为最近四个月，如果“遏制房价上涨”在前三个月都没有出现，或者出现较少，本月出现较多，则可以认为它是候选热点词。

上述实施例，根据热点组合词遍历历史政策新闻数据集合，统计热点组合词在历史政策新闻数据集合中出现的时间和次数，根据出现的时间和次数，确定候选热点词，实现对候选热点词的获取，进而根据候选热点词集合，确定政策热点词集合，实现对政策热点词集合的获取。

在其中一个实施例中，如图7所示，S608包括：

S702：两两比较候选热点词集合中的候选热点词；

S704：当两个候选热点词中包含至少两个相同字时，分别确定两个候选热点词的字数；

S706：获取两个候选热点词中字数较多的词语，作为政策热点词；

S708：根据政策热点词，确定政策热点词集合。

服务器两两比较候选热点词集合中的候选热点词，当两个候选热点词中包含至少两个相同字时，分别确定两个候选热点词的字数，获取两个候选热点词中字数较多的词语，作为政策热点词，根据政策热点词，确定政策热点词集合。举例说明，当两个候选热点词分别为现金贷和现金贷款时，两个候选热点词中都包括三个相同的字现金贷，且现金贷款的字数较多，则筛掉现金贷，只保留现金贷款作为政策热点词。

上述实施例，两两比较候选热点词集合中的候选热点词，当两个候选热点词中包含至少两个相同字时，分别确定两个候选热点词的字数，获取两个候选热点词中字数较多的词语，作为政策热点词，实现了对候选热点词的筛选，对政策热点词的获取。

在其中一个实施例中，如图8所示，S608包括：

S802：计算候选热点词集合中任意两个候选热点词的词向量距离；

S804：当两个候选热点词的词向量距离在预设的第二距离阈值范围内时，获取两个候选热点词中字数较多的词语，作为政策热点词；

S806：根据政策热点词，确定政策热点词集合。

服务器计算候选热点词集合中任意两个候选热点词的词向量距离，当两个候选热点词的词向量距离在预设的第二距离阈值范围内时，获取两个候选热点词中字数较多的词语，作为政策热点词，根据政策热点词，确定政策热点词集合。其中，第二距离阈值范围可按照需要自行设置。

上述实施例，计算候选热点词集合中任意两个候选热点词的词向量距离，当两个候选热点词的词向量距离在预设的第二距离阈值范围内时，获取两个候选热点词中字数较多的词语，作为政策热点词，实现了对候选热点词的筛选，对政策热点词的获取。

下面通过一个实施例，来详细说明本申请的方案。

服务器获取历史政策新闻数据集合，历史政策新闻数据集合中包括已公开的财政政策、公共政策以及货币政策等，财政政策中包括税收政策等。当预设的政策类型为税收政策时，服务器根据预设的文本分类模型训练历史政策新闻数据集合中的税收政策，提取税收政策的特征，同时获取待处理新闻数据集合中各待处理新闻数据的特征，将各待处理新闻数据的特征与税收政策的特征进行匹配，提取出各待处理新闻数据中与税收政策对应的政策样本数据集合。其中，待处理新闻数据集合中也包括了财政政策、公共政策以及货币政策等。在获取待政策样本数据集合后，服务器获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段进行新词发现，若各政策样本数据的标题和首段中出现与税收相关的词语时，将其确定为候选高频词，例如，当政策样本数据的标题和首段中出现“房产税”和“个税调整”时，可将其作为候选高频词，根据候选高频词生成候选高频词集合。在获取到候选高频词集合之后，服务器根据候选高频词集合中的候选高频词，遍历政策样本数据集合，查找其中与“房产税”以及“个税调整”相关的词语，如“房地产税”以及“个人所得税调整”等词，将候选高频词和查找到的相关词语作为热点组合词，根据热点组合词生成热点组合词集合。在生成热点组合词集合之后，服务器根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，分别统计各热点组合词在预设的时间窗口和回溯时间中出现的次数，对热点组合词进行筛选，确定候选热点词。设置时间窗口为最近一个月，回溯时间为最近四个月，如果“房产税”以及“房地产税”在前三个月都没有出现，或者出现较少，本月出现较多，则可以认为“房产税”以及“房地产税”是候选热点词，根据候选热点词生成候选热点词集合。最后，对候选热点词进行筛选，确定政策热点词，因为“房产税”和“房地产税”两个词中包含至少两个相同字，且意思相近，选择其中字数较多的一个词作为政策热点词，即可将“房地产税”作为政策热点词。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种政策热点预测的装置，包括：获取模块902、筛选模块904、第一处理模块906、第二处理模块908和第三处理模块910，其中：

获取模块902，用于获取历史政策新闻数据集合；

筛选模块904，用于根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合；

第一处理模块906，用于获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合；

第二处理模块908，用于根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合；

第三处理模块910，用于根据热点组合词集合中的热点组合词，遍历历史政策新闻数据集合，确定政策热点词集合。

上述政策热点预测的装置，获取历史政策新闻数据集合，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，实现对待处理新闻数据集合的准确筛选，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据历史政策新闻数据集合对热点组合词集合进行筛选，确定政策热点词集合，实现对待处理新闻数据集合中潜在政策热点的准确预测。

在其中一个实施例中，筛选模块还用于根据预设的文本分类模型训练历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征，根据各政策类型的特征和预设的政策类型，确定所需的政策类型的特征，获取待处理新闻数据集合中各待处理新闻数据的特征，根据所需的政策类型的特征和各待处理新闻数据的特征，确定政策样本数据，根据政策样本数据，获取政策样本数据集合。

在其中一个实施例中，第一处理模块还用于获取各政策样本数据的标题的每个组成字的字向量，将各政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各完整语句中每个组成字的字向量，根据标题的每个组成字的字向量和拆分后各完整语句中每个组成字的字向量，确定候选高频词集合。

在其中一个实施例中，第二处理模块还用于根据候选高频词集合中的候选高频词在各政策样本数据中的位置，确定政策样本数据集合的词语中与候选高频词属于同一词性的词语，作为热点组合词，根据候选高频词的词向量，确定政策样本数据集合的词语中与候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词，将候选高频词作为热点组合词，根据热点组合词，确定热点组合词集合。

在其中一个实施例中，第三处理模块还用于统计热点组合词在历史政策新闻数据集合中出现的时间和次数，根据出现的时间和次数，确定候选热点词，根据候选热点词，确定候选热点词集合，根据候选热点词集合，确定政策热点词集合。

在其中一个实施例中，第三处理模块还用于两两比较候选热点词集合中的候选热点词，当两个候选热点词中包含至少两个相同字时，分别确定两个候选热点词的字数，获取两个候选热点词中字数较多的词语，作为政策热点词，根据政策热点词，确定政策热点词集合。

在其中一个实施例中，第三处理模块还用于计算候选热点词集合中任意两个候选热点词的词向量距离，当两个候选热点词的词向量距离在预设的第二距离阈值范围内时，获取两个候选热点词中字数较多的词语，作为政策热点词，根据政策热点词，确定政策热点词集合。

关于政策热点预测的装置的具体限定可以参见上文中对于政策热点预测的方法的限定，在此不再赘述。上述政策热点预测的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史政策新闻数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种政策热点预测的方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取历史政策新闻数据集合；

上述政策热点预测的计算机设备，获取历史政策新闻数据集合，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，实现对待处理新闻数据集合的准确筛选，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据历史政策新闻数据集合对热点组合词集合进行筛选，确定政策热点词集合，实现对待处理新闻数据集合中潜在政策热点的准确预测。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取待处理新闻数据集合中各待处理新闻数据的特征；

根据政策样本数据，获取政策样本数据集合。

获取各政策样本数据的标题的每个组成字的字向量；

根据出现的时间和次数，确定候选热点词；

根据候选热点词，确定候选热点词集合；

根据候选热点词集合，确定政策热点词集合。

两两比较候选热点词集合中的候选热点词；

获取两个候选热点词中字数较多的词语，作为政策热点词；

根据政策热点词，确定政策热点词集合。

计算候选热点词集合中任意两个候选热点词的词向量距离；

根据政策热点词，确定政策热点词集合。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取历史政策新闻数据集合；

上述政策热点预测的存储介质，获取历史政策新闻数据集合，根据历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与预设的政策类型对应的政策样本数据集合，实现对待处理新闻数据集合的准确筛选，获取政策样本数据集合中各政策样本数据的标题和首段，根据各政策样本数据的标题和首段，确定候选高频词集合，根据候选高频词集合中的候选高频词，遍历政策样本数据集合，确定热点组合词集合，根据历史政策新闻数据集合对热点组合词集合进行筛选，确定政策热点词集合，实现对待处理新闻数据集合中潜在政策热点的准确预测。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取待处理新闻数据集合中各待处理新闻数据的特征；

根据政策样本数据，获取政策样本数据集合。

获取各政策样本数据的标题的每个组成字的字向量；

根据出现的时间和次数，确定候选热点词；

根据候选热点词，确定候选热点词集合；

根据候选热点词集合，确定政策热点词集合。

两两比较候选热点词集合中的候选热点词；

获取两个候选热点词中字数较多的词语，作为政策热点词；

根据政策热点词，确定政策热点词集合。

计算候选热点词集合中任意两个候选热点词的词向量距离；

根据政策热点词，确定政策热点词集合。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种政策热点预测的方法，所述方法包括：

获取历史政策新闻数据集合；

根据所述历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与所述预设的政策类型对应的政策样本数据集合；

获取所述政策样本数据集合中各政策样本数据的标题和首段，根据各所述政策样本数据的标题和首段，确定候选高频词集合；

根据所述候选高频词集合中的候选高频词，遍历所述政策样本数据集合，确定热点组合词集合；

根据所述热点组合词集合中的热点组合词，遍历所述历史政策新闻数据集合，确定政策热点词集合。

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与所述预设的政策类型对应的政策样本数据集合包括：

根据预设的文本分类模型训练所述历史政策新闻数据集合，根据训练后的历史政策新闻数据集合，获取各政策类型的特征；

根据所述各政策类型的特征和预设的政策类型，确定所需的政策类型的特征；

获取所述待处理新闻数据集合中各待处理新闻数据的特征；

根据所述所需的政策类型的特征和各所述待处理新闻数据的特征，确定政策样本数据；

根据所述政策样本数据，获取政策样本数据集合。

3.根据权利要求1所述的方法，其特征在于，所述获取所述政策样本数据集合中各政策样本数据的标题和首段，根据各所述政策样本数据的标题和首段，确定候选高频词集合包括：

获取各所述政策样本数据的标题的每个组成字的字向量；

将各所述政策样本数据的首段以完整语句为单位进行拆分，确定拆分后各所述完整语句中每个组成字的字向量；

根据所述标题的每个组成字的字向量和所述拆分后各所述完整语句中每个组成字的字向量，确定候选高频词集合。

4.根据权利要求1所述的方法，其特征在于，所述根据所述候选高频词集合中的候选高频词，遍历所述政策样本数据集合，确定热点组合词集合包括：

根据所述候选高频词集合中的候选高频词在各所述政策样本数据中的位置，确定所述政策样本数据集合的词语中与所述候选高频词属于同一词性的词语，作为热点组合词；

根据所述候选高频词的词向量，确定所述政策样本数据集合的词语中与所述候选高频词的词向量距离在预设的第一距离阈值范围内的词语，作为热点组合词；

将所述候选高频词作为热点组合词，根据所述热点组合词，确定热点组合词集合。

5.根据权利要求1所述的方法，其特征在于，所述根据所述热点组合词集合中的热点组合词，遍历所述历史政策新闻数据集合，确定政策热点词集合包括：

统计所述热点组合词在所述历史政策新闻数据集合中出现的时间和次数；

根据所述出现的时间和次数，确定候选热点词；

根据所述候选热点词，确定候选热点词集合；

根据所述候选热点词集合，确定政策热点词集合。

6.根据权利要求5所述的方法，其特征在于，所述根据所述候选热点词集合，确定政策热点词集合包括：

两两比较所述候选热点词集合中的候选热点词；

获取两个候选热点词中字数较多的词语，作为政策热点词；

根据所述政策热点词，确定政策热点词集合。

7.根据权利要求5所述的方法，其特征在于，所述根据所述候选热点词集合，确定政策热点词集合包括：

计算所述候选热点词集合中任意两个候选热点词的词向量距离；

根据所述政策热点词，确定政策热点词集合。

8.一种政策热点预测的装置，其特征在于，所述装置包括：

获取模块，用于获取历史政策新闻数据集合；

筛选模块，用于根据所述历史政策新闻数据集合和预设的政策类型，筛选待处理新闻数据集合，获取与所述预设的政策类型对应的政策样本数据集合；

第一处理模块，用于获取所述政策样本数据集合中各政策样本数据的标题和首段，根据各所述政策样本数据的标题和首段，确定候选高频词集合；

第二处理模块，用于根据所述候选高频词集合中的候选高频词，遍历所述政策样本数据集合，确定热点组合词集合；

第三处理模块，用于根据所述热点组合词集合中的热点组合词，遍历所述历史政策新闻数据集合，确定政策热点词集合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。