CN113537609A

CN113537609A - 一种基于文本智能挖掘的政策热点预测方法

Info

Publication number: CN113537609A
Application number: CN202110843654.0A
Authority: CN
Inventors: 向安玲
Original assignee: Beijing Qingbo Intelligent Technology Co ltd
Current assignee: Beijing Qingbo Intelligent Technology Co ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-22

Abstract

本发明公开了一种基于文本智能挖掘的政策热点预测方法，包括步骤一：选择原始文本，拆分文本内容，基于TF‑IDF算法抽取关键词；步骤二：基于知识图谱的识别政策文本实体；步骤三：利用对比类推的思想进行差异性与空白点预测；步骤四：利用灰色预测模型得到未来政策文本的关键词词频的预测值；步骤五：基于关键词词集构建网络图，利用K‑means方法进行主题聚类，基于主题之间的相似性矩阵，将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重。本发明借助内容分析与对比类推思想，纵向分析历史数据，横向对比国际政策，充分利用了政策文本，提取、构建关键词网络，在此基础上聚类并预测，可获得相对准确的预测结果。

Description

一种基于文本智能挖掘的政策热点预测方法

技术领域

本发明属于大数据技术领域，具体为一种基于文本智能挖掘的政策热点预测方法。

背景技术

互联网规模的扩大和大数据存储、计算成本的不断降低使得当代信息数据的来源广泛。大数据凭借其庞大的体量、多样性、高速性和价值性使得数据驱动决策日益重要。现今，大数据处理与分析已成为许多行业研究中不可或缺的部分。现代信息社会大数据中，文本数据占比最大，对文本数据信息的处理有着广泛的应用场景，基于文本数据的趋势预测、情感分析等对于商业、新闻媒体与政府等主体有着重要价值。目前，许多前沿研究基于文本大数据挖掘来分析社交媒体舆论信息，这种借助知识图谱、神经网络的量化建模分析方法获取的预测结果有着较高的准确性。文本挖掘技术(Text Mining)，即自然语言处理(Natural Language Processing)，是一系列计算工具及统计技术的总称。文本挖掘技术处理文本速度快、效率高。2009年内以来，文本挖掘技术进入持续发展阶段，挖掘深层知识模式是未来的重要方向。一般的文本挖掘的基本步骤包括：

1)文本预处理。包括文本的选取、分词、去除停用词、提取词干等。

2)词向量、句矩阵的构建。

3)构建模型进行训练。

文本挖掘技术可划分为有监督的学习和无监督的机器学习两大类，无监督的机器学习方式可用于处理未知的、未整理的文本，更适合处理大数据样本。

文本挖掘技术为现代行业研究提供了可靠的工具，例如，金融行业可通过上市银行年报文本挖掘，探讨商业银行金融科技发展的趋势(唐也然，2021)。宏观来说，国家政策影响着各行各业的发展，对政策热点的分析与预测有助于各行各业的战略规划。因此，立足政策热点，理解、把握新趋势、新动态是全行业获得进步的重中之重。借助文本挖掘技术，智能探索政策热点，是大数据时代政策分析的重要方法。

然而，目前对于政策发展趋势的预测，大部分研究者选择使用单一的研究方法。例如仅对现有政策和数据进行分析，或仅对不同政策条款进行对比类推。这两种方法难以充分利用现代大数据技术提供的丰富信息与便利条件，使得结果具有局限性。此外，一些基于文本数据分析方法的研究将重心放在关键词的词频统计和关键词网络结构上，停留于分析评价层面而无法对政策发展趋势进行有效的量化预测。

本文提出将内容分析法和对比类推法结合、基于文本挖掘技术的的政策热点预测方法，这保证了该预测方法是在大量客观数据的基础上展开，也将未来的政策热点对标政策实施效果显著的方案，利用量化分析的优势，准确识别不同类型变量之间的差异，进一步通过变量控制分析产生差异的原因。

发明内容

本发明的目的在于解决背景技术中的问题，提供一种基于文本智能挖掘的政策热点预测方法。

本发明采用的技术方案如下：

一种基于文本智能挖掘的政策热点预测方法，包括以下步骤：

步骤一：选择原始文本，拆分文本内容，基于TF-IDF算法抽取关键词，TF-IDF算法的具体计算步骤如下：

c，计算词频：

词频(TF)＝某个词在文本中的出现次数

由于不同的政策文本长短不同，为了进行不同样本之间的比较，需要对所述词频进行标准化处理：

词频(TF)＝某个词在文本中的出现次数/文本的总词数；

d，计算逆文档频率：

在这个过程中，需要建立一个语料库，用来模拟语言的使用环境；

逆文档频率(IDF)＝log(语料库的文档总数/包含该词的文档数+1)；

步骤二：基于知识图谱的识别政策文本实体；

步骤三：利用对比类推的思想进行差异性与空白点预测；

步骤四：利用灰色预测模型得到未来政策文本的关键词词频的预测值；

步骤五：基于关键词词集构建网络图，利用K-means方法进行主题聚类，基于主题之间的相似性矩阵，将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重，最终可视化获得预测结果。

优选的，所述步骤二的知识图谱的构建过程是从原始数据出发，从原始数据中提取出知识要素，并将其存入知识库的数据层和模式层的过程，所述构建过程需要若干个循环，所述循环包括信息抽取、知识融合以及知识加工三个阶段。

优选的，所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。

优选的，所述步骤二中的政策文本进行实体关系抽取，所述实体关系抽取基于端到端神经网络的关系抽取模型，该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。

优选的，所述步骤四中的灰色预测模型是通过计算各因素之间的关联度，鉴别***各因素之间发展趋势的相异程度，对原始数据做累加生成、累减或者均值生成近似的指数规律在进行建模的方法，具体根据原始数据生成如下序列：

原始序列：

x⁰＝(x⁰(1)，x⁰(2)，...，x⁰(n))

1次累加序列(1-AGO)：

x¹＝(x¹(1)，x¹(1)+x¹(2)，...，x¹(1)+x¹(2)+…+x¹(n))

1次累减序列(1-IAGO)：

均值生成序列：

z¹＝(z¹(2)，z¹(3)，...，z¹(n))。

优选的，所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。

优选的，所述步骤五中的主题聚类计算主题之间的相似度量值，根据相似值的计算结果，把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。

优选的，所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为：

新生主题和消亡主体的相似值均小于0.6；

融合主体的相似值大于等于0.6且小于0.7；

演化主体的相似值大于等于0.7且小于0.9；

同一主体的相似值大于0.9。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，采用文本挖掘方法，利用TF-IDF算法、知识图谱、差异性与空白点预测、灰色预测模型、主题聚类与权重调整方法，获取政策热点预测，借助内容分析与对比类推思想，纵向分析历史数据，横向对比国际政策，充分利用了政策文本。

2、本发明中，提取、构建关键词网络，在此基础上聚类并预测，可获得相对准确的预测结果。

附图说明

图1为本发明的流程框图；

图2为本发明中知识图谱的构建的流程图；

图3为本发明中Bi-Lstm+Crf模型的流程图；

图4为本发明中政策文本的流程框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1-4，一种基于文本智能挖掘的政策热点预测方法，包括以下步骤：

步骤一：选择原始文本，拆分文本内容，选择年度政府工作报告进行内容的细分与编码，根据报告的结构基本上可以分为以下单元：工作回顾、发展目标与下一阶段工作部署、第三部分、第四部分等，针对文本内容，可以分为政治、经济、民生、国防和教育等主题，最后，以年为单位，基本完成拆分文本条目单元的工作流程，接下来，对报告内容进行分词处理，以形成规模化的条目单元拆分，使用TF-IDF算法对政策文本的关键词进行抽取；

针对原始文本中的“的”“是”“了”等常见用词，用TF可以统计此类意义不大的停用词并把它们过滤，结果只需要考虑剩下的有实际意义的词。在针对出现频次相同的关键词排序上，使用IDF就可以对常见的词以较小的权重，它的大小与一个词的常见程度成反比。

根据以上操作，可以得到TF(词频)和IDF(逆文档频率)，将这两个词相乘，就可以得到一个词的TF-IDF值，具体地，如果某个关键词在其所在政策文本中的TF-IDF值越大，那么根据该算法判断，该关键词在这篇政策文本中的重要性就越高，因此，通过计算政策文本中各个关键词的TF-IDF值，由大到小排序，必要时人工介入设定阈值，就完成了针对政策文本的关键词抽取，TF-IDF算法的具体计算步骤如下：

计算词频：

词频(TF)＝某个词在文本中的出现次数

词频(TF)＝某个词在文本中的出现次数/文本的总词数；

计算逆文档频率：

根据计算公式可以看出，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

步骤二：基于知识图谱的识别政策文本实体；

知识图谱的构建过程是从原始数据出发，采用一系列自动或半自动的技术手段，从原始数据中提取出知识要素，并将其存入知识库的数据层和模式层的过程，这个构建过程需要不断循环更新，每一轮循环包含3个阶段：信息抽取、知识融合以及知识加工利用知识图谱技术实现针对政策文本的人名、地名、机构名等重要实体的识别，对于实体学习，一个关键的标准是能否准确把属于同一事物或概念的实体的不同表达方式进行归一化表示，以及区分同一表述方式在不同语境中指代的不同实体，实体识别在自然语言处理中属于系列标注问题，有很多不同的模型在处理这类问题时，都有不错的表现。常见的模型主要由词嵌入、特征提取、分类器、条件随机场四部分构成，常见的模型的区别主要是在特征提取这部分的结构，其中效果最好也是使用最多的是Bi-Lstm+Crf模型；

接着，对政策文本中的各类实体进行关系抽取。通过建立两个或多个实体间的某种联系，描述不同政策文本中存在的事物之间的关联关系，本文使用基于端到端神经网络的关系抽取模型，该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模，保证了模型的准确性和鲁棒性；

步骤三：利用对比类推的思想进行差异性与空白点预测；

利用对比类推的思想，将待分析样本的政策单元中每类结构包含的主题强度与标杆政策相对比，就可以看出对不同类别的政策单元利用方面，样本政策单元与标杆政策单元存在某种程度的差异，将这种结果形成表格，就可以直观地观察到样本政策单元存在的空白点，政策单元的差异性代表着不同政策文本对于已应用的政策举措在关注度上存在差异；空白点则代表了不同政策文本对某一主题类别的政策单元的应用情况存在不同。

根据该步骤的差异性和空白点对比结果，可以基本确定政策热点的存在范围，为进一步的分析奠定基础。

利用第一部分计算的关键词词频TF-IDF得分，可以得到一个具有较强规律性的数列矩阵，因此，可以通过构建灰微分方程并进行最小二乘法估计，得到未来政策文本的关键词词频的预测值。

灰色预测是通过计算各因素之间的关联度，鉴别***各因素之间发展趋势的相异程度，其核心体系是灰色模型(Grey Model，GM)，即对原始数据做累加生成(或者累减、均值等方法)生成近似的指数规律在进行建模的方法。具体地，利用原始数据可生成如下序列：

原始序列：

x⁰＝(x⁰(1)，x⁰(2），...，x⁰(n))

1次累加序列(1-AGO)：

x¹＝(x¹(1)，x¹(1)+x¹(2)，...，x¹(1)+x¹(2)+…+x¹(n))

1次累减序列(1-IAGO)：

均值生成序列：

z¹＝(z¹(2)，z¹(3)，...，z¹(n))。

步骤五：基于关键词词集构建网络图，利用K-means方法进行主题聚类，基于主题之间的相似性矩阵，将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重，最终可视化获得预测结果；

首先，将每个政策文本单元的关键词词集按照时间切片后形成共词网络图，为后续聚类分析确定聚类条目的数量，接着，利用第一部分计算得出的TF-IDF值构建一个数值矩阵，进而利用K-means算法对文本关键词进行聚类，K值即为共词网络图中的最大节点数量。根据聚类结果，即可得到不同时间段中的聚类主题；接着计算主题之间的相似度量值，根据相似值的计算结果，可以把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别；

具体地，几类主题的划分条件如下：

新生主题和消亡主体的相似值均小于0.6；

融合主体的相似值大于等于0.6且小于0.7；

演化主体的相似值大于等于0.7且小于0.9；

同一主体的相似值大于0.9；

根据主题之间的相似性矩阵，即可得到热门政策主题的初步预测结果。接着，将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中，对初步预测结果的各项主题进行利好/利空的判断，以调控预测结果的权重，具体如下：

1)政策风险/利好：对现时政策文件中与该主题相关的利好、利空状态进行识别，机器正负面识别(利好：1分，利空：-1分)；

2)媒体正面/负面：对媒体发布内容中与该主题相关的信息进行正负面判断(正面：1分，负面：-1分，中性：0分)；

3)专家看好/看空：对专家智库发布内容中与该主题相关的信息进行正负面判断(正面：1分，负面：-1分，中性：0分)；

4)舆论看好/看空：对全网舆论发布内容中与该主题相关的信息进行正负面判断(正面：1分，负面：-1分，中性：0分)；

对上述四类因子得分进行赋权，即可得到针对初步预测主题的舆论态势总得分，该得分作为参数加入原模型中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本智能挖掘的政策热点预测方法，其特征在于：包括以下步骤：

a，计算词频：

词频(TF)＝某个词在文本中的出现次数

词频(TF)＝某个词在文本中的出现次数/文本的总词数；

b，计算逆文档频率：

步骤二：基于知识图谱的识别政策文本实体；

步骤三：利用对比类推的思想进行差异性与空白点预测；

2.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤二的知识图谱的构建过程是从原始数据出发，从原始数据中提取出知识要素，并将其存入知识库的数据层和模式层的过程，所述构建过程需要若干个循环，所述循环包括信息抽取、知识融合以及知识加工三个阶段。

3.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。

4.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤二中的政策文本进行实体关系抽取，所述实体关系抽取基于端到端神经网络的关系抽取模型，该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。

5.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤四中的灰色预测模型是通过计算各因素之间的关联度，鉴别***各因素之间发展趋势的相异程度，对原始数据做累加生成、累减或者均值生成近似的指数规律在进行建模的方法，具体根据原始数据生成如下序列：

原始序列：

x⁰＝(x⁰(1)，x⁰(2)，...，x⁰(n))

1次累加序列(1-AGO)：

x¹＝(x¹(1)，x¹(1)+x¹(2)，...，x¹(1)+x¹(2)+…+x¹(n))

1次累减序列(1-IAGO)：

均值生成序列：

z¹＝(z¹(2)，z¹(3)，...，z¹(n))。

6.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。

7.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述步骤五中的主题聚类计算主题之间的相似度量值，根据相似值的计算结果，把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。

8.如权利要求7所述的一种基于文本智能挖掘的政策热点预测方法，其特征在于：所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为：

新生主题和消亡主体的相似值均小于0.6；

融合主体的相似值大于等于0.6且小于0.7；

演化主体的相似值大于等于0.7且小于0.9；

同一主体的相似值大于0.9。