CN113537609A - 一种基于文本智能挖掘的政策热点预测方法 - Google Patents

一种基于文本智能挖掘的政策热点预测方法 Download PDF

Info

Publication number
CN113537609A
CN113537609A CN202110843654.0A CN202110843654A CN113537609A CN 113537609 A CN113537609 A CN 113537609A CN 202110843654 A CN202110843654 A CN 202110843654A CN 113537609 A CN113537609 A CN 113537609A
Authority
CN
China
Prior art keywords
text
policy
prediction
word
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110843654.0A
Other languages
English (en)
Inventor
向安玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingbo Intelligent Technology Co ltd
Original Assignee
Beijing Qingbo Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingbo Intelligent Technology Co ltd filed Critical Beijing Qingbo Intelligent Technology Co ltd
Priority to CN202110843654.0A priority Critical patent/CN113537609A/zh
Publication of CN113537609A publication Critical patent/CN113537609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本智能挖掘的政策热点预测方法,包括步骤一:选择原始文本,拆分文本内容,基于TF‑IDF算法抽取关键词;步骤二:基于知识图谱的识别政策文本实体;步骤三:利用对比类推的思想进行差异性与空白点预测;步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;步骤五:基于关键词词集构建网络图,利用K‑means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重。本发明借助内容分析与对比类推思想,纵向分析历史数据,横向对比国际政策,充分利用了政策文本,提取、构建关键词网络,在此基础上聚类并预测,可获得相对准确的预测结果。

Description

一种基于文本智能挖掘的政策热点预测方法
技术领域
本发明属于大数据技术领域,具体为一种基于文本智能挖掘的政策热点预测方法。
背景技术
互联网规模的扩大和大数据存储、计算成本的不断降低使得当代信息数据的来源广泛。大数据凭借其庞大的体量、多样性、高速性和价值性使得数据驱动决策日益重要。现今,大数据处理与分析已成为许多行业研究中不可或缺的部分。现代信息社会大数据中,文本数据占比最大,对文本数据信息的处理有着广泛的应用场景,基于文本数据的趋势预测、情感分析等对于商业、新闻媒体与政府等主体有着重要价值。目前,许多前沿研究基于文本大数据挖掘来分析社交媒体舆论信息,这种借助知识图谱、神经网络的量化建模分析方法获取的预测结果有着较高的准确性。文本挖掘技术(Text Mining),即自然语言处理(Natural Language Processing),是一系列计算工具及统计技术的总称。文本挖掘技术处理文本速度快、效率高。2009年内以来,文本挖掘技术进入持续发展阶段,挖掘深层知识模式是未来的重要方向。一般的文本挖掘的基本步骤包括:
1)文本预处理。包括文本的选取、分词、去除停用词、提取词干等。
2)词向量、句矩阵的构建。
3)构建模型进行训练。
文本挖掘技术可划分为有监督的学习和无监督的机器学习两大类,无监督的机器学习方式可用于处理未知的、未整理的文本,更适合处理大数据样本。
文本挖掘技术为现代行业研究提供了可靠的工具,例如,金融行业可通过上市银行年报文本挖掘,探讨商业银行金融科技发展的趋势(唐也然,2021)。宏观来说,国家政策影响着各行各业的发展,对政策热点的分析与预测有助于各行各业的战略规划。因此,立足政策热点,理解、把握新趋势、新动态是全行业获得进步的重中之重。借助文本挖掘技术,智能探索政策热点,是大数据时代政策分析的重要方法。
然而,目前对于政策发展趋势的预测,大部分研究者选择使用单一的研究方法。例如仅对现有政策和数据进行分析,或仅对不同政策条款进行对比类推。这两种方法难以充分利用现代大数据技术提供的丰富信息与便利条件,使得结果具有局限性。此外,一些基于文本数据分析方法的研究将重心放在关键词的词频统计和关键词网络结构上,停留于分析评价层面而无法对政策发展趋势进行有效的量化预测。
本文提出将内容分析法和对比类推法结合、基于文本挖掘技术的的政策热点预测方法,这保证了该预测方法是在大量客观数据的基础上展开,也将未来的政策热点对标政策实施效果显著的方案,利用量化分析的优势,准确识别不同类型变量之间的差异,进一步通过变量控制分析产生差异的原因。
发明内容
本发明的目的在于解决背景技术中的问题,提供一种基于文本智能挖掘的政策热点预测方法。
本发明采用的技术方案如下:
一种基于文本智能挖掘的政策热点预测方法,包括以下步骤:
步骤一:选择原始文本,拆分文本内容,基于TF-IDF算法抽取关键词,TF-IDF算法的具体计算步骤如下:
c,计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
d,计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
步骤二:基于知识图谱的识别政策文本实体;
步骤三:利用对比类推的思想进行差异性与空白点预测;
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果。
优选的,所述步骤二的知识图谱的构建过程是从原始数据出发,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,所述构建过程需要若干个循环,所述循环包括信息抽取、知识融合以及知识加工三个阶段。
优选的,所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。
优选的,所述步骤二中的政策文本进行实体关系抽取,所述实体关系抽取基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
优选的,所述步骤四中的灰色预测模型是通过计算各因素之间的关联度,鉴别***各因素之间发展趋势的相异程度,对原始数据做累加生成、累减或者均值生成近似的指数规律在进行建模的方法,具体根据原始数据生成如下序列:
原始序列:
x0=(x0(1),x0(2),...,x0(n))
1次累加序列(1-AGO):
x1=(x1(1),x1(1)+x1(2),...,x1(1)+x1(2)+…+x1(n))
1次累减序列(1-IAGO):
Figure BDA0003179757090000041
均值生成序列:
z1=(z1(2),z1(3),...,z1(n))。
优选的,所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。
优选的,所述步骤五中的主题聚类计算主题之间的相似度量值,根据相似值的计算结果,把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。
优选的,所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,采用文本挖掘方法,利用TF-IDF算法、知识图谱、差异性与空白点预测、灰色预测模型、主题聚类与权重调整方法,获取政策热点预测,借助内容分析与对比类推思想,纵向分析历史数据,横向对比国际政策,充分利用了政策文本。
2、本发明中,提取、构建关键词网络,在此基础上聚类并预测,可获得相对准确的预测结果。
附图说明
图1为本发明的流程框图;
图2为本发明中知识图谱的构建的流程图;
图3为本发明中Bi-Lstm+Crf模型的流程图;
图4为本发明中政策文本的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1-4,一种基于文本智能挖掘的政策热点预测方法,包括以下步骤:
步骤一:选择原始文本,拆分文本内容,选择年度政府工作报告进行内容的细分与编码,根据报告的结构基本上可以分为以下单元:工作回顾、发展目标与下一阶段工作部署、第三部分、第四部分等,针对文本内容,可以分为政治、经济、民生、国防和教育等主题,最后,以年为单位,基本完成拆分文本条目单元的工作流程,接下来,对报告内容进行分词处理,以形成规模化的条目单元拆分,使用TF-IDF算法对政策文本的关键词进行抽取;
针对原始文本中的“的”“是”“了”等常见用词,用TF可以统计此类意义不大的停用词并把它们过滤,结果只需要考虑剩下的有实际意义的词。在针对出现频次相同的关键词排序上,使用IDF就可以对常见的词以较小的权重,它的大小与一个词的常见程度成反比。
根据以上操作,可以得到TF(词频)和IDF(逆文档频率),将这两个词相乘,就可以得到一个词的TF-IDF值,具体地,如果某个关键词在其所在政策文本中的TF-IDF值越大,那么根据该算法判断,该关键词在这篇政策文本中的重要性就越高,因此,通过计算政策文本中各个关键词的TF-IDF值,由大到小排序,必要时人工介入设定阈值,就完成了针对政策文本的关键词抽取,TF-IDF算法的具体计算步骤如下:
计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
根据计算公式可以看出,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
步骤二:基于知识图谱的识别政策文本实体;
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,这个构建过程需要不断循环更新,每一轮循环包含3个阶段:信息抽取、知识融合以及知识加工利用知识图谱技术实现针对政策文本的人名、地名、机构名等重要实体的识别,对于实体学习,一个关键的标准是能否准确把属于同一事物或概念的实体的不同表达方式进行归一化表示,以及区分同一表述方式在不同语境中指代的不同实体,实体识别在自然语言处理中属于系列标注问题,有很多不同的模型在处理这类问题时,都有不错的表现。常见的模型主要由词嵌入、特征提取、分类器、条件随机场四部分构成,常见的模型的区别主要是在特征提取这部分的结构,其中效果最好也是使用最多的是Bi-Lstm+Crf模型;
接着,对政策文本中的各类实体进行关系抽取。通过建立两个或多个实体间的某种联系,描述不同政策文本中存在的事物之间的关联关系,本文使用基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模,保证了模型的准确性和鲁棒性;
步骤三:利用对比类推的思想进行差异性与空白点预测;
利用对比类推的思想,将待分析样本的政策单元中每类结构包含的主题强度与标杆政策相对比,就可以看出对不同类别的政策单元利用方面,样本政策单元与标杆政策单元存在某种程度的差异,将这种结果形成表格,就可以直观地观察到样本政策单元存在的空白点,政策单元的差异性代表着不同政策文本对于已应用的政策举措在关注度上存在差异;空白点则代表了不同政策文本对某一主题类别的政策单元的应用情况存在不同。
根据该步骤的差异性和空白点对比结果,可以基本确定政策热点的存在范围,为进一步的分析奠定基础。
利用第一部分计算的关键词词频TF-IDF得分,可以得到一个具有较强规律性的数列矩阵,因此,可以通过构建灰微分方程并进行最小二乘法估计,得到未来政策文本的关键词词频的预测值。
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
灰色预测是通过计算各因素之间的关联度,鉴别***各因素之间发展趋势的相异程度,其核心体系是灰色模型(Grey Model,GM),即对原始数据做累加生成(或者累减、均值等方法)生成近似的指数规律在进行建模的方法。具体地,利用原始数据可生成如下序列:
原始序列:
x0=(x0(1),x0(2),...,x0(n))
1次累加序列(1-AGO):
x1=(x1(1),x1(1)+x1(2),...,x1(1)+x1(2)+…+x1(n))
1次累减序列(1-IAGO):
Figure BDA0003179757090000081
均值生成序列:
z1=(z1(2),z1(3),...,z1(n))。
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果;
首先,将每个政策文本单元的关键词词集按照时间切片后形成共词网络图,为后续聚类分析确定聚类条目的数量,接着,利用第一部分计算得出的TF-IDF值构建一个数值矩阵,进而利用K-means算法对文本关键词进行聚类,K值即为共词网络图中的最大节点数量。根据聚类结果,即可得到不同时间段中的聚类主题;接着计算主题之间的相似度量值,根据相似值的计算结果,可以把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别;
具体地,几类主题的划分条件如下:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9;
根据主题之间的相似性矩阵,即可得到热门政策主题的初步预测结果。接着,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中,对初步预测结果的各项主题进行利好/利空的判断,以调控预测结果的权重,具体如下:
1)政策风险/利好:对现时政策文件中与该主题相关的利好、利空状态进行识别,机器正负面识别(利好:1分,利空:-1分);
2)媒体正面/负面:对媒体发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
3)专家看好/看空:对专家智库发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
4)舆论看好/看空:对全网舆论发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
对上述四类因子得分进行赋权,即可得到针对初步预测主题的舆论态势总得分,该得分作为参数加入原模型中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于文本智能挖掘的政策热点预测方法,其特征在于:包括以下步骤:
步骤一:选择原始文本,拆分文本内容,基于TF-IDF算法抽取关键词,TF-IDF算法的具体计算步骤如下:
a,计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
b,计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
步骤二:基于知识图谱的识别政策文本实体;
步骤三:利用对比类推的思想进行差异性与空白点预测;
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果。
2.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二的知识图谱的构建过程是从原始数据出发,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,所述构建过程需要若干个循环,所述循环包括信息抽取、知识融合以及知识加工三个阶段。
3.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。
4.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的政策文本进行实体关系抽取,所述实体关系抽取基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
5.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤四中的灰色预测模型是通过计算各因素之间的关联度,鉴别***各因素之间发展趋势的相异程度,对原始数据做累加生成、累减或者均值生成近似的指数规律在进行建模的方法,具体根据原始数据生成如下序列:
原始序列:
x0=(x0(1),x0(2),...,x0(n))
1次累加序列(1-AGO):
x1=(x1(1),x1(1)+x1(2),...,x1(1)+x1(2)+…+x1(n))
1次累减序列(1-IAGO):
Figure FDA0003179757080000021
均值生成序列:
z1=(z1(2),z1(3),...,z1(n))。
6.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。
7.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤五中的主题聚类计算主题之间的相似度量值,根据相似值的计算结果,把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。
8.如权利要求7所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9。
CN202110843654.0A 2021-07-26 2021-07-26 一种基于文本智能挖掘的政策热点预测方法 Pending CN113537609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843654.0A CN113537609A (zh) 2021-07-26 2021-07-26 一种基于文本智能挖掘的政策热点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843654.0A CN113537609A (zh) 2021-07-26 2021-07-26 一种基于文本智能挖掘的政策热点预测方法

Publications (1)

Publication Number Publication Date
CN113537609A true CN113537609A (zh) 2021-10-22

Family

ID=78088944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843654.0A Pending CN113537609A (zh) 2021-07-26 2021-07-26 一种基于文本智能挖掘的政策热点预测方法

Country Status (1)

Country Link
CN (1) CN113537609A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807645A (zh) * 2021-07-26 2021-12-17 北京清博智能科技有限公司 一种基于开源情报的产业链风险推演方法
CN114757452A (zh) * 2022-06-14 2022-07-15 湖南工商大学 基于文本挖掘的生产安全事故隐患预警方法及***
US20230196017A1 (en) * 2021-12-22 2023-06-22 Bank Of America Corporation Classication of documents
CN116798633A (zh) * 2023-08-22 2023-09-22 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读***
US20190228364A1 (en) * 2018-01-23 2019-07-25 Vector Analytics, Inc. System and method for assessing an organization's innovation strategy against potential or future industry scenarios, competitive scenarios, and technology scenarios
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111339286A (zh) * 2020-02-14 2020-06-26 重庆邮电大学 一种基于主题可视化的探索机构研究状况的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228364A1 (en) * 2018-01-23 2019-07-25 Vector Analytics, Inc. System and method for assessing an organization's innovation strategy against potential or future industry scenarios, competitive scenarios, and technology scenarios
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读***
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111339286A (zh) * 2020-02-14 2020-06-26 重庆邮电大学 一种基于主题可视化的探索机构研究状况的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807645A (zh) * 2021-07-26 2021-12-17 北京清博智能科技有限公司 一种基于开源情报的产业链风险推演方法
US20230196017A1 (en) * 2021-12-22 2023-06-22 Bank Of America Corporation Classication of documents
US11977841B2 (en) * 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents
CN114757452A (zh) * 2022-06-14 2022-07-15 湖南工商大学 基于文本挖掘的生产安全事故隐患预警方法及***
CN114757452B (zh) * 2022-06-14 2022-09-09 湖南工商大学 基于文本挖掘的生产安全事故隐患预警方法及***
CN116798633A (zh) * 2023-08-22 2023-09-22 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备
CN116798633B (zh) * 2023-08-22 2023-11-21 北京大学人民医院 创伤数据安全风险评估***构建方法和电子设备

Similar Documents

Publication Publication Date Title
CN113537609A (zh) 一种基于文本智能挖掘的政策热点预测方法
Jain et al. Data mining techniques: a survey paper
Santra et al. Genetic algorithm and confusion matrix for document clustering
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN112035658B (zh) 基于深度学习的企业舆情监测方法
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
Mishev et al. Forecasting corporate revenue by using deep-learning methodologies
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN116263849A (zh) 注塑工艺参数处理方法、装置及计算设备
Syarif Trending topic prediction by optimizing K-nearest neighbor algorithm
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和***
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
Zhao et al. Fuzzy sentiment membership determining for sentiment classification
Zekić-Sušac et al. Deep learning in modeling energy cost of buildings in the public sector
CN110728140A (zh) 基于情感分析与主题特征的突发事件舆情演化分析方法
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
Luo et al. L1-regularized logistic regression for event-driven stock market prediction
CN106816871B (zh) 一种电力***状态相似性分析方法
CN115630732A (zh) 一种面向城市运营的企业迁移大数据监测预警方法及装置
Handayani et al. Sentiment Analysis Of Electric Cars Using Recurrent Neural Network Method In Indonesian Tweets
Li et al. University Students' behavior characteristics analysis and prediction method based on combined data mining model
CN114612914A (zh) 一种多标签不平衡数据分类的机器学习方法及***
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211022