CN111324801A - 基于热点词的司法领域热点事件发现方法 - Google Patents

基于热点词的司法领域热点事件发现方法 Download PDF

Info

Publication number
CN111324801A
CN111324801A CN202010096023.2A CN202010096023A CN111324801A CN 111324801 A CN111324801 A CN 111324801A CN 202010096023 A CN202010096023 A CN 202010096023A CN 111324801 A CN111324801 A CN 111324801A
Authority
CN
China
Prior art keywords
hot
news
public
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010096023.2A
Other languages
English (en)
Other versions
CN111324801B (zh
Inventor
余正涛
梁昊远
毛存礼
郭军军
黄于欣
张勇丙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010096023.2A priority Critical patent/CN111324801B/zh
Publication of CN111324801A publication Critical patent/CN111324801A/zh
Application granted granted Critical
Publication of CN111324801B publication Critical patent/CN111324801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于热点词的司法领域热点事件发现方法,属自然语言处理领域。本发明先对爬取的司法舆情新闻进行处理,通过HanLP工具分词并抽取舆情新闻中的舆情要素,然后通过对舆情要素进行词频统计得到热点词集合并建立热点词与舆情新闻的对应关系,接下来通过相似度计算***对舆情新闻进行两两评估以决定归并与否,相似度计算***包括三个子***:基于舆情新闻正文要素统计的文本相似度计算***、基于BERT的舆情标题相似度计算***以及基于tf‑idf的舆情标题相似度计算***。在得到以上子***的结果后,通过分别设置阈值的方式决定两条舆情文本是否属于同一热点事件。最后根据子***的最终结果决定两条舆情是否为同一热点事件。

Description

基于热点词的司法领域热点事件发现方法
技术领域
本发明涉及基于热点词的司法领域热点事件发现方法,属于自然语言处理技术领域。
背景技术
伴随互联网的迅速发展,社交网络逐渐成为获得与分享新闻的重要渠道。大量 司法领域的相关舆情也会在互联网中显现出来,而司法领域的相关舆情聚焦于社会 热点案件问题,因此社会热点极易聚焦在一些敏感事件上,导致社会舆论呈现病毒 式的爆发趋势。因此司法部门如何快速且有效地发现这些热点事件成为了一个至关 重要的问题。
在互联网上,数据的实时性非常强,一些热点案件的相关舆情数量极易在短时 间内呈***式增长,因此,在司法领域舆情的热点事件发现中,需要定期爬取互联 网中的数据且时间间隔不能太长。这也就导致了司法领域数据有以下特点:(1)数 据主题数量难以预估;(2)数据里各主题的舆情分布不均衡;(3)数据中充斥大量 噪声。而正是由于这些特点,传统的主题模型无法得到准确的主题。
综上所有,需要提供一种能够加快热点事件发现速度且提高准确率的司法领域热点事件发现方法。
发明内容
为解决上述问题,本发明提供了基于热点词的司法领域热点事件发现方法。
本发明的技术方案是:基于热点词的司法领域热点事件发现方法,所述方法的 具体步骤如下:
Step1、利用爬虫爬取司法舆情新闻并对数据进行预处理,并使用开源工具分词并提取中文舆情新闻中的要素得到要素集合,并对要素进行词频统计;
Step2、如果数据库中并没有热点事件,则把Step1中词频大于等于阈值的要素 定义为热点词,并通过相似度计算***计算各个热点词所对应舆情新闻之间的相似 度,根据返回结果决定舆情新闻是否合并;若相似度大于等于阈值则将舆情新闻以 及其对应的热点词合并为热点事件,相似度小于阈值的舆情新闻将被丢弃;
Step3、如果数据库中已有热点事件,则对Step1中词频大于等于阈值的要素定 义为热点词,归入热点词集合;将词频小于阈值的要素与原有热点事件下的热点词 进行对比,若该要素在原热点事件下的热点词集合中出现,则也将该要素定义为热 点词,并归入热点词集合,否则丢弃该要素;
Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算***进行相似度计算,根据计算结果决定该舆情 新闻是属于原有热点事件或属于新的热点事件;若相似度大于等于阈值则将热点词 以及其对应的舆情新闻归入原热点事件,否则将舆情新闻新增为一个新的热点事件。
进一步地,所述Step1的具体步骤如下:
利用爬虫从新浪微博、新闻网站爬取司法舆情新闻,在经过预处理之后得到新 闻数据;
使用开源工具HanLP对得到的司法舆情数据分词并抽取舆情要素,得到要素集合;
对舆情要素集合进行词频统计。
进一步地,所述Step2的具体步骤如下:
如果数据库中没有热点事件,则将词频大于等于阈值的要素定义为热点词,并建立各热点词与其来源的舆情新闻之间的对应关系;
通过相似度计算***计算各个热点词所对应的舆情新闻之间的相似度,将相似度计算***返回的结果为“True”的舆情新闻以及其对应的热点词合并为热点事件。
进一步地,所述步骤Step4的具体步骤如下:
将Step3中得到的热点词集合下的热点词与其来源的舆情新闻建立对应关系,得到热点词——舆情新闻集合;
将热点词——舆情新闻集合下的所有舆情新闻与原有热点事件下的舆情新闻通过相似度计算***做相似度计算;
若最终返回结果为“True”,则将该舆情新闻及其对应的热点词与原有热点事件下的舆情新闻以及热点词进行合并;
若最终返回结果为“False”,则使用该舆情新闻及其对应的热点词新增为一个新的热点事件。
进一步地,所述相似度计算***包含以下子***:
基于舆情新闻正文要素统计的文本相似度计算***;
统计每条舆情文本的舆情要素,利用两条舆情文本的要素词共现计算两条舆情文本之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
基于BERT的舆情标题相似度计算***;
利用BERT预训练的词向量表征每条舆情标题,通过计算两条标题文本之间的欧氏距离计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则 返回“False”;
基于tf-idf的舆情标题相似度计算***;
利用tf-idf表征每条舆情标题,通过计算两条标题文本之间的余弦相似度计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
最终根据三个子***的结果来判定,如果三个结果中有2个及以上的“True”, 则认为这两条舆情文本为相似文本,属于同一热点事件。
根据本发明的构思,本发明还提供了一种基于热点词的司法领域舆情热点事件发现装置,如图4所示,该装置包括:
数据获取模块,用于利用网络爬虫技术获取网络上的司法舆情新闻以及对数据进行预处理及分词;
要素抽取模块,使用开源工具HanLP(https://github.com/hankcs/HanLP)在得到的 司法舆情数据中抽取舆情要素;
词频统计模块,对要素抽取模块得到的舆情要素进行词频统计;
相似度计算模块,利用舆情新闻的要素、tf-idf以及BERT预训练的词向量计算 舆情新闻之间的相似度;
合并模块,根据相似度计算模块的结果判断是否进行合并。
本发明的有益效果是:
本发明通过定义热点词的方式发现司法领域中的热点事件,既能通过简单的词汇表征文本,又防止了少量词汇对于文本表征的干扰;本发明的文本相似度计算系 统结合了词频统计、BERT预训练词向量以及tf-idf对文本进行表征,并使用欧几里 得距离和余弦相似度对文本的相似度进行计算,从而提高了热点事件的准确率。
本发明提出的方法及装置结构较传统主题模型更为简单,而且在数据量较少、 分布失衡且噪声较大的情况下效率和准确率更高。
附图说明
图1为本发明中的方法步骤示意图;
图2为本发明中的方法流程示意图;
图3为本发明中的相似度计算***流程示意图;
图4为本发明中的装置结构示意图。
具体实施方式
实施例1:如图1所示,为基于热点词的司法领域热点事件发现方法,图2为本 发明的方法流程示意图,图3为本发明的相似度计算***示意图,图4为本发明的 装置结构示意图。
所述方法的具体步骤如下:
A步骤、利用爬虫爬取司法舆情新闻并对数据进行预处理,并使用开源工具 HanLP(https://github.com/hankcs/HanLP)对本文进行分词并提取中文舆情新闻中的要 素得到要素集合,并对要素进行词频统计;
B步骤、如果数据库中并没有热点事件,则将A步骤中词频大于等于阈值的要 素定义为热点词并归入热点词集合,并通过相似度计算***计算各个热点词所对应 舆情新闻之间的相似度,根据返回结果决定舆情新闻是否合并;若相似度大于等于 阈值则将舆情新闻以及其对应的热点词合并为热点事件,相似度小于阈值的舆情新 闻将被丢弃;
C步骤、如果数据库中已有热点事件,则对A步骤中词频大于等于阈值的要素 定义为热点词,归入热点词集合;将词频小于阈值的要素与原有热点事件下的热点 词进行对比,若该要素在原热点事件下的热点词集合中出现,则也将该要素定义为 热点词,并归入热点词集合,否则丢弃该要素;
D步骤、将C步骤中得到的热点词集合下的热点词所对应的舆情新闻与原有热 点事件下的舆情新闻通过相似度计算***进行相似度计算,如果相似度计算***得 到的结果为“True”则将热点词以及其对应的舆情新闻归入原热点事件,否则将其热 点词及舆情新闻合并为一个新的热点事件。
在A步骤中,本发明的数据主要为新浪微博以及各大新闻网站中的司法舆情, 经过数据预处理之后,使用开源工具HanLP(https://github.com/hankcs/HanLP)进行分 词并抽取要素。由于在舆情新闻中,最具有区分度的主要为人名与组织机构名,而 地名由于频率太高,无法作为舆情要素使用。假设爬取到的舆情新闻数据集合为 D={d1,d2,...,dN},其中N为文本总数。则舆情新闻数据集合D由HanLP抽取要素 之后得到要素集合被表示为X={x1,x2,...xM},其中M为舆情要素的数量。在得到要 素集合后对其中的要素分别进行词频统计;
在B步骤中,将要素集合X中词频大于等于阈值的要素定义为热点词,并建立 热点词集合R={r1,r2,...,rn},其中n为热点词总数,然后建立热点词与舆情文本之间 的对应关系。例如:热点词r1来自于舆情文本{d1,d2,d3},则将其表示为r1→{d1,d2,d3}。 根据实际情况,本发明将词频的阈值设置为10。再使用相似度计算***对各舆情文 本之间的相似度进行计算。相似度计算***包含以下子***:
一、基于舆情新闻正文要素统计的文本相似度计算***;
二、基于BERT的舆情标题相似度计算***;
三、基于tf-idf的舆情标题相似度计算***。
下面分别介绍三个子***的具体实施方案:
基于舆情新闻正文要素统计的文本相似度计算***主要使用舆情新闻中的要素进行计算,其计算公式如下:
Figure BDA0002385299600000051
其中,F代表两个文本的相似度,xi∩xj代表两条舆情文本中要素的交集的数 量,|x|max代表两条舆情文本中要素最大的数量。
若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件,返回“True”, 否则返回“False”,此处阈值设置为0.4。
基于BERT的舆情标题相似度计算***主要使用谷歌提出的BERT模型预训练 的中文词向量以及欧几里得距离计算文本的相似度,具体流程如下:
首先根据分词结果构建词表,每个词有一个对应的ID;
然后设置文本长度(L)设置为15,词数超过L的文本将被截断,词数小于L 的文本在文本最后用0填充;
使用开源工具BERT(https://github.com/ymcui/Chinese-BERT-wwm)表征文本,每个词都被表示为一个向量
Figure BDA0002385299600000052
其中D为词向量的维度。则文本
Figure BDA0002385299600000053
接 下来对于每条文本按每个词进行词向量的相加,即
Figure BDA0002385299600000054
因此,最终
Figure BDA0002385299600000055
再使用欧几里得距离衡量两条文本的相似度,欧氏距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,其计算公式如下:
Figure BDA0002385299600000061
若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件,返回“True”, 否则返回“False”,此处阈值设置为0.5。
基于tf-idf的舆情标题相似度计算***主要使用tf-idf表示文本并使用余弦相似 度计算文本之间的相似性,具体流程如下:
首先根据分词结果构建词表,每个词有一个对应的ID;
然后设置文本长度(L)设置为15,词数超过L的文本将被截断,词数小于L 的文本在文本最后用0填充;
利用tf-idf的公式计算每个词对应的权重,td-idf包含了tf(词频)与idf(逆文档频率),其计算公式如下:
Figure BDA0002385299600000062
其中ni,j表示该词在文档dj中出现的次数,∑knk,j则表示文档dj中所有词汇出 现的次数总和。
Figure BDA0002385299600000063
其中,|D|表示语料库中的文档总数,|{j:ti∈dj}|表示包含词汇ti的文档数量,为避免分母为0的情况,因此在分母项加一。最终,文本可以由下式表示:
s=tfij×idfi
由此,两条舆情标题的余弦相似度可以由以下公式计算:
Figure BDA0002385299600000064
若两条文本的相似度大于等于阈值将被认为是同属于一个热点事件,返回“True”, 否则返回“False”,此处阈值设置为0.75。
最终,由三个子***的返回值决定最终结果,判定规则如下:若三个子***中 有二个及以上的返回结果为“True”则认为这两条文本属于同一热点事件,并返回 “True”,否则返回“False”。
在B步骤中,将要素集合X中词频大于等于阈值的要素定义为热点词,并建立 热点词集合R={r1,r2,...,rn},其中n为热点词总数,然后建立热点词与舆情文本之间 的对应关系。例如:热点词r1来自于舆情文本{d1,d2,d3},则将其表示为r1→{d1,d2,d3}。 根据实际情况,本发明将词频的阈值设置为10。再使用相似度计算***对各舆情文 本之间的相似度进行计算。相似度计算***包含以下子***:
在C步骤中包含以下步骤:C01步骤:将要素集合X中词频大于等于阈值的要 素定义为热点词并建立热点词集合;C02步骤:将要素集合X中词频小于阈值的要 素于原热点事件下的热点词进行判断该要素是否为热点词;C04步骤:将得到的热 点词与其来源舆情新闻建立对应关系。
在C01步骤中,将A步骤得到的要素集合X={x1,x2,...xM}下的词频大于等于阈 值的要素定义为热点词,并建立热点词集合R={r1,r2,...,rn},其中n为热点词总数, 此处阈值同样被设置为10;
在C02步骤中,获取原热点事件下的热点词集合R′,将要素集合X中词频小于 阈值的要素与R′中的热点词进行对比,如果该要素在原热点事件下的热点词中出现 过,即xi∈R′,那么该要素仍然会被定义为热点词,并归入热点词集合R。由于司法 案件涉及案件发生、警方逮捕、法院一审及二审等多个事件,所以此处设定是为了 防止某个案件由于上述事件的时间间隔而被定义为一个新的热点事件;
在C03步骤中,将得到的热点词集合R={r1,r2,...,rn}下的热点词与其来源的舆情 新闻建立对应关系ri→{d1,d2,...,dn}。例如:热点词r1∈R是舆情文本{d1,d2,d3}中出现的词频大于阈值的要素,那就将此关系表示为r1→{d1,d2,d3}。
在D步骤中,利用C步骤得到的所有热点词与舆情文本之间对应关系 ri→{d1,d2,...,dn},及原热点事件下的舆情文本,通过步骤B中所述相似度计算*** 判定两个文本是否属于同一热点事件。若返回结果为“True”,则将热点词ri及其对 应的舆情文本{d1,d2,...,dn}合并到被对比的原热点事件中;否则,将舆情文本两两之 间再次计算相似度从而进行合并,返回结果为“True”的舆情文本及其热点词将被合 并且成为一个新的热点事件,否则将舆情文本单独新增为一个新的热点事件。
根据本发明的构思,本发明还提供了一种基于热点词的司法领域舆情热点事件发现装置,如图4所示,该装置包括:
数据获取模块,用于利用网络爬虫技术获取网络上的司法舆情新闻以及对数据进行预处理及分词;
要素抽取模块,使用开源工具HanLP(https://github.com/hankcs/HanLP)在得到的 司法舆情数据中抽取舆情要素;
词频统计模块,对要素抽取模块得到的舆情要素进行词频统计;
相似度计算模块,利用舆情新闻的要素、tf-idf以及BERT预训练的词向量计算 舆情新闻之间的相似度;
合并模块,根据相似度计算模块的结果判断是否进行合并。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。

Claims (5)

1.基于热点词的司法领域热点事件发现方法,其特征在于:
所述方法的具体步骤如下:
Step1、利用爬虫爬取司法舆情新闻并对数据进行预处理,并使用开源工具分词并提取中文舆情新闻中的要素得到要素集合,并对要素进行词频统计;
Step2、如果数据库中并没有热点事件,则把Step1中词频大于等于阈值的要素定义为热点词,并通过相似度计算***计算各个热点词所对应舆情新闻之间的相似度,根据返回结果决定舆情新闻是否合并;
Step3、如果数据库中已有热点事件,则对Step1中词频大于等于阈值的要素定义为热点词,归入热点词集合;将词频小于阈值的要素与原有热点事件下的热点词进行对比,若该要素在原热点事件下的热点词集合中出现,则也将该要素定义为热点词,并归入热点词集合,否则丢弃该要素;
Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算***进行相似度计算,根据计算结果决定该舆情新闻是属于原有热点事件或属于新的热点事件。
2.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述Step1的具体步骤如下:
利用爬虫从新浪微博、新闻网站爬取司法舆情新闻,在经过预处理之后得到新闻数据;
使用开源工具HanLP对得到的司法舆情数据分词并抽取舆情要素,得到要素集合;
对舆情要素集合进行词频统计。
3.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述Step2的具体步骤如下:
如果数据库中没有热点事件,则将词频大于等于阈值的要素定义为热点词,并建立各热点词与其来源的舆情新闻之间的对应关系;
通过相似度计算***计算各个热点词所对应的舆情新闻之间的相似度,将相似度计算***返回的结果为“True”的舆情新闻以及其对应的热点词合并为热点事件。
4.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述步骤Step4的具体步骤如下:
将Step3中得到的热点词集合下的热点词与其来源的舆情新闻建立对应关系,得到热点词——舆情新闻集合;
将热点词——舆情新闻集合下的所有舆情新闻与原有热点事件下的舆情新闻通过相似度计算***做相似度计算;
若最终返回结果为“True”,则将该舆情新闻及其对应的热点词与原有热点事件下的舆情新闻以及热点词进行合并;
若最终返回结果为“False”,则使用该舆情新闻及其对应的热点词新增为一个新的热点事件。
5.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述相似度计算***包含以下子***:
基于舆情新闻正文要素统计的文本相似度计算***;
统计每条舆情文本的舆情要素,利用两条舆情文本的要素词共现计算两条舆情文本之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
基于BERT的舆情标题相似度计算***;
利用BERT预训练的词向量表征每条舆情标题,通过计算两条标题文本之间的欧氏距离计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
基于tf-idf的舆情标题相似度计算***;
利用tf-idf表征每条舆情标题,通过计算两条标题文本之间的余弦相似度计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
最终根据三个子***的结果来判定,如果三个结果中有2个及以上的“True”,则认为这两条舆情文本为相似文本,属于同一热点事件。
CN202010096023.2A 2020-02-17 2020-02-17 基于热点词的司法领域热点事件发现方法 Active CN111324801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096023.2A CN111324801B (zh) 2020-02-17 2020-02-17 基于热点词的司法领域热点事件发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096023.2A CN111324801B (zh) 2020-02-17 2020-02-17 基于热点词的司法领域热点事件发现方法

Publications (2)

Publication Number Publication Date
CN111324801A true CN111324801A (zh) 2020-06-23
CN111324801B CN111324801B (zh) 2022-06-21

Family

ID=71172718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096023.2A Active CN111324801B (zh) 2020-02-17 2020-02-17 基于热点词的司法领域热点事件发现方法

Country Status (1)

Country Link
CN (1) CN111324801B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881275A (zh) * 2020-07-24 2020-11-03 新华智云科技有限公司 高效的热点识别及匹配方法
CN111984787A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于互联网数据的舆情热点获取方法及***
CN113343118A (zh) * 2021-04-23 2021-09-03 东南大学 混合新媒体下的热点事件发现方法
CN113378023A (zh) * 2021-05-24 2021-09-10 华北科技学院(中国煤矿安全技术培训中心) 民生舆情及新闻信息挖掘比对可视化***
CN113609298A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院舆情语料提取的数据处理的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索***及热点话题搜索方法
CN103823792A (zh) * 2014-03-07 2014-05-28 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN104159158A (zh) * 2013-05-15 2014-11-19 中兴通讯股份有限公司 视频文件的热点播放方法和装置
CN106844786A (zh) * 2016-12-08 2017-06-13 中国电子科技网络信息安全有限公司 一种基于文本相似度的舆情地域热点发现方法
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
WO2018160747A1 (en) * 2017-02-28 2018-09-07 Laserlike Inc. Enhanced search to generate a feed based on a user's interests
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577501A (zh) * 2012-08-10 2014-02-12 深圳市世纪光速信息技术有限公司 热点话题搜索***及热点话题搜索方法
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN104159158A (zh) * 2013-05-15 2014-11-19 中兴通讯股份有限公司 视频文件的热点播放方法和装置
CN103823792A (zh) * 2014-03-07 2014-05-28 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN106844786A (zh) * 2016-12-08 2017-06-13 中国电子科技网络信息安全有限公司 一种基于文本相似度的舆情地域热点发现方法
WO2018160747A1 (en) * 2017-02-28 2018-09-07 Laserlike Inc. Enhanced search to generate a feed based on a user's interests
CN106951498A (zh) * 2017-03-15 2017-07-14 国信优易数据有限公司 文本聚类方法
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANMING FENG等: "Micro-blog topic detection method based on BTM topic model and K-means clustering algorithm", 《AUTOMATIC CONTROL AND COMPUTER SCIENCES》, vol. 50, 31 December 2016 (2016-12-31), pages 271 *
李华等: "基于影响力的微博新兴热点事件检测", 《计算机应用与软件》, vol. 33, no. 5, 15 May 2016 (2016-05-15), pages 98 - 101 *
柳笛: "基于分布式框架的网络教育新闻热点话题发现研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2019 (2019-01-15), pages 138 - 5531 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881275A (zh) * 2020-07-24 2020-11-03 新华智云科技有限公司 高效的热点识别及匹配方法
CN111881275B (zh) * 2020-07-24 2024-02-13 新华智云科技有限公司 高效的热点识别及匹配方法
CN111984787A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于互联网数据的舆情热点获取方法及***
CN113343118A (zh) * 2021-04-23 2021-09-03 东南大学 混合新媒体下的热点事件发现方法
CN113378023A (zh) * 2021-05-24 2021-09-10 华北科技学院(中国煤矿安全技术培训中心) 民生舆情及新闻信息挖掘比对可视化***
CN113609298A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院舆情语料提取的数据处理的方法和装置

Also Published As

Publication number Publication date
CN111324801B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN110516067B (zh) 基于话题检测的舆情监控方法、***及存储介质
CN103914478B (zh) 网页训练方法及***、网页预测方法及***
CN104615593B (zh) 微博热点话题自动检测方法及装置
US8630972B2 (en) Providing context for web articles
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN110543595B (zh) 一种站内搜索***及方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN105893444A (zh) 情感分类方法及装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
US10387805B2 (en) System and method for ranking news feeds
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105279277A (zh) 知识数据的处理方法和装置
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
Irena et al. Fake news (hoax) identification on social media twitter using decision tree c4. 5 method
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN109710825A (zh) 一种基于机器学习的网页有害信息识别方法
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN108021667A (zh) 一种文本分类方法和装置
CN106446124A (zh) 一种基于网络关系图的网站分类方法
Wei et al. Learning from context: a mutual reinforcement model for Chinese microblog opinion retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant