CN107193796B - 一种舆情事件检测方法及装置 - Google Patents

一种舆情事件检测方法及装置 Download PDF

Info

Publication number
CN107193796B
CN107193796B CN201610197073.3A CN201610197073A CN107193796B CN 107193796 B CN107193796 B CN 107193796B CN 201610197073 A CN201610197073 A CN 201610197073A CN 107193796 B CN107193796 B CN 107193796B
Authority
CN
China
Prior art keywords
text
sensitive
feature
detected
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610197073.3A
Other languages
English (en)
Other versions
CN107193796A (zh
Inventor
蔡慧慧
刘克松
张丹
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Publication of CN107193796A publication Critical patent/CN107193796A/zh
Application granted granted Critical
Publication of CN107193796B publication Critical patent/CN107193796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题。

Description

一种舆情事件检测方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种舆情事件检测方法及装置。
背景技术
随着互联网的迅猛发展,网络舆情正在成为普通百姓表达利益诉求,倡导社会公平公正,不间断地向我国各级政府传达民众共同心声的一块思想阵地。越来越多的人愿意把所想表达的观点和所看到的现象发布到网络上,通过网络的传播让更多的人参与进来,从而对网民情绪和社会稳定产生了重大影响。因此,利用现代科学技术,准确检测舆情事件具有十分重要的意义。
目前关于舆情事件的检测发现,还停留在利用一些舆情敏感词汇来进行语义匹配,又由于与舆情事件关联的命名实体词,如人名、外文人名译名和机构名简称,只有出现在相关联事件的语境中才体现舆情。而对于存在重名的命名实体,需要结合当前舆情事件背景分析其含义,对于该类具有歧义的特征词,传统静态语料库中可能未含有对其最新的解释性义项。这种传统的基于舆情特征词(敏感词、命名实体等)的过滤方法,因其实现机制简单、执行效率高,仍是一种重要的预处理手段;然而,面对互联网海量文本,尤其是碎片化、不规范的社会化媒体内容,该预处理过滤机制由于缺乏有效的语义约束,存在一定的假阳性,容易造成错判、漏判,无法准确识别需要进行关注的舆情事件。在大数据的网络舆情预警应用环境中给后续处理带来相当可观的噪音数据输入,因此亟需要具备语义理解能力的数据预处理机制。
发明内容
由于传统的特征词过滤方法面对互联网海量文本,缺乏有效的语义约束,容易造成错判、漏判,无法准确检测出需要进行关注的舆情事件的问题,本发明提出一种舆情事件检测方法及装置。
第一方面,本发明提出一种舆情事件检测方法,包括:
获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
优选地,所述获取待检测文本的特征词向量之前包括:
根据网页内容构建所述语义知识库。
优选地,所述网页内容存储在xml格式文件中。
优选地,所述网页内容为***。
优选地,所述根据网页内容构建所述语义知识库之后包括:
根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
第二方面,本发明还提出一种舆情事件检测装置,包括:
特征词向量获取模块,用于获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
对应向量获取模块,用于从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
相似度计算模块,用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
事件检测模块,用于获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量;根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
优选地,还包括:
语义知识库构建模块,用于根据网页内容构建所述语义知识库。
优选地,所述网页内容存储在xml格式文件中。
优选地,所述网页内容为***。
优选地,还包括:
敏感词库建立模块,用于根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
由上述技术方案可知,本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种舆情事件检测方法的流程示意图;
图2为本发明一实施例提供的一种舆情事件检测方法的流程图;
图3为本发明一实施例提供的一种舆情事件检测装置的结构示意图。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种舆情事件检测方法的流程示意图,包括:
S101、获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
S102、从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
S103、计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
S104、获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
其中,当所述特征词向量的元素对应的特征词为敏感词时,可将对应元素设为0。
本实施例通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
作为本实施例的可选方案,步骤S101之前包括:
S100、根据网页内容构建所述语义知识库。
通过构建语义知识库,对舆情敏感词进行歧义标注,为分析检测舆情事件提供语义支撑,为待检测文本中的敏感词找到正确的含义提供依据。由于舆情特征词往往是对舆情的直接体现,但是舆情特征词在不同的语境却可以表示不同的含义,因此,该类具有歧义的舆情特征词往往给文本过滤预处理带来假阳性问题。因此,通过借助该语义知识库准确给出其描述可识别出其在具体语境中所表达的意思。
其中,对于语义知识库中存储的特征词对应的向量,是通过对分词预处理后的文本利用深度学习工具word2vec进行训练得到的。对每个分词(即为待检测文本中的特征词),都可以用一定维数的向量将其有效表示。如下表所示
Figure BDA0000955259960000051
Figure BDA0000955259960000061
具体地,所述网页内容存储在xml格式文件中。
举例来说,所述网页内容为***。
***(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。特别针对***中的歧义词,人工标注反映舆情特征的义项,为后续预警分析提供支持。以xml格式的***语料作为输入,从中提取词的描述内容,分析是否为歧义词和重定向词、是否需要繁简转换,保留摘要介绍部分,同时对敏感特征词进行标注。
借助***强大的语义知识,可自动增加舆情敏感词,扩大舆情事件的表征范围,从而辅助用户更好地把握舆情动向,制定相关对策予以应对。
进一步地,步骤S100之后包括:
S1001、根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
其中,对待检测文本进行处理时,可以以分句为处理单位,对敏感词进行处理。具体处理时,将待检测文本分句的特征词向量中的特征词与语义知识库中特征词对应的向量相匹配,通过计算不同特征词的义项之间的相似度以及与待检测文本的相似度,相似度越高说明该义项越贴近其在文本中的真实含义,则选取该义项与敏感词相配,利用最优化方法获取目标函数最大值时各歧义词在文本中的准确含义。计算公式如下:
maxf(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
Figure BDA0000955259960000071
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中:wi表示待检测文本中的特征词,f(wi)表示词wi到句子结尾词的语义相似度值,doci是文本去除敏感词后的向量表示,即相应位置的元素置为0;v1,v2……是特征词对应的向量,若该词为非歧义词,则有一个向量表示,反之,有多个向量表示;Sim(wi,wi+1)是计算相邻敏感词相似度的函数,Sim(wi,doci)是计算敏感词与文本的相似度的函数。由于词与文本均用词向量来表示,相似度计算函数可采用余弦相似度计算方法。
举例来说,根据待检测文本检测舆情事件时,如图2所示,可先对待检测文本进行分词和去停用词操作,其中,分词是指将待检测文本中的句子分成多个特征词,去停用词是指删去待检测文本中的停用词,如“同时”、“另外”等。
然后,利用word2vec从语义知识库和敏感词库中获取待检测文本中敏感义项的向量,便于后续针对待检测文本的句子中的相邻词进行相似度计算;
接着,利用每个特征词的敏感义项向量与其他特征词对应的向量及待检测文本的特征词向量进行相似度计算,取相似度最大值时各敏感义项的含义,从而获取与其他词及待检测文本都能合理搭配的敏感义项,确定该特征词在待检测文本中的具体含义;
最后,对文本中的命名实体及敏感义项进行权重求和,大于一定阈值则判定为需要预警的舆情事件。其中,命名实体是指待检测文本中特征词的数量。
本实施例利用特征词的不同义项和待检测文本中所有特征词的信息标注进行有监督学习的语义识别。能够避免仅仅依靠关键词匹配对舆情事件进行错误检测的弊端,从而准确识别舆情事件,对需要预警的舆情事件进行预警提示。
图3示出了本发明一实施例提供的一种舆情事件检测装置的结构示意图,包括:
特征词向量获取模块31,用于获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
对应向量获取模块32,用于从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
相似度计算模块33,用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
事件检测模块34,用于获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量;根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
本实施例通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
作为本实施例的可选方案,还包括:
语义知识库构建模块,用于根据网页内容构建所述语义知识库。
具体地,所述网页内容存储在xml格式文件中。
举例来说,所述网页内容为***。
进一步地,还包括:
敏感词库建立模块,用于根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (10)

1.一种舆情事件检测方法,其特征在于,包括:
获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
从语义知识库中获取所有特征词对应的向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量;并从敏感词库获取敏感义项向量,所述敏感义项向量表示当前特征词对应的向量中的义项为预设的特征词敏感义项;且所述敏感词库是基于所述语义知识库和预设特征词的敏感义项建立的;其中,所述语义知识库所有特征词中的敏感特征词对应的向量均具有歧义标注;
计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度,其中,所述所有特征词对应的特征词向量包括从敏感词库获取的所有敏感义项向量;且所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度具体包括:计算多个特征词向量之间相似度以及计算各特征词与背景文本向量的相似度的和,以作为所述总体相似度;
其中,所述总体相似度函数f(wi)的相关计算公式如下:
max f(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
Figure FDA0003326838770000011
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中,wi表示待检测文木中的特征词向量,v1,v2……是待检测文木中各分词分别对应的特征词向量,若该词为非歧义词,则有一个向量表示,反之,有多个向量表示;f(wi)表示所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度;Sim(wi,wi+1)表示两两相邻特征词向量之间相似度;Sim(wi,doci)表示各特征词与背景文本向量的相似度;其中,doci是背景文本向量,为对待检测文本去除敏感特征词后的背景文本进行的向量表示,即将是否包含敏感义项相应位置的元素置为0时背景文本的向量表示;
获取待检测文本特征体总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项,包括:通过最优化方法,并基于语义知识库中的歧义标注,获取总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项,以确定歧义词在文本中的准确含义;
对待检测文本中的多个敏感特征词,均重复执行上述各步骤以分别获得其对应的第一敏感义项;根据获得的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测文本的特征词向量之前包括:
根据网页内容构建所述语义知识库。
3.根据权利要求2所述的方法,其特征在于,所述网页内容存储在xml格式文件中。
4.根据权利要求3所述的方法,其特征在于,所述网页内容为***。
5.根据权利要求4所述的方法,其特征在于,所述根据网页内容构建所述语义知识库之后包括:
根据所述语义知识库和预设的特征词敏感义项建立敏感词库。
6.一种舆情事件检测装置,其特征在于,包括:
特征词向量获取模块,用于获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
对应向量获取模块,用于从语义知识库中获取所有特征词对应的向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量;并从敏感词库获取敏感义项向量,所述敏感义项向量表示当前特征词对应的向量中的义项为预设的特征词敏感义项;且所述敏感词库是基于所述语义知识库和预设特征词的敏感义项建立的;其中,所述语义知识库所有特征词中的敏感特征词对应的向量均具有歧义标注;
相似度计算模块,用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度,其中,所述所有特征词对应的特征词向量包括从敏感词库获取的所有敏感义项向量;且所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度具体包括:计算多个特征词向量之间相似度以及计算各特征词与背景文本向量的相似度的和,以作为所述总体相似度;
其中,所述总体相似度函数f(wi)的相关计算公式如下:
maxf(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
Figure FDA0003326838770000031
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中,wi表示待检测文本中的特征词向量,v1,v2……是待检测文本中各分词分别对应的特征词向量,若该词为非歧义词,则有一个向量表示,反之,有多个向量表示;f(wi)表示所述计算待检测文本的特征词向量和所有特征词对应的特征词向量的总体相似度;Sim(wi,wi+1)表示两两相邻特征词向量之间相似度;Sim(wi,doci)表示各特征词与背景文本向量的相似度;其中,doci是背景文本向量,为对待检测文本去除敏感特征词后的背景文本进行的向量表示,即将是否包含敏感义项相应位置的元素置为0时背景文本的向量表示;
事件检测模块,用于获取待检测文本特征体总体相似度函数取最大值时特征词向量对应的第一敏感义项,包括:通过最优化方法,并基于语义知识库中的歧义标注,获取总体相似度函数取最大值时待检测文本的特征词向量对应的第一敏感义项,以确定歧义词在文本中的准确含义;
事件检测模块,还用于对待检测文本中的多个敏感特征词,均重复执行上述各步骤以分别获得其对应的第一敏感义项;根据获得的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量;根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
7.根据权利要求6所述的装置,其特征在于,还包括:
语义知识库构建模块,用于根据网页内容构建所述语义知识库。
8.根据权利要求7所述的装置,其特征在于,所述网页内容存储在xml格式文件中。
9.根据权利要求8所述的装置,其特征在于,所述网页内容为***。
10.根据权利要求9所述的装置,其特征在于,还包括:
敏感词库建立模块,用于根据所述语义知识库和预设的特征词敏感义项建立敏感词库。
CN201610197073.3A 2016-03-14 2016-03-31 一种舆情事件检测方法及装置 Active CN107193796B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016101447613 2016-03-14
CN201610144761 2016-03-14

Publications (2)

Publication Number Publication Date
CN107193796A CN107193796A (zh) 2017-09-22
CN107193796B true CN107193796B (zh) 2021-12-24

Family

ID=59870838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610197073.3A Active CN107193796B (zh) 2016-03-14 2016-03-31 一种舆情事件检测方法及装置

Country Status (1)

Country Link
CN (1) CN107193796B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992471B (zh) * 2017-11-10 2021-09-10 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN108647335A (zh) * 2018-05-12 2018-10-12 苏州华必讯信息科技有限公司 网络舆情分析方法和装置
CN109214407B (zh) * 2018-07-06 2022-04-19 创新先进技术有限公司 事件检测模型、方法、装置、计算设备及存储介质
CN109472018A (zh) * 2018-09-26 2019-03-15 深圳壹账通智能科技有限公司 企业舆情监测方法、装置、计算机设备和存储介质
CN109344258B (zh) * 2018-11-28 2021-11-12 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别***及方法
CN110674251A (zh) * 2019-08-21 2020-01-10 杭州电子科技大学 一种基于语义信息的计算机辅助密点标注方法
CN110516166B (zh) * 2019-08-30 2022-10-25 北京明略软件***有限公司 舆情事件处理方法、装置、处理设备及存储介质
CN110727880B (zh) * 2019-10-18 2022-06-17 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN110807319B (zh) * 2019-10-31 2023-07-25 北京奇艺世纪科技有限公司 一种文本内容检测方法、检测装置、电子设备及存储介质
CN113505221B (zh) * 2020-03-24 2024-03-12 国家计算机网络与信息安全管理中心 一种企业虚假宣传风险识别方法、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN103605692A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于问答社区中屏蔽广告内容的装置和方法
CN103605691A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于处理社交网络中发布内容的装置和方法
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理***及方法
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN103605692A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于问答社区中屏蔽广告内容的装置和方法
CN103605691A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于处理社交网络中发布内容的装置和方法
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测***
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Graph Analytical Approach for Topic Detection;HASSAN SAYYADI et al.;《ACM Transactions on Internet Technology》;20131231;第13卷(第2期);第1-23页 *
面向公共危机预警的网络舆情分析研究;曹坚峰;《中国博士学位论文全文数据库-信息科技辑》;20140515;第79-103、第129-134页 *

Also Published As

Publication number Publication date
CN107193796A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107193796B (zh) 一种舆情事件检测方法及装置
CN110516067B (zh) 基于话题检测的舆情监控方法、***及存储介质
JP5936698B2 (ja) 単語意味関係抽出装置
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111222330B (zh) 一种中文事件的检测方法和***
Golshan et al. A study of recent contributions on information extraction
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN104317882A (zh) 一种决策级中文分词融合方法
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
Badam et al. Aletheia: A fake news detection system for Hindi
US20210182493A1 (en) System and method for identification and profiling adverse events
Hussain et al. A technique for perceiving abusive bangla comments
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
Nongmeikapam et al. Verb based manipuri sentiment analysis
Lakshmi et al. Named entity recognition in Malayalam using fuzzy support vector machine
Li et al. Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts
Chang et al. Zero pronoun identification in chinese language with deep neural networks
Lahaji et al. Unveiling sarcastic intent: Web-based detection of sarcasm in news headlines
Orellana et al. Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations
Rutkowski et al. Estimating senses with sets of lexically related words for Polish word sense disambiguation
Pham Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach
Abbruzzese et al. REMOAC: A retroactive explainable method for OCR anomalies correction in legal domain
Verma et al. PREDICTING SENTIMENT FROM MOVIE REVIEWS USINGLEXICONBASED MODEL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230619

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right