CN107544988B - 一种获取舆情数据的方法和装置 - Google Patents
一种获取舆情数据的方法和装置 Download PDFInfo
- Publication number
- CN107544988B CN107544988B CN201610482038.6A CN201610482038A CN107544988B CN 107544988 B CN107544988 B CN 107544988B CN 201610482038 A CN201610482038 A CN 201610482038A CN 107544988 B CN107544988 B CN 107544988B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- keywords
- subunit
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种获取舆情数据的方法和装置,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;在获取舆情数据时,从所获取的网页数据中提取关键词;将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;将所述网页数据作为所确定出实体的舆情数据。本发明能够自动实现舆情数据的获取,相比较人工收集舆情数据的方式,大大降低了人力成本,且提高了舆情数据的覆盖率。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种获取舆情数据的方法和装置。
【背景技术】
网络舆情是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,是社会舆情在互联网空间的映射。随着互联网的不断发展,很多公司、企业等单位需要不断关注网络舆情,以便于对网络舆情进行分析,关注自己在网络舆情中的状态,从而可以产生网络舆情预警,为部门网络危机公关或品牌营销提供数据依靠。另外,广大网民也需要不断关注网络舆情,以便于选择放心的服务提供商或者用于金融投资选择等提供依据。
然而,现有网络舆情数据的获取方式大多基于人工方式采集,例如,公司或企业等单位聘请专门收集、分析舆情数据的人员;广大网民自己留意相关新闻,等等方式。一方面这些方式耗费人力资源,另一方面获取的舆情数据的覆盖率也很低。
【发明内容】
有鉴于此,本发明提供了一种获取舆情数据的方法和装置,以便于自动实现舆情数据的获取,降低人力成本,提高舆情数据的覆盖率。
具体技术方案如下:
本发明提供了一种获取舆情数据的方法,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:
从所获取的网页数据中提取关键词;
将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;
将所述网页数据作为所确定出实体的舆情数据。
根据本发明一优选实施方式,所述挖掘实体词库包括:
获取被挖掘实体的权威数据;
从所述权威数据中提取关键词;
将所提取的关键词集合作为被挖掘实体的词库。
根据本发明一优选实施方式,所述获取被挖掘实体的权威数据包括:
获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。
根据本发明一优选实施方式,所述提取关键词包括:
对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
根据本发明一优选实施方式,所述挖掘实体词库还包括:
对提取的关键词进行过滤处理,以及所述将所提取的关键词集合作为被挖掘实体的词库包括:
将对提取的关键词进行过滤处理后的关键词集合作为被挖掘实体的词库。
根据本发明一优选实施方式,对提取的关键词进行过滤处理包括以下至少之一:
基于人工的方式对提取的关键词进行过滤处理;
将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;
将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
根据本发明一优选实施方式,该方法还包括:对各实体的舆情数据分别进行以下处理中的至少一种:
去重;
删除非法舆情数据;
将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。
根据本发明一优选实施方式,所述主体识别模型采用如下方式训练:
将已确定主体的网页数据作为训练语料;
基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。
根据本发明一优选实施方式,该方法还包括:
对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。
根据本发明一优选实施方式,所述实体包括组织机构;
所述网页数据包括新闻网页。
本发明还提供了一种获取舆情数据的装置,该装置包括:词库挖掘单元和舆情获取单元;
所述词库挖掘单元,用于预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;
所述舆情获取单元包括:
第二提取子单元,用于从所获取的网页数据中提取关键词;
匹配子单元,用于将所述第二提取子单元提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;
第二确定子单元,用于将所述网页数据作为所述匹配子单元确定出实体的舆情数据。
根据本发明一优选实施方式,所述词库挖掘单元包括:
第一获取子单元,用于获取被挖掘实体的权威数据;
第一提取子单元,用于从所述权威数据中提取关键词;
第一确定子单元,用于将所述第一提取子单元提取的关键词集合作为被挖掘实体的词库。
根据本发明一优选实施方式,所述第一获取子单元,具体用于获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。
根据本发明一优选实施方式,所述第二提取子单元具体用于:
对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
根据本发明一优选实施方式,所述词库挖掘单元还包括:
第一过滤子单元,用于对所述第一提取子单元提取的关键词进行过滤处理,并提供给所述第一确定子单元以得到所述被挖掘实体的词库。
根据本发明一优选实施方式,所述第一过滤子单元执行以下至少一种过滤处理:
基于人工的方式对提取的关键词进行过滤处理;
将所述第一提取子单元提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;
将所述第一提取子单元提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
根据本发明一优选实施方式,所述舆情获取单元还包括:
第二过滤子单元,用于对各实体的舆情数据分别进行以下处理中的至少一种:
去重;
删除非法舆情数据;
将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。
根据本发明一优选实施方式,该装置还包括:
模型训练单元,用于将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。
根据本发明一优选实施方式,该装置还包括:
情感分析单元,用于对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。
根据本发明一优选实施方式,所述舆情获取单元包括还包括:
第二获取子单元,用于获取网页数据。
由以上技术方案可以看出,本发明通过将从网页数据中提取的关键词与预先挖掘的各实体词库进行相似度匹配,从而确定该网页数据是否为某实体词的舆情数据。这种方式能够自动实现舆情数据的获取,相比较人工收集舆情数据的方式,大大降低了人力成本,且提高了舆情数据的覆盖率。
【附图说明】
图1为本发明实施例提供的实体词库挖掘阶段的方法流程图;
图2为本发明实施例提供的舆情数据获取阶段的方法流程图;
图3为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明的核心思想在于,预先挖掘出实体词库,其中实体词库包括描述所对应实体的关键词;然后将网页数据提取关键词后,与各实体词库进行相似度匹配,从而确定该网页数据是否为某实体的舆情数据。也就是说,在本发明的实现主要包括两个阶段:实体词库挖掘阶段和舆情数据获取阶段,这两个阶段相互独立,舆情数据获取阶段利用实体词库挖掘阶段的结果实现,但实体词库挖掘阶段和舆情数据获取阶段均可以周期性地执行以不断更新实体词库以及持续获取舆情数据。下面通过实施例分别对这两个阶段进行详述。
另外,需要说明的是,本发明实施例提供的实体可以是多种实体,诸如人名、电影名称,等等。优选地,可以是组织机构,诸如公司、企业、机关、社团等等,采用本发明提供的方式能够针对组织机构进行舆情监测,鉴于对于诸如公司、企业等组织机构而言,其重要的舆情数据通常为新闻类数据,在互联网中的体现就是新闻类网页,因此在后续实施例中就采用组织机构作为实体类型,新闻网页作为舆情数据的网页数据类型。
图1为本发明实施例提供的实体词库挖掘阶段的方法流程图,如图1中所示,该阶段可以具体包括以下步骤:
在101中,获取被挖掘实体的权威数据。
本步骤实际上是针对被挖掘实体获取挖掘语料,由于本发明采用的方式是将网页数据与实体词库进行匹配的方式,需要保证实体词库具有一定的准确性,即实体词库所包含的关键词能够准确描述对应实体,因此需要将权威数据作为挖掘语料。在本发明实施例中,被挖掘实体的权威数据来源可以包括以下几种:
1)被挖掘实体的名称。对于一个实体而言,对其最准确地描述就是其名称了,这里的名称包括全称、简称、昵称、常用称呼等等。以实体“京东”为例,其全称为“北京京东世纪贸易有限公司”,简称为“京东”,昵称包括“东狗”,常用称呼还包括“JD”等等,可以将这些名称都作为挖掘语料。
2)被挖掘实体的官网数据。通常一个实体在其官网上的数据均为能够准确描述该实体,因此可以将其官网数据作为一个重要的挖掘语料。例如,通常在官网中都存在一些板块或网页是对相关实体进行介绍的,例如“关于我们”板块,可以从这些内容作为挖掘语料。
3)被挖掘实体的query对应的被点击网页数据。在搜索日志中,用户在搜索某个实体时,在搜索结果中点击的网页数据通常能够较好地描述该实体,或者是与该实体相关性比较强的,因此可以利用这部分网页数据得到挖掘语料。更进一步地,由于也存在一些用户的点击是比较盲目的,因此可以对得到的被挖掘实体的query对应的被点击网页数据进行进一步的过滤,例如基于点击量过滤掉点击量小于一定阈值的网页数据,或者基于网页数据所属的站点类型或权威程度进行过滤,等等。
4)其他来源,诸如点评类网站的评论数据、被挖掘实体在权威网站的推广信息和认证数据,等等。
仍以“京东”为例,可以从诸如“大众点评”、“百度口碑”等点评类网站中,获取关于“京东”的评论数据。通常这类点评类网站都有针对各实体的网页以供用户针对各实体进行点评,因此可以从这些网页中获取评论数据作为挖掘语料。
另外,一些实体为了推广会在权威网站上呈现推广信息,以“京东”为例,其在百度搜索引擎会存在一些推广信息,这些推广信息为了达到一定的效果,通常能够比较准确地描述对应实体,“京东”在百度搜索引擎上的推广信息存在这样的描述文本“京东JD.COM-专业的综合网上购物商城,销售家电、数码通讯、电脑、家居百货、服装服饰、母婴、图书、食品等数万个品牌优质商品.便捷、诚信的服务,为您提供愉悦的网上...”,因此可以将该描述文本作为“京东”这一实体的挖掘语料。
在102中,从权威数据中提取关键词。
本步骤中,可以首先对获取到的权威数据进行分词,然后基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
通常在文本中一个词语的tf-idf能够较为准确地反映该词语在文本中的重要程度,其中tf为词频,idf为逆向文档频率。因此,可以将tf-idf超过预设阈值的词语提取出来作为关键词。
对于词性而言,通常对于实体词的较为准确地描述通常为名词,有的还可能是形容词或动词,但优选名词,因此可以从中提取出名词作为关键词。
另外,在一个句子中往往主语或者宾语是比较重要的,因此可以基于句子成分,将其中的主语和宾语提取出来作为关键词。
对于某一类实体而言,往往在针对其进行描述时有一些典型的上下文特征,或者说,所关心的舆情数据有一些典型的上下文特征,例如以组织机构中公司这一类实体而言,当上下文出现“被收购”、“收购”、“上市”、“融资”等等特征时,可以依据这些上下文特征抽取出关键词。例如在某文本中出现“苹果收购滴滴”,那么就可以提取出“滴滴”、“苹果”作为关键词。
也可以同时采用上述方式中的几种,为上述几种方式所采用的因素赋予相应权重,然后依据各关键词在各因素上的权重值得到一个最终的分值,然后该分值提取分值靠前或超过一定分值的关键词。
在103中,对提取的关键词进行过滤处理。
为了更进一步提高实体词库的准确度,降低冗余关键词或不准确关键词对后续舆情数据获取的影响,可以进一步对提取的关键词进行过滤。采用的过滤方式可以包括但不限于以下至少之一:
第一种过滤:基于人工的方式对提取的关键词进行过滤处理。当采用上述方式自动提取出各实体的关键词集合后,可以提交给审核人员进行人工的审核,对其中不合适的关键词进行删除,这一工作量相对比较小,人工成本不大。
第二种过滤:将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词。对于提取出的关键词可能更接近其他实体,对于这类关键词应当删除避免干扰。例如,当基于“收购”这一上下文特征提取出关键词时,针对“滴滴快车”这一实体可能提取出“苹果”和“滴滴”两个关键词,将这两个关键词分别与其他实体的名称进行相似度匹配时,发现关键词“苹果”与其他实体名称相似度特别高,则说明其并不是“滴滴快车”的关键词,可以将其从“滴滴快车”的关键词集合中删除。
第三种过滤:将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
如果提取出的某关键词能够匹配到数量巨大的网页数据,则说明该关键词的区分度并不高,该关键词的存在会对后续舆情数据的获取带来干扰,因此可以将其删除。
在104中,将处理后的关键词集合作为被挖掘实体的词库。
通过上述方式对每一个被挖掘实体都可以挖掘出对应的关键词集合作为该实体对应的词库。对于组织机构这一实体而言,可能会挖掘出诸如商家名称、产品词、行业、知名人物、地域等等关键词集合作为该组织机构的词库。
图2为本发明实施例提供的舆情数据获取阶段的方法流程图,如图2所示,该阶段可以具体包括以下步骤:
在201中,获取网页数据。
在针对实体监控舆情数据时,可以周期性地或者实时地获取新出现的网页数据,以判断该网页数据是否为某实体的舆情数据。例如,周期性地或者实时地获取新闻网页。
在202中,从该网页数据中提取关键词。
本步骤中在从网页数据中提取关键词时,可以针对新闻标题、新闻摘要、新闻正文中的部分或全部段落等来提取关键词。采用的方式与图1所示实施例中步骤102从权威数据中提取关键词的方式类似。首先对该网页数据进行分词,然后基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。具体参见图1所示实施例中的相关描述,在此不再赘述。
在203中,将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体。
将从网页数据中提取的关键词分别与各实体词库进行相似度匹配,如果存在某实体的词库与该提取的关键词相似度满足预设要求,例如超过一定阈值,则可以将该网页数据作为该实体的舆情数据。
在204中,将网页数据作为所确定出实体的舆情数据。
在205中,对各实体的舆情数据进行去重和/或删除处理。
采用上述步骤就可以获取到各实体的一系列舆情数据,但这些舆情数据中可能会有一些重复,因此可以对其进行去重处理。在进行去重时,可以基于文本相似度来确定两个网页数据是否具有相同的内容。
在进行删除处理时,可以采用但不限于以下两种方式:
第一种方式:删除非法舆情数据。例如删除一些不满足法律法规的舆情数据,例如可以将包含黄色、暴力、反动等敏感词的舆情数据过滤掉。
第二种方式:将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。
之所以采用这种方式,是因为对于有的实体而言,舆情数据较少,例如对于一些中小型企业,舆情数据较少,因此希望尽可能多的获取到舆情数据。而对于一些大型企业或者知名企业而言,舆情数据非常多,那么就需要从中进行进一步的删选,得到更加准确更加有价值的舆情数据。在本发明实施例中可以采用一种主体识别模型来进行网页数据的主体识别,例如一篇新闻报道的主体是什么。该主体识别模型能够针对输入的文本标识出该文本中的主体词。如果对于一舆情数据而言,输入主体识别模型后,识别出的主体恰好是该舆情数据对应的实体,则针对该实体保留该舆情数据;如果识别出的主体并非该舆情数据对应的实体,则针对该实体删除该舆情数据。
在训练主体识别模型时,可以将已确定主体的网页数据作为训练语料,其中,在训练语料中,各网页数据中已标记出主体词和非主体词。基于从训练语料提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,即分别提取主体词和非主题词的这些特征,进行条件随机场学习,得到主体识别模型。
另外,为了更好地展现各实体的舆情数据,可以对各舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。所谓情感分析就是分析舆情数据表达的是正面情感还是负面情感,再或者是中性情感。在本发明实施例中可以采用现有技术中的任意文本情感分析方式,在此不做限制和详述。待针对舆情数据分析出情感后,可以对各舆情数据标注情感分析结果。在展现各实体的舆情数据时,可以基于情感分析结果对舆情数据进行分类展现,或者在展现的舆情数据上打上情感分析结果的标签。
以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明所提供的装置进行详细描述。
图3为本发明实施例提供的装置结构图,如图3所示,该装置可以包括:词库挖掘单元00和舆情获取单元10,还可以进一步包括模型训练单元20和情感分析单元30。
词库挖掘单元00负责预先挖掘实体词库,实体词库包括描述所对应实体的关键词。
其中,词库挖掘单元00可以具体包括:第一获取子单元01、第一提取子单元02和第一确定子单元04,还可以进一步包括第一过滤子单元03。
第一获取子单元01负责获取被挖掘实体的权威数据。具体地,第一获取子单元01可以获取被挖掘实体的名称、官网数据以及包含被挖掘实体的query对应的被点击网页数据中的至少一种。
第一提取子单元02负责从权威数据中提取关键词。具体地,第一提取子单元02可以首先对获取到的权威数据进行分词,然后基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
第一过滤子单元03负责对第一提取子单元02提取的关键词进行过滤处理。具体地,第一过滤子单元03执行以下至少一种过滤处理:
第一种过滤:基于人工的方式对提取的关键词进行过滤处理。
第二种过滤:将第一提取子单元02提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词。
第三种过滤:将第一提取子单元02提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
第一确定子单元04负责将第一过滤子单元03处理后的关键词集合作为被挖掘实体的词库。由于第一过滤子单元03是可选子单元,因此,若不包含第一过滤子单元03,则第一确定子单元04可以将第一提取子单元02提取的关键词集合作为被挖掘实体的词库。
舆情获取单元10负责获取舆情数据,具体可以包括:第二提取子单元12、匹配子单元13和第二确定子单元14,还可以进一步包括第二获取子单元11、第二过滤子单元15。
第二提取子单元12负责从所获取的网页数据中提取关键词。与第一提取子单元02类似的,第二提取子单元12可以首先对该网页数据进行分词,然后基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
其中所获取的网页数据可以由第二获取子单元11获取得到。在针对实体监控舆情数据时,第二获取子单元11可以周期性地或者实时地获取新出现的网页数据,以判断该网页数据是否为某实体的舆情数据。例如,周期性地或者实时地获取新闻网页。
匹配子单元13负责将第二提取子单元12提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体。
第二确定子单元14负责将网页数据作为匹配子单元13确定出实体的舆情数据。各实体的舆情数据可以存储于舆情数据库中。
第二过滤子单元15负责对各实体的舆情数据分别进行以下处理中的至少一种:
去重;
删除非法舆情数据,例如可以将包含黄色、暴力、反动等敏感词的舆情数据过滤掉;
将当前实体的舆情数据输入已训练得到的主体识别模型,若某舆情数据被识别出的主体并非当前实体,则删除该舆情数据。
上述的主体识别模型由模型训练单元20负责预先训练得到,具体地,模型训练单元20可以将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到主体识别模型。
另外,为了更好地展现各实体的舆情数据,可以由情感分析单元30对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。
本发明提供上述装置可以位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于服务器端,本发明实施例对此不进行特别限定。
本发明实施例提供的上述方法和装置能够广泛地应用于多种领域和场景,例如可以应用于舆情检测***,负责获取各组织机构的舆情数据,以便于产生网络舆情预警,为组织机构的网络危机公关或品牌营销提供数据依靠。
再例如,可以应用于金融投资类领域,例如在股票或基金类APP中,收集各股票相关的舆情数据,从而为股民等投资人的金融投资选择提供参考。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种获取舆情数据的方法,其特征在于,预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;所述方法包括:
从所获取的网页数据中提取关键词;
将提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;
将所述网页数据作为所确定出实体的舆情数据;
将已确定出实体的舆情数据输入已训练得到的主体识别模型,删除被识别出的主体并非所述已确定出实体的舆情数据。
2.根据权利要求1所述的方法,其特征在于,所述挖掘实体词库包括:
获取被挖掘实体的权威数据;
从所述权威数据中提取关键词;
将所提取的关键词集合作为被挖掘实体的词库。
3.根据权利要求2所述的方法,其特征在于,所述获取被挖掘实体的权威数据包括:
获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。
4.根据权利要求1或2所述的方法,其特征在于,所述提取关键词包括:
对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
5.根据权利要求2所述的方法,其特征在于,所述挖掘实体词库还包括:
对提取的关键词进行过滤处理,以及所述将所提取的关键词集合作为被挖掘实体的词库包括:
将对提取的关键词进行过滤处理后的关键词集合作为被挖掘实体的词库。
6.根据权利要求5所述的方法,其特征在于,对提取的关键词进行过滤处理包括以下至少之一:
基于人工的方式对提取的关键词进行过滤处理;
将提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;
将提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:对各实体的舆情数据分别进行以下处理中的至少一种:
去重;
删除非法舆情数据。
8.根据权利要求1所述的方法,其特征在于,所述主体识别模型采用如下方式训练:
将已确定主体的网页数据作为训练语料;
基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。
9.根据权利要求1所述的方法,其特征在于,该方法还包括:
对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。
10.根据权利要求1至3、5至9中任一项所述的方法,其特征在于,所述实体包括组织机构;
所述网页数据包括新闻网页。
11.一种获取舆情数据的装置,其特征在于,该装置包括:词库挖掘单元和舆情获取单元;
所述词库挖掘单元,用于预先挖掘实体词库,所述实体词库包括描述所对应实体的关键词;
所述舆情获取单元包括:
第二提取子单元,用于从所获取的网页数据中提取关键词;
匹配子单元,用于将所述第二提取子单元提取的关键词与各实体词库进行相似度匹配,确定相似度满足预设要求的实体词库所对应的实体;
第二确定子单元,用于将所述网页数据作为所述匹配子单元确定出实体的舆情数据;
第二过滤子单元,用于将已确定出实体的舆情数据输入已训练得到的主体识别模型,删除被识别出的主体并非所述已确定出实体的舆情数据。
12.根据权利要求11所述的装置,其特征在于,所述词库挖掘单元包括:
第一获取子单元,用于获取被挖掘实体的权威数据;
第一提取子单元,用于从所述权威数据中提取关键词;
第一确定子单元,用于将所述第一提取子单元提取的关键词集合作为被挖掘实体的词库。
13.根据权利要求12所述的装置,其特征在于,所述第一获取子单元,具体用于获取所述被挖掘实体的名称、官网数据以及包含所述被挖掘实体的query对应的被点击网页数据中的至少一种。
14.根据权利要求11或12所述的装置,其特征在于,所述第二提取子单元具体用于:
对所获取的网页数据进行分词,基于tf-idf、词性、句子成分以及上下文特征中的至少一种从分词得到的词语中提取关键词。
15.根据权利要求12所述的装置,其特征在于,所述词库挖掘单元还包括:
第一过滤子单元,用于对所述第一提取子单元提取的关键词进行过滤处理,并提供给所述第一确定子单元以得到所述被挖掘实体的词库。
16.根据权利要求15所述的装置,其特征在于,所述第一过滤子单元执行以下至少一种过滤处理:
基于人工的方式对提取的关键词进行过滤处理;
将所述第一提取子单元提取的关键词与确定出的其他实体的名称进行相似度匹配,如果存在匹配的名称,则删除该关键词;
将所述第一提取子单元提取的关键词与网页数据进行相似度匹配,如果匹配的网页数据数量超过预设数量阈值,则删除该关键词。
17.根据权利要求11所述的装置,其特征在于,所述第二过滤子单元,还用于对各实体的舆情数据分别进行以下处理中的至少一种:
去重;
删除非法舆情数据。
18.根据权利要求11所述的装置,其特征在于,该装置还包括:
模型训练单元,用于将已确定主体的网页数据作为训练语料;基于从训练语料中提取的关键词、关键词的位置、词性、句子成分以及上下文中至少一种特征,进行条件随机场学习,得到所述主体识别模型。
19.根据权利要求11所述的装置,其特征在于,该装置还包括:
情感分析单元,用于对各实体的舆情数据进行情感分析,并针对各舆情数据标注情感分析结果。
20.根据权利要求11至13、15至19中任一项所述的装置,其特征在于,所述舆情获取单元包括还包括:
第二获取子单元,用于获取网页数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610482038.6A CN107544988B (zh) | 2016-06-27 | 2016-06-27 | 一种获取舆情数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610482038.6A CN107544988B (zh) | 2016-06-27 | 2016-06-27 | 一种获取舆情数据的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107544988A CN107544988A (zh) | 2018-01-05 |
CN107544988B true CN107544988B (zh) | 2021-03-19 |
Family
ID=60961479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610482038.6A Active CN107544988B (zh) | 2016-06-27 | 2016-06-27 | 一种获取舆情数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107544988B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284369B (zh) * | 2018-08-01 | 2020-10-09 | 数据地平线(广州)科技有限公司 | 证券新闻资讯重要性的判定方法、***、装置及介质 |
CN109087205B (zh) * | 2018-08-10 | 2020-09-18 | 北京字节跳动网络技术有限公司 | 舆情指数的预测方法及装置、计算机设备和可读存储介质 |
CN109635276B (zh) * | 2018-11-12 | 2020-12-11 | 厦门市美亚柏科信息股份有限公司 | 一种信息匹配方法及终端 |
CN110175733B (zh) * | 2019-04-01 | 2023-07-11 | 创新先进技术有限公司 | 一种舆论信息处理方法和服务器 |
CN110231955B (zh) * | 2019-05-13 | 2024-05-07 | 平安科技(深圳)有限公司 | 代码处理方法、装置、计算机设备和存储介质 |
CN110297994A (zh) * | 2019-06-03 | 2019-10-01 | 北京金蝶管理软件有限公司 | 网页数据的采集方法、装置、计算机设备和存储介质 |
CN110866387A (zh) * | 2019-11-04 | 2020-03-06 | 云目未来科技(北京)有限公司 | 用于舆情分析的文本信息处理的方法、装置以及存储介质 |
CN111160019B (zh) * | 2019-12-30 | 2023-08-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及*** |
CN111177391B (zh) * | 2019-12-31 | 2023-08-08 | 北京明略软件***有限公司 | 获取社交舆情声量的方法和装置及计算机可读存储介质 |
CN114328852B (zh) * | 2021-08-26 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 一种文本处理的方法、相关装置及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567393A (zh) * | 2010-12-21 | 2012-07-11 | 北大方正集团有限公司 | 一种处理舆情话题的方法、装置和*** |
US20130110660A1 (en) * | 2011-10-27 | 2013-05-02 | Billson Yang | Method of collecting opinions and surveying data |
CN103186600B (zh) * | 2011-12-28 | 2016-03-16 | 北大方正集团有限公司 | 互联网舆情的专题分析方法和装置 |
CN104636386A (zh) * | 2013-11-14 | 2015-05-20 | 华为技术有限公司 | 信息监控方法及装置 |
KR101518376B1 (ko) * | 2014-04-30 | 2015-05-08 | 영남대학교 산학협력단 | 여론결과 예측을 위한 데이터 도출방법 |
CN104504150B (zh) * | 2015-01-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 新闻舆情监测*** |
CN104933093B (zh) * | 2015-05-19 | 2018-08-07 | 武汉泰迪智慧科技有限公司 | 基于大数据的地区舆情监控及决策辅助***和方法 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析*** |
-
2016
- 2016-06-27 CN CN201610482038.6A patent/CN107544988B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测***及其工作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107544988A (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
Wang et al. | Automatic online news topic ranking using media focus and user attention based on aging theory | |
Chatzakou et al. | Detecting variation of emotions in online activities | |
KR101540683B1 (ko) | 감정어의 극성을 분류하는 방법 및 서버 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Williams et al. | Twitter language identification of similar languages and dialects without ground truth | |
Yeole et al. | Opinion mining for emotions determination | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Manke et al. | A review on: opinion mining and sentiment analysis based on natural language processing | |
Kiran et al. | User specific product recommendation and rating system by performing sentiment analysis on product reviews | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
Arafat et al. | Analyzing public emotion and predicting stock market using social media | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Phan et al. | Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews | |
CN109241438B (zh) | 基于要素的跨通道热点事件发现方法、装置及存储介质 | |
Hamroun et al. | Large scale microblogging intentions analysis with pattern based approach | |
CN115080741A (zh) | 一种问卷调查分析方法、装置、存储介质及设备 | |
Mishra et al. | VisualTextRank: Unsupervised Graph-based Content Extraction for Automating Ad Text to Image Search | |
Hamroun et al. | Lexico semantic patterns for customer intentions analysis of microblogging | |
Chandankhede et al. | ISAR: Implicit sentiment analysis of user reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |