CN103714132B - 一种用于基于地域和行业进行热点事件挖掘的方法和设备 - Google Patents

一种用于基于地域和行业进行热点事件挖掘的方法和设备 Download PDF

Info

Publication number
CN103714132B
CN103714132B CN201310693571.3A CN201310693571A CN103714132B CN 103714132 B CN103714132 B CN 103714132B CN 201310693571 A CN201310693571 A CN 201310693571A CN 103714132 B CN103714132 B CN 103714132B
Authority
CN
China
Prior art keywords
mrow
document
msub
participle
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310693571.3A
Other languages
English (en)
Other versions
CN103714132A (zh
Inventor
刘雪平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BENGUO INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING BENGUO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BENGUO INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING BENGUO INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310693571.3A priority Critical patent/CN103714132B/zh
Publication of CN103714132A publication Critical patent/CN103714132A/zh
Application granted granted Critical
Publication of CN103714132B publication Critical patent/CN103714132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于基于地域和行业进行热点事件挖掘的方法和设备。该方法包括:从网络获取文档;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,还可以减少挖掘时间,降低计算量,节省***资源。

Description

一种用于基于地域和行业进行热点事件挖掘的方法和设备
技术领域
本发明涉及信息搜索领域,具体地,涉及一种用于基于地域和行业进行热点事件挖掘的方法和设备。
背景技术
随着互联网的发展,越来越多的用户通过论坛、微博、博客等平台来发布各类新闻和发表自己的意见。这就导致在网络中,每天都有成千上万的话题产生。如何从网络的海量信息中挖掘出热点事件,将对用户了解社会发展形势、掌握舆论动态起指导性作用。
现有的热点事件挖掘方法是通过从网络中获取海量信息,然后从这些海量信息中挖掘出热点事件。然而,由于缺乏对地域和行业的针对性,因此,通过这种方法挖掘出的热点事件有时并不是用户所关心的。此外,针对所有信息进行热点挖掘会消耗更多的时间,并且计算量非常大,耗费较多的***资源。
发明内容
本发明的目的是提供一种用于基于地域和行业进行热点事件挖掘的方法和设备,以向用户提供其所关心的地域行业下的热点事件,并且可以减少挖掘时间,降低计算量。
为了实现上述目的,本发明提供一种用于基于地域和行业进行热点事件挖掘的方法。该方法包括:从网络获取文档;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件。
本发明还提供一种用于基于地域和行业进行热点事件挖掘的设备。该设备包括:用于从网络获取文档的装置;用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;用于根据所述权重确定每篇文档的关键词的装置;用于对每篇文档的内容进行地域和行业划分的装置;用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置。
在上述技术方案中,通过对所获取的文档的内容进行地域和行业划分,可以对属于同一地域同一行业下的文档信息进行热点挖掘,以得出当前该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,通过此方法,还可以减少挖掘时间,降低计算量,从而节省***资源。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的实施方式的用于基于地域和行业进行热点事件挖掘的方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的用于基于地域和行业进行热点事件挖掘的方法的流程图。如图1所示,该方法可以包括:步骤101,从网络获取文档;步骤102,对每篇文档进行分词处理,并确定每篇文档中各分词的权重;步骤103,根据所述权重确定每篇文档的关键词;步骤104,对每篇文档的内容进行地域和行业划分;步骤105,对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及步骤106,按照所述关键词组的权重确定该地域该行业下的热点事件。
具体地,首先,可例如采用开放应用程序编程接口(API)和网络爬虫等技术来从网络获取文档信息。例如,可以从微博、论坛、博客等网络平台来获取文档信息。之后,对所获取的每篇文档进行分词处理。例如,可通过调用***自身的扩展词库来将一篇文档切分成单独的词语。在分词之后,还可以对每个分词进行索引,以便进行后续的搜索和统计操作。可以定期更新扩展词库中的词语,以避免新的流行词语被拆成独立的字,失去本来的意义,从而使得分词更加准确。
优选地,在从网络获取文档之后、并在对每篇文档进行分词处理之前,可以先对所获取到的文档进行预处理,过滤掉每篇文档中的无用词语。所谓“无用词语”是指通常不属于热点事件,但可能对热点挖掘造成干扰的没有实际意义的信息。所述“无用词语”可以例如情感倾向中立、微博发个人牢骚或论坛里纯灌水等类似的内容:“我今天去理了个发,吃了饭”;或者乱发广告类信息:招嫖、考证等。为此,在对文档进行分词处理之前,首先过滤掉这些无用词语,这样可以减少分词数量,降低计算量,并且提高关键词提取的准确度。
此外,根据中文的表达习惯,一些常用词往往在文中出现很多次数,例如:“的”、“地”、“得”、“是”等等。然而,这些词通常不起关键作用,如果它们被提取出作为分词,那会对之后的关键词确定造成干扰。因此,本发明将这些词语也作为无用词语过滤掉。
本发明所采用的一种无用词语过滤方法是预先建立好一个无用词库,该无用词库里存储有各种无用词语。当对文档进行预处理时,将文档信息与无用词库中预先存储的无用词语进行比对。当文档中出现无用词库中存储的无用词语时,将该无用词语去除。用这种方法过滤掉所有无用词语之后,再对过滤后的文档进行分词处理。应当注意的是,虽然本发明采用如上方法来过滤掉文档中的无用词语,但本发明不限于此,其余无用词语或垃圾词语过滤方法均适用于本发明。
此外,还可以通过对所获取的文档进行过滤来进一步减少计算量。即,所述方法还可以包括在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤。例如,若文档的转发程度和/或回复程度小于特定阈值,则表明该篇文档的热度较低,可以被过滤掉。
在对文档进行分词处理之后,需要确定每篇文档中各分词的权重,从而根据所述权重确定出每篇文档的关键词。分词权重与分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源(例如,网站)的权重系数(该权重系数的高低能够反映出文档来源自身的可信度)中的至少一者有关。
现有的权重计算方法中大都没有考虑文档的转发量和回复量,以及文档来源自身的可信度。这样计算出的分词权重往往不能全面地反映出该分词的关键程度。为此,优选地,在本发明中,在计算每篇文档中各分词的权重时,综合考虑了各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数,以使得计算出的分词权重能够更加全面、真实地体现出该词的关键程度,为后面的关键词确定提供正确的数据支持。
优选地,上面所述的文档转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。所谓规格化是将文档的各个属性值按比例映射到相同的取值区间,这样可以减小文档之间的差距。所述文档之间的差距是指文档的同一属性的属性值之间的差距。例如,表1示出了五篇文档的实际转发量和回复量。
表1
文档 转发量 回复量
文档1 532 45
文档2 12 8
文档3 0 0
文档4 99 20
文档5 380 38
从表1中可以看出,对于转发量这一属性,文档1与文档4之间的差距为532-99=433。
本发明所采用的规格化方法是通过下面等式(1)来将文档的实际转发量和回复量均映射到[0,1]区间。
等式(1)
其中,a′i表示每篇文档的转发程度或回复程度;ai表示每篇文档的实际转发量或回复量;min(ai)表示所有文档中最小的实际转发量或回复量;以及max(ai)表示所有文档中最大的实际转发量或回复量。
对于表1中示出的转发量和回复量,根据等式(1)即可得出规格化后的转发程度和回复程度,如表2所示。
表2
文档 转发程度 回复程度
文档1 1 1
文档2 0.02 0.18
文档3 0 0
文档4 0.19 0.44
文档5 0.71 0.84
从表2中可以看出,对于转发程度这一属性,文档1与文档4之间的差距为1-0.19=0.81。由此可以看出,文档之间的差距被缩小。
基于规格化后的转发程度和/或回复程度来进行文档过滤,还可以防止漏掉可能重要的信息。假设以未进行规格化的转发量小于100为过滤条件,那么表1中的文档4会被过滤掉。然而,如果以进行规格化后的转发程度小于0.19(将ai=100代入等式(1)得出)为过滤条件,那么文档4不会被过滤掉。在实际情况中,文档数量要远远超过表1和表2中所示的文档数。因此,如果基于实际转发量来进行文档过滤,由于过滤精度较低而可能导致会过滤掉很多重要信息,而如果基于规格化后的转发程度来进行过滤,由于过滤精度提高,因而可以避免漏掉一些重要的信息。
在确定了文档的转发程度和回复程度之后,可以按照下述等式(2)~(4)来确定每篇文档中各分词的权重:
等式(2)
等式(3)
Wij=TFij×Fi 等式(4)
其中,Fij表示第i个分词在第j篇文档出现的次数;Rij表示针对包括第i个分词的第j篇文档的转发程度;Cij表示针对包括第i个分词的第j篇文档的回复程度;wij表示包括第i个分词的第j篇文档的来源的权重系数;Fi表示第i个分词在所有文档中的词频数;Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;TFij表示第i个分词在第j篇文档中的词频数;Wij表示第i个分词在第j篇文档中所占的权重;T表示第j篇文档中的分词总数;以及n表示文档总数。
在计算出各分词的权重之后,就可以根据所述权重确定出每篇文档的关键词。例如,可以选择权重大于或等于特定阈值的分词作为关键词,或者可以选择权重最大的几个(例如,三个)分词作为关键词等等。
基于通过本发明提供的分词权重计算方法计算出的权重而选出的关键词,平均正确率达到92%左右,相较于没有考虑文档转发量、回复量和文档来源的权重系数的方法,大约提高了10%。
根据本发明提供的方法,在确定好每篇文档的关键词之后,需要对每篇文档的内容进行地域和行业划分,这样可将内容属于同一地域同一行业的文档进行归类。之后,在各类别的文档中分别进行热点挖掘,这样可以减少挖掘时间,减少计算量。并且,当用户想要关注某一地域某一行业下的当前热点时,通过本发明提供的热点挖掘方法,可以快速地将该地域该行业下的当前热点事件提供给用户,以满足用户需求。
此外,在优选实施方式中,通过对无用词语进行过滤和在确定每篇文档中各分词的权重时考虑文档的转发程度、回复程度和文档来源的权重系数,不仅可以实现对文档信息的筛选,还可以避免四处散播广告及暴力水军的行为被误认为是热点事件的情况。
为了进行地域和行业划分,可以事先建立地域词库和行业词库。地域词库中存储有各个地区以及能够代表该地区的事物的词语。同理,行业词库中存储有各个行业以及表示该行业所涉及领域的词语。例如,地域词库中存储的内容可以如下所示:
北京:中关村|海淀区|鸟巢|央视|密云县|中央电视台|昌平区|大短裤……
河北:石家庄|张家口|唐山|北戴河……
行业词库中存储的内容可以如下所示:
工业:冶金|钢铁|地矿|机械|汽车|电子|电器|仪器|仪表|化工|航天……
交通:铁路|公路|桥梁|民航|机场|航线|航道|空中管制|飞机|车站……
教育:学校|教师|统考|考试|招生|学生|培训|毕业|学位|留学|教材……
可通过以下方式来对每篇文档的内容进行地域和行业划分:从每篇文档中的分词中选取表示地域的分词和表示行业的分词;对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
例如,在进行地域划分时,可首先从文档中提取出表示地域(例如,地名、街道、标志性建筑、关键性人物等)的分词。然后对这些分词进行词频统计,选出词频最高的三个分词。之后,将这三个分词与地域词库中的词语进行比对,确定此文档内容的所属地域。
例如,某篇文档中记载了如下内容:
11月17日,本报以“央视新楼拒穿大短裤”为题,报道了位于东三环CBD地区的央视新楼,被市民传称为“大短裤”,但央视认为此称呼不雅,在内部员工里征集名字一事。
报道发表后诸多网站都能找到网友们的投票帖和评论。在一些大型网站的新闻频道里,超过20万的网友发表了意见,其中近80%的网友表示“挺好,没必要改”或者“很贴切”,但仍有大量网友表示,这个名字“太随便,太俗,太土,不符合中央电视台形象和定位”。
利用上述地域划分方法,可以确定出表示地名、街道、标志性建筑、关键性人物等的分词有:央视、大短裤、东三环、CBD和中央电视台。这些词的词频分别为3、2、1、1、1。因而,可以选择央视、大短裤、中央电视台(或东三环或CBD)这三个分词作为词频最高的三个分词,然后比对地域词库。经比对后可以确定该文档内容所属地域是北京。
同理,依据类似方法对该文档的内容再进行行业划分,确定该文档内容的所属行业。
例如,某篇文档中记载了如下内容:
“探索全国统考减少科目、不分文理科外语等科目社会化考试一年多考。”近日发布的十八届三中全会《中共中央关于全面深化改革若干重大问题的决定》中有关推进考试 招生制度改革内容引发热议,在昨天举行的***新闻发布会上,***新闻发言人续梅表示,出台不分文理科的方案,“相信时间不会太长”。
利用上述行业划分方法,可以确定出表示行业的分词有:统考、文理科、外语、考试、招生、***。这些词的词频分别为1、2、1、2、1、2。因而,可以选择文理科、考试、***这三个分词作为词频最高的三个分词,然后比对行业词库。经比对后可以确定该文档内容所属行业是教育。
这样,就可以将内容属于同一地域同一行业的文档进行归类。
在对文档内容进行地域行业划分之后,对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组。例如,假如所提取出的关键词为“腾讯”、“搜狗”、“注资”和“收购”,那么形成的关键词组可以例如为“腾讯+搜狗”、“腾讯+注资”、“收购+搜狗”、“腾讯+注资+搜狗”等等。在确定好关键词组之后,确定每个关键词组的权重。可通过下述方式来确定所述关键词组的权重:
首先确定形成关键词组(例如,“腾讯+搜狗”)的每个关键词(例如,“腾讯”和“搜狗”)在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF)。之后,根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重。例如,在第1篇文档中,“腾讯”对应一个TF-IDF值(TF-IDF1),“搜狗”对应一个TF-IDF值(TF-IDF2),那么关键词组“腾讯+搜狗”在该篇文档中的权重ω为TF-IDF1+TF-IDF2。同理,依照此方法计算出该关键词组“腾讯+搜狗”在其他每篇文档中所占的权重。之后,根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。例如,通过对关键词组“腾讯+搜狗”在内容属于同一地域同一行业的每篇文档中的权重ω进行平均,即可得出该关键词组“腾讯+搜狗”在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组“腾讯+搜狗”的权重。
在确定所述TF-IDF值时,可通过以下等式(5)~(7)来进行。
等式(5)
等式(6)
TF-IDF=TF×IDF 等式(7)
其中,F表示关键词在文档中出现的次数;Fmax表示该文档中出现次数最多的分词的出现次数;N表示内容属于同一地域同一行业的所有文档的总数;以及N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
从等式(3)和(5)中可以看出,本发明所采取的TF计算方法是基于某个词在文档中出现的次数和该文档中出现次数最多的词的出现次数的,而不像现有的TF计算方法中是基于某个词在文档中出现的次数和该文档中出现的词的总数的。因此,本发明所采用的TF计算方法可以减少文档中出现次数较少的词对计算结果的干扰影响,从而提高所计算出的分词权重以及关键词组的权重的准确性和可靠性。
最后,按照所述关键词组的权重确定该地域该行业下的热点事件。例如,可选择权重最大的关键词组作为该地域该行业下的热点事件,也可根据权重选出TOP10(十强)热点事件,等等。如此根据地域和行业进行热点挖掘,可以满足用户对不同地域和行业的关注需求,针对性更强,并且还可以减少挖掘时间,降低计算量。
本发明还提供一种用于基于地域和行业进行热点事件挖掘的设备。该设备可以包括:用于从网络获取文档的装置;用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;用于根据所述权重确定每篇文档的关键词的装置;用于对每篇文档的内容进行地域和行业划分的装置;用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置。
其中,通过以下方式来对每篇文档的内容进行地域和行业划分:从每篇文档中的分词中选取表示地域的分词和表示行业的分词;对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
所述设备还可以包括:用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语的装置。该设备还包括:
所述设备还可以包括:用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤的装置。
所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数中的至少一者有关。并且,所述文档的转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。
所述每篇文档中各分词的权重可通过上述等式(2)~(4)来被确定。
所述关键词组的权重是通过以下方式确定的:确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。
可通过上述等式(5)~(7)来确定所述TF-IDF值。
由此,在本发明提供的热点事件挖掘方法和设备中,通过对所获取的文档的内容进行地域和行业划分,可以对属于同一地域同一行业下的文档信息进行热点挖掘,以得出当前该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,通过此方法,还可以减少挖掘时间,降低计算量,从而节省***资源。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (8)

1.一种用于基于地域和行业进行热点事件挖掘的方法,其特征在于,该方法包括:
从网络获取文档;
基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤,所述转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的;
对每篇文档进行分词处理,并确定每篇文档中各分词的权重;所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数有关;
根据所述权重确定每篇文档的关键词;
对每篇文档的内容进行地域和行业划分;
对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及
按照所述关键词组的权重确定该地域该行业下的热点事件;
所述每篇文档中各分词的权重是通过以下方式确定的:
<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>
<mrow> <msub> <mi>TF</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> <mo>{</mo> <msub> <mi>F</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mi>k</mi> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mfrac> </mrow>
Wij=TFij×Fi
其中,Fij表示第i个分词在第j篇文档出现的次数;
Rij表示针对包括第i个分词的第j篇文档的转发程度;
Cij表示针对包括第i个分词的第j篇文档的回复程度;
wij表示包括第i个分词的第j篇文档的来源的权重系数;
Fi表示第i个分词在所有文档中的词频数;
Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;
TFij表示第i个分词在第j篇文档中的词频数;
Wij表示第i个分词在第j篇文档中所占的权重;
T表示第j篇文档中的分词总数;以及
n表示文档总数;
其中,所述关键词组的权重是通过以下方式确定的:
确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);
根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及
根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重;
其中,所采用的规格化方法是通过下面等式来将文档的实际转发量和回复量均映射到[0,1]区间:
<mrow> <msubsup> <mi>a</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,a′i表示每篇文档的转发程度或回复程度;ai表示每篇文档的实际转发量或回复量;min(ai)表示所有文档中最小的实际转发量或回复量;以及max(ai)表示所有文档中最大的实际转发量或回复量。
2.根据权利要求1所述的方法,其特征在于,通过以下方式来对每篇文档的内容进行地域和行业划分:
从每篇文档中的分词中选取表示地域的分词和表示行业的分词;
对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;
通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语。
4.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述TF-IDF值:
<mrow> <mi>T</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mi>F</mi> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mfrac> </mrow>
<mrow> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <mrow> <msup> <mi>N</mi> <mo>&amp;prime;</mo> </msup> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
TF-IDF=TF×IDF
其中,F表示关键词在文档中出现的次数;
Fmax表示该文档中出现次数最多的分词的出现次数;
N表示内容属于同一地域同一行业的所有文档的总数;以及
N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
5.一种用于基于地域和行业进行热点事件挖掘的设备,其特征在于,该设备包括:
用于从网络获取文档的装置;
基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤的装置,所述转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的;
用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数有关;
用于根据所述权重确定每篇文档的关键词的装置;
用于对每篇文档的内容进行地域和行业划分的装置;
用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及
用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置;
所述每篇文档中各分词的权重是通过以下方式确定的:
<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>
<mrow> <msub> <mi>TF</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> <mo>{</mo> <msub> <mi>F</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mi>k</mi> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mfrac> </mrow>
Wij=TFij×Fi
其中,Fij表示第i个分词在第j篇文档出现的次数;
Rij表示针对包括第i个分词的第j篇文档的转发程度;
Cij表示针对包括第i个分词的第j篇文档的回复程度;
wij表示包括第i个分词的第j篇文档的来源的权重系数;
Fi表示第i个分词在所有文档中的词频数;
Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;
TFij表示第i个分词在第j篇文档中的词频数;
Wij表示第i个分词在第j篇文档中所占的权重;
T表示第j篇文档中的分词总数;以及
n表示文档总数;
其中,所述关键词组的权重是通过以下方式确定的:
确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);
根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及
根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重;
其中,所采用的规格化方法是通过下面等式来将文档的实际转发量和回复量均映射到[0,1]区间:
<mrow> <msubsup> <mi>a</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,a′i表示每篇文档的转发程度或回复程度;ai表示每篇文档的实际转发量或回复量;min(ai)表示所有文档中最小的实际转发量或回复量;以及max(ai)表示所有文档中最大的实际转发量或回复量。
6.根据权利要求5所述的设备,其特征在于,通过以下方式来对每篇文档的内容进行地域和行业划分:
从每篇文档中的分词中选取表示地域的分词和表示行业的分词;
对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;
通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
7.根据权利要求5所述的设备,其特征在于,该设备还包括:
用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语的装置。
8.根据权利要求5所述的设备,其特征在于,通过以下方式确定所述TF-IDF值:
<mrow> <mi>T</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mi>F</mi> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mfrac> </mrow>
<mrow> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <mrow> <msup> <mi>N</mi> <mo>&amp;prime;</mo> </msup> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
TF-IDF=TF×IDF
其中,F表示关键词在文档中出现的次数;
Fmax表示该文档中出现次数最多的分词的出现次数;
N表示内容属于同一地域同一行业的所有文档的总数;以及
N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
CN201310693571.3A 2013-12-17 2013-12-17 一种用于基于地域和行业进行热点事件挖掘的方法和设备 Active CN103714132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310693571.3A CN103714132B (zh) 2013-12-17 2013-12-17 一种用于基于地域和行业进行热点事件挖掘的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310693571.3A CN103714132B (zh) 2013-12-17 2013-12-17 一种用于基于地域和行业进行热点事件挖掘的方法和设备

Publications (2)

Publication Number Publication Date
CN103714132A CN103714132A (zh) 2014-04-09
CN103714132B true CN103714132B (zh) 2017-12-26

Family

ID=50407107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310693571.3A Active CN103714132B (zh) 2013-12-17 2013-12-17 一种用于基于地域和行业进行热点事件挖掘的方法和设备

Country Status (1)

Country Link
CN (1) CN103714132B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331483B (zh) * 2014-11-05 2017-12-01 北京航空航天大学 基于短文本数据的区域事件检测方法和设备
CN106033464A (zh) * 2015-03-19 2016-10-19 北大方正集团有限公司 热点话题搜索方法和热点话题搜索装置
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫***
CN106021278A (zh) * 2016-04-27 2016-10-12 湖南蚁坊软件有限公司 一种微博事件地域热度指数的分析方法
CN109460500B (zh) * 2018-10-24 2020-07-03 深圳市腾讯计算机***有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN111291176A (zh) * 2018-12-06 2020-06-16 北京国双科技有限公司 一种热门事件的挖掘方法及装置
CN110852097B (zh) * 2019-10-15 2022-02-01 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073476A1 (en) * 2002-10-10 2004-04-15 Prolink Services Llc Method and system for identifying key opinion leaders
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及***
CN103324637B (zh) * 2012-03-23 2017-12-12 深圳市世纪光速信息技术有限公司 一种热点信息挖掘方法和***
CN102945290B (zh) * 2012-12-03 2015-12-23 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN103164540B (zh) * 2013-04-15 2016-08-17 武汉大学 一种专利热点发现与趋势分析方法

Also Published As

Publication number Publication date
CN103714132A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN103714132B (zh) 一种用于基于地域和行业进行热点事件挖掘的方法和设备
Zhang et al. Heritage and tourism conflict within world heritage sites in China: A longitudinal study
Flatow et al. On the accuracy of hyper-local geotagging of social media content
Grant‐Muller et al. Enhancing transport data collection through social media sources: methods, challenges and opportunities for textual data
Pons et al. Impact of Corporate Social Responsibility in mining industries
Bertrand et al. Sentiment in new york city: A high resolution spatial and temporal view
Ke et al. A CA-based land system change model: LANDSCAPE
Breetzke The concentration of urban crime in space by race: evidence from South Africa
Kumar et al. A behavior analytics approach to identifying tweets from crisis regions
Truelove et al. Towards credibility of micro-blogs: characterising witness accounts
CN103176984A (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN107045533A (zh) 基于标签的教育资源推荐方法及***
Magnusdottir et al. Gender, intersectionality and climate institutions in industrialised states
Dai Application of regional culture in landscape architecture design under the background of data fusion
Bastos Spatializing Social Media: Social Networks Online and Offline
Ma Grey target decision method for a variable target centre based on the decision maker’s preferences
Yamamoto et al. Two phase extraction method for extracting real life tweets using lda
Idris et al. A conceptual model of the automated credibility assessment of the volunteered geographic information
Khanom et al. The News Crawler: A Big Data Approach to Local Information Ecosystems
Abdunurova et al. Pre-purchasing and post-purchasing travel behavior on social media: The case of Kazakhstan
Chen Combatting Climate Change Misinformation: Current Strategies and Future Directions
Satapathy et al. Information and Decision Sciences: Proceedings of the 6th International Conference on FICTA
Chen et al. Anova for spatial data after filtering out the spatial autocorrelation
JP6975118B2 (ja) 抽出装置及びプログラム
Sembiring et al. The Relevance of the Implementation of the Omnibus Law and Efforts to Save the Indonesian Environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant