CN112487306A - 基于知识图谱的自动化事件标记与分类方法 - Google Patents

基于知识图谱的自动化事件标记与分类方法 Download PDF

Info

Publication number
CN112487306A
CN112487306A CN202011417045.0A CN202011417045A CN112487306A CN 112487306 A CN112487306 A CN 112487306A CN 202011417045 A CN202011417045 A CN 202011417045A CN 112487306 A CN112487306 A CN 112487306A
Authority
CN
China
Prior art keywords
burst
phrase
text
phrases
time window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011417045.0A
Other languages
English (en)
Other versions
CN112487306B (zh
Inventor
王晓玲
赵鑫
袁佳豪
王韵弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202011417045.0A priority Critical patent/CN112487306B/zh
Publication of CN112487306A publication Critical patent/CN112487306A/zh
Application granted granted Critical
Publication of CN112487306B publication Critical patent/CN112487306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的自动化事件标记与分类方法,构建所需的领域类别的知识图谱,爬取预设时间窗口内的社交媒体中发布的各个文本数据,提取关键短语并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后计算突发事件对应突发短语在各个知识图谱上的TF‑IDF得分,求和得到突发事件在各个知识图谱上的TF‑IDF得分,如果大于预设阈值,则将对应事件标记为该领域类别,从而确定事件的标记和分类。本发明通过对社交媒体中文本数据进行突发短语筛选和聚类,自动确定突发事件,然后再计算突发事件在各个领域类别知识图谱上的TF‑IDF得分,实现对社交媒体事件的自动化精确标记与分类。

Description

基于知识图谱的自动化事件标记与分类方法
技术领域
本发明属于事件标记与分类技术领域,更为具体地讲,涉及一种基于知识图谱的自动化事件标记与分类方法。
背景技术
近年来,随着社交媒体的迅速发展,推特、微博等社交媒体逐渐成为人们获取新闻信息的重要途径。因此,越来越多的工作开始关注社交媒体信息并对其进行分析,其中一类比较重要的工作就是社交媒体数据的事件抽取工作,即根据社交媒体数据抽取出其所描述的事件。但是对于抽取出的事件(事件关键短语、摘要等),难免会出现一些并不关注的事件,因此需要对抽取出的事件进行标记与分类(军事、政治、地理等若干类别),得到每个事件所属的类别,从而过滤掉不关注类别的事件,筛选出感兴趣的事件。但是如何根据描述事件的少量信息精确获取其类别,以及如何解决某个事件可能同属于多个类别的问题,暂未有较好的解决方式,都是需要进一步研究和解决的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于知识图谱的自动化事件标记与分类方法,实现对社交媒体事件的自动化精确标记与分类。
为实现上述发明目的,本发明基于知识图谱的自动化事件标记与分类方法包括以下步骤:
S1:根据实际需要设置N个领域类别,分别收集每个领域类别的文本数据并构建知识图谱Gn,n=1,2…,N;
S2:预设时间窗口T,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合A。分别计算关键短语集合A中的每个关键短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和;
将所有关键短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B;
S3:将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
Figure BDA0002820446500000021
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,每个突发短语簇Ck即为时间窗口T内的一个突发事件;
S4:对于突发短语簇Ck所对应的突发事件,根据步骤S1所构建的各个领域类别知识图谱Gn所涵盖的文本数据,计算突发短语簇Ck中每个突发短语v在各个领域类别知识图谱Gn上的TF-IDF得分score(v,n),再进行求和得到突发短语簇Ck所对应突发事件在各个领域类别知识图谱Gn上的TF-IDF得分score(k,n):
Figure BDA0002820446500000022
S5:预先设定TF-IDF得分阈值
Figure BDA0002820446500000023
对于突发短语簇Ck所对应的突发事件,如果其在领域类别知识图谱Gn上的TF-IDF得分score(k,n)大于阈值
Figure BDA0002820446500000024
则将该突发事件标记为该领域类别,从而确定突发事件的标记和分类。
本发明基于知识图谱的自动化事件标记与分类方法,构建所需的领域类别的知识图谱,爬取预设时间窗口内的社交媒体中发布的各个文本数据,提取关键短语并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后计算突发事件对应突发短语在各个知识图谱上的TF-IDF得分,求和得到突发事件在各个知识图谱上的TF-IDF得分,如果大于预设阈值,则将对应事件标记为该领域类别,从而确定事件的标记和分类。
本发明通过对社交媒体中文本数据进行突发短语筛选和聚类,自动确定突发事件,然后再计算突发事件在各个领域类别知识图谱上的TF-IDF得分,实现对社交媒体事件的自动化精确标记与分类。
附图说明
图1是本发明基于知识图谱的自动化事件标记与分类方法的具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于知识图谱的自动化事件标记与分类方法的具体实施方式流程图。如图1所示,本发明基于知识图谱的自动化事件标记与分类方法的具体步骤包括:
S101:构建各领域类别知识图谱:
根据实际需要设置N个领域类别,分别收集每个领域类别的文本数据并构建知识图谱Gn,n=1,2…,N。
知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。针对互联网社交媒体,本实施例中所设置的领域类别包括军事(Military)、人物(People)、产业(Industry)、安全(Safety)、气象(Meterology)、地理(Geography),爬取这些领域类别在***上的相关数据,基于这些数据构建知识图谱,借助这些知识图谱信息来进行事件的标记和分类。
S102:筛选突发短语:
预设时间窗口T,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合A。分别计算关键短语集合A中的每个关键短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,即
Figure BDA0002820446500000041
ts、ts′分别表示时间窗口T内关键短语s、关键短语s′出现的次数,s,s′∈A,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和。
将所有关键短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B,K的值根据需要设置。
表1是本实施例中部分关键短语的突发程度列表。
关键短语 突发程度
Iran 20.1310
Zarif 6.91061
foreign minister 3.68816
Human rights 3.21209
president 2.54122
resignation 2.53455
fellow diplomats 1.22547
foreign policy 0.32457
hinting at 0.30289
condemns 0.02536
In front of 0.01785
except for 0.00566
表1
本实施例中选择前3个关键短语作为突发短语加入突发短语集合B,即B={Iran,Zarif,foreign minister}。
S103:基于突发短语聚类构建突发事件:
将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,m=1,2,…,M,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)f2(e)。
对突发短语集合B中的突发短语两两计算相似度,计算方法如下:
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
Figure BDA0002820446500000051
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,每个突发短语簇Ck即为时间窗口T的一个突发事件。
本实施例中,文本集合之间的相似度采用TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)相似度。TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本实施例中文本集合的TF-IDF相似度的计算方法包括以下步骤:
1)分别对两个文本集合进行分词,对得到两个单词集合进行合并得到单词集合φ。
2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的TF-IDF值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量。TF-IDF值的计算方法为:对于单词i,统计其在文本集合中的词频TF(i)和逆文本频率IDF(i)=log(D/Di),D表示文本集合中的文本数量,Di表示文本集合中包含单词i的文本数量,则TF-IDF值为TF(i)×IDF(i)。
3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P1=(p1,1,p2,1,…p|φ|,1)、P2=(p1,2,p2,2,…p|φ|,2)。
4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度,即作为文本集合之间的相似度。本实施例中突发短语的聚类采用Jarvis-Patrick聚类算法,该算法可以基于突发知识间的相似度进行聚类,其方法可以简述如下:根据突发短语相似度绘制SNN(sharednearest neighbor,共享最近邻居)相似度图,利用相似度阈值对SNN相似度图进行稀疏化,找出稀疏化的SNN相似度图的连通分支,即可得到聚类结果。
表2是本实施例中突发短语聚类得到的突发短语簇。
Figure BDA0002820446500000061
表2
S104:计算突发事件的TF-IDF得分:
对于突发短语簇Ck所对应的事件,根据步骤S101所构建的各个领域类别知识图谱Gn所涵盖的文本数据,计算突发短语簇Ck中每个突发短语v在各个领域类别知识图谱Gn上的TF-IDF得分score(v,n),再进行求和得到突发短语簇Ck所对应突发事件在各个领域类别知识图谱Gn上的TF-IDF得分score(k,n):
Figure BDA0002820446500000062
表3是本实施例中突发短语簇所对应事件在各个领域类别知识图谱上的TF-IDF得分。
Figure BDA0002820446500000063
Figure BDA0002820446500000071
表3
S105:事件标记和分类:
预先设定TF-IDF得分阈值
Figure BDA0002820446500000072
对于突发短语簇Ck所对应的突发事件,如果其在领域类别知识图谱Gn上的TF-IDF得分score(k,n)大于阈值
Figure BDA0002820446500000073
则将该突发事件标记为该领域类别,从而确定事件的标记和分类。
在本实施例中设置得分阈值
Figure BDA0002820446500000074
可以得出该事件的标记与分类为“军事(Military)”和“人物(People)”,符合人为观察。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于知识图谱的自动化事件标记与分类方法,其特征在于,包括以下步骤:
S1:根据实际需要设置N个领域类别,分别收集每个领域类别的文本数据并构建知识图谱Gn,n=1,2…,N;
S2:预设时间窗口T,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合A。分别计算关键短语集合A中的每个关键短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和;
将所有关键短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B;
S3:将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
Figure FDA0002820446490000011
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,每个突发短语簇Ck即为时间窗口T内的一个突发事件;
S4:对于突发短语簇Ck所对应的突发事件,根据步骤S101所构建的各个领域类别知识图谱Gn所涵盖的文本数据,计算突发短语簇Ck中每个突发短语v在各个领域类别知识图谱Gn上的TF-IDF得分score(v,n),再进行求和得到突发短语簇Ck所对应突发事件在各个领域类别知识图谱Gn上的TF-IDF得分score(k,n):
Figure FDA0002820446490000021
S5:预先设定TF-IDF得分阈值
Figure FDA0002820446490000022
对于突发短语簇Ck所对应的突发事件,如果其在领域类别知识图谱Gn上的TF-IDF得分score(k,n)大于阈值
Figure FDA0002820446490000023
则将该突发事件标记为该领域类别,从而确定事件的标记和分类。
2.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤S3中文本集合相似度采用TF-IDF相似度,计算方法包括以下步骤:
1)分别对两个文本集合进行分词,对得到的两个单词集合进行合并得到单词集合φ;
2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的TF-IDF值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量;
3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P1=(p1,1,p2,1,…p|φ|,1)、P2=(p1,2,p2,2,…p|φ|,2);
4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度,即作为文本集合之间的相似度。
3.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤S3中突发短语的聚类采用Jarvis-Patrick聚类算法。
CN202011417045.0A 2020-12-07 2020-12-07 基于知识图谱的自动化事件标记与分类方法 Active CN112487306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417045.0A CN112487306B (zh) 2020-12-07 2020-12-07 基于知识图谱的自动化事件标记与分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417045.0A CN112487306B (zh) 2020-12-07 2020-12-07 基于知识图谱的自动化事件标记与分类方法

Publications (2)

Publication Number Publication Date
CN112487306A true CN112487306A (zh) 2021-03-12
CN112487306B CN112487306B (zh) 2023-01-17

Family

ID=74939897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417045.0A Active CN112487306B (zh) 2020-12-07 2020-12-07 基于知识图谱的自动化事件标记与分类方法

Country Status (1)

Country Link
CN (1) CN112487306B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010689A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学知识甄别方法、装置、设备及存储介质
CN117076596A (zh) * 2023-10-16 2023-11-17 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN107908633A (zh) * 2017-07-26 2018-04-13 北京师范大学珠海分校 一种基于知识图谱的财经事件推理方法
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及***
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
CN110543574A (zh) * 2019-08-30 2019-12-06 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN111241278A (zh) * 2020-01-06 2020-06-05 北京明略软件***有限公司 基于知识图谱的舆情预警方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN107908633A (zh) * 2017-07-26 2018-04-13 北京师范大学珠海分校 一种基于知识图谱的财经事件推理方法
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107704637A (zh) * 2017-11-20 2018-02-16 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及***
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
CN110543574A (zh) * 2019-08-30 2019-12-06 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN111241278A (zh) * 2020-01-06 2020-06-05 北京明略软件***有限公司 基于知识图谱的舆情预警方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEVAL MORABIA ET AL.: ""SEDTWik: Segmentation-based Event Detection from Tweets Using Wikipedia"", 《PROCEEDINGS OF THE 2019 CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: STUDENT RESEARCH WORKSHOP》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010689A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学知识甄别方法、装置、设备及存储介质
CN117076596A (zh) * 2023-10-16 2023-11-17 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器
CN117076596B (zh) * 2023-10-16 2023-12-26 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器

Also Published As

Publication number Publication date
CN112487306B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
McCorriston et al. Organizations are users too: Characterizing and detecting the presence of organizations on twitter
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
Kestemont et al. Cross-genre authorship verification using unmasking
CN108733816B (zh) 一种微博突发事件检测方法
Suresh An unsupervised fuzzy clustering method for twitter sentiment analysis
Nguyen et al. Real-time event detection using recurrent neural network in social sensors
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
Dang et al. Framework for retrieving relevant contents related to fashion from online social network data
US11609959B2 (en) System and methods for generating an enhanced output of relevant content to facilitate content analysis
CN109492168B (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
CN112487306B (zh) 基于知识图谱的自动化事件标记与分类方法
Patil et al. Machine learning techniques for the classification of fake news
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
Andoh et al. Statistical analysis of public sentiment on the ghanaian government: a machine learning approach
Kumar et al. Fake news detection of Indian and United States election data using machine learning algorithm
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
Fabian et al. Privacy on Reddit? Towards Large-scale User Classification.
CN112434126B (zh) 一种信息处理方法、装置、设备和存储介质
Laeeq et al. Sentimental Classification of Social Media using Data Mining.
CN112445955B (zh) 商机信息管理方法、***及存储介质
Wu et al. An unsupervised framework for extracting multilane roads from OpenStreetMap
Kotevska et al. Sentiment analysis of Social Sensors for local services improvement
Hartanto et al. Classifying User Personality Based on Media Social Posts Using Support Vector Machine Algorithm Based on DISC Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant