CN109241273A - 一种新媒体环境下少数民族主题数据的抽取方法 - Google Patents

一种新媒体环境下少数民族主题数据的抽取方法 Download PDF

Info

Publication number
CN109241273A
CN109241273A CN201810969312.1A CN201810969312A CN109241273A CN 109241273 A CN109241273 A CN 109241273A CN 201810969312 A CN201810969312 A CN 201810969312A CN 109241273 A CN109241273 A CN 109241273A
Authority
CN
China
Prior art keywords
data
theme
vocabulary
ethnic group
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810969312.1A
Other languages
English (en)
Other versions
CN109241273B (zh
Inventor
岳昆
麻友
李维华
王笑
王笑一
郭建斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201810969312.1A priority Critical patent/CN109241273B/zh
Publication of CN109241273A publication Critical patent/CN109241273A/zh
Application granted granted Critical
Publication of CN109241273B publication Critical patent/CN109241273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法,根据新媒体数据海量、非结构化、多主题等特点,采用LDA模型对预处理后的新媒体数据进行特征抽取、主题分析、隐含主题挖掘,然后利用少数民族领域知识构建KG,用领域KG引导少数民族主题数据的抽取。本发明在采用LDA模型和KG引导数据的抽取过程中,根据不同数据规模设定参数,从而进行算法的优化,实现准确、高效、可扩展的新媒体数据抽取。

Description

一种新媒体环境下少数民族主题数据的抽取方法
技术领域
本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法。涉及一种基于隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)新媒体数据进行隐含主题分析和特征抽取、并利用领域知识图谱(Knowledge Graph,KG)实现少数民族主题数据的抽取的方法。属于数据处理与知识发现领域。
背景技术
新媒体是相对于报刊、广播、电视等传统媒体而言的新的媒体形态,包括网络媒体、手机媒体和数字电视等,具有交互性与即时性、海量性与共享性、多媒体与超文本、个性化与社群化等特征。随着新媒体在信息传播中发挥日益重要的作用,网络媒体数据的处理与分析也受到国内外学者的高度关注。数据根据主要内容的区别进行划分,描述同一类内容的数据称为相同主题的数据,如旅游、娱乐、影视等主题。从海量、异构的网络媒体数据中获取特定主题的数据,并根据不同领域进行主题分析、内容筛选和信息过滤,是新媒体数据处理与知识发现的重要研究内容,也是决策支持、影响预测、知识库构建、舆情分析等工作的重要基础。
此外,随着我国文化战略的深入推进,围绕少数民族信息获取、分析与利用的课题研究不断增多,海量的新媒体数据包括大量有价值的少数民族主题数据,如微博平台中的少数民族旅游信息分享、少数民族间文化交流、少数民族热点问题、少数民族新闻事件等数据,可为少数民族主题的相关研究和开发丰富其数据来源。在新媒体环境下研究少数民族主题的数据抽取,针对少数民族政治、经济、文化等方面的实际问题,对海量新媒体数据的处理与分析,数据驱动的知识发现,以及数据密集型的少数民族地区舆情监控与管理政策制定、少数民族文化传播与遗产保护的研究和应用,具有重要意义。
数据抽取是从源数据中抽取目标数据的过程,公知的数据抽取研究成果众多,针对不同数据或不同应用而采用的数据抽取技术各有不同,例如,刘锦文等(<中国科学技术大学硕士论文>,2016)实现了基于无监督学***台中少数民族主题数据的抽取也缺乏通用性。因此,本发明针对新媒体海量、非结构化、多主题等特征,基于LDA模型挖掘网络新媒体数据中的隐含主题,实现多主题分析,再利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,能够更准确、全面地实现少数民族主题数据的抽取。
LDA模型是一种贝叶斯层次模型,公知的研究中,LDA模型在数据抽取、文本挖掘、社交网络和自然语言处理等领域广泛应用。例如,刘少鹏等(<计算机学报>,2015)使用LDA对海量的电影评论数据进行了定性和描述性的主题提取,刘冰玉等(<软件学报>,2017)研究海量的电商评论数据,实现了基于语义约束LDA的商品特征和情感词提取,赵科科等(<专利CN107885754A>,2018)提供一种基于LDA模型从交易数据中提取信用变量的方法和装置。以上研究成果利用LDA模型对海量数据进行处理,展现了LDA模型在主题分析、特征提取、文本挖掘等问题研究上的突出作用,在此基础上,本发明进一步在分析海量、非结构化、多主题的新媒体数据上发挥LDA模型的优势。
KG是一种表达实体、概念及其之间关系的语义网络,公知的研究中,KG被广泛用于个性化推荐、智能搜索、知识发现等领域。例如,陈德华等(<计算机研究与发展>,2017)提出一种临床领域时序KG的链接预测模型,高俊平等(<计算机学报>,2016)提出一种面向中文***领域知识的演化的关系抽取方法,雷凯等(<专利CN108073711A>,2018)提出了一种基于KG的关系抽取方法,提取KG的路径与属性信息以挖掘潜在的语义信息。以上成果无论是医学研究还是数据关系的抽取,都充分展现了KG语义网络丰富的先验知识在现实应用中的作用,但同时针对不同应用来选取KG,也影响着问题研究的高效性与有效性,针对不同的应用场景、特定的研究领域,需要构建相应的KG,更全面、完备地涵盖所研究领域的知识与语义关系,从而提高数据抽取结果的准确性和高效性。
多民族特征,使得少数民族主题的相关研究成为重要的课题,但由于少数民族主题下数据源的有限性、知识的偏僻性、文化的差异性,使得跨学科研究的难度相对较大,而在当前研究的学科交叉成为众多课题的必然,如何利用新媒体中大量的数据作为依据,从中抽取有价值的数据,成为相关研究的基础。
因此,本发明针对新媒体少数民族主题数据的抽取问题,以新媒体平台的大规模数据和少数民族领域知识为基础,以从海量、非结构化、多主题的新媒体数据中抽取少数民族主题数据为目标,利用LDA模型从非结构化的数据中挖掘隐含的多主题信息、进行主题分析,并实现数据的特征抽取,再利用领域KG丰富的语义关系,解决海量的新媒体数据中抽取少数民族主题数据过程中遇到的专业性强、词源偏僻、词汇歧义的问题。综上,本发明给出了一种新媒体环境下少数民族主题数据的抽取方法,为大规模新媒体数据的处理、分析、预测和决策等应用奠定新的技术基础,也为特定领域新媒体数据抽取提供参考。
发明内容
为克服少数民族领域因词源生僻、专业性强、词语异义等情况造成的效率瓶颈问题,本发明提供一种从新媒体平台获取数据、基于LDA模型和KG对少数民族主题数据进行抽取的方法。该方法能针对海量、非结构化、多主题等新媒体数据的特点,实现准确、高效、可扩展的新媒体特定领域数据的抽取。
本方法分为三个步骤,第一步是数据预处理,获取所需新媒体数据,采用分词工具对数据内容进行分词处理,根据所研究少数民族领域增加领域词汇进行分词,并添加个性化停用词,简化数据预处理结果;第二步是新媒体数据的主题分析与特征抽取,利用LDA模型对预处理后的数据进行迭代处理,并进行主题分析、挖掘数据隐含的主题,得到每条数据的主题向量和所有主题的高频词向量,将数据所属主题的高频词向量与数据内容匹配,得到每条数据的特征词序列;第三步是基于KG的少数民族主题数据抽取,首先将少数民族领域知识构建领域KG,利用KG引导,即利用KG丰富的语义关系作为先验知识,以第二步中数据的特征词序列为依据进行匹配,筛选过滤出少数民族主题的数据,同时构建领域无关的噪声数据构成的KG,实现反向过滤,增加数据抽取的准确性。
本方法的步骤如下:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤iMI i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_ words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i w j (1≤i,jS,ij);
S2.2:定义数据I i 的主题向量I i 中词汇属于主题z k 的概率,0≤≤1,其中,主题z k 用高频词向量表示,S k z k 的总词数,z k 总词汇中的词w t 的概率,0≤δ t,k ≤1。分别由公式(1)(2)求得:
其中,表示主题z k 的词汇w t 的总数,表示I i 中包含主题z k 中词汇的数量,S为词典中的词汇总数,K为主题总数;
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter N iter ≥1,主题总数KK≥1,参数β,0<α,β<1,≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布
S2.3.3:对数据I i ,采样数据的主题概率分布,对数据的Seg_T i ,采样单词的主题,采样主题的词汇,过程如附图2所示;统计主题z k 的词汇总数、数据I i 中包含主题z k 中词汇的数量
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.1:读取每条数据I i 的词汇w i,j 和对应的主题z i,j ,统计主题z i,j =z k 的词汇w i,j 总数和数据I i z i,j =z k 中词汇w i,j 的数量
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率,按照降序排列,得到主题z k 的高频词向量,0≤kK
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率,根据降序排列,得到数据I i 的主题向量
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量降序,取个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上个主题的高频词向量的词汇进行映射匹配,两者词汇并集记录为,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes, addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为v 0 v i 的关系标签;
S3.2.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到v i v j 的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k
3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为v 0 v i 的关系标签;
S3.3.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),label由节点的附加信息addition得到v i v j 的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为nn≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为≥0;
S3.4.5:计算数据I i 在领域G k 的概率,数据I i 在领域¬G k 的概率。如果p>τ<τ,则判别数据I i 为少数民族主题的数据,并将I i 加入到最终的少数民族数据集D中;
本发明通过以上的步骤可实现从新媒体环境下对少数民族主题数据的抽取,而为了数据抽取更加准确、高效,进一步对方法中的参数进行限定优化,在步骤S2.3.1中,迭代次数N iter 的给定关系到方法的效率与结果的准确性,迭代次数过少则结果中每个词汇w i,j 的主题z i,j 尚未收敛,主题特征词不准确,迭代次数过多,已经收敛后的迭代增加耗时,降低效率,本发明取S为词典中的词汇总数,为向上取整数,将迭代次数与数据量直接联系,此外,参数K≤40时取值=0.5,当K>40时取值=20/K,而β取值0.01,取值,即随着主题数K增加,取数据个主题的高频词向量求数据的特征词序列也随着增加。另外,在步骤S3.4.1中,领域的判定参数τ的范围取0.05≤τ≤0.15,此时数据能够实现更准确的领域归属判定。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“新浪微博”藏族数据的抽取实例。
步骤一:预处理
首先从“新浪微博”平台获取微博数据,单条微博数据如表1所示。
表1 微博数据示例
为方便描述,在以下数据抽取的说明中将附加信息项A i 隐藏,于是获取的新浪微博数据,包含5条微博数据a1~a5,如表2所示。
表2 新浪微博数据
然后,对微博数据的文字部分T i 进行分词处理,选取分词工具,支持自定义词典和停用词,并引入藏族的领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>},将藏族领域的词汇添加到分词工具词典中,分词结果记作Seg_T i ,如表3所示。
表3 新浪微博数据分词结果
步骤二:主题分析与特征抽取
读取微博数据,根据词汇的出现顺序和不重复原则得到词典W={1:西藏,2:和平,3:解放,4:居住,5:藏民,6:古天乐,7:基金,8:捐资,9:援建,10:学校,11:藏区,12:哈达,13:假期,14:香格里拉,15:青海湖,16:拉萨,17:旅行,18:攻略,19:贡嘎,20:机场,21:公里}。
给定迭代次数,主题总数K=3,参数=0.5,β=0.01,==1。采样单词的主题,采样主题的词汇,迭代10次,使得单词都能分配到相应主题。
得到所有词汇所对应的主题分别为:
旅游:{假期,旅行,攻略,拉萨,机场,公里,香格里拉,青海湖,西藏,贡嘎}
文化:{和平,解放,居住,学校,哈达,藏区,藏民}
公益:{基金,捐资,援建,古天乐}
循环统计条微博数据的各个主体的总数和各个主题的词汇总数。以微博数据a1为例,计算,有=1,=4,=0,所以由公式(1)有:
因此,微博数据a1内容的主题向量为(0.2143,0.75,0.0357)。同理可求得微博数据a2的主题向量为(0.0357,0.2143,0.75),a3的主题向量为(0.0435,0.9130,0.0435),a4的主题向量为(0.9130,0.0435,0.0435),a5的主题向量为(0.9583,0.0208,0.0208)。
对于每个主题z k ,计算,以主题为例,由词典W可知,t=1表示“西藏”,t=13表示“假期”,t=16表示“拉萨”,由公式(2)计算如下:
进一步按照降序排列,得到主题的高频词向量Δ 1=((“拉萨”, 0.2118), (“假期”, 0.1414), (“西藏”, 0.1414), (“旅行”, 0.0711) , (“攻略”, 0.0711), …)。同理可得主题的高频词向量为Δ 2=((“学校”, 0.2182), (“藏民”, 0.2182), (“和平”,0.1097), (“哈达”, 0.1097) , (“解放”, 0.1097), …),主题的高频词向量为Δ 3=((“基金”, 0.2399), (“捐资”, 0.2399), (“援建”, 0.2399), (“古天乐”, 0.2399))。
=1,即取每条微博数据的Seg_T i 与数据top-1个主题的高频词向量的词汇进行映射匹配,得到数据的特征词序列。以微博数据a1为例,其top-1主题为主题,则将主题的高频词向量Δ 2与a1的Seg_T i 的映射匹配,得d 1=<“和平”, “解放”, “居住”, “藏民”>,同理得到:
d 2=<“古天乐”, “基金”, “捐资”, “援建”>
d 3=<“藏区”, “学校”, “藏民”, “哈达”>
d 4=<“假期”, “香格里拉”, “青海湖”, “拉萨”>
d 5=<“旅行”, “攻略”, “假期”, “西藏”, “拉萨”, “贡嘎”, “机场”, “拉萨”, “公里”>
步骤三:少数民族的数据抽取
首先,由藏族领域知识Z={<西藏,地名,藏族聚集省>,<拉萨,城市名,西藏省会>,<贡嘎,地名,西藏南部>,<藏区,模糊地名,泛指藏族聚集地>,<藏民,人群统称,指藏族人>,<哈达,物名,藏族人礼仪丝织品>}构建领域KG。
依次取Z的元素实体名v i 与本领域名称v 0表示为三元组(v 0, v i , label),如(“藏族”,“西藏”,“地名”),再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息得到,如(“西藏”,“拉萨”,“省会”),图形化表示结果如附图3所示。
同上,由“旅游”主题的领域无关知识¬Z={<云南,省名,旅游省份 >,<青海,省名,旅游省份>,<香格里拉,地名,云南旅游景点>,<青海湖,湖泊名,青海省旅游景点>}构建一个与藏族无关的“旅游”的KG为¬G k ,如附图4所示。
给定参数τ=0.1。对微博数据a1,求取词特征词序列d 1的长度m i =4,对d 1每个词汇分别从G k 中沿节点与边查找对应的词汇,统计得到n=1,=0。
因此,微博数据a1在领域G k 的概率=0.25,在领域¬G k 的概率=0,由于p>τ<τ,则微博数据a1属于“藏族”领域数据,将a1加入抽取得到的藏族数据集D中。同理可得,a3和a5也属于“藏族”领域数据。对于a4,由于=0.25>τ=0.5>τ,所以属于涉及到藏族地名的无关噪声数据。
“藏族”主题数据的抽取结果如表4所示。
表4 “藏族”主题数据抽取结果
附图说明
图1,本发明执行流程图。包括以下三个步骤:新媒体数据的预处理,主题分析与特征抽取,少数民族数据的抽取。
图2,LDA图模型。
图3,实施例中藏族领域知识图谱图形化示例。
图4,实施例中噪声数据对应知识图谱图形化示例。

Claims (3)

1.一种新媒体环境下少数民族主题数据的抽取方法,其特征在于包括以下步骤:
S1:数据预处理
S1.1:从社交网络或新闻网页上获取M条媒体数据I={I 1, I 2, …, I M },I i 表示第i条数据,0≤iMI i 用一个三元组(id, T i , A i )表示,id为数据实例标识,T i 表示数据I i 的文字内容,A i ={A i,u , A i,p , A i,l , A i,v , A i,f , A i,q , A i,c , A i,r }表示附加信息,分别表示数据发布者A i,u 、发布时间A i,p 、发布地点A i,l 、发布源A i,v 、转发量A i,f 、点赞量A i,q 、评论数A i,c 和数据的读取时间A i,r
S1.2:少数民族领域知识Z=<term, attributes, addition>由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;
S1.3:获取停用词集Stop_words
S1.4:采用分词工具对获取的媒体数据文字内容T i 进行分词处理,分词前先将Stop_ words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,T i 的分词结果单独存到数据I i 末端,记为Seg_T i
S2:主题分析与特征抽取
S2.1:定义词典W={w 1, w 2, …, w S }存储数据包含的全部词汇,S为词典中的词汇总数,w i w j (1≤i,jS,ij);
S2.2:定义数据I i 的主题向量I i 中词汇属于主题z k 的概率,0≤≤1,其中,主题z k 用高频词向量 表示,S k z k 的总词数,z k 总词汇中的词w t 的概率,0≤≤1,分别由公式(1)(2)求得:
其中,表示主题z k 的词汇w t 的总数,表示I i 中包含主题z k 中词汇的数量,S为词典中的词汇总数,K为主题总数;
S2.3:采样主题与词汇;
S2.3.1:给定迭代次数N iter N iter ≥1,主题总数KK≥1,参数αβκ,0<α,β<1,κ≥1;
S2.3.2:对每个主题z k ,采样主题中词汇的概率分布
S2.3.3:对数据I i ,采样数据的主题概率分布,对数据的Seg_T i ,采样单词的主题 采样主题的词汇,过程如附图2所示;统计主题z k 的词汇总数、数据I i 中包含主题z k 中词汇的数量
S2.3.4:重复S2.3.3,迭代N iter 次直到每个词汇w i,j 的主题z i,j 达到收敛,此时每个词汇所属主题不再改变;
S2.4:获取主题z k 的高频词向量与数据I i 的主题向量;
S2.4.1:读取每条数据I i 的词汇w i,j 和对应的主题z i,j ,统计主题z i,j =z k 的词汇w i,j 总数和数据I i z i,j =z k 中词汇w i,j 的数量
S2.4.2:根据公式(1)计算得到每个主题z k 中词汇w t 的概率δ t,k ,按照δ t,k 降序排列,得到主题z k 的高频词向量,0≤kK
S2.4.3:根据公式(2)计算得到每条数据I i 中词汇属于主题z k 的概率,根据降序排列,得到数据I i 的主题向量
S2.5:获取数据特征词序列;
S2.5.1:读取数据I i 的主题向量降序,取个主题;
S2.5.2:将数据中Seg_T i 的词汇与以上个主题的高频词向量的词汇进行映射匹配,两者词汇并集记录为,表示数据I i 的特征词序列;
S3:少数民族主题数据的抽取
S3.1:定义少数民族领域KG为G k =(V, E),其中V={v 1, v 2, …, v n }表示KG中实体对应节点的集合,E={e 1, e 2,…, e m }表示实体之间边的集合;任意一条边对应一个节点三元组e x =(v i , v j , label),节点v i 称为始点,节点v j 称为终点,label为始点与终点的关系标签;
S3.2:利用少数民族领域知识Z,构建领域KG,用G k 表示;
S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes, addition>,依次取Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为v 0 v i 的关系标签;
S3.2.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),此时label由节点的附加信息addition得到v i v j 的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为G k
S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬G k 表示;
S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>,依次取¬Z的元素实体名v i 与本领域名称v 0 表示为三元组(v 0 , v i , label),labelv i 的属性作为v 0 v i 的关系标签;
S3.3.2:再依次建立每个元素v i v j 的三元组(v i , v j , label),label由节点的附加信息addition得到v i v j 的关系标签,如v i v j 无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬G k
S3.4:实现少数民族领域数据的抽取;
S3.4.1:给定判定参数τ,0≤τ≤1;
S3.4.2:对数据I i ,计算其特征词序列d i 的长度m i m i ≥0;
S3.4.3:对数据的d i 的每个词汇w i,j ,利用G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇存在少数民族领域的词汇的个数,记为nn≥0;
S3.4.4:同样对数据的d i 的每个词汇w i,j ,利用¬G k 节点间的关联(v x , v x+1, label)依次查找的节点的邻接点,统计数据I i 中词汇为领域无关的噪声数据的词汇个数,记为≥0;
S3.4.5:计算数据I i 在领域G k 的概率,数据I i 在领域¬G k 的概率;如果p>τ<τ,则判别数据I i 为少数民族主题的数据,并将I i 加入到最终的少数民族数据集D中。
2.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法,其特征在于,步骤S2.3.1中,各个参数取值N iter =,为向上取整数,αK≤40时取α=0.5,当K>40时α=20/K,而参数β=0.01,
3.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法,其特征在于,步骤S3.4.1中,判定参数τ的范围是0.05≤τ≤0.15。
CN201810969312.1A 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法 Active CN109241273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810969312.1A CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810969312.1A CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Publications (2)

Publication Number Publication Date
CN109241273A true CN109241273A (zh) 2019-01-18
CN109241273B CN109241273B (zh) 2022-02-18

Family

ID=65069466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810969312.1A Active CN109241273B (zh) 2018-08-23 2018-08-23 一种新媒体环境下少数民族主题数据的抽取方法

Country Status (1)

Country Link
CN (1) CN109241273B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110013A (zh) * 2019-05-10 2019-08-09 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US20140280242A1 (en) * 2013-02-25 2014-09-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring hot topics
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106156090A (zh) * 2015-04-01 2016-11-23 上海宽文是风软件有限公司 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280242A1 (en) * 2013-02-25 2014-09-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring hot topics
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN106156090A (zh) * 2015-04-01 2016-11-23 上海宽文是风软件有限公司 一种基于知识图谱(Man-tree)的制造设计知识个性化推送方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHENFENG GAO ET AL.: "SeCo-LDA Mining Service Co-occurrence Topics for Recommendation", 《2016 IEEE INTERNATIONAL CONFERENCE ON WEB SERVICES》 *
董克 等: "基于Topic Model的我国档案学主题结构与演化研究", 《信息资源管理学报》 *
郭建斌: "民族志传播:一幅不十分完备的研究地图——基于中文文献的考察", 《新闻大学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110013A (zh) * 2019-05-10 2019-08-09 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法
CN110110013B (zh) * 2019-05-10 2020-03-24 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法

Also Published As

Publication number Publication date
CN109241273B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
Salloum et al. Analysis and classification of Arabic newspapers’ Facebook pages using text mining techniques
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
Wu et al. A survey of techniques for constructing Chinese knowledge graphs and their applications
TW202001620A (zh) 自動化網站資料蒐集方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和***
CN106202053A (zh) 一种社交关系驱动的微博主题情感分析方法
Huang et al. Research on multi-label user classification of social media based on ML-KNN algorithm
Giri Pathways of creative research: Towards a festival of dialogues
CN112084333A (zh) 一种基于情感倾向分析的社交用户生成方法
Zhao et al. ST-LDA: high quality similar words augmented LDA for service clustering
CN109241273A (zh) 一种新媒体环境下少数民族主题数据的抽取方法
Kordumova et al. Exploring the long tail of social media tags
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法
Mekthanavanh et al. Social web video clustering based on multi-modal and clustering ensemble
Zhao et al. Sentiment analysis based on transfer learning for Chinese ancient literature
Podder et al. Ontology-driven content-based retrieval of heritage images
Kettouch et al. An interlinking approach based on domain recognition for linked data
Shankar et al. An approach for extracting tweets from social media factors
Luo et al. Let the big data speak: Collaborative model of topic extract and sentiment analysis covid-19 based on weibo data
de Aragão Fraga On Automatic Generation of Knowledge Connections
Wu et al. Coarse-to-fine entity alignment for Chinese heterogeneous encyclopedia knowledge base
Mehri et al. Mining schema knowledge from linked data on the web
Briscoe et al. Passive crowd sourcing for technology prediction
CN102073647A (zh) 一种面向e-Science环境的多领域Web文本特征抽取***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant