CN109241273A

CN109241273A - 一种新媒体环境下少数民族主题数据的抽取方法

Info

Publication number: CN109241273A
Application number: CN201810969312.1A
Authority: CN
Inventors: 岳昆; 麻友; 李维华; 王笑; 王笑一; 郭建斌
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-18
Anticipated expiration: 2038-08-23
Also published as: CN109241273B

Abstract

本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法，根据新媒体数据海量、非结构化、多主题等特点，采用LDA模型对预处理后的新媒体数据进行特征抽取、主题分析、隐含主题挖掘，然后利用少数民族领域知识构建KG，用领域KG引导少数民族主题数据的抽取。本发明在采用LDA模型和KG引导数据的抽取过程中，根据不同数据规模设定参数，从而进行算法的优化，实现准确、高效、可扩展的新媒体数据抽取。

Description

一种新媒体环境下少数民族主题数据的抽取方法

技术领域

本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法。涉及一种基于隐含狄利克雷分配（Latent Dirichlet Allocation，LDA）新媒体数据进行隐含主题分析和特征抽取、并利用领域知识图谱（Knowledge Graph，KG）实现少数民族主题数据的抽取的方法。属于数据处理与知识发现领域。

背景技术

新媒体是相对于报刊、广播、电视等传统媒体而言的新的媒体形态，包括网络媒体、手机媒体和数字电视等，具有交互性与即时性、海量性与共享性、多媒体与超文本、个性化与社群化等特征。随着新媒体在信息传播中发挥日益重要的作用，网络媒体数据的处理与分析也受到国内外学者的高度关注。数据根据主要内容的区别进行划分，描述同一类内容的数据称为相同主题的数据，如旅游、娱乐、影视等主题。从海量、异构的网络媒体数据中获取特定主题的数据，并根据不同领域进行主题分析、内容筛选和信息过滤，是新媒体数据处理与知识发现的重要研究内容，也是决策支持、影响预测、知识库构建、舆情分析等工作的重要基础。

此外，随着我国文化战略的深入推进，围绕少数民族信息获取、分析与利用的课题研究不断增多，海量的新媒体数据包括大量有价值的少数民族主题数据，如微博平台中的少数民族旅游信息分享、少数民族间文化交流、少数民族热点问题、少数民族新闻事件等数据，可为少数民族主题的相关研究和开发丰富其数据来源。在新媒体环境下研究少数民族主题的数据抽取，针对少数民族政治、经济、文化等方面的实际问题，对海量新媒体数据的处理与分析，数据驱动的知识发现，以及数据密集型的少数民族地区舆情监控与管理政策制定、少数民族文化传播与遗产保护的研究和应用，具有重要意义。

数据抽取是从源数据中抽取目标数据的过程，公知的数据抽取研究成果众多，针对不同数据或不同应用而采用的数据抽取技术各有不同，例如，刘锦文等（<中国科学技术大学硕士论文>，2016）实现了基于无监督学***台中少数民族主题数据的抽取也缺乏通用性。因此，本发明针对新媒体海量、非结构化、多主题等特征，基于LDA模型挖掘网络新媒体数据中的隐含主题，实现多主题分析，再利用数据特征词序列和知识图谱描述的实体及实体间的关联关系，能够更准确、全面地实现少数民族主题数据的抽取。

LDA模型是一种贝叶斯层次模型，公知的研究中，LDA模型在数据抽取、文本挖掘、社交网络和自然语言处理等领域广泛应用。例如，刘少鹏等（<计算机学报>，2015）使用LDA对海量的电影评论数据进行了定性和描述性的主题提取，刘冰玉等（<软件学报>，2017）研究海量的电商评论数据，实现了基于语义约束LDA的商品特征和情感词提取，赵科科等（<专利CN107885754A>，2018）提供一种基于LDA模型从交易数据中提取信用变量的方法和装置。以上研究成果利用LDA模型对海量数据进行处理，展现了LDA模型在主题分析、特征提取、文本挖掘等问题研究上的突出作用，在此基础上，本发明进一步在分析海量、非结构化、多主题的新媒体数据上发挥LDA模型的优势。

KG是一种表达实体、概念及其之间关系的语义网络，公知的研究中，KG被广泛用于个性化推荐、智能搜索、知识发现等领域。例如，陈德华等（<计算机研究与发展>，2017）提出一种临床领域时序KG的链接预测模型，高俊平等（<计算机学报>，2016）提出一种面向中文***领域知识的演化的关系抽取方法，雷凯等（<专利CN108073711A>，2018）提出了一种基于KG的关系抽取方法，提取KG的路径与属性信息以挖掘潜在的语义信息。以上成果无论是医学研究还是数据关系的抽取，都充分展现了KG语义网络丰富的先验知识在现实应用中的作用，但同时针对不同应用来选取KG，也影响着问题研究的高效性与有效性，针对不同的应用场景、特定的研究领域，需要构建相应的KG，更全面、完备地涵盖所研究领域的知识与语义关系，从而提高数据抽取结果的准确性和高效性。

多民族特征，使得少数民族主题的相关研究成为重要的课题，但由于少数民族主题下数据源的有限性、知识的偏僻性、文化的差异性，使得跨学科研究的难度相对较大，而在当前研究的学科交叉成为众多课题的必然，如何利用新媒体中大量的数据作为依据，从中抽取有价值的数据，成为相关研究的基础。

因此，本发明针对新媒体少数民族主题数据的抽取问题，以新媒体平台的大规模数据和少数民族领域知识为基础，以从海量、非结构化、多主题的新媒体数据中抽取少数民族主题数据为目标，利用LDA模型从非结构化的数据中挖掘隐含的多主题信息、进行主题分析，并实现数据的特征抽取，再利用领域KG丰富的语义关系，解决海量的新媒体数据中抽取少数民族主题数据过程中遇到的专业性强、词源偏僻、词汇歧义的问题。综上，本发明给出了一种新媒体环境下少数民族主题数据的抽取方法，为大规模新媒体数据的处理、分析、预测和决策等应用奠定新的技术基础，也为特定领域新媒体数据抽取提供参考。

发明内容

为克服少数民族领域因词源生僻、专业性强、词语异义等情况造成的效率瓶颈问题，本发明提供一种从新媒体平台获取数据、基于LDA模型和KG对少数民族主题数据进行抽取的方法。该方法能针对海量、非结构化、多主题等新媒体数据的特点，实现准确、高效、可扩展的新媒体特定领域数据的抽取。

本方法分为三个步骤，第一步是数据预处理，获取所需新媒体数据，采用分词工具对数据内容进行分词处理，根据所研究少数民族领域增加领域词汇进行分词，并添加个性化停用词，简化数据预处理结果；第二步是新媒体数据的主题分析与特征抽取，利用LDA模型对预处理后的数据进行迭代处理，并进行主题分析、挖掘数据隐含的主题，得到每条数据的主题向量和所有主题的高频词向量，将数据所属主题的高频词向量与数据内容匹配，得到每条数据的特征词序列；第三步是基于KG的少数民族主题数据抽取，首先将少数民族领域知识构建领域KG，利用KG引导，即利用KG丰富的语义关系作为先验知识，以第二步中数据的特征词序列为依据进行匹配，筛选过滤出少数民族主题的数据，同时构建领域无关的噪声数据构成的KG，实现反向过滤，增加数据抽取的准确性。

本方法的步骤如下：

S1：数据预处理

S1.1：从社交网络或新闻网页上获取M条媒体数据I={I ₁, I ₂, …, I _M}，I _i表示第i条数据，0≤i≤M，I _i用一个三元组（id, T _i, A _i）表示，id为数据实例标识，T _i表示数据I _i的文字内容，A _i={A _i,u, A _i,p, A _i,l, A _i,v, A _i,f, A _i,q, A _i,c, A _i,r}表示附加信息，分别表示数据发布者A _i,u、发布时间A _i,p、发布地点A _i,l、发布源A _i,v、转发量A _i,f、点赞量A _i,q、评论数A _i,c和数据的读取时间A _i,r；

S1.2：少数民族领域知识Z=<term, attributes, addition>由领域专家给出，term为实体名，attributes为实体属性，addition为词条附加说明；

S1.3：获取停用词集Stop_words；

S1.4：采用分词工具对获取的媒体数据文字内容T _i进行分词处理，分词前先将Stop_ words添加到分词工具默认停用词集中，将少数民族领域知识实体名term集添加到分词工具默认词汇集中，T _i的分词结果单独存到数据I _i末端，记为Seg_T _i；

S2：主题分析与特征抽取

S2.1：定义词典W={w _1, w ₂, …, w _S}存储数据包含的全部词汇，S为词典中的词汇总数，w _i≠w _j(1≤i,j≤S,i≠j)；

S2.2：定义数据I _i的主题向量，是I _i中词汇属于主题z _k的概率，0≤≤1，其中，主题z _k用高频词向量表示，S _k为z _k的总词数，是z _k总词汇中的词w _t的概率，0≤δ _t,k≤1。和分别由公式（1）（2）求得：

其中，表示主题z _k的词汇w _t的总数，表示I _i中包含主题z _k中词汇的数量，S为词典中的词汇总数，K为主题总数；

S2.3：采样主题与词汇；

S2.3.1：给定迭代次数N _iter，N _iter≥1，主题总数K，K≥1，参数，β，，0<α,β<1，≥1；

S2.3.2：对每个主题z_k，采样主题中词汇的概率分布；

S2.3.3：对数据I _i，采样数据的主题概率分布，对数据的Seg_T _i，采样单词的主题，采样主题的词汇，过程如附图2所示；统计主题z _k的词汇总数、数据I _i中包含主题z _k中词汇的数量；

S2.3.4：重复S2.3.3，迭代N _iter次直到每个词汇w _i,j的主题z _i,j达到收敛，此时每个词汇所属主题不再改变；

S2.4：获取主题z _k的高频词向量与数据I _i的主题向量；

S2.4.1：读取每条数据I _i的词汇w _i,j和对应的主题z _i,j，统计主题z _i,j=z _k的词汇w _i,j总数和数据I _i中z _i,j=z _k中词汇w _i,j的数量；

S2.4.2：根据公式（1）计算得到每个主题z _k中词汇w _t的概率，按照降序排列，得到主题z _k的高频词向量，0≤k≤K；

S2.4.3：根据公式（2）计算得到每条数据I _i中词汇属于主题z _k的概率，根据降序排列，得到数据I _i的主题向量；

S2.5：获取数据特征词序列；

S2.5.1：读取数据I _i的主题向量按降序，取个主题；

S2.5.2：将数据中Seg_T _i的词汇与以上个主题的高频词向量的词汇进行映射匹配，两者词汇并集记录为，表示数据I _i的特征词序列；

S3：少数民族主题数据的抽取

S3.1：定义少数民族领域KG为G _k=(V, E)，其中V={v ₁, v ₂, …, v _n}表示KG中实体对应节点的集合，E={e ₁, e ₂,…, e _m}表示实体之间边的集合；任意一条边对应一个节点三元组e _x=（v _i, v _j, label），节点v _i称为始点，节点v _j称为终点，label为始点与终点的关系标签；

S3.2：利用少数民族领域知识Z，构建领域KG，用G _k表示；

S3.2.1：首先，从领域专家获取少数民族领域知识Z=<term, attributes, addition>，依次取Z的元素实体名v _i与本领域名称v ₀表示为三元组（v ₀, v _i, label），label取v _i的属性作为v ₀ v _i的关系标签；

S3.2.2：再依次建立每个元素v _i与v _j的三元组（v _i, v _j, label），此时label由节点的附加信息addition得到v _i v _j的关系标签，如v _i与v _j无关系，则相应的边也不存在，所有的三元组共同构成少数民族领域KG为G _k；

3.3：对于领域无关的数据，称为噪声数据，这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性，为此，构建的无关领域KG，用¬G _k表示；

S3.3.1：先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes,addition>，依次取¬Z的元素实体名v _i与本领域名称v ₀表示为三元组（v ₀, v _i, label），label取v _i的属性作为v ₀ v _i的关系标签；

S3.3.2：再依次建立每个元素v _i与v _j的三元组（v _i, v _j, label），label由节点的附加信息addition得到v _i v _j的关系标签，如v _i与v _j无关系，则相应的边也不存在，所有的三元组共同构成无关领域KG为¬G _k；

S3.4：实现少数民族领域数据的抽取；

S3.4.1：给定判定参数τ，0≤τ≤1；

S3.4.2：对数据I _i，计算其特征词序列d _i的长度m _i，m _i≥0；

S3.4.3：对数据的d _i的每个词汇w _i,j，利用G _k节点间的关联(v _x, v _x+1, label)依次查找的节点的邻接点，统计数据I _i中词汇存在少数民族领域的词汇的个数，记为n，n≥0；

S3.4.4：同样对数据的d _i的每个词汇w _i,j，利用¬G _k节点间的关联(v _x, v _x+1, label)依次查找的节点的邻接点，统计数据I _i中词汇为领域无关的噪声数据的词汇个数，记为，≥0；

S3.4.5：计算数据I _i在领域G _k的概率，数据I _i在领域¬G _k的概率。如果p>τ且<τ，则判别数据I _i为少数民族主题的数据，并将I _i加入到最终的少数民族数据集D中；

本发明通过以上的步骤可实现从新媒体环境下对少数民族主题数据的抽取，而为了数据抽取更加准确、高效，进一步对方法中的参数进行限定优化，在步骤S2.3.1中，迭代次数N _iter的给定关系到方法的效率与结果的准确性，迭代次数过少则结果中每个词汇w _i,j的主题z _i,j尚未收敛，主题特征词不准确，迭代次数过多，已经收敛后的迭代增加耗时，降低效率，本发明取，S为词典中的词汇总数，为向上取整数，将迭代次数与数据量直接联系，此外，参数当K≤40时取值=0.5，当K>40时取值=20/K，而β取值0.01，取值，即随着主题数K增加，取数据个主题的高频词向量求数据的特征词序列也随着增加。另外，在步骤S3.4.1中，领域的判定参数τ的范围取0.05≤τ≤0.15，此时数据能够实现更准确的领域归属判定。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例：“新浪微博”藏族数据的抽取实例。

步骤一：预处理

首先从“新浪微博”平台获取微博数据，单条微博数据如表1所示。

表1 微博数据示例

为方便描述，在以下数据抽取的说明中将附加信息项A _i隐藏，于是获取的新浪微博数据，包含5条微博数据a1~a5，如表2所示。

表2 新浪微博数据

然后，对微博数据的文字部分T _i进行分词处理，选取分词工具，支持自定义词典和停用词，并引入藏族的领域知识Z={<西藏，地名，藏族聚集省>，<拉萨，城市名，西藏省会>，<贡嘎，地名，西藏南部>，<藏区，模糊地名，泛指藏族聚集地>，<藏民，人群统称，指藏族人>，<哈达，物名，藏族人礼仪丝织品>}，将藏族领域的词汇添加到分词工具词典中，分词结果记作Seg_T _i，如表3所示。

表3 新浪微博数据分词结果

步骤二：主题分析与特征抽取

读取微博数据，根据词汇的出现顺序和不重复原则得到词典W={1：西藏，2：和平，3：解放，4：居住，5：藏民，6：古天乐，7：基金，8：捐资，9：援建，10：学校，11：藏区，12：哈达，13：假期，14：香格里拉，15：青海湖，16：拉萨，17：旅行，18：攻略，19：贡嘎，20：机场，21：公里}。

给定迭代次数，主题总数K=3，参数=0.5，β=0.01，==1。采样单词的主题，采样主题的词汇，迭代10次，使得单词都能分配到相应主题。

得到所有词汇所对应的主题分别为：

旅游：{假期，旅行，攻略，拉萨，机场，公里，香格里拉，青海湖，西藏，贡嘎}

文化：{和平，解放，居住，学校，哈达，藏区，藏民}

公益：{基金，捐资，援建，古天乐}

循环统计条微博数据的各个主体的总数和各个主题的词汇总数。以微博数据a1为例，计算，有=1，=4，=0，所以由公式（1）有：

因此，微博数据a1内容的主题向量为（0.2143，0.75，0.0357）。同理可求得微博数据a2的主题向量为（0.0357，0.2143，0.75），a3的主题向量为（0.0435，0.9130，0.0435），a4的主题向量为（0.9130，0.0435，0.0435），a5的主题向量为（0.9583，0.0208，0.0208）。

对于每个主题z _k，计算，以主题为例，由词典W可知，t=1表示“西藏”，t=13表示“假期”，t=16表示“拉萨”，由公式（2）计算如下：

进一步按照降序排列，得到主题的高频词向量Δ ₁=((“拉萨”, 0.2118), (“假期”, 0.1414), (“西藏”, 0.1414), (“旅行”, 0.0711) , (“攻略”, 0.0711), …)。同理可得主题的高频词向量为Δ ₂=((“学校”, 0.2182), (“藏民”, 0.2182), (“和平”,0.1097), (“哈达”, 0.1097) , (“解放”, 0.1097), …)，主题的高频词向量为Δ ₃=((“基金”, 0.2399), (“捐资”, 0.2399), (“援建”, 0.2399), (“古天乐”, 0.2399))。

取=1，即取每条微博数据的Seg_T _i与数据top-1个主题的高频词向量的词汇进行映射匹配，得到数据的特征词序列。以微博数据a1为例，其top-1主题为主题，则将主题的高频词向量Δ ₂与a1的Seg_T _i的映射匹配，得d ₁=<“和平”, “解放”, “居住”, “藏民”>，同理得到：

d ₂=<“古天乐”, “基金”, “捐资”, “援建”>

d ₃=<“藏区”, “学校”, “藏民”, “哈达”>

d ₄=<“假期”, “香格里拉”, “青海湖”, “拉萨”>

d ₅=<“旅行”, “攻略”, “假期”, “西藏”, “拉萨”, “贡嘎”, “机场”, “拉萨”, “公里”>

步骤三：少数民族的数据抽取

首先，由藏族领域知识Z={<西藏,地名,藏族聚集省>，<拉萨，城市名，西藏省会>，<贡嘎，地名，西藏南部>，<藏区，模糊地名，泛指藏族聚集地>，<藏民，人群统称，指藏族人>，<哈达，物名，藏族人礼仪丝织品>}构建领域KG。

依次取Z的元素实体名v _i与本领域名称v ₀表示为三元组（v ₀, v _i, label），如（“藏族”，“西藏”，“地名”），再依次建立每个元素v _i与v _j的三元组（v _i, v _j, label），此时label由节点的附加信息得到，如（“西藏”，“拉萨”，“省会”），图形化表示结果如附图3所示。

同上，由“旅游”主题的领域无关知识¬Z={<云南，省名，旅游省份 >，<青海，省名，旅游省份>，<香格里拉，地名，云南旅游景点>，<青海湖，湖泊名，青海省旅游景点>}构建一个与藏族无关的“旅游”的KG为¬G _k，如附图4所示。

给定参数τ=0.1。对微博数据a1，求取词特征词序列d ₁的长度m _i=4，对d ₁每个词汇分别从G _k中沿节点与边查找对应的词汇，统计得到n=1，=0。

因此，微博数据a1在领域G _k的概率=0.25，在领域¬G _k的概率=0，由于p>τ且<τ，则微博数据a1属于“藏族”领域数据，将a1加入抽取得到的藏族数据集D中。同理可得，a3和a5也属于“藏族”领域数据。对于a4，由于=0.25>τ，=0.5>τ，所以属于涉及到藏族地名的无关噪声数据。

“藏族”主题数据的抽取结果如表4所示。

表4 “藏族”主题数据抽取结果

附图说明

图1，本发明执行流程图。包括以下三个步骤：新媒体数据的预处理，主题分析与特征抽取，少数民族数据的抽取。

图2，LDA图模型。

图3，实施例中藏族领域知识图谱图形化示例。

图4，实施例中噪声数据对应知识图谱图形化示例。

Claims

1.一种新媒体环境下少数民族主题数据的抽取方法，其特征在于包括以下步骤：

S1：数据预处理

S1.3：获取停用词集Stop_words；

S2：主题分析与特征抽取

S2.2：定义数据I _i的主题向量，是I _i中词汇属于主题z _k的概率，0≤≤1，其中，主题z _k用高频词向量表示，S _k为z _k的总词数，是z _k总词汇中的词w _t的概率，0≤≤1，和分别由公式（1）（2）求得：

S2.3：采样主题与词汇；

S2.3.1：给定迭代次数N _iter，N _iter≥1，主题总数K，K≥1，参数α，β，κ，0<α,β<1，κ≥1；

S2.3.2：对每个主题z_k，采样主题中词汇的概率分布；

S2.4：获取主题z _k的高频词向量与数据I _i的主题向量；

S2.4.2：根据公式（1）计算得到每个主题z _k中词汇w _t的概率δ _t,k，按照δ _t,k降序排列，得到主题z _k的高频词向量，0≤k≤K；

S2.5：获取数据特征词序列；

S2.5.1：读取数据I _i的主题向量按降序，取个主题；

S3：少数民族主题数据的抽取

S3.2：利用少数民族领域知识Z，构建领域KG，用G _k表示；

S3.3：对于领域无关的数据，称为噪声数据，这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性，为此，构建的无关领域KG，用¬G _k表示；

S3.4：实现少数民族领域数据的抽取；

S3.4.1：给定判定参数τ，0≤τ≤1；

S3.4.5：计算数据I _i在领域G _k的概率，数据I _i在领域¬G _k的概率；如果p>τ且<τ，则判别数据I _i为少数民族主题的数据，并将I _i加入到最终的少数民族数据集D中。

2.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法，其特征在于，步骤S2.3.1中，各个参数取值N _iter=，为向上取整数，α当K≤40时取α=0.5，当K>40时α=20/K，而参数β=0.01，。

3.根据权利要求1所述的新媒体环境下少数民族主题数据的抽取方法，其特征在于，步骤S3.4.1中，判定参数τ的范围是0.05≤τ≤0.15。