CN108021715B - 基于语义结构特征分析的异构标签融合*** - Google Patents

基于语义结构特征分析的异构标签融合*** Download PDF

Info

Publication number
CN108021715B
CN108021715B CN201711469839.XA CN201711469839A CN108021715B CN 108021715 B CN108021715 B CN 108021715B CN 201711469839 A CN201711469839 A CN 201711469839A CN 108021715 B CN108021715 B CN 108021715B
Authority
CN
China
Prior art keywords
label
fused
labels
tree
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711469839.XA
Other languages
English (en)
Other versions
CN108021715A (zh
Inventor
王平辉
李娜
陶敬
韩婷
郝传洲
张姗
许诺
孙飞扬
张晓明
林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201711469839.XA priority Critical patent/CN108021715B/zh
Publication of CN108021715A publication Critical patent/CN108021715A/zh
Application granted granted Critical
Publication of CN108021715B publication Critical patent/CN108021715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于语义结构特征分析的异构标签融合***,着眼于各个行业网站不同标签体系的整理和融合,提出基于语义结构特征分析的异构标签融合***,用于构建细粒度、结构化的标签体系。由于不同来源标签体系结构不同,本发明提出利用标签网页信息来融合标签体系,通过识别两个标签体系的映射关系:等同关系和上下位关系,将异构标签体系进行合并。由于选取主流网站的标签体系,保证标签体系来源的真实性并具有说服力,使得到的标签体系更精炼、准确,为用户行为画像提供基础。

Description

基于语义结构特征分析的异构标签融合***
技术领域
本发明属于大数据应用技术领域,特别涉及一种基于语义结构特征分析的异构标签融合***,通过构建标签体系,为用户行为画像奠定基础。
背景技术
随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生,奠定了大数据时代的基石,并为企业提供了足够的信息基础。目前,用户画像技术已经广泛应用于广告营销和客户流失分析等领域,比如推荐***、购买预测等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,还能反映资源语义特征,这一系列的刻画用户行为的标签构成了标签体系。
标签体系的结构、粒度从一定程度上决定了用户画像的准确性,利用不准确的标签词语描述用户行为,将会造成用户画像不准确。所以标签体系的构建是很重要的,目前构建标签体系的方法主要包括协同标签***、本体结构构建、主题模型提取等,这些方法最主要的问题是忽略标签的结构,并且可能存在标签重复。对于协同标签***构建的标签体系,没有明显的层次结构,并且存在重复的标签;对于本体方法构建的标签体系,主要是本体构建的方法本身并不成熟,需要大量人工的参与;对于主题模型提取方法构建的标签体系,相对层次结构不明显,并且存在粗粒度的问题,即标签太宽泛,无法准确描述用户行为特性。
为了更好的描述用户行为,需要建立更全面、结构化、细粒度的标签体系。
发明内容
为了克服上述现有技术的缺点,本发明着眼于各个行业网站不同标签体系的整理和融合,提供了一种基于语义结构特征分析的异构标签融合***,旨在构建细粒度、结构化的标签体系。从用户的行为数据中抽取描述用户行为的标签需要花费大量的人力物力,但是实际上已经存在比较完备的标签体系可供使用——网站的导航标签,它是专家给出的,并且结合众多网民的用户体验进行优化调整,很大程度上反映了用户的行为偏好。为了使标签更具有说服力和代表性,本发明主要分析了各个行业主流网站的导航标签体系,通过融合不同网站标签体系来构建标签体系,最终获得具有大众性、准确性、精炼简洁的标签体系。
为了实现上述目的,本发明采用的技术方案是:
一种基于语义结构特征分析的异构标签融合***,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签***到基准标签树中,最终实现将待融合标签树***到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。
所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。
所述原始标签体系中,将标签树分组,分组条件有两个:
第一、两个标签树的根标签完全相同;
第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;
当两个标签树满足以上任一条件,则将其分为一组;
根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。
将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。
所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:
对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。
标签间映射关系即待融合标签在基准标签树中的合并位置,所述将融合标签和基准标签一一映射的流程为:
从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;
所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签***;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系。
将待融合标签***到基准标签时,自底向上从待融合标签体系中取待融合标签,将待融合标签加入到基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签,在标签树两两合并过程中,首先判断分组内的标签树是否全部合并,若否,则继续合并分组内其他标签树;若是,则判断是否还有分组的标签树没有进行合并,若是,则继续合并其他分组的标签树;否则合并完毕。
与现有技术相比,本发明的有益效果是:
1.标签体系具有大众性、准确性。
本发明构建一个相对比较完备的标签体系的方法***,以多个知名网站上的已有标签体系作为基础输入,通过对其进行融合,得到一个普适的标签体系,更大程度上反映了用户喜好。由于网站的标签体系是通过指引用户找到感兴趣的站点,提供良好的用户体验,所以网站本身的标签体系不仅很好的描述了网站的信息,更在一定程度上适应用户的兴趣和习惯,使用这样具有一定代表性的标签作为构建标签体系的基础,可使最后形成的标签体系更准确且适应性广,描述用户爱好行为更准确简洁精炼。
2.标签体系具有全面、精炼、结构化、细粒度等优点。
现在标签体系只着眼于标签本身,而并没有针对不同标签体系进行融合,所以得到的标签体系并不完善。本发明构建的标签体系由于是合并多个网站的标签体系,包含的标签类别更多,描述用户喜好更加细致,从语义和内容的角度将标签体系进行融合,去除重复语义标签并将异构标签体系的结构统一,得到精炼、结构化、细粒度的标签体系。
3.本发明提出的标签合并方法是基于语义结构分析的,由于标签体系的结构、词语表示不同,提出通过识别标签间的映射关系——等同关系和上下位关系来合并标签体系,并提出基于标签对应的网页信息的等同关系和上下位关系的识别方法。
附图说明
图1为本发明的算法结构图。
图2为本发明的融合算法流程图。
图3为本发明中标签映射模块的算法流程图。
图4为本发明中标签映射模块等同关系映射方法的算法流程图。
图5为本发明中标签映射模块上下位关系映射方法的算法流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明算法的基本思想为将标签树两两进行合并,将一个标签树(定义为待融合标签树)***到另一个标签树(定义为基准标签树)中,通过找到待融合标签(待融合标签树中的标签称为待融合标签)与基准标签(基准标签树中的标签称为基准标签)的映射关系——等同关系和上下位关系,将待融合标签***到基准标签树中,最终生成合并后的标签体系。
首先获得多个具有代表性网站(比如新浪、网易)的标签体系,也就是网站的导航目录:网站的导航,为用户浏览网站提供便捷,一方面帮助用户快速、方便的获得他们想要的信息,另一方面导航反映了网站的主要内容。网站导航旨在提供清晰全面的分类标签,从而带来更好的用户体验,所以网站的标签体系从一定程度上分析了用户的兴趣偏好,并且这些标签简洁准确,汲取了众多人经验而得,相比于一个人的经验更具有广度和深度;
接下来将以上获取的标签体系进行融合,形成统一的标签体系,包括:标签合并顺序确定和标签关系映射两部分。标签合并顺序确定指确定哪个标签体系是待融合标签,哪个标签体系是基准标签;标签关系映射即标签合并位置识别,通过将两个标签体系的标签一一映射,找到等同关系和上下位关系标签对,根据标签间的映射关系,将待融合标签***到基准标签,等同标签在合并时是将待融合标签与基准标签合并成一个标签;上下位标签对合并时是将待融合标签作为基准标签的子标签***到基准标签树中。
本发明***主要包括三模块:数据处理、标签映射、标签合并。本***的输入为网站的导航标签体系,输出为融合后的标签体系。
数据处理:
数据处理模块是***的数据处理模型,包括获取网站导航标签体系以及标签对应的网页文本等基本数据,以及决定标签体系的合并顺序两部分。
标签映射:
标签映射模块是***的核心模块,决定标签体系如何合并。包括等同关系标签映射和上下位关系标签映射两部分。
标签合并:
标签合并模块是***的输出模块,根据标签映射模型得到的标签对信息,将标签体系进行合并,最终得到去除重复、结构统一的融合标签体系。
如图2所示为异构标签融合***的详细合并流程图,下面将结合图1和2介绍本发明的详细步骤。
步骤1:获取原始标签体系以及网页文本;
首先通过网络爬虫等方法获取网站的导航标签,作为原始标签,例如门户网站中的新浪网、搜狐网等;金融网站中的中金在线网、东方财富网等;电商网站中的天猫、苏宁易购等。由于标签体系是由词语构成的,词语包含的语义比较少,为了补充标签的语义,需要获取标签对应的网页文本,通过网络爬虫方法,获取标签网页文本,具体方法是:标签在网站导航栏中存在相应的链接URL,获取链接对应的网页文本以及网页中的新的链接(通过域名过滤不属于该网站或者该标签的网页URL)并爬取新的链接的文本,这样可以获取描述标签语义的网页文本,用于判断标签间的语义关系。
步骤2:标签树分组;
本步骤将满足分组条件的标签树分组,以便后续步骤将分组内的标签树两两进行合并,最终得到合并后的标签体系。标签树的分组条件有两个:第一、当两个标签树的根标签完全相同时,这两个标签树的内容是相似的,所以能够分为一组;第二、当标签树的根标签不同时,如果标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值(阈值根据统计分析方法设定),则认为两个标签树的内容也相似,能够分为一组。以上两个条件只要满足一个条件,则认为两个标签树可以分为一组。根据上述判断条件将原始标签树的所有标签树分组,每个分组内的标签内容相似,可以用分组内的根标签(分组内根标签基本都是相同的,如果不同选择排序在第一个的标签树的根标签作为分组名)表示这个分组的内容,同时作为分组名称。
步骤3:标签树分组组内标签树的优先排序;
从以上分组中依次取分组,将分在同一组的标签树两两进行合并(即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止)。当两个标签树合并时,其中一个作为基准标签树,另一个作为待融合标签树,将待融合标签树***到基准标签树中,合并后的标签树的结构与基准标签树相似。所以,基准标签树的结构越分明,合并后的标签树也会结构越分明。在合并的过程中,由于每个分组中标签树的数量可能超过两个,所以需要对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树。对每个分组内的标签树根据其结构层次数量和包含标签的数量进行排序,以决定标签树的合并顺序。标签树排序的具体做法为:按照标签树的分层排序,层数越多,说明标签的划分结构粒度越细,更完善,排位应越靠前;将层数相同的标签树再进行排序,排序方法为:比较非叶子标签的数目,数量越多,说明标签的划分粒度越细,结构更细致,排位应越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,说明标签树描述的子领域越广,结构越细致,排位越靠前。
步骤4:任取一个分组;
任意取某一个根标签分组,为下一步合并标签树做准备。
步骤5:按序取基准标签树和待融合标签树;
按照以上分组内标签树的排列顺序,依次取两个标签树进行合并。排序靠前的标签树作为基准标签树,排序在后的标签树作为待融合标签树。
步骤6:识别待融合标签和基准标签间的映射关系——等同关系和上下位
关系;
根据等同标签映射方法和上下位标签映射方法判断标签间的映射关系,即待融合标签在基准标签树中的合并位置。标签合并的位置包括三种情况:一种是等同关系,即待融合标签与基准标签含义相同,那么待融合标签其实是与基准标签合并了;第二种是待融合标签与基准标签是上下位关系,即待融合标签作为基准标签的下级标签***;第三种是跟随其父标签合并,有些待融合标签是在基准标签树中不存在的,这种时候这个待融合标签就跟随其父标签合并到基准标签树中,合并后这个待融合标签与其父标签依然保持上下位关系。故如图3所示,标签合并位置识别方法为:从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到了,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到了,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有标签的合并位置。下面详细介绍等同关系映射方法和上下位关系映射方法。
等同关系映射方法
如图4所示为等同关系识别方法的流程图,标签的等同关系识别方法有两种:一种根据标签及其路径信息(即标签到根标签的路径标签)判断两个标签是否是等同关系;另一种为根据标签的网页文本内容,提取网页的向量表示,即为标签的向量表示,计算两个标签向量的cosine相似度,来判断两个标签是否为等同关系。在判断待融合标签的等同关系标签时,首先使用第一种方法确定是否能够找到相应的标签,若能找到,则判断下一个待融合标签,否则使用第二个方法寻找等同关系标签,若能找到,则判断下一个待融合标签,否则寻找该标签是否存在上下位关系标签。下面详细介绍这两种方法:
方法一:比较两个标签本身的语义相似性,同时也要保证其上级标签的语义相似(或者说不冲突)。具体方法为:
1)任取一个基准标签;
2)比较待融合标签与基准标签是否“相同”,若相同,则继续,否则比较待融合标签与下一个基准标签,转1);
判断两个标签是否“相同”的方法:有两个标签——待融合标签A和基准标签B,标签A和B分别由n和m个字组成,它们分别表示为A1A2…An和B1B2…Bm,其中Ai,Bj(i=1,2…n;j=1,2…m)分别表示组成标签A和B的字。逐个比较标签A和B的字,标签A中的字有a个能在标签B中找到,则标签A和B的相似度为a/n,若这个相似度大于0.5,则这两个标签是“相同”的,否则,不“相同”。
3)最后比较标签的上级标签是否相同。将待融合标签的父标签、祖父标签和基准标签的父标签、祖父标签两两进行比较,存在一对“相同”时,待融合标签与基准标签是等同关系,否则,比较待融合标签与下一个基准标签,转1);
4)若没有找到等同关系的基准标签,则使用方法二继续寻找。
方法二:利用标签对应的网页信息表示标签,计算网页文本的向量表示,从而表示标签,通过计算两个标签向量的cosine相似度判断两个标签的等同关系。具体方法为:
1)根据标签对应的网页文本获得向量表示,方法为:TF-IDF。输入为标签对应的所有网页文本(看做是一个文档,并且已经分词),输出为各个标签的向量表示。首先根据所有的文档构建词典(假设有N个词,那么得到的表示向量维度为N),然后计算词典中每个词在这个标签文档中的TF-DIF值,这些TF-IDF值构成这个标签的向量表示,维度是N。一般N的数值比较大,会进行降维,方法为LDA。最后得到每个标签M维的向量表示。
2)计算待融合标签与每个基准标签的向量cosine相似度,待融合标签的向量表示α与基准标签的向量表示β的cosine相似度,即
Figure BDA0001531800360000091
3)根据相似度从大到小对基准标签进行排序,若最大相似度大于阈值(根据实验设定),则待融合标签与这个基准标签为等同关系。
上下位关系映射方法
上下位关系是描述两个词语之间包含与被包含的语义关系,下位词是上位词的一个特殊实例或者一个子类。如图5所示是上位关系映射方法流程图,上下位标签识别方法包括两种:一种为通过判断待融合标签对应的网页标题中包含基准标签的比例,判断上下位关系,即待融合标签是否为基准标签的下位词;另一种为基于标签对应的网页文本学习得到标签的向量,通过判断待融合标签与基准标签的子标签相关性,判断上下位关系。在识别时,首先会使用第一种方法,若不能找到则使用第二种方法,若都不能找到,则该待融合标签跟随其父标签进行合并。下面详细介绍两种方法。
方法一:根据网页标题包含比例判断上下位关系。具体方法为:
1)对所有的基准标签计算待融合标签网页title包含基准标签的比例:判断待融合标签A与基准标签B是否为上下位关系,已知待融合标签的n个网页title,若网页title中有m个title包含基准标签B,则包含比例为
Figure BDA0001531800360000101
2)根据包含比例从大到小进行排序,当最大的包含比例大于阈值时,则待融合标签与这个基准标签是上下位关系,否则使用方法二继续查找。
方法二:根据子标签的相关性判断上下位关系。具体方法为:
1)计算待融合标签与所有基准标签(具有子标签的)的子标签相关性:已知待融合标签A与基准标签B,以及子标签B1,B2…Bn的向量表示,分别计算标签A与标签B,以及B1,B2…Bn的cosine相似度C,C1,C2…Cn,标签A与标签B的相关性为
Figure BDA0001531800360000102
2)按照相关性从大到小进行排序,若最大的相关性大于阈值,则待融合标签与这个基准标签为上下位关系,否则该待融合标签将跟随其父标签进行合并。
步骤7:根据标签间的映射关系,合并标签树;
根据上一步骤计算出的标签间映射关系,将待融合标签***到基准标签,等同标签在合并时是将待融合标签与基准标签合并成一个标签;上下位标签对合并时是将待融合标签作为基准标签的子标签***到基准标签树中。具体过程如下:自底向上从待融合标签体系中取待融合标签,将待融合标签加入到上一步骤计算好的基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签。
步骤8:判断分组中的树是否合并完毕;
判断分组内的标签树是否全部合并,若是,则继续;否则转步骤5,继续合并分组内其他标签树。
步骤9:判断是否存在未合并的根标签分组;
判断是否还有分组的标签树没有进行合并,若是,则转步骤4,继续合并其他分组的标签树;否则继续。
步骤10:合并完毕。
经过以上步骤,获得最终的标签体系,这个标签体系中的标签来自流行网站的命名,具有精准的特点,同时融合了多个流行网站的标签体系,具有全面的特点,经过上述合并,重复的标签也被剔除,具有精简的特点,并且标签体系是结构化的、细粒度的。

Claims (8)

1.一种基于语义结构特征分析的异构标签融合***,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签***到基准标签树中,最终实现将待融合标签树***到基准标签树中,实现标签树的两两合并,生成合并后的标签体系;
其中标签间映射关系即待融合标签在基准标签树中的合并位置,所述将待融合标签和基准标签一一映射的流程为:
从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;
所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签***;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系;
其特征在于,所述等同关系通过如下方法之一识别:
a1、根据标签及其路径信息即标签到根标签的路径标签判断两个标签是否是等同关系;
a2、根据标签的网页文本内容,提取网页的向量表示,即为标签的向量表示,计算两个标签向量的cosine相似度,来判断两个标签是否为等同关系;
在判断待融合标签的等同关系标签时,首先使用方法a1确定是否能够找到相应的标签,若能找到,则判断下一个待融合标签,否则使用方法a2寻找等同关系标签,若能找到,则判断下一个待融合标签,否则寻找该标签是否存在上下位关系标签;
所述上下位关系是描述两个词语之间包含与被包含的语义关系,下位词是上位词的一个特殊实例或者一个子类,上下位标签对的识别方法包括两种:
b1、通过判断待融合标签对应的网页标题中包含基准标签的比例,判断上下位关系,即待融合标签是否为基准标签的下位词;
b2、基于标签对应的网页文本学习得到标签的向量,通过判断待融合标签与基准标签的子标签相关性,判断上下位关系;
在识别时,首先使用方法b1,若不能找到则使用方法b2,若都不能找到,则该待融合标签跟随其父标签进行合并。
2.根据权利要求1所述基于语义结构特征分析的异构标签融合***,其特征在于,所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。
3.根据权利要求1所述基于语义结构特征分析的异构标签融合***,其特征在于,所述原始标签体系中,将标签树分组,分组条件有两个:
第一、两个标签树的根标签完全相同;
第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;
当两个标签树满足以上任一条件,则将其分为一组;
根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。
4.根据权利要求3所述基于语义结构特征分析的异构标签融合***,其特征在于,将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。
5.根据权利要求4所述基于语义结构特征分析的异构标签融合***,其特征在于,所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:
对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。
6.根据权利要求1所述基于语义结构特征分析的异构标签融合***,其特征在于,所述方法a1的具体步骤如下:
a1.1)任取一个基准标签;
a1.2)比较待融合标签与基准标签是否相同,若相同,则继续,否则比较待融合标签与下一个基准标签,转a1.1);
判断两个标签是否相同的方法为:有两个标签——待融合标签A和基准标签B,分别由n和m个字组成,分别表示为A1A2…An和B1B2…Bm,其中Ai,Bj分别表示组成标签A和B的字,i=1,2…n;j=1,2…m,逐个比较待融合标签A和基准标签B的字,待融合标签A中的字有a个能在基准标签B中找到,则待融合标签A和基准标签B的相似度为a/n,若这个相似度大于0.5,则这两个标签是相同的,否则,不相同;
a1.3)最后比较标签的上级标签是否相同,将待融合标签的父标签、祖父标签和基准标签的父标签、祖父标签两两进行比较,存在一对相同时,待融合标签与基准标签是等同关系,否则,比较待融合标签与下一个基准标签,转a1.1);
a1.4)若没有找到等同关系的基准标签,则使用方法二继续寻找;
所述方法a2的具体步骤如下:
a2.1)基于TF-IDF,根据标签对应的网页文本获得向量表示,输入为标签对应的所有网页文本,输出为各个标签的向量表示;首先根据所有的文档构建词典,假设有N个词,则得到的表示向量维度为N,然后计算词典中每个词在这个标签文档中的TF-DIF值,这些TF-IDF值构成该标签的向量表示,维度是N,并利用LDA法进行降维,最后得到每个标签M维的向量表示;
a2.2)计算待融合标签与每个基准标签的向量cosine相似度,待融合标签的向量表示α与基准标签的向量表示β的cosine相似度,即
Figure FDA0002482523830000041
a2.3)根据相似度从大到小对基准标签进行排序,若最大相似度大于阈值,则待融合标签与这个基准标签为等同关系;
所述方法b1的具体步骤如下:
b1.1)对所有的基准标签计算待融合标签网页title包含基准标签的比例:判断待融合标签A与基准标签B是否为上下位关系,已知待融合标签A的n个网页title,若网页title中有m个title包含基准标签B,则包含比例为
Figure FDA0002482523830000042
b1.2)根据包含比例从大到小进行排序,当最大的包含比例大于阈值时,则待融合标签A与该基准标签是上下位关系,否则使用方法b2继续查找;
所述方法b2的具体步骤如下:
b2.1)计算待融合标签与所有基准标签的子标签相关性:已知待融合标签A与基准标签B,以及子标签B1,B2…Bn的向量表示,分别计算待融合标签A与基准标签B以及B1,B2…Bn的cosine相似度C,C1,C2…Cn,待融合标签A与基准标签B的相关性为
Figure FDA0002482523830000043
b2.2)按照相关性从大到小进行排序,若最大的相关性大于阈值,则待融合标签A与该基准标签为上下位关系,否则该待融合标签A将跟随其父标签进行合并。
7.根据权利要求1所述基于语义结构特征分析的异构标签融合***,其特征在于,将待融合标签***到基准标签时,自底向上从待融合标签体系中取待融合标签,将待融合标签加入到基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签。
8.根据权利要求1所述基于语义结构特征分析的异构标签融合***,其特征在于,在标签树两两合并过程中,首先判断分组内的标签树是否全部合并,若否,则继续合并分组内其他标签树;若是,则判断是否还有分组的标签树没有进行合并,若是,则继续合并其他分组的标签树;否则合并完毕。
CN201711469839.XA 2017-12-29 2017-12-29 基于语义结构特征分析的异构标签融合*** Active CN108021715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711469839.XA CN108021715B (zh) 2017-12-29 2017-12-29 基于语义结构特征分析的异构标签融合***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711469839.XA CN108021715B (zh) 2017-12-29 2017-12-29 基于语义结构特征分析的异构标签融合***

Publications (2)

Publication Number Publication Date
CN108021715A CN108021715A (zh) 2018-05-11
CN108021715B true CN108021715B (zh) 2020-07-28

Family

ID=62072018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711469839.XA Active CN108021715B (zh) 2017-12-29 2017-12-29 基于语义结构特征分析的异构标签融合***

Country Status (1)

Country Link
CN (1) CN108021715B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984618B (zh) * 2018-06-13 2021-02-02 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和计算机可读存储介质
CN109189513A (zh) * 2018-06-29 2019-01-11 深圳市彬讯科技有限公司 基于标签的层叠展示方法、装置、电子设备及存储介质
CN110489377B (zh) * 2019-08-15 2022-01-07 陈征 一种基于标签的信息管理***、方法、存储器及电子设备
CN110909380B (zh) * 2019-11-11 2021-10-19 西安交通大学 一种异常文件访问行为监控方法和装置
CN113208593A (zh) * 2021-04-08 2021-08-06 杭州电子科技大学 基于相关性动态融合的多模态生理信号情绪分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN108153754A (zh) * 2016-12-02 2018-06-12 ***通信有限公司研究院 一种数据处理方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153754A (zh) * 2016-12-02 2018-06-12 ***通信有限公司研究院 一种数据处理方法及其装置
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于"用户画像"挖掘的精准营销细分模型研究;刘海等;《丝绸-Journal of Silk》;20151231;第52卷(第12期);37-42,47 *
基于客户画像的精准推荐;刘光榕等;《科技经济导刊》;20161231;第2016卷(第35期);22,78 *
网络大数据:现状与展望;王元卓等;《计算机学报》;20130630;第36卷(第6期);1125-1138 *
运营商移动互联网用户大数据分析及应用;高寅欣等;《中国电信业》;20150930;第2015卷(第9期);80-83 *

Also Published As

Publication number Publication date
CN108021715A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN108021715B (zh) 基于语义结构特征分析的异构标签融合***
Kumar et al. Sentiment analysis of multimodal twitter data
CN105718579B (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
Cao et al. A cross-media public sentiment analysis system for microblog
Katakis et al. Multilabel text classification for automated tag suggestion
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
Foley et al. Learning to extract local events from the web
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的***
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN105426514A (zh) 个性化的移动应用app推荐方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN111309936A (zh) 一种电影用户画像的构建方法
Wu et al. News filtering and summarization on the web
Shao et al. Personalized travel recommendation based on sentiment-aware multimodal topic model
Faralli et al. Automatic acquisition of a taxonomy of microblogs users’ interests
Archchitha et al. Opinion spam detection in online reviews using neural networks
CN108153754B (zh) 一种数据处理方法及其装置
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Minguillón et al. Semi-automatic generation of a corpus of Wikipedia articles on science and technology
Wei et al. Online education recommendation model based on user behavior data analysis
Adek et al. Online newspaper clustering in Aceh using the agglomerative hierarchical clustering method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant