CN103294780A - 一种目录映射关系挖掘方法和装置 - Google Patents

一种目录映射关系挖掘方法和装置 Download PDF

Info

Publication number
CN103294780A
CN103294780A CN2013101755697A CN201310175569A CN103294780A CN 103294780 A CN103294780 A CN 103294780A CN 2013101755697 A CN2013101755697 A CN 2013101755697A CN 201310175569 A CN201310175569 A CN 201310175569A CN 103294780 A CN103294780 A CN 103294780A
Authority
CN
China
Prior art keywords
title
catalogue
user catalog
standard directories
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101755697A
Other languages
English (en)
Other versions
CN103294780B (zh
Inventor
刘埔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310175569.7A priority Critical patent/CN103294780B/zh
Publication of CN103294780A publication Critical patent/CN103294780A/zh
Application granted granted Critical
Publication of CN103294780B publication Critical patent/CN103294780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种目录映射关系挖掘方法,该方法包括以下步骤:以词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;采用赋权投票的方式确定用户目录名称最终映射的标准目录。相应地还提供了一种目录映射关系挖掘装置。本发明提供的方法和装置通过目录映射关系挖掘,可以有效提高词条***整体可读性。

Description

一种目录映射关系挖掘方法和装置
技术领域
本发明涉及信息处理技术,尤其涉及一种目录映射关系挖掘方法和装置。
背景技术
对于词条***(如百科词条、搜搜词条)而言,通常将词条分类下的目录分为标准目录和用户目录。其中,标准目录由人工(如产品经理)制定,位于各个分类词条下,如人物分类词条中的人物介绍、人物经历和人物获奖记录等内容对应的标准目录;用户目录则是由用户自主创建的目录,这些自主创建的目录可能与人工制定的标准目录相同,也可能不相同但含义相似。例如,标准目录为“人物简介”,而用户创建的目录可能按照标准目录予以建立,为“人物简介”,也可能存在较大的随意性,为“人物资料”。
由于现有的词条***中所有的词条基本上都是由用户创建,而用户创建的词条通常存在目录名称不规范、目录逻辑混乱、层级关系不合理、目录下的内容详略不当、弱(不)相关内容表述等问题。例如,在百科词条中,用户添加的目录大部分具有表述口语化、名称不规范或目录层级设置不合理等特点。
因此,希望可以提出一种用于解决上述问题的目录映射关系挖掘方法和装置。
发明内容
本发明的目的是提供一种目录映射关系挖掘方法和装置,可以有效解决词条***中通常存在的目录名称不规范、目录逻辑混乱、层级关系不合理等问题。
根据本发明的一个方面,提供了一种目录映射关系挖掘方法,该方法包括以下步骤:
以词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
采用赋权投票的方式确定用户目录名称最终映射的标准目录。
根据本发明的另一个方面,还提供了一种目录映射关系挖掘装置,包括:
映射数据建立模块,用于将词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
目录和内容映射模块,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
最终映射目录确定模块,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
与现有技术相比,本发明具有以下优点:
1)通过目录映射关系挖掘,帮助提高词条***整体可读性,可信性及全面性;
2)通过挖掘目录关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图;
图2为根据本发明一个优选实施例的基于目录内容映射初步挖掘用户目录与标准目录的映射关系的方法流程图;
图3为根据本发明一个优选实施例的采用TF/IDF算法进行标准目录关键词抽取的流程图;
图4为根据本发明一个优选实施例的目录映射关系挖掘装置的示意性框图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
根据本发明的一个方面,提供了一种目录映射关系挖掘的方法。
请参考图1,图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图。
如图1所示,本发明所提供的方法包括以下步骤:
步骤S101,以词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典。
具体地,词条***包括多个单分类下的全量词条,例如,百科词条***中包括如娱乐人物和动漫人物等分类下的全量词条,而单个词条又包括多个目录名称及目录名称下内容。以娱乐人物这个单分类为例,其包含的目录名称及目录名称下内容有:人物简介、演艺经历、主要作品和荣誉纪录等目录名称及目录名称下内容。
如背景技术所述,词条分类下的目录分为标准目录和用户目录,而标注数据是针对标准目录和用户目录之间的映射关系而予以建立的,形式上表现为“用户目录-标准目录”映射对。通常而言,标注数据由人工予以标注,并且,每个百科词条分类下有100个左右的标注数据,例如:歌手个人信息-人物简介。
其中,同义词表是由同义词集合的数据表,其不针对具体词条分类,通常以同义词对的形式描述,如:说明-描述,介绍-简介。
本实施例的目的在于挖掘词条分类下所有用户目录与标准目录的映射关系,因此以词条***中单分类下全量词条作为待映射的词条,并以标注数据、同义词表作为映射词典,通过后续复杂的计算确定各词条分类下用户目录在映射词典中具体对应的标准目录。
如前所述,用户目录包括标准目录与非标准目录,在本实施例中,主要针对用户创建的非标准目录进行处理。
步骤S102,分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录。
具体地,用户目录名称映射及目录内容映射具体包括:分别基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容,计算用户目录名称最终映射的标准目录名称。
进一步地,在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。进一步地,所述预处理包括:对用户目录名称进行分词,并根据词性过滤其中无意义的词,如标点符号、连词、感叹词等。经拼接,将预处理结果替换原始目录名称。例如,用户目录名称为“1.关于人物的介绍”,分词后,得到:1/./关于/人物/的/介绍,经过词性过滤,进一步得到:人物/介绍,将过滤后的结果“人物”和“介绍”予以拼接,得到“人物介绍”,因此,以目录名称“人物介绍”替换原始目录名称“1.关于人物的介绍”,并最终以目录名称“人物介绍”计算目录名称相似度。
在本实施例中,采用最长公共子序列(LCS)算法作为计算用户目录名称与标准目录名称的相似度的基础算法。其中,最长公共子序列是指任意两字符串的所有公共子序列中长度最大的子序列。例如,给定两个字符串“abac”和“caba”,则两个字符串的最长公共子序列为“aba”。本实施例中,并不对最长公共子序列的求解算法予以限定,可以采用如动态规划算法和后缀树算法在内的多种算法。
进一步地,对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。例如:病理病因和病因病理两个词,虽然“病理”和“病因”的位置进行了前后变换,但是变换前后的语义不发生改变。基于上述情况,在LCS算法的基础上做正反两次LCS计算。若通过正反两次LCS计算,得到的结果在原输入位置不重合,则调整两目录间LCS长度至2倍的原LCS长度。
具体而言,对于“病理病因”和“病因病理”两个词,首次通过LCS算法计算,得到最长公共子序列“病理”,长度为4个字节;再次通过LCS算法计算经顺序倒置的“病因病理”和“病理病因”两个词的最长公共子序列,得到“病因”一词,长度也为4个字节。由于两次计算得到的最长公共子序列“病理”和“病因”在原输入位置不重合(在“病理病因”中,病理输入位置为1-4字节,病因输入位置为5-8字节,前后不重合),因此,判断“病理病因”与“病因病理”的最长公共子序列长度为8字节。
由于目录名称相似度的计算可泛化为短文本间相似度的计算,而两目录名称的相似度与目录间相同内容长度成正比,与不相同内容长度成反比。
在基础算法LCS的基础上,分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:
方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:
SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;
方式二,基于标注数据间接计算用户目录与标准目录名称相似度:
SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);
其中,标注目录名称指的是标注数据中对应的用户目录,例如,标注数据“人物资料-人物简介”中所对应的“人物资料”。
优选地,采用如上两种方式计算用户目录名称与标准目录名称相似度后,根据相似度排名,分别取每个方式得到的排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。例如:标注数据中有:“人物信息-人物简介”,用户目录名称为“个人信息”,标准目录名称为“人物简介”,标注目录为“人物信息”,则在计算用户目录“个人信息”与标准目录相似度时,通过上述方式一,直接计算“个人信息”与“人物简介”的名称相似度,并通过上述方式二,基于标注目录“人物信息”间接计算“个人信息”与“人物简介”的名称相似度,在此例中,通过直接计算得到相似度结果为2*2/(8+8)=0.25,通过间接计算得到相似度结果为6*2/(8*2)=0.75。
进一步地,设定相似度阈值,比较上述两种方式分别得到的相似度值和所述阈值。若得到的相似度值小于所述阈值,则将所述用户目录名称中的分词内容替换为所述同义词表中对应的同义词,例如替换人物介绍中的“介绍”分词为“简介”,进而将“个人介绍”替换为“个人简介”,并计算所述替换后的用户目录与标准目录的相似度值,并将该相似度值替换原得到的相似度值;若所得到的相似度值大于或等于所述阈值,则维持所得到的相似度值。
进一步地,基于目录内容映射,计算用户目录名称初步映射的标准目录名称的过程,具体请参考图2,如图2所示,包括:
步骤S201,从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;
步骤S202,以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;
步骤S203,基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。
具体地,针对步骤S201而言,所述关键词的抽取采用的是TF/IDF(Term Frequency-Inverse Document Frequency,文档-反文档频率)算法,具体包括:将同名标准目录名称及与之对应的标注目录名称及其下的内容作为一个目录集,以所述标准目录名称作为目录集名,并将百科分类下所有标准目录名对应的目录集组成总的文件集。例如,将人物分类下所有人物简介目录及标注中的人物资料目录以及内容组成一个目录集。更细一步地,例如,词条“刘德华”中有“人物简介”目录名称,对应目录名称下内容为abc,词条“许嵩”中也有“人物简介”目录名称,对应目录名称下内容为efg,则将目录名称“人物简介”及目录名称下内容abc/efg组成一个目录集,并将“人物简介”作为此目录集名。
其中,采用的是TF/IDF算法进行关键词抽取,具体请参考图3,如图3所示,该抽取过程包括:
S301,抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;
S302,设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。
优选地,目录集的关键词抽取以目录数大于3的百科词条为数据集,并适当过滤目录与目录下的内容不一致的情形,减少杂质。据统计,许多词条只有1个目录,且命名为简介,但目录下的内容既包括个人信息,也包括个人经历、荣誉等,对于这种情况,应避免使用此类目录作为关键词抽取数据,以尽量保证目录名称与目录名称下的内容相对应。后续过程中,采用分词和词性标注的方式对内容进行处理,并通过停用词过滤、词性筛选、分词频次筛选得到每个目录集中的关键词及总的关键词。
具体地,针对步骤S202而言,所述关键词权重向量也采用的是TF/IDF算法,具体包括:
用户目录与标准目录具有相同的关键词集合,利用TF/IDF分别计算所有用户目录及标准目录关键词的权重,组成用户目录及标准目录关键词权重向量,例如,标准目录A的关键词向量A=(x1,x2,x3…xn),其中xn为第n个关键词在标准目录A中的权重,维数即为关键词的个数,是由TF/IDF阈值限定后确定的,阈值越高,关键词个数越少,维数越低,反之亦然。
以娱乐人物分类为例,所有词条下的人物简介目录及内容组成一个目录集,人物简介为目录集名,首先计算人物简介下的关键词向量,比如(身高,年龄),再计算所有标准目录的最终关键词,如人物简介及荣誉记录目录总关键词为(身高,年龄,获得,奖),后计算所有用户目录中(身高,年龄,获得,奖)关键词向量的权重。其中,所述权重的具体计算公式如下:
Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);
例如,娱乐人物分类下目录总数为50000,词条包含人物简介目录的总次数为300,人物简介目录集下的内容的总词数及身高词数分别为10000和500,身高出现在200个不同词条的目录内容中,但仅出现在150个名称为人物简介的目录下;则身高在人物简介目录集下的权重为:w=(500/10000)*In(50000/200)*sqrt(150/300)=0.19;
其中,sqrt(关键字在目录集中出现的目录数/此目录集总目录数)为TF/IDF的调权因子,其可以保证关键词的两种特性:1)保证关键词在目录集中出现的目录次数越大,其代表性越强(最好的情况是一个目录集中所有的同名目录下的内容都包含此关键字);2)保证关键字在不同目录集下权重区分性变大。
具体地,针对步骤S203而言,最终计算所述标准目录关键词权重向量和用户目录关键词权重向量的相似度,例如,计算用户目录中标准目录名称“人物简介”及非标准目录名称“个人信息”的关键词向量间相似度。具体计算公式如下:
sim ( A , B ) = Σ k = 1 n A k × B k ( Σ k = 1 n A k 2 ) ( Σ k = 1 n B k 2 )
其中,A为标准目录名称关键词权重向量,B为非标准目录名称关键词权重向量。
优选地,根据最终计算得到所述标准目录关键词权重向量和用户目录关键词权重向量的相似度排名,如上文,取排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。
步骤S103,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
具体地,通过步骤S102中的分别基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容,得到用户目录名称初步对应的标准目录名称后,根据具体应用的不同,采用不同的赋权投票方式。
其中,具体应用包括以下情况:根据百科词条质量分布,若用户目录与目录下的内容不太一致,则赋权时,设定目录内容映射权重高,目录名称映射权重低;若用户目录与目录内容质量均很差,则在投票时,只认为目录名称映射及目录内容映射的最高相似度映射结果相同时,才确定为最终映射的标准目录,否则为保证准确率认为此目录不与任何标准目录映射。
其中,所述赋权,指根据目录名称与目录名称下内容的重要性的比较结果,分别对所述计算用户目录名称与标准目录的相似度结果及用户目录名称下内容与标准目录下内容的相似度结果进行比例赋值。例如,假定目录名称重要性高于目录名称下的内容,则可以对目录名称映射得到的结果乘以1,对目录内容映射得到的结果乘以0.8。
其中,所述投票,指从初步得到的相似标准目录中确定最终的相似标准目录。例如,通过用户目录名称映射,得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录c和d相对应,则通过投票得到的最终映射的标准目录为a、b、c和d中最相似的一个;又如,通过用户目录名称映射,仍然得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录a和c相对应,则通过投票得到最终映射的标准目录为a。
更具体地,根据用户目录名称及目录名称下内容的整体质量,确定投票的方式。若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。其中,保准确的投票方式是指通过用户目录名称映射及目录内容映射得到相同的映射结果时,才认为该相同的映射结果为最终映射的标准目录,例如,对于用户目录名称“人物介绍”和标准目录名称“人物简介”,用户目录名称映射及目录内容映射均认为两目录名称相似时,才认为此结果为最终结果,否则认为“人物介绍”目录不与标准目录最终映射。而扩大召回的投票方式是指通过用户目录名称映射及目录内容映射得到映射结果不存在相同,则取相似度较高且高于所设定的阈值的初步映射标准目录为最终映射标准目录。
与现有技术相比,本发明所提供的目录映射关系挖掘方法可以带来如下技术效果:
在本实施例中,选取了百科6个重点监控分类作为数据源,因各个分类下目录的规范性不一致,因此技术效果也存在区别,如下述表格所示:
Figure BDA00003183449500091
Figure BDA00003183449500101
其中,表格中的算法的召回率=算法召回的目录出现频次/分类目录出现总频次;
由上图可知,通过上述投票方式,可以实现同类型目录的自动对应。而且,本方法通过构建目录映射体系,并通过目录名称相似度及目录下的内容相似度两个维度上的计算,有效对整体目录映射关系进行挖掘。
根据本发明的另一个方面,还提供了一种目录映射关系挖掘装置,请参考图4,图4为根据本发明一个优选实施例的目录映射关系挖掘装置的示意性框图。如图所示,该装置包括:
映射数据建立模块401,用于将词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
目录和内容映射模块402,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
最终映射目录确定模块403,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
下文将对上述各模块的具体工作过程进行详述。
具体地,映射数据建立模块用于建立词条***的基本映射词条及进行映射关系计算的映射词典。其中,词条***包括多个单分类下的全量词条,例如,百科词条***中包括如娱乐人物和动漫人物等分类下的全量词条,而单个词条又包括多个目录名称及目录名称下内容。以娱乐人物这个单分类为例,其包含的目录名称及目录名称下内容有:人物简介、演艺经历、主要作品和荣誉纪录等目录名称及目录名称下内容。
如背景技术所述,词条分类下的目录分为标准目录和用户目录,而标注数据是针对标准目录和用户目录之间的映射关系而予以建立的,形式上表现为“用户目录-标准目录”映射对。通常而言,标注数据由人工予以标注,并且,每个百科词条分类下有100个左右的标注数据,例如:歌手个人信息-人物简介。
其中,同义词表是由同义词集合的数据表,其不针对具体词条分类,通常以同义词对的形式描述,如:说明-描述,介绍-简介。
本实施例的目的在于挖掘词条分类下所有用户目录与标准目录的映射关系,因此以词条***中单分类下全量词条作为待映射的词条,并以标注数据、同义词表作为映射词典,通过后续复杂的计算确定各词条分类下用户目录在映射词典中具体对应的标准目录。
如前所述,用户目录包括标准目录与非标准目录,在本实施例中,主要针对用户创建的非标准目录进行处理。
其中,目录和内容映射模块,主要基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容两方面,计算用户目录名称最终映射的标准目录名称。
进一步地,该装置还包括预处理模块,用于在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。其中,所述预处理模块的处理过程包括:对用户目录名称进行分词,并根据词性过滤其中无意义的词,如标点符号、连词、感叹词等。经拼接,将预处理结果替换原始目录名称。例如,用户目录名称为“1.关于人物的介绍”,分词后,得到:1/./关于/人物/的/介绍,经过词性过滤,进一步得到:人物/介绍,将过滤后的结果“人物”和“介绍”予以拼接,得到“人物介绍”,因此,以目录名称“人物介绍”替换原始目录名称“1.关于人物的介绍”,并最终以目录名称“人物介绍”计算目录名称相似度。
在本实施例中,采用最长公共子序列(LCS)算法作为计算用户目录名称与标准目录名称的相似度的基础算法。其中,最长公共子序列是指任意两字符串的所有公共子序列中长度最大的子序列。例如,给定两个字符串“abac”和“caba”,则两个字符串的最长公共子序列为“aba”。本实施例中,并不对最长公共子序列的求解算法予以限定,可以采用如动态规划算法和后缀树算法在内的多种算法。
进一步地,对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。例如:病理病因和病因病理两个词,虽然“病理”和“病因”的位置进行了前后变换,但是变换前后的语义不发生改变。基于上述情况,在LCS算法的基础上做正反两次LCS计算。若通过正反两次LCS计算,得到的结果在原输入位置不重合,则调整两目录间LCS长度至2倍的原LCS长度。
具体而言,对于“病理病因”和“病因病理”两个词,首次通过LCS算法计算,得到最长公共子序列“病理”,长度为4个字节;再次通过LCS算法计算经顺序倒置的“病因病理”和“病理病因”两个词的最长公共子序列,得到“病因”一词,长度也为4个字节。由于两次计算得到的最长公共子序列“病理”和“病因”在原输入位置不重合(在“病理病因”中,病理输入位置为1-4字节,病因输入位置为5-8字节,前后不重合),因此,判断“病理病因”与“病因病理”的最长公共子序列长度为8字节。
由于目录名称相似度的计算可泛化为短文本间相似度的计算,而两目录名称的相似度与目录间相同内容长度成正比,与不相同内容长度成反比。
在基础算法LCS的基础上,分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:
方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:
SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;
方式二,基于标注数据间接计算用户目录与标准目录名称相似度:
SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);
其中,标注目录名称指的是标注数据中对应的用户目录,例如,标注数据“人物资料-人物简介”中所对应的“人物资料”。
优选地,采用如上两种方式计算用户目录名称与标准目录名称相似度后,根据相似度排名,分别取每个方式得到的排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。例如:标注数据中有:“人物信息-人物简介”,用户目录名称为“个人信息”,标准目录名称为“人物简介”,标注目录为“人物信息”,则在计算用户目录“个人信息”与标准目录相似度时,通过上述方式一,直接计算“个人信息”与“人物简介”的名称相似度,并通过上述方式二,基于标注目录“人物信息”间接计算“个人信息”与“人物简介”的名称相似度,在此例中,通过直接计算得到相似度结果为2*2/(8+8)=0.25,通过间接计算得到相似度结果为6*2/(8*2)=0.75。
进一步地,设定相似度阈值,比较上述两种方式分别得到的相似度值和所述阈值。若得到的相似度值小于所述阈值,则将所述用户目录名称中的分词内容替换为所述同义词表中对应的同义词,例如替换人物介绍中的“介绍”分词为“简介”,进而将“个人介绍”替换为“个人简介”,并计算所述替换后的用户目录与标准目录的相似度值,并将该相似度值替换原得到的相似度值;若所得到的相似度值大于或等于所述阈值,则维持所得到的相似度值。
进一步地,基于目录内容映射,计算用户目录名称初步映射的标准目录名称,具体包括:
i)从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;
ii)以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;
iii)基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。
具体地,针对步骤i)而言,所述关键词的抽取采用的是TF/IDF(TermFrequency-Inverse Document Frequency,文档-反文档频率)算法,具体包括:将同名标准目录名称及与之对应的标注目录名称及其下的内容作为一个目录集,以所述标准目录名称作为目录集名,并将百科分类下所有标准目录名对应的目录集组成总的文件集。例如,将人物分类下所有人物简介目录及标注中的人物资料目录以及内容组成一个目录集。更细一步地,例如,词条“刘德华”中有“人物简介”目录名称,对应目录名称下内容为abc,词条“许嵩”中也有“人物简介”目录名称,对应目录名称下内容为efg,则将目录名称“人物简介”及目录名称下内容abc/efg组成一个目录集,并将“人物简介”作为此目录集名。
其中,采用的是TF/IDF算法进行关键词抽取,具体包括:
a)抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;
b)设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。
优选地,目录集的关键词抽取以目录数大于3的百科词条为数据集,并适当过滤目录与目录下的内容不一致的情形,减少杂质。据统计,许多词条只有1个目录,且命名为简介,但目录下的内容既包括个人信息,也包括个人经历、荣誉等,对于这种情况,应避免使用此类目录作为关键词抽取数据,以尽量保证目录名称与目录名称下的内容相对应。后续过程中,采用分词和词性标注的方式对内容进行处理,并通过停用词过滤、词性筛选、分词频次筛选得到每个目录集中的关键词及总的关键词。
具体地,针对步骤ii)而言,所述关键词权重向量也采用的是TF/IDF算法,具体包括:
用户目录与标准目录具有相同的关键词集合,利用TF/IDF分别计算所有用户目录及标准目录关键词的权重,组成用户目录及标准目录关键词权重向量,例如,标准目录A的关键词向量A=(x1,x2,x3…xn),其中xn为第n个关键词在标准目录A中的权重,维数即为关键词的个数,是由TF/IDF阈值限定后确定的,阈值越高,关键词个数越少,维数越低,反之亦然。
以娱乐人物分类为例,所有词条下的人物简介目录及内容组成一个目录集,人物简介为目录集名,首先计算人物简介下的关键词向量,比如(身高,年龄),再计算所有标准目录的最终关键词,如人物简介及荣誉记录目录总关键词为(身高,年龄,获得,奖),后计算所有用户目录中(身高,年龄,获得,奖)关键词向量的权重。其中,所述权重的具体计算公式如下:
Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);
例如,娱乐人物分类下目录总数为50000,词条包含人物简介目录的总次数为300,人物简介目录集下的内容的总词数及身高词数分别为10000和500,身高出现在200个不同词条的目录内容中,但仅出现在150个名称为人物简介的目录下;则身高在人物简介目录集下的权重为:w=(500/10000)*In(50000/200)*sqrt(150/300)=0.19;
其中,sqrt(关键字在目录集中出现的目录数/此目录集总目录数)为TF/IDF的调权因子,其可以保证关键词的两种特性:1)保证关键词在目录集中出现的目录次数越大,其代表性越强(最好的情况是一个目录集中所有的同名目录下的内容都包含此关键字);2)保证关键字在不同目录集下权重区分性变大。
具体地,针对步骤iii)而言,最终计算所述标准目录关键词权重向量和用户目录关键词权重向量的相似度,例如,计算用户目录中标准目录名称“人物简介”及非标准目录名称“个人信息”的关键词向量间相似度。具体计算公式如下:
sim ( A , B ) = Σ k = 1 n A k × B k ( Σ k = 1 n A k 2 ) ( Σ k = 1 n B k 2 )
其中,A为标准目录名称关键词权重向量,B为非标准目录名称关键词权重向量。
优选地,根据最终计算得到所述标准目录关键词权重向量和用户目录关键词权重向量的相似度排名,如上文,取排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。
进一步地,由最终映射目录确定模块根据具体应用的不同,采用不同的赋权投票方式确定用户目录名称最终映射的标准目录。其中,具体应用包括以下情况:根据百科词条质量分布,若用户目录与目录下的内容不太一致,则赋权时,设定目录内容映射权重高,目录名称映射权重低;若用户目录与目录内容质量均很差,则在投票时,只认为目录名称映射及目录内容映射的最高相似度映射结果相同时,才确定为最终映射的标准目录,否则为保证准确率认为此目录不与任何标准目录映射。
其中,所述赋权,指根据目录名称与目录名称下内容的重要性的比较结果,分别对所述计算用户目录名称与标准目录的相似度结果及用户目录名称下内容与标准目录下内容的相似度结果进行比例赋值。例如,假定目录名称重要性高于目录名称下的内容,则可以对目录名称映射得到的结果乘以1,对目录内容映射得到的结果乘以0.8。
其中,所述投票,指从初步得到的相似标准目录中确定最终的相似标准目录。例如,通过用户目录名称映射,得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录c和d相对应,则通过投票得到的最终映射的标准目录为a、b、c和d中最相似的一个;又如,通过用户目录名称映射,仍然得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录a和c相对应,则通过投票得到最终映射的标准目录为a。
更具体地,根据用户目录名称及目录名称下内容的整体质量,确定投票的方式。若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。其中,保准确的投票方式是指通过用户目录名称映射及目录内容映射得到相同的映射结果时,才认为该相同的映射结果为最终映射的标准目录,例如,对于用户目录名称“人物介绍”和标准目录名称“人物简介”,用户目录名称映射及目录内容映射均认为两目录名称相似时,才认为此结果为最终结果,否则认为“人物介绍”目录不与标准目录最终映射。而扩大召回的投票方式是指通过用户目录名称映射及目录内容映射得到映射结果不存在相同,则取相似度较高且高于所设定的阈值的初步映射标准目录为最终映射标准目录。
本发明所提供的目录映射关系挖掘装置具有以下优点:通过挖掘目录关联关系,识别并修改词条分类下与标准目录映射的其它目录表述,有效提升词条整体质量。
以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (16)

1.一种目录映射关系挖掘方法,该方法包括以下步骤:
a)以词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
b)分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
c)采用赋权投票的方式确定用户目录名称最终映射的标准目录。
2.根据权利要求1所述的方法,其中,步骤b)进一步包括:在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。
3.根据权利要求1所述的方法,其中,步骤b)具体包括:对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。
4.根据权利要求1所述的方法,其中,步骤b)具体包括:分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:
方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:
SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;
方式二,基于标注数据间接计算用户目录与标准目录名称相似度:
SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);
其中,simA和simB分别表示采用方式一和方式二计算得到的相似度,标注目录名称指的是标注数据中对应的用户目录。
5.根据权利要求1所述的方法,所述步骤b)具体包括:
i)从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;
ii)以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;
iii)基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。
6.根据权利要求5所述的方法,其中,所述关键词的抽取,具体包括:
a)抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;
b)设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。
7.根据权利要求6所述的方法,其中,所述权重的具体计算公式如下:
Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);
其中,Weight表示每个标准目录集下关键词的权重。
8.根据权利要求1所述的方法,步骤c)进一步包括:
根据用户目录名称及目录名称下内容的整体质量,确定投票的方式;
若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。
9.一种目录映射关系挖掘装置,包括:
映射数据建立模块,用于将词条***中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
目录和内容映射模块,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
最终映射目录确定模块,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
10.根据权利要求9所述的装置,其中,所述装置进一步包括预处理模块,用于在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。
11.根据权利要求9所述的装置,其中,所述目录和内容映射模块的工作过程具体包括:对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。
12.根据权利要求9所述的装置,其中,所述目录和内容映射模块的工作过程具体包括:分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:
方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:
SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;
方式二,基于标注数据间接计算用户目录与标准目录名称相似度:
SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);
其中,simA和simB分别表示采用方式一和方式二计算得到的相似度,标注目录名称指的是标注数据中对应的用户目录。
13.根据权利要求9所述的装置,所述目录和内容映射模块的工作过程具体包括:
i)从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;
ii)以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;
iii)基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。
14.根据权利要求13所述的装置,其中,所述关键词的抽取具体包括:
a)抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;
b)设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。
15.根据权利要求14所述的装置,其中,所述权重的具体计算公式如下:
Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);
其中,Weight表示每个标准目录集下关键词的权重。
16.根据权利要求9所述的装置,所述最终映射目录确定模块的工作过程进一步包括:
根据用户目录名称及目录名称下内容的整体质量,确定投票的方式;
若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。
CN201310175569.7A 2013-05-13 2013-05-13 一种目录映射关系挖掘方法和装置 Active CN103294780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310175569.7A CN103294780B (zh) 2013-05-13 2013-05-13 一种目录映射关系挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310175569.7A CN103294780B (zh) 2013-05-13 2013-05-13 一种目录映射关系挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN103294780A true CN103294780A (zh) 2013-09-11
CN103294780B CN103294780B (zh) 2017-02-08

Family

ID=49095642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310175569.7A Active CN103294780B (zh) 2013-05-13 2013-05-13 一种目录映射关系挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN103294780B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN112464062A (zh) * 2020-11-16 2021-03-09 国网(苏州)城市能源研究院有限责任公司 用于支撑多格式统计年鉴数据抓取的映射表格计算方法
CN114925764A (zh) * 2022-05-16 2022-08-19 浙江经建工程管理有限公司 基于大数据的工程管理文件分类识别方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091033A1 (en) * 2003-10-23 2005-04-28 Microsoft Corporation System and method for performing analysis on word variants
CN102591475A (zh) * 2011-12-29 2012-07-18 北京百度网讯科技有限公司 一种在线编辑器的内容输入方法及***
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091033A1 (en) * 2003-10-23 2005-04-28 Microsoft Corporation System and method for performing analysis on word variants
CN102591475A (zh) * 2011-12-29 2012-07-18 北京百度网讯科技有限公司 一种在线编辑器的内容输入方法及***
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN106469144A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 文本相似度计算方法及装置
CN112464062A (zh) * 2020-11-16 2021-03-09 国网(苏州)城市能源研究院有限责任公司 用于支撑多格式统计年鉴数据抓取的映射表格计算方法
CN112464062B (zh) * 2020-11-16 2024-05-07 国网(苏州)城市能源研究院有限责任公司 用于支撑多格式统计年鉴数据抓取的映射表格计算方法
CN114925764A (zh) * 2022-05-16 2022-08-19 浙江经建工程管理有限公司 基于大数据的工程管理文件分类识别方法及***
CN114925764B (zh) * 2022-05-16 2022-12-09 浙江经建工程管理有限公司 基于大数据的工程管理文件分类识别方法及***

Also Published As

Publication number Publication date
CN103294780B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
US11151179B2 (en) Method, apparatus and electronic device for determining knowledge sample data set
CN105426514B (zh) 个性化的移动应用app推荐方法
US10248715B2 (en) Media content recommendation method and apparatus
CN108509474A (zh) 搜索信息的同义词扩展方法及装置
CN107832229A (zh) 一种基于nlp的***测试用例自动生成方法
US8577882B2 (en) Method and system for searching multilingual documents
CN105468605A (zh) 一种实体信息图谱生成方法及装置
US20050251384A1 (en) Word extraction method and system for use in word-breaking
US20060200464A1 (en) Method and system for generating a document summary
CN102915299A (zh) 一种分词方法及装置
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
Wang et al. Keyword extraction from online product reviews based on bi-directional LSTM recurrent neural network
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN110413738A (zh) 一种信息处理方法、装置、服务器及存储介质
CN111259271A (zh) 评论信息的展示方法、装置、电子设备及计算机可读介质
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
CN103106287A (zh) 一种用户检索语句的处理方法及***
US9870433B2 (en) Data processing method and system of establishing input recommendation
CN110209781B (zh) 一种文本处理方法、装置以及相关设备
CN105677725A (zh) 一种用于旅游垂直搜索引擎的前置解析方法
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
CN103294780A (zh) 一种目录映射关系挖掘方法和装置
CN105404677A (zh) 一种基于树形结构的检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant