CN108595713A - 确定对象集合的方法和装置 - Google Patents

确定对象集合的方法和装置 Download PDF

Info

Publication number
CN108595713A
CN108595713A CN201810456442.5A CN201810456442A CN108595713A CN 108595713 A CN108595713 A CN 108595713A CN 201810456442 A CN201810456442 A CN 201810456442A CN 108595713 A CN108595713 A CN 108595713A
Authority
CN
China
Prior art keywords
title
analyzed
initial
similarity
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810456442.5A
Other languages
English (en)
Other versions
CN108595713B (zh
Inventor
王杨
余敏槠
单桂华
杨笑笑
安逸菲
陈恺心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201810456442.5A priority Critical patent/CN108595713B/zh
Publication of CN108595713A publication Critical patent/CN108595713A/zh
Application granted granted Critical
Publication of CN108595713B publication Critical patent/CN108595713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定对象集合的方法和装置。其中,该方法包括:确定待分析对象的对象信息,其中,对象信息至少包括:待分析对象的名称以及单位地址;根据待分析对象的对象信息确定初始对象集合;对初始对象集合进行聚类,确定与待分析对象具有预设关系的对象集合,其中,预设关系表征待分析对象与对象集合中的对象具有相同的特征。本发明解决了现有技术对文献中专家的团队分析不准确的技术问题。

Description

确定对象集合的方法和装置
技术领域
本发明涉及信息查询领域,具体而言,涉及一种确定对象集合的方法和装置。
背景技术
随着学术研究的不断发展,文献资料的数量越来越大,对文献数据分析的需求也日益凸显,对大量科技文献信息进行分析,可帮助学者了解目前热门的学科、各研究领域的主要人员以及各领域的发展动态等。然而,在一些文献中,作者的单位地址写法不规范,同一地址存在多种写法,甚至还可能存在多种笔误,由此,增大了从单位地址中提取作者所属机构信息的难度。另外,文献中还存在作者姓名写法不规范的问题,例如,同一作者在不同文献中的署名不同,有时采用名在前姓在后的方式,有时采用姓在前名在后的方式,有时使用简写,有时省略中间名,有时使用连写等。并且,由于姓名的字符串长度小于单位地址的字符串长度,并且姓名存在同名不同人的情况,因此,姓名相似度的计算方法比单位地址相似度的计算方法复杂。
另外,在确定了文献中的作者姓名以及单位地址之后,可进一步确定专家的研究团队成员。目前,现有技术主要是从专家发表的论文、论文所投期刊/会议、专家所属机构、专家的研究领域、专家与其它学者之间的合作关系五方面来确定专家的研究团队。然而,与专家合作过的学者并不一定是该专家的团队成员,因此,简单的合作关系分析并不能精确确定专家的研究团队。此外,现有技术也没有从专家的学术成果与国际交流合作间的关系方面来确定专家的研究团队成员,从而导致分析文献中专家的研究团队的结果不准确。
针对上述现有技术对文献中专家的团队分析不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种确定对象集合的方法和装置,以至少解决现有技术对文献中专家的团队分析不准确的技术问题。
根据本发明实施例的一个方面,提供了一种确定对象集合的方法,包括:确定待分析对象的对象信息,其中,对象信息至少包括:待分析对象的名称以及单位地址;根据待分析对象的对象信息确定初始对象集合;对初始对象集合进行聚类,确定与待分析对象具有预设关系的对象集合,其中,预设关系表征待分析对象与对象集合中的对象具有相同的特征。
进一步地,确定对象集合的方法还包括:获取待分析对象的初始地址:确定待分析对象的初始地址与地址列表中的地址的相似度,其中,相似度包括以下至少之一:邮编相似度、余弦相似度以及关键词相似度;根据相似度确定待分析对象的单位地址。
进一步地,确定对象集合的方法还包括:在邮编相似度大于邮编相似度阈值,余弦相似度大于余弦相似度阈值,并且,关键词相似度大于关键词相似度阈值的情况下,将待分析对象的单位地址与地址列表中的地址进行聚类处理,得到聚类结果;根据聚类结果确定待分析对象的单位地址。
进一步地,确定对象集合的方法还包括:确定初始地址不存在邮编;根据初始地址的关键词的语义以及地址列表中的预设地址的关键词的语义,对待分析对象的单位地址与预设地址进行聚类处理,得到聚类结果;根据聚类结果确定待分析对象的单位地址。
进一步地,确定对象集合的方法还包括:获取待分析对象的初始名称;确定待分析对象的初始名称与名称列表中的名称的相似度;根据相似度确定待分析对象的名称。
进一步地,确定对象集合的方法还包括:确定初始名称与名称列表中的名称的长度相同;在初始名称与名称列表中的名称存在相同部分的情况下,如果去掉相同部分之后,初始名称与名称列表中的名称均为空,则确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
进一步地,确定对象集合的方法还包括:确定初始名称与名称列表中的名称的长度相同;在初始名称与名称列表中的名称存在相同部分的情况下,如果去掉相同部分之后,初始名称与名称列表中的名称不为空,则按照预设顺序比对初始名称与名称列表中的名称,得到第一相似度;在第一相似度大于第一阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
进一步地,确定对象集合的方法还包括:确定初始名称与名称列表中的名称的长度不相同;在初始名称中存在至少一个缩写名称的情况下,确定至少一个缩写名称与名称列表中的名称对应的缩写名称的第二相似度;在第二相似度大于第二阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
进一步地,确定对象集合的方法还包括:确定与预设对象具有关联关系的子对象集合以及子对象集合的邻接矩阵,其中,预设对象为初始对象集合中的任意一个对象;根据邻接矩阵确定子对象集合中每个对象的权重值;根据每个对象的权重值确定子对象集合的集合权重值;确定集合权重值最大的子对象集合为对象集合。
根据本发明实施例的另一方面,还提供了一种确定对象集合的装置,包括:第一确定模块,用于确定待分析对象的对象信息,其中,对象信息至少包括:待分析对象的名称以及单位地址;第二确定模块,用于根据待分析对象的对象信息确定初始对象集合;第三确定模块,用于对初始对象集合进行聚类,确定与待分析对象具有预设关系的对象集合,其中,预设关系表征待分析对象与对象集合中的对象具有相同的特征。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,程序执行确定对象集合的方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行确定对象集合的方法。
在本发明实施例中,采用聚类分析的方式,通过确定待分析对象的对象信息,并根据待分析对象的对象信息确定初始对象集合,然后对初始对象集合进行聚类,进而确定与待分析对象具有预设关系的对象集合,其中,对象信息至少包括:待分析对象的名称以及单位地址,预设关系表征待分析对象与对象集合中的对象具有相同的特征,达到了准确确定文献中专家的研究团队的成员的目的,从而实现了对专家的学术成果进行准确分析的技术效果,进而解决了现有技术对文献中专家的团队分析不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种的确定对象集合的方法流程图;
图2是根据本发明实施例的一种可选的展现对象集合的示意图;
图3是根据本发明实施例的一种可选的展现对象集合的示意图;
图4是根据本发明实施例的一种可选的展现对象集合的示意图;
图5是根据本发明实施例的一种可选的展现对象集合的示意图;
图6是根据本发明实施例的一种可选的合作关系矩阵图;
图7是根据本发明实施例的一种可选的学术成果与国际合作关系图;以及
图8是根据本发明实施例的一种确定对象集合的装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种确定对象集合的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的确定对象集合的方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,确定待分析对象的对象信息,其中,对象信息至少包括:待分析对象的名称以及单位地址。
需要说明的是,上述待分析对象可以为文献中的作者,其中,待分析对象的名称可以为文献中作者的姓名,待分析对象的单位地址为文献中作者的单位地址。
另外,在上述步骤S102中,确定对象信息的执行主体可以为服务器或其他可移动设备(例如,手机、平板等),其中,在服务器或其他可移动设备上具有基于B/S架构的文献可视化***,该能够自动提取文献中的单位地址,并自动对姓名进行归一与消岐处理,确定专家的研究团队,并对专家的学术成果、国际合作情况等进行分析。
步骤S104,根据待分析对象的对象信息确定初始对象集合。
在步骤S104中,初始对象集合中的对象与待分析对象具有关联关系,例如,专家为张三,李四和王五均为初始对象集合中对象,其与张三具有合作关系,但李四和王五并不一定是张三所在的研究团队的成员。
在一种可选的方案中,文献可视化***在确定了待分析对象的名称以及单位地址之后,根据待分析对象的名称以及单位地址确定与待分析对象相关的多篇文献,并从多篇文献中确定与待分析对象有关联关系的对象,例如,文献A中的作者之一为专家张三,该文献A中还包括作者李四和王五,则将李四和王五确定为张三的初始对象集合中的成员。
步骤S106,对初始对象集合进行聚类,确定与待分析对象具有预设关系的对象集合,其中,预设关系表征待分析对象与对象集合中的对象具有相同的特征。
在步骤S106中,预设关系可以为专家与研究团队的成员之间的关系,其中,待分析对象与对象集合中的对象的相同特征可以为专家与成员均属于相同的研究团队。
需要说明的是,文献可视化***可采用k-clique算法对初始对象进行聚类和排序,得到对象集合。
基于上述步骤S102至步骤S106所限定的方案,可以获知,通过确定待分析对象的对象信息,并根据待分析对象的对象信息确定初始对象集合,然后对初始对象集合进行聚类,进而确定与待分析对象具有预设关系的对象集合,其中,对象信息至少包括:待分析对象的名称以及单位地址,预设关系表征待分析对象与对象集合中的对象具有相同的特征。
容易注意到的是,由于待分析对象的对象信息的准确与否,对初始对象集合存在一定的影响,因此,为确保对待分析对象具有准确的对象集合,在确定待分析对象的初始对象集合之前,需要确定待分析对象的对象信息。另外,在根据待分析对象的对象信息得到初始对象集合之后,对初始对象集合进行进一步聚类处理,筛选出与待分析对象具有预设关系的对象集合,进而达到了准确确定文献中专家的研究团队的成员的目的,从而实现了对专家的学术成果进行准确分析的技术效果。
由上述内容可知,本申请所提供的确定对象集合的方法可以解决现有技术对文献中专家的团队分析不准确的技术问题。
可选的,确定待分析对象的单位地址的方法可以包括:
步骤S1020,获取待分析对象的初始地址:
步骤S1022,确定待分析对象的初始地址与地址列表中的地址的相似度,其中,相似度包括以下至少之一:邮编相似度、余弦相似度以及关键词相似度;
步骤S1024,根据相似度确定待分析对象的单位地址。
需要说明的是,待分析对象的初始地址可以为文献中作者的单位地址,另外,文献可视化***中具有地址列表,地址列表中存储有多个地址信息,其中,具有相同特征的地址信息具有一个标准地址,例如,“计算机中心”和“网络信息中心”所对应的标准地址均为“网络中心”。
具体的,在得到待分析对象的初始地址之后,文献可视化***根据初始地址确定所要比对的地址列表,然后,再将初始地址与地址列表中的地址进行比对,得到相似度,根据相似度来确定待分析对象的单位地址。其中,可从初始地址的邮编相似度、余弦相似度以及关键词相似度等方法来确定待分析对象的单位地址。
在一种可选的方案中,根据邮编相似度、余弦相似度以及关键词相似度来确定待分析对象的单位地址,具体步骤包括:
步骤S2020,在邮编相似度大于邮编相似度阈值,余弦相似度大于余弦相似度阈值,并且,关键词相似度大于关键词相似度阈值的情况下,将待分析对象的单位地址与地址列表中的地址进行聚类处理,得到聚类结果;
步骤S2022,根据聚类结果确定待分析对象的单位地址。
具体的,文献可视化***首先确定待分析对象的初始地址中是否存在邮编,如果存在邮编,则对比待分析对象的初始地址的邮编与地址列表中的邮编,得到邮编相似度。同时,文献可视化***还对初始地址与地址列表中的地址中的空格、逗号、句点等分词信息进行比对,得到余弦相似度,以及对比初始地址中的关键词与地址列表中的地址的关键词得到关键词相似度。如果邮编相似度大于邮编相似度阈值,余弦相似度大于余弦相似度阈值,并且,关键词相似度大于关键词相似度阈值,则将初始地址与地址列表中的地址进行聚类,并将地址列表中的地址所对应的标准地址作为待分析对象的单位地址,例如,待分析对象的初始地址为“网络信息中心”,与其对应的地址列表中的地址为“计算机中心”,其中,“计算机中心”对应的标准地址为“网络中心”,则将待分析对象的单位地址设置为“网络中心”。
在一种可选的方案中,文献可视化***首先确定邮编相似度是否大于邮编相似度阈值;如果邮编相似度大于邮编相似度阈值,则进一步确定余弦相似度是否大于余弦相似度阈值;如果余弦相似度大于余弦相似度阈值,则再确定关键词相似度是否大于关键词相似度阈值,如果确定关键词相似度大于关键词相似度阈值,则将待分析对象的单位地址与地址列表中的地址进行聚类处理,得到聚类结果。
需要说明的是,可根据如下步骤来确定邮编相似度。具体的,首先获取初始地址对应的第一字符串列表,以及地址列表中的地址所对应的第二字符串列表,其中,第一字符串列表和第二字符串列表中的字符串由连续三个以上的数字组成。然后确定两个字符串列表的长度是否均大于零,如果两个字符串列表的长度均不大于零,则确定初始地址和地址列表中的地址所对应的邮编相同;否则,进一步确定第一字符串列表中的至少一个字符串与第二列表中的至少一个字符串相同,如果第一字符串列表和第二字符串列表中存在相同的字符串,则确定初始地址和地址列表中的地址所对应的邮编相同;否则,确定初始地址和地址列表中的地址所对应的邮编不同。
另外,可根据如下方法确定关键词相似度。具体的,首先提取初始地址的关键词,得到第一关键词组,同时提取地址列表中地址的关键词,得到第二关键词组,然后比对第一关键词组和第二关键词组,将相同的关键词存储在第一列表中,并判断第一列表的长度,如果第一列表的长度为0,则确定初始地址与地址列表中的地址没有相同的关键词。然后再提取初始地址和地址列表中地址中的简称,并分别存储第三列表和第四列表。如果第三列表和第四列表均为空,则继续判断两个地址的余弦相似度,其中,如果余弦相似度大于余弦相似度阈值,则返回余弦相似度,否则,确定两个地址不同。如果第三列表和第四列表中仅有一个为空,则遍历非空列表中的简称是否存在至少一个简称能在另一个地址中找到全称,例如,第四列表为空,第三列表中存在简称“lab”,则需要在第四列表对应的地址中确定是否“lab”对应的全称“实验室”,如果存在,则确定两个地址相似;如果不存在,则确定两个地址不同。如果第三列表和第四列表均不为空,则判断两个列表中的简称是否存在至少一个简称能在另一个地址中找到全称,如果存在,则确定两个地址相似;如果不存在,则确定两个地址不同。
在另一种可选的方案中,如果初始地址不存在邮编,则根据关键词前后的语义来确定待分析对象的单位地址,其中,上述方法可以包括如下步骤:
步骤S3020,确定初始地址不存在邮编;
步骤S3022,根据初始地址的关键词的语义以及地址列表中的预设地址的关键词的语义,对待分析对象的单位地址与预设地址进行聚类处理,得到聚类结果;
步骤S3024,根据聚类结果确定待分析对象的单位地址。
可选的,确定待分析对象的名称的方法可以包括:
步骤S4020,获取待分析对象的初始名称;
步骤S4022,确定待分析对象的初始名称与名称列表中的名称的相似度;
步骤S4024,根据相似度确定待分析对象的名称。
需要说明的是,待分析对象的初始名称可以为文献中作者的名称,另外,文献可视化***中具有名称列表,名称列表中存储有多个名称,其中,名称列表中的名称以多种形式(例如,名称的全称、简称等)存在,例如,名称“王小平”在名称列表中的存储形式可以为但不限于“王小平”、“小平王”、“WXP”、“Xianping WANG”、“Wxiaoping”。此外,具有相同特征的名称具有一个标准名称,例如,上述名称的多种存在形式均对应同一个标准名称“王小平”。
在一种可选的方案中,根据相似度确定待分析对象的名称的方法可以包括如下步骤:
步骤S2,确定初始名称与名称列表中的名称的长度相同;
步骤S4,在初始名称与名称列表中的名称存在相同部分的情况下,如果去掉相同部分之后,初始名称与名称列表中的名称均为空,则确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
步骤S6,如果去掉相同部分之后,初始名称与名称列表中的名称不为空,则按照预设顺序比对初始名称与名称列表中的名称,得到第一相似度,并执行步骤S8。
步骤S8,在第一相似度大于第一阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
步骤S10,确定初始名称与名称列表中的名称的长度不相同;
步骤S12,在初始名称中存在至少一个缩写名称的情况下,确定至少一个缩写名称与名称列表中的名称对应的缩写名称的第二相似度;
步骤S14,在第二相似度大于第二阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
具体的,在确定初始名称与名称列表中的名称的长度不相同的情况下,继续确定初始名称与名称列表中的名称是否存在相同的部分。如果存在相同的部分,则进一步确定相同部分是否为缩写名称。如果相同的部分全部为缩写名称,则确定初始名称与名称列表中的名称不同,否则,确定去掉相同部分之后的剩余部分是否为空。如果不为空,则确定剩余部分是否存在缩写,如果存在缩写,则进一步判断该缩写能够在另一个名称中找到相匹配的单词;如果能够找到,则确定去掉剩余部分中的缩写之后,剩余部分是否为空,如果为空,则确定初始名称与名称列表中的名称不同,否则,确定剩余部分中的缩写之后的相似度,如果相似度大于第二阈值,则确定预设名称为待分析对象的名称,否则,确定初始名称与名称列表中的名称不同。如果剩余部分的缩写在另一个名称中找不到相匹配的单词,则匹配两者的首字母是否相同,如果相同,比较长度较长的词与另一个名称中的词是否存在相似度大于阈值的词,如果存在,则拼接长度较短的词,得到第一拼接元素,并对长度较长的词进行排列,得到第二拼接元素,并判断第二拼接元素中是否包含第一拼接元素,如果包含,则确定预设名称为待分析对象的名称,否则,确定初始名称与名称列表中的名称不同。
进一步地,如果初始名称与名称列表中的名称不存在相同的部分,则确定初始名称与名称列表中的名称是否存在词表。如果存在词表,则将词表长度不为1的词表进行排列,并判断排列后的拼接字符串是否能够精确匹配长度为1的词表,如果能够精确匹配,则确定预设名称为待分析对象的名称,否则,确定初始名称与名称列表中的名称不同。
需要说明的是,在确定通过名称的相似度确定了待分析对象的名称之后,需要再根据待分析对象的单位地址对待分析对象的名称进行过滤,以排除掉同名不同人的情况。
此外,还需要说明的是,在确定待分析对象的对象信息之后,可根据待分析对象的对象信息确定初始对象集合,然后,对初始对象集合进行聚类分析,确定与待分析对象具有预设关系的对象集合,其中,对初始对象集合进行聚类分析的方法可以包括如下步骤::
步骤S502,确定与预设对象具有关联关系的子对象集合以及子对象集合的邻接矩阵,其中,预设对象为初始对象集合中的任意一个对象;
步骤S504,根据邻接矩阵确定子对象集合中每个对象的权重值;
步骤S506,根据每个对象的权重值确定子对象集合的集合权重值;
步骤S508,确定集合权重值最大的子对象集合为对象集合。
具体的,首先从初始对象集合中确定一个对象v,并找到包含对象v的最大派系,即含有对象v的最大的合作关系网,然后删除该对象v及所有连接它的边,避免多次找到同一派系。然后再选择另一个对象q,重复上述步骤直到遍历完初始对象集合中所有对象为止,从而得到从每一个对象出发的合作关系网。然后,计算上述合作关系网的重叠矩阵,其中,重叠矩阵的每一行或每一列都对应一个派系,对角线元素表示派系所含元素的个数,非对角线元素表示对应两个派系之间的公共节点数。在得到重叠矩阵之后,即将重叠矩阵中对角线上小于k的元素置为0,非对角线上小于k-1的元素置为0,其余值置为1。需要说明的是,邻接矩阵中1代表两个派系之间连通,可构成一个合作团队,其中,不同的k值会影响最终团队划分结果,但社团结构取决于其本身,在邻接矩阵的计算过程中,大部分6-派系团队都可以在5-派系中找到相似的结构,因此,在本实施例中k=5。进一步的,在得到邻接矩阵之后,将合作团队中邻接边的权值加和并除以对象数,即得该子对象集合的集合权重值,按子对象集合的集合权重值从大到小排序,包含专家重合度较高的团队可以融合为一类,选取子对象集合,直到所有专家都被包含,即可将所有的专家聚类。其中,i,j两个对象之间权重值可定义为w(i,j)=tanh(t(i,j)),t(i,j)为i与j的合作次数。
需要说明的是,可通过如下方法确定包含对象v的最大派系,即含有对象v的最大的合作关系网。首先,初始化初始对象集合A和B,A={v},B={v的邻居},其中,初始对象集合A和B为包含对象v的两两相连的对象集合,初始对象集合B中的至少一个对象与初始对象集合A中的所有对象相连。然后,从对象集合B中移动一个对象到对象集合A,并删除B中不再与A中所有对象都相邻的对象。当对象集合B为空集,或者A、B为已有的某个派系的子集时,停止计算,其中,对象集合A为从对象v出发得到的最大合作关系网。
此外,还需要说明的是,本申请实施例还提供了一种可视化***,该***可展示待分析对象的对象集合。其中,图2是通过列表形式展现待分析对象(学者)的对象集合,在图2中,列表左侧用黑色圆点表示所属机构,列表右边用空心圆点表示所发论文列表,其中,学者与机构、论文的关系用连接线表示。当鼠标移到某一学者、机构或论文时,相关的学者、机构、论文及其之间的连线高亮显示。当鼠标点击某一学者时,学者所属机构(用黑色圆点标记)和所发论文(用空心圆点标记)及该机构中的合作学者和该论文的合作学者信息,如图3所示。当合作学者数量过多影响布局时,可采用带数值的黑色圆点表示,数据表示合作作者数量,点击该圆点可以展示具体合作者信息。当鼠标点击某一机构时,呈现该机构的所有学者及其发表的论文信息,如图4所示,当论文数量过多时,用带数值的黑色圆点表示,数值表示该学者发表的论文数量,点击黑色圆点可显示所有论文。当鼠标点击某一论文时,呈现该论文的所有作者信息及各作者发表的论文信息和所属机构信息,如图5所示,当需展示的信息过多影响布局时,用带数值的黑色圆点表示合作学者的相关信息,数值表示论文数,点击黑色圆点可以展示该学者发表的论文信息和所属机构信息。
进一步地,学者之间的合作关系矩阵图如图6所示,其中,横坐标和纵坐标是专家及其合作学者的姓名,如果两个学者之间有合作关系,就在对应坐标的矩形中填充相应的颜色,颜色值与合作次数相关,合作次数越多,颜色越深。其中,在图6中,未示出颜色值与合作次数的关系,仅黑色方块表示两个合作者之间具有合作关系。
此外,图7示出了学术成果与国际合作关系图,该关系图综合呈现了论文发表时间、合作国家、被引用次数和国际合作之间的关系。其中,横坐标为时间轴,上半部分左侧Y轴表示月份,上半部分右侧Y轴表示论文数量,下半部分右侧Y轴表示访问次数。图7中的圆点表示一篇文章,圆点的颜色不同表示合作机构的不同(图7未示出圆点颜色与合作结构的关系,仅使用黑色圆点表示两个合作机构之间具有合作关系),圆点的半径大小表示被引用次数的多少;折线表示历年发表的文章数量;堆叠柱状图的高度表示出国交流的天数,不同的颜色表示不同的出访国家(图7未示出不同的颜色与国家的关系)。
实施例2
根据本发明实施例,还提供了一种确定对象集合的装置实施例,其中,图8是根据本发明实施例的确定对象集合的装置结构示意图,如图8所示,该装置包括:第一确定模块801、第二确定模块803以及第三确定模块805。
其中,第一确定模块801,用于确定待分析对象的对象信息,其中,对象信息至少包括:待分析对象的名称以及单位地址;第二确定模块803,用于根据待分析对象的对象信息确定初始对象集合;第三确定模块805,用于对初始对象集合进行聚类,确定与待分析对象具有预设关系的对象集合,其中,预设关系表征待分析对象与对象集合中的对象具有相同的特征。
需要说明的是,上述第一确定模块801、第二确定模块803以及第三确定模块805对应于实施例1中的步骤S102至步骤S106,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第一确定模块包括:第一获取模块、第四确定模块以及第五确定模块。其中,第一获取模块,用于获取待分析对象的初始地址:第四确定模块,用于确定待分析对象的初始地址与地址列表中的地址的相似度,其中,相似度包括以下至少之一:邮编相似度、余弦相似度以及关键词相似度;第五确定模块,用于根据相似度确定待分析对象的单位地址。
需要说明的是,上述第一获取模块、第四确定模块以及第五确定模块对应于实施例1中的步骤S1020至步骤S1024,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第五确定模块包括:第一聚类模块以及第六确定模块。其中,第一聚类模块,用于在邮编相似度大于邮编相似度阈值,余弦相似度大于余弦相似度阈值,并且,关键词相似度大于关键词相似度阈值的情况下,将待分析对象的单位地址与地址列表中的地址进行聚类处理,得到聚类结果;第六确定模块,用于根据聚类结果确定待分析对象的单位地址。
需要说明的是,上述第一聚类模块以及第六确定模块对应于实施例1中的步骤S2020至步骤S2022,两个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第五确定模块包括:第七确定模块、第二聚类模块以及第八确定模块。其中,第七确定模块,用于确定初始地址不存在邮编;第二聚类模块,用于根据初始地址的关键词的语义以及地址列表中的预设地址的关键词的语义,对待分析对象的单位地址与预设地址进行聚类处理,得到聚类结果;第八确定模块,用于根据聚类结果确定待分析对象的单位地址。
需要说明的是,上述第七确定模块、第二聚类模块以及第八确定模块对应于实施例1中的步骤S3020至步骤S3024,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第一确定模块包括:第二获取模块、第九确定模块以及第十确定模块。其中,第二获取模块,用于获取待分析对象的初始名称;第九确定模块,用于确定待分析对象的初始名称与名称列表中的名称的相似度;第十确定模块,用于根据相似度确定待分析对象的名称。
需要说明的是,上述第二获取模块、第九确定模块以及第十确定模块对应于实施例1中的步骤S4020至步骤S4024,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第十确定模块包括:第十一确定模块、第十二确定模块、第十三确定模块、匹配模块、第十四确定模块、第十五确定模块、第十六确定模块以及第十七确定模块。其中,第十一确定模块,用于确定初始名称与名称列表中的名称的长度相同;第十二确定模块,用于在初始名称与名称列表中的名称存在相同部分的情况下,如果去掉相同部分之后,初始名称与名称列表中的名称均为空,则确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称;第十三确定模块,用于确定初始名称与名称列表中的名称的长度相同;匹配模块,用于在初始名称与名称列表中的名称存在相同部分的情况下,如果去掉相同部分之后,初始名称与名称列表中的名称不为空,则按照预设顺序比对初始名称与名称列表中的名称,得到第一相似度;第十四确定模块,用于在第一相似度大于第一阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称;第十五确定模块,用于确定初始名称与名称列表中的名称的长度不相同;第十六确定模块,用于在初始名称中存在至少一个缩写名称的情况下,确定至少一个缩写名称与名称列表中的名称对应的缩写名称的第二相似度;第十七确定模块,用于在第二相似度大于第二阈值的情况下,确定预设名称为待分析对象的名称,其中,预设名称为名称列表中的名称对应的名称。
需要说明的是,上述第十一确定模块、第十二确定模块、第十三确定模块、匹配模块、第十四确定模块、第十五确定模块、第十六确定模块以及第十七确定模块对应于实施例1中的步骤S2至步骤S14,八个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
在一种可选的方案中,第三确定模块包括:第十八确定模块、第十九确定模块、第二十确定模块以及确定模块。其中,第十八确定模块,用于确定与预设对象具有关联关系的子对象集合以及子对象集合的邻接矩阵,其中,预设对象为初始对象集合中的任意一个对象;第十九确定模块,用于根据邻接矩阵确定子对象集合中每个对象的权重值;第二十确定模块,用于根据每个对象的权重值确定子对象集合的集合权重值;确定模块,用于确定集合权重值最大的子对象集合为对象集合。
需要说明的是,上述第十八确定模块、第十九确定模块、第二十确定模块以及确定模块对应于实施例1中的步骤S502至步骤S508,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
实施例3
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,程序执行实施例1中的确定对象集合的方法。
实施例4
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行实施例1中的确定对象集合的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种确定对象集合的方法,其特征在于,包括:
确定待分析对象的对象信息,其中,所述对象信息至少包括:所述待分析对象的名称以及单位地址;
根据所述待分析对象的对象信息确定初始对象集合;
对所述初始对象集合进行聚类,确定与所述待分析对象具有预设关系的对象集合,其中,所述预设关系表征所述待分析对象与所述对象集合中的对象具有相同的特征。
2.根据权利要求1所述的方法,其特征在于,确定待分析对象的单位地址,包括:
获取所述待分析对象的初始地址:
确定所述待分析对象的初始地址与地址列表中的地址的相似度,其中,所述相似度包括以下至少之一:邮编相似度、余弦相似度以及关键词相似度;
根据所述相似度确定所述待分析对象的单位地址。
3.根据权利要求2所述的方法,其特征在于,根据所述相似度确定所述待分析对象的单位地址,包括:
在所述邮编相似度大于邮编相似度阈值,所述余弦相似度大于余弦相似度阈值,并且,所述关键词相似度大于关键词相似度阈值的情况下,将所述待分析对象的单位地址与所述地址列表中的地址进行聚类处理,得到聚类结果;
根据所述聚类结果确定所述待分析对象的单位地址。
4.根据权利要求2所述的方法,其特征在于,根据所述相似度确定所述待分析对象的单位地址,包括:
确定所述初始地址不存在邮编;
根据所述初始地址的关键词的语义以及所述地址列表中的预设地址的关键词的语义,对所述待分析对象的单位地址与所述预设地址进行聚类处理,得到聚类结果;
根据所述聚类结果确定所述待分析对象的单位地址。
5.根据权利要求1所述的方法,其特征在于,确定待分析对象的名称,包括:
获取所述待分析对象的初始名称;
确定所述待分析对象的初始名称与名称列表中的名称的相似度;
根据所述相似度确定所述待分析对象的名称。
6.根据权利要求5所述的方法,其特征在于,根据所述相似度确定所述待分析对象的名称,包括:
确定所述初始名称与所述名称列表中的名称的长度相同;
在所述初始名称与所述名称列表中的名称存在相同部分的情况下,如果去掉所述相同部分之后,所述初始名称与所述名称列表中的名称均为空,则确定预设名称为所述待分析对象的名称,其中,所述预设名称为所述名称列表中的名称对应的名称。
7.根据权利要求5所述的方法,其特征在于,根据所述相似度确定所述待分析对象的名称,包括:
确定所述初始名称与所述名称列表中的名称的长度相同;
在所述初始名称与所述名称列表中的名称存在相同部分的情况下,如果去掉所述相同部分之后,所述初始名称与所述名称列表中的名称不为空,则按照预设顺序比对所述初始名称与所述名称列表中的名称,得到第一相似度;
在所述第一相似度大于第一阈值的情况下,确定预设名称为所述待分析对象的名称,其中,所述预设名称为所述名称列表中的名称对应的名称。
8.根据权利要求5所述的方法,其特征在于,根据所述相似度确定所述待分析对象的名称,包括:
确定初始名称与所述名称列表中的名称的长度不相同;
在所述初始名称中存在至少一个缩写名称的情况下,确定所述至少一个缩写名称与所述名称列表中的名称对应的缩写名称的第二相似度;
在所述第二相似度大于第二阈值的情况下,确定预设名称为所述待分析对象的名称,其中,所述预设名称为所述名称列表中的名称对应的名称。
9.根据权利要求1所述的方法,其特征在于,对所述初始对象集合进行聚类,确定与所述待分析对象具有预设关系的对象集合,包括:
确定与预设对象具有关联关系的子对象集合以及所述子对象集合的邻接矩阵,其中,所述预设对象为所述初始对象集合中的任意一个对象;
根据所述邻接矩阵确定所述子对象集合中每个对象的权重值;
根据所述每个对象的权重值确定所述子对象集合的集合权重值;
确定所述集合权重值最大的子对象集合为所述对象集合。
10.一种确定对象集合的装置,其特征在于,包括:
第一确定模块,用于确定待分析对象的对象信息,其中,所述对象信息至少包括:所述待分析对象的名称以及单位地址;
第二确定模块,用于根据所述待分析对象的对象信息确定初始对象集合;
第三确定模块,用于对所述初始对象集合进行聚类,确定与所述待分析对象具有预设关系的对象集合,其中,所述预设关系表征所述待分析对象与所述对象集合中的对象具有相同的特征。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至9中任意一项所述的确定对象集合的方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的确定对象集合的方法。
CN201810456442.5A 2018-05-14 2018-05-14 确定对象集合的方法和装置 Active CN108595713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810456442.5A CN108595713B (zh) 2018-05-14 2018-05-14 确定对象集合的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810456442.5A CN108595713B (zh) 2018-05-14 2018-05-14 确定对象集合的方法和装置

Publications (2)

Publication Number Publication Date
CN108595713A true CN108595713A (zh) 2018-09-28
CN108595713B CN108595713B (zh) 2020-09-29

Family

ID=63637439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810456442.5A Active CN108595713B (zh) 2018-05-14 2018-05-14 确定对象集合的方法和装置

Country Status (1)

Country Link
CN (1) CN108595713B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索***及其使用方法
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN107590128A (zh) * 2017-09-21 2018-01-16 湖北大学 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及***
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索***及其使用方法
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN107590128A (zh) * 2017-09-21 2018-01-16 湖北大学 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及***
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法

Also Published As

Publication number Publication date
CN108595713B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111191122A (zh) 一种基于用户画像的学习资源推荐***
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
Bambil et al. Plant species identification using color learning resources, shape, texture, through machine learning and artificial neural networks
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN109408811A (zh) 一种数据处理方法及服务器
Cao et al. BASS: A bootstrapping approach for aligning heterogenous social networks
CN110532309A (zh) 一种高校图书馆用户画像***的生成方法
CN108170678A (zh) 一种文本实体抽取方法与***
CN107665221A (zh) 关键词的分类方法和装置
CN109800418A (zh) 文本处理方法、装置和存储介质
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN108604248A (zh) 利用基于人工智能的相关性计算的笔记提供方法及装置
Ramírez et al. Overview of the multimedia information processing for personality & social networks analysis contest
Tabassum et al. Semantic analysis of Urdu english tweets empowered by machine learning
Laine‐Hernandez et al. Image semantics in the description and categorization of journalistic photographs
Tsai et al. Qualitative evaluation of automatic assignment of keywords to images
CN113343012A (zh) 一种新闻配图方法、装置、设备及存储介质
CN108595713A (zh) 确定对象集合的方法和装置
JP4525433B2 (ja) 文書集約装置及びプログラム
CN108763258A (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN108255866A (zh) 检查网站中链接的方法和装置
CN110020120A (zh) 内容投放***中的特征词处理方法、装置及存储介质
Tsai Two strategies for bag-of-visual words feature extraction
AlSaleh et al. SNAD arabic dataset for deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant