CN112269909A - 一种基于多源信息融合技术的专家推荐方法 - Google Patents

一种基于多源信息融合技术的专家推荐方法 Download PDF

Info

Publication number
CN112269909A
CN112269909A CN202010964492.1A CN202010964492A CN112269909A CN 112269909 A CN112269909 A CN 112269909A CN 202010964492 A CN202010964492 A CN 202010964492A CN 112269909 A CN112269909 A CN 112269909A
Authority
CN
China
Prior art keywords
expert
subnet
abstract
keyword
executing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010964492.1A
Other languages
English (en)
Other versions
CN112269909B (zh
Inventor
朱全银
方强强
李翔
马甲林
张柯文
王文川
胥心心
王胜标
丁行硕
成洁怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greater Bay Area Technology Innovation Service Center (Guangzhou) Co.,Ltd.
Guangzhou Jingzhi Information Technology Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202010964492.1A priority Critical patent/CN112269909B/zh
Publication of CN112269909A publication Critical patent/CN112269909A/zh
Application granted granted Critical
Publication of CN112269909B publication Critical patent/CN112269909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。

Description

一种基于多源信息融合技术的专家推荐方法
技术领域
本发明属于多源信息融合和专家推荐领域,特别涉及一种基于多源信息融合技术的专家推荐方法。
背景技术
传统技术专家推荐算法通常采用单数据源进行推荐,单数据源推荐易受到数据源的约束,容易造成专家信息的缺失从而无法全面展示专家信息且专家推荐比较孤立,专家之间的合作关系、地域和供职机构关系得不到有效拓展,研究者只能以一种属性对专家信息进行推荐,而多源信息融合方法能够将专家的多维属性根据约束条件进行融合,从而全面展示技术专家信息,并且由多源信息融合技术构建的专家合作关系子网、Web子网和主题子网三种子网可对专家关系信息进行拓展,使技术专家推荐更加全面、准确,提高了推荐结果的广度与深度。
朱全银、李翔、冯万利等人已有的研究基础包括:赵阳,朱全银,胡荣林,瞿学新.基于自编码机和聚类的混合推荐算法[J].微电子学与计算机,2018,35(11):52-56;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(06):751-759.;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24。朱全银、李翔、冯万利等人申请、公开与授权的相关专利:冯万利,朱全银,于柿民等,一种基于皮尔逊相似度和FP#Growth的图审专家推荐方法:CN106897370A,2017.06.27;朱全银,赵阳,胡荣林等一种基于聚类和余弦相似度的物流推荐方法:CN106886872A,2017.06.23;李翔,朱全银,胡荣林,周泓一种基于谱聚类的冷链物流配载只能推荐方法:CN105654267A,2016.06.08;朱全银,孙强,万瑾等一种基于深度学习的大学生专业推荐方法:CN110188978A,2019.08.30;朱全银,季睿,倪金霆等一种基于图像量的专家组合推荐方法:CN110162638A,2019.08.23;朱全银,于柿民;胡荣林,冯万利等一种基于知识图谱的专家组合推荐方法:CN109062961A,2018.12.21。
多源信息融合技术:
信息融合又称数据融合,也可以称为传感器信息融合或多传感器信息融合,是一个对从单个和多个信息源获取的数据和信息进行关联、相关和综合,以获得精确的位置和身份估计,以及对态势和威胁及其重要程度进行全面及时评估的信息处理过程;该过程是对其估计、评估和额外信息源需求评价的一个持续精练(Refinement)过程,同时也是信息处理过程不断自我修正的一个过程,以获得结果的改善。
已有多源信息融合技术专利申请包括:封斌,基于船联网网关的信息融合引擎的信息融合方法及***:CN 109814444 A,2019.05.28,解决了传感器数据采集***信息融合模块冗余备份和体系结构上的难题;汪书苹、范明豪、武海澄等基于多传感器信息融合的变电站火灾探测***及探测信息融合方法:CN 105185022 A,2015.12.23,该发明能够灵活适应复杂的探测环境,拓展探测范围,提高灵敏度,降低误报率,大幅度提高了可靠辨别真假火灾的能力以及变电站火灾预警的效率性和准确性;李勇,智能信息融合图像型火灾探测器及探测信息融合方法:CN 103630948 A,2014.03.12,大限度降低误报和漏报现象,有效提高图像型火灾探测器的准确性和可靠性;舒磊、吴易明、朱帆等一种基于多维信息融合的复杂背景目标识别方法:CN 109492700 A,2019.03.19,提高了目标识别的准确性与可靠性。
已有专家推荐专利申请包括:苏宇荣、李振华,一种专家推荐方法及***:CN111160699 A,2020.05.15,虽然可实现在多个推荐***的基础上,给用户更加标准的推荐结果,但是可能存在信息冗余问题,且无法避免信息缺失问题;张永锋、谭新宇、李振华,一种基于多数据源的专家推荐方法及***:CN 111008330 A,2020.04.14,通过对专家添加score字段并根据score字段对应的值对专家进行排序,生成推荐结果,该专利虽然涉及多源数据,但仅仅对专家字段进行评分,未能挖掘多数据之间隐含的专家关系;王健、孙吉庆、林鸿飞,一种基于循环神经网络的社区问答专家推荐方法:CN 108021616 A,2018.05.11,该推荐方法能有效的表示句子语法和语义信息,减少了人工对推荐结果的干预,但是易受原始语料库影响从而对推荐结果造成影响。
以上专利虽然有效的改良了推荐结果,但均不涉及对专家关系及地域关系的推荐,仅从专家本身进行推荐,不能综合考虑地域关系、合作关系等因素,从而造成推荐结果无效化,不能应用到实际推荐。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于多源信息融合技术的专家推荐方法,通过构建专家合作关系子网、Web子网和主题子网,以专家姓名-机构为约束条件将三种子网融合构造专家信息网络,计算专家信息网络中专家中心度值并排序,根据排序结果对专家做出推荐。
技术方案:为解决上述技术问题,本发明提供一种基于多源信息融合技术的专家推荐方法,具体步骤如下:
(1)爬取技术专家数据构建知识库,并构建关键词词典keywords。
(2)抽取知识库作者字段进行词频共现分析构建专家合作关系子网。
(3)分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建专家Web子网。
(4)分别通过lda算法对知识库摘要字段提取文档-主题和主题-关键词,TF-IDF算法提取摘要字段权重最大的5个词,共同构建主题子网。
(5)以专家姓名-机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
进一步的,所述步骤(1)的具体步骤如下:
(1.1)从知识库中获取科技论文文献W,W篇幅总数为M,并创建一个空关键词词典keywords;
(1.2)定义全局循环变量Vi初始化为1用于遍历W,Vi∈(1,M),其中,WVi表示第Vi篇文献;
(1.3)判断Vi≤M是否成立,若成立,执行步骤(1.4),若不成立,执行步骤(1.11);
(1.4)定义循环变量Vij初始化为1为文献WVij的第j个关键词,Vij∈(1,N),N为文献WVij的关键词个数;
(1.5)判断Vij∈keywords是否成立,若成立,执行步骤(1.6),若不成立,执行步骤(1.10);
(1.6)关键词表中已存在关键词Vij,放弃写入Vij;
(1.7)令Vij=Vij+1;
(1.8)判断Vij≤N是否成立,若成立,执行步骤(1.5),若不成立,执行步骤(1.9);
(1.9)令Vi=Vi+1,并执行步骤(1.3);
(1.10)将关键词Vij写入关键词表keywords,并执行步骤(1.7);
(1.11)得到包含所有关键词的关键词表keywords。
进一步的,所述步骤(2)的具体步骤如下:
(2.1)从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi和文献WVi
(2.2)判断Vi≤M是否成立,若成立,执行步骤(2.3),若不成立,执行步骤(2.5);
(2.3)对第WVi篇科技论文作者进行分隔,得到文献作者关系R={WVi,WVia},其中,WVia为第WVi篇文献的第a位作者姓名;
(2.4)令Vi=Vi+1并执行步骤(2.2);
(2.5)得到分隔后的所有文献作者关系R;
(2.6)对文献作者关系R中所有作者做频次统计,得到作者频次A={m,Na},其中,Na为作者姓名,m为Na出现总次数;
(2.7)统计作者共现频次G={m,Nap Naq},其中,G表示作者Nap与Naq共同出现m次;
(2.8)将作者共现频次G转化为共现网络得到作者关系子网。
进一步的,所述步骤(3)的具体步骤如下:
(3.1)知识库中获取专家Web页面信息;
(3.2)通过命名实体识别算法对专家Web页面进行专家信息获取;
(3.3)得到专家个人信息;
(3.4)定义正则表达式规则Ru;
(3.5)判断规则Ru在Web页面取值是否为空,若成立,执行步骤(3.8),若不成立,执行步骤(3.6);
(3.6)得到专家研究方向;
(3.7)得到专家研究方向和专家个人信息并构建Web子网;
(3.8)得到专家个人信息并构建Web子网。
进一步的,所述步骤(4)的具体步骤如下:
(4.1)从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi,创建一个空摘要文本Abstract;
(4.2)判断Vi≤M是否成立,若成立,执行步骤(4.3),若不成立,执行步骤(4.5);
(4.3)将文献WVi的摘要写入摘要文本Abstract;
(4.4)令Vi=Vi+1并执行步骤(4.2);
(4.5)获得包含所有文献W的摘要文本Abstract;
(4.6)加入关键词词典keywords并对摘要文本Abstract进行jieba分词,得到分词后摘要文本Abstract’;
(4.7)通过lda算法对Abstract’进行文档-主题和主题-关键词计算;
(4.8)获得摘要文本Abstract的文档-主题和主题-关键词;
(4.9)通过TF-IDF算法对Abstract’进行权重计算;
(4.10)获取Abstract中权重最大的5个词;
(4.11)通过摘要中文档-主题、主题-关键词和权重最大的5个词共同构建主题子网。
进一步的,所述步骤(5)的具体步骤如下:
(5.1)取专家合作关系子网、Web子网和主题子网;
(5.2)以专家姓名-机构为约束条件将专家合作关系子网、Web子网和主题子网进行关联;
(5.3)获得专家信息网络;
(5.4)计算专家信息网络中专家中心度值并排序;
(5.5)根据排序结果将排名前5的专家作为最终推荐结果。
本发明采用上述技术方案,具有以下有益效果:
本发明改变了现有推荐***由于数据源不足而造成的专家属性表示单一和专家关系表示不足问题,使用多源信息构造专家合作关系子网、Web子网和主题子网,并以专家姓名-机构为约束条件融合三种子网构建技术专家信息网络。基于专家信息网络构造的推荐***可对专家信息进行拓展,增强了技术专家之间的合作关系与地域关系之间的联系,使技术专家推荐更加全面、准确,提高了推荐结果的广度与深度。
附图说明
图1为本发明的总体流程图;
图2为具体实施例中构建关键词词典的流程图;
图3为具体实施例中构建专家合作关系子网的流程图;
图4为具体实施例中构建Web子网的流程图;
图5为具体实施例中构建主题子网的流程图;
图6为具体实施例中专家推荐的流程图。
具体实施方式
下面结合工程国家标准的具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-6所示,本发明所述的一种基于多源信息融合技术的专家推荐方法,包括如下步骤:
步骤1:爬取技术专家数据构建知识库,并构建关键词词典keywords:
步骤1.1:从知识库中获取科技论文文献W,W篇幅总数为M,并创建一个空关键词词典keywords;
步骤1.2:定义全局循环变量Vi初始化为1用于遍历W,Vi∈(1,M),其中,WVi表示第Vi篇文献;
步骤1.3:判断Vi≤M是否成立,若成立,执行步骤1.4,若不成立,执行步骤1.11;
步骤1.4:定义循环变量Vij初始化为1为文献WVij的第j个关键词,Vij∈(1,N),N为文献WVij的关键词个数;
步骤1.5:判断Vij∈keywords是否成立,若成立,执行步骤1.6,若不成立,执行步骤1.10;
步骤1.6:关键词表中已存在关键词Vij,放弃写入Vij;
步骤1.7:令Vij=Vij+1;
步骤1.8:判断Vij≤N是否成立,若成立,执行步骤1.5,若不成立,执行步骤1.9;
步骤1.9:令Vi=Vi+1,并执行步骤1.3;
步骤1.10:将关键词Vij写入关键词表keywords,并执行步骤1.7;
步骤1.11:得到包含所有关键词的关键词表keywords。
步骤2:抽取知识库作者字段进行词频共现分析构建专家合作关系子网:
步骤2.1:从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi和文献WVi
步骤2.2:判断Vi≤M是否成立,若成立,执行步骤2.3,若不成立,执行步骤2.5;
步骤2.3:对第WVi篇科技论文作者进行分隔,得到文献作者关系R={WVi,WVia},其中,WVia为第WVi篇文献的第a位作者姓名;
步骤2.4:令Vi=Vi+1并执行步骤2.2;
步骤2.5:得到分隔后的所有文献作者关系R;
步骤2.6:对文献作者关系R中所有作者做频次统计,得到作者频次A={m,Na},其中,Na为作者姓名,m为Na出现总次数;
步骤2.7:统计作者共现频次G={m,Nap Naq},其中,G表示作者Nap与Naq共同出现m次;
步骤2.8:将作者共现频次G转化为共现网络得到作者关系子网。
步骤3:分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建专家Web子网:
步骤3.1:知识库中获取专家Web页面信息;
步骤3.2:通过命名实体识别算法对专家Web页面进行专家信息获取;
步骤3.3:得到专家个人信息;
步骤3.4:定义正则表达式规则Ru;
步骤3.5:判断规则Ru在Web页面取值是否为空,若成立,执行步骤3.8,若不成立,执行步骤3.6;
步骤3.6:得到专家研究方向;
步骤3.7:得到专家研究方向和专家个人信息并构建Web子网;
步骤3.8:得到专家个人信息并构建Web子网。
步骤4:分别通过lda算法对知识库摘要字段提取文档-主题和主题-关键词,TF-IDF算法提取摘要字段权重最大的5个词,共同构建主题子网:
步骤4.1:从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi,创建一个空摘要文本Abstract;
步骤4.2:判断Vi≤M是否成立,若成立,执行步骤4.3,若不成立,执行步骤4.5;
步骤4.3:将文献WVi的摘要写入摘要文本Abstract;
步骤4.4:令Vi=Vi+1并执行步骤4.2;
步骤4.5:获得包含所有文献W的摘要文本Abstract;
步骤4.6:加入关键词词典keywords并对摘要文本Abstract进行jieba分词,得到分词后摘要文本Abstract’;
步骤4.7:通过lda算法对Abstract’进行文档-主题和主题-关键词计算;
步骤4.8:获得摘要文本Abstract的文档-主题和主题-关键词;
步骤4.9:通过TF-IDF算法对Abstract’进行权重计算;
步骤4.10:获取Abstract中权重最大的5个词;
步骤4.11:通过摘要中文档-主题、主题-关键词和权重最大的5个词共同构建主题子网。
步骤5:以专家姓名-机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果:
步骤5.1:取专家合作关系子网、Web子网和主题子网;
步骤5.2:以专家姓名-机构为约束条件将专家合作关系子网、Web子网和主题子网进行关联;
步骤5.3:获得专家信息网络;
步骤5.4:计算专家信息网络中专家中心度值并排序;
步骤5.5:根据排序结果将排名前5的专家作为最终推荐结果。
上述步骤中涉及的变量见下表所示:
Figure BDA0002681717780000081
Figure BDA0002681717780000091
对39382条数据进行处理,从爬取的数据中抽取专家信息、文献摘要、关键词和Web网页信息构建知识库。通过多源信息融合技术构建专家合作关系子网、Web子网和主题子网并以专家姓名-机构为约束条件构建技术专家信息网络,结合技术专家信息网络构建专家推荐***,该推荐***可对专家信息进行拓展,增强了技术专家之间的合作关系与地域关系之间的联系,使技术专家推荐更加全面、准确,提高了推荐结果的广度与深度。
本发明创造性地提出了一种基于多源信息融合技术的专家推荐方法,本方法改变了现有专家推荐***属性表示单一的问题,使用多源信息构造专家合作关系子网、Web子网和主题子网,并以专家姓名-机构为约束条件融合三种子网构建技术专家信息库。融合三种子网的技术专家推荐***能够全面展示专家信息,并可根据技术专家之间的合作关系与地域关系进行深层次关联推荐,提高了推荐范围的广度与深度,使专家推荐同时具有更高的准确性和可拓展性。

Claims (6)

1.一种基于多源信息融合技术的专家推荐方法,其特征在于,具体步骤如下:
(1)爬取技术专家数据构建知识库,并构建关键词词典keywords;
(2)抽取知识库作者字段进行词频共现分析构建专家合作关系子网;
(3)分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建专家Web子网;
(4)分别通过lda算法对知识库摘要字段提取文档-主题和主题-关键词,TF-IDF算法提取摘要字段权重最大的5个词,共同构建主题子网;
(5)以专家姓名-机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
2.根据权利要求1所述的一种基于多源信息融合技术的专家推荐方法,其特征在于,所述步骤(1)中构建关键词词典keywords的具体步骤如下:
(1.1)从知识库中获取科技论文文献W,W篇幅总数为M,并创建一个空关键词词典keywords;
(1.2)定义全局循环变量Vi初始化为1用于遍历W,Vi∈(1,M),其中,WVi表示第Vi篇文献;
(1.3)判断Vi≤M是否成立,若成立,执行步骤(1.4),若不成立,执行步骤(1.11);
(1.4)定义循环变量Vij初始化为1为文献WVij的第j个关键词,Vij∈(1,N),N为文献WVij的关键词个数;
(1.5)判断Vij∈keywords是否成立,若成立,执行步骤(1.6),若不成立,执行步骤(1.10);
(1.6)关键词表中已存在关键词Vij,放弃写入Vij;
(1.7)令Vij=Vij+1;
(1.8)判断Vij≤N是否成立,若成立,执行步骤(1.5),若不成立,执行步骤(1.9);
(1.9)令Vi=Vi+1,并执行步骤(1.3);
(1.10)将关键词Vij写入关键词表keywords,并执行步骤(1.7);
(1.11)得到包含所有关键词的关键词表keywords。
3.根据权利要求1所述的一种基于多源信息融合技术的专家推荐方法,其特征在于,所述步骤(2)中抽取知识库作者字段进行词频共现分析构建专家合作关系子网的具体步骤如下:
(2.1)从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi和文献WVi
(2.2)判断Vi≤M是否成立,若成立,执行步骤(2.3),若不成立,执行步骤(2.5);
(2.3)对第WVi篇科技论文作者进行分隔,得到文献作者关系R={WVi,WVia},其中,WVia为第WVi篇文献的第a位作者姓名;
(2.4)令Vi=Vi+1并执行步骤(2.2);
(2.5)得到分隔后的所有文献作者关系R;
(2.6)对文献作者关系R中所有作者做频次统计,得到作者频次A={m,Na},其中,Na为作者姓名,m为Na出现总次数;
(2.7)统计作者共现频次G={n,Nap Naq},其中,G表示作者Nap与Naq共同出现n次;
(2.8)将作者共现频次G转化为共现网络得到作者关系子网。
4.根据权利要求1所述的一种基于多源信息融合技术的专家推荐方法,其特征在于,所述步骤(3)分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建专家Web子网的具体步骤如下:
(3.1)知识库中获取专家Web页面信息;
(3.2)通过命名实体识别算法对专家Web页面进行专家信息获取;
(3.3)得到专家个人信息;
(3.4)定义正则表达式规则Ru;
(3.5)判断规则Ru在Web页面取值是否为空,若成立,执行步骤(3.8),若不成立,执行步骤(3.6);
(3.6)得到专家研究方向;
(3.7)得到专家研究方向和专家个人信息并构建Web子网;
(3.8)得到专家个人信息并构建Web子网。
5.根据权利要求1所述的一种基于多源信息融合技术的专家推荐方法,其特征在于,所述步骤(4)中通过lda与TF-IDF算法获取摘要字段的文档-主题、主题-关键词和权重最大的5个词的具体步骤如下:
(4.1)从知识库中获取科技论文文献W,W篇幅总数为M,循环变量Vi,创建一个空摘要文本Abstract;
(4.2)判断Vi≤M是否成立,若成立,执行步骤(4.3),若不成立,执行步骤(4.5);
(4.3)将文献WVi的摘要写入摘要文本Abstract;
(4.4)令Vi=Vi+1并执行步骤(4.2);
(4.5)获得包含所有文献W的摘要文本Abstract;
(4.6)加入关键词词典keywords并对摘要文本Abstract进行jieba分词,得到分词后摘要文本Abstract’;
(4.7)通过lda算法对Abstract’进行文档-主题和主题-关键词计算;
(4.8)获得摘要文本Abstract的文档-主题和主题-关键词;
(4.9)通过TF-IDF算法对Abstract’进行权重计算;
(4.10)获取Abstract中权重最大的5个词;
(4.11)通过摘要中文档-主题、主题-关键词和权重最大的5个词共同构建主题子网。
6.根据权利要求1所述的一种基于多源信息融合技术的专家推荐方法,其特征在于,所述步骤(5)中以专家姓名-机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,并将中心度值排名前5的专家作为推荐结果的具体步骤如下:
(5.1)取专家合作关系子网、Web子网和主题子网;
(5.2)以专家姓名-机构为约束条件将专家合作关系子网、Web子网和主题子网进行关联;
(5.3)获得专家信息网络;
(5.4)计算专家信息网络中专家中心度值并排序;
(5.5)根据排序结果将排名前5的专家作为最终推荐结果。
CN202010964492.1A 2020-09-15 2020-09-15 一种基于多源信息融合技术的专家推荐方法 Active CN112269909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964492.1A CN112269909B (zh) 2020-09-15 2020-09-15 一种基于多源信息融合技术的专家推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964492.1A CN112269909B (zh) 2020-09-15 2020-09-15 一种基于多源信息融合技术的专家推荐方法

Publications (2)

Publication Number Publication Date
CN112269909A true CN112269909A (zh) 2021-01-26
CN112269909B CN112269909B (zh) 2022-06-03

Family

ID=74349510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964492.1A Active CN112269909B (zh) 2020-09-15 2020-09-15 一种基于多源信息融合技术的专家推荐方法

Country Status (1)

Country Link
CN (1) CN112269909B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988951A (zh) * 2021-03-16 2021-06-18 福州数据技术研究院有限公司 一种科研项目评审专家精准推荐方法和存储设备
CN113537927A (zh) * 2021-06-28 2021-10-22 北京航空航天大学 一种科技资源服务平台交易协同***及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
US20160154798A1 (en) * 2014-03-06 2016-06-02 Webfire, Llc Method of automatically constructing content for web sites
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质
CN110990662A (zh) * 2019-11-22 2020-04-10 北京市科学技术情报研究所 一种基于引文网络与科研合作网络的领域专家遴选方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
US20160154798A1 (en) * 2014-03-06 2016-06-02 Webfire, Llc Method of automatically constructing content for web sites
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质
CN110990662A (zh) * 2019-11-22 2020-04-10 北京市科学技术情报研究所 一种基于引文网络与科研合作网络的领域专家遴选方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐硕: "《基于论文和资源的技术机会发现方法》", 31 January 2018 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988951A (zh) * 2021-03-16 2021-06-18 福州数据技术研究院有限公司 一种科研项目评审专家精准推荐方法和存储设备
CN113537927A (zh) * 2021-06-28 2021-10-22 北京航空航天大学 一种科技资源服务平台交易协同***及方法
CN113537927B (zh) * 2021-06-28 2024-06-07 北京航空航天大学 一种科技资源服务平台交易协同***及方法

Also Published As

Publication number Publication date
CN112269909B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
Xie et al. An improved algorithm for sentiment analysis based on maximum entropy
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和***
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
Radovanović et al. Text mining: Approaches and applications
CN109165383B (zh) 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN108304552B (zh) 一种基于知识库特征抽取的命名实体链接方法
Zeng et al. A classification-based approach for implicit feature identification
CN112269909B (zh) 一种基于多源信息融合技术的专家推荐方法
CN110728151B (zh) 基于视觉特征的信息深度处理方法及***
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN106599824B (zh) 一种基于情感对的gif动画情感识别方法
CN109885693A (zh) 基于知识图谱的快速知识对比方法及***
Lubis et al. Latent Semantic Indexing (LSI) and Hierarchical Dirichlet Process (HDP) Models on News Data
Popovski et al. Food Data Integration by using Heuristics based on Lexical and Semantic Similarities.
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
Sahono et al. Extrovert and introvert classification based on Myers-Briggs Type Indicator (MBTI) using support vector machine (SVM)
Cherif et al. A hybrid optimal weighting scheme and machine learning for rendering sentiments in tweets
Tian et al. Research on image classification based on a combination of text and visual features
Zheng et al. A short-text oriented clustering method for hot topics extraction
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及***
Wang et al. Content-based weibo user interest recognition
CN111199154A (zh) 基于容错粗糙集的多义词词表示方法、***及介质
Rajkumar et al. An efficient feature extraction with subset selection model using machine learning techniques for Tamil documents classification
Pham Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach
Murata et al. Improved method for organizing information contained in multiple documents into a table

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210126

Assignee: JIANGSU AOFAN TECHNOLOGY CO.,LTD.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980027215

Denomination of invention: An expert recommendation method based on multi-source information fusion technology

Granted publication date: 20220603

License type: Common License

Record date: 20221229

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230615

Address after: Room 501, No. 502, No. 894, Tianhe North Road, Tianhe District, Guangzhou, Guangdong 510000

Patentee after: Greater Bay Area Technology Innovation Service Center (Guangzhou) Co.,Ltd.

Address before: 510000 room 432, second floor, unit 2, building 2, No. 24, Jishan new road street, Tianhe District, Guangzhou City, Guangdong Province (office only)

Patentee before: Guangzhou Jingzhi Information Technology Co.,Ltd.

Effective date of registration: 20230615

Address after: 510000 room 432, second floor, unit 2, building 2, No. 24, Jishan new road street, Tianhe District, Guangzhou City, Guangdong Province (office only)

Patentee after: Guangzhou Jingzhi Information Technology Co.,Ltd.

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY