CN117131279A - 一种用于专家推荐的数据处理方法及装置 - Google Patents

一种用于专家推荐的数据处理方法及装置 Download PDF

Info

Publication number
CN117131279A
CN117131279A CN202311182461.0A CN202311182461A CN117131279A CN 117131279 A CN117131279 A CN 117131279A CN 202311182461 A CN202311182461 A CN 202311182461A CN 117131279 A CN117131279 A CN 117131279A
Authority
CN
China
Prior art keywords
expert
data
term
semantic
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311182461.0A
Other languages
English (en)
Inventor
杨学志
封军
尚楚涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202311182461.0A priority Critical patent/CN117131279A/zh
Publication of CN117131279A publication Critical patent/CN117131279A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于专家推荐的数据处理方法及装置,属于计算机信息处理技术领域。针对现有技术中存在的企业人才需求得不到及时解决、高校专家资源无法得到有效利用导致企业与高校或研究机构难以进行产学研合作的问题,本发明通过构建科研词典对待匹配企业需求数据进行数据处理得到企业问题词项向量数据,通过构建专家语义模型对待匹配专家信息数据进行聚类得到相似专家聚类簇的中心词项向量数据,最后基于实践度算法对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,最终获得专家推荐结果。由此,可以较好地缓解人工方式进行专家推荐存在的效率低下、准确性不足等问题,有效推进企业与高校或研究机构产学研合作。

Description

一种用于专家推荐的数据处理方法及装置
技术领域
本发明涉及计算机信息处理技术领域,更具体地说,涉及一种用于专家推荐的数据处理方法及装置。
背景技术
产学研合作是企业与高校或研究机构为实现自身需求或利益,以科技创新和研究成果转化为目标的一种合作方式,是促进科技成果转化的最有效途径之一。在产业转型升级过程中,产学研合作非常重要。企业研发新产品经常遭遇技术困难,希望与专家协作解决并希望通过某些途径寻找到相关领域的专家。
目前,企业寻找专家的主要途径是通过相关人士推荐。这种以熟人社交为基础的推荐方式往往导致信息不完整,较难找到对口专家,会较大的影响产学研合作效果。判断一个专家是否能够匹配企业的技术人员需求,一般需要分析研究专家的特长。专家特长可以用其发表的论文或者专利等成果表征,原理上可以根据企业技术人员需求通过信息匹配方式推荐专家。
近年来,随着自然语言处理技术的发展,关于文本方面的推荐方法在社交平台和电子商务领域得到广泛应用。推荐方法通常分为基于内容、基于协同过滤、基于规则等几种方法。基于内容的推荐通过挖掘商品的内容特征为用户推荐与自己偏好商品特征相类似的商品。与之类似,如果以成果文本表征专家特长,以需求文本表征技术难题,根据相似度计算结果,可以提出一种基于内容的专家推荐方法,为企业推荐相关领域的专家,达成企业和高校的互利共赢。
经检索,中国专利申请,申请号201911175078.6,公开日2020年5月15日,公开了一种专家推荐方法及***。该方法包括:根据基础关键词,获取关键词序列;将关键词序列输入到若干现有专家推荐***中,获取推荐结果集合;对于任一推荐结果序列中的任一专家,根据任一现有专家推荐***的类型、任一专家在任一推荐结构序列中的推荐程度,获取任一专家的推荐评分;根据每一专家的推荐评分,获取专家推荐结果。该方法可以在不依赖于本地数据库的前提下,在多个现有的专家推荐***的基础上,给用户呈现更加全面、标准更加统一的推荐结果序列。但是该方法并未考虑到现有平台的算法具有一定缺陷,并不能做到精确地推荐专家,也无法满足企业与高校或研究机构之间的产学研合作。
发明内容
1.要解决的技术问题
针对现有技术中存在的企业人才需求得不到及时解决、高校专家资源无法得到有效利用进而导致不能很好地实现企业与高校或研究机构产学研合作的问题,本发明提供了一种用于专家推荐的数据处理方法及装置,基于实践度算法对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据,从而可以较好地缓解人工方式进行专家推荐存在的效率低下、准确性不足等问题,进而有效推进企业与高校或研究机构产学研合作。
2.技术方案
本发明的目的通过以下技术方案实现。
一种用于专家推荐的数据处理方法,包括:
获取待匹配数据,所述待匹配数据包括待匹配企业需求数据和待匹配专家信息数据;
构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;
构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据;
基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
进一步地,构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据,包括:
获取专家信息数据并提取出专家信息数据中的专家主题特征数据,通过专家主题特征数据构建专家知识表示模型;
在专家知识表示模型中提取特征词数据,通过特征词数据建立词袋模型并构建专家-词项矩阵,对专家-词项矩阵处理得到语义专家-词项矩阵,通过语义专家-词项矩阵构建专家语义模型;
对专家语义模型进行聚类,得到相似专家聚类簇的中心词项向量数据。
进一步地,通过专家主题特征数据构建专家知识表示模型的步骤包括:
基于专家主题特征数据定义专家知识集数据,通过专家知识集数据表征专家物元知识模型;
通过向量空间模型对专家物元知识模型扩展,得到专家知识表示模型。
进一步地,从专家知识表示模型中提取出所有专家的特征词数据,将特征词数据进行去重处理后,通过特征词数据建立词袋模型并构建专家词项向量数据,通过专家词项向量数据构建专家-词项矩阵;
将专家-词项矩阵降维处理,对降维处理后的专家-词项矩阵进行逆运算得到语义专家-词项矩阵,通过语义专家-词项矩阵构建专家语义模型。
进一步地,专家语义模型表示为:
SEM=(ID,Index,SW)
其中,SEM表示专家语义模型,ID表示专家的标识字段,Index表示专家位于语义专家-词项矩阵中对应的位置,SW表示词项在语义专家-词项矩阵中的权重集合。
进一步地,在专家语义模型中获得不同关键词数据中的潜在相关度数据,再对语义专家-词项矩阵进行降维和逆运算处理获取语义专家-词项矩阵中的潜在语义信息数据,得到专家之间相似度矩阵数据;
通过K-MEANS算法对专家之间相似度矩阵数据进行聚类,得到相似专家聚类簇的中心词项向量数据。
进一步地,构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据,包括:
获取并解析科研数据得到关键词数据,对关键词数据处理构建科研词典;
根据已构建的科研词典,以最长匹配原则对待匹配企业需求数据进行数据处理,并依据词袋模型得到企业问题词项向量数据。
进一步地,通过实践度算法对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理的计算公式为:
Recommend(Question)=λ×Similarity(Question,Exper)+μ×Practoce(Question,Expert)
其中,Recommend表示匹配结果,Question表示企业问题词项向量数据,Expert表示相似专家聚类簇的中心词项向量数据,Recommend(Question)表示在企业问题词项向量数据下的匹配结果,λ、μ均表示赋予潜在语义相似度和实践度的权重,Similarity(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的余弦相似度,Practice(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的实践度计算结果。
一种用于专家推荐的数据处理装置,包括:
数据获取模块,获取待匹配数据,所述待匹配数据包括待匹配专家信息数据和待匹配企业需求数据;
企业需求数据模块,构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;
专家信息数据模块,构建专家语义模型,对待匹配专家信息数据进行文本聚类,得到相似专家聚类簇的中心词项向量数据;
数据匹配模块,基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的用于专家推荐的数据处理方法。
3.有益效果
相比于现有技术,本发明的优点在于:
本发明的一种用于专家推荐的数据处理方法及装置,通过构建科研词典对待匹配企业需求数据进行数据处理得到企业问题词项向量数据,通过构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据,最后基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理得到匹配结果数据,进而获得专家推荐结果,由此,可以较好地缓解人工方式进行专家推荐存在的效率低下、准确性不足等问题,进而有效推进企业与高校或研究机构产学研合作。
附图说明
图1为本发明实施例用于专家推荐的数据处理方法流程图;
图2为本发明实施例科研词典构建流程图;
图3为本发明实施例专家科研模型构建流程图;
图4为本发明实施例专家结构化特征组成图;
图5为本发明实施例专家文本数据示意图;
图6为本发明实施例向量模型构建流程图;
图7为本发明实施例专家聚类流程图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
实施例
如图1所示,为本实施例提供的一种用于专家推荐的数据处理方法。一种用于专家推荐的数据处理方法包括以下步骤:获取待匹配数据,所述待匹配数据包括待匹配企业需求数据和待匹配专家信息数据;构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据;基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
具体到本实施例中,首先,获取待匹配数据,待匹配数据包括待匹配企业需求数据和待匹配专家信息数据。需要说明的是,本实施例中,通过现有数据库获取待匹配企业需求数据和待匹配专家信息数据。
进一步地,构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据。如图2所示,获取并解析科研数据得到关键词数据,对关键词数据处理构建科研词典。具体地,获取现有数据库中的科研数据,本实施例中,现有数据库包括国家科技报告***的数据库和中国知网的数据库等。进而设置若干个与专家主题相关度高的种子页面作为初始科研数据源,利用爬虫定向爬取国家科技报告***中的各种概览页以及中国知网中各个领域的论文概览页获得科研数据,通过定向抓取或者爬虫抓取的方式解析科研数据得到关键字数据,将得到的关键字数据按分类存储成文本格式,作为原始的科研词典数据。进一步地,为了保证科研词典的准确性,提高后续数据处理的效率和准确度,需要对原始的科研词典数据中的关键字数据进行去噪处理。本实施例中,对原始的科研词典数据中的关键词数据进行去噪处理的方式包括停用词库构建和增加低频词库两种方式。停用词库构建是指借鉴现有的停用词表构建停用词库,根据停用词库进行停用词过滤,提取各个领域科技领域候选词汇。停用词库通过不断更新完善进行构建,其思想是在技术需求领域中,如“方法”、“技术”、“研究”等,此类关键词数据在科研文本信息数据中会大量出现,而且不能反映科研文本信息数据的领域信息数据,为此需要统计关键词数据的同一文档频率,将大于某一阀值的关键词数据加入到停用词库中。本实施例中,设定阈值为α,阈值α是根据领域特点、简化模型和实验情况综合选取的。增加低频词库是指计算关键字数据的词频,设定词频阈值,当关键字数据的词频低于词频阈值时,将该关键字数据加入低频词库,根据低频词库进行低频词过滤。本实施例中,设定词频阈值为β。进一步地,对去噪处理后的关键词数据进行扩展和重构得到科研词典。本实施例中,对关键词数据扩展是指通过检索科研领域相关的文献、资料和专业术语等数据,寻找并添加新的关键词数据到科研词典中;对关键词数据重构是指对已有的关键词数据重新进行组织和归类,以更好地满足科研领域的需求。由此,本实施例中,通过构建科研词典能够有效提高自然语言处理的有效性和精确度。进而,针对企业技术需求,根据已构建的科研词典,以最长匹配原则对待匹配企业需求数据进行数据处理,并通过构建词袋模型得到企业问题词项向量数据。需要说明的是,本实施例中,通过最长匹配原则对待匹配企业需求数据进行数据处理为现有技术。
进一步地,如图3所示,构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据。具体地,获取专家信息数据并提取出专家信息数据中的专家主题特征数据,通过专家主题特征数据构建专家知识表示模型。现有技术中,专家信息数据中的文本具有结构清晰、专家字段较多的特点,而专家字段的内容描述了专家各个方面的信息数据,因此,从现有的专家数据库中自动或者手动获取专家信息数据,进而通过专家信息数据提取出专家主题特征数据。需要说明的是,由于专家字段表征专家主题特征数据的权重不同,因此需要将专家主题特征数据分为主要特征数据和次要特征数据。由于专家信息数据包含多个能够表征专家主题的结构化信息数据,如研究领域、所述学科、应用方向、专业职称、公开专利、专家简介、发表论文、课题承担和教育情况等结构化信息数据。其中,研究领域、所属学科和应用方向能够快速区分专家的科研情况,因此,本实施例中,将研究领域、所属学科、应用方向作为专家主题特征数据的主要特征数据,将专业职称、公开专利、专家简介、发表论文、课题承担和教育情况等结构化信息作为专家主题特征数据的次要特征数据。本实施例中,如图4所示,选取专家姓名、专家职称、专家简历、研究领域、所属学科、公开专利、发表论文、参与项目这八种能够表征专家主题特征数据的结构化信息数据。进而,通过专家主题特征数据构建专家知识表示模型。由于专家主题特征数据包括研究领域、所属学科等特征数据,这些特征数据对于专家推荐结果的准确性和可靠性有很大的影响,同时为使得企业技术需求数据与专家信息数据能够在同一维度中进行相似度计算,因此需要构建统一的向量空间模型(Vector Space Model,VSM)从而利用专家主题特征数据构建专家知识表示模型。本实施例中,基于专家主题特征数据定义一个专家知识集数据,通过专家知识集数据表征专家物元知识表示模型。本实施例中,将专家知识集数据定义为一个有序的三元组M,三元组M表示为:
其中,M表示专家知识集数据,K表示专家,F表示专家主题特征数据集合,F=(f1,f2,f3,...,fk),f表示某一个专家主题特征数据,W表示专家主题特征数据的权重,W=(w1,w2,w3,...,wk),w表示某一个专家主题特征数据的权重,k表示专家主题特征总数。需要说明的是,由于专家K中包含多种特征属性,因此在实际应用过程中,只需要将关联性强的特征属性加入到专家K中,而关联性不强的特征属性则予以忽略。此外,考虑到专家知识集数据M的结构较为复杂,因此引入自变量t将专家知识集数据M定义为M(t),其中,M(t)=(K(t),F,W(t))。由此,本实施例中,通过专家物元知识表示模型可以突显不同科研领域中专家主题特征数据对于专家信息数据的影响,从而更准确、更全面地实现企业技术需求数据与专家信息数据的匹配。
值得说明的是,若仅通过向量空间模型VSM构建专家知识表示模型会导致相似度计算量大的问题,因此,本实施例中,通过将专家物元知识表示模型与向量空间模型VSM相结合的方式构建专家知识表示模型。由此,通过向量空间模型VSM对专家物元知识表示模型进行扩展,得到专家知识表示模型,专家知识表示模型表示为:
EKM=(ID,S,N,X)
其中,EKM表示专家知识表示模型,ID表示专家的标识字段,用以区分不同的专家,S表示不同的专家主题特征数据集合,N表示专家主题特征数据中的关键词数据集合,X表示关键词数据中包含的词项集合及词项对应的权重,X=(g(xa1),g(xa2),...,g(xab)),x表示词项,a、b均表示自然数,xab表示第a个关键词里的第b个词项,g表示权重,g(xab)表示第a个关键词里的第b个词项的权重值。如图5所示,通过构建专家知识表示模型EKM可以详细地展示各种专家信息数据。本实施例中,通过词频表征关键词数据中词项的权重值,由此,通过TF-IDF(Term Frequency–Inverse document Frequency)方法对专家主题特征数据中的关键词数据进行统一的权重度量。需要说明的是,本实施例中,通过TF-IDF方法对专家主题特征数据中的关键词数据进行统一的权重度量为现有技术。本实施例中,通过TF-IDF方法进行权重度量的计算公式为:
G(Duv)=TFu,v×IDFv
IDFv=log|docs|/(termiDocv+1)
其中,u表示第u个专家,v表示第v个词项,Duv表示第u个专家的第v个词项,G(Duv)表示第u个专家的第v个词项的出现权重值,TFu,v表示第u个专家的第v个词项在文档中出现的频率,IDFv表示第v个词项的逆文档频率,Cu,v表示第v个词项在文档中出现的次数,x表示文档的总词数,y表示文档中的第y个词项,|docs|表示文档数,termDocv表示包含词项的文档数。
进而,如图6所示,在专家知识表示模型EKM中提取特征词数据,通过特征词数据建立词袋模型并构建专家-词项矩阵,对专家-词项矩阵处理得到语义专家-词项矩阵,通过语义专家-词项矩阵构建专家语义模型。具体地,通过专家知识表示模型EKM中提取出所有专家的特征词数据,将特征词数据进行去重处理后,通过特征词数据建立词袋模型并据此构建专家词项向量数据。现有技术中,词袋模型是一种常用的文本表示方法,它将文本中的每个词或短语视为独立的特征,并且忽略它们之间的语法和上下文关系,只需关注它们在文本中出现的频率。因此,本实施例中,通过特征词数据中的特征词构建词袋模型,可以将专家信息数据转化为专家词项向量数据,通过专家词项向量数据表示专家主题特征数据。由于词项在词袋模型中的顺序固定,在向量空间的位置是唯一确定的,因此,将专家词项向量数据表示为:
VE=(e(term1),e(term2),...,e(termh))
其中,VE表示专家词项向量数据,e表示词项对应的权重,h表示词项的数量,term表示在专家知识表示模型EKM中提取的特征词项,e(termh)表示第h个词项term在专家知识表示模型EKM中对应的词项的权重。由此,通过专家词项向量数据构建专家-词项矩阵。本实施例中,以专家信息数据为行,以词项为列,构建专家-词项矩阵,将专家-词项矩阵定义为EM,则该专家-词项矩阵EM中的第h'行表示第k'个专家,第k'列表示词袋模型中的第k'个词项,第h'行第k'列表示第h个专家词项向量中第k'列的值。为了挖掘出专家-词项矩阵EM中的潜在语义信息,本实施例中,通过奇异值分解(Singular Value Decomposition,SVD)对专家-词项矩阵EM进行奇异值分解。专家-词项矩阵EM分解后表示为:
EM=U×ε×VT
其中,U表示一个正交矩阵,其列向量为专家-词项矩阵EM的左奇异向量,V表示另一个正交矩阵,其列向量为专家-词项矩阵EM的右奇异向量,T表示转置操作,VT表示正交矩阵V的转置矩阵,ε表示对角矩阵,其对角线上的元素是专家-词项矩阵EM的奇异值。由此,本实施例中,通过奇异值分解SVD可以度量专家信息数据中潜在的中文词语之间的相似性,并改善向量空间模型VSM中数据稀疏的问题。需要说明的是,正交矩阵U和正交矩阵V的列向量都已正交归一化处理,但是目前通过奇异值分解SVD得到的仍是一个高维矩阵,为使得专家-词项矩阵EM塌陷降维,得到规模更小的近似矩阵,本实施例中,通过潜在语义分析(Latent Semantic Analysis,LSA)对奇异值分解SVD进行调整。需要说明的是,潜在语义分析LSA通过排序和截断奇异值,将高维矩阵降维为低维潜在语义矩阵。在降维过程中,通常选择奇异值较大的前p个特征向量,即保留前p个奇异值和对应的左、右奇异向量。p表示低维空间的维数,根据经验可以选择保存总奇异值的1%左右的特征向量,以保留95%以上的信息。由此,本实施例中,对对角矩阵ε的r个对角线元素进行了排序,并只保留前q个值,q<r,后r-q个值置零处理,q表示低维空间的维数,q一般选取前1%的特征向量,便可保存95%以上的信息。由此,本实施例中,通过将高维的向量空间模型VSM投射到低维的语义空间中,可以有效避免专家信息数据中关键词数据中的关键词存在同义和多义等问题,进而在该语义空间中计算专家信息数据的相似度。
进一步地,对降维后的专家-词项矩阵EM进行逆运算,得到逆运算后的专家-词项矩阵,即为语义专家-词项矩阵EMs,此时,EM≈EMs,EMs=U'×ε'×(V')T,其中,U'表示降维后的正交矩阵,ε'表示降维后的对角矩阵,V'表示降维后的另一个正交矩阵。由此,在语义专家-词项矩阵EMs中包含了专家-词项的潜在语义,即在专家信息数据中未曾描述过的关键词数据中的词项经过语义分析后,在专家知识表示模型EKM中也包含了权重值。此外,当专家信息数据的数据量越大时,所挖掘的潜在语义将更加精准。进而,通过得到的语义专家-词项矩阵EMs构建专家语义模型,本实施例中,专家语义模型表示为:
SEM=(ID,Index,SW)
其中,SEM表示专家语义模型,ID表示专家的标识字段,Index表示专家位于语义专家-词项矩阵EMs中对应的位置,SW表示词项在语义专家-词项矩阵EMs中的权重集合。
进一步地,如图7所示,通过专家语义模型对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量。需要说明的是,在科研领域进行专家推荐时,寻找的是与企业需求相关的专家,由此需要先通过专家语义模型SEM进一步挖掘不同关键词数据中词项之间的潜在相关度,本实施例中,通过专家语义模型SEM进一步挖掘不同关键词数据中词项之间的潜在相关度表示为:
EMS T×EMS=(U′×ε×(V′)T)T×U′×ε′×(V′)T
=V′×(ε′)T×(U′)T×U′×ε′×(V′)T
=(V′×ε′)T×(V′×ε′)
其中,EMs T表示语义专家-词项矩阵EMs的转置矩阵。需要说明的是,由于降维后的正交矩阵U'已正交归一,因此,(U')T×U'=E,其中,(U')T表示降维后的正交矩阵U'的转置矩阵,E表示单位矩阵,此外,由于ε为对角矩阵,故εT=ε,其中,εT表示对角矩阵ε的转置矩阵。进而,LSASim=M×MT=(V'×ε')T×(V'×ε'),其中,LSASim表示词项之间相关度矩阵,词项之间相关度矩阵LSASim的第u'行第v'列表明了词项u'和词项v'的文本相关性大小,MT表示专家知识集M的转置矩阵。通过词项之间相关度矩阵LSASim建立词项相关度词典。进一步地,在语义专家-词项矩阵EMs中,通过奇异值分解SVD对语义专家-词项矩阵EMs进行分解降维,再利用潜在语义分析LSA获取语义专家-词项矩阵EMs中的潜在语义信息,进而得到专家之间相似度矩阵数据。具体地,EMs T×EMs=(V'×ε')T×(V'×ε'),由于降维后的正交矩阵V'已正交归一,因此,(V')T×V'=E,由于ε为对角矩阵,故(ε')T=ε',由此,ExpertsSim=EMs T×EMs=(U'×ε')T×(U'×ε'),其中,ExpertsSim表示专家之间相似度矩阵数据,专家之间相似度矩阵ExpertsSim的第x'行第y'列表明了专家x'和专家y'的文本相关性大小。由此,本实施例中,通过K-MEANS算法对专家之间相似度矩阵数据ExpertsSim进行聚类。
需要说明的是,在K-MEANS算法中,为了避免出现设定的初始聚类中心扎堆的情况出现进而影响最终的聚类效果,本实施例中,采用均匀差值选取法选出初始聚类中心,设定Y个数据样本,Z个聚类中心,由此,被选定为初始聚类中心点的数据样本的索引表示为:
其中,I表示选定为初始聚类中心点的数据样本的索引,d表示聚类中心点。本实施例中,由于通过专家之间相似度矩阵数据ExpertsSim来衡量两个专家之间的相似度,因此,在K-MEANS算法中比较专家与聚类中心点的距离时,专家之间相似度矩阵数据ExpertsSim中的每一行表示该专家与其他专家的相似度,因此,在聚类过程中对专家进行聚类划分时只需要判断特定的专家与该聚类中心的文本相似度,选择相似度最大的聚类,则该专家就属于该聚类。当一次聚类结束后,将该聚类簇下的每个专家样本对象求和重新计算均值,新的专家相似度向量代表了该聚类中心与其他专家的相似度,从而避免重复计算不同专家之间的相似度。
本实施例中,通过K-MEANS算法对专家之间相似度矩阵数据ExpertsSim进行聚类的具体步骤为:
S1、输入Q,experts[L][J],其中,Q表示将专家分成的聚类个数,L表示行数,即专家的数量,J表示列数,即专家的特征维度或特征数量;
S2、选择Q个初始聚类中心点O,
S3、记centers[d]=experts[s],d=1,...,R,s∈O,其中,s表示第s个专家,R表示聚类中心的数量;
S4、计算每个专家距离最近的聚类中心,设定专家位于专家之间相似度矩阵ExpertsSim的第J列,则取到的聚类中心点P,聚类中心点即为专家K归属聚类;
S5、重新计算每个聚类簇的中心向量,若前后centers[d]值的变化小于给定阈值或者达到设定的最大迭代次数则保存聚类结果并退出,否则跳转步骤S3。
需要说明的是,本实施例中,给定阈值是指在每一轮迭代计算后,计算得到的聚类中心向量与上一轮聚类中心向量之间的差异程度,若差异程度小于给定阈值,则表示聚类中心已经收敛到稳定状态,不再发生显著变化,进而可以结束聚类算法。设定的最大迭代次数是指聚类算法进行迭代更新聚类中心的次数,若迭代次数达到了预先设定的最大迭代次数,则聚类算法会强制停止,无论聚类中心是否已经收敛。由此,本实施例中,通过K-MEANS算法对专家之间相似度矩阵数据ExpertsSim聚类,得到相似专家聚类簇的中心词项向量数据,使得相似的专家出现在同一个聚类簇中,而差异较大的专家位于不同的聚类簇中,在查找相似专家时则不需要与每一个专家进行相似度计算,只需要首先寻找到与企业技术需求数据最相近的专家聚类簇然后从聚类簇中查找相似专家即可。
进一步地,基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。在专家之间相似度矩阵数据ExpertsSim中寻找与其最相似的聚类中心词项向量数据,本实施例中,采用余弦相似度方法,定义企业问题词项向量数据与相似专家聚类簇的中心词项向量数据的余弦相似度为:
其中,simCluster表示企业问题词项向量数据与聚类簇中心词项向量数据间的文本相似度,i、j表示自然数,simClusteri表示企业问题词项向量数据与第i个聚类簇中心词项向量数据间的文本相似度,n表示词项的数量,Vcluster表示词项的权值,Vproblem表示企业问题词项向量数据中词项的权值。
由此,找到与企业问题词项向量数据最相似的专家聚类簇Clusteri后,利用余弦公式计算企业问题词项向量数据与相似专家聚类簇的中心词项向量数据的相似度,计算公式为:
其中,Problem表示企业问题词项向量数据,Expert表示相似专家聚类簇的中心词项向量数据,Similarity(Problem,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的余弦相似度,c表示自然数,VE[c]表示专家词项向量的第c个词项的权值。值得说明的是,为了有效促进企业与专家的成功合作,本实施例中,在基于语义模型的专家推荐算法基础上,引入实践度对专家推荐算法进行优化。具体地,通过对专家的项目经历、专利信息进行分词、提取关键词,建立专家信息数据关于项目经历和专利信息实践能力表示模型,专家信息数据关于项目经历和专利信息实践能力表示模型表示为:
PM=(ID,Pa,Ka,Kr)
其中,PM表示专家信息数据关于项目经历和专利信息实践能力表示模型,Pa表示专利信息集合,Ka表示专利信息的词项集合,Pr表示项目经历集合,Kr表示项目经历的词项集合。需要说明的是,考虑到专利信息、项目经理的关键字信息较少,建立专利信息、项目经理的关键字的词项向量将会出现明显的数据稀疏性问题,因此,本实施例中,采用基于潜在语义词典的语义相似度计算方法,计算专家的某个专利信息或者项目经历方面在特定企业技术需求下的企业问题词项向量数据的相关度,计算公式为:
其中,Question、Information分别表示两个特征词集,Sim(Question,Information)表示特征词集Question和特征词集Information间的文本相似度,m表示特征词集Question的数量,z表示自然数,l表示特征词集Information的数量,Questionz表示第z个特征词集Question,Questionz∈Question,Informationl表示第l个特征词集Information,Informationl∈Information,lsa(Questionz,Informationl)表示第z个和第l个的相似度,H表示长度,H(Question)表示特征词集Question的长度,H(Information)表示特征词集Information的长度。
在计算专家的一项专利信息数据与特定企业技术需求数据下的问题词项向量的相关度后,继续计算专家的实践能力即实践度,设专家共有A个专利信息、B个项目经历,则专家的实践度的计算公式为:
其中,Practice表示专家的实践度,Practice(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的实践度计算结果,o、h均表自然数,Patent表示专利,Patento表示第o个专利,Project表示项目,Projecth表示第h个项目。
在得到专家实践度后,采用线性加权组合的方式,将最终推荐计算结果进行整合,因为实践度对于专家推荐的最终排名结果起到积极作用,因此实践度应为正向加权,进而通过实践度算法对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理的计算公式为:
Recommend(Question)=λ×Similarity(Question,Exper)+μ×Practoce(Question,Expert)
其中,Recommend表示匹配结果,Question表示企业问题词项向量数据,Expert表示相似专家聚类簇的中心词项向量数据,Recommend(Question)表示在企业问题词项向量数据下的匹配结果,λ、μ均表示赋予潜在语义相似度和实践度的权重,Similarity(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的余弦相似度,Practice(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的实践度计算结果。
需要说明的是,考虑到专家聚类簇中的专家数量可能仍然非常大,而实际需要的专家数量只需要最相似的几个,因此只选取结果中最大的E个进行全排序,在得到最大的E个专家的相似度值后,对E个专家文本相似度值按从大到小进行全排序,即可得到与企业技术需求最相近的专家。
由此,本实施例提供的一种用于专家推荐的数据处理方法,通过建立专家物元知识表示模型、对专家物元知识表示模型扩展,进而构建出专家语义模型,同时通过机器学习挖掘词项之间的研究相关性的潜在语义关系,对专家语义模型进行聚类,得到相似专家聚类簇的中心词项向量数据,从而易于寻找特定方向的专家群体。此外,本实施例提供的一种用于专家推荐的数据处理方法,针对企业技术需求数据依据词袋模型构建企业问题词项向量数据,基于语义相似度计算确定最相近的专家聚类簇,然后计算该簇中各专家向量数据与企业问题词项向量数据间的文本相似度,并结合专家的实践能力对专家推荐算法进一步优化,最后获得专家推荐结果,可以较好地缓解人工方式进行专家推荐存在的效率低下、准确性不足等问题,进而有效推进企业与高校或研究机构产学研合作。
本实施例还提供一种用于专家推荐的数据处理装置,包括数据获取模块、企业需求数据模块、专家信息数据模块和数据匹配模块。数据获取模块用于获取待匹配数据,所述待匹配数据包括待匹配专家信息数据和待匹配企业需求数据;企业需求数据模块用于构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;专家信息数据模块用于构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据;数据匹配模块,基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
本实施例还提供一种计算机可读存储介质。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行本实施例中所述的一种用于专家推荐的数据处理方法。其中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用;计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种用于专家推荐的数据处理方法,其特征在于,包括:
获取待匹配数据,所述待匹配数据包括待匹配企业需求数据和待匹配专家信息数据;
构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;
构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据;
基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
2.根据权利要1所述的一种用于专家推荐的数据处理方法,其特征在于,构建专家语义模型,对待匹配专家信息数据进行聚类,得到相似专家聚类簇的中心词项向量数据,包括:
获取专家信息数据并提取出专家信息数据中的专家主题特征数据,通过专家主题特征数据构建专家知识表示模型;
在专家知识表示模型中提取特征词数据,通过特征词数据建立词袋模型并构建专家-词项矩阵,对专家-词项矩阵处理得到语义专家-词项矩阵,通过语义专家-词项矩阵构建专家语义模型;
对专家语义模型进行聚类,得到相似专家聚类簇的中心词项向量数据。
3.根据权利要2所述的一种用于专家推荐的数据处理方法,其特征在于,通过专家主题特征数据构建专家知识表示模型的步骤包括:
基于专家主题特征数据定义专家知识集数据,通过专家知识集数据表征专家物元知识模型;
通过向量空间模型对专家物元知识模型扩展,得到专家知识表示模型。
4.根据权利要3所述的一种用于专家推荐的数据处理方法,其特征在于,从专家知识表示模型中提取出所有专家的特征词数据,将特征词数据进行去重处理后,通过特征词数据建立词袋模型并构建专家词项向量数据,通过专家词项向量数据构建专家-词项矩阵;
将专家-词项矩阵降维处理,对降维处理后的专家-词项矩阵进行逆运算得到语义专家-词项矩阵,通过语义专家-词项矩阵构建专家语义模型。
5.根据权利要4所述的一种用于专家推荐的数据处理方法,其特征在于,专家语义模型表示为:
SEM=(ID,Index,SW)
其中,SEM表示专家语义模型,ID表示专家的标识字段,Index表示专家位于语义专家-词项矩阵中对应的位置,SW表示词项在语义专家-词项矩阵中的权重集合。
6.根据权利要5所述的一种用于专家推荐的数据处理方法,其特征在于,在专家语义模型中获得不同关键词数据中的潜在相关度数据,再对语义专家-词项矩阵进行降维和逆运算处理获取语义专家-词项矩阵中的潜在语义信息数据,得到专家之间相似度矩阵数据;
通过K-MEANS算法对专家之间相似度矩阵数据进行聚类,得到相似专家聚类簇的中心词项向量数据。
7.根据权利要6所述的一种用于专家推荐的数据处理方法,其特征在于,构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据,包括:
获取并解析科研数据得到关键词数据,对关键词数据处理构建科研词典;
根据已构建的科研词典,以最长匹配原则对待匹配企业需求数据进行数据处理,并依据词袋模型得到企业问题词项向量数据。
8.根据权利要7所述的一种用于专家推荐的数据处理方法,其特征在于,通过实践度算法对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理的计算公式为:
Recommend(Question)=λ×Similarity(Question,Exper)+μ×Practoce(Question,Expert)
其中,Recommend表示匹配结果,Question表示企业问题词项向量数据,Expert表示相似专家聚类簇的中心词项向量数据,Recommend(Question)表示在企业问题词项向量数据下的匹配结果,λ、μ均表示赋予潜在语义相似度和实践度的权重,Similarity(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的余弦相似度,Practice(Question,Expert)表示基于潜在语义所得到的企业问题词项向量数据和相似专家聚类簇的中心词项向量数据的实践度计算结果。
9.一种用于专家推荐的数据处理装置,其特征在于,包括:
数据获取模块,获取待匹配数据,所述待匹配数据包括待匹配专家信息数据和待匹配企业需求数据;
企业需求数据模块,构建科研词典,对待匹配企业需求数据进行数据处理,得到企业问题词项向量数据;
专家信息数据模块,构建专家语义模型,对待匹配专家信息数据进行文本聚类,得到相似专家聚类簇的中心词项向量数据;
数据匹配模块,基于实践度算法,对企业问题词项向量数据和相似专家聚类簇的中心词项向量数据进行匹配处理,得到匹配结果数据。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-8中任一项所述的用于专家推荐的数据处理方法。
CN202311182461.0A 2023-09-13 2023-09-13 一种用于专家推荐的数据处理方法及装置 Withdrawn CN117131279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311182461.0A CN117131279A (zh) 2023-09-13 2023-09-13 一种用于专家推荐的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311182461.0A CN117131279A (zh) 2023-09-13 2023-09-13 一种用于专家推荐的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN117131279A true CN117131279A (zh) 2023-11-28

Family

ID=88854506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311182461.0A Withdrawn CN117131279A (zh) 2023-09-13 2023-09-13 一种用于专家推荐的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN117131279A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN111160699A (zh) * 2019-11-26 2020-05-15 清华大学 一种专家推荐方法及***
CN112487161A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 一种面向企业需求的专家推荐方法、装置、介质及设备
CN114254201A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目评审专家的推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN111160699A (zh) * 2019-11-26 2020-05-15 清华大学 一种专家推荐方法及***
CN112487161A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 一种面向企业需求的专家推荐方法、装置、介质及设备
CN114254201A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目评审专家的推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周超强: "面向产学研合作的专家推荐方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 04, 15 April 2017 (2017-04-15), pages 138 - 601 *

Similar Documents

Publication Publication Date Title
US7421418B2 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
Kaushik et al. A comprehensive study of text mining approach
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及***
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及***
Trappey et al. An R&D knowledge management method for patent document summarization
Aznag et al. Probabilistic topic models for web services clustering and discovery
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112686025A (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN113282729A (zh) 基于知识图谱的问答方法及装置
Ransing et al. Screening and Ranking Resumes using Stacked Model
CN112487263A (zh) 一种信息处理方法、***、设备及计算机可读存储介质
CN114117309A (zh) 一种网页实体提取方法、装置、计算机设备及存储介质
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN117131279A (zh) 一种用于专家推荐的数据处理方法及装置
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN102663123B (zh) 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的***
Jahanbakhsh Gudakahriz et al. Opinion texts clustering using manifold learning based on sentiment and semantics analysis
CN111241283B (zh) 一种科研学者画像的快速表征方法
Thijs et al. Improved lexical similarities for hybrid clustering through the use of noun phrases extraction
Al Helal Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation
Lu et al. Improving web search relevance with semantic features
CN112949287B (zh) 热词挖掘方法、***、计算机设备和存储介质
Wadbude et al. Leveraging distributional semantics for multi-label learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20231128