CN103823896A - 一种学科特征值算法及基于其的项目评审专家推荐算法 - Google Patents

一种学科特征值算法及基于其的项目评审专家推荐算法 Download PDF

Info

Publication number
CN103823896A
CN103823896A CN201410092584.XA CN201410092584A CN103823896A CN 103823896 A CN103823896 A CN 103823896A CN 201410092584 A CN201410092584 A CN 201410092584A CN 103823896 A CN103823896 A CN 103823896A
Authority
CN
China
Prior art keywords
subject
project
evaluation expert
algorithm
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410092584.XA
Other languages
English (en)
Other versions
CN103823896B (zh
Inventor
王晓华
张超
张钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BENGBU MEDICAL COLLEGE
Original Assignee
BENGBU MEDICAL COLLEGE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BENGBU MEDICAL COLLEGE filed Critical BENGBU MEDICAL COLLEGE
Priority to CN201410092584.XA priority Critical patent/CN103823896B/zh
Publication of CN103823896A publication Critical patent/CN103823896A/zh
Application granted granted Critical
Publication of CN103823896B publication Critical patent/CN103823896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种学科特征值算法及基于其的项目评审专家推荐算法,该基于学科特征值算法的项目评审专家推荐算法包括以下步骤:(1)文本相似度计算:1)项目研究内容和评审专家研究方向文本信息的分词处理;2)项目研究内容和评审专家研究方向的文本特征向量模型建立;3)项目研究内容和评审专家研究方向的文本特征向量的相似度计算;(2)学科特征值算法;(3)项目评审专家推荐值计算,计算公式如下:ProSim(V,U)=w(c)×exp[sim(V,U)];(4)将步骤(3)计算出的项目评审专家推荐值进行排序。本发明优点在于:应用本项目评审专家推荐算法的处理程序在无人干涉的情况下自动计算科研项目与不同评审专家的推荐值,节省用户时间。

Description

一种学科特征值算法及基于其的项目评审专家推荐算法
技术领域
本发明涉及推荐算法领域,具体地说是一种学科特征值算法及基于其的项目评审专家推荐算法,用于使用计算机自动完成科研项目评审专家的推荐工作。
背景技术
有效的科研项目是我国科技发展组织与实施的最基本条件,是关系到我国科技战略发展的一项有力保证。目前对于科技项目的评审,其最关键的是对评审专家的选取,所谓找“合适的人,做合适的事”,在评审专家的选取上却达不到。究其原因是目前尚无一套统一的自动选取模型,还仍旧停留在由科研管理人员查看科研项目申请书然后依照经验和直觉选取评审专家的模式。
这种模式老旧且准确度有待商榷,特别是在申请书数目众多而评审专家的选取也在是一个较大范围时,科研项目管理人员对有些评审专家的研究方向和擅长领域并不熟悉,往往会选择错误的评审专家而使得具有较好立意和方向的科研项目在评审阶段被取消。因此根据科研项目本身与评审专家的信息自动进行最优化匹配从而进行推荐是一项函待解决的问题。
建立一个科学合理有效的科研项目评审专家推荐***的核心是设计一套完整有效的评审专家推荐算法,在目前关于推荐算法研究现状方面,各种推荐算法日趋完善。包含了认知学、心理学、信息检索、管理学等众多研究领域。相关的评审专家学者提出了多种推荐方法,基于内容的推荐、协同过滤推荐、混合推荐等,使用不同的数学模型,例如文本聚类、反向神经网络、关联规则等实现不同的推荐方法。
但是以上这些推荐算法基本上是基于商业化推荐算法模型而诞生,基本上是基于“用户-目标”这二维空间度量的,如基于项目研究内容和评审专家研究方向的算法,其通过提取关键词计算文本特征向量的相似度,从而忽略了相关其他信息。然而实际中科研项目与评审专家的选择往往涉及到其他因素,最重要的是基于不同级别学科分类的项目与评审专家选择。
发明内容
本发明所要解决的技术问题是提供一种可应用于计算机程序,能快速准确自动计算出项目评审专家的推荐值,节省人力和时间的项目评审专家推荐算法。
为了解决上述技术问题,本发明采用如下技术方案:首先,提供一种学科特征值算法,该算法是一种基于学科分类的项目与评审专家的学科特征值算法,包括以下步骤:
(1)项目与评审专家的学科建模:
根据国家标准《学科分类与代码》,使用建立向量的模式对项目学科和评审专家学科进行建模,项目学科和评审专家学科构成基于如下表征的特征向量:
p={c1,c2,c3}
其中c1、c2、c3分别代表学科分类中的一级学科代码、二级学科代码和三级学科代码;
(2)项目与评审专家的学科特征值计算:计算公式如下:
w ( c ) = ( Nc 1 ) n × B 1 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 2 ) n × B 2 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 3 ) n × B 3 ( Nc 1 + Nc 2 + Nc 3 ) n
其中Nc1、Nc2、Nc3分别表示所需评审的项目在学科分类中分属各个级别学科的学科数量,B1、B2、B3分别用于表示项目和评审专家之间相同级别学科的代码是否相同,相同则取值为1,不同则取值为0,指数n为特征值,表示对具有不同级别学科是否相同的惩罚。
相比现有的基于项目研究内容和评审专家研究方向的算法,其通过提取关键词计算文本特征向量的相似度,而本发明提供的学科特征值算法是基于国家标准《学科分类与代码》,国家标准《学科分类与代码》本身是一种科学合理的分类标准,本发明通过这一分类标准对项目和评审专家进行比较,可以在学科层面准确地进行计算,且本发明所设计的计算公式充分考量了每一级学科的比重,侧重于学科的细分程度,随着学科细分程度的加深,不同次级学科的区别也越大,这样计算结果更加合理有效。
优选的,所述指数n取值为2。这样计算过程清晰,方便比较。
本发明提供一种基于学科特征值算法的项目评审专家推荐算法,包括以下步骤:
(1)文本特征向量的相似度计算:
1)项目研究内容和评审专家研究方向的文本信息分词处理:从项目研究内容和评审专家研究方向中提取关键词并进行语义重构;
2)项目研究内容和评审专家研究方向的文本特征向量模型建立:使用基于关键词权重的向量空间模型TF-IDF算法,通过提取并计算目标文本中关键词出现的频率及在全体文本集中出现的逆文本频率产生根据加权词项组成的向量;
3)项目研究内容和评审专家研究方向的文本特征向量的相似度计算,计算公式如下:
sim ( V , U ) = Σ i = 1 n ( V i × U i ) Σ i = 1 n ( V i ) 2 × Σ i = 1 n ( U i ) 2
其中V和U分别代表项目申请内容和评审专家信息提取出的n维特征向量,通过计算其向量余弦值从而获得文本相似度计算结果;
(2)学科特征值算法:
1)项目与评审专家的学科建模:
根据国家标准《学科分类与代码》,使用建立向量的模式对项目学科和评审专家学科进行建模,项目学科和评审专家学科构成基于如下表征的特征向量:
p={c1,c2,c3}
其中c1、c2、c3分别代表学科分类中的一级学科代码、二级学科代码和三级学科代码;
2)项目与评审专家的学科特征值计算:计算公式如下:
w ( c ) = ( Nc 1 ) n × B 1 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 2 ) n × B 2 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 3 ) n × B 3 ( Nc 1 + Nc 2 + Nc 3 ) n
其中Nc1、Nc2、Nc3分别表示所需评审的项目在学科分类中分属各个级别学科的学科数量,B1、B2、B3分别用于表示项目和评审专家之间相同级别学科的代码是否相同,相同则取值为1,不同则取值为0,指数n为特征值,表示对具有不同级别学科是否相同的惩罚;
(3)项目评审专家推荐值计算,计算公式如下:
ProSim(V,U)=w(c)×exp[sim(V,U)]
上式中w(c)是步骤(2)计算出的项目与评审专家的学科特征值,sim(V,U)是步骤(1)计算出的项目研究内容和评审专家研究方向文本特征向量的相似度值,exp[sim(V,U)]代表以e为底sim(V,U)为值的指数函数;
(4)将步骤(3)计算出的项目评审专家推荐值进行排序。
与现有技术相比,本发明具有明显优势,主要体现在:相比现有的基于项目研究内容和评审专家研究方向的算法来计算文本特征向量的相似度,本发明基于学科特征值算法的项目评审专家推荐算法综合考量了研究内容和学科分类,利用现有的文本特征向量的相似度算法和本发明提供的学科特征值算法,从项目研究内容、评审专家研究方向和项目与评审专家的学科特征这三个方面进行比较,这样计算出的推荐值更加科学合理,且本发明基于学科特征值算法的项目评审专家推荐算法条理清晰、步骤明确,具有非常好的可执行性,能够通过编写代码的形式实际部署在计算机程序中执行,使得应用本发明基于学科特征值算法的项目评审专家推荐算法的处理程序能够在无人干涉的情况下自动、快速、准确地计算出项目评审专家的推荐值,完成项目评审专家的推荐,节省了人力物力并节省用户的时间。
附图说明
图1是本发明基于学科特征值算法的项目评审专家推荐算法步骤图。
图2是Top关键词百分比对F度量值影响线形图。
图3是不同μ值对F度量值影响线形图。
图4是不同学科特征值对F度量值影响直方图。
图5是不同学科特征值与研究内容协同计算对F度量值影响直方图。
图6是不同μ值和Top关键词百分比对F度量值影响线形图。
图7是重构数据后不同学科特征值与研究内容协同计算对F度量值影响直方图。
具体实施方式
下面结合附图对本发明的实施方式作具体的描述:
如图1所示,本发明基于学科特征值算法的项目评审专家推荐算法包括以下步骤:
(1)文本特征向量的相似度计算
1)项目研究内容和评审专家研究方向的文本信息的分词处理
研究内容向量模型的建立基础是对研究内容文本进行关键词处理。在本算法中预处理的主要内容是进行文本分词处理。由于中文词语的特殊断句结构,本算法实施方案中采用的是中国科学院的ICTCLAS(http://www.ictclas.org)作为确定的分词工具。其主要作用是两个,分别是去除停用词以及对提取的关键词做语义重构。
去除停用词主要是去除一些常用的辅助词,这些词的存在不会对文章的意义产生任何影响。例如常用的副词、介词,以及设定的一些文本中出现的特定地名、单位或组织机构名称等。以便在对文本进行特征选择时,将其忽略而避免对特征向量的建立产生影响。
其次是对提取的关键词做语义重构。由于科研项目内容申请中会出现较多由普通名词构成的专有名词,例如“数据挖掘”和“数据结构”这是两个不同的词语,表示两个完全不同的学科。但是在语义分析时,分词器往往由于规则设定的不同,将其拆分成“数据”、“挖掘”、“数据”、“结构”这四个词语。这在后续的分析中,由完全不同的两个文本被标记成具有50%相似度的文本,这样是非常严重的一项错误。因此必须对设定规则进行重构,区分不同的概念。
一般来说,评审专家的基本信息获得方法是通过填报调查表的形式获取,其中会包括评审专家的姓名、年龄、学科、研究关键词以及研究内容构成。在项目选择评审专家时一般更为关注的是评审专家的学科、研究关键词以及研究内容等,因此我们从这些内容中提取关键词,然后对关键词做语义重构。
2)项目研究内容和评审专家研究方向的文本特征向量模型建立
2.1)项目研究内容文本特征向量模型建立
对研究内容和方向的分词过后是关键词抽取和权重计算。使用的是基于关键词权重的向量空间模型TF-IDF算法,其通过提取并计算目标文本中关键词出现的频率及在全体文本集中出现的逆文本频率从而产生根据加权词项组成的向量。
其计算公式如下:
TF-IDF(wd)=tf(wd)×idf(wd)=tf(wd)×log[N/df(wd)]
其中tf(w d)是某一特征关键词在目标文本中出现的频率;idf(wd)是当前关键词的逆文本频率;df(w d)表示总的文本集中有多少文本出现过关键词wd;大写N表示文本集中文本的总数。通过对所有目标关键词进行上述计算后,获得一个基于关键词和关键词权重的特征向量v(t,d)={[t1,w(d1)],[t2,w(d2)],[t3,w(d3)],…[ti,w(di)],}。其中ti,i=1,2,3…n为提取关键词;w(di)为使用TF-IDF计算后获得的关键词权重;v(t,d)为基于整个研究内容所提取的关键词构成的一个特征向量。
需要注意的是,对于不同的文本信息,经过TF-IDF确定的关键词向量后,其中可能包含较多数目的特征关键词,因此选取不同数目的可信关键词会对结果造成一定程度的影响。一般认为,选取的关键词数目偏少,代表的信息熵不足;而过多的话,则可能会给关键词向量引入较多的噪声项,降低文本信息相似度计算的准确性。本算法会通过试验获得最优化Top关键词百分比为60%,相似度阈值μ为0.8。
2.2)评审专家研究方向文本特征向量模型建立
一般来说,评审专家的基本信息获得方法是通过填报调查表的形式获取,其中会包括评审专家的姓名、年龄、学科、研究关键词以及研究内容构成。在项目选择评审专家时一般更为关注的评审专家的学科、研究关键词以及研究内容等。因此可以仿照项目研究内容文本特征向量建模的形式予以建立基于研究内容与学科方向的特征向量。
评审专家研究方向特征向量建模方式与项目研究内容文本特征向量建模方式类似,首先从评审专家库中获取评审专家的基本信息,分词后使用TF-IDF算法提取计算关键词权重,构建基于评审专家关键词的个人信息特征向量u(t,d)={[t1,w(d1)],[t2,w(d2)],[t3,w(d3)],…[ti,w(di)],}。其中ti,i=1,2,3…n为提取关键词;w(di)为使用TF-IDF计算后获得的关键词权重。
3)项目研究内容和评审专家研究方向的文本特征向量的相似度计算
对于关键特征向量的相似度计算,本发明通过TF-IDF算法提取后构建的关键词向量模型进行余弦相似度计算方法获得的相似度结果,最能够明确表现特征向量之间关系。其计算公式如下所示:
sim ( V , U ) = Σ i = 1 n ( V i × U i ) Σ i = 1 n ( V i ) 2 × Σ i = 1 n ( U i ) 2
其中V和U分别代表项目申请内容和评审专家信息提取出的n维特征向量。通过计算其向量余弦值从而获得相似度计算结果。
(2)学科特征值算法
1)项目与评审专家的学科建模
国家标准《学科分类与代码》(GB/T13745-2009)是学科分类的权威性规定,其对一、二、三级学科进行分类。一级学科用三位数字表示,二、三级学科分别用两位数字表示,一、二级学科中间用点隔开,代码结构为XXX·XXXX,例如570·2520,其中570为一级学科,25为二级学科,20为三级学科。
对于项目申请中本身注明的所属学科文本和评审专家所属学科给出的处理方式同样是使用建立向量的模式对之进行处理。基于《学科分类与代码》,项目学科和评审专家学科可构成基于如下表征的特征向量:
p={c1,c2,c3}
其中c1、c2、c3分别代表学科分类中的一级学科代码、二级学科代码和三级学科代码。
2)项目与评审专家的学科特征值计算
提取学科所属类别并比较作为项目与评审专家的特征依据,目前还没有专门的文献和研究提出相应的算法。因此为了解决将学科属性作为特征参考值的目的,本发明提出基于全学科值的特征值算法。计算公式如下:
w ( c ) = ( Nc 1 ) n × B 1 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 2 ) n × B 2 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 3 ) n × B 3 ( Nc 1 + Nc 2 + Nc 3 ) n
其中Nc1、Nc2、Nc3分别表示所需评审的项目在学科分类中分属各个级别学科的学科数量,例如某一个申请项目所属的学科,二级学科有5个,三级学科有10个。那么Nc1、Nc2、Nc3的分别取为1、5、10;B1、B2、B3分别用于标示项目和评审专家之间相同级别学科的代码是否相同,相同则Bn取值为1,不同则Bn取值为0,例如项目和评审专家之间一级学科代码相同,则B1取值为1,不同则B1取值为0,同样的B2的取值取决于项目和评审专家之间二级学科代码是否相同,B3的取值取决于项目和评审专家之间三级学科代码是否相同;指数n为特征值,表示对具有不同级别学科是否相同的惩罚。
这样做的好处在于侧重于学科的细分程度,随着学科细分程度的加深,不同次级学科的区别也越大。
例如学科分类中520代表“计算机科学技术”学科,其中52010到52060,以及单独的52099分别代表7种不同的二级学科,而此基础上三级学科的数目又达到45个。
基于此算法的相似度计算,若在本文中需要计算编码为5202010所代表的“计算机人工智能”和5202040为代表学科“模式识别”之间的相似度,可以根据其对应的归属分别设定B1为1,B2为1,而B3由于最终的三级学科不相同所以其值为0。
借用公式的算法最终结果如下
w ( c ) = ( 1 ) n × 1 ( 1 + 7 + 45 ) n + ( 7 ) n × 1 ( 1 + 7 + 45 ) n + ( 45 ) n × 0 ( 1 + 7 + 45 ) n
指数n作为特征值,标示对具有不同级别学科是否相同的惩罚,n的不同标示惩罚力度也不近相同。一般情况下取[1,2],在本发明中n的值优选为2。
因此最终结果:
w ( c ) = ( 1 ) 2 × 1 ( 1 + 7 + 45 ) n + ( 7 ) 2 × 1 ( 1 + 7 + 45 ) n + ( 45 ) 2 × 0 ( 1 + 7 + 45 ) n ≈ 0.018
仿照如此计算公式,可以获得一个基于项目与评审专家对应的相似度矩阵,如表1所示:
表1:单项目与单评审专家相似度
P0 P1 P2 P3
T 0 0.00036 0.018 0.74
这里P0、P1、P2、P3分别代表与评审项目T完全不同学科、归属于相同一级学科、归属于相同二级学以及所有学科完全相同的评审专家。
对于多个项目与评审专家不同相似度计算可以获得如表2所示相似度矩阵:
表2:多项目与多评审专家相似度
P1 P2 P3 P4 Pn
T1 W(1,1) W(1,2) W(1,3) W(1,4) W(1,n)
T2 W(2,1) W(2,2) W(2,3) W(2,4) W(2,n)
T3 W(3,1) W(3,2) W(3,3) W(3,4) W(3,n)
Tn W(4,1) W(4,2) W(4,3) W(4,4) W(4,n)
这里表2相似度矩阵分别代表不同的评审项目对应不同评审专家计算出的相似值。
需要说明的是此相似度矩阵为一稀疏矩阵,可以在后续的整体相似度计算时删除大量值为0的相似度计算值从而节省计算资源。
(3)项目评审专家推荐值计算
在获得项目与评审专家学科特征值后,依据提取出对应项目研究内容和评审专家研究方向的文本特征向量的相似度结果,下一步就是计算项目与评审专家之间的推荐值。
一般情况下,学科特征值为一个稀疏矩阵。对于大部分的项目来说,都可以计算出不同的学科特征值。而对于根据关键词特征向量计算的关键词相似度值却较为困难,因为即使学科特征值较高,而由于具体研究方向的不同,其值也有较大可能为0。因此不能够简单的加以计算。
本发明定义的推荐值计算公式为:
ProSim(V,U)=w(c)×exp[sim(V,U)]
上式中w(c)是研究项目与评审专家计算出的学科特征值;sim(V,U)是项目信息与评审专家信息之间根据关键词向量计算出的相似度值;exp[sim(V,U)]代表以e为底sim(V,U)为值的指数函数。这样做的目的是随着sim(V,U)增大,而整体计算值呈现一个上升非常快速的正向曲线,从而更好的突出文本相似度对于整个计算结果的贡献。ProSim(V,U)表示根据基于学科特征值与文本相似度共同协作算出的最终值。
(4)将步骤(3)计算出的项目评审专家推荐值进行排序
将步骤(3)计算出的项目评审专家推荐值由高到低或由低到高进行排序。
实验部分:
下面结合附图对本发明提供的算法通过实验进行验证:
数据集说明:
由于目前对科研评审推荐算法研究为空白,缺乏一个公共的通用项目评审专家库对各种推荐算法进行评估分析,因此最好的检测方法只能是从现有的已评审科研项目中进行选择。
依据中华人民共和国国家标准所确定的《学科分类与代码》,共设58个一级学科、573个二级学科、近6000个三级学科。由于学科过多,本实验选择20个较为热门的三级学科作为实验数据学科来源。
本实验的数据集来自某较高等级科研项目库,在既定的三级学科评审专家中随机抽取了300位评审专家,其中包含自然科学评审专家248名、社会科学评审专家58名。又根据评审专家,随机抽取961份已评审的科研项目,确保每名评审专家至少有2项评审项目包含在抽取的项目库中。学科分类结构、评审专家数及分类项目数如表3所示:
表3:学科分类结构、评审专家数及分类项目数
Figure BDA0000476490220000091
评价指标的确定:
对于算法最终结果的验证,目前并没有一个直接有效的验证算法。借助此算法的实际应用对象,一般情况下要求算法最终推荐出的评审专家与人工选择推荐评审专家越接近,则说明结果越准确。
为了达到此目的,本实验借用测试文本相似度算法中常用的F-度量值来衡量。F-度量值是文本相似度算法中常用的检查召回率(Recall)和准确率(Precision)的一种平衡指标,其值介于0和1之间。经过计算的实验结果能够检验每一项科研项目是否能够被分配给人工认定的正确评审专家。F度量值越大,选择结果与真实情况越接近。
设Rc为算法推荐评审专家集,Pc为人工选择的推荐评审专家集。则召回率、准确率及F值计算公式如下:
Recall = Rc ∩ Pc Rc
Precision = Rc ∩ Pc Pc
F = 2 × Recall × Precision Recall + Precision
实验结果及分析
实验首先采用选择的自然语言处理工具ICTCLAS对所有项目内容及评审专家研究内容进行预处理,之后应用TF-IDF算法对所有关键词进行计算,从而获得对应的关键词特征向量;学科特征值是根据本发明提出的项目与评审专家学科特征值算法计算获得,最后使用本发明定义的项目评审专家推荐算法计算最终的推荐值。
实验1
Top关键词比例与相似度阈值的选择
实验为了更为客观的反映本发明提出的项目评审专家推荐算法,需要确定文本分类中的Top关键词语相似度阈值,从而解决文本聚类的问题。
在实验一中首先要确定不同的Top关键词比例对文本聚类的影响。基于项目的实际分析,设置相似度阈值μ=0,即将文本中所有语义相似度看做同等重要。图2给出了不同Top关键词百分比状态下F度量值的试验结果。实验表明如果选取文本中60%的Top关键词,能够取得较好的结果。
在确定Top关键词比例后,为了获得最佳文本聚类效果,下一步是确定相似度阈值μ。在此部分实验中选择上一步获得的60%Top关键词比例进行计算,研究不同阈值下对文本聚类的影响。
图3展示了不同μ值下的对F度量值的影响,从图可知,随着μ的增高,F度量值不停的增长,当达到0.8左右时,F度量值最大。继续提高反而会引起F度量值下降。
实验2
不同学科特征值对F度量值影响
实验二是单独使用本发明提供的项目与评审专家学科特征值算法对项目和评审专家进行F度量值验证,而不涉及研究内容的文本分类计算部分。本项实验分三次进行,第一次是根据算法提出的完整学科特征值计算方法,计算全部三级学科后带入推荐值计算公式,求得最终F值;第二次是采用二级学科计算学科特征值带入计算公式求取F值。第三次则只计算一级学科作为结算结果获取F值。最终结果如图4所示。
从实验二中可以发现一个非常有意思的现象,使用本发明提供的项目与评审专家学科特征值算法计算的结果为:计算一级学科作为结算结果,F度量值为0.19;随着学科分类级别的增高,也就是由三级学科升为二级学科后,F度量值升高为0.55,这依旧与样本结果有一定的差异。而当只使用一级学科作为分类特征计算基础时,F度量值升高为0.93,基本上可以较好地与样本实际结果相吻合。
实验3
不同学科特征值与研究内容协同计算的推荐值
实验三是在设定Top关键词比例为60%,相似度阈值μ为0.8的条件下,利用本发明提供的项目评审专家推荐算法计算推荐值。此项实验采用实验二的试验方法,使用不同的学科分类级别进行F度量值的计算。其结果如图5所示。计算全部三级学科后带入推荐值计算公式,最终F度量值为0.12;而学科分类上升二级学科后,F度量值升高为0.19;当使用一级学科作为计算依据时,F度量值最高0.39。
对于结果的分析,从实验二可以看到,若单独使用基于学科特征的F度量值计算方法,在一级学科分类基础上与实际结果基本吻合,而随着学科细分的加强,F度量值显著下降。可能是由于科研项目在进行评审专家分配时,更多的是侧重于对于一级学科的分类,而忽略了二级和三级学科的分类情况。
而对于实验三的结果与实际相差较大的情况,可能是由于引入了对研究内容的文本相似度计算,使得文本计算结果成为一定的干扰项,使得最终结果与原始数据相差大。
实验4
重构数据源测试推荐算法
本实验重构了科研项目与评审专家数据源。在原有的科研项目库中抽取了7个三级学科的112份科研项目,之后由人工重新选择了37名相关评审专家组成一个新的人工选择数据源,严格对应其学科分类与研究方向。数据源如表4所示:
表4:重选学科分类结构、评审专家数及分类项目数
Figure BDA0000476490220000111
首先计算项目的Top相似度关键词与相似度阈值的选择,这里的实验方法与实验1相类似,不再过多阐述,最终结果如图6所示。结果显示Top关键词在75%,μ在[0.7,0.8]之间,F度量值取得最大,其后随着Top百分比增大和μ的增加,曲线呈下降趋势。表明增大阈值并不能带来F度量值的上升。
下一步是设置不同等级学科分类使用本发明项目评审专家推荐算法进行计算。结果如图7所示。从图可得,此时进行F度量值计算,使用一级学科的计算结果是0.92;二级是0.87;三级是0.86。此计算结果显示本算法获得的最终F度量值能够较好的反映***推荐的评审专家与人工推荐的评审专家之间的关系。
应当理解本文所述的例子和实施方式仅为了说明,本领域技术人员可根据它做出各种修改或变化,都属于本发明的保护范围。

Claims (3)

1.一种学科特征值算法,包括以下步骤:
(1)项目与评审专家的学科建模:
根据国家标准《学科分类与代码》,使用建立向量的模式对项目学科和评审专家学科进行建模,项目学科和评审专家学科构成基于如下表征的特征向量:
p={c1,c2,c3}
其中c1、c2、c3分别代表学科分类中的一级学科代码、二级学科代码和三级学科代码;
(2)项目与评审专家的学科特征值计算:计算公式如下:
w ( c ) = ( Nc 1 ) n × B 1 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 2 ) n × B 2 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 3 ) n × B 3 ( Nc 1 + Nc 2 + Nc 3 ) n
其中Nc1、Nc2、Nc3分别表示所需评审的项目在学科分类中分属各个级别学科的学科数量,B1、B2、B3分别用于表示项目和评审专家之间相同级别学科的代码是否相同,相同则取值为1,不同则取值为0,指数n为特征值,表示对具有不同级别学科是否相同的惩罚。
2.如权利要求1所述的学科特征值算法,其特征在于:所述指数n取值为2。
3.一种基于权利要求1或2所述的学科特征值算法的项目评审专家推荐算法,包括以下步骤:
(1)文本特征向量的相似度计算:
1)项目研究内容和评审专家研究方向的文本信息分词处理:从项目研究内容和评审专家研究方向中提取关键词并进行语义重构;
2)项目研究内容和评审专家研究方向的文本特征向量模型建立:使用基于关键词权重的向量空间模型TF-IDF算法,通过提取并计算目标文本中关键词出现的频率及在全体文本集中出现的逆文本频率产生根据加权词项组成的向量;
3)项目研究内容和评审专家研究方向的文本特征向量的相似度计算,计算公式如下:
sim ( V , U ) = Σ i = 1 n ( V i × U i ) Σ i = 1 n ( V i ) 2 × Σ i = 1 n ( U i ) 2
其中V和U分别代表项目申请内容和评审专家信息提取出的n维特征向量,通过计算其向量余弦值从而获得文本相似度计算结果;
(2)学科特征值算法:
1)项目与评审专家的学科建模:
根据国家标准《学科分类与代码》,使用建立向量的模式对项目学科和评审专家学科进行建模,项目学科和评审专家学科构成基于如下表征的特征向量:
p={c1,c2,c3}
其中c1、c2、c3分别代表学科分类中的一级学科代码、二级学科代码和三级学科代码;
2)项目与评审专家的学科特征值计算:计算公式如下:
w ( c ) = ( Nc 1 ) n × B 1 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 2 ) n × B 2 ( Nc 1 + Nc 2 + Nc 3 ) n + ( Nc 3 ) n × B 3 ( Nc 1 + Nc 2 + Nc 3 ) n
其中Nc1、Nc2、Nc3分别表示所需评审的项目在学科分类中分属各个级别学科的学科数量,B1、B2、B3分别用于表示项目和评审专家之间相同级别学科的代码是否相同,相同则取值为1,不同则取值为0,指数n为特征值,表示对具有不同级别学科是否相同的惩罚;
(3)项目评审专家推荐值计算,计算公式如下:
ProSim(V,U)=w(c)×exp[sim(V,U)]
上式中w(c)是步骤(2)计算出的项目与评审专家的学科特征值,sim(V,U)是步骤(1)计算出的项目研究内容和评审专家研究方向文本特征向量的相似度值,exp[sim(V,U)]代表以e为底sim(V,U)为值的指数函数;
(4)将步骤(3)计算出的项目评审专家推荐值进行排序。
CN201410092584.XA 2014-03-13 2014-03-13 一种学科特征值算法及基于其的项目评审专家推荐算法 Active CN103823896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410092584.XA CN103823896B (zh) 2014-03-13 2014-03-13 一种学科特征值算法及基于其的项目评审专家推荐算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410092584.XA CN103823896B (zh) 2014-03-13 2014-03-13 一种学科特征值算法及基于其的项目评审专家推荐算法

Publications (2)

Publication Number Publication Date
CN103823896A true CN103823896A (zh) 2014-05-28
CN103823896B CN103823896B (zh) 2017-02-15

Family

ID=50758960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410092584.XA Active CN103823896B (zh) 2014-03-13 2014-03-13 一种学科特征值算法及基于其的项目评审专家推荐算法

Country Status (1)

Country Link
CN (1) CN103823896B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104361102A (zh) * 2014-11-24 2015-02-18 清华大学 一种基于群组匹配的专家推荐方法及***
CN104834702A (zh) * 2015-04-28 2015-08-12 南京邮电大学 针对科研项目申报的学科选择方法
CN105335447A (zh) * 2014-08-14 2016-02-17 北京奇虎科技有限公司 基于计算机网络的专家问答***及其构建方法
CN105786960A (zh) * 2015-01-14 2016-07-20 通用电气公司 基于案例解析记录的专家搜索的方法、***和用户界面
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN106952191A (zh) * 2017-03-09 2017-07-14 深圳市华第时代科技有限公司 提案自动评审方法和***
CN107656920A (zh) * 2017-09-14 2018-02-02 杭州电子科技大学 一种基于专利的科技人才推荐方法
CN107807978A (zh) * 2017-10-26 2018-03-16 北京航空航天大学 一种基于协同过滤的代码评审者推荐方法
CN107833061A (zh) * 2017-11-17 2018-03-23 中农网购(江苏)电子商务有限公司 一种针对零售农产品智能配送方法
CN108846056A (zh) * 2018-06-01 2018-11-20 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
CN109299905A (zh) * 2018-05-09 2019-02-01 北京京润恒远科技有限公司 一种项目评审方法及***
CN110188958A (zh) * 2019-06-03 2019-08-30 杭州志优网络科技有限公司 一种高考志愿智能填报预测推荐的方法
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN110443574A (zh) * 2019-07-25 2019-11-12 昆明理工大学 多项目卷积神经网络评审专家推荐方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和***
CN111191108A (zh) * 2018-10-26 2020-05-22 上海交通大学 基于增强学习的软件众包项目推荐方法及***
CN111202511A (zh) * 2020-01-17 2020-05-29 武汉中旗生物医疗电子有限公司 一种心电数据标注的推荐分发方法及装置
CN111666420A (zh) * 2020-05-29 2020-09-15 华东师范大学 基于学科知识图谱集中抽取专家的方法
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN113868407A (zh) * 2021-08-17 2021-12-31 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置
CN113868407B (zh) * 2021-08-17 2024-06-28 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853750B2 (en) 2020-12-14 2023-12-26 International Business Machines Corporation Subject matter expert identification and code analysis based on a probabilistic filter

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039605A (ja) * 2008-08-01 2010-02-18 Ricoh Co Ltd 個人検索システム、個人検索方法、プログラムおよび記録媒体
CN103605665B (zh) * 2013-10-24 2017-01-11 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103631859B (zh) * 2013-10-24 2017-01-11 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨光飞: "基于本体的项目和领域专家匹配***研究", 《万方数据》 *
胡斌: "科技项目评审专家推荐***的研究与实现", 《万方数据》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335447A (zh) * 2014-08-14 2016-02-17 北京奇虎科技有限公司 基于计算机网络的专家问答***及其构建方法
CN104331498B (zh) * 2014-11-19 2017-08-01 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104361102B (zh) * 2014-11-24 2018-05-11 清华大学 一种基于群组匹配的专家推荐方法及***
CN104361102A (zh) * 2014-11-24 2015-02-18 清华大学 一种基于群组匹配的专家推荐方法及***
CN105786960A (zh) * 2015-01-14 2016-07-20 通用电气公司 基于案例解析记录的专家搜索的方法、***和用户界面
CN104834702A (zh) * 2015-04-28 2015-08-12 南京邮电大学 针对科研项目申报的学科选择方法
CN104834702B (zh) * 2015-04-28 2018-10-02 南京邮电大学 针对科研项目申报的学科选择方法
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN105894183B (zh) * 2016-03-30 2020-11-10 腾讯科技(深圳)有限公司 项目评价方法及装置
CN106952191A (zh) * 2017-03-09 2017-07-14 深圳市华第时代科技有限公司 提案自动评审方法和***
CN107656920A (zh) * 2017-09-14 2018-02-02 杭州电子科技大学 一种基于专利的科技人才推荐方法
CN107656920B (zh) * 2017-09-14 2020-12-18 杭州电子科技大学 一种基于专利的科技人才推荐方法
CN107807978B (zh) * 2017-10-26 2021-07-06 北京航空航天大学 一种基于协同过滤的代码评审者推荐方法
CN107807978A (zh) * 2017-10-26 2018-03-16 北京航空航天大学 一种基于协同过滤的代码评审者推荐方法
CN107833061A (zh) * 2017-11-17 2018-03-23 中农网购(江苏)电子商务有限公司 一种针对零售农产品智能配送方法
CN110322895A (zh) * 2018-03-27 2019-10-11 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN109299905A (zh) * 2018-05-09 2019-02-01 北京京润恒远科技有限公司 一种项目评审方法及***
CN108846056A (zh) * 2018-06-01 2018-11-20 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN108846056B (zh) * 2018-06-01 2021-04-23 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN108920556B (zh) * 2018-06-20 2021-11-19 华东师范大学 基于学科知识图谱的推荐专家方法
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
CN111191108A (zh) * 2018-10-26 2020-05-22 上海交通大学 基于增强学习的软件众包项目推荐方法及***
CN110188958A (zh) * 2019-06-03 2019-08-30 杭州志优网络科技有限公司 一种高考志愿智能填报预测推荐的方法
CN110443574A (zh) * 2019-07-25 2019-11-12 昆明理工大学 多项目卷积神经网络评审专家推荐方法
CN110443574B (zh) * 2019-07-25 2023-04-07 昆明理工大学 多项目卷积神经网络评审专家推荐方法
CN111143690A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于关联专家库的专家推荐方法和***
CN111202511A (zh) * 2020-01-17 2020-05-29 武汉中旗生物医疗电子有限公司 一种心电数据标注的推荐分发方法及装置
CN111666420A (zh) * 2020-05-29 2020-09-15 华东师范大学 基于学科知识图谱集中抽取专家的方法
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN113868407A (zh) * 2021-08-17 2021-12-31 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置
CN113868407B (zh) * 2021-08-17 2024-06-28 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置

Also Published As

Publication number Publication date
CN103823896B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
Hausladen et al. Text classification of ideological direction in judicial opinions
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及***
CN103473317A (zh) 提取关键词的方法和设备
CN111400499A (zh) 文档分类模型的训练方法、文档分类方法、装置及设备
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN101361066A (zh) 用于量化文本表达相似性的自动的、基于计算机的相似性计算***
CN104484380A (zh) 个性化搜索方法及装置
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN106776672A (zh) 技术发展脉络图确定方法
CN112052396A (zh) 课程匹配方法、***、计算机设备和存储介质
CN104778157A (zh) 一种多文档摘要句的生成方法
Iqbal et al. Bias-aware lexicon-based sentiment analysis
Almiman et al. Deep neural network approach for Arabic community question answering
Yan et al. Tibetan sentence sentiment analysis based on the maximum entropy model
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
Munggaran et al. Sentiment analysis of twitter users’ opinion data regarding the use of chatgpt in education
Suprayogi et al. Information extraction for mobile application user review
CN116340387A (zh) 一种用于数据表的个人信息披露情况统计分析方法及***
Qi et al. Application of LDA and word2vec to detect English off-topic composition
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Laeeq et al. Sentimental Classification of Social Media using Data Mining.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant