CN117708545A - 融合主题提取与余弦相似度的观点贡献度评价方法及*** - Google Patents
融合主题提取与余弦相似度的观点贡献度评价方法及*** Download PDFInfo
- Publication number
- CN117708545A CN117708545A CN202410144330.1A CN202410144330A CN117708545A CN 117708545 A CN117708545 A CN 117708545A CN 202410144330 A CN202410144330 A CN 202410144330A CN 117708545 A CN117708545 A CN 117708545A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- target
- article
- similarity
- contribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 11
- 239000013598 vector Substances 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合主题提取与余弦相似度的观点贡献度评价方法及***。所述观点贡献度评价方法包括:对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章;根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度。本发明充分考虑了文章观点的先进性和前瞻性,借此来衡量学术代表作的观点贡献度,提高代表作评价的准确性及客观性。
Description
技术领域
本发明涉及数据处理和评估技术,具体涉及一种融合主题提取与余弦相似度的观点贡献度评价方法及***。
背景技术
目前,代表作评价制度已被应用于高校教师职称评审、学科评估、基金申报与课题评审、高水平人才选拔等各个方面,逐步形成绩效优先、鼓励创新和竞争向上的科研评价机制。尽管代表作评价制度已得到广泛应用,但其评价标准至今尚未有一套较为成熟的定论。
目前学术界对于代表作评价最常用的方法还是“同行评议”,即邀请本专业的多名专家或同行来对领域内其他学者的学术成果进行评价。相比于国内,国外应用同行评议起步更早,主要评估成果的质量及影响力,早在1986年,英国高等教育基金委员会就首次开展英国研究评估考核(Research Assessment Exercise,REF),2014年,英国卓越研究框架(Research Excellence Framework,REF)取代了RAE,每位学者只需要提供不超过3项研究成果进行评分。实际上,同行评议更倾向于经验上的阐释,主要是凭借专家学者对本专业领域内的了解,来对同行的科研成果进行评价,这是一种经验性的思考 ,它主要凭借专家的经验和智慧来对学术成果进行评价,不可否认其评价结果有一定的正确性,受邀参与评价的专家往往学术造诣较高,对该学科领域较为了解,故其评价标准是有较高参考价值的。但同行评议也存在自身难以克服的弊端,一方面,学术研究是一项创新性很强的活动,一直不断地会有新知识新内容产生,这就导致评审专家可能会面临知识盲区或知识结构的不合理性问题;另一方面,人的情感可能导致评价过程中不可避免会受到主观因素的干扰,近年来,国内外许多学者对同行评议制度提出质疑。由于人具有主观性,审稿人的知识结构体系等都有可能会对评估结果产生影响,这让同行评议制度的可靠性、公正性受到质疑。
学者的学术贡献通常是指他们在特定领域内所作的研究和贡献,这些贡献通常以新的知识、理论、方法或应用的形式呈现,对学者进行评价可以从学者的贡献角度来进行分析,通过评估学者的学术成果的质量,可以衡量其在该领域所作的贡献。国内外对于学术成果影响力已开展了大量研究,许多学者用引文分析来评估作者贡献及学术影响力,例如美国物理学家早在2005年就已提出h指数来度量学者贡献和影响力。也有学者通过构建加权文献引文网络模型,提出学者文献影响力测度指标。还有从引用强度、引用位置、引用情感和作者署名次序4个方面构建一种作者学术影响力评价方法,计算作者贡献度。近年来,也有许多学者使用综合性的方法对学者贡献及学术影响力进行评价,例如融合Altmetrics(替代计量学、补充计量学,加入了学术成果对社会影响力的考虑)与引文分析方法构建数据论文评价模型。也有选出与论文学术影响力最密切相关的7项指标组成综合评价体系,利用主成分分析法计算每篇论文的综合评价值。还有结合引文分析和同行评议方法,提出“客观同行评议”方法来评价论文的学术影响力。虽然国内外关于作者贡献度及学术影响力的研究已经有许多,但大多从引文角度入手构建评价模型或提出测度指标来分析作者的学术影响力,进而衡量作者的贡献度。基于引文的评价模型和测度指标复杂,不利于客观高效地对观点贡献度进行评价。
发明内容
针对现有技术的以上缺陷或改进需求,本发明一些实施例提供一种融合主题提取与余弦相似度的观点贡献度评价方法及***,充分考虑文章观点的先进性和前瞻性,借此来衡量学术代表作的观点贡献度,提高代表作评价的准确性及客观性。
本发明为解决上述技术问题所采用的技术方案为:
在一些实施例中,提供一种融合主题提取与余弦相似度的观点贡献度评价方法,所述观点贡献度评价方法包括:
对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;
比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;
将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章;
根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
在一些实施例中,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。
在一些实施例中,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。
在一些实施例中,所述目标数据库中的每篇文章的观点采用UniLM模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本;
所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:使用TextRank4ZH模型对所述观点数据集进行处理,针对每个观点,从所述短文本中自动提取主题词,并根据权重排序选择权重值最大的三个主题词,将所述三个主题词放入一个词袋,生成一个主题。
在一些实施例中,所述根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,包括:采用观点贡献度指标公式评估所述目标观点的贡献度,所述观点贡献度指标公式为:
,
其中,a、b、k为常数,根据测试结果调整k的值,t为目标文章的发表日期距离起始日期的天数值,P(t)的值随着t的增大而减小。
在一些实施例中,所述起始日期为所述目标数据库中的所有文章的发表时间范围的最早日期,设定常量b的值为6,设定a的值为4,k的取值为0.002。
在一些实施例中,所述目标文章为待评估学者的代表作。
在一些实施例中,还提供一种融合主题提取与余弦相似度的观点贡献度评价***,所述观点贡献度评价***包括:
主题生成模块,用于对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章,每个主题包含三个主题词;
相似度比较模块,用于比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;
聚类模块,用于将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成文档集合,所述文档集合包括目标文章;
贡献度指标计算模块,用于根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
在一些实施例中,还提供一种电子设备,所述电子设备包括:
处理器;
存有处理器可执行指令的存储器,其中:
处理器从存储器内读取指令以实现如上任一项所述方法的步骤。
在一些实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。
与现有技术相比,本发明至少包括以下优点:本申请提出的一种创新性的观点贡献度评价方法,将TextRank4ZH主题词提取算法、词袋模型、余弦相似度算法、指数衰减函数结合在一起,构建了一个整体的机器模型和***,基于观点维度从发表的时间顺序入手来评估代表作的观点贡献度。本申请的模型和***基于自然语言处理和相似度聚类技术,能够自动分析文本并生成代表作观点贡献度评价指标体系。将基于本申请的观点贡献度评价方法和***生成的贡献度指标与人工评分结果进行了对比,结果显示,其具有较高的准确性,与人工评审的一致性达到了86.85%。本申请的方法和***在学术代表作评价方面表现较出色,能够以高度一致的方式生成评价指标,与人工评审结果相符。而且,整个评价过程是由机器自动运行实现的,这有助于消除人工评审中的主观干扰因素。这使得本申请的方法更加科学和客观,提高了评价的可靠性。
另外,本申请的观点贡献度评价方法并不考虑文章之间的引用关系,也无需搭建引用网络,基于单篇文章,只针对文章本身质量进行分析,挖掘文章具体要素所蕴含的价值,通过文章观点的比较分析得出观点贡献度指标值。本申请的观点贡献度评价方法和***只衡量相似观点在整体数据库中的相对时间位置,每个观点会得到一个观点贡献度指标,而不考虑其它易受主观影响和人为操作的因素,从而对代表作客观公正、合理有效的进行评价。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一些实施例提供的观点贡献度评价方法流程示意图。
图2为本发明一些实施例的UniLM模型的功能示意图。
图3为本发明一些实施例的观点贡献度指标变化趋势图。
图4为本发明一些实施例提供的观点贡献度评价***示意图。
图5为本发明一些实施例提供的观点贡献度评价方法整体流程示意图。
图6为本发明一些实施例的余弦相似度阈值为70%时的可视化结果呈现示意图。
图7为本发明一些实施例的主题数量随年份分布示意图。
图8为本发明一些实施例的实验验证流程示意图。
图9为本发明一些实施例的电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
随着“破五唯”的提出,学术评价体制改革正受到越来越多学者的关注,管理部门已陆续出台一系列指导文件和政策要求,代表作评价制度成为深化制度改革的重要举措。本申请基于学者代表作评价问题,建立一套全程基于机器算法的用以辅助同行评议制度的学者代表作贡献度评价***,进一步提高同行评议的准确性和客观性。本申请一些实施例中,提出代表作观点贡献度指标,通过构建加权指数衰减模型,结合观点比较以及时间顺序分析,综合计算出观点贡献度指标值。本申请一些实施例提出的融合主题提取与余弦相似度的观点贡献度评价方法及***,经验证所得出的指标值与同行评议的结果一致性较高,达到86.85%。表明该模型在辅助同行评议方面具有较高的应用价值。本申请一些实施例通过融合TextRank4ZH模型及时间顺序构建出一套可全程由机器算法运行实现的观点贡献度指标模型,可用于辅助同行评价制度,提升评价结果的可靠性和公正性。
如图1所示,本申请一些实施例中,提出一种融合主题提取与余弦相似度的观点贡献度评价方法,所述观点贡献度评价方法包括:
对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章。
比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点。
将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章。
根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
在本申请的该实施例中,目标文章的贡献度可以通过目标观点的先进性和前瞻性来体现。在一些实施例中,每篇文章对应的观点在该文章的摘要中。摘要是一篇文章最重要的内核,是作者思想的凝练,其中往往蕴含了学者进行科学研究所生成的结论。学术论文创新更重要的是观点的价值,观点可以反映文章的贡献度。
另外,观点的先进性和前瞻性可以根据文章发表的时间先后顺序来体现。先进性和前瞻性是创新性所包含的部分维度,将学术论文“创新”定义为在相关学术领域内,创立或发展了有价值的新理论、新专业、新方法、新技术等,而“新”则与时间先后次序密切相关。发生在不同时间的***表了不同的学术价值。不同时刻,观点的先进性和前瞻性不同,整个时间顺序中,学术贡献度体现得也不尽相同。在本申请的该实施例中,文章发布的时间顺序可以体现代表作观点的先进性和前瞻性,结合时间先后顺序得出所述目标观点的贡献度,进而为科技文献代表作评价提供辅助。
本申请的观点贡献度评价方法可以用于学术代表作评价,通过分析单篇文章内的要素,提取文章摘要部分的观点,由此分析观点的贡献度。在本申请一些实施例中,该观点贡献度评价方法不考虑文章之间的引用关系,也不搭建引用网络,仅基于单篇文章,针对目标文章本身质量进行分析,通过文章间观点的相似度分析生成相似主题的文档集合。本申请一些实施例中,该观点贡献度评价方法只衡量每篇文章对应的时间先后顺序,而不考虑其它易受主观影响和人为操作的因素,每个观点会得到一个观点贡献度指标,从而作出客观公正、合理有效的评价。
在本申请一些实施例中,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。
在本申请的该实施例中,需要对文章摘要中的观点进行比较,因观点数据为短文本形式,观点比较首先需要从观点中提取主题词,本申请一些实施例中,基于单篇文献进行评估打分,模型设定每个观点仅生成一个主题,从而确保可操作性。本申请一些实施例中,每个主题由多个主题词构成,从而尽可能全面准确表示观点主题,不损失主题要素。本申请一些实施例中,引入词袋模型(Bag of Words Model),将每个主题的多个主题词放入一个词袋,则每个主题就生成一个词袋,这样就将主题词看成一个集合而不考虑它们的顺序,并对每个词袋进行去重操作,从而避免多个主题词重复或者排列组合导致相似度计算结果不同的问题,避免一个词语重复出现或者出现次数不同导致相似度计算的误差。
在本申请一些实施例中,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。
在本申请的该实施例中,输出主题词列表后,则每个观点对应一个主题,比较各个主题的相似度,将每个主题进行词袋化处理及去重操作后,将词袋转化为向量表示,计算每两个主题向量之间的余弦相似度,用两向量夹角的余弦值作为衡量两个个体之间差异的大小,余弦值越接近1,表明两个向量的夹角越接近0,则两个向量越相似,反之,余弦值越接近0,则两个向量越不相似。给相似度值设定一个给定的阈值,筛选出相似度大于该值的主题对,即筛选出相似度较高的主题对集合。对于目标文章,将与之相似度较高(大于相似度阈值)的观点文档聚为一类,即将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成文档集合,所述文档集合包括目标文章。
相似度算法用来比较两个对象之间的相似程度,在文本分析、图像处理、推荐***等方面都有广泛的应用。在本申请的该实施例中,采用余弦相似度进行相似度计算。余弦相似度(Cosine Similarity)是一种用于衡量两个向量之间相似度的方法。余弦相似度是n维空间中两个n维向量A、B之间角度的余弦值,它等于两个向量的点积除以两个向量长度的乘积。在本申请一些实施例中,采用余弦相似度进行相似度计算,具体计算公式为:
。
其中,A表示所选中的主题向量,B表示文档集合中除A以外的某一主题向量,为计算A与文档集合中其它向量的余弦相似度,B的取值需依次遍历文档集合中除A以外的所有向量,得到文档集合中每个非A向量与A向量间的余弦相似度值。在本申请的该实施例中,余弦相似度在高维空间中也能有效工作,适合于处理高维的文本数据。而且在短文本处理中,数据往往是稀疏的,余弦相似度只关注非零词汇的部分,较适合处理这种稀疏的数据。采用余弦相似度进行相似度计算,其计算简单,容易实现,不受向量维度以及向量绝对大小的影响,相似度只取决于向量的方向,适用于文本数据的高维特征和大规模数据集。
在本申请一些实施例中,所述目标数据库中的每篇文章的观点采用UniLM模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本。
在本申请的该实施例中,使用到的UniLM模型是微软研究院基于BERT模型提出的一种新型预训练语言模型,称为统一预训练语言模型(Unified Language Model),其融合了AR(Aoto-Regressive Lanuage Modeling)与AE(Auto-Encoding Language Modeling)两种语言模型的优点。UniLM模型既可以应用于自然语言理解任务(NLU),又可以应用于自然语言生成任务(NLG)。其结构与BERT结构一致,由一个多层的Transformer网络构成,通过修改多层的Mask矩阵来进行预测任务。利用大量无监督数据,进行模型预训练,结合上下文语境得出缺失部分。
图2是UniLM模型的功能示意图,可以看出UniLM模型能够同时完成三种预训练目标,并且在原有的模型上增加了序列到序列的训练方式。在自然语言处理过程中,模型参数涉及越来越多,与此同时,也需要更多的数据进行训练以防止模型出现过拟合的风险。但是在增加数据的同时,也增加了数据处理的困难,在自然语言处理(Natural LanguageProcessing,NLP)领域,花费时间最多的往往是数据的人工标注处理部分。具体的,在一些实施例中,文章为学术论文。观点生成是指利用限定长度句子或段落对既定信息内容的概括。可以将文章的摘要的观点自动生成理解为学术论文全文层面的自动文摘任务,使用UniLM统一语言预训练模型将文章的摘要内容精简概括为能够表达全文内容的短句。在自然语言处理中,观点生成主要有两种方法,分别是抽取式与生成式。在实际应用中,抽取式仅考虑到文章词频,忽略了文章语义内容,抽取出的观点往往难以代表文章中心句。生成式更加符合人脑思考过程,在生成式中,机器学习是对人脑的模仿,得到的结果满意度更高。本申请的实施例中,采用生成式来进行文章的观点自动生成工作。在一些实施例中,使用的UniLM模型以双向语言模型BERT为基础,并且加以改进,克服了BERT模型预训练参数量大及在文本生成方面性能欠佳的缺点,适用于中文摘要这类长文本的文本自动生成任务,有效提高了文本生成质量与效率。
在本申请的实施例中,使用机器学习的方法对学术论文摘要进行观点预训练,实现机器对学术文摘(即学术论文的摘要)观点自动提取。具体包括:将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列,将生成的句子序列作为学术文摘观点句输出。
具体流程包括:(1)学术文摘数据获取。从图书情报工作等五种情报学主流期刊上获取学术论文摘要信息。(2)数据预处理。对获取到的文献进行筛选,将会议记录、期刊年鉴、英文文献等剔除。(3)学术文摘分类。将收集到的学术文摘分为三种类型,分别是规范型文摘、半规范型文摘与非规范型文摘。(4)观点生成模型构建与专家提取观点。两名专家采用背靠背的方式由人工进行学术文摘观点提取,然后将人工标注过的观点通过Python处理成序列向量的形式,使用UniLM统一语言预训练模型进行机器学习。(5)观点自动生成。通过模型对大量数据集的学习,利用观点自动生成规则从学术文摘中自动抽取出所属学术观点。
在本申请的该实施例中,UniLM模型在预训练时的效果较好,应用到本文中的学术文摘观点提取的精准率达到88%,能够有效完成观点自动生成工作。使用UniLM模型,不仅能够提高观点生成的效率,而且能够提高观点客观性,为后续进行观点比较做出铺垫。
在本申请一些实施例中,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:使用TextRank4ZH模型对所述观点数据集进行处理,针对每个观点,从所述短文本中自动提取主题词,并根据权重排序选择权重值最大的三个主题词,将所述三个主题词放入一个词袋,生成一个主题。
从文本中提取主题词是自然语言处理领域的一个重要内容之一,它研究人与机器之间用自然语言进行有效交流的理论和方法,致力于使计算机能够理解并分析人类自然语言,以执行翻译、文本分类和情感分析等任务。在本申请的该实施例中,立足于TextRank算法,其基本思想来源于谷歌的PageRank算法,该算法可以脱离语料库的干扰,将文本分割成若干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取,适用于本申请实施例中所用到的短文本数据集。本申请实施例中的TextRank4ZH是基于TextRank算法所提出的针对中文文本的关键词提取和文本摘要生成工具,选用TextRank4ZH算法更适合观点数据集所用为中文文本,利用它可以实现自动化提取主题词。
具体的,TextRank4ZH算法提取主题词的流程包括:(1)把给定的文本T按照完整句子进行分割。(2)对每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留我们所需词性的单词。(3)构建候选关键词图G=(V,E),其中V为节点集,然后采用共现关系构造任两点之间的边,E表示图G中节点之间的边的集合。两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。(4)根据TextRank4ZH算法,迭代传播各节点的权重,直至收敛。(5)对节点权重进行倒序排序,从而得到最重要的N个单词,作为候选关键词。(6)根据得到的最重要的N个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词主题词。在本申请一些实施例中,N=3,即根据权重排序选择权重值最大的三个主题词。在本申请的实施例中,TextRank4ZH是一种针对中文文本的主要用于文本摘要和关键词提取的图形化模型,其中每个节点代表一个词语,每个边表示词语之间的关系。该算法基于PageRank 算法,可以脱离语料库,将文本转化为图结构,并使用迭代计算方式计算每个节点的权重值,节点的权重值越大表示单词或短语越重要,它直接根据单个文档就可以对主题词进行提取。相比于其它方法,TextRank4ZH 还考虑了单词之间的相互关系,在短文本主题词抽取的结果也更好。
在本申请的实施例中,使用TextRank4ZH针对单篇文章进行主题提取,再根据余弦相似度进行聚类,并根据相似观点提出的时间先后顺序进行权重计算得到贡献度指标值。本申请的观点贡献度评价方法不需要构建复杂的引文网络,也不会有节点间的关系,评价还能更加客观准确。
本申请一些实施例中,每个主题由权重值最高的三个主题词构成,尽可能不损失主题要素,提高了准确程度且易于计算。具体的,以“主题词1-主题词2-主题词3”的格式输出。在一些实施例中,可能因为文本长度不足或者停用词以及常见词等占比太高,而导致输出结果不足三个主题词,则使用文字“未提取主题词”替换该主题词,以保证排版格式一致,方便后续比较分析。
在本申请一些实施例中,所述根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,包括:采用观点贡献度指标公式评估所述目标观点的贡献度,所述观点贡献度指标公式为:
,
其中,a、b、k为常数,可以根据测试结果调整k的值,t为目标文章的发表日期距离起始日期的天数值,P(t)的值随着t的增大而减小。
对于某一主题,将与之相似度较高(大于相似度阈值)的观点文档聚为一类,并按观点发布的时间顺序进行排序,目标文章的发表日期表示为,生成文档集合W。在一些实施例中,可以将日期转换为时间戳,设置一个起始日期/>,t为目标文章的发表日期距离起始日期的天数值,即/>。根据指数衰减函数设定观点贡献度指标公式,其中,P(t)是贡献度指标在时间处于t处的值,a是初始值,表示p(t)在t=0处的值,b为常量,b的值可以根据具体情况予以调整,k是正数,表示增长率,t是时间变量的值。这个函数的特点是,随着t的增大,函数值会越来越小,减少的幅度由k值决定,而t值越大则表示发表时间越晚。在本申请一些实施例中,观点贡献度指标随着t值的增大而减小,也就是,观点提出的时间越早,观点贡献度就越大。
在本申请一些实施例中,所述起始日期为所述目标数据库中的所有文章的发表时间范围的最早日期,设定常量b的值为6,设定a的值为4,k的取值为0.002。参考图3,通过上述常数设置,最终输出的观点贡献度指标值在6-10之间且变化幅度清晰,便于对观点贡献度进行评价和区分。
在本申请一些实施例中,所述目标文章为待评估学者的代表作。本申请一些实施例中,学者的学术贡献能够通过代表作的贡献度来体现。在一些实施例中,代表作的确定可以基于学者自身的判断,在自我评价的基础上择出代表作,待评估学者可以选出自认为最能代表自己水平的成果去接受评价。***表作往往具有高相关性和高质量的基本特征,即***表作首先应该是和作者本人的研究方向或者主题高度相关的学术成果,零散的、非相关的论文都不适合作为代表作。代表作评价的初衷就是要摒弃数量,强调质量,因此一般水平的论文并不能称为代表作,高质量是***表作“代表性”的根本体现。而代表作的质量高低,就反映了学者的水平高低,能够对学术成果进行合理评价,就可以进一步评估学者的学术贡献度。当然,在一些实施例中,也可以基于大数据模型,采用人工智能算法来自动获取待评估学者的代表作。本申请对代表作的获取方式不做特别限定。
参考图4,在本申请一些实施例中,还提供一种融合主题提取与余弦相似度的观点贡献度评价***,所述观点贡献度评价***包括:
主题生成模块,用于对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;
相似度比较模块,用于比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;
聚类模块,用于将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成文档集合,所述文档集合包括目标文章;
贡献度指标计算模块,用于根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
在一些实施例中,融合主题提取与余弦相似度的观点贡献度评价***还包括能够实现如上各实施例所述的方法实施例中的各个过程和功能的模块,并且可以应用于如下所述的电子设备,对其效果,为避免重复,这里不再赘述。
参考5,在一些实施例中,首先对代表作使用UniLM模型提取文章摘要中的观点,使用TextRank4ZH从观点中提取主题,并引入词袋模型对主题词进行处理,避免由于主题词顺序不同导致相似度计算误差。然后计算主题间的余弦相似度,将相似度值高的主题聚为一类,根据主题对应其出处作为相似观点集合。结合时间因素提出指数衰减函数,根据代表作观点发表时间的先后顺序对相似代表作集合中的文章进行权重赋值,同一观点发表时间越靠前则观点贡献度值越大,最终生成单篇文献的代表作观点贡献度指标值。具体的,本申请的观点贡献度评价方法的步骤包括以下内容。
一、数据准备
选取情报学领域较为经典的期刊作为研究对象,从《情报科学》《情报理论与实践》《情报学报》《情报资料工作》《图书情报工作》《中国图书馆学报》《情报杂志》七种情报学主流杂志上下载从2017-2023年共10104篇文章,使用团队成员提出的UniLM模型提取文章摘要中的观点作为观点数据集。为每条观点编制索引,索引设置为由1到10104的数字,方便后续主题与观点进行对应。
二、观点主题提取
使用TextRank4ZH对中文文本进行处理,实现从文本中自动提取主题词,并根据权重排序选择权重值最大的三个主题词生成主题列表,每个主题由三个主题词组成,对主题词使用词袋模型进行处理,避免由于主题排列顺序不同而导致计算误差。具体步骤如下:
(1)观点数据集中的数据格式为短文本,首先处理原始文本数据以便于进行主题词提取,这个过程包括文本清洗,即去除文本中的特殊字符、标点符号和数字。此外,检查文本中的常见拼写错误和缩写,以确保文本的准确性。文本清洗有助于提高后续关键词提取的准确性。接下来,将文本分词,将文本分解为单词或短语,并移除常见的停用词,这有助于将文本拆分成有意义的词汇单位。
(2)将预处理后的文本转换成图形化模型,并构建节点和边之间的关系。图中每个节点代表一个词语,每个边表示词语之间的关系。这种图形化模型有助于建立词语之间的关联性,从而更好地理解文本的语义结构。
(3)使用迭代计算方式计算每个节点的权重值,节点的权重值越大表示该词语越重要。
(4)按照权重值进行排序,找出最重要的词语。
(5)根据词语的权重值,权重值最高的为主题词进行提取,每个主题由权重值最高的三个主题词构成,以“主题词1-主题词2-主题词3”的格式输出。由于可能因为文本长度不足或者停用词以及常见词等占比太高,而导致输出结果不足三个主题词,则使用文字“未提取主题词”替换该主题词,以保证排版格式一致,方便后续比较分析。
(6)使用词袋模型对主题词进行处理,使每个主题的三个主题词放入一个词袋中,这样就将每个主题看作一个词袋且不考虑词袋中的顺序,此步骤可以避免由于主题词排列顺序不同而引起的计算误差,则生成每个主题为一个词袋。
(7)对每个词袋进行去重处理,避免由于主题词重复出现或出现次数不同导致后续计算误差。
(8)对去重后的词袋进行向量化处理,以便后续进行比较计算。
三、相似度聚类
聚类是分类的基础,而分类的依据则是根据相似度,对此,首先需要对主题进行相似度计算,本研究对生成的主题词进行词袋化以及去重处理后使用余弦相似度算法来计算主题间的相似程度,在步骤⑤的最后阶段,已成功生成了总计10104个主题。从中随机选择n个主题,在一些实施例中,该主题可以为目标文章对应的主题即目标主题,分别筛选出与这些主题相似度较高的主题。这个筛选过程的标准是,每个主题必须与这n个主题中的某个主题(目标主题)具有足够高的余弦相似度,只有符合这一标准的主题才能与某一主题(目标主题)被归为同一类别,也就是我们将它们视为相似主题。在一些实施例中,首先对余弦相似度阈值设置一个恰当的取值表示为β,设置余弦相似度阈值取值范围为。在一些实施例中,以60%的相似度为起始点,步长为0.1,依次尝试不同的相似度阈值,分别得出在相似度取不同值的情况下的聚类结果。对于不同相似度阈值下主题聚类的结果进行分析,以扩散性和收敛性两个指标对比评估聚类结果,扩散性指标可以用来衡量主题集合内主题之间的差异性或多样性,而收敛性指标可以用来衡量集合内不同主题之间的相似性。对于整个集合内部,计算不同主题类别中心点的欧氏距离,将主题间的距离值取平均得出整个集合的扩散值,扩散指标越大则代表不同类之间差距越大,即聚类效果越好。收敛性则衡量同一簇内不同主题之间的欧氏距离,取平均值得出每个主题内部的收敛性指标,收敛性越小表示类簇越紧凑,则聚类效果越好。扩散指标和收敛指标都进行归一化处理,将计算出的值归到0到1之间,以便进行对比。在一些实施例中,相似度阈值设置为0.7。如表1所示,在收敛性差距较小的情况下,相似度取值70%时,扩散性较为优越。
表1 聚类结果评估指标
使用T-SNE对聚类结果进行降维及可视化,T-SNE是一种非线性降维算法,适用于将高维数据降维,通过将聚类结果可视化可以直观体现不同阈值下的聚类效果,如图6所示为余弦相似度阈值为70%时的可视化结果呈现。
选定相似度取值后,在上一阶段已将词袋转换为向量形式,可计算向量间的余弦相似度。余弦相似度通过计算两个向量夹角的余弦值来进行相似度比较,该值越大表示相似度越高。从已经处理完毕的数据中随机抽取31个主题(目标主题),接着计算其它主题与所选定31个主题之间的余弦相似度,这将对每一对主题进行相似性度量,以确定它们之间的相似程度。接下来,比较所生成的余弦相似度的值,对于每一主题,仅保留与之相似度70%的主题,符合条件的与该主题归为一类,并进行编号索引,以便后续查找分析,如表2为筛选出相似度满足要求的部分主题示例,可以看到,“学科-交叉-医学”和“交叉-医学-学科”的相似度为1,说明主题的相似度计算的值并未受到主题词排列顺序的影响。
表2 相似主题部分呈现
本次实验选取31个主题及分别与之对应的相似主题,共提取出557个主题,该主题集合所对应的年份分布如图7所示。最终生成31个主题集合,每个集合表示一类主题。对于每一个类似主题的集合内部,按照发表的时间顺序进行升序排列。将每个主题根据索引值对应到其所属的观点句中,则生成相似观点按发布的时间顺序排序的数据集。
四、贡献度指标计算
在设定年限范围的学术文献库中,主题较为相似的前提下,观点提出的时间越早,则该观点的观点贡献度就越高。因“发布时间”的数据格式为日期格式,则日期越大,观点贡献度指标值就越小。这符合指数衰减函数的变化趋势,本申请一些实施例中,对指数衰减函数进行一定程度上的改变,设定观点贡献度指标公式为: ,其中,a、b、k为常数,b的值可根据测试结果进行调整,k的值决定函数衰减的速度,t为自变量。P(t)值随着t值的增大而减小。
由于数据集中的发表时间为日期格式,不便于代入t进行计算。所以需要先对日期数据进行时间戳运算。在本实施例中所收集数据的时间范围为2017-2023年,将“2017-01-01”设为初始时间,发表日期记为/>,分别用每个日期数据减去/>,得到距离起始日期的天数值作为t值,即/>。由先前实验条件设定可知t值皆为常数且为正值,则t值越小,发表就越早,最终生成t值的结果区间范围为4到2285,则t值区间范围上下差额达到2281。
在本申请实施例中,文章皆为已经发表的期刊论文,基本符合达标要求,设定常量b的值为6,设定a的值为4,k的取值为0.002,观点贡献度指标公式为:
,
代入t值进行计算,结果保留两位小数,最终输出的指标值在6-10之间且变化幅度较为清晰。指标函数随t值的增大变化趋势如图3所示。在一些实施例中,可以代入公式计算得出不同观点的贡献度指标值,计算结果四舍五入保留至整数位,将四舍五入取整数值作为评分结果。
五、结果验证
现如今代表作评价最常用的方法仍然是同行评议,因本研究致力于通过机器算法辅助人工评分,所以本实验选择人工评审的方式来对机器模型结果进行验证。具体方案为:选择两名情报学领域的专家,对前面所提取的557个主题所对应的文摘进行评价,与前述流程不同,此处文摘顺序完全打乱,不再考虑相似度以及时间顺序的问题,文摘顺序完全随机排布,根据索引号定位。两名专家采取背对背打分的方式,彼此之间无任何沟通交流,因本文从先进性和前瞻性两个维度来对代表作观点进行评价,我们将本研究的立意及标准对两位专家进行详细的解释说明,请两位专家分别从文章观点的先进性和前瞻性两个方面进行打分,以确保评价维度一致性。其中先进性指的是文章观点具备在已有的研究基础上的新颖性和独特性,或者提出了新的想法,对该领域做出了贡献;而前瞻性指的是文章观点具备对未来研究方向的指引和启示。
同机器的指标阈值相同,评分范围为6到10分,每篇文章可得到2个分值,取平均值作为该篇文章的最终结果,数值结果采取四舍五入制保留至整数位。整体验证流程如图8所示。
得到专家人工评分的结果后,首先比对两名专家的最终分值,专家评审结果不一致的数据予以剔除,仅保留专家评分一致的文摘。根据数值统计分析,两名专家分别对557篇文摘数据进行打分,其中结果不一致的共有40篇,占到全部数据集的7.18%,则剩余517篇可用文摘,约占全部文摘数量的92.82%。将前面机器运算得到的观点贡献度指标同样四舍五入保留至整数位,与这517篇文摘的评分进行对比分析,统计得出,共449篇文摘的观点贡献度指标与专家打分结果完全一致,约占可用文摘数量的86.85%,68篇文摘的机器运算结果与专家评审结果不一致,占到可用文摘的13.15%。评价结果统计如表3,由结果可知,模型计算结果与专家打分结果一致性较高。
表3 结果统计表
本申请提出的一种创新性的观点贡献度评价方法,将TextRank4ZH主题词提取算法、词袋模型、余弦相似度算法、指数衰减函数结合在一起,构建了一个整体的机器模型,基于观点维度从发表的时间顺序入手来评估代表作的观点贡献度。这个模型基于自然语言处理和相似度聚类技术,能够自动分析文本并生成代表作观点贡献度评价指标体系。将生成的贡献度指标与人工评分结果进行了对比。结果显示,本申请的模型具有较高的准确性,与人工评审的一致性达到了86.85%。本申请的模型在学术代表作评价方面表现较出色,能够以高度一致的方式生成评价指标,与人工评审结果相符。而且,整个评价过程是由机器自动运行实现的,这有助于消除人工评审中的主观干扰因素。这使得本申请的方法更加科学和客观,提高了评价的可靠性。
在本申请一些实施例中,如图9所示,还提供一种电子设备,所述电子设备包括:
处理器10;
存有处理器可执行指令的存储器20,其中:
处理器从存储器内读取指令以实现如上任一项所述观点贡献度评价方法的步骤。
在一些实施例中,电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personal computer,PC)、上网本、个人数字助理(personal digitalassistant,PDA)、智能手表、车载设备、机器人、台式计算机等。
一些实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别所述的观点贡献度评价方法。
计算机可读存储介质可以为存储器,可用于存储软件程序以及各种数据。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储上述计算机程序。存储数据区可存储上述融合主题提取与余弦相似度的观点贡献度评价***的模型数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在一些实施例中,本申请的计算机可读存储介质可以包括一个或多个数据库,如键值数据库、MySQL数据库等,本申请对各数据库的类别及其数据存储方式不做详述。其中,对于本申请一些实施例的一个或多个数据库,可以与电子设备集成在一起存在,也可以作为独立的服务器或者云存储的形式存在,具体可以根据所适用于的应用平台的***结构及应用需求确定。
处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模型,以及调用存储在存储器内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体控制。处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
在一些实施例中,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的观点贡献度评价方法的步骤图。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种融合主题提取与余弦相似度的观点贡献度评价方法,其特征在于,所述观点贡献度评价方法包括:
对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;
比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;
将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章;
根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
2.根据权利要求1所述的观点贡献度评价方法,其特征在于,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。
3.根据权利要求2所述的观点贡献度评价方法,其特征在于,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。
4.根据权利要求3所述的观点贡献度评价方法,其特征在于,所述目标数据库中的每篇文章的观点采用统一语言预训练模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本;
所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:使用TextRank4ZH模型对所述观点数据集进行处理,针对每个观点,从所述短文本中自动提取主题词,并根据权重排序选择权重值最大的三个主题词,将所述三个主题词放入一个词袋,生成一个主题。
5.根据权利要求4所述的观点贡献度评价方法,其特征在于,所述根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,包括:采用观点贡献度指标公式评估所述目标观点的贡献度,所述观点贡献度指标公式为:
,
其中,a、b、k为常数,根据测试结果调整k的值,t为目标文章的发表日期距离起始日期的天数值,P(t)的值随着t的增大而减小。
6.根据权利要求5所述的观点贡献度评价方法,其特征在于,所述起始日期为所述目标数据库中的所有文章的发表时间范围的最早日期,设定常量b的值为6,设定a的值为4,k的取值为0.002。
7.根据权利要求1所述的观点贡献度评价方法,其特征在于,所述目标文章为待评估学者的代表作。
8.一种融合主题提取与余弦相似度的观点贡献度评价***,其特征在于,所述观点贡献度评价***包括:
主题生成模块,用于对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章,每个主题包含三个主题词;
相似度比较模块,用于比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;
聚类模块,用于将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成文档集合,所述文档集合包括目标文章;
贡献度指标计算模块,用于根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存有处理器可执行指令的存储器,其中:
处理器从存储器内读取指令以实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410144330.1A CN117708545B (zh) | 2024-02-01 | 2024-02-01 | 融合主题提取与余弦相似度的观点贡献度评价方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410144330.1A CN117708545B (zh) | 2024-02-01 | 2024-02-01 | 融合主题提取与余弦相似度的观点贡献度评价方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708545A true CN117708545A (zh) | 2024-03-15 |
CN117708545B CN117708545B (zh) | 2024-04-30 |
Family
ID=90146442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410144330.1A Active CN117708545B (zh) | 2024-02-01 | 2024-02-01 | 融合主题提取与余弦相似度的观点贡献度评价方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708545B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122884A1 (en) * | 1997-12-22 | 2006-06-08 | Ricoh Company, Ltd. | Method, system and computer code for content based web advertising |
US20110295903A1 (en) * | 2010-05-28 | 2011-12-01 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
US8543576B1 (en) * | 2012-05-23 | 2013-09-24 | Google Inc. | Classification of clustered documents based on similarity scores |
US20150339288A1 (en) * | 2014-05-23 | 2015-11-26 | Codeq Llc | Systems and Methods for Generating Summaries of Documents |
KR102020012B1 (ko) * | 2018-06-08 | 2019-09-11 | (주)에이피케이어플킹 | 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법 |
CN110852096A (zh) * | 2019-06-27 | 2020-02-28 | 暨南大学 | 一种中文文献综述自动生成的方法 |
WO2021189920A1 (zh) * | 2020-10-23 | 2021-09-30 | 平安科技(深圳)有限公司 | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 |
US20210358317A1 (en) * | 2020-05-13 | 2021-11-18 | Indiavidual Learning Private Limited | System and method to generate sets of similar assessment papers |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐***及文献推荐方法 |
CN114201962A (zh) * | 2021-12-03 | 2022-03-18 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
CN114925691A (zh) * | 2022-06-13 | 2022-08-19 | 中国烟草总公司郑州烟草研究院 | 基于作者学术背景的合著论文作者贡献度评价分析方法 |
CN115860283A (zh) * | 2023-02-28 | 2023-03-28 | 北京信立方科技发展股份有限公司 | 基于知识工作者画像的贡献度预测方法及装置 |
JP2023060984A (ja) * | 2021-10-19 | 2023-05-01 | セカンドサイトアナリティカ株式会社 | 情報処理装置および情報処理方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
-
2024
- 2024-02-01 CN CN202410144330.1A patent/CN117708545B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122884A1 (en) * | 1997-12-22 | 2006-06-08 | Ricoh Company, Ltd. | Method, system and computer code for content based web advertising |
US20110295903A1 (en) * | 2010-05-28 | 2011-12-01 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
US8543576B1 (en) * | 2012-05-23 | 2013-09-24 | Google Inc. | Classification of clustered documents based on similarity scores |
US20150339288A1 (en) * | 2014-05-23 | 2015-11-26 | Codeq Llc | Systems and Methods for Generating Summaries of Documents |
KR102020012B1 (ko) * | 2018-06-08 | 2019-09-11 | (주)에이피케이어플킹 | 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법 |
CN110852096A (zh) * | 2019-06-27 | 2020-02-28 | 暨南大学 | 一种中文文献综述自动生成的方法 |
US20210358317A1 (en) * | 2020-05-13 | 2021-11-18 | Indiavidual Learning Private Limited | System and method to generate sets of similar assessment papers |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐***及文献推荐方法 |
WO2021189920A1 (zh) * | 2020-10-23 | 2021-09-30 | 平安科技(深圳)有限公司 | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 |
JP2023060984A (ja) * | 2021-10-19 | 2023-05-01 | セカンドサイトアナリティカ株式会社 | 情報処理装置および情報処理方法 |
CN114201962A (zh) * | 2021-12-03 | 2022-03-18 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
CN114925691A (zh) * | 2022-06-13 | 2022-08-19 | 中国烟草总公司郑州烟草研究院 | 基于作者学术背景的合著论文作者贡献度评价分析方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
CN115860283A (zh) * | 2023-02-28 | 2023-03-28 | 北京信立方科技发展股份有限公司 | 基于知识工作者画像的贡献度预测方法及装置 |
Non-Patent Citations (4)
Title |
---|
SHUO XU等: "A novel method for topic linkages between scientific publications and patents", 《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》, 18 February 2019 (2019-02-18), pages 1026 * |
张鑫等: "我国网络舆情识别的研究脉络、核心主题与发展趋势分析", 《河北科技图苑》, 15 May 2021 (2021-05-15), pages 90 - 96 * |
李秀霞;邵作运;: "内容信息与引文信息融合的作者影响力评价研究", 情报理论与实践, no. 02, pages 76 - 81 * |
聂卉;: "隐主题模型下产品评论观点的凝聚与量化", 情报学报, no. 06, 24 June 2017 (2017-06-24), pages 33 - 41 * |
Also Published As
Publication number | Publication date |
---|---|
CN117708545B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299865B (zh) | 基于语义分析的心理测评***及方法、信息数据处理终端 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
Lalata et al. | A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
Errami et al. | Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection | |
Sinha et al. | NLP-based automatic answer evaluation | |
Uddin et al. | Extracting severe negative sentence pattern from bangla data via long short-term memory neural network | |
Jawad et al. | Combination of convolution neural networks and deep neural networks for fake news detection | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及*** | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Alsheri et al. | MOOCSent: a sentiment predictor for massive open online courses | |
CN117708545B (zh) | 融合主题提取与余弦相似度的观点贡献度评价方法及*** | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 | |
Kumari et al. | Automatic Subjective Answer Evaluation. | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. | |
Huang et al. | Sentiment Detection through Emotion Classification Using Deep Learning Approach for Chinese Text | |
Rogozin et al. | Vectorization of documents and analysis of their identity using a neural network | |
CN117236967B (zh) | 一种用于定制化咨询服务的互动模版进化方法及*** | |
Feng et al. | Opinion analysis based on TNF (textual noise fixing) algorithm | |
Nabiilah et al. | Personality Classification Based on Textual Data using Indonesian Pre-Trained Language Model and Ensemble Majority Voting. | |
Huang et al. | Measuring public opinion on the import of US pork in Taiwan | |
Alharbi et al. | Sentiment Analysis of Restaurants Customer Reviews on Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |