CN117455421B

CN117455421B - 科研项目的学科分类方法、装置、计算机设备及存储介质

Info

Publication number: CN117455421B
Application number: CN202311791838.2A
Authority: CN
Inventors: 林世清; 郑晓雯; 赵崇旭
Original assignee: Hangzhou Qingta Technology Co ltd
Current assignee: Hangzhou Qingta Technology Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-04-16
Anticipated expiration: 2043-12-25
Also published as: CN117455421A

Abstract

本申请提供了一种科研项目的学科分类方法、装置、计算机设备及存储介质，方法包括：基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息；目标关联信息包括待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个；将目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到目标文本分类网络模型输出的初始学科分类结果；将初始学科分类结果和目标关联信息输入预先构建的目标全连接分类网络，得到目标全连接分类网络输出的目标学科分类结果，并将目标学科分类结果发送至用户端。本申请提高了科研项目的学科分类的准确性和分类效率。

Description

科研项目的学科分类方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能的智能决策技术领域，尤其涉及一种科研项目的学科分类方法、装置、计算机设备及存储介质。

背景技术

科研项目的学科分类指的是根据科研项目的研究内容和特点将科研项目划分为不同的一级学科类别，科研项目的学科分类对科研项目管理、依赖于科研项目所属学科的数据分析都十分重要。

相关现有技术中，或是由科研人员自行根据科研项目的内容确定科研项目所属项目类型，或是利用机器根据关键词与一级学科的对照表来对科研项目进行自动分类。然而，利用科研人员等人工进行分类的方法虽然准确度较高，但是耗时较长，而利用机器根据关键词与一级学科的对照表进行自动分类的方法机械地对关键词进行拆分和对照，相比人工分类虽然速度有所提高，但是分类的准确度却较低。

发明内容

本申请实施例提供了科研项目的学科分类方法、装置、计算机设备及存储介质，旨在提高科研项目学科分类的速度的同时，保证科研项目学科分类的准确度，提高科研项目的学科分类效率。

第一方面，本申请实施例提供了一种科研项目的学科分类方法，包括：

基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息；所述目标内容信息指示所述待分类科研项目的项目内容信息；所述目标关联信息包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个；

将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果；

将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端。

第二方面，本申请实施例提供了一种科研项目的学科分类装置，包括：

获取单元，用于基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息；所述目标内容信息指示所述待分类科研项目的项目内容信息；所述目标关联信息包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个；

第一分类处理单元，用于将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果；

第二分类处理单元，用于将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面的科研项目的学科分类方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中计算机可读存储介质存储有计算机程序，计算机程序当被处理器执行时使处理器执行上述第一方面的科研项目的学科分类方法。

本申请通过基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的指示项目内容信息的目标内容信息和目标关联信息（包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个），进而利用基于注意力机制的目标文本分类网络对所述目标内容信息进行分类，得到初始学科分类结果，在此基础上，再将初始学科分类结果与目标关联信息输入目标全连接分类网络，从而得到目标全连接分类网络输出的目标学科分类结果，该目标学科分类结果作为该待分类科研项目的最终分类结果，发送至用户端。可见，本申请先利用基于注意力机制的目标文本分类网络对科研项目的目标内容信息进行分类，得到一个初始学科分类结果，为进一步提高学科分类的准确性，将待分类科研项目的目标关联信息和该初始学科分类结果再输入目标全连接分类网络，从而得到目标学科分类结果，本申请通过利用神经网络且同时参考科研项目本身的内容信息（目标内容信息）以及关联信息（目标关联信息）来对科研项目进行学科自动分类，与现有技术相比，提高了科研项目的学科分类的准确性和分类速度、从而提高了科研项目的学科分类效率，有利于后续利用科研项目的一级学科分类结果进行相关处理和分析。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的科研项目的学科分类方法的应用场景示意图；

图2为本申请实施例提供的科研项目的学科分类方法的流程示意图；

图3为本申请实施例提供的科研项目的学科分类方法的子流程示意图；

图4为本申请实施例提供的依托单位之间的附属关系树示意图；

图5为本申请实施例提供的科研项目的学科分类方法的另一子流程示意图；

图6为本申请实施例提供的科研项目的学科分类方法的另一子流程示意图；

图7为本申请实施例提供的科研项目的学科分类方法的另一子流程示意图；

图8为本申请实施例提供的科研项目的学科分类装置的示意性框图；

图9为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请提供了一种科研项目的学科分类方法、装置、计算机设备及存储介质，能够提高科研项目学科分类的速度的同时，保证科研项目学科分类的准确度，提高科研项目的学科分类效率。该科研项目的学科分类方法的执行主体可以是本申请实施例提供的科研项目的学科分类装置，可以是集成了该科研项目的学科分类装置的计算机设备。其中，该科研项目的学科分类装置可以采用硬件或者软件的方式实现；该计算机设备可以为终端或服务器，该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。

示例性的，以服务器为执行主体为例，图1为本申请一实施例提供的应用场景示意图。在该场景中，用户端向服务器发送待分类科研项目数据信息，服务器基于待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息，对于目标内容信息，输入基于注意力机制的文本分类网络，得到文本分类网络输出的初始学科分类结果，在此基础上，将初始学科分类结果和目标关联信息再输入目标全连接分类网络，从而得到目标全连接分类网络输出的目标学科分类结果，进而将目标学科分类结果发送至用户端。

请参阅图2，图2为本申请一实施例提供的科研项目的学科分类方法的流程示意图，该方法具体包括下述步骤S101至步骤S103。

步骤S101、基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息；所述目标内容信息指示所述待分类科研项目的项目内容信息；所述目标关联信息包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个。

其中，上述待分类科研项目数据信息为待分类科研项目对应的相关数据信息。具体的，待分类科研项目为需要进行所属学科分类的科研项目，待分类科研项目对应的相关数据信息具体可以包括待分类科研项目的标识信息（例如项目编号、项目名称等）和待分类科研项目的相关数据信息。该相关数据信息可以是预设的相关信息。

本实施例中，用户可以通过用户端向本申请的执行主体发送上述待分类科研项目数据信息，本申请的执行主体在接收到上述待分类科研项目数据信息之后，可以基于该待分类科研项目数据信息获取到上述待分类科研项目对应的目标内容信息和目标关联信息。

其中，上述目标内容信息指示待分类科研项目本身的项目内容，其具体是能够反映待分类科研项目的项目内容的相关信息，在具体实施时，可以是包括待分类科研项目的项目名称、项目摘要、研究内容等中的一种或多种。

在具体实施时，上述目标内容信息可以是对待分类科研项目的项目内容（例如，项目名称、项目摘要、研究内容）进行分词预处理后得到，以便于后续用于进行文本分类。

上述目标关联信息指示待分类科研项目的相关关联信息，其具体是能够直接或间接地反映待分类科研项目的学科关联信息，具体可以包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个。

具体的，上述待分类科研项目的所属科研项目计划可以为国家级、省市级、院校级的科研项目计划。例如，国家级的科研项目计划可以为国家重点研发计划、国家社会科学基金、***人文社科项目、国家自然科学基金等。本实施例中，由于每个科研项目计划通常适用于特定领域的科研项目，例如，国家自然科学基金资助的项目更倾向于属于自然科学领域的一级学科的科研项目；***人文社科项目则注重对属于人文社科领域的科研项目；国家社会科学基金旨在支持社会科学领域的研究项目等，因而可以获取待分类科研项目的所属科研项目计划作为上述目标关联信息。

上述待分类科研项目的所属项目类型为待分类科研项目所对应的类型分类，例如可以包括理论型、实验型、综合型、基础型、应用型、发展型等。在一具体的实施方式中，可以具体指的是在所属科研项目计划中对应的项目分类，例如，以国家重点研发计划为例，对应的项目分类包括：基础研究类（包括基础理论研究、基础技术研究、新材料研究、新技术研究和新工艺研究等）、应用研究类（包括应用基础研究、新产品开发、新技术开发、新装备开发和新工艺开发等）以及社会发展类（包括社会发展研究、社会发展技术支撑、社会发展技术推广、社会发展技术服务等）。本实施例中，科研项目所属的项目类型能够在一定程度上反映科研项目所属的一级学科（或者一级学科范围），因而可以获取待分类科研项目的所属项目类型作为上述目标关联信息。

上述依托单位学科学位点分布信息为待分类科研项目对应的目标依托单位的学科学位点分布信息。其中，目标依托单位为待分类科研项目的直接依托单位或间接依托单位，直接依托单位为待分类科研项目所依托的单位，间接依托单位为待分类科研项目的直接依托单位所直接或间接依托的单位；学科学位点分布信息则可以指示目标依托单位具有的一级学科学位点，可以具体是包括一级学科的学士学位点、硕士学位点以及博士学位点。示例性的，以A医学院为目标依托单位为例，该A医学院的一级学科学位点分别信息可以指示A医学院具有的一级学科学位点包括：生物学（一级学科博士点）、基础医学（一级学科博士点）、临床医学（一级学科硕士学位、博士学位点）、口腔医学（一级学科硕士、博士点）、药学（一级学科博士点）、公共管理（一级学科博士点）。本实施例中，由于一个依托单位在某一级学科（例如，物理学）领域有学位点，那么这个依托单位可能更倾向于在该一级学科（物理学）领域开展相关的科研项目，因而获取待分类科研项目对应的依托单位学科学位点分布信息作为上述目标关联信息。

为提高待分类科研项目的学科分类的准确度，在一些具体的实施方式中，上述待分类科研项目的目标关联信息可以是同时包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息。

在具体实施时，上述待分类科研项目的目标关联信息可以具体是采用one-hot编码（独热编码）的特征信息，在one-hot编码中，包括多个类型分别对应的编码值，编码值的取值为0或1。

例如，待分类科研项目的上述所属项目类型科研具体为项目类型one-hot特征、上述所属科研项目计划具体为科研项目计划one-hot特征，上述依托单位学科学位点分布信息具体为依托单位学科学位点one-hot特征。其中，项目类型one-hot特征中，待分类科研项目所属的项目类型的值为1，其余为0；科研项目计划one-hot特征中包括多个科研项目计划分别对应的编码值，其中，待分类科研项目所属的科研项目计划所对应的编码值为1，其余为0；依托单位学科学位点one-hot特征中包括多个一级学科分别对应的编码值，依托单位（下述目标依托单位）具有的一级学科学位点所对应的编码值为1。

具体的，为便于快速获取待分类科研项目对应的依托单位学科学位点分布信息，在一实施例中，如图3所示，可以基于以下步骤S201至步骤S203实现。

步骤S201、获取所述待分类科研项目的直接依托单位。

本实施例中，上述待分类科研项目的直接依托单位为该待分类科研项目所依托的单位，被依托的单位（即，依托单位）能够为该科研项目的执行提供所需的资源。

步骤S202、基于预先构建的依托单位附属关系和所述直接依托单位获取所述待分类科研项目对应的目标依托单位。

其中，所述依托单位附属关系指示各依托单位之间的附属关系；所述目标依托单位为待分类科研项目直接或间接依托的具有学科学位点的依托单位。本实施例中，由于会出现待分类科研项目的直接依托单位不具有学科学位点的情况（例如，某具有开展科研项目能力的医院F）,为快速确定出待分类科研项目对应的具有学科学位点的目标依托单位，通过预先构建各依托单位之间的附属关系，从而便于基于依托单位附属关系和上述直接依托单位确定出目标依托单位。

在具体实施时，上述依托单位附属关系可以依赖于依托单位之间的两两附属关系构建，依托单位附属关系的具体表示形式可以根据实际情况确定。

为形象地表示各依托单位之间的附属关系，在一些实施例中，可以采用构建附属关系树的方式来表示上述依托单位附属关系。具体的，处于同一附属关系树中的各单位（依托单位）之间存在直接或间接附属关系，子依托单位的父节点为该子依托单位的直接附属单位（即，直接依托单位）。

示例性的，G省中的一棵附属关系树可以如图4所示，其中，G1、G2、G3为G省的3个市区。在图4中，“G大学”位于附属关系树的最上层节点，即“G大学”为该附属关系树中，最上层的依托单位；对于“G2市第一人民医院”，“G大学医学院”为其父节点，即“G2市第一人民医院”的直接上级附属单位为“G大学医学院”。

步骤S203、将所述目标依托单位对应的学科学位点分布信息确定为所述依托单位学科学位点分布信息。

本实施例中，在基于预先构建的依托单位附属关系获取目标依托单位之后，将该目标依托单位对应的学科学位点分布信息确定为上述依托单位学科学位点分布信息，以作为目标关联信息进行学科分类，实现了依托单位学科学位点分布信息的快速、科学地确定。

为统一、快速地获取所述待分类科研项目对应的目标依托单位，在一实施例中，所述依托单位附属关系包括一个或多个上述附属关系树，在附属关系树中，位于最上层的依托单位为具有学科学位点的依托单位；上述步骤S202可以具体通过以下步骤实现：

在所述依托单位附属关系中确定所述直接依托单位所在的目标附属关系树；

将所述目标附属关系树中最上层的依托单位确定为所述目标依托单位。

本实施例中，由于依托单位附属关系中包括了一个或多个附属关系树，因而需要先确定直接依托单位所在的目标附属关系树，在该目标附属关系树中，该直接依托单位作为该目标附属关系树中的一个节点。

本实施例中，在附属关系树中，位于最上层的依托单位，指的是没有父节点的依托单位，由于最上层的依托单位具有学科学位点，在确定了直接依托单位所在的目标附属关系树之后，为统一、快速地获取待分类科研项目对应的目标依托单位，通过将该目标附属关系中的最上层的依托单位确定为目标依托单位。其中，该最上层的依托单位可能是该直接依托单位，也可能不是该直接依托单位。

在一些实施方式中，为缩小依托单位学科学位点分布信息所包括的学位点范围，提高待分类科研项目的学科分类准确性，还可以通过逐级判断的方式确定出具有学科学位点的目标依托单位。

例如，在一实施例中，上述步骤S202可以具体通过以下步骤实现。

步骤A、判断所述直接依托单位是否具有学科学位点，若是，执行下述步骤B，否则，执行下述步骤C。

步骤B、将所述直接依托单位确定为所述目标依托单位。

步骤C、判断所述依托单位附属关系中所述直接依托单位的直接上级附属单位是否具有学科学位点，若是，执行下述步骤D，否则，执行下述步骤F。

步骤D、将所述直接上级附属单位确定为所述目标依托单位。

步骤F、将所述直接上级附属单位作为所述直接依托单位，并返回执行所述判断所述步骤C。

本实施例中，上述依托单位附属关系也可以是具体由一个或多个上述附属关系树构成，当上述依托附属单位关系是由附属关系树构成时，上述步骤A至步骤F均针对该直接依托单位所在的附属关系树（目标附属关系树）中的节点单位进行判断。藉此，上述“直接依托单位的直接上级附属单位”指的是目标附属关系树中，该直接依托单位所在节点的父节点对应的依托单位。

本实施例中，通过先判断直接依托单位是否具有学科学位点，若是具有学科学位点，则直接将该直接依托单位确定为目标依托单位，若不具有学科学位点，再进一步判断该直接依托单位的直接上级附属单位是否具有学科学位点，若是具有学科学位点，则将该直接上级附属单位确定为目标依托单位，否则，再继续向上判断该直接上级附属单位的直接上级附属单位是否具有学科学位点，直至确定出具有学科学位点的依托单位，作为目标依托单位，实现了目标依托单位的逐级判断，便于缩小上述依托单位学科学位点分布信息的范围，从而有利于提高学科分类的准确度。

步骤S102、将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果。

其中，上述基于注意力机制的目标文本分类网络模型为预先构建的模型，该基于注意力机制的目标文本分类网络模型基于注意力机制根据输入的文本信息进行分类，得到上述初始学科分类结果。本实施例中，对于自然语言处理，注意力机制模拟了人类的注意力分配过程，能够自动学习到输入数据中的重要部分，从而提高模型的性能和效率，相比于RNN（循环神经网络）网络，具有参数更少、速度更快以及效果更好的优势。

在具体实施时，上述基于注意力机制的目标文本分类网络模型是根据基于注意力机制的基础目标文本分类网络模型确定，例如，该基础目标文本分类网络模型可以是BART（Bidirectional and Auto-Regressive Transformers）模型、BERT（BidirectionalEncoder Representations from Transformers）模型等模型。

例如，在一实施例中，可以基于BERT模型构建上述基于注意力机制的目标文本分类网络模型，如图5所示，具体的构建方法包括以下步骤S301至步骤S304。

步骤S301、获取基于注意力机制的BERT模型。

其中，上述BERT模型是一种预训练的语言表征模型，其可以生成深度的双向语言表征，这种表征能够捕获输入文本中的复杂语义信息，包括词义、句法、语境。从网络结构上看，BERT模型确实使用了多层的Transformer结构。与传统的RNN（循环神经网络）和CNN（卷积神经网络）相比，Transformer结构通过自注意力机制（Self-Attention）可以处理序列中任意两个位置的单词。

步骤S302、在所述BERT模型之后增加全连接层和Softmax层，得到基于注意力机制的待训练分类模型；

本实施例中，BERT模型主要用于捕获输入文本中的复杂语义信息，将其表征为多维语义特征，当需要利用BERT进行分类时，通过在BERT模型之后增加全连接层和Softmax层，从而构建得到用于文本分类的上述待训练分类模型。

其中，上述全连接层的主要作用是将BERT模型输出的多维语义特征转化为一个固定长度的适合分类器的向量，这个向量可以捕获输入数据的全局信息，包括各个特征之间的相互关系。

上述Softmax层的主要作用是通过Softmax函数将全连接层的输出转化为一个概率分布向量，且各个概率之和为1，进而可以将具有最高概率的类别作为预测结果。

具体的，softmax函数的表达式为：

其中，Z为向量，Z_K 为向量Z中的元素。

在具体实施时，上述Softmax层的输出维度根据实际分类的所有类别总数确定，例如，上述Softmax层的输出维度可以为输出包括K个概率的向量，其K为一级学科的总数，向量中的每个概率表示待分类科研项目属于对应一级学科的概率。

步骤S303、获取多个第一科研项目训练样本；所述第一科研项目训练样本包括科研项目对应的所述目标内容信息和初始学科分类标签。

本实施例中，上述多个第一科研项目训练样本用于对上述待训练分类模型进行训练调优。具体的，每个第一科研项目训练样本包括一个科研项目对应的上述目标内容信息和初始学科分类标签，其中，上述目标内容信息用于输入上述待训练分类模型，得到待训练分类模型针对该目标内容信息的学科分类结果；上述初始学科分类标签则作为该学科分类结果的标签，对该待训练分类模型进行参数调整，从而逐渐提高待训练分类模型的分类准确性。

步骤S304、基于预设的目标模型训练策略和多个所述第一科研项目训练样本对所述待训练分类模型进行有标签训练，得到所述目标文本分类网络模型；所述目标模型训练策略为第一模型训练策略。

其中，上述目标模型训练策略指示如何利用多个第一科研项目训练样本对待训练分类模型进行有标签训练，其中，有标签训练指的是基于有监督学习的方式对待训练分类模型进行训练。在上述步骤S303中，上述目标模型训练策略具体为第一模型训练策略。

步骤S103、将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端。

本实施例中，得到由目标文本分类网络根据目标内容信息进行学科分类得到的初始学科分类结果之后，为进一步提高学科分类的准确性，参考到更多的相关信息，将初始学科分类结果和上述目标关联信息输入目标全连接分类网络，由目标全连接分类网络基于已有的初始学科分类结果和目标关联信息进行综合和进一步分类，得到输出的目标学科分类结果。

其中，在将初始学科分类结果和上述目标关联信息输入目标全连接分类网络的过程中，可以是先将初始学科分类结果和上述目标关联信息进行拼接后，再输入上述目标全连接分类网络。

具体的，上述目标全连接分类网络为预先构建的网络模型，该目标全连接分类网络用于对上述初始学科分类结果和目标关联信息进行综合处理，捕获这些信息之间的相互关系，从而输出目标学科分类结果。本实施例中，目标学科分类结果为待分类科研项目的最终分类结果，将该目标学科分类结果发送至用户端。

在具体实施时，上述目标全连接分类网络可以包括输入层、全连接层以及Softmax层。

例如，在一实施例中，如图6所示，上述目标全连接分类网络具体的构建方法可以具体包括以下步骤S401至步骤S403。

步骤S401、构建待训练全连接网络；所述待训练全连接网络包括输入层、全连接层以及Softmax层。

本实施例中，上述待训练全连接网络用于基于输入的信息进行分类，该待训练全连接网络需要进行训练调优从而得到上述目标全连接分类网络。具体的，待训练全连接网络包括输入层、全连接层以及Softmax层。其中，输入层用于接收输入数据；全连接层通过全连接的方式将输入转换为一定长度的向量；Softmax层则用于将全连接层的输出转化为一个概率分布，进而可以将具有最高概率的类别作为上述目标学科分类结果。

在具体实施时，上述Softmax层的输出维度根据实际分类的所有类别总数确定，例如，上述Softmax层的输出维度可以为输出包括K个概率的向量，其中K为一级学科的总数，向量中的每个概率表示待分类科研项目属于对应一级学科的概率。

步骤S402、获取多个第二科研项目训练样本；所述第二科研项目训练样本包括科研项目对应的目标关联信息、所述初始学科分类结果以及目标学科分类结果标签。

本实施例中，上述多个第二科研项目训练样本用于对上述待训练全连接网络进行训练调优。具体的，每个第二科研项目训练样本包括一个科研项目对应的上述目标关联信息和初始学科分类结果以及目标学科分类结果标签。其中，目标关联信息和初始学科分类结果用于输入上述待训练全连接网络，得到待训练全连接网络输出的学科分类结果；上述目标学科分类标签则作为该学科分类结果的标签，对该待训练全连接网络进行参数调整，从而逐渐提高待训练全连接网络的分类准确性。

其中，第二科研项目训练样本中包括的科研项目对应的上述初始学科分类结果为通过将科研项目对应的目标内容信息输入上述基于注意力机制的目标文本分类网络模型（训练完成的网络）后得到的输出结果。

步骤S403、基于预设的目标模型训练策略和多个所述第二科研项目训练样本对所述待训练全连接网络进行有标签训练，得到所述目标全连接分类网络；其中，所述目标模型训练策略为第二模型训练策略。

其中，上述目标模型训练策略指示如何利用多个第二科研项目训练样本对待训练分类模型进行有标签训练，其中，有标签训练指的是基于有监督学习的方式对待训练全连接网络进行训练。在上述步骤S403中，目标模型训练策略具体为第二模型训练策略。

需要说明的是，在具体实施时，上述步骤S304中使用的上述第一模型训练策略和上述步骤S403中使用的上述第二模型训练策略可以相同，也可以不同。

在一实施例中，如图7所示，上述第一模型训练策略和/或第二模型训练策略（亦即上述目标模型训练策略），可以是具体包括以下步骤S501至步骤S504。

步骤S501、将多个科研项目训练样本划分为训练样本集、验证样本集以及测试样本集。

其中，当上第一模型训练策略包括步骤S501至步骤S504时，上述多个科研项目训练样本具体指的是上述多个第一科研项目训练样本；当上述第二模型训练策略包括步骤S501至步骤S504时，多个科研项目训练样本具体指的是上述多个第二科研项目训练样本。

本实施例中，对于多个科研项目训练样本，对其进行划分为三个部分，一部分作为训练样本集、一部分作为验证样本集，剩下部分作为测试样本集。在具体实施时，训练样本集、验证样本集以及测试样本集中包含的样本数量的比例具体可以根据实际情况确定。例如，在一具体的实施方式中，上述，训练样本集、验证样本集以及测试样本集包含的样本数量的比例可以为3：7：1。

步骤S502、利用所述训练样本集调整待训练网络模型的内部参数，利用所述验证样本集调整所述待训练网络模型的超参数，得到训练结果模型。

其中，当上第一模型训练策略包括步骤S501至步骤S504时，上述待训练网络模型具体指的是上述待训练分类模型；当上述第二模型训练策略包括步骤S501至步骤S504时，上述待训练网络模型具体指的是上述待训练全连接网络。

本实施例中，训练样本集用于对待训练网络模型进行训练，从而调整待训练分类模型的内部参数，其中，内部参数是指模型在训练过程中学习的参数。例如，权重参数和偏置；验证样本集用于对待训练分类模型验证待训练分类模型的分类效果，从而调整待训练网络模型的超参数，其中，超参数是在开始训练模型之前初始设置的，并用来指导训练过程的参数。例如，学习率、批量大小、训练的轮数、优化器等都是超参数。

步骤S503、利用所述测试样本集对所述训练结果模型进行分类准确度测试，得到分类准确度结果。

本实施例中，当利用训练样本集、验证样本集对上述待训练网络模型进行参数调整完毕后，得到上述训练结果模型，为验证训练结果模型的泛化能力，利用测试样本集对训练结果模型进行分类准确度测试，得到分类准确度结果。

具体的，利用训练结果模型对测试样本集中的每个科研项目训练样本进行分类测试，得到每个科研项目训练样本对应的分类准确度，进而综合各科研项目训练样本分别对应的分类准确度得到上述分类准确度结果。

步骤S504、当所述分类准确度结果大于预设的分类准确度阈值时，将所述训练结果模型作为目标网络模型。

其中，当上第一模型训练策略包括步骤S501至步骤S504时，上述目标网络模型具体指的是上述目标文本分类网络模型；当上述第二模型训练策略包括步骤S501至步骤S504时，上述目标网络模型具体指的是上述目标全连接分类网络。

本实施例中，当所述分类准确度结果大于预设的分类准确度阈值时，说明训练结果模型的泛化能力较好，不存在过拟合，因而可以将其作为目标网络模型，用作实际的科研项目一级学科分类。

在一些实施方式中，当所述分类准确度结果不大于预设的分类准确度阈值时，则说明训练结果模型的泛化能力较差，存在过拟合，此时，可以修改上述训练结果模型的超参数，并再次获取新的训练样本集、验证样本集对该训练结果模型进行训练，直至满足分类准确度结果大于预设的分类准确度阈值；可选的，也可以是重新初始化上述待训练网络模型的内部参数，再次获取新的训练样本集、验证样本集对该待训练网络模型进行训练，直至满足分类准确度结果大于预设的分类准确度阈值。

本实施例中，通过设置训练样本集、验证样本集对模型参数进行调整优化，设置测试样本集对模型的泛化能力进行验证，有利于提高得到的目标网络模型的分类准确度。

综上，本申请通过基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的指示项目内容信息的目标内容信息和目标关联信息（包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个），进而利用基于注意力机制的目标文本分类网络对所述目标内容信息进行分类，得到初始学科分类结果，在此基础上，再将初始学科分类结果与目标关联信息输入目标全连接分类网络，从而得到目标全连接分类网络输出的目标学科分类结果，该目标学科分类结果作为该待分类科研项目的最终分类结果，发送至用户端。可见，本申请先利用基于注意力机制的文本分类网络对科研项目的目标内容信息进行分类，得到一个初始学科分类结果，为进一步提高学科分类的准确性，将待分类科研项目的目标关联信息和该初始学科分类结果再输入目标全连接分类网络，从而得到目标学科分类结果，本申请通过利用神经网络且同时参考科研项目本身的内容信息（目标内容信息）以及关联信息（目标关联信息）来对科研项目进行学科自动分类，与现有技术相比，提高了科研项目的学科分类的准确性和分类速度、从而提高了科研项目的学科分类效率，有利于后续利用科研项目的一级学科分类结果进行相关处理和分析，例如，利用高等学校中各一级学科对应的科研项目情况对高等学校的各学科进行学科建设评价等。

本申请实施例还提供一种科研项目的学科分类装置，该科研项目的学科分类装置用于执行前述科研项目的学科分类方法的任一实施例中的步骤。具体地，请参阅图8，图8示出了本申请实施例提供的一种科研项目的学科分类装置600的结构示意图，该科研项目的学科分类装置600具体包括接收单元601、发布单元602和授权使用单元603。

获取单元601，用于基于来自用户端的待分类科研项目数据信息获取待分类科研项目对应的目标内容信息和目标关联信息；所述目标内容信息指示所述待分类科研项目的项目内容信息；所述目标关联信息包括所述待分类科研项目的所属项目类型、所属科研项目计划以及依托单位学科学位点分布信息中的至少一个；

第一分类处理单元602，用于将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果；

第二分类处理单元603，用于将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端。

在一些实施方式中，所述获取单元601还可以用于，获取基于注意力机制的BERT模型；所述科研项目的学科分类装置600还包括构建单元，用于在所述BERT模型之后增加全连接层和Softmax层，得到基于注意力机制的待训练分类模型；所述获取单元601还可以用于，获取多个第一科研项目训练样本；所述第一科研项目训练样本包括科研项目对应的所述目标内容信息和初始学科分类标签；所述科研项目的学科分类装置600还包括训练单元，用于基于预设的目标模型训练策略和多个所述第一科研项目训练样本对所述待训练分类模型进行有标签训练，得到所述目标文本分类网络模型；所述目标模型训练策略为第一模型训练策略。

在一些实施方式中，所述构建单元还可以用于，构建待训练全连接网络；所述待训练全连接网络包括输入层、全连接层以及Softmax层；所述获取单元601还可以用于，获取多个第二科研项目训练样本；所述第二科研项目训练样本包括科研项目对应的所述目标关联信息、所述初始学科分类结果以及目标学科分类结果标签；所述训练单位还可以用于，基于预设的目标模型训练策略和多个所述第二科研项目训练样本对所述待训练全连接网络进行有标签训练，得到所述目标全连接分类网络；其中，所述目标模型训练策略为第二模型训练策略。

在一些实施方式中，所述训练单元可以具体用于，将多个科研项目训练样本划分为训练样本集、验证样本集以及测试样本集；利用所述训练样本集调整待训练网络模型的内部参数，利用所述验证样本集调整所述待训练网络模型的超参数，得到训练结果模型；利用所述测试样本集对所述训练结果模型进行分类准确度测试，得到分类准确度结果；当所述分类准确度结果大于预设的分类准确度阈值时，将所述训练结果模型作为目标网络模型。

在一些实施方式中，所述获取单元601可以具体用于，获取所述待分类科研项目的直接依托单位；基于预先构建的依托单位附属关系和所述直接依托单位获取所述待分类科研项目对应的目标依托单位；其中，所述依托单位附属关系指示各依托单位之间的附属关系；所述目标依托单位为具有学科学位点的依托单位；将所述目标依托单位对应的学科学位点分布信息确定为所述依托单位学科学位点分布信息。

在一些实施方式中，所述依托单位附属关系包括一个或多个附属关系树，所述附属关系树指示各依托单位之间的附属关系；所述附属关系树中，位于最上层的依托单位为具有学科学位点的依托单位；所述获取单元601可以具体用于，在所述依托单位附属关系中确定所述直接依托单位所在的目标附属关系树；将所述目标附属关系树中最上层的依托单位确定为所述目标依托单位。

在一些实施方式中，所述获取单元601可以具体用于，判断所述直接依托单位是否具有学科学位点；当所述直接依托单位具有学科学位点时，将所述直接依托单位确定为所述目标依托单位；当所述直接依托单位不具有学科学位点时，判断所述依托单位附属关系中所述直接依托单位的直接上级附属单位是否具有学科学位点；若所述直接上级附属单位具有学科学位点，将所述直接上级附属单位确定为所述目标依托单位；若所述直接上级附属单位不具有学科学位点，将所述直接上级附属单位作为所述直接依托单位，并返回执行所述判断所述依托单位附属关系中所述直接依托单位的直接上级附属单位是否具有学科学位点的步骤。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述科研项目的学科分类装置600和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述科研项目的学科分类装置可以实现为计算机程序的形式，该计算机程序可以在如图9示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的计算机设备的示意性框图。该计算机设备700可以是智能手机、平板电脑、个人电脑、智能穿戴设备、服务器等终端设备。参阅图9，该计算机设备700包括通过装置总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括存储介质703和内存储器704。

该存储介质703可存储操作***7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行科研项目的学科分类方法。

该处理器702用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器704为存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行科研项目的学科分类方法。

该网络接口705用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器702用于运行存储在存储器中的计算机程序7032，以实现本申请实施例公开的科研项目的学科分类方法。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器702可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的科研项目的学科分类方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，后台服务器，或者网络设备等 ) 执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种科研项目的学科分类方法，其特征在于，包括：

将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果；其中，所述目标文本分类网络模型包括依次拼接的BERT模型、全连接层以及Softmax层；所述Softmax层用于输出概率分布向量，所述概率分布向量指示所述待分类科研项目属于各学科类别分别对应的预测概率；所述初始学科分类结果指示所述待分类科研项目所属的第一学科类别；

将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端；其中，所述目标全连接分类网络包括输入层、全连接层以及Softmax层；所述目标学科分类结果指示所述待分类科研项目所属的目标学科类别。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果之前，所述方法还包括：

获取基于注意力机制的BERT模型；

在所述BERT模型之后增加全连接层和Softmax层，得到基于注意力机制的待训练分类模型；

获取多个第一科研项目训练样本；所述第一科研项目训练样本包括科研项目对应的所述目标内容信息和初始学科分类标签；

基于预设的目标模型训练策略和多个所述第一科研项目训练样本对所述待训练分类模型进行有标签训练，得到所述目标文本分类网络模型；所述目标模型训练策略为第一模型训练策略。

3.根据权利要求1所述的方法，其特征在于，所述将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的所述待分类科研项目对应的目标学科分类结果之前，所述方法还包括：

构建待训练全连接网络；所述待训练全连接网络包括输入层、全连接层以及Softmax层；

获取多个第二科研项目训练样本；所述第二科研项目训练样本包括科研项目对应的所述目标关联信息、所述初始学科分类结果以及目标学科分类结果标签；

基于预设的目标模型训练策略和多个所述第二科研项目训练样本对所述待训练全连接网络进行有标签训练，得到所述目标全连接分类网络；其中，所述目标模型训练策略为第二模型训练策略。

4.根据权利要求2或3所述的方法，其特征在于，所述目标模型训练策略，包括：

将多个科研项目训练样本划分为训练样本集、验证样本集以及测试样本集；

利用所述训练样本集调整待训练网络模型的内部参数，利用所述验证样本集调整所述待训练网络模型的超参数，得到训练结果模型；

利用所述测试样本集对所述训练结果模型进行分类准确度测试，得到分类准确度结果；

当所述分类准确度结果大于预设的分类准确度阈值时，将所述训练结果模型作为目标网络模型。

5.根据权利要求1所述的方法，其特征在于，所述依托单位学科学位点分布信息的获取方法包括：

获取所述待分类科研项目的直接依托单位；

基于预先构建的依托单位附属关系和所述直接依托单位获取所述待分类科研项目对应的目标依托单位；其中，所述依托单位附属关系指示各依托单位之间的附属关系；所述目标依托单位为具有学科学位点的依托单位；

将所述目标依托单位对应的学科学位点分布信息确定为所述依托单位学科学位点分布信息。

6.根据权利要求5所述的方法，其特征在于，所述依托单位附属关系包括一个或多个附属关系树，所述附属关系树指示各依托单位之间的附属关系；所述附属关系树中，位于最上层的依托单位为具有学科学位点的依托单位；所述基于预先构建的依托单位附属关系和所述直接依托单位获取所述待分类科研项目对应的目标依托单位，包括：

7.根据权利要求5所述的方法，所述基于预先构建的依托单位附属关系和所述直接依托单位获取所述待分类科研项目对应的目标依托单位，包括：

判断所述直接依托单位是否具有学科学位点；

当所述直接依托单位具有学科学位点时，将所述直接依托单位确定为所述目标依托单位；

当所述直接依托单位不具有学科学位点时，判断所述依托单位附属关系中所述直接依托单位的直接上级附属单位是否具有学科学位点；

若所述直接上级附属单位具有学科学位点，将所述直接上级附属单位确定为所述目标依托单位；

若所述直接上级附属单位不具有学科学位点，将所述直接上级附属单位作为所述直接依托单位，并返回执行所述判断所述依托单位附属关系中所述直接依托单位的直接上级附属单位是否具有学科学位点的步骤。

8.一种科研项目的学科分类装置，其特征在于，包括：

第一分类处理单元，用于将所述目标内容信息输入预先构建的基于注意力机制的目标文本分类网络模型，得到所述目标文本分类网络模型输出的初始学科分类结果；其中，所述目标文本分类网络模型包括依次拼接的BERT模型、全连接层以及Softmax层；所述Softmax层用于输出概率分布向量，所述概率分布向量指示所述待分类科研项目属于各学科类别分别对应的预测概率；所述初始学科分类结果指示所述待分类科研项目所属的第一学科类别；

第二分类处理单元，用于将所述初始学科分类结果和所述目标关联信息输入预先构建的目标全连接分类网络，得到所述目标全连接分类网络输出的目标学科分类结果，并将所述目标学科分类结果发送至所述用户端；其中，所述目标全连接分类网络包括输入层、全连接层以及Softmax层；所述目标学科分类结果指示所述待分类科研项目所属的目标学科类别。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。