CN111708773A

CN111708773A - 一种多源科创资源数据融合方法

Info

Publication number: CN111708773A
Application number: CN202010812168.8A
Authority: CN
Inventors: 刘啸; 龚晓阳
Original assignee: Jiangsu Baohe Data Co ltd
Current assignee: Jiangsu Baohe Data Co ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-09-25
Anticipated expiration: 2040-08-13
Also published as: CN111708773B

Abstract

本发明公开了一种多源科创资源数据融合方法，步骤包括：数据源特征分析；配置规则采集科创资源；解析与预处理；合并去重；关联指派；主题识别与数据融合。本发明实现不同来源、类型以及信息描述等非结构化的特征数据的标准化处理与关联融合，解决多种类型的科创资源难以共融互通的问题。

Description

一种多源科创资源数据融合方法

技术领域

本发明涉及多源数据处理技术领域，特别是一种多源科创资源数据融合方法。

背景技术

随着国家对科学发展与科技服务的政策扶持力度的加深（随着新一代信息和网络技术的纵深发展），科技创新的高效协同与科创资源的共享共用已逐渐形成技术产业融合发展与双创服务项目落地的宏观战略方向。为了更好聚焦产业优势，服务企业需求，助推地域间科创合作与产学研用，如何对科创资源的有效利用成为了关键点。然而，在实践中发现，科创资源涵盖了科技文献、专利成果、全球人才、上市企业、技术研报、金融数据等多种类型，而这些数据种类多样、来源散杂、分类各异，且数据结构复杂、底层特征差异较大，因此针对多源异构特征的数据资源要实现跨平台汇聚、规范化处理、结构化融合的难度较大，所以造成了资源利用效率不高，科研价值发现度不够。

在科技创新促进经济转型的背景下，科创资源对于促进产学研深度融合、推动科技成果转化以实现区域经济的创新发展具有重要意义。然而，科创资源分布具有多源异构特点，其数据结构化程度不统一、主题融合度低、时空分布不一致等问题，造成数据交换共享与价值挖掘的难度较大。因此，对于科创资源数据的处理要解决非结构化科技成果、半结构化科创实例与结构化科创对象的信息描述正确性与一致性，实现异构数据结构化处理后的关联分析、动态集成与跨领域数据融合。

现有技术中对于多源异构数据融合的主要处理方法：一方面是采用ETL框架与工具（周宏广,周继承,彭银桥,龙思锐.数据ETL工具通用框架设计[J].计算机应用,2003(12):96-98.），针对分散、零乱、标准不统一的数据进行抽取、清洗转换与加载，常应用于企业业务场景下多个业务***的数据转换，缺少针对多领域、多来源的科创资源数据的采集方法，难以完成复杂字段的数据清洗与关联指派，更无法实现内容标签与知识融合；另一方面是通过多源异构数据获取、缓存、标准化处理的方法实现（一种多源异构数据融合平台及融合方法，公开号CN107633075A，公开日2018.01.26），公开了融合平台包括数据采集单元、数据存储单元、数据标准化单元、用户画像构建单元、知识图谱构建单元和可视化单元；数据采集单元用于采集多源异构数据；数据存储单元用于对多源异构数据进行缓存；数据标准化单元对多源异构数据进行词法、语法和/或语义分析，得到标准化文本数据；用户画像构建单元利用量化出的学生标签构建学生的用户画像；知识图谱构建单元构建学生的知识图谱、老师的知识图谱和课程的知识图谱，并将课程的知识图谱、学生的知识图谱和老师的知识图谱进行关联，得到以学生为中心的课程联系、社交关系和师生关系；可视化单元对以学生为中心的课程联系、社交关系和师生关系进行显示。虽然处理方向与本发明看似相近，但其数据采集的范围、标准化处理的具体程序与本发明的方法存在本质上不同，且本发明在数据结构化处理与数据关联融合等方面提出了更为详细的方法，以提高资源结构化转换的准确度与异构数据的融合度。鉴于此，现有技术中缺乏一种基于科创资源数据特征的数据融合处理方法。

发明内容

针对现有技术中存在的问题，本发明提供了一种实现不同来源、类型以及信息描述等非结构化的特征数据的标准化处理与关联融合，解决多种类型的科创资源难以共融互通的问题的多源科创资源数据融合方法。

本发明的目的通过以下技术方案实现。

一种多源科创资源数据融合方法，步骤包括：

数据源特征分析用于分析数据种类及其来源特征，所述来源特征包括来源地址、数据分布、存储格式、数据字段、更新机制、信息维度、数据质量；

配置规则采集科创资源，所述配置规则包含配置采集范围、配置采集规则、时间设定、别名扩展、对象监测规则；

解析与预处理：将采集到的多源异构的科创资源数据进行存储格式的解析、数据标准化处理、元数据清洗与规范；

合并去重：根据解析与预处理的数据信息进行进一步人员与机构的实体提取，并以此作为数据合并的载体；

关联指派：从合并去重后的标准化数据信息中识别实体与关联关系，围绕成果作者特征信息作为判断条件与机构信息实施关联指派，并在实施中进行推断验证，将指派后的结构化、标准化数据信息进行实体识别与动态语义关联处理，形成科创资源实体类型关联下的数据汇集与融合。

进一步的，所述关联指派后执行主题识别与知识融合，所述主题识别与知识融合结合标准化处理后的多源科创资源数据的字段信息，进行分词、词形还原、词干提取、句法分析与词性标注的处理，利用主题分析模型与学术词典以推断出资源的研究主题，完成语义标注与标签管理，形成主题下的知识聚类，实现科创资源的动态知识融合。

进一步的，所述关联指派中采用重名消解相关算法进行推断验证。

进一步的，所述关联指派中采用欧洲公用科研信息框架CERIF模型将指派后的结构化、标准化数据信息进行实体识别与动态语义关联处理。

进一步的，所述数据源特征分析后形成基于科创资源特征的数据集成模型与核心元数据模型，所述数据源特征分析具体包括：当字段标准各异时，通过专家知识与人工标注，对照核心元数据描述形成多源数据的多元字段的统一表示；

当存在冗余字符串时，数据过滤、消减参数以及删除冗余和随机字符串字段；

当信息表示多元时，通过核心字段选择、数据约简、变量缩减、属性选择、元数据映射、字段关联步骤形成数据统一描述，规范化存入数据库；

当作者署名不规范和姓名中英映射问题时，利用人工整理的学者字典进行署名的识别、关联、对齐，并结合人工干预做数据标注、更正与补充。

进一步的，所述解析与预处理具体为科创资源获取后，按照数据属性特征与格式特征形成数据集并统一存储，保持来源数据格式并临时存储云端文件中，通过Django应用框架构建分布式解析模块对数据下载并实时支撑PDF、CSV、HTML、TEXT、JSON、XLS、XML格式的解析任务，以语义理解字段类别与数据内容，采用不同来源特征下的不同处理规则进行数据降噪与数据清洗，其中包括：源数据格式分布式解析、语义关联与映射、字段切分或合并、数据纠正、字段补充以及识别与判断数据唯一号，得到结构化数据表示；采用数据唯一号判断并处理冗余数据、缺省数据与修正数据；若数据无唯一号采用源数据“类型+标题+年代+人名”的判别算法进行数据集交叉验证，并提取或***自生成备用唯一号，最终获得数据关联关系与预处理结果；结合数据属性与DC元素标准进行元数据统一映射与字段扩展，形成结构化数据的规范性描述，预处理后的结构化数据与数据关系进行存储更新。

进一步的，所述合并去重是采用解析与预处理后的数据信息，围绕结构化元数据中作者字段与机构字段提取信息要素作为科创资源成果合并的判断条件，通过循环多次验证推理实现以科创机构单位为载体，将多源结构化后的资源数据进行了成果合并与机构匹配，得到合并去重后元数据与数据源信息对应关系的数据集。

进一步的，根据成果合并后的筛选结构与数据质量验证情况来交叉对比成果数据合并去重是否完成，针对效果欠缺与未完成处理的数据筛选出，调用配置规则的相似性算法，以判断数据在序列相似性、语义相似性、机构相似性、作者姓名相似性的差异值，并结合设定阈值与判断结果完成进一步数据的去重合并，所述阈值设定为d(i,j)=0或者 d(i,j)<3，其中d(i,j)为差异值。

进一步的，所述关联指派先判断合并去重后的数据集在姓名字段与机构字段处能否成功匹配，当姓名字段与机构不匹配的情况，基于汉字拼音分割算法拆分姓名拼音，使用动态规划算法对全拼和缩写姓名进行匹配，并输出纠正与规范后作者姓名写法的结果，并与机构字段署名进行再次识别匹配，确定作者发文机构，再重复用于多项成果数据的交叉识别以判断成果最终归属；否则，依据成果邮箱、所属科创机构单位、学科领域元数据字段与匹配处理规则，将指派成果数据与科创人才进行匹配，以初步筛选并处理重名作者、不匹配的人才及成果的情况。

进一步的，所述关联指派中涉及重名时，则调用指派处理规则的共指共现分析与文献耦合分析算法，分析判断重名所处研究领域、发表领域、期刊领域、合作者关系；利用模块度算法推断疑似数据的成果领域及外部关联性，再次执行匹配指派，并循环多次输出消解重名的结果数据；否则，对指派后结构化、标准化的数据进行语义解析与实体识别，实现科创资源从机构、人才、成果内容、项目等多项实体的自动关联，从数据源与信息交换的层面上得到科创资源的多源异构数据特征的融合互通。

进一步的，所述主题识别与知识融合将读取关联指派后的数据信息，采用nltk+spacy算法提取数据集的字段内容，并调用主题识别规则的分词算法与词向量算法进行内容分词处理与句法分析，根据自定义词库进行匹配时，spacy算法会先把自定义词库中已有的关键词进行优先精准匹配；在非自定义词库时，nltk算法可以根据文本词义及词性自动识别，进而提取关键词。

进一步的，所述采用主题分析模型，以LDA算法来识别成果数据的主题信息，获取内容词频以及权重值来推断成果主题；通过与预设学术词典的匹配和语义标注，完成科创资源的主题标签定位与研究主题下的知识聚类，最终到科创资源跨领域、跨学科下的知识汇聚与融合。

相比于现有技术，本发明的优点在于：

1、本发明通过对科创资源的数据源特征分析，挖掘多源数据的字段特征、时空序列特征以及分布存储特征，从而可以更准确、全面地完成对原始数据采集、解析与高效存储。

2、本发明依据数据特征表示进行语义推理与算法处理，减少数据冗余，增强元数据规范化与内容融合度，完成数据高效清洗、实体自动识别、成果精准指派与主题动态区分，从而提升科创资源的数据汇聚融合效率。

附图说明

图1是本发明多源科创资源数据融合方法流程图。

图2是本发明的解析与预处理方法流程图。

图3是本发明的合并去重方法流程图。

图4是本发明的关联指派方法流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

如图1所示，本实施例提供一种多源科创资源数据融合方法，其包括数据源特征分析、规则配置与采集、解析与预处理、合并去重、关联指派和主题识别与数据融合，具体方法步骤如下：

数据源特征分析用于分析数据种类及其来源特征，包括来源地址、数据分布、存储格式、数据字段、更新机制、信息维度、数据质量等方面，通过特征挖掘，研究各个来源数据的隐含问题，如：字段标准各异、冗余字符串、信息表示多元、作者署名不规范、姓名中英映射问题等，当字段标准各异时，例如：科研资源Web of Science 核心合集的字段标识中，AU为作者、TI为文献标题、SO出版物名称、DT文献类型等等，而科创数据引文库Scopus的字段中，Authors为作者、Title为文献标题、Source_title为出版物名称、db_type为资源类型等等，对比可见，不同科创资源来源在字段标准与字段数量上都存在各异情况。针对不同字段标准的问题，可通过专家知识、人工标注与核心元数据描述对照，形成多源数据的多元字段的统一表示与统一字段映射标准，配置自动匹配、对齐的规则；

当存在冗余字符串时，例如：在采集专利库官方网站数据时，专利名为“一种对UKF纤维追踪数据进行联合可视化的方法”的数据字段下出现了[{"jg_level2": "", "px": 1, "jg_type": "\u9662\u6821", "name": "\u5317\u4eac\u7406\u5de5\u5927\u5b66", "jg_level": "\u975e\u4e0a\u5e02"}] patent等这种无法直接使用的字符串的情况，结合预置字段的选取与映射来判断内容是否可取，然后过滤数据、消减参数，操作删除冗余和随机字符串字段；

当信息表示多元时，围绕科创资源的信息描述，例如：科研资源之一Web of Science存在通用字段73项，另一科研资源Scopus常见字段存在77项，而科研资源之专利的常见字段共计22项等等。面对不同数据类型的描述角度与方式的不同，可通过核心字段选择、数据约简、变量缩减、元数据映射、字段关联等步骤形成科创数据统一描述，并规范化存入数据库；

当作者署名不规范和姓名中英映射问题时，例如：学者周志华在web of science科研信息资源库的检索中出现过zhou, zh、zh, zhou、z zh、zhihua,z 等等署名形式，若不做数据清洗则很难将中英文姓名指向统一，可以利用人工整理的学者字典进行署名的识别、关联、对齐，并结合人工干预做数据标注、更正与补充。从而形成基于科创资源特征的数据集成模型与核心元数据模型以支撑资源采集与标准化处理环节的实施。

配置规则采集科创资源，所述配置规则包含配置采集范围、配置采集规则、时间设定、别名扩展、对象监测规则，确保获取的资源数据有效、可用。

配置采集范围（包括来源数据库、网络地址、页面要素等）、配置采集规则（包括采集路径、采集图片、视频、音频、文本等类型对象、采集字段项、数据解析标示等）、时间设定（即采集周期设定）、别名扩展（包括对象存在多种指向描述，统一记录处理）、对象监测规则（包括资源对象定位、对象分类与监测更新）；

基于数据采集Z39.50协议和HTTP协议，具体采集步骤为：第一步，输入资源对象网址；第二步，编辑检索式或关键词进入检索，或选择全域采集；第三步，识别采集对象（文本、图片、音频、视频等内容类型），编辑采集字段，映射标准字段，别名自动识别与扩展；第四步，设置数据时间段，调整页面循环设置（如数据加载翻页与页面钻取层级）；第五步，数据类型标识，识别数据文件格式（如PDF、CSV、HTML、TEXT、JSON、XLS、XML等），选择导出路径（导出到本地或是发布到数据库）；第六步，配置监测实体以循环监测对象更新情况，设定定时采集配置；第七步，启动采集。

科创资源数据采集对象包括：科研文献数据库、专利数据库、国家自然科学基金项目数据库、国家社科基金项目数据库、金融数据库，政府与企业数据库。

商业数据采用采购对应数据库访问权来获取接口数据，公开数据采用网页抓取方法来采集多领域下的原始数据。

解析与预处理将采集到的多源异构的科创资源数据进行存储格式的解析、数据标准化处理、元数据清洗与规范，以实现多源数据结构化与元数据描述规范化。

合并去重根据解析与预处理的数据信息进行进一步人员与机构的实体提取，并以此作为数据合并的载体。依据数据源的唯一号识别与无唯一号条件下的针对核心元数据确认的前提步骤，按处理规则进行成果数据的合并、结果验证与消除数据的重复项。

关联指派从合并去重后的标准化数据信息中识别实体与关联关系，围绕成果作者特征信息作为判断条件与机构信息实施关联指派，并在实施中采用重名消解相关算法，首先通过作者字典判断重名名字是否指代同一作者，做共指处理；接下来，提取文献字段对象（包括作者、机构、关键词、主题词、引用情况与被引情况）分析多篇论文之间共同出现的关键词、共同出现的合作作者、共同出现的合作机构以及文献与关键词、机构与作者共同出现的概率，并分析文献耦合强度，结合专家知识与人工干预分析判断重名所处研究领域、发表领域、期刊领域、合作者关系，进行推断验证以提高重名指派的成功率。最后，采用欧洲公用科研信息框架CERIF模型将指派后的结构化、标准化数据信息进行实体识别与动态语义关联处理，形成机构、人才、成果、项目等科创资源实体类型关联下的数据汇集与融合，欧洲公用科研信息框架CERIF模型具备中性架构、支持数据模型（关系，对象，信息检索）表示、支持集中式/分布式查询与基于知识的HTML Web /收割/ IR查询。

主题识别与知识融合结合标准化处理后的多源科创资源数据的字段信息，进行分词、词形还原、词干提取、句法分析与词性标注的处理，利用主题分析模型与学术词典以推断出资源的研究主题，完成语义标注与标签管理，形成主题下的知识聚类，实现科创资源的动态知识融合。

在本实施例中，其解析与预处理以数据源特征的分析结果和规则配置下的采集数据为处理对象及算法配置。

如图2所示，多源异构特征的科创资源获取后，保持来源数据格式并临时存储云端文件中，通过Django应用框架构建分布式解析模块对数据下载并实时支撑PDF、CSV、HTML、TEXT、JSON、XLS、XML等格式的解析任务，以语义理解字段类别与数据内容，采用不同来源特征下的不同处理规则进行数据降噪与数据清洗，其中包括：源数据格式分布式解析、语义关联与映射、字段切分或合并、数据纠正、字段补充以及识别与判断数据唯一号等流程方法，得到结构化数据表示。

例如：来源数据库1对地址描述为Address<NJU, China.>,来源数据库2对同字段描述为Has Address<Nanjing University, jiangsu, China>。在解析过程中，算法自动识别地址字段并做字段切分并规范描述为Address<Nanjing University, China>。

解析与预处理采用数据唯一号判断并处理冗余数据、缺省数据与修正数据；若数据无唯一号采用源数据“类型+标题+年代+人名”的判别算法进行数据集交叉验证，并提取或***自生成备用唯一号，最终获得数据关联关系与预处理结果。

科创资源数据的唯一号设定会依据资源类型与来源，如：图书为ISSN号，文献以数据库来源分别存在WOS号、Scopus号、CSCD号、EI号、DOI号、Handle号，专利为公开号，基金项目为项目批准号等等。

解析与预处理结合数据属性与DC元素标准进行元数据统一映射与字段扩展，形成结构化数据的规范性描述，预处理后的结构化数据与数据关系进行存储更新。

合并去重是采用解析与预处理后的数据信息，围绕结构化元数据中作者字段与机构字段提取信息要素作为科创资源成果合并的判断条件，通过循环多次验证推理实现以科创机构单位为载体，将多源结构化后的资源数据进行了成果合并与机构匹配，得到合并去重后元数据与数据源信息对应关系的数据集。

如图3所示，科创资源数据预处理后形成结构化的数据形式，合并去重的过程与目的是将结构化数据通过步骤处理转化为标准化数据。

预处理后的数据以提取作者相关信息，包括人才邮箱、年龄、入学或离校年、所在机构单位、所在学科门类或学科分区等作为下一步参数条件；同样，依据科创机构单位，提取其科创资源类型下所有成果，包括：科技文献、专利成果、技术研报、金融数据、专著书籍、基金项目等。

合并去重进行成果数据初步合并，依据数据源唯一号与***生成唯一号、类型数据题名（中英文）、作者全称（中英文）以及出版或公开时间等作为合并判断条件，进行各个科研机构下跨领域科创数据的成果合并。

根据成果合并后的筛选结构与数据质量验证情况来交叉对比成果数据合并去重是否完成。针对效果欠缺与未完成处理的数据筛选出，调用配置规则的相似性算法，即利用Levenshtein算法与词频句法分析相结合的方法，以判断数据在序列相似性、语义相似性、机构相似性、作者姓名相似性等方面的差异值，并结合设定阈值与判断结果完成进一步数据的去重合并。所述阈值设定为d(i,j)=0或者 d(i,j)< 3，其中d(i,j)为差异值。循环处理多次，最后将标准化数据以机构单位为载体，完成科创资源数据成果的合并与科创机构的匹配，得到合并去重后元数据与数据源信息对应关系的数据集。

如图4所示，关联指派是通过对科创资源的实体识别、成果指派与实体关联来实现数据源与信息交换的层面上的多源科创资源数据融合。

关联指派先判断合并去重后的数据集在姓名字段与机构字段处能否成功匹配，其目的在于确认成果能归属于作者，作者能归属机构，从而实现对科创资源在机构、人才、成果等实体的自动识别与智能关联。

针对姓名字段与机构不匹配的情况，基于汉字拼音分割算法拆分姓名拼音，使用动态规划算法对全拼和缩写姓名进行匹配，并输出纠正与规范后作者姓名写法（中英文）的结果，并与机构字段署名进行再次识别匹配，确定作者发文机构，再重复用于多项成果数据的交叉识别以判断成果最终归属。

依据成果邮箱、所属科创机构单位、学科领域等元数据字段与匹配处理规则，将指派成果数据与科创人才进行匹配，以初步筛选并处理重名作者、不匹配的人才及成果的情况。

关联指派涉及重名问题的消解方式，调用指派处理规则的共指与共指共现分析与文献耦合分析算法，即首先通过作者字典判断重名名字是否指代同一作者，做共指处理；接下来，提取文献字段对象（包括作者、机构、关键词、主题词、引用情况与被引情况）分析多篇论文之间共同出现的关键词、共同出现的合作作者、共同出现的合作机构以及文献与关键词、机构与作者共同出现的概率，并分析文献耦合强度，结合专家知识与人工干预分析判断重名所处研究领域、发表领域、期刊领域、合作者关系；利用模块度算法通过划分网络结构中的社区模块形成稳定聚类结果来推断疑似数据的成果领域及外部关联性，再次执行匹配指派，并循环多次输出消解重名的结果数据。同样重复或署名不规范的情况也会出现在机构字段部分，可以采用映射预设的科创机构字典佐以纠正。

例如：在指派过程中存在作者署名拼写规范问题、英文缩写与全称问题、模糊姓名指代问题以及重名问题，如学者Nees Jan van Eck（全名）在科技文献署名会出现Nee Janvan Eck的拼写错误、Nees J V Eck缩写指代或是Nees V Eck等模糊疑似指代等。此时，采用Levenshtein算法计算字母近似值并做相近数据的筛选与分类，然后近似值超过模型设定阈值则自动更正写法，即将拼写错误的Nee Jan van Eck在索引处替换为正确写法NeesJan van Eck；缩写模糊指代与重名问题，则通过利用模块度算法推断疑似数据的成果领域及外部关联性，并分析该类疑似数据集所处研究领域、发表领域、期刊领域、合作者关系的分析结果进行对比参照，以推断处正确的指派结果。

关联指派还采用欧洲公用科研信息框架CERIF数据模型对指派后结构化、标准化的数据进行语义解析与实体识别，实现科创资源从机构、人才、成果内容、项目等多项实体的自动关联，从数据源与信息交换的层面上得到科创资源的多源异构数据特征的融合互通。

主题识别与知识融合的目的为将标准化数据信息进行进一步的主题标签化和科创资源在知识层面上的多源异构数据融合。

主题识别与知识融合将读取关联指派后的数据信息，采用nltk+spacy算法提取数据集的字段内容，并调用主题识别规则的分词算法与词向量算法进行内容分词处理与句法分析。根据自定义词库进行匹配时，spacy算法会先把自定义词库中已有的关键词进行优先精准匹配；在非自定义词库时，nltk算法可以根据文本词义及词性自动识别，进而提取关键词。

采用主题模型分析，以LDA算法来识别成果数据的主题信息，获取内容词频以及权重值来推断成果主题。通过与预设学术词典的匹配和语义标注，完成科创资源的主题标签定位与研究主题下的知识聚类，最终到科创资源跨领域、跨学科下的知识汇聚与融合。

本发明提出一种多源科创资源数据融合方法，通过获取多源异构的科创资源数据，将大规模复合语义的数据进行数据降噪、标准化处理、结构化关联与知识化融合，实现了科创资源的数据治理与数据融合，更一步提高了对该资源的信息共享与价值挖掘，加强了科创资源的可用性与利用率，为政府、企业、地区、高校做科技创新与科研决策提供了高效耐用的数据支撑服务。

Claims

1.一种多源科创资源数据融合方法，其特征在于步骤包括：

2.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述关联指派后执行主题识别与知识融合，所述主题识别与知识融合结合标准化处理后的多源科创资源数据的字段信息，进行分词、词形还原、词干提取、句法分析与词性标注的处理，利用主题分析模型与学术词典以推断出资源的研究主题，完成语义标注与标签管理，形成主题下的知识聚类，实现科创资源的动态知识融合。

3.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述关联指派中采用重名消解相关算法进行推断验证。

4.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述关联指派中采用欧洲公用科研信息框架CERIF模型将指派后的结构化、标准化数据信息进行实体识别与动态语义关联处理。

5.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述数据源特征分析后形成基于科创资源特征的数据集成模型与核心元数据模型，所述数据源特征分析具体包括：当字段标准各异时，通过专家知识与人工标注，对照核心元数据描述形成多源数据的多元字段的统一表示；

6.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述解析与预处理具体为科创资源获取后，按照数据属性特征与格式特征形成数据集并统一存储，保持来源数据格式并临时存储云端文件中，通过Django应用框架构建分布式解析模块对数据下载并实时支撑PDF、CSV、HTML、TEXT、JSON、XLS、XML格式的解析任务，以语义理解字段类别与数据内容，采用不同来源特征下的不同处理规则进行数据降噪与数据清洗，其中包括：源数据格式分布式解析、语义关联与映射、字段切分或合并、数据纠正、字段补充以及识别与判断数据唯一号，得到结构化数据表示；采用数据唯一号判断并处理冗余数据、缺省数据与修正数据；若数据无唯一号采用源数据“类型+标题+年代+人名”的判别算法进行数据集交叉验证，并提取或***自生成备用唯一号，最终获得数据关联关系与预处理结果；结合数据属性与DC元素标准进行元数据统一映射与字段扩展，形成结构化数据的规范性描述，预处理后的结构化数据与数据关系进行存储更新。

7.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述合并去重是采用解析与预处理后的数据信息，围绕结构化元数据中作者字段与机构字段提取信息要素作为科创资源成果合并的判断条件，通过循环多次验证推理实现以科创机构单位为载体，将多源结构化后的资源数据进行了成果合并与机构匹配，得到合并去重后元数据与数据源信息对应关系的数据集。

8.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于根据成果合并后的筛选结构与数据质量验证情况来交叉对比成果数据合并去重是否完成，针对效果欠缺与未完成处理的数据筛选出，调用配置规则的相似性算法，以判断数据在序列相似性、语义相似性、机构相似性、作者姓名相似性的差异值，并结合设定阈值与判断结果完成进一步数据的去重合并，所述阈值设定为d(i,j)=0或者 d(i,j)< 3，其中d(i,j)为差异值。

9.根据权利要求1所述的一种多源科创资源数据融合方法，其特征在于所述关联指派先判断合并去重后的数据集在姓名字段与机构字段处能否成功匹配，当姓名字段与机构不匹配的情况，基于汉字拼音分割算法拆分姓名拼音，使用动态规划算法对全拼和缩写姓名进行匹配，并输出纠正与规范后作者姓名写法的结果，并与机构字段署名进行再次识别匹配，确定作者发文机构，再重复用于多项成果数据的交叉识别以判断成果最终归属；否则，依据成果邮箱、所属科创机构单位、学科领域元数据字段与匹配处理规则，将指派成果数据与科创人才进行匹配，以初步筛选并处理重名作者、不匹配的人才及成果的情况。

10.根据权利要求9所述的一种多源科创资源数据融合方法，其特征在于所述关联指派中涉及重名时，则调用指派处理规则的共指共现分析与文献耦合分析算法，分析判断重名所处研究领域、发表领域、期刊领域、合作者关系；利用模块度算法推断疑似数据的成果领域及外部关联性，再次执行匹配指派，并循环多次输出消解重名的结果数据；否则，对指派后结构化、标准化的数据进行语义解析与实体识别，实现科创资源从机构、人才、成果内容、项目等多项实体的自动关联，从数据源与信息交换的层面上得到科创资源的多源异构数据特征的融合互通。

11.根据权利要求2所述的一种多源科创资源数据融合方法，其特征在于所述主题识别与知识融合将读取关联指派后的数据信息，采用nltk+spacy算法提取数据集的字段内容，并调用主题识别规则的分词算法与词向量算法进行内容分词处理与句法分析，根据自定义词库进行匹配时，spacy算法会先把自定义词库中已有的关键词进行优先精准匹配；在非自定义词库时，nltk算法可以根据文本词义及词性自动识别，进而提取关键词。

12.根据权利要求2所述的一种多源科创资源数据融合方法，其特征在于所述采用主题分析模型，以LDA算法来识别成果数据的主题信息，获取内容词频以及权重值来推断成果主题；通过与预设学术词典的匹配和语义标注，完成科创资源的主题标签定位与研究主题下的知识聚类，最终到科创资源跨领域、跨学科下的知识汇聚与融合。