CN117556118B - 基于科研大数据预测的可视化推荐***及方法 - Google Patents

基于科研大数据预测的可视化推荐***及方法 Download PDF

Info

Publication number
CN117556118B
CN117556118B CN202410039055.7A CN202410039055A CN117556118B CN 117556118 B CN117556118 B CN 117556118B CN 202410039055 A CN202410039055 A CN 202410039055A CN 117556118 B CN117556118 B CN 117556118B
Authority
CN
China
Prior art keywords
feature
target object
sequence
prediction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410039055.7A
Other languages
English (en)
Other versions
CN117556118A (zh
Inventor
杨代庆
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Scientific And Technical Information Of China
Original Assignee
Institute Of Scientific And Technical Information Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Scientific And Technical Information Of China filed Critical Institute Of Scientific And Technical Information Of China
Priority to CN202410039055.7A priority Critical patent/CN117556118B/zh
Publication of CN117556118A publication Critical patent/CN117556118A/zh
Application granted granted Critical
Publication of CN117556118B publication Critical patent/CN117556118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • G06F18/21326Rendering the within-class scatter matrix non-singular involving optimisations, e.g. using regularisation techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于科研大数据预测的可视化推荐***及方法。本发明面向目标对象针对性整合科研大数据,从中提取与所述目标对象的研究能力发展趋势具备时间相关性的预测特征序列;进而基于训练优化的预测模型,获得所述目标对象研究能力发展趋势的量化表征;根据量化表征,在可视化交互界面上显示针对目标对象的推荐信息。本发明为用户对科研信息的分析运用提供了带有预测性的指引和参考,提升了科研数据库及其可视化检索分析工具等产品的准确性和易用性。

Description

基于科研大数据预测的可视化推荐***及方法
技术领域
本发明涉及大数据分析和预测技术领域,特别涉及一种基于科研大数据预测的可视化推荐***及方法。
背景技术
当前,基于大数据分析进行目标对象相关的趋势预测,已经成为一种重要的技术手段,其基本原理是通过收集、清洗、整合大量的数据,从数据中提取出目标对象的多维度特征,并根据特征的重要性和时间相关性从中选择最能够反映趋势变化的特征作为预测特征,进而选择合适的预测模型,在基于历史数据完成模型训练和优化基础上,对形成了可靠预测能力的模型导入以上预测特征,实现趋势预测。以上大数据分析基础上的趋势预测,可以应用于各个领域。基于预测能够向用户推荐更有针对性和前瞻性的信息,从而便于用户的决策。例如,在电子商务平台,通过分析历史销售数据、用户搜索和浏览产品数据等,可以预测未来一定时段的用户更为关注的商品,推荐给商户进行生产、库存等方面的计划。在社交网络中,通过分析社交媒体数据、用户行为数据,可以预测用户的兴趣话题,以便进行个性化内容推荐。
科研大数据是在论文、专利、学术会议报告、研究报告等对象中包含的数据信息,包括这些对象的正文内容,也包括作者或发明人、单位、引用记录、被引用记录、摘要、关键词、所属领域、发表时间、期刊名、会议名等标引字段的信息。科研大数据是非常重要的数据资源,可以用于判断某一学科的研究热点、发展趋势和前沿方向,了解了解某一科研机构及其涵盖各个学科的发展状况,揭示科研机构及其研究者之间的学术合作关系网络,实现学术资源的管理和推荐。
为了便于对科研大数据的检索、查阅、摘引、注释、分类、管理以及分析,目前存在一些专门性的数据库和相关工具,例如学术搜索引擎、学术数据分析平台、科研数据可视化工具等。以上数据库和工具提供了关键词搜索、作者搜索、引证关系追踪、排序展示和推荐、数据统计和分析可视化等方面的功能。
但是,以上针对科研大数据的数据库和相关工具,在基于科研大数据实现对象研究能力发展趋势的预测,以及基于以上预测进行推荐的方面,仍然存在比较大的空白。具体来说,一方面,特定对象的研究能力发展趋势,特别是对于某些领域新且发展快的细分学科而言,具有比较强的动态变化性,受到该特定对象在具体细分学科研发能力的内在积累、外在输出以及全学科整体作用的综合影响。传统的指标维度和统计评估方法,主要依靠发表数量、引用和被引用次数等少数现有指标,只能表征特定对象在细分学科的研发能力现状,对未来发展趋势的预测性不足。另一方面,现有的科研数据库和工具在排序展示推荐的功能上,主要是依据用户查询关键词与科研信息的匹配程度、引证和被引证频次、时间因素、科研机构的学术排名等因素计算排名顺序和推荐优先级的,而没有将对象研究能力发展趋势预测纳入排序和推荐的考虑范畴。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于科研大数据预测的可视化推荐***及方法。本发明面向目标对象针对性整合科研大数据,从中提取与所述目标对象的研究能力发展趋势具备时间相关性的预测特征序列;进而基于训练优化的预测模型,获得所述目标对象研究能力发展趋势的量化表征;根据量化表征,在可视化交互界面上显示针对目标对象的推荐信息。
本发明提供的一种基于科研大数据预测的可视化推荐***,其特征在于,包括:
用户查询接口,用于提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集单元,用于在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立模块,用于针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测模块,用于将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐模块,用于根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息。
优选的是,所述预测特征序列建立模块利用多元回归分析方法、主成分分析方法、基于模型的L1正则化方法中的至少一种,判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征。
优选的是,所述预测特征序列建立模块将所述预测特征在时间维度上的分布表示为:/>
其中表示第一预测特征在时间维度上的分布,/>表示第二预测特征在时间维度上的分布,/>表示第一预测特征相对于第二预测特征的权重比例系数在时间维度上的分布。
优选的是,所述量化预测模块的所述预测模型包括序列特征编码器和字段特征编码器,所述序列特征编码器和字段特征编码器均采用ResNet神经网络。
优选的是,所述序列特征编码器表示为,其中/>为所述预测特征序列,/>为该序列特征编码器的ResNet神经网络的全部网络参数构成的参数向量。
优选的是,所述字段特征编码器表示为,其中/>为表示目标对象细分学科研究能力发展趋势的量化表征字段,/>为该字段特征编码器的ResNet神经网络的全部参数构成的参数向量。
优选的是,所述训练集中样本对象的预测特征序列和量化表征字段表示为;其中/>为预测特征序列的序列元素,/>为以上预测特征序列的序列元素各自对应的量化表征字段。
优选的是,量化预测模块在训练所述预测模型的过程中,将训练集随机划分为大小为/>的多个子集/>,其中子集数/>;这里第/>个子集/>;进行多轮训练,每轮训练依次采用一个子集;对于第/>个子集/>,将其中每个/>输入序列特征编码器,每个/>输入字段特征编码器,获得/>的特征编码/>以及/>的特征编码;/>和/>分别表示本轮训练时序列特征编码器和字段特征编码器的参数向量;进而,利用第/>个子集中的每个/>和/>所得的特征编码,形成2组特征编码序列, />;再对以上2组特征编码序列进行线性投影和归一化:/>
这里和/>表示本轮训练时线性投影矩阵的参数/>和/>,函数表示把一个矩阵/>进行归一化;通过以上特征编码序列/>和/>的相似度,构建训练所述预测模型的损失函数如下:
这里,是余弦相似度矩阵/>的第/>个元素,该矩阵/>为:/>其中是预先设定值的超参数;计算损失函数/>相对于序列特征编码器、字段特征编码器以及线性投影矩阵的全部参数/>的梯度:/>
这里表示/>所有参数组成的参数向量;进而,基于该梯度更新下一轮训练中的以上全部参数/>:/>这里, />是学习率;经过多轮训练,输出最优化参数向量/>,得到训练完成的序列特征编码器、字段特征编码器以及线性投影矩阵,即
优选的是,所述量化预测模块将目标对象研究能力发展趋势的量化表征字段模板,输入训练好的字段特征编码器/>并通过参数/>的线性投影形成特征编码序列/>;该量化表征字段模板/>包含优势学科、传统学科、潜力学科、弱势学科的字段;量化预测模块将预测特征序列建立模块建立的所述目标对象的研究能力发展趋势的预测特征序列/>输入训练好的序列特征编码器/>并通过参数/>的线性投影形成特征编码/>;量化预测模块基于以上特征编码/>和特征编码序列相互求内积/>,确定序列/>中与特征编码/>内积值最大的特征编码,则将所述目标对象的研究能力发展趋势识别为特征编码序列/>中该内积值最大的特征编码对应的字段。
本发明所述的一种基于科研大数据预测的可视化推荐方法,其特征在于,包括:
用户查询步骤,提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集步骤,在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立步骤,针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测步骤,将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐步骤,根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息。
本发明的有益效果在于:针对科研大数据,通过提取与目标对象的研究能力发展趋势具备时间相关性的预测特征序列,以及训练和优化预测模型,实现对目标对象研究能力发展趋势的预测表征;其中,通过预测特征序列的提取以及神经网络预测模型的训练优化,能够适应研究能力发展趋势的高度动态变化性,做出准确、量化的预测表征;本发明在科研数据库及其可视化检索分析工具的基本功能之上,能够在以上工具的可视化交互界面上,针对目标对象在一个或多个细分学科上的研究能力发展趋势,显示相应的推荐信息,用户能够基于该推荐信息实现研发合作对象选择、科研信息引证和追踪等应用,从而为用户对科研信息的分析运用提供了带有预测性的指引和参考,提升了以上产品的准确性和易用性。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于科研大数据预测的可视化推荐***结构图;
图2是本发明提供的预测模型结构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1,详细描述本发明提供的一种基于科研大数据预测的可视化推荐***,包括:
用户查询接口101,用于提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集单元102,用于在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立模块103,用于针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测模块104,用于将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐模块105,用于根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息。
具体来说,用户查询接口101在科研数据库及其可视化检索分析工具的基本功能之上,通过可视化交互界面接收用户输入的查询条件。用户输入的查询条件包括:(1)关键词:用户可以输入一个或多个关键词来描述自己感兴趣的领域或主题,关键词可以是具体的科学术语、技术名词等。(2)自然语言语段:随着生成式大模型等自然语言解析技术的成熟,可以支持用户编辑输入一段符合自然语言习惯的语段,例如“请帮助我查找新能源汽车领域中与固态电池技术有关的专利和论文资料,特别是有助于在寒冷天气等特殊环境下保障电池蓄能供能的电池材料、结构设计和电路控制技术”。(3)学科领域:用户可以输入或者选择一个或多个相对宽泛的学科领域作为查询条件,例如人工智能、移动网络通信、人体工程等。用户也可以搭配时间范围、地域范围、期刊或会议级别范围等作为辅助的查询条件。用户查询接口101解析以上查询条件,形成查询请求数据。例如,用户查询接口101可以逻辑组合关键词、学科领域等查询条件,以及对关键词、学科领域等查询条件进行同义词扩充,形成符合特定逻辑顺序和格式规则的查询请求数据;用户查询接口101也可以解析自然语言语段,提取带有逻辑组合的关键词序列,进而形成符合特定逻辑顺序和格式规则的查询请求数据;用户查询接口101也可以进而按照辅助的查询条件,限定被查询的科研大数据的数据范围。
数据检索汇集单元102用于在存储科研大数据的数据库中利用所述查询请求数据进行检索。对于检索命中的科研数据信息,数据检索汇集单元102以目标对象为单位汇集,形成与目标对象相对应的对象数据集。这里的目标对象可以是单位和个人,例如某个高校、科研机构、企业、研究者等。针对检索命中的科研数据信息,根据科研数据信息的作者、单位、专利申请人、发明人等标引字段,从中筛选出该目标对象在一个或多个细分学科上的科研数据信息,汇集到与目标对象相对应的同一个对象数据集之中。对象数据集涵盖了该目标对象在预设的时间窗口(例如,视细分学科发展速度,可以预设最近10年、8年、5年等不同长度的时间窗口,也可以将用户限定的时间范围作为时间窗口)内发表的论文、专利、学术会议报告、研究报告等科研数据信息。数据检索汇集单元102对于原始的科研数据信息进行去重、清洗、格式统一化等必要的整合处理。
预测特征序列建立模块103用于针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征。举例来说,统计对象数据集所获得的所述目标对象的分布特征包括:(1)AR论文发表数量,AR 论文发表数量是该目标对象的每个细分学科在期刊所发表的文献中,文献类型为学术性论文(Article)和综述评论性论文(Review)的论文数量,用于反映目标对象学术性成果的数量;(2)学科论文占全球份额,即属于每个细分学科的AR论文数量与全球相同学科的AR论文数量的比值;(3)学科被引频次,即每个细分学科的AR论文被引用的总次数,用于显示目标对象在学术交流中的影响力大小;(4)学科被引频次增长率,即针对两个统计的时间段[t1,t2]和[t3,t4](t3≥t2),目标对象在[t3,t4]期间的细分学科AR论文被引频次相比于在[t1,t2] 期间的细分学科AR论文被引频次的增长量与[t3,t4]期间的细分学科AR论文被引频次的比值;(5)AR论文相关的其它指标,如合作单位数量等;(6)科研项目数量,即该目标对象的每个细分学科承担的各类公开科研项目数量;(7)目标对象在每个细分学科的专利申请数量;(8)目标对象在每个细分学科的专利被引证频次;(9)目标对象在每个细分学科的专利相关的其它指标,如合作申请专利数量等。
预测特征序列建立模块103判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征。为了评估上述分布特征与目标对象的研究能力发展趋势的时间相关性强度,预测特征序列建立模块103可以采用的判断方法包括以下至少一种:(1)多元回归分析方法:多元回归分析方法可以用来建立分布特征与所述目标对象的研究能力发展趋势之间随时间变化的线性关系模型;通过将多个类型的分布特征作为自变量,研究能力发展趋势作为因变量,可以估计随时间推移各个分布对研究能力发展趋势的影响程度,并进行统计显著性检验;(2)主成分分析方法:通过降维方法将多个类型的分布特征转化为少数几个主成分特征,然后,使用这些主成分特征与所述目标对象的研究能力发展趋势进行时间相关性分析,可以使用神经网络模型,将各时间阶段的主成分特征作为输入,研究能力发展趋势作为输出,从而利用神经网络模型来拟合随时间推移主成分特征与研究能力发展趋势之间的关系;(3)基于模型的L1正则化方法:可以训练一个线性模型,并使用L1正则化来约束模型的稀疏性,通过该模型通过特征权重的赋值调试,筛选出随时间推移对所述目标对象的研究能力发展趋势具有重要影响的分布特征,如果在模型训练过程中,某个分布特征的权重降低为0,那么可以认为该分布特征对于目标对象的研究能力发展趋势的预测没有贡献,可以将其排除,通过多轮排除,最终确定分布特征与目标对象的研究能力发展趋势的时间相关性。
为了方便介绍,在下文中,以学科论文占全球份额、学科被引频次增长率分别作为与所述目标对象的研究能力发展趋势具备时间相关性的预测特征;其中学科论文占全球份额作为第一预测特征,学科被引频次增长率作为第二预测特征,以此为例进行阐述。
预测特征序列建立模块103根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列。具体来说,所述预测特征在时间维度上的分布表示为,具体为:
其中/>表示学科论文占全球份额作为第一预测特征在时间维度上的分布,/>表示学科被引频次增长率作为第二预测特征在时间维度上的分布,/>表示第一预测特征相对于第二预测特征的权重比例系数(该系数取值范围0-1)在时间维度上的分布。预测特征序列建立模块103再基于所述预测特征在时间维度上的分布/>,通过取样建立反映所述目标对象的研究能力发展趋势的预测特征序列/>,其序列元素/>是按照取样时间点/>的编号顺序从截取的取值。
量化预测模块104包括一个训练优化后的预测模型,将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段。所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型。
具体来说,参见图2,该预测模型包括序列特征编码器和字段特征编码器,这两个编码器均采用ResNet形式的神经网络。以训练集中包含的样本对象(该样本对象是作为样本的高校、科研机构、企业、研究者等单位和个人)的预测特征序列和量化表征字段对以上序列特征编码器和字段特征编码器执行训练优化。训练后,所述序列特征编码器能够产生预测特征序列的特征编码,所述字段特征编码器获得量化表征字段的特征编码。
更具体来说,所述序列特征编码器表示为,其中/>为所述预测特征序列,为该序列特征编码器的ResNet神经网络的全部网络参数构成的参数向量。字段特征编码器表示为/>,其中/>为表示目标对象细分学科研究能力发展趋势的量化表征字段,/>为该字段特征编码器的ResNet神经网络的全部参数构成的参数向量。
所述训练集中样本对象的预测特征序列和量化表征字段表示为;其中/>为预测特征序列的序列元素,为以上预测特征序列的序列元素各自对应的量化表征字段,具体来说,量化表征字段可分为优势学科、传统学科、潜力学科、弱势学科等字段。优势学科表明该目标对象细分学科的学科论文份额及引文增长率都处于较高水平;传统学科表明该目标对象细分学科的论文所占份额较高,引文增长率较低;潜力学科表明该目标对象细分学科的论文所占份额较低,引文增长率较高;弱势学科表明该目标对象细分学科的论文占份额及引文增长率都处较低水平,可见通过以上字段表征了目标对象细分学科的研究能力发展趋势。
并且,在训练所述预测模型的过程中,将训练集随机划分为大小为N的多个子集/>,其中/>是子集数;这里第/>个子集。进行多轮训练,每轮训练依次采用一个子集;对于第/>个子集/>,将其中每个/>输入序列特征编码器,每个/>输入字段特征编码器,获得/>的特征编码/>以及/>的特征编码/>;/>和/>分别表示本轮训练时序列特征编码器和字段特征编码器的参数向量;进而,利用第/>个子集中的每个/>所得的特征编码,形成2组特征编码序列/>;再对以上2组特征编码序列进行线性投影和归一化:/>
这里和/>表示本轮训练时线性投影矩阵的参数/>和/>,函数表示把一个矩阵/>进行归一化,即该矩阵每一行的值除以该行所有元素平方和的平方根。通过以上特征编码序列/>和/>的相似度,构建训练所述预测模型的损失函数如下:/>
这里,是余弦相似度矩阵/>的第/>个元素,该矩阵/>为:/>
其中是预先设定值的超参数;计算损失函数/>相对于序列特征编码器、字段特征编码器以及线性投影矩阵的全部参数/>的梯度:/>
这里表示/>所有参数组成的参数向量;进而,基于该梯度更新下一轮训练中的以上全部参数/>:/>这里, />是学习率;经过多轮训练,输出最优化参数向量/>,得到训练完成的序列特征编码器、字段特征编码器以及线性投影矩阵,即/>
完成对所述预测模型的训练之后,所述量化预测模块104将目标对象研究能力发 展趋势的量化表征字段模板,输入训练好的字段特征编码器并 通过参数的线性投影形成特征编码序列;该量化表征字段模板包含以上优势学科、传统学科、潜力学科、弱势学科等字段。量化预测模块 104再将预测特征序列建立模块103建立的所述目标对象的研究能力发展趋势的预测特征 序列输入训练好的序列特征编码器并通过参数的线性投影形成特征编码。 量化预测模块104基于以上特征编码和特征编码序列相互求内积,确定序列中中与特征编码内积值最 大的特征编码,则将所述目标对象的研究能力发展趋势的预测特征序列识别为该内积值 最大的特征编码对应的字段,即将所述目标对象的研究能力发展趋势标注为优势学科、传 统学科、潜力学科、弱势学科等量化表征字段的其中之一。
从而,可视化推荐模块105用于根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息。具体而言,可以根据目标对象的优势学科、传统学科、潜力学科、弱势学科等量化表征字段,对应转换为不同的推荐级别,作为所述推荐信息,并且在该可视化交互界面上,在目标对象的显示位置处,同步显示推荐信息。用户能够基于该推荐信息实现研发合作对象选择、科研信息引证和追踪等应用,从而为用户对科研信息的分析运用提供了带有预测性的指引和参考。
本发明进而提供了一种基于科研大数据预测的可视化推荐方法,其特征在于,包括:
用户查询步骤,提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集步骤,在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立步骤,针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测步骤,将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐步骤,根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息。
本发明的有益效果在于:针对科研大数据,通过提取与目标对象的研究能力发展趋势具备时间相关性的预测特征序列,以及训练和优化预测模型,实现对目标对象研究能力发展趋势的预测表征;其中,通过预测特征序列的提取以及神经网络预测模型的训练优化,能够适应研究能力发展趋势的高度动态变化性,做出准确、量化的预测表征;本发明在科研数据库及其可视化检索分析工具的基本功能之上,能够在以上工具的可视化交互界面上,针对目标对象在一个或多个细分学科上的研究能力发展趋势,显示相应的推荐信息,用户能够基于该推荐信息实现研发合作对象选择、科研信息引证和追踪等应用,从而为用户对科研信息的分析运用提供了带有预测性的指引和参考,提升了以上产品的准确性和易用性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于科研大数据预测的可视化推荐***,其特征在于,包括:
用户查询接口,用于提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集单元,用于在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立模块,用于针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测模块,用于将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐模块,用于根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息;
其中,将所述预测特征在时间维度上的分布表示为
;其中/>表示第一预测特征在时间维度上的分布,表示第二预测特征在时间维度上的分布,/>表示第一预测特征相对于第二预测特征的权重比例系数在时间维度上的分布;
所述训练集中样本对象的预测特征序列和量化表征字段表示为;其中/>、/>为预测特征序列的序列元素,/>为以上预测特征序列的序列元素各自对应的量化表征字段;量化预测模块在训练所述预测模型的过程中,将训练集随机划分为大小为N的多个子集/>,其中子集数/>;这里第/>个子集/>;进行多轮训练,每轮训练依次采用一个子集;对于第/>个子集/>,将其中每个/>输入序列特征编码器,每个/>输入字段特征编码器,获得/>的特征编码/>以及/>的特征编码/>;/>和/>分别表示本轮训练时序列特征编码器和字段特征编码器的参数向量;进而,利用第/>个子集中的每个/>和/>所得的特征编码,形成2组特征编码序列/>;再对以上2组特征编码序列进行线性投影和归一化:/> 这里/>和/>表示本轮训练时线性投影矩阵的参数/>和/>,函数/>表示把一个矩阵/>进行归一化;通过以上特征编码序列/>和/>的相似度,构建训练所述预测模型的损失函数如下:/>这里,/>是余弦相似度矩阵/>的第/>个元素,该矩阵/>为:/>其中/>是预先设定值的超参数;计算损失函数/>相对于序列特征编码器、字段特征编码器以及线性投影矩阵的全部参数的/>梯度:/>这里/>表示/>所有参数组成的参数向量;进而,基于该梯度更新下一轮训练中的以上全部参数/>
这里, />是学习率;经过多轮训练,输出最优化参数向量/>,得到训练完成的序列特征编码器、字段特征编码器以及线性投影矩阵,即/>
2.根据权利要求1所述的基于科研大数据预测的可视化推荐***,其特征在于,其中,所述预测特征序列建立模块利用多元回归分析方法、主成分分析方法、基于模型的L1正则化方法中的至少一种,判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征。
3.根据权利要求1所述的基于科研大数据预测的可视化推荐***,其特征在于,所述量化预测模块的所述预测模型包括序列特征编码器和字段特征编码器,所述序列特征编码器和字段特征编码器均采用ResNet神经网络。
4.根据权利要求1所述的基于科研大数据预测的可视化推荐***,其特征在于,所述序列特征编码器表示为,其中/>为所述预测特征序列,/>为该序列特征编码器的ResNet神经网络的全部网络参数构成的参数向量;所述字段特征编码器表示为/>,其中/>为表示目标对象细分学科研究能力发展趋势的量化表征字段,/>为该字段特征编码器的ResNet神经网络的全部参数构成的参数向量。
5.根据权利要求1所述的基于科研大数据预测的可视化推荐***,其特征在于,所述量化预测模块将目标对象研究能力发展趋势的量化表征字段模板,输入训练好的字段特征编码器/>并通过参数/>的线性投影形成特征编码序列;该量化表征字段模板/>包含优势学科、传统学科、潜力学科、弱势学科的字段;量化预测模块将预测特征序列建立模块建立的所述目标对象的研究能力发展趋势的预测特征序列/>输入训练好的序列特征编码器/>并通过参数/>的线性投影形成特征编码/>;量化预测模块基于以上特征编码/>和特征编码序列相互求内积/>,确定序列/>中与特征编码/>内积值最大的特征编码,则将所述目标对象的研究能力发展趋势识别为特征编码序列/>中该内积值最大的特征编码对应的字段。
6.一种基于科研大数据预测的可视化推荐方法,其特征在于,包括:
用户查询步骤,提供可视化交互界面,通过所述可视化交互界面接收用户输入的查询条件,解析所述查询条件形成查询请求数据;
数据检索汇集步骤,在存储科研大数据的数据库中利用所述查询请求数据进行检索,并以目标对象为单位汇集检索命中的科研数据信息,形成与目标对象相对应的对象数据集,所述对象数据集包含目标对象在一个或多个细分学科上的科研数据信息;
预测特征序列建立步骤,针对所述目标对象,通过统计对应的对象数据集中包含的科研数据信息,获得所述目标对象在一个或多个细分学科的分布特征;并判断所述分布特征与所述目标对象的研究能力发展趋势的时间相关性,根据时间相关性强度确定所述目标对象的研究能力发展趋势的预测特征;进而根据所述预测特征在时间维度上的分布,建立所述目标对象的研究能力发展趋势的预测特征序列;
量化预测步骤,将所述目标对象的预测特征序列输入训练优化后的预测模型,获得所述目标对象研究能力发展趋势的量化表征字段;所述预测模型是以训练集中包含的样本对象的预测特征序列和量化表征字段执行训练优化后获得的神经网络模型;
可视化推荐步骤,根据所述目标对象研究能力发展趋势的量化表征字段,在可视化交互界面上显示针对目标对象的推荐信息;
其中,将所述预测特征在时间维度上的分布表示为
其中表示第一预测特征在时间维度上的分布,/>表示第二预测特征在时间维度上的分布,/>表示第一预测特征相对于第二预测特征的权重比例系数在时间维度上的分布;
所述训练集中样本对象的预测特征序列和量化表征字段表示为;其中/>、/>为预测特征序列的序列元素,/>为以上预测特征序列的序列元素各自对应的量化表征字段;量化预测步骤在训练所述预测模型的过程中,将训练集随机划分为大小为N的多个子集/>,其中子集数/>;这里第/>个子集/>;进行多轮训练,每轮训练依次采用一个子集;对于第/>个子集/>,将其中每个/>输入序列特征编码器,每个/>输入字段特征编码器,获得/>的特征编码/>以及的特征编码/>;/>和/>分别表示本轮训练时序列特征编码器和字段特征编码器的参数向量;进而,利用第b个子集中的每个/>和/>所得的特征编码,形成2组特征编码序列/>,/>;再对以上2组特征编码序列进行线性投影和归一化:/> 这里/>和/>表示本轮训练时线性投影矩阵的参数/>和/>,函数/>表示把一个矩阵/>进行归一化;通过以上特征编码序列/>和/>的相似度,构建训练所述预测模型的损失函数如下:/>这里,是余弦相似度矩阵/>的第/>个元素,该矩阵/>为:/>其中/>是预先设定值的超参数;计算损失函数/>相对于序列特征编码器、字段特征编码器以及线性投影矩阵的全部参数的/>梯度:/>这里/>表示/>所有参数组成的参数向量;进而,基于该梯度更新下一轮训练中的以上全部参数/>:/>这里, />是学习率;经过多轮训练,输出最优化参数向量/>,得到训练完成的序列特征编码器、字段特征编码器以及线性投影矩阵,即/>
CN202410039055.7A 2024-01-11 2024-01-11 基于科研大数据预测的可视化推荐***及方法 Active CN117556118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410039055.7A CN117556118B (zh) 2024-01-11 2024-01-11 基于科研大数据预测的可视化推荐***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410039055.7A CN117556118B (zh) 2024-01-11 2024-01-11 基于科研大数据预测的可视化推荐***及方法

Publications (2)

Publication Number Publication Date
CN117556118A CN117556118A (zh) 2024-02-13
CN117556118B true CN117556118B (zh) 2024-04-16

Family

ID=89818960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410039055.7A Active CN117556118B (zh) 2024-01-11 2024-01-11 基于科研大数据预测的可视化推荐***及方法

Country Status (1)

Country Link
CN (1) CN117556118B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3493082A1 (en) * 2017-11-29 2019-06-05 Oke Poland Spolka z o.o. A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN113239071A (zh) * 2021-07-08 2021-08-10 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及***
CN113343125A (zh) * 2021-06-30 2021-09-03 南京大学 一种面向学术精准推荐的异质科研信息集成方法及***
CN117171801A (zh) * 2023-11-03 2023-12-05 中国科学技术信息研究所 一种隐私保护强度可调的高效空间查询方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176330B2 (en) * 2019-07-22 2021-11-16 Advanced New Technologies Co., Ltd. Generating recommendation information
US11893069B2 (en) * 2020-03-11 2024-02-06 Jencir Lee Platform, method, and system for a search engine of time series data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3493082A1 (en) * 2017-11-29 2019-06-05 Oke Poland Spolka z o.o. A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN113343125A (zh) * 2021-06-30 2021-09-03 南京大学 一种面向学术精准推荐的异质科研信息集成方法及***
CN113239071A (zh) * 2021-07-08 2021-08-10 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及***
CN117171801A (zh) * 2023-11-03 2023-12-05 中国科学技术信息研究所 一种隐私保护强度可调的高效空间查询方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
基于动态数据整合的学者影响力h 指数趋势监测与分析;张琳 等;《图书情报工作》;20170930;第1-5部分 *
基于时间序列模型的高水平学科预测研究;王雪;;情报杂志;20190521(第06期);全文 *
基于机器学习的细粒度空气质量时间预测器;曹鑫磊;冯锋;;环境保护科学;20200420(第02期);全文 *
学者影响力预测研究综述;夏琬钧 等;《情报理论与实践》;20200731;第2-3部分 *
期刊大数据与学科发展测度研究――以海洋科学期刊研究为例;李雪;赵一方;蔡仁翰;崔晓健;;科技与出版;20170108(第01期);全文 *

Also Published As

Publication number Publication date
CN117556118A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐***及其方法
AU2017200585A1 (en) System and engine for seeded clustering of news events
US20130218644A1 (en) Determination of expertise authority
CN103838833A (zh) 基于相关词语语义分析的全文检索***
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐***
CN107357793A (zh) 信息推荐方法和装置
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN116848490A (zh) 使用模型相交进行文档分析
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN113407729A (zh) 一种面向司法的个性化案例推荐方法及***
CN112989215B (zh) 一种基于稀疏用户行为数据的知识图谱增强的推荐***
CN101000624A (zh) 实现数据挖掘模型转换和应用的方法、***及装置
CN112231593A (zh) 一种金融资讯智能推荐***
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN117668205B (zh) 智慧物流客服处理方法、***、设备及存储介质
Li Research on extraction of useful tourism online reviews based on multimodal feature fusion
El-Kishky et al. k NN-Embed: Locally Smoothed Embedding Mixtures for Multi-interest Candidate Retrieval
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
CN114065063A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
CN117556118B (zh) 基于科研大数据预测的可视化推荐***及方法
Hassan et al. Sampling technique selection framework for knowledge discovery
CN115544211A (zh) 一种对外贸易涉外法律索引与行业风险评估的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant