CN111046167A - 科技情报分析中结合时滞计算的学科主题演化推理方法 - Google Patents

科技情报分析中结合时滞计算的学科主题演化推理方法 Download PDF

Info

Publication number
CN111046167A
CN111046167A CN201911081064.8A CN201911081064A CN111046167A CN 111046167 A CN111046167 A CN 111046167A CN 201911081064 A CN201911081064 A CN 201911081064A CN 111046167 A CN111046167 A CN 111046167A
Authority
CN
China
Prior art keywords
subject
scientific
time lag
evolution
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911081064.8A
Other languages
English (en)
Other versions
CN111046167B (zh
Inventor
陆伟
杨金庆
魏雨晗
吴乐艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911081064.8A priority Critical patent/CN111046167B/zh
Publication of CN111046167A publication Critical patent/CN111046167A/zh
Application granted granted Critical
Publication of CN111046167B publication Critical patent/CN111046167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技情报分析中结合时滞计算的学科主题演化推理方法,首先获取多源数据,形成多源科技文献数据集;从多源数据融合的角度,利用LDA模型对分布广泛、种类繁多的学科文本抽取学科主题;采用匈牙利算法实现相似矩阵二分图匹配,寻求最优匹配组合,以匹配结果构建假设,拟合线性方程,进而计算多源科技文献时滞程度;结合学科主题相似度与时滞程度融合多源数据的学科主题,构建学科主题演化过程,跟踪学科主题演化情况。本发明能够通过计算的多源数据时滞程度融合不同来源数据的主题,改善单一数据源主题演化的缺陷,增强主题演化趋势的准确性。

Description

科技情报分析中结合时滞计算的学科主题演化推理方法
技术领域
本发明属于计算机技术领域,涉及一种科技情报分析方法,具体涉及一种科技情报分析中融合多源数据时滞计算的学科主题演化推理方法。
背景技术
学科主题演化是指以主题为表征的学科主题在时间维度的演化变换过程,体现一个学科的主题的***、聚合、延续的演化机理。学科主题的生命周期也将在学科主题演化过程中呈现。学科主题演化是探测学科新兴主题、研究热点、研究前沿的基础,是降低科研人员科技情报分析强度的重要手段。研究者通过计算多源数据的时滞程度对多源数据进行融合,并对某一领域的科研主题的演化过程进行可视化分析,探究领域学科发展的机理,有助于把握学科发展趋势。
现有的学科主题演化推理方法,主要是分析多源科技文献间发展趋势的相关性,融合相同时间跨度内的多源数据,再汇聚、识别学科新兴主题。因此多源科技文献融合仍处于前期阶段。当前的一些融合策略仅将相同时间跨度内的科技文献与特定分析目标相融合,忽略了科技文献间存在时滞性。于是,需要一种能够分析计算不同种类科技文献之间时滞程度的演化学科主题方法。
发明内容
为了解决上述技术问题,本发明提供了一种科技情报分析中融合多源数据时滞计算的学科主题演化推理方法,融合多种数据源进行抽取学科主题,生成学科主题演化过程,并通过计算主题相似度及多源数据时滞程度来融合不同来源数据的主题。能从多来源融合学科主题,提升了主题演化的准确性,完善了单一来源的缺陷。
本发明所采用的技术方案是:一种科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于,包括以下步骤:
步骤1:输入来源多样的学科数据文档;
步骤2:将上述文档以年为单位分别抽取主题;
步骤3:以年为单位计算上述从来源多样的学科数据文档中抽取的主题间相似度;
步骤4:通过中位数确定阈值,生成相似矩阵,寻求相似矩阵二分图最优匹配组合,构建线性方程模型并拟合计算时滞程度;
步骤5:根据步骤4计算的时滞程度,并结合步骤3计算的相似度融合多源数据的学科主题;融合主要立足于时滞计算结果,选择合理的学科主题融合时间点,将学科主题知识关联强度超过阈值的视为同一主题消除重复,统一表示。融入时滞计算的多源科技文献融合策略包括两种方式:其一,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合。其二,以时滞程度为归类标准,直接汇聚不同年份多源科技文献数据集,然后识别学科主题。
步骤6:从时间维度,将融合多源数据的学科主题进行演化推理,获得演化趋势。
本发明融合多种数据源进行抽取学科主题,计算多源数据间的时滞差异,生成学科主题演化过程,提高主题演化的可靠程度,有助于探究领域学科发展的机理,把握学科发展趋势。
附图说明
图1为本发明实施例流程图;
图2为本发明具体实施过程示意图;
图3为本发明时滞计算推演图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种科技情报分析中结合时滞计算的学科主题演化推理方法,包括以下步骤:
步骤1:输入来源多样的学科数据文档;
本实施例中,多源数据是指任何承载学科领域信息的文档,包括但不限于学术论文、基金文档、专利文本、会议资料。
步骤2:将上述文档以年为单位分别抽取主题;
本实施例中,利用LDA主题模型主题抽取方法将上述多源数据文档进行主题的抽取。
步骤3:以年为单位计算上述从来源多样的学科数据文档中抽取的主题间相似度;
本实施例中,从主题共词强度角度,构建学科主题相似度MJC(q,r)计算方法,MJC(q,r)为:
MJC(q,r)=∑1/(-lgαq·βr)Where wq=wr
式中,αq表示主题q中主题词wq的概率权重,βr表示主题r中主题词wr的概率权重;
以主题模型抽取主题的主题词概率为权重,计算学科主题共词强度,计算步骤2中抽取的主题相似度。
步骤4:通过中位数确定阈值,生成相似矩阵,寻求相似矩阵二分图最优匹配组合,构建线性方程模型并拟合计算时滞程度;
本实施例中,利用匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合,采取回归分析的思想,通过计算点到直线距离最小,拟合线性方程y=x+b,计算不同科技文献间的时滞程度;其中,如果x表示一种科技文献的年份,y表示另一种科技文献的年份,普遍存在连续多年y-x=b,那么b表示两种科技文献之间存在的时滞程度;同时考虑到年份值为整数,且各年份相似矩阵为方形对称矩阵,结合理论分析确定线性方程模型为:y=x+b,且b为整数。具体推演如图3。
步骤5:根据步骤4计算的时滞程度,并结合步骤3计算的相似度融合多源数据的学科主题;
本实施例中,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合;融合主要立足于时滞计算结果,选择合理的学科主题融合时间点,将学科主题知识关联强度超过阈值的视为同一主题消除重复,统一表示。融入时滞计算的多源科技文献融合策略包括两种方式:其一,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合。其二,以时滞程度为归类标准,直接汇聚不同年份多源科技文献数据集,然后识别学科主题。
步骤6:从时间维度,将融合多源数据的学科主题进行演化推理,获得演化趋势;
应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于,包括以下步骤:
步骤1:输入来源多样的学科数据文档;
步骤2:将上述文档以年为单位分别抽取主题;
步骤3:以年为单位计算上述从来源多样的学科数据文档中抽取的主题间相似度;
步骤4:通过中位数确定阈值,生成相似矩阵,寻求相似矩阵二分图最优匹配组合,构建线性方程模型并拟合计算时滞程度;
步骤5:根据步骤4计算的时滞程度,并结合步骤3计算的相似度进行多源数据学科主题融合;
步骤6:从时间维度,将融合多源数据的学科主题进行演化推理,获得演化趋势。
2.根据权利要求1所述的科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于:步骤1中,所述来源多样的学科数据文档包括学术论文、基金文档、专利文本、会议资料。
3.根据权利要求1所述的科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于:步骤2中,利用LDA主题模型主题抽取方法将上述多源数据文档进行主题的抽取。
4.根据权利要求1所述的科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于:步骤3中,从主题共词强度角度,构建学科主题相似度MJC(q,r)计算方法,MJC(q,r)为:
MJC(q,r)=∑1/(-lgαq·βr)Where wq=wr
式中,αq表示主题q中主题词wq的概率权重,βr表示主题r中主题词wr的概率权重;
以主题模型抽取主题的主题词概率为权重,计算学科主题共词强度,计算步骤2中抽取的主题相似度。
5.根据权利要求1所述的科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于:步骤4中,利用匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合,采取回归分析的思想,通过计算点到直线距离最小,拟合线性方程y=x+b,计算不同科技文献间的时滞程度;其中,如果x表示一种科技文献的年份,y表示另一种科技文献的年份,普遍存在连续多年y-x=b,那么b表示两种科技文献之间存在的时滞程度;同时考虑到年份值为整数,且各年份相似矩阵为方形对称矩阵,结合理论分析确定线性方程模型为:y=x+b,且b为整数。
6.根据权利要求1所述的科技情报分析中结合时滞计算的学科主题演化推理方法,其特征在于:步骤5中,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合;
融合立足于时滞计算结果,选择学科主题融合时间点,将学科主题知识关联强度超过阈值的视为同一主题消除重复,统一表示;融入时滞计算的多源科技文献融合策略包括两种方式:其一,从学科主题知识单元层面,根据学科主题知识关联强度设定关联强度阈值,以此对不同数据源的学科主题进行融合;其二,以时滞程度为归类标准,直接汇聚不同年份多源科技文献数据集,然后识别学科主题。
CN201911081064.8A 2019-11-07 2019-11-07 科技情报分析中结合时滞计算的学科主题演化推理方法 Active CN111046167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911081064.8A CN111046167B (zh) 2019-11-07 2019-11-07 科技情报分析中结合时滞计算的学科主题演化推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911081064.8A CN111046167B (zh) 2019-11-07 2019-11-07 科技情报分析中结合时滞计算的学科主题演化推理方法

Publications (2)

Publication Number Publication Date
CN111046167A true CN111046167A (zh) 2020-04-21
CN111046167B CN111046167B (zh) 2021-04-16

Family

ID=70232860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911081064.8A Active CN111046167B (zh) 2019-11-07 2019-11-07 科技情报分析中结合时滞计算的学科主题演化推理方法

Country Status (1)

Country Link
CN (1) CN111046167B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417837A (zh) * 2022-01-19 2022-04-29 合肥工业大学 基于主题演化趋势的科技大数据流行性及前沿性度量方法
CN117787250A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种材料与化工行业科技情报分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及***
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置
US20170206258A1 (en) * 2016-01-19 2017-07-20 International Business Machines Corporation Method for visualizing topic evolution based on time and geography

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708153A (zh) * 2012-04-18 2012-10-03 中国信息安全测评中心 自适应在线社交网络热点话题发现预测方法及***
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及***
US20170206258A1 (en) * 2016-01-19 2017-07-20 International Business Machines Corporation Method for visualizing topic evolution based on time and geography
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUAN PERALTA DONATE等: "Evolutionary optimization of sparsely connected and time-lagged neural networks for time series forecasting", 《APPLIED SOFT COMPUTING》 *
关鹏等: "基于LDA主题模型和生命周期理论的科学文献主题挖掘", 《情报学报》 *
刘自强等: "面向研究前沿预测的主题扩散演化滞后效应研究", 《情报学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417837A (zh) * 2022-01-19 2022-04-29 合肥工业大学 基于主题演化趋势的科技大数据流行性及前沿性度量方法
CN114417837B (zh) * 2022-01-19 2024-02-13 合肥工业大学 基于主题演化趋势的科技大数据流行性及前沿性度量方法
CN117787250A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种材料与化工行业科技情报分析方法
CN117787250B (zh) * 2024-02-23 2024-05-10 北京大学深圳研究生院 一种材料与化工行业科技情报分析方法

Also Published As

Publication number Publication date
CN111046167B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
Zhou et al. Sentiment analysis of Chinese microblog based on stacked bidirectional LSTM
Jain et al. An intelligent cognitive-inspired computing with big data analytics framework for sentiment analysis and classification
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
Zhou et al. Recurrent convolutional neural network for answer selection in community question answering
Araque et al. An approach for radicalization detection based on emotion signals and semantic similarity
Aurpa et al. Abusive Bangla comments detection on Facebook using transformer-based deep learning models
Iglesias et al. Web news mining in an evolving framework
Govindarajan et al. RETRACTED: an optimization based feature extraction and machine learning techniques for named entity identification
CN111046167B (zh) 科技情报分析中结合时滞计算的学科主题演化推理方法
Rakshitha et al. Sentimental analysis of Indian regional languages on social media
Yang et al. A topic drift model for authorship attribution
Wang et al. Semantic relation extraction aware of N-gram features from unstructured biomedical text
CN108694176B (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
Mbarek et al. An across online social networks profile building approach: Application to suicidal ideation detection
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
Hu et al. Diversified semantic attention model for fine-grained entity typing
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
Padmaja et al. Twitter sentiment analysis using adaptive neuro-fuzzy inference system with genetic algorithm
Obagbuwa et al. Supervised machine learning models for depression sentiment analysis
Das et al. A hybrid fusion-based machine learning framework to improve sentiment prediction of assamese in low resource setting
Lin et al. A continuous learning method for recognizing named entities by integrating domain contextual relevance measurement and Web farming mode of Web intelligence
Kaur et al. Role of Artificial Intelligence in Cyberbullying and Cyberhate Detection
Hu et al. SEGCN-DCR: A syntax-enhanced event detection framework with decoupled classification rebalance
Fouadi et al. Sentiment Analysis of Arabic Comments Using Machine Learning and Deep Learning Model
Jiang Study on Identification of Subjective Sentences in Product Reviews Based on Weekly Supervised Topic Model.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant