CN113515644A - 一种基于知识图谱的医院科技画像方法和*** - Google Patents

一种基于知识图谱的医院科技画像方法和*** Download PDF

Info

Publication number
CN113515644A
CN113515644A CN202110575181.0A CN202110575181A CN113515644A CN 113515644 A CN113515644 A CN 113515644A CN 202110575181 A CN202110575181 A CN 202110575181A CN 113515644 A CN113515644 A CN 113515644A
Authority
CN
China
Prior art keywords
hospital
label
scientific
data
science
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110575181.0A
Other languages
English (en)
Other versions
CN113515644B (zh
Inventor
王辰
池慧
安新颖
单连慧
钟华
胥美美
范少萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Medical Sciences CAMS
Institute of Medical Information CAMS
Original Assignee
Chinese Academy of Medical Sciences CAMS
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Medical Sciences CAMS, Institute of Medical Information CAMS filed Critical Chinese Academy of Medical Sciences CAMS
Priority to CN202110575181.0A priority Critical patent/CN113515644B/zh
Publication of CN113515644A publication Critical patent/CN113515644A/zh
Application granted granted Critical
Publication of CN113515644B publication Critical patent/CN113515644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于知识图谱的医院科技画像方法和***,所述方法包括:建立医院科技的评价指标体系和各个评价指标的权重;采集获取医院科技活动相关的多源高维数据;构建医院科技知识图谱;进行基于知识图谱的医院科技画像。本发明通过对医院科技画像,客观地描绘出医院科技水平,进一步挖掘出医院的科技优势和潜力,提高了科技评价的精确度和可用性。

Description

一种基于知识图谱的医院科技画像方法和***
技术领域
本发明涉及计算机技术领域,具体地,涉及一种基于知识图谱的医院科技画像方法和***。
背景技术
科技评价是科技管理工作的重要组成部分,其目的都是通过科技评价促进科技产出质科质量的提升,国内外已开展了多种不同形式的科技评价实践活动。目前科技评价主要以大学和科研机构为对象,针对医学类科研机构的评价开展较少。医院的科技评价尤其独有的特点,医院是典型的知识密集性组织,集医疗、教学、科研于一体,由于医院类型多样,数量庞大,评价标准复杂,对医院的评价一直是科技管理和学科建设中的难题。如何对一个医院的科技影响力做出科学、客观、合理的评价是一个需要解决的问题。
目前针对医院的评价存在的指标单一、评价方式简单、医院的科技能力挖掘不够深入的问题。
发明内容
鉴于现有技术中的上述缺陷或不足,本发明的目的是提供一种基于知识图谱的医院科技画像方法和***。该方法和***建立了针对医院的多层科技评价体系,采用优化的画像技术客观的描绘出医院的科技含量,并进一步挖掘出医院的科技优势和潜力,提高了科技评价的精确度和可用性。
为了解决上述问题,第一方面,本发明提供了一种基于知识图谱的医院科技画像方法,所述方法包括:
建立医院科技的评价指标体系和各个评价指标的权重;
获取医院科技相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中;
从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共303种概念和21种语义关系,然后将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;
将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系。
第二方面,本发明提供了一种基于知识图谱的医院科技画像***,所述***包括:
指标单元,用于建立医院科技的评价指标体系和各个评价指标的权重;
数据采集单元,用于获取医院科技相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中,从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
知识图谱单元,用于将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共303种概念和21种语义关系。然后将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
画像单元,用于对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请实施例描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于:
所述计算机程序被处理器执行时实现如本申请实施例描述的方法。
附图说明
以下将结合附图对本发明的实施方案进行描述,其中
图1示出了本申请的基于知识图谱的医院科技画像流程示意图。
具体实施方式
为了能够使得本发明的发明目的、技术流程及技术创新点进行更加清晰的阐述,以下结合附图及实例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为达到以上目的,本发明提供了一种基于知识图谱的医院科技画像方法,主流程如图1所示,该方法包括:
建立医院科技的评价指标体系和各个评价指标的权重;
获取医院科技相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中;为确保学科分类效率与准确性,本申请采用深度学习方法开展海量数据学科分类研究。整合MeSH、CMeSH等知识组织体系,结合领域专家意见,形成临床医学知识库。由于数据获取和数据处理的复杂性,现有医院评价中多以定性数据为基础。本申请创新性构建了以临床指南、临床试验项目、成果转化等反映临床医学特点的客观数据为基础的特色数据库群,包括全国1660余家医院的1050万条深度加工的高质量数据。
从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共303种概念和21种语义关系。然后将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;
将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系。本申请的画像将数据处理各阶段进行关联,建成高效运行的评价流程,可以全景化、精准描绘医院科研发展动态,诊断医院学科优劣势,为卫生管理与决策提供主动式智慧化的应用场景。
特别的,建立的医院科技的评价指标体系包括3个一级指标、8个二级指标和19个三级指标,一级指标包括科技产出、学术影响、科技条件,二级指标包括期刊论文、专利和标准、论文引用、科技奖励、杰出人才和团队、学术任职、科研项目、科研平台,三级指标包括SCIE论文、中文核心期刊论文、授权发明专利、发明专利转化、标准和指南、SCIE收录论文引用、中文核心期刊论文引用、国际权威指南论文引用、国家科技奖、中华医学科技奖、杰出人才、杰出团队、重要学会任职、重要期刊任职、国家级科研项目、临床试验项目、科学与工程研究类平台、技术创新与成果转化类平台、基础支撑与条件保障类平台。
特别的,建立医院科技的评价指标的权重具体包括:
利用层次分析法,将评价指标体系分为三个层次,建立递阶层次结构;按照预设规则请专家用1~9标度法对三级指标的重要性进行打分,构造比较判断矩阵;由比较判断矩阵计算二级指标的相对权重,按照计算二级指标权重相同的方式计算一级指标的相对权重;计算每级指标的归一化权重系数,并计算各级指标的组合权重系数,再将权重向量进行平均,即得层次分析法权重系数;
利用主成分分析法,将三级指标进行主成分分析,提取特征根值大于1或累积贡献率达到80%以上的主成分,以每个主成分所能解释的方差比例作为权重;
利用熵权法,依据不同评价对象指标信息的差异程度来确定各项指标的权重;
利用组合评价法,采用平均值法、Borda法、Copeland法、模糊Borda法四种方法对三种方法获得权重的单一综合评价的结果进行组合评价。
对画像进一步挖掘,具体包括:
将稳定数据对应的标签定义为稳定标签,将动态数据对应的标签定义为动态标签;
按照预设规则计算得到稳定标签对应的科技含量值和动态标签对应的科技含量值;
通过以下公式计算每个稳定标签和每个动态标签之间的相关度,公式为:
Figure BDA0003084026080000051
其中Ri,j表示第i类稳定标签与第j个动态标签之间的相关度,Wi为第i个稳定标签值,Dj为第j个动态标签值,m为稳定标签的个数,n为动态标签的个数;
计算得到相关度大于预设值的动态标签,作为医院实体的科技优势标签。通过科技优势标签可以看出某一个医院相对其他医院的科技优势领域。
特别的,还包括对医院的科研方向进行预测分析,具体包括:
从医院全息数据库中获取科技论文和专利文档;
基于已有论文和专利文档的分类信息,构建学科分类训练数据集;
利用训练数据集,构建LSTM-CNN分类模型;
利用LSTM-CNN模型对未分类的科技论文和专利文档进行分类,得到医院技术分类;
统计目标医院的技术分类,构建目标医院最近一段时期内新增量最多的技术分类作为该医院的科研方向。
作为另一方面,本申请还提供了一种基于知识图谱的医院科技画像***,所述***包括:
指标单元,用于建立医院科技的评价指标体系和各个评价指标的权重;
数据采集单元,用于获取医院科技相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中,从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
知识图谱单元,用于将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共包含303种概念及21种语义关系。然后将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
画像单元,用于对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系。科技画像数据特征覆盖五个层面,通过分层画像进行数据挖掘,融合构建医院科技服务智慧化知识图谱应用模型:
机构属性层:机构名称、机构性质、地理位置;
人员属性层:姓名、年龄、单位、科室、职务、职称;
科技条件层:支持科研活动开展的基础条件和设施;
学术影响层:科研活动产生的影响及结果;
科技产出层:科学研究过程中产出的具有学术意义的成果。
特别的,建立的医院科技的评价指标体系包括3个一级指标、8个二级指标和19个三级指标,一级指标包括科技产出、学术影响、科技条件,二级指标包括期刊论文、专利和标准、论文引用、科技奖励、杰出人才和团队、学术任职、科研项目、科研平台,三级指标包括SCIE论文、中文核心期刊论文、授权发明专利、发明专利转化、标准和指南、SCIE收录论文引用、中文核心期刊论文引用、国际权威指南论文引用、国家科技奖、中华医学科技奖、杰出人才、杰出团队、重要学会任职、重要期刊任职、国家级科研项目、临床试验项目、科学与工程研究类平台、技术创新与成果转化类平台、基础支撑与条件保障类平台。
特别的,指标单元还用于:
利用层次分析法,将评价指标体系分为三个层次,建立递阶层次结构;按照预设规则请专家用1~9标度法对三级指标的重要性进行打分,构造比较判断矩阵;由比较判断矩阵计算二级指标的相对权重,按照计算二级指标权重相同的方式计算一级指标的相对权重;计算每级指标的归一化权重系数,并计算各级指标的组合权重系数,再将权重向量进行平均,即得层次分析法权重系数;
利用主成分分析法,将三级指标进行主成分分析,提取特征根值大于1或累积贡献率达到80%以上的主成分,以每个主成分所能解释的方差比例作为权重;
利用熵权法,依据不同评价对象指标信息的差异程度来确定各项指标的权重;
利用组合评价法,采用平均值法、Borda法、Copeland法、模糊Borda法四种方法对三种方法获得权重的单一综合评价的结果进行组合评价。
特别的,画像单元还用于:
将稳定数据对应的标签定义为稳定标签,将动态数据对应的标签定义为动态标签;
按照预设规则计算得到稳定标签对应的科技含量值和动态标签对应的科技含量值;
通过以下公式计算每个稳定标签和每个动态标签之间的相关度,公式为:
Figure BDA0003084026080000071
其中Ri,j表示第i类稳定标签与第j个动态标签之间的相关度,Wi为第i个稳定标签值,Dj为第j个动态标签值,m为稳定标签的个数,n为动态标签的个数;
计算得到相关度大于预设值的动态标签,作为医院实体的科技优势标签。
本申请的针对医院的科技画像医院科技画像为知识化智慧化决策服务提供主动式的应用场景,实现中国医院科技量值在高层次人才、团队、学科领域、医院、医学院校科技创新评价中的拓展应用,受到业界的广泛好评。
为了更好地理解本发明,以上结合发明的具体实例做了详细描述,但并非是本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。
作为另一方面,本申请还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如描述于本申请实施例描述的方法。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请实施例描述的方法。
本申请实施例所使用的存储介质的任何引用可包括非易失性、易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而并非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件和固件的形式实现。所述集成的模块如果以软件和固件的形式实现并作为独立的产品销售或使用时,可以从存储介质或网络中传入具有专用硬件结构的计算机进行功能实现。
还要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制。任何本领域技术人员,在不脱离本发明的精神和范围内,均可以对上述实施例进行变化、修改、替换和变型,因此本发明的保护范围并不局限于此,应当以权利要求所限定的范围为准。

Claims (10)

1.一种基于知识图谱的医院科技画像方法,所述方法包括:
建立医院科技的评价指标体系和各个评价指标的权重;
获取医院科技活动相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中;
从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共303种概念和21种语义关系,将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;
将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系。
2.根据权利要求1所述的方法,其特征在于,建立的医院科技的评价指标体系包括3个一级指标、8个二级指标和19个三级指标,一级指标包括科技产出、学术影响、科技条件,二级指标包括期刊论文、专利和标准、论文引用、科技奖励、杰出人才和团队、学术任职、科研项目、科研平台,三级指标包括SCIE论文、中文核心期刊论文、授权发明专利、发明专利转化、标准和指南、SCIE收录论文引用、中文核心期刊论文引用、国际权威指南论文引用、国家科技奖、中华医学科技奖、杰出人才、杰出团队、重要学会任职、重要期刊任职、国家级科研项目、临床试验项目、科学与工程研究类平台、技术创新与成果转化类平台、基础支撑与条件保障类平台。
3.根据权利要求2所述的方法,其特征在于,建立医院科技的评价指标的权重具体包括:
利用层次分析法,将评价指标体系分为三个层次,建立递阶层次结构;按照预设规则请专家用1~9标度法对三级指标的重要性进行打分,构造比较判断矩阵;由比较判断矩阵计算二级指标的相对权重,按照计算二级指标权重相同的方式计算一级指标的相对权重;计算每级指标的归一化权重系数,并计算各级指标的组合权重系数,再将权重向量进行平均,即得层次分析法权重系数;
利用主成分分析法,将三级指标进行主成分分析,提取特征根值大于1或累积贡献率达到80%以上的主成分,以每个主成分所能解释的方差比例作为权重;
利用熵权法,依据不同评价对象指标信息的差异程度来确定各项指标的权重;
利用组合评价法,采用平均值法、Borda法、Copeland法、模糊Borda法四种方法对三种方法获得权重的单一综合评价的结果进行组合评价。
4.根据权利要求1所述的方法,其特征在于,对画像进一步挖掘,具体包括:
将稳定数据对应的标签定义为稳定标签,将动态数据对应的标签定义为动态标签;
按照预设规则计算得到稳定标签对应的科技含量值和动态标签对应的科技含量值;
通过以下公式计算每个稳定标签和每个动态标签之间的相关度,公式为:
Figure FDA0003084026070000021
其中Ri,j表示第i类稳定标签与第j个动态标签之间的相关度,Wi为第i个稳定标签值,Dj为第j个动态标签值,m为稳定标签的个数,n为动态标签的个数;
计算得到相关度大于预设值的动态标签,作为医院实体的科技优势标签。
5.根据权利要求1所述的方法,其特征在于,对医院的研究方向进行预测,具体包括:
从医院全息数据库中获取科技论文和专利文档;
基于已有论文和专利文档的分类信息,构建学科分类训练数据集;
利用训练数据集,构建LSTM-CNN分类模型;
利用LSTM-CNN模型对未分类的科技论文和专利文档进行分类,得到医院技术分类;
统计目标医院的技术分类,构建目标医院最近一段时期内新增量最多的技术分类作为该医院的科研方向。
6.一种基于知识图谱的医院科技画像***,所述***包括:
指标单元,用于建立医院科技的评价指标体系和各个评价指标的权重;
数据采集单元,用于获取医院科技相关的多源高维数据,将获取的科技数据进行标准化处理,将科技数据处理为标准格式,存储于医院全息数据库中,从医院全息数据中采集构建科技知识图谱构所需要的数据集合;
知识图谱单元,用于将构建科技知识图谱构所需要的数据分成稳定数据和动态数据两大类别,针对稳定数据构建医院科技知识图谱的模式图,包含稳定数据概念本体以及它们之间的关系,共包含303种概念及21种语义关系,然后将数据库中的医院信息转换为医院实体,存储到图数据库构成图节点,抽取和分类实体之间的关系并存入图数据库构成关系边;针对动态数据构造知识三元组,三元组元关系包含(实体x,关系,实体y)、(实体,属性,属性值)和(关系,属性,属性值),以图的模型将三元组组织起来,并构建关系图谱;将医院知识图谱中文本进行预处理,生成候选关键词,构建候选关键词图G=(N,E),其中N为节点集,E为边,N是由候选关键词组成,使用窗口依次滑过关键词,当窗口同时包含两个节点时,在这两点间连接一条边E;
画像单元,用于对所有节点进行聚类分组以得到各个标签组,并在所述图数据库中分别生成代表各个标签组的标签组节点,将图数据库中的每个标签组节点和对应的各个标签节点之间添加标签组关联关系,形成医院的科技画像,用户画像包括:指标节点、指标关联关系、标签节点、标签关联关系、标签组节点和标签组关联关系,科技画像数据特征覆盖五个层面,通过分层画像进行数据挖掘,融合构建医院科技服务智慧化知识图谱应用模型:
机构属性层:机构名称、机构性质、地理位置;
人员属性层:姓名、年龄、单位、科室、职务、职称;
科技条件层:支持科研活动开展的基础条件和设施;
学术影响层:科研活动产生的影响及结果;
科技产出层:科学研究过程中产出的具有学术意义的成果。
7.根据权利要求6所述的***,其特征在于,建立的医院科技的评价指标体系包括3个一级指标、8个二级指标和19个三级指标,一级指标包括科技产出、学术影响、科技条件,二级指标包括期刊论文、专利和标准、论文引用、科技奖励、杰出人才和团队、学术任职、科研项目、科研平台,三级指标包括SCIE论文、中文核心期刊论文、授权发明专利、发明专利转化、标准和指南、SCIE收录论文引用、中文核心期刊论文引用、国际权威指南论文引用、国家科技奖、中华医学科技奖、杰出人才、杰出团队、重要学会任职、重要期刊任职、国家级科研项目、临床试验项目、科学与工程研究类平台、技术创新与成果转化类平台、基础支撑与条件保障类平台;
指标单元还用于:
利用层次分析法,将评价指标体系分为三个层次,建立递阶层次结构;按照预设规则请专家用1~9标度法对三级指标的重要性进行打分,构造比较判断矩阵;由比较判断矩阵计算二级指标的相对权重,按照计算二级指标权重相同的方式计算一级指标的相对权重;计算每级指标的归一化权重系数,并计算各级指标的组合权重系数,再将权重向量进行平均,即得层次分析法权重系数;
利用主成分分析法,将三级指标进行主成分分析,提取特征根值大于1或累积贡献率达到80%以上的主成分,以每个主成分所能解释的方差比例作为权重;
利用熵权法,依据不同评价对象指标信息的差异程度来确定各项指标的权重;
利用组合评价法,采用平均值法、Borda法、Copeland法、模糊Borda法四种方法对三种方法获得权重的单一综合评价的结果进行组合评价。
8.根据权利要求6所述的***,其特征在于,画像单元还用于:
将稳定数据对应的标签定义为稳定标签,将动态数据对应的标签定义为动态标签;
按照预设规则计算得到稳定标签对应的科技含量值和动态标签对应的科技含量值;
通过以下公式计算每个稳定标签和每个动态标签之间的相关度,公式为:
Figure FDA0003084026070000041
其中Ri,j表示第i类稳定标签与第j个动态标签之间的相关度,Wi为第i个稳定标签值,Dj为第j个动态标签值,m为稳定标签的个数,n为动态标签的个数;
计算得到相关度大于预设值的动态标签,作为医院实体的科技优势标签;
医院科技优势标签的更新,包括稳定标签的更新是基于机构属性层和人员属性层中基本信息的更新;动态标签的更新是基于医院科技产出、条件及学术影响信息发生变化且随着每年度数据计算,标签值进行动态更新,并留存历史记录。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于:所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法。
CN202110575181.0A 2021-05-26 2021-05-26 一种基于知识图谱的医院科技画像方法和*** Active CN113515644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575181.0A CN113515644B (zh) 2021-05-26 2021-05-26 一种基于知识图谱的医院科技画像方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575181.0A CN113515644B (zh) 2021-05-26 2021-05-26 一种基于知识图谱的医院科技画像方法和***

Publications (2)

Publication Number Publication Date
CN113515644A true CN113515644A (zh) 2021-10-19
CN113515644B CN113515644B (zh) 2023-05-26

Family

ID=78065003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575181.0A Active CN113515644B (zh) 2021-05-26 2021-05-26 一种基于知识图谱的医院科技画像方法和***

Country Status (1)

Country Link
CN (1) CN113515644B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003734A (zh) * 2021-11-22 2022-02-01 四川大学华西医院 乳腺癌风险因素知识体系模型、知识图谱***及构建方法
CN114399205A (zh) * 2022-01-17 2022-04-26 禅境科技股份有限公司 一种适用于项目协作的过程性评价方法、***和设备
CN115186111A (zh) * 2022-09-13 2022-10-14 中国医学科学院医学信息研究所 一种指标数据语义关联及融合方法、***及可存储介质
CN116739085A (zh) * 2023-08-15 2023-09-12 北京智谱华章科技有限公司 一种基于知识图谱的城市科技创新力评估方法
CN116882495A (zh) * 2023-02-27 2023-10-13 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法
CN117116502A (zh) * 2023-09-11 2023-11-24 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992583A (zh) * 2019-03-15 2019-07-09 上海益普索信息技术有限公司 一种基于dmp标签的管理平台及方法
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN111400554A (zh) * 2019-01-02 2020-07-10 ***通信有限公司研究院 一种统一标签库的接入方法及装置
CN111553411A (zh) * 2020-04-27 2020-08-18 中国民航大学 一种基于多维量化数据的飞行员风险画像方法
CN111708950A (zh) * 2020-06-22 2020-09-25 腾讯科技(深圳)有限公司 内容推荐方法、装置及电子设备
CN111832966A (zh) * 2020-07-24 2020-10-27 山东中医药大学 中医类医院区域画像构建方法及***
CN112101761A (zh) * 2020-09-04 2020-12-18 龙源(北京)风电工程设计咨询有限公司 清洁低碳、安全高效的能源体系建设成效综合评价方法
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
US20210019674A1 (en) * 2015-10-28 2021-01-21 Qomplx, Inc. Risk profiling and rating of extended relationships using ontological databases
CN112418695A (zh) * 2020-11-27 2021-02-26 中国烟草总公司郑州烟草研究院 面向烟草领域科研人员的多维度画像构建方法及推荐方法
CN112733542A (zh) * 2021-01-14 2021-04-30 北京工业大学 主题的探测方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20210019674A1 (en) * 2015-10-28 2021-01-21 Qomplx, Inc. Risk profiling and rating of extended relationships using ontological databases
CN111400554A (zh) * 2019-01-02 2020-07-10 ***通信有限公司研究院 一种统一标签库的接入方法及装置
CN109992583A (zh) * 2019-03-15 2019-07-09 上海益普索信息技术有限公司 一种基于dmp标签的管理平台及方法
CN111553411A (zh) * 2020-04-27 2020-08-18 中国民航大学 一种基于多维量化数据的飞行员风险画像方法
CN111708950A (zh) * 2020-06-22 2020-09-25 腾讯科技(深圳)有限公司 内容推荐方法、装置及电子设备
CN111832966A (zh) * 2020-07-24 2020-10-27 山东中医药大学 中医类医院区域画像构建方法及***
CN112101761A (zh) * 2020-09-04 2020-12-18 龙源(北京)风电工程设计咨询有限公司 清洁低碳、安全高效的能源体系建设成效综合评价方法
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112418695A (zh) * 2020-11-27 2021-02-26 中国烟草总公司郑州烟草研究院 面向烟草领域科研人员的多维度画像构建方法及推荐方法
CN112733542A (zh) * 2021-01-14 2021-04-30 北京工业大学 主题的探测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MINJUN ZHAO 等: "Knowledge Graph Completion via Complete Attention between Knowledge Graph and Entity Descriptions", 《CSAE \'19: PROCEEDINGS OF THE 3RD INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND APPLICATION 》 *
代杨 等: "基于用户画像的出版企业知识服务商业模式探析", 《中国编辑》 *
白玉杰: "本应科技:解构科技,为企业"画像"", 《中关村》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003734A (zh) * 2021-11-22 2022-02-01 四川大学华西医院 乳腺癌风险因素知识体系模型、知识图谱***及构建方法
CN114003734B (zh) * 2021-11-22 2023-06-30 四川大学华西医院 乳腺癌风险因素知识体系***、知识图谱***及构建方法
CN114399205A (zh) * 2022-01-17 2022-04-26 禅境科技股份有限公司 一种适用于项目协作的过程性评价方法、***和设备
CN115186111A (zh) * 2022-09-13 2022-10-14 中国医学科学院医学信息研究所 一种指标数据语义关联及融合方法、***及可存储介质
CN116882495A (zh) * 2023-02-27 2023-10-13 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法
CN116882495B (zh) * 2023-02-27 2024-02-09 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法
CN116739085A (zh) * 2023-08-15 2023-09-12 北京智谱华章科技有限公司 一种基于知识图谱的城市科技创新力评估方法
CN117116502A (zh) * 2023-09-11 2023-11-24 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和***
CN117116502B (zh) * 2023-09-11 2024-04-05 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和***

Also Published As

Publication number Publication date
CN113515644B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN113515644A (zh) 一种基于知识图谱的医院科技画像方法和***
US20150134569A1 (en) Domain-specific syntactic tagging in a functional information system
Ribes Notes on the concept of data interoperability: Cases from an ecology of AIDS research infrastructures
Wainer et al. Correlations between bibliometrics and peer evaluation for all disciplines: the evaluation of Brazilian scientists
Farooqui et al. Design of a data warehouse for medical information system using data mining techniques
Kaza et al. Evaluating ontology mapping techniques: An experiment in public safety information sharing
Hamoud et al. Implementing data-driven decision support system based on independent educational data mart
Liu et al. Managing data quality of the data warehouse: A chance-constrained programming approach
CN113362959A (zh) 一种区域疫情防控用突发呼吸道传染病风险预测模型
Butka et al. Methodologies for Knowledge Discovery Processes in Context of AstroGeoInformatics
Yan et al. Cross‐disciplinary data practices in earth system science: Aligning services with reuse and reproducibility priorities
Lopez-Rodriguez et al. Modeling scientometric indicators using a statistical data ontology
Chakiri et al. A data warehouse hybrid design framework using domain ontologies for local good-governance assessment
Gartner et al. A CERIF‐based schema for recording research impact
Completo et al. Design and implementation of a data warehouse for benchmarking in clinical rehabilitation
Sassi et al. Supporting ontology adaptation and versioning based on a graph of relevance
Schuurman Metadata as a site for imbuing GIS with qualitative information
KR20190052980A (ko) 인재 정보 처리 방법 및 장치
Butkus et al. Modelling organisational resilience of public sector organisations to navigate complexity: empirical insights from Lithuania
Bacci et al. Insights from the co-authorship network of the Italian academic statisticians
Trąbka The Proposal for Modeling Methodology for Enterprise Content Management (ECM) Systems: Modeling Tools Selection
Pham et al. Identifying interdisciplinary research in research projects
Balogh et al. Capturing expert knowledge to guide data flow and structure analysis of large corporate databases
Eder et al. Managing the quality of data and metadata for Biobanks
Prakash et al. Towards DW support for formulating policies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant