CN117494811A - 中医典籍的知识图谱构建方法及*** - Google Patents

中医典籍的知识图谱构建方法及*** Download PDF

Info

Publication number
CN117494811A
CN117494811A CN202311549672.3A CN202311549672A CN117494811A CN 117494811 A CN117494811 A CN 117494811A CN 202311549672 A CN202311549672 A CN 202311549672A CN 117494811 A CN117494811 A CN 117494811A
Authority
CN
China
Prior art keywords
knowledge
medicinal material
keyword
classical
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311549672.3A
Other languages
English (en)
Other versions
CN117494811B (zh
Inventor
赵静
赵亚茹
吴冰
樊静
刘松
刘冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Dajing Tcm Information Technology Co ltd
Original Assignee
Nanjing Dajing Tcm Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Dajing Tcm Information Technology Co ltd filed Critical Nanjing Dajing Tcm Information Technology Co ltd
Priority to CN202311549672.3A priority Critical patent/CN117494811B/zh
Publication of CN117494811A publication Critical patent/CN117494811A/zh
Application granted granted Critical
Publication of CN117494811B publication Critical patent/CN117494811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了中医典籍的知识图谱构建方法及***,涉及知识图谱构建技术领域,包括:从典籍知识数据库中获取第一典籍知识类别;调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建第一关键词集合;获取第一关键词对应的第一页码范围,第一关键词为第一关键词集合中的任意一个关键词;当第一关键词存在于第一专业词汇集合时,截取第一典籍中的第一页码范围,并存储至第一典籍知识类别,形成第一图谱关系;基于第一图谱关系组建第一图谱分支,并根据第一图谱分支构建目标知识图谱。本发明解决了传统方法对于中医典籍中包含的大量中医医学知识,难以整理和关联,并且缺乏结构化信息,对于特定信息的查找效率低的技术问题。

Description

中医典籍的知识图谱构建方法及***
技术领域
本发明涉及知识图谱构建技术领域,具体涉及中医典籍的知识图谱构建方法及***。
背景技术
中医领域涵盖了多部典籍,包含了大量的传统医学知识,但这些知识通常散布在不同的典籍中,且以非结构化或半结构化的形式存在,存在多种问题,一方面,中医典籍包含的大量的中医医学知识分散在不同的典籍中,使得整合和查找特定信息变得困难,并且传统典籍的内容通常以文本形式存在,缺乏结构化信息,这使得难以快速访问和利用这些知识;另一方面,中医典籍中的信息量巨大,手动整理和归纳非常耗时且容易出错,并且典籍之间缺乏关联,中医知识常常需要跨足多个典籍才能完整理解。
以此需要一种新的方法,可以将多部典籍中的知识整合到一个结构化的知识图谱中,使得中医医学知识更易于检索、理解和应用,进而促进跨典籍知识的关联和交流。
发明内容
本申请通过提供了中医典籍的知识图谱构建方法及***,旨在解决传统方法对于中医典籍中包含的大量中医医学知识,难以有效整理和关联,并且缺乏结构化信息,对于特定信息的查找效率低的技术问题。
鉴于上述问题,本申请提供了中医典籍的知识图谱构建方法及***。
本申请公开的第一个方面,提供了中医典籍的知识图谱构建方法,所述方法包括:从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
本申请公开的另一个方面,提供了中医典籍的知识图谱构建***,所述***用于上述方法,所述***包括:知识类别获取模块,所述知识类别获取模块用于从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;关键词集合组建模块,所述关键词集合组建模块用于调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;页码范围获取模块,所述页码范围获取模块用于获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;页码范围存储模块,所述页码范围存储模块用于当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;知识图谱构建模块,所述知识图谱构建模块用于基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
从典籍知识数据库中获取第一典籍知识类别,该类别对应于第一专业词汇集合,这有助于组织和分类知识,通过提取中医典籍中的关键信息和专业术语,提供了清晰的知识结构;从预设典籍集合中选取第一典籍,然后爬取该典籍的目录,提取其中的关键词,这些关键词用于后续的知识抽取,为了精确提取知识,选择第一关键词集合中的第一关键词,并获取其对应的第一页码范围,这有助于限定提取的范围;当第一关键词存在于第一专业词汇集合时,截取第一典籍中的对应第一页码范围,然后将这些信息存储至第一典籍知识类别中,形成第一图谱关系,这样能够准确提取中医领域的专业术语,确保知识图谱的准确性;基于第一图谱关系,方法组建第一图谱分支,将相关知识以结构化的方式组织起来,根据第一图谱分支的组织方式和结构,构建目标中医知识图谱,实现了典籍知识的整合和结构化呈现,使得中医药领域的知识更容易被检索、理解和应用。综上所述,该中医典籍的知识图谱构建方法通过自动化地从中医典籍中提取、整理和组织知识,以及构建知识图谱,使得中医医学知识可以更好地被组织、检索和应用,有助于中医医学领域的研究和应用。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了中医典籍的知识图谱构建方法流程示意图;
图2为本申请实施例提供了中医典籍的知识图谱构建***结构示意图。
附图标记说明:知识类别获取模块10,关键词集合组建模块20,页码范围获取模块30,页码范围存储模块40,知识图谱构建模块50。
具体实施方式
本申请实施例通过提供中医典籍的知识图谱构建方法,解决了传统方法对于中医典籍中包含的大量中医医学知识,难以有效整理和关联,并且缺乏结构化信息,对于特定信息的查找效率低的技术问题。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了中医典籍的知识图谱构建方法,所述方法包括:
从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;
访问典籍知识数据库,这是已经建好的在线典籍文献数据库,在数据库中,包含多种典籍,涉及中医各个方面,根据项目的需求,选择其中一个典籍知识类别作为第一典籍知识类别。针对第一典籍知识类别,通过自然语言处理的方法从典籍文献中提取与该类别相关的专业术语和词汇,获取相应的第一专业词汇集合。将第一典籍知识类别与第一专业词汇集合建立对应关系,这意味着将选定的典籍类别与从典籍文献中提取的专业词汇进行关联,形成一个类别-词汇的映射关系,为后续的知识图谱构建奠定基础。
进一步而言,所述典籍知识数据库是指包括有预设典籍知识类别的知识数据构建的数据库,所述预设典籍知识类别包括基础理论类别、药材知识类别、针灸推拿类别、临床知识类别和养生保健类别。
所述典籍知识数据库包括预设的典籍知识类别,这些预设典籍知识类别用于组织和分类中医典籍中的知识,是根据中医领域的知识结构和主题划分而来,可以包括但不限于以下几个典籍知识类别:基础理论类别,包括中医的基本理论,如阴阳、五行、经络等;药材知识类别,包括与草药、方剂和药物有关的知识;针灸推拿类别,包括针灸和推拿疗法的知识;临床知识类别,包括各种疾病的诊断和治疗方法;养生保健类别,包括中医养生、健康保健的知识。
针对每个预设的典籍知识类别,导入相应典籍的数据,包括文本数据、图片、引用文献等,导入的数据与典籍的相关类别匹配,对导入的数据进行分类和标记,将其分配到相应的典籍知识类别中,即可建立获取所述典籍知识数据库。通过构建这样的典籍知识数据库,可以更好地组织、管理和检索中医典籍中的知识,有助于中医药领域的研究和实践。
调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;
访问预设的典籍集合,该集合中包括但不限于《黄帝内经》《神农本草经》《雷公炮炙论》《伤寒杂病论》等,从中任选一部典籍作为第一典籍,通过读取文本文件,获取第一典籍的目录,目录通常包含典籍章节、标题或其他划分结构以及它们的层次关系。针对第一典籍目录,使用自然语言处理和文本处理技术,提取并爬取目录中每个条目的关键词,关键词可以是章节的标题或者其他指定的标识词语,将爬取到的第一典籍目录的关键词进行整理和组合,形成一个统一的关键词集合,即第一关键词集合。
获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;
进一步而言,所述获取所述第一典籍中第一关键词对应的第一页码范围,包括:
定位所述第一关键词在所述第一典籍目录中的第一位置;
匹配所述第一位置对应第一页码信息;
随机提取所述第一典籍的第一典籍页;
统计所述第一典籍页中所述第一关键词的第一出现频次;
当所述第一出现频次达到预设频次值时,将所述第一典籍页记作第二页码信息;
所述第一页码信息与所述第二页码信息共同组成所述第一页码范围。
从所述第一关键词集合中任意选择一个关键词作为第一关键词,采用文本搜索技术,在第一典籍目录中搜索所述第一关键词,确定关键词在目录中的具***置,并记录为第一位置,包括章节名称或其他标识性信息,以便后续使用。
将目录中第一关键词的第一位置与相应的页码信息进行匹配,以确定第一页码信息,包括第一位置所涉及的页码范围或特定页的页码,确保匹配的准确性,以便正确提取典籍中包含该关键词的内容,记录匹配到的第一页码信息,以备后续使用。
随机选择典籍中的某一页作为第一典籍页,采用文本提取技术,提取所述第一典籍页的文本内容。
使用提取的第一典籍页的文本内容,采用文本匹配或搜索技术,在该页的内容中识别第一关键词,并统计其出现的次数,获取第一出现频次,第一出现频次越大,说明在该页中第一关键词出现的次数越多。
根据实际情况和具体需求,设定预设频次值,这是所述第一关键词需要达到的预设频次值,比较第一关键词的第一出现频次与预设频次值,如果两者相等或大于预设频次值,则表示已经达到了预设频次值,说明第一出现频次达到预设的要求,则将所述第一典籍页记作第二页码信息,记录该页码以备后续使用。
使用之前记录的第一页码信息和第二页码信息,将它们整合在一起,形成一个包含第一关键词的页码的集合,作为所述第一页码范围。
当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;
通过对比第一关键词与第一专业词汇集合中的元素,检查第一关键词是否存在于所述第一专业词汇集合,如果存在于该集合中,截取第一页码范围信息,并将所截取的第一页码范围和对应的文本内容存储到第一典籍知识类别中,以形成第一图谱关系,这可以是一个数据结构,如关联数组,其中关键词作为索引,对应的页码范围作为值。
基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
使用所述第一典籍知识类别的第一图谱关系作为起点,创建一个新的图谱分支,该分支以所述第一典籍知识类别作为核心,其中包括了第一页码范围等相关信息。对于每个典籍知识类别,重复上述步骤,获得所有典籍知识类别的图谱分支。整合所有图谱分支,形成目标知识图谱,在目标知识图谱中,不同的分支代表着不同的典籍知识类别,这些分支之间可以通过共享的关键词、主题或内容进行连接。得到的该目标知识图谱包含了典籍之间的关联关系,用于更好地理解和浏览相关领域的知识。
进一步而言,所述基于所述第一图谱关系组建第一图谱分支,包括:
调取所述预设典籍集合中第二典籍的第二典籍目录;
当所述第二典籍目录对应的第二关键词集合中的第二关键词存在于所述第一专业词汇集合时,截取所述第二典籍的第二页码范围,并存储至所述第一典籍知识类别,形成第二图谱关系;
根据所述第一图谱关系与所述第二图谱关系,组建所述第一图谱分支。
采用与第一图谱关系完全相同的方法,对于所述预设典籍集合中第二典籍,构建第二图谱关系,为了说明书的简洁,在此不再赘述。
对于建立的第一图谱关系,获取第一典籍的第一基本典籍信息,包括作者信息、著作时间、典籍影响等,根据这些信息对第一典籍进行综合评估,获取第一典籍综合指数,同样的获取第二典籍的第二典籍综合指数,根据第一典籍综合指数和第二典籍综合指数对所述第一图谱关系与所述第二图谱关系进行排序、整合,得到所述第一图谱分支。
进一步而言,所述根据所述第一图谱关系与所述第二图谱关系,组建所述第一图谱分支,包括:
分别获取所述第一典籍的第一基本典籍信息与所述第二典籍的第二基本典籍信息;
其中,所述第一基本典籍信息包括第一著作时间、第一著作人影响因子、第一典籍影响因子,所述第二基本典籍信息包括第二著作时间、第二著作人影响因子、第二典籍影响因子;
加权所述第一著作时间、所述第一著作人影响因子、所述第一典籍影响因子得到所述第一典籍的第一典籍综合指数;
加权所述第二著作时间、所述第二著作人影响因子、所述第二典籍影响因子得到所述第二典籍的第二典籍综合指数;
根据所述第一典籍综合指数和所述第二典籍综合指数对所述第一图谱关系和所述第二图谱关系进行排序调整,得到第一分支序列;
结合所述第一分支序列得到所述第一图谱分支。
访问第一典籍并获取其基本信息,包括第一著作时间、第一著作人影响因子、第一典籍影响因子;同样地,访问第二典籍并获取其基本信息,包括第二著作时间、第二著作人影响因子、第二典籍影响因子。
其中,著作时间为典籍创作完成的时间,表示该典籍问世的年代;著作人影响因子为衡量典籍作者在相关领域中的影响力的指标,可以根据作者的学术成就、引用数量、被其他学者引用的频率等来评估;典籍影响因子为衡量典籍在相关领域中的影响力的指标,可以根据典籍的引用数量、被其他学者引用的频率、广泛应用程度等来评估。
根据具体需求,为所述第一著作时间、所述第一著作人影响因子和所述第一典籍影响因子分别设定权重,以反映它们在典籍综合指数中的重要性,示例性地,设置第一著作时间的权重为0.2、第一著作人影响因子的权重为0.3、第一典籍影响因子的权重为0.5,这只作为一个可能的示例,具体权重分配方法根据实际需求设定。使用设定的权重,将所述第一著作时间、所述第一著作人影响因子和所述第一典籍影响因子分别加权,即将其与对应的权重相乘,然后将各乘积相加,得到所述第一典籍的第一典籍综合指数,以便根据不同部分的重要程度对所述第一典籍进行综合评估。
采用与第一典籍综合指数相同的方法,获取第二典籍的第二典籍综合指数,为了说明书的简洁,在此不再赘述。
使用所述第一典籍综合指数和所述第二典籍综合指数,根据综合指数的大小对指数对应的图谱关系进行从高到低的排序,例如所述第一典籍综合指数更大,则将对应的第一图谱关系放在更前面,这样就可以在知识图谱中对专业度高、权威的典籍知识进行优先展示,根据排序后的图谱关系构建第一分支序列。
根据第一分支序列中的图谱关系,得到所述第一图谱分支,以便展示高质量、专业度高的典籍知识。
进一步而言,还包括:
读取预设药材种类;
爬取组建所述预设药材种类中第一药材的第一药材图像集合;
组建所述第一药材的第一药材名称集合,所述第一药材名称集合包括第一药材名称;
在所述目标知识图谱中定位所述第一药材名称的第一位置,并将所述第一药材图像集合链接至所述第一位置。
预设药材种类为事先定义的药材种类列表,这个列表包含了不同的药材种类,例如按功能划分为清热药、活血药、消食药等,每个种类下包含多个药材名称,例如清热药内包含积雪草、蒲公英、马齿苋等。
从预设的药材种类中随机选择一种药材中的第一药材,作为要处理的目标,利用网络爬虫技术,搜索互联网以获取与所选的第一种药材相关的药材图像,这可以涵盖不同角度、不同品种和不同状态的图像,以尽可能全面地代表这种药材,将获取的药材图像保存在一个文件夹中,组建成第一药材图像集合,其中每个图像都与第一药材相关。
从先前选择的第一药材中提取其名称,包括该药材的通用名称和专业名称,例如,忍冬俗称金银花,将第一药材的所有名称整合为第一药材名称集合,第一药材名称为第一药材名称集合中的一个名称,可以是第一药材的专业名词。
打开构建的目标知识图谱,使用第一种药材的名称来进行搜索和定位,找到与该药材名称相关的位置,通过在知识图谱中创建一个指向图像集合的链接,以此将之前组建的第一药材图像集合链接到这个位置,以便日后在知识图谱中可以方便地访问与第一种药材相关的图像集合,这有助于增强知识图谱的可视化和信息呈现。
进一步而言,还包括:
对所述第一药材图像集合中各图像依次进行特征提取,得到第一药材图像特征集合;
根据所述第一药材图像集合和所述第一药材图像特征集合构建药材自动识别模组;
获取任意药材图像;
通过所述药材自动识别模组中的药材特征提取单元对所述任意药材图像进行特征提取,得到任意药材特征;
所述药材自动识别模组基于所述任意药材特征确定任意药材种类。
使用计算机视觉技术和图像处理算法,对第一药材图像集合中的每个图像逐个进行特征提取,这些特征包括颜色直方图、纹理特征、形状特征、边缘特征等,将所有图像的特征组建成一个集合,形成第一药材图像特征集合。
使用第一药材图像集合和相应的特征集合作为构建数据集合,并将所述构建数据集合以一定比例划分为训练集和验证集,例如80%为训练集、20%为验证集。选择合适的深度学习模型,例如卷积神经网络(CNN),构建自动识别模型的网络结构,利用训练集,训练所述自动识别模型,以学习如何识别第一药材,模型将使用图像特征来进行学习和分类;利用验证集,验证模型的准确性,并根据验证结果对模型参数进行调整、优化,以确保其在自动识别第一药材方面具有高准确性。当模型训练完成且性能满足要求,就能得到所述药材自动识别模组,该模组可以将输入的任意药材图像转化为特征并进行自动识别。
选择要进行特征提取的任意药材图像,例如可以使用用户上传的图像或从其他来源获取的图像,将目标药材图像输入构建好的药材自动识别模组,模组中的药材特征提取单元对目标药材图像进行处理,以提取与目标药材相关的特征,包括颜色、纹理、形状、边缘等不同类型的特征。完成特征提取后,将得到的特征组合成一个特征集合,作为该任意药材的特征表示。
将提取的任意药材特征与模型中保存的已知药材特征进行匹配,通过比较特征向量之间的相似性,确定任意药材属于哪一类药材,相似性越高,则表明二者越一致。输出识别结果,将识别的任意药材种类进行标记,以表示图像中药材的具体种类。
通过模型的准确识别,可以为用户提供准确的药材种类信息,帮助其更好地了解和识别各种药材。
进一步而言,所述药材特征提取单元包括卷积层、膨胀卷积层和池化层,所述方法还包括:
所述膨胀卷积层包括N个膨胀卷积层,N为大于1的整数;
通过所述N个膨胀卷积层中的第一膨胀卷积层对所述卷积层得到的所述任意药材图像特征进行处理,得到任意药材图像膨胀特征,其中,所述第一膨胀卷积层对应第一膨胀率,所述任意药材图像特征为所述卷积层提取到的所述任意药材图像的特征;
所述池化层对所述任意药材图像膨胀特征进行分析并确定所述任意药材种类。
所述药材特征提取单元包括卷积层、膨胀卷积层和池化层,其中,卷积层是深度学习中常用的图像处理层之一,它使用卷积核滑动遍历输入图像,并在每个位置计算一组特定的特征,这些特征可以捕捉图像的局部信息,如边缘、纹理和颜色特征,通过堆叠多个卷积层,可以提取不同级别的抽象特征,有助于图像分类和识别;膨胀卷积层是一种卷积层的扩展形式,它引入扩张率来增大感受野,而不增加卷积核的尺寸,这允许模型在更广泛的区域内捕捉图像信息,有助于处理图像中的全局特征和语境信息,膨胀卷积层用于图像分割和特征提取;池化层用于减小特征图的维度,减少计算量,并增强模型的不变性,有助于减小特征图的大小,并保留最重要的特征。
其中,所述膨胀卷积层包括N个膨胀卷积层,其中N是大于1的整数,N表示***中使用的膨胀卷积层的数量,通常是一个超参数,可以根据任务的要求和模型的设计来调整,增加膨胀卷积层的数量可以增加模型对图像的全局信息感知能力,有助于更好地理解和识别图像中的特征。
使用N个膨胀卷积层,其中第一膨胀卷积层对应第一膨胀率,膨胀率定义了卷积核内的像素之间的距离,以扩大感受野,膨胀率可以是任意正整数,根据任务和模型的需要进行设置。
在前面的步骤中,卷积层已经提取了从任意药材图像中获得的特征,这些特征以特征图的形式存在,其中每个特征图对应一个特定类型的特征。第一膨胀卷积层使用第一膨胀率来处理卷积层提取的图像特征,具体的,对特征图进行卷积操作,考虑到膨胀率,以扩大感受野,这有助于捕捉更广泛的图像信息,包括全局特征,通过第一膨胀卷积层的处理,得到任意药材图像的膨胀特征,这些特征反映了图像中更广泛的信息,对于药材自动识别任务具有重要意义。
将经过膨胀处理的特征输入池化层,池化层使用最大池化或平均池化操作来减小特征图的维度,这有助于保留最显著的特征,并减少计算复杂性,池化操作后,得到池化特征,这是输入图像的更加抽象和紧凑的表示,这些特征用于最终的药材分类决策,利用得到的池化特征进行药材分类,输出识别结果,即确定任意药材属于哪一类,获取所述任意药材的药材种类。
综上所述,本申请实施例所提供的中医典籍的知识图谱构建方法及***具有如下技术效果:
1.从典籍知识数据库中获取第一典籍知识类别,该类别对应于第一专业词汇集合,这有助于组织和分类知识,通过提取中医典籍中的关键信息和专业术语,提供了清晰的知识结构;
2.从预设典籍集合中选取第一典籍,然后爬取该典籍的目录,提取其中的关键词,这些关键词用于后续的知识抽取,为了精确提取知识,选择第一关键词集合中的第一关键词,并获取其对应的第一页码范围,这有助于限定提取的范围;
3.当第一关键词存在于第一专业词汇集合时,截取第一典籍中的对应第一页码范围,然后将这些信息存储至第一典籍知识类别中,形成第一图谱关系,这样能够准确提取中医领域的专业术语,确保知识图谱的准确性;
4.基于第一图谱关系,方法组建第一图谱分支,将相关知识以结构化的方式组织起来,根据第一图谱分支的组织方式和结构,构建目标中医知识图谱,实现了典籍知识的整合和结构化呈现,使得中医药领域的知识更容易被检索、理解和应用。
综上所述,该中医典籍的知识图谱构建方法通过自动化地从中医典籍中提取、整理和组织知识,以及构建知识图谱,使得中医医学知识可以更好地被组织、检索和应用,有助于中医医学领域的研究和应用。
实施例二
基于与前述实施例中中医典籍的知识图谱构建方法相同的发明构思,如图2所示,本申请提供了中医典籍的知识图谱构建***,所述***包括:
知识类别获取模块10,所述知识类别获取模块10用于从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;
关键词集合组建模块20,所述关键词集合组建模块20用于调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;
页码范围获取模块30,所述页码范围获取模块30用于获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;
页码范围存储模块40,所述页码范围存储模块40用于当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;
知识图谱构建模块50,所述知识图谱构建模块50用于基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
进一步而言,所述典籍知识数据库是指包括有预设典籍知识类别的知识数据构建的数据库,所述预设典籍知识类别包括基础理论类别、药材知识类别、针灸推拿类别、临床知识类别和养生保健类别。
进一步而言,所述***还包括第一页码范围获取模块,以执行如下操作步骤:
定位所述第一关键词在所述第一典籍目录中的第一位置;
匹配所述第一位置对应第一页码信息;
随机提取所述第一典籍的第一典籍页;
统计所述第一典籍页中所述第一关键词的第一出现频次;
当所述第一出现频次达到预设频次值时,将所述第一典籍页记作第二页码信息;
所述第一页码信息与所述第二页码信息共同组成所述第一页码范围。
进一步而言,所述***还包括第一图谱分支组建模块,以执行如下操作步骤:
调取所述预设典籍集合中第二典籍的第二典籍目录;
当所述第二典籍目录对应的第二关键词集合中的第二关键词存在于所述第一专业词汇集合时,截取所述第二典籍的第二页码范围,并存储至所述第一典籍知识类别,形成第二图谱关系;
根据所述第一图谱关系与所述第二图谱关系,组建所述第一图谱分支。
进一步而言,所述***还包括第一图谱分支获取模块,以执行如下操作步骤:
分别获取所述第一典籍的第一基本典籍信息与所述第二典籍的第二基本典籍信息;
其中,所述第一基本典籍信息包括第一著作时间、第一著作人影响因子、第一典籍影响因子,所述第二基本典籍信息包括第二著作时间、第二著作人影响因子、第二典籍影响因子;
加权所述第一著作时间、所述第一著作人影响因子、所述第一典籍影响因子得到所述第一典籍的第一典籍综合指数;
加权所述第二著作时间、所述第二著作人影响因子、所述第二典籍影响因子得到所述第二典籍的第二典籍综合指数;
根据所述第一典籍综合指数和所述第二典籍综合指数对所述第一图谱关系和所述第二图谱关系进行排序调整,得到第一分支序列;
结合所述第一分支序列得到所述第一图谱分支。
进一步而言,所述***还包括第一位置定位模块,以执行如下操作步骤:
读取预设药材种类;
爬取组建所述预设药材种类中第一药材的第一药材图像集合;
组建所述第一药材的第一药材名称集合,所述第一药材名称集合包括第一药材名称;
在所述目标知识图谱中定位所述第一药材名称的第一位置,并将所述第一药材图像集合链接至所述第一位置。
进一步而言,所述***还包括药材种类获取模块,以执行如下操作步骤:
对所述第一药材图像集合中各图像依次进行特征提取,得到第一药材图像特征集合;
根据所述第一药材图像集合和所述第一药材图像特征集合构建药材自动识别模组;
获取任意药材图像;
通过所述药材自动识别模组中的药材特征提取单元对所述任意药材图像进行特征提取,得到任意药材特征;
所述药材自动识别模组基于所述任意药材特征确定任意药材种类。
进一步而言,所述***还包括药材种类确定模块,以执行如下操作步骤:
所述膨胀卷积层包括N个膨胀卷积层,N为大于1的整数;
通过所述N个膨胀卷积层中的第一膨胀卷积层对所述卷积层得到的所述任意药材图像特征进行处理,得到任意药材图像膨胀特征,其中,所述第一膨胀卷积层对应第一膨胀率,所述任意药材图像特征为所述卷积层提取到的所述任意药材图像的特征;
所述池化层对所述任意药材图像膨胀特征进行分析并确定所述任意药材种类。
本说明书通过前述对中医典籍的知识图谱构建方法的详细描述,本领域技术人员可以清楚得知道本实施例中的中医典籍的知识图谱构建***,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.中医典籍的知识图谱构建方法,其特征在于,所述方法包括:
从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;
调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;
获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;
当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;
基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
2.根据权利要求1所述方法,其特征在于,所述典籍知识数据库是指包括有预设典籍知识类别的知识数据构建的数据库,所述预设典籍知识类别包括基础理论类别、药材知识类别、针灸推拿类别、临床知识类别和养生保健类别。
3.根据权利要求1所述方法,其特征在于,所述获取所述第一典籍中第一关键词对应的第一页码范围,包括:
定位所述第一关键词在所述第一典籍目录中的第一位置;
匹配所述第一位置对应第一页码信息;
随机提取所述第一典籍的第一典籍页;
统计所述第一典籍页中所述第一关键词的第一出现频次;
当所述第一出现频次达到预设频次值时,将所述第一典籍页记作第二页码信息;
所述第一页码信息与所述第二页码信息共同组成所述第一页码范围。
4.根据权利要求1所述方法,其特征在于,所述基于所述第一图谱关系组建第一图谱分支,包括:
调取所述预设典籍集合中第二典籍的第二典籍目录;
当所述第二典籍目录对应的第二关键词集合中的第二关键词存在于所述第一专业词汇集合时,截取所述第二典籍的第二页码范围,并存储至所述第一典籍知识类别,形成第二图谱关系;
根据所述第一图谱关系与所述第二图谱关系,组建所述第一图谱分支。
5.根据权利要求4所述方法,其特征在于,所述根据所述第一图谱关系与所述第二图谱关系,组建所述第一图谱分支,包括:
分别获取所述第一典籍的第一基本典籍信息与所述第二典籍的第二基本典籍信息;
其中,所述第一基本典籍信息包括第一著作时间、第一著作人影响因子、第一典籍影响因子,所述第二基本典籍信息包括第二著作时间、第二著作人影响因子、第二典籍影响因子;
加权所述第一著作时间、所述第一著作人影响因子、所述第一典籍影响因子得到所述第一典籍的第一典籍综合指数;
加权所述第二著作时间、所述第二著作人影响因子、所述第二典籍影响因子得到所述第二典籍的第二典籍综合指数;
根据所述第一典籍综合指数和所述第二典籍综合指数对所述第一图谱关系和所述第二图谱关系进行排序调整,得到第一分支序列;
结合所述第一分支序列得到所述第一图谱分支。
6.根据权利要求1所述方法,其特征在于,所述方法还包括:
读取预设药材种类;
爬取组建所述预设药材种类中第一药材的第一药材图像集合;
组建所述第一药材的第一药材名称集合,所述第一药材名称集合包括第一药材名称;
在所述目标知识图谱中定位所述第一药材名称的第一位置,并将所述第一药材图像集合链接至所述第一位置。
7.根据权利要求6所述方法,其特征在于,所述方法还包括:
对所述第一药材图像集合中各图像依次进行特征提取,得到第一药材图像特征集合;
根据所述第一药材图像集合和所述第一药材图像特征集合构建药材自动识别模组;
获取任意药材图像;
通过所述药材自动识别模组中的药材特征提取单元对所述任意药材图像进行特征提取,得到任意药材特征;
所述药材自动识别模组基于所述任意药材特征确定任意药材种类。
8.根据权利要求7所述方法,其特征在于,所述药材特征提取单元包括卷积层、膨胀卷积层和池化层,所述方法还包括:
所述膨胀卷积层包括N个膨胀卷积层,N为大于1的整数;
通过所述N个膨胀卷积层中的第一膨胀卷积层对所述卷积层得到的所述任意药材图像特征进行处理,得到任意药材图像膨胀特征,其中,所述第一膨胀卷积层对应第一膨胀率,所述任意药材图像特征为所述卷积层提取到的所述任意药材图像的特征;
所述池化层对所述任意药材图像膨胀特征进行分析并确定所述任意药材种类。
9.中医典籍的知识图谱构建***,其特征在于,用于实施权利要求1-8任一项所述的中医典籍的知识图谱构建方法,包括:
知识类别获取模块,所述知识类别获取模块用于从典籍知识数据库中获取第一典籍知识类别,且,所述第一典籍知识类别对应第一专业词汇集合;
关键词集合组建模块,所述关键词集合组建模块用于调取预设典籍集合中第一典籍的第一典籍目录,并爬取组建所述第一典籍目录的第一关键词集合;
页码范围获取模块,所述页码范围获取模块用于获取所述第一典籍中第一关键词对应的第一页码范围,所述第一关键词为所述第一关键词集合中的任意一个关键词;
页码范围存储模块,所述页码范围存储模块用于当所述第一关键词存在于所述第一专业词汇集合时,截取所述第一典籍中的所述第一页码范围,并存储至所述第一典籍知识类别,形成第一图谱关系;
知识图谱构建模块,所述知识图谱构建模块用于基于所述第一图谱关系组建第一图谱分支,并根据所述第一图谱分支构建目标知识图谱。
CN202311549672.3A 2023-11-20 2023-11-20 中医典籍的知识图谱构建方法及*** Active CN117494811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311549672.3A CN117494811B (zh) 2023-11-20 2023-11-20 中医典籍的知识图谱构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311549672.3A CN117494811B (zh) 2023-11-20 2023-11-20 中医典籍的知识图谱构建方法及***

Publications (2)

Publication Number Publication Date
CN117494811A true CN117494811A (zh) 2024-02-02
CN117494811B CN117494811B (zh) 2024-05-28

Family

ID=89682763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311549672.3A Active CN117494811B (zh) 2023-11-20 2023-11-20 中医典籍的知识图谱构建方法及***

Country Status (1)

Country Link
CN (1) CN117494811B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122905A (zh) * 2006-08-08 2008-02-13 王宏源 一种支持四字节的典籍数据库与历史地理信息***关联的方法
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN108597587A (zh) * 2018-04-26 2018-09-28 南京大经中医药信息技术有限公司 一种名老中医经验智能化传承和临床辅助决策***及方法
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN110888989A (zh) * 2019-10-25 2020-03-17 江苏智风教育科技有限公司 一种智能学习平台及其构建方法
CN111723213A (zh) * 2020-06-02 2020-09-29 广东小天才科技有限公司 学习数据获取方法及电子设备、计算机可读存储介质
CN112614565A (zh) * 2020-12-04 2021-04-06 杨茜 一种基于知识图谱技术的中药经典名方智能推荐方法
CN112749284A (zh) * 2020-12-31 2021-05-04 平安科技(深圳)有限公司 知识图谱构建方法、装置、设备及存储介质
WO2021103492A1 (zh) * 2019-11-28 2021-06-03 福建亿榕信息技术有限公司 一种企业经营风险预测方法和***
CN113342989A (zh) * 2021-05-24 2021-09-03 北京航空航天大学 专利数据的知识图谱构建方法、装置、存储介质及终端
CN114496119A (zh) * 2022-01-27 2022-05-13 医灯续焰(上海)生物科技有限公司 方剂演化关系的追溯方法、装置及服务器
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
WO2022198756A1 (zh) * 2021-03-23 2022-09-29 平安科技(深圳)有限公司 基于热点事件的信息推送方法、装置、计算机设备及存储介质
CN116821376A (zh) * 2023-08-30 2023-09-29 北京华琦远航国际咨询有限公司 煤矿安全生产领域的知识图谱构建方法及***

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122905A (zh) * 2006-08-08 2008-02-13 王宏源 一种支持四字节的典籍数据库与历史地理信息***关联的方法
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN108597587A (zh) * 2018-04-26 2018-09-28 南京大经中医药信息技术有限公司 一种名老中医经验智能化传承和临床辅助决策***及方法
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN110888989A (zh) * 2019-10-25 2020-03-17 江苏智风教育科技有限公司 一种智能学习平台及其构建方法
WO2021103492A1 (zh) * 2019-11-28 2021-06-03 福建亿榕信息技术有限公司 一种企业经营风险预测方法和***
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111723213A (zh) * 2020-06-02 2020-09-29 广东小天才科技有限公司 学习数据获取方法及电子设备、计算机可读存储介质
CN112614565A (zh) * 2020-12-04 2021-04-06 杨茜 一种基于知识图谱技术的中药经典名方智能推荐方法
CN112749284A (zh) * 2020-12-31 2021-05-04 平安科技(深圳)有限公司 知识图谱构建方法、装置、设备及存储介质
WO2022198756A1 (zh) * 2021-03-23 2022-09-29 平安科技(深圳)有限公司 基于热点事件的信息推送方法、装置、计算机设备及存储介质
CN113342989A (zh) * 2021-05-24 2021-09-03 北京航空航天大学 专利数据的知识图谱构建方法、装置、存储介质及终端
CN114496119A (zh) * 2022-01-27 2022-05-13 医灯续焰(上海)生物科技有限公司 方剂演化关系的追溯方法、装置及服务器
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN116821376A (zh) * 2023-08-30 2023-09-29 北京华琦远航国际咨询有限公司 煤矿安全生产领域的知识图谱构建方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王晓宇;张小凡;海兴华;刘芳;郭义;田露;孙庆;: "基于Citespace推拿治未病的可视化分析", 中华针灸电子杂志, no. 03, 15 August 2020 (2020-08-15) *
那一沙;袁玫;杜修平;: "基于词频分析和共词聚类的教学设计热点问题的研究", 现代教育技术, no. 03, 15 March 2013 (2013-03-15) *

Also Published As

Publication number Publication date
CN117494811B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN107391906B (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
Goëau et al. Pl@ ntnet mobile app
CN112487202A (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN111078852A (zh) 基于机器学习的高校前沿科研团队探测***
Khoo et al. Augmenting Dublin core digital library metadata with Dewey decimal classification
Purificato et al. Multimedia and geographic data integration for cultural heritage information retrieval
Taneva et al. Gathering and ranking photos of named entities with high precision, high recall, and diversity
Benavent et al. FCA-based knowledge representation and local generalized linear models to address relevance and diversity in diverse social images
Tsai et al. Qualitative evaluation of automatic assignment of keywords to images
CN117494811B (zh) 中医典籍的知识图谱构建方法及***
CN103440261A (zh) 基于内容和结构的生物医疗流程图检索的***及方法
Zheng et al. Discovering discriminative patches for free-hand sketch analysis
Tong et al. A document exploring system on LDA topic model for Wikipedia articles
Barai et al. Image Annotation System Using Visual and Textual Features.
Pocco et al. Exploring scientific literature by textual and image content using DRIFT
c Neethu et al. Retrieval of images using data mining techniques
Chauhan et al. Efficient layer-wise feature incremental approach for content-based image retrieval system
Karczmarczyk et al. Linguistic query based quality evaluation of selected image search engines
Carta et al. CulturAI: Semantic Enrichment of Cultural Data Leveraging Artificial Intelligence
Miao Knowledge Mapping of Medicinal Plants Based on Artificial Neural Network.
Badghaiya et al. Image classification using tag and segmentation based retrieval
Yamamuro et al. Exsight-multimedia information retrieval system
Omar et al. WAY-LOOK4: A CBIR system based on class signature of the images' color and texture features
Vermilyer Intelligent user interface agents in content-based image retrieval
Jeyasekhar et al. Towards Effective Relevance Feedback Methods in Content-Based Image Retrieval Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant