CN111785344A - 基于中医药领域专业词向量的中药处方用药安全检测方法 - Google Patents

基于中医药领域专业词向量的中药处方用药安全检测方法 Download PDF

Info

Publication number
CN111785344A
CN111785344A CN202010498068.2A CN202010498068A CN111785344A CN 111785344 A CN111785344 A CN 111785344A CN 202010498068 A CN202010498068 A CN 202010498068A CN 111785344 A CN111785344 A CN 111785344A
Authority
CN
China
Prior art keywords
prescription
information
traditional chinese
chinese medicine
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010498068.2A
Other languages
English (en)
Inventor
阮晓龙
许成刚
高海波
王昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Traditional Chinese Medicine HUTCM
Original Assignee
Henan University of Traditional Chinese Medicine HUTCM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Traditional Chinese Medicine HUTCM filed Critical Henan University of Traditional Chinese Medicine HUTCM
Priority to CN202010498068.2A priority Critical patent/CN111785344A/zh
Publication of CN111785344A publication Critical patent/CN111785344A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了基于中医药领域专业词向量的中药处方用药安全检测方法,包括如下步骤:首先爬取百科网站上中医药相关的词条信息;提取中药材、方剂的***息;构建Word2Vec的训练集;训练Word2Vec模型,构造词向量矩阵;对于每一条中药材、方剂词条信息,利用通用搜索引擎提供的文本检索功能,获取其配伍禁忌、毒性、不良反应信息和它们所在源网页的内容;然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,更新文档向量,训练完后便得到各源网页的文档向量;选出相似度高于预设阈值的风险信息集建立方药风险信息库,根据输入的方药内容,根据输入的患者特征,检索方药风险信息库,进行配伍禁忌匹配,同时进行毒性检测,不良反应检测。

Description

基于中医药领域专业词向量的中药处方用药安全检测方法
技术领域
本发明涉及中医药、用药安全技术领域,具体为基于中医药领域专业词向量的中药处方用药安全检测方法。
背景技术
为了构件专业的中药处方用药安全***,首先需要构建方药风险信息库,随着互联网技术的快速发展和信息获取的飞速增长,互联网上产生了大量的中医药相关的词条信息,所以,从互联网上抓取中医药相关的词条信息是一种快速构建方药风险信息库的有效途径。随着人们对于从海量词汇中检索目标词汇的需求愈加迫切,通过搜索引擎,如***和百度,都提供了中医药相关的词条信息的检索功能,包括基于文本的词汇检索和基于内容的词汇检索。所以,可以利用通过搜索引擎提供的基于文本的词汇检索功能来快速地构建方药风险信息库,但是直接抓取通过搜索引擎检索的结果,效果并不理想。分析正确中医药相关的词条信息所在的源网页和不正确中医药相关的词条信息所在的源网页,容易发现非目标网页的文本内容与中医药的关系并不大,甚至完全没有关系,由于方药风险信息库构建不完善,导致中药配伍禁忌、毒性和不良反应信息不能够有效准确的获得,使得中药配伍禁忌、毒性和不良反应信息的安全检测风险情况不能够及时得知。
基于此,本发明设计了基于中医药领域专业词向量的中药处方用药安全检测方法,以解决上述提到的问题。
发明内容
本发明的目的在于提供基于中医药领域专业词向量的中药处方用药安全检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于中医药领域专业词向量的中药处方用药安全检测方法,包括如下步骤:
1)、首先爬取百科网站上中医药相关的词条信息;
2)、提取中药材、方剂的***息,进行筛选、过滤、去重,建立本地词料信息库;
3)、将第2步所得的词条去掉停用词,构建Word2Vec的训练集;
4)、训练Word2Vec模型,构造词向量矩阵;
5)、对于每一条中药材、方剂词条信息,利用谷歌、百度等通用搜索引擎提供的文本检索功能,获取其配伍禁忌、毒性、不良反应信息和它们所在源网页的内容;
6)、对于第5步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
7)、利用第6步所得文本和第4步得到的词向量矩阵训练Doc2Vec模型,即用第3步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
8)、根据各源网页的文档向量与对应的中药材、方剂词向量的余弦相似度对第5步中得到的候选风险信息集进行重排和过滤,选出相似度高于预设阈值的风险信息集,作为候选风险信息集;
9)、加工处理风险信息,进行分词,去除停用词,区分准确度,建立方药风险信息库,库中包含方药的配伍禁忌、毒性、不良反应、适应人群、来源、准确度等信息;
10)、查询方药风险时,根据输入的方药内容,提取方药配伍信息,检索方药风险信息库,进行配伍禁忌匹配,同时进行毒性检测,不良反应检测;
11)、查询患者风险时,根据输入的患者特征,检索方药风险信息库,进行患者配伍禁忌匹配,同时进行毒性检测,不良反应检测。
与现有技术相比,本发明的有益效果是:
(1)充分利用中医药领域在书籍和互联网中已***息,全面收集中药配伍禁忌、毒性和不良反应等安全使用文本信息数据库。
(2)对收录的中药配伍禁忌、毒性和不良反应信息进行数据处理,区分信息准确度。
(3)对于用户输入的中药处方信息,能够快速有效的检测出方药的配伍、毒性和不良反应风险情况。
(4)对于处方中的患者信息,能够因人而异,有针对性的检测出个体患者用药的配伍、毒性和不良反应风险情况。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:基于中医药领域专业词向量的中药处方用药安全检测方法,包括如下步骤:
1)、首先爬取百科网站上中医药相关的词条信息;
2)、提取中药材、方剂的***息,进行筛选、过滤、去重,建立本地词料信息库;
3)、将第2步所得的词条去掉停用词,构建Word2Vec的训练集;
4)、训练Word2Vec模型,构造词向量矩阵;
5)、对于每一条中药材、方剂词条信息,利用谷歌、百度等通用搜索引擎提供的文本检索功能,获取其配伍禁忌、毒性、不良反应信息和它们所在源网页的内容;
6)、对于第5步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
7)、利用第6步所得文本和第4步得到的词向量矩阵训练Doc2Vec模型,即用第3步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
8)、根据各源网页的文档向量与对应的中药材、方剂词向量的余弦相似度对第5步中得到的候选风险信息集进行重排和过滤,选出相似度高于预设阈值的风险信息集,作为候选风险信息集;
9)、加工处理风险信息,进行分词,去除停用词,区分准确度,建立方药风险信息库,库中包含方药的配伍禁忌、毒性、不良反应、适应人群、来源、准确度等信息;
10)、查询方药风险时,根据输入的方药内容,提取方药配伍信息,检索方药风险信息库,进行配伍禁忌匹配,同时进行毒性检测,不良反应检测;
11)、查询患者风险时,根据输入的患者特征,检索方药风险信息库,进行患者配伍禁忌匹配,同时进行毒性检测,不良反应检测。
其中,第4步,训练Word2Vec模型采用基于CBOW模型,包括输入层、投影层和输出层,输入层由2c个单词的词向量v(context(w)1),...,v(context(w)i),…,v(context(w)2c)构成,其中context(w)表示单词w的上下文,即其前后各c个单词,投影层由对输入层的2c个单词的词向量做累加求和得到,即
Figure BDA0002523697350000051
输出层是一棵Huffman树,其中,叶子节点共N个,分别对应词典D中每个词,非叶子结点N-1个;定义pw为从根结点出发到达w对应叶子结点的路径;1w为路径pw中包含结点的个数;
Figure BDA0002523697350000052
分别为路径pw中的1w个结点,其中
Figure BDA0002523697350000053
表示的是根结点,
Figure BDA0002523697350000054
表示词w对应的结点;
Figure BDA0002523697350000055
表示词w的Huffman编码,由1w-1位编码构成,
Figure BDA0002523697350000056
表示路径表示路径pw中第j个结点对应的编码;
Figure BDA0002523697350000057
表示路径pw中非叶子结点对应的向量,
Figure BDA0002523697350000058
表示pw中第j个非叶子结点对应的向量,对于词典D中任意词w,Huffman树中比存在且紧存在一条从根结点到词w对应的路径pw;路径pw上盖存在1w-1个分支,将每个分支看成一个二次分类的过程,每一次分类将产生一个概率,将这写概率乘起来,就是所需的p(w|context(w)),其表达式为:
Figure BDA0002523697350000059
其中,
Figure BDA00025236973500000510
σ(.)表示sigmoid函数,其表达式是
Figure BDA00025236973500000511
将上述公式代入对数似然函数
Figure BDA00025236973500000512
中,得到:
Figure BDA00025236973500000513
上式即为CBOW模型的目标函数,采用随机梯度上升法来更新模型参数,即:每取一个样本(context(w),w),就对目标函数的所有相关参数做一次更新,具体步骤如下:
3.1)计算梯度
Figure BDA0002523697350000061
其中,
Figure BDA0002523697350000062
其计算公式为,接下来考虑ζ(w,j)关于xw的梯度,可以求得:
Figure BDA0002523697350000063
3.2)更新
Figure BDA0002523697350000064
其更新公式为:
Figure BDA0002523697350000065
其中,η表示学习率;
3.3)计算梯度
Figure BDA0002523697350000066
其中,
Figure BDA0002523697350000067
其计算公式为:
Figure BDA0002523697350000068
3.4)更新词向量v(w’),更新公式如下:
Figure BDA0002523697350000069
3.5)重复上述3.1)到3.4)步,直到模型训练结束。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (1)

1.基于中医药领域专业词向量的中药处方用药安全检测方法,其特征在于:包括如下步骤:
1)首先爬取百科网站上中医药相关的词条信息;
2)提取中药材、方剂的***息,进行筛选、过滤、去重,建立本地词料信息库;
3)将第2步所得的词条去掉停用词,构建Word2Vec的训练集;
4)训练Word2Vec模型,构造词向量矩阵;
5)对于每一条中药材、方剂词条信息,利用谷歌、百度等通用搜索引擎提供的文本检索功能,获取其配伍禁忌、毒性、不良反应信息和它们所在源网页的内容;
6)对于第5步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
7)利用第6步所得文本和第4步得到的词向量矩阵训练Doc2Vec模型,即用第3步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
8)根据各源网页的文档向量与对应的中药材、方剂词向量的余弦相似度对第5步中得到的候选风险信息集进行重排和过滤,选出相似度高于预设阈值的风险信息集,作为候选风险信息集;
9)加工处理风险信息,进行分词,去除停用词,区分准确度,建立方药风险信息库,库中包含方药的配伍禁忌、毒性、不良反应、适应人群、来源、准确度等信息;
10)查询方药风险时,根据输入的方药内容,提取方药配伍信息,检索方药风险信息库,进行配伍禁忌匹配,同时进行毒性检测,不良反应检测;
11)查询患者风险时,根据输入的患者特征,检索方药风险信息库,进行患者配伍禁忌匹配,同时进行毒性检测,不良反应检测。
CN202010498068.2A 2020-06-04 2020-06-04 基于中医药领域专业词向量的中药处方用药安全检测方法 Pending CN111785344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010498068.2A CN111785344A (zh) 2020-06-04 2020-06-04 基于中医药领域专业词向量的中药处方用药安全检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010498068.2A CN111785344A (zh) 2020-06-04 2020-06-04 基于中医药领域专业词向量的中药处方用药安全检测方法

Publications (1)

Publication Number Publication Date
CN111785344A true CN111785344A (zh) 2020-10-16

Family

ID=72753341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010498068.2A Pending CN111785344A (zh) 2020-06-04 2020-06-04 基于中医药领域专业词向量的中药处方用药安全检测方法

Country Status (1)

Country Link
CN (1) CN111785344A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889215A (zh) * 2021-10-13 2022-01-04 芸豆数字科技有限公司 一种配伍禁忌预警提示方法、装置、设备及存储介质
CN116978511A (zh) * 2023-09-25 2023-10-31 字节星球科技(成都)有限公司 基于大语言模型的用药风险识别方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN110706789A (zh) * 2019-10-10 2020-01-17 电子科技大学 一种中药配伍禁忌挖掘方法
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN110706789A (zh) * 2019-10-10 2020-01-17 电子科技大学 一种中药配伍禁忌挖掘方法
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段金廒;张伯礼;范欣生;张艳军;高月;林娜;钟赣生;: "中药配伍禁忌研究思路与技术体系框架", 世界科学技术(中医药现代化), no. 03 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889215A (zh) * 2021-10-13 2022-01-04 芸豆数字科技有限公司 一种配伍禁忌预警提示方法、装置、设备及存储介质
CN116978511A (zh) * 2023-09-25 2023-10-31 字节星球科技(成都)有限公司 基于大语言模型的用药风险识别方法、装置及存储介质
CN116978511B (zh) * 2023-09-25 2023-12-12 字节星球科技(成都)有限公司 基于大语言模型的用药风险识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN111371806B (zh) 一种Web攻击检测方法及装置
CN109522557B (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
CN112632292A (zh) 业务关键词的提取方法、装置、设备及存储介质
US9489401B1 (en) Methods and systems for object recognition
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN105824904B (zh) 基于中医药领域专业词向量的中草药植物图片爬取方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109937417A (zh) 用于电子记录的上下文检索的***和方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN114237621B (zh) 一种基于细粒度共注意机制的语义代码搜索方法
CN107506472B (zh) 一种学生浏览网页分类方法
CN111160014B (zh) 一种智能分词方法
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN112214335A (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN111785344A (zh) 基于中医药领域专业词向量的中药处方用药安全检测方法
CN111158692B (zh) 智能合约函数相似性的排序方法、***和存储介质
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN117079310A (zh) 一种图文多模态融合的行人重识别方法
CN108475265A (zh) 获取未登录词的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination