CN113128233A - 一种心理疾病知识图谱的构建方法及*** - Google Patents
一种心理疾病知识图谱的构建方法及*** Download PDFInfo
- Publication number
- CN113128233A CN113128233A CN202110512846.3A CN202110512846A CN113128233A CN 113128233 A CN113128233 A CN 113128233A CN 202110512846 A CN202110512846 A CN 202110512846A CN 113128233 A CN113128233 A CN 113128233A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- mental disease
- data
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种心理疾病知识图谱的构建方法及***,获取心理疾病相关已有信息,建立心理疾病语料集;根据所述心理疾病语料集,确定实体、关系以及属性指示词表;利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取其特征值,将微调后的数据和提取的特征进行融合,利用融合后的数据对预先构建的深度学习模型进行训练;利用训练后的深度学习模型对待处理的心理疾病语料进行预测,将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。本发明可有效地提高实体识别的精度,提高抽取复杂实体的正确率。
Description
技术领域
本发明属于知识图谱技术领域,具体涉及一种心理疾病知识图谱的构建方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系以结构化的形式展现出来。知识图谱从语义角度出发,通过描述客观世界中概念、实体及其关系,并以三元组——这个可以被计算机识别的知识结构进行表示,从而让计算机具备更好地组织、管理和利用互联网上海量信息的能力。
目前,很多人都有心理问题或障碍,但是大多数人对心理健康的标准尚不清楚,对心理疾病种类的划分也不明晰,精神卫生知识的宣传工作亟待深入。
随着“互联网+”技术以及智慧医疗的迅速发展,随之产生了海量的心理疾病数据,但这些心理疾病数据大多以文档等非结构化文本存储,数据间关联性较差,无法得到有效利用。为了有效的管理与利用心理疾病数据,让数据变得互联,构建心理疾病知识图谱显得尤为重要。
知识图谱建立的步骤主要是:实体识别、关系抽取、属性识别与知识存储。随着深度学习的不断发展,利用深度神经网络识别抽取实体、构建知识图谱已成为主流方法,然而心理疾病数据标注成本高,缺少大量标注数据训练的神经网络往往识别精度不高;心理疾病知识图谱属于专业领域知识图谱,要求知识质量更高,现有的实体识别算法由于缺乏先验知识的指导,在抽取复杂实体时难免会出错,需要专业人员进行二次纠正,耗费人力物力。
发明内容
本发明为了解决上述问题,提出了一种心理疾病知识图谱的构建方法及***,本发明可有效地提高实体识别的精度,提高抽取复杂实体的正确率。
根据一些实施例,本发明采用如下技术方案:
一种心理疾病知识图谱的构建方法,包括以下步骤:
获取心理疾病相关已有信息,建立心理疾病语料集;
根据所述心理疾病语料集,确定实体、关系以及属性指示词表;
利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值,将微调后的数据和提取的特征进行融合,利用融合后的数据对预先构建的深度学习模型进行训练;
利用训练后的深度学习模型对待处理的心理疾病语料进行预测,将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。
作为可选择的实施方式,获取心理疾病相关已有信息,建立心理疾病语料集的具体过程包括:
根据心理疾病相关书籍设置心理疾病术语种子词集;
根据心理疾病术语种子集,遍历搜索医疗网站中的相关内容,记录相关网页url,存为url集合;
对url集合使用爬虫技术进行网页内容的爬取;
对爬取的网页内容采用正则表达式、xpath解析器进行内容提取,对于非结构化数据存储至数据库中,对于半结构化数据,直接抽取出三元组进行存储,不同的关系类型、不同的属性类型进行区分存储;
对已经处理好的语料进行至少一部分的标注。
作为可选择的实施方式,利用语言模型对所述心理疾病语料集中的数据进行微调的具体过程包括:
执行git命令,下载谷歌开源的albert_tiny_***_zh模型;
对心理疾病语料进行处理,将txt文件转换为特定格式的tfrecords文件,得到的tfrecords文件进行预训练;
执行modeling.py函数,加载预训练微调后的ALBERT语言模型,利用所述语言模型对得到的语料进行预训练微调。
作为可选择的实施方式,构建心理疾病命名实体识别数据集的具体过程包括:
对已标注数据的每个字符打上标签;
采用一定比例对上述数据生成训练集与验证集;
得到的训练集与验证集构建词语索引文件word2id与id2word;对心理疾病语料构建词频统计词典word_frequency文件;
对训练集、测试集与验证集构建标签索引文件tag2id与id2tag。
作为可选择的实施方式,提取所述命名实体识别数据集的特征值的具体过程包括:
对输入序列中的每个字符构建“BMES”四种词集,其中“B”、“M”、“E”、“S”分别代表每个字符在词语中的分割信息;
对于相应字符的“BMES”词集,对照词嵌入查找表,将词集中的词语转为词向量,设置词向量的维度;
采用加权平均算法将每个字符的“BMES”词集进行压缩。
作为可选择的实施方式,将微调后的数据和提取的特征进行融合的具体过程包括:
对于输入的字符向量序列,每一时刻创建一个前向与后向GRU隐含层单元,每个隐含层单元创建一个门控循环单元,确定状态序列,设置相应的参数;
对得到的状态序列进行调整,将三维数组扁平化为二维数组,并计算隐层输出,进而计算状态输出;
将计算的状态输出进行调整,由二维数组转换为三维数组;
构建并初始化转移矩阵,将上一步转换后得到的三维数组与状态转移矩阵作为CRF函数的输入,采用最大似然估计法计算损失值;
进行反向传播,计算预测最优序列标记。
作为可选择的实施方式,将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储的具体过程包括:
对比id2tag索引文件,将得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表;
对照实体词表,使用分词工具对心理疾病语料进行分词,对照停用词表去停用词;
对照关系指示词表,完成实体关系三元组的抽取;
对照属性指示词表,完成实体属性三元组的抽取;
将抽取的实体关系、实体属性三元组存储为csv文件,不同的关系类型、不同的属性类型进行区分存储;
依据存储文件,分别创建实体、实体关系和实体属性,完成知识存储。
一种心理疾病知识图谱的构建***,包括:
心理疾病语料集构建模块,被配置为获取心理疾病相关已有信息,建立心理疾病语料集;
指示词表构建模块,被配置为根据所述心理疾病语料集,确定实体、关系以及属性指示词表;
预测模型构建及训练模块,被配置为利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值,将微调后的数据和提取的特征进行融合,利用预训练的深度学习模型进行预测;
知识存储构建模块,被配置为将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供了一种心理疾病知识图谱的构建方法,使得海量心理疾病数据可以得到有效的管理与利用,并可在该知识图谱的基础上开展知识搜索、智能问答等多个应用。
针对缺少大量标注数据训练的深度学习模型,本发明使用ALBERT语言模型对心理疾病语料进行预训练,为深度学习模型带来了丰富的语义信息,可有效地提高实体识别的精度。
针对专业领域知识图谱中实体名称多较为复杂的情况,本发明通过构建了MWI特征来引入先验知识,大大提高了抽取复杂实体的正确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本实施例的整体流程图;
图2为本实施例心理疾病语料爬取与处理的流程图;
图3为本实施例实体识别模型工作的流程图;
图4为本实施例关系抽取与属性识别的流程图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种心理疾病知识图谱的构建方法,如图1所示,具体包括:
步骤(1):心理疾病语料集的建立。
步骤(2):心理疾病领域本体的构建。
步骤(3):基于ALBERT-MWI-BiGRU-CRF模型的命名实体抽取。
步骤(4):基于模板匹配的关系抽取与属性识别。
步骤(5):基于Neo4j图数据库的知识存储。
具体的,在本实施例中,步骤(1)的步骤为:
步骤(1-1):根据《CCDM-3》、《DSM-5》等专业心理疾病书籍设置心理疾病术语种子词集。
步骤(1-2):根据心理疾病术语种子集,遍历搜索医疗网站中的相关内容,记录相关网页url,存为url集合。
步骤(1-3):对步骤(1-2)得到的url集合使用爬虫技术进行网页内容的爬取,如图2所示。
所述爬虫技术使用scrapy框架。
步骤(1-4):步骤(1-3)爬取的网页内容含有超文本标记语言,无法直接作为心理疾病语料,故对爬取的html网页采用正则表达式、xpath解析器进行内容提取,对于非结构化数据以txt文件格式存储至数据库中,对于半结构化数据,直接抽取出三元组存储为csv文件,不同的关系类型、不同的属性类型进行区分存储。
所属数据库:本地已经建立好的数据库。
步骤(1-5):对上述处理好的语料进行部分标注,已标注数据约占全部数据的40%。
具体的,在本实施例中,步骤(2)的步骤为:
步骤(2-1):根据步骤(1)所建心理疾病语料集,在本实施例中,在专业人员指导下,确定的实体类型如表1所示:
表1
步骤(2-2):根据步骤(1)所建心理疾病语料集,在本实施例中,在专业人员指导下,确定的关系类型如表2所示:
表2
步骤(2-3):根据步骤(1)所建心理疾病语料集,在本实施例中,在专业人员指导下,确定的属性类型如表3所示:
表3
当然,在其他实施例中,上述词表可以进行调整。
具体的,在本实施例中,如图3所示,步骤(3)的步骤为:
步骤(3-1):获取预训练好的ALBERT语言模型,对步骤(1)得到的语料进行预训练微调。
步骤(3-2):构建心理疾病命名实体识别数据集,并对数据集做预处理。
步骤(3-3):对步骤(3-2)得到的数据集构建Muti-word Information(MWI)特征。
步骤(3-4):将步骤(3-1)得到的字向量与步骤(3-3)得到MWI特征进行融合,得到加强的字向量。
步骤(3-5):建立BiGRU-CRF深度学习模型。
步骤(3-6):将步骤(3-4)得到的加强字向量序列输入模型中进行训练,并保存训练好的模型。
具体的,在本实施例中,步骤(3-1)的步骤为:
步骤(3-1-1):执行git命令,下载谷歌开源的albert_tiny_***_zh模型。
所述命令具体为:git clone https://github.com/brightmart/albert_zh.git
步骤(3-1-2):对步骤(1)得到的语料进行处理,执行create_pretrain_data.py命令,将txt文件转换为特定格式的tfrecords 文件。
所述命令具体为:
python3
create_pretraining_data.py--do_whole_word_mask=True--input_file=%s\--output_file=%s--vocab_file=%s--do_lower_case=True\--max_seq_length=512--max_predictions_per_seq=20–masked_lm_prob=0.10%(要处理的语料文件地址,处理好的tfrecords文件地址,vocab.txt文件地址)
步骤(3-1-3):对步骤(3-1-2)得到的tfrecords文件进行执行预训练命令。
所述预训练命令为:
python3 run_pretraining.py--input_file=%s\--output_dir=%s--do_train=True--do_eval=True--bert_config_file=%s\--train_batch_size=4096--max_seq_length=128--max_predictions_per_seq=20\--num_train_steps=100000--num_warmup_steps=12500--learning_rate=0.00176\--save_checkpoints_steps=1000--init_checkpoint=%s%(处理好的tfrecords文件地址,微调后的语言模型存放地址,语言模型配置文件地址,步骤(2-1)下载的语言模型存放地址)。
当然,上述编程语句仅为本实施例的一种示例,在其他实施例中,可以进行调整。
步骤(3-1-4):执行modeling.py函数,加载步骤(3-1-3)预训练微调后的ALBERT语言模型。
所述步骤(3-2)的步骤为:
步骤(3-2-1):采用“BIOES”标注法对已标注数据的每个字符打上标签。
步骤(3-2-2):采用9:1比例对上述数据生成训练集与验证集。同样的,在其他实施例的,上述比例,可以进行改变。
步骤(3-2-3):对步骤(3-2-2)得到的训练集与验证集构建词语索引文件word2id与id2word。对步骤(1)得到的心理疾病语料构建词频统计词典word_frequency文件。
步骤(3-2-4):对训练集、测试集与验证集构建标签索引文件tag2id与id2tag。
具体的,在本实施例中,步骤(3-3)的步骤为:
步骤(3-3-1):对输入序列中的每个字符构建“BMES”四种词集,其中“B”、“M”、“E”、“S”分别代表每个字符在词语中的分割信息。对于输入序列s中的某一个字符c,“BMES”词集的构建公式如下:
其中,B、M、E、S代表四种词集,ci为待构建词集的字符,D代表预先构建好的心理疾病词典,w为心理疾病词典D中含有的词语。此外,当某个词集为空时,对该词集使用特殊词“NULL”进行填充。
步骤(3-3-2):根据步骤(3-3-1)得到字符c的“BMES”词集后,对照词嵌入查找表,将词集中的词语转为词向量,词向量的维度设置为50。
所述词嵌入查找表是对步骤(1)得到的心理疾病语料数据使用Word2Vec模型的skip-gram算法构建。
步骤(3-3-3):将每个字符c的“BMES”词集进行压缩。压缩算法采用加权平均算法,具体地来说,设f(w)为词语w在静态数据中出现的频率,ew代表词嵌入查找表,则某词集S采用以下公式进行压缩:
在这里,f(w)通过步骤(3-3)生成的word_frequency文件获得,F代表属于该字符的词集下所有单词的f(w)之和。静态数据是步骤(1)得到的心理疾病语料。
具体的,在本实施例中,步骤(3-4)的步骤为:
步骤(3-4-1):将输入语句序列s=(c1,c2,c3,...,cn)输入至步骤(3-1)得到的ALBERT语言模型中,得到其字向量序列ec=(e1,e2,e3,...en),其中字向量维度为128。
步骤(3-4-2):将输入语句序列s=(c1,c2,c3,...,cn)中的每个字符ci按照步骤(3-3)处理得到MWI特征。
步骤(3-4-3):将字向量序列ec与MWI特征序列进行融合:
Ec=[ec;vf(B);vf(M);vf(E);vf(S)]
其中vf为步骤(3-3-3)中的压缩算法。
具体的,在本实施例中,步骤(3-5)的步骤为:
步骤(3-5-1):创建BiGRU模型,构建上下文关系。
步骤(3-5-2):连接CRF函数,计算预测最优序列标记。
所述步骤(3-5-1)的步骤为:
步骤(3-5-1-1):对于输入的字符向量序列,每一时刻创建一个前向与后向GRU隐含层单元,神经元个数为256。在这里,时刻代表字符的数量。
步骤(3-5-1-2):每个隐含层单元创建一个门控循环单元H,其定义如下:
rt=σ(Wr·[ht-1,xt],br)
zt=σ(Wz·[ht-1,xt],bz)
在这里,rt是重置门,zt为更新门。门控循环单元H的输入为本时刻的输入字符向量xt与上一时刻门控循环单元的状态ht-1,输出为本时刻的状态ht。
所述重置门rt:用来控制候选状态的计算是否依赖上一时刻的状态ht-1。其输入为本时刻的输入字符向量xt与上一时刻门控循环单元的状态ht-1,使用sigmoid函数激活后,所有值都被控制在[0,1]范围内。
所述更新门zt:用来控制当前状态需要从历史状态中保留多少信息,以及需要从候选状态中接受多少新信息。其输入为本时刻的输入字符向量xt与上一时刻门控循环单元的状态ht-1,使用sigmoid函数激活后,所有值都被控制在[0,1]范围内。
步骤(3-5-1-3):构建Wh、Wp参数矩阵,构建bh、bp偏置量,均为可训练参数。
步骤(3-5-1-4):对步骤(3-5-1-2)得到的状态序列进行reshape操作,由三维数组扁平化为二维数组hs,其中第一维的维度为batch_size*num_steps,第二维的维度为gru_dim*2。
所述batch_size为本次输出的样本数量。
所述num_steps为每个样本内的字符数量。
所述gru_dim为一个GRU单元的神经元数量。
步骤(3-5-1-5):将步骤(3-5-1-4)的输出hs作为输入,计算隐层输出h,公式如下:
h=hs*Wh+bh
步骤(3-5-1-6):由步骤(3-5-1-5)得到的隐层输出h,计算状态输出p,公示如下:
p=h*Wp+bp
步骤(3-5-1-7):对步骤(3-5-1-6)得到的状态输出p进行reshape操作,由二维数组转换为三维数组,其中第一维的维度为batch_size,第二维的维度为num_steps,第三维的维度为num_tags。
所述num_tags为本次实体识别任务预测标签的总数。
具体的,在本实施例中,步骤(3-5-2)的步骤为:
步骤(3-5-2-1):构建并初始化转移矩阵trans。
步骤(3-5-2-2):将步骤(3-5-1-7)的输出与状态转移矩阵trans作为CRF函数的输入,采用最大似然估计法计算损失值loss,公式如下:
步骤(3-5-2-3):反向传播时,使用Adam优化器更新参数。
具体的,在本实施例中,步骤(3-6)的步骤为:
步骤(3-6-1):加载步骤(3-2)中的训练集、验证集数据,并按照步骤(3-3)、(3-4)进行处理。
步骤(3-6-2):将步骤(3-6-1)加载好的数据输入到步骤(3-5)建立好的模型中进行训练。
步骤(3-6-3):将训练好的模型进行保存。
所述步骤(3-6-2)的步骤为:
步骤(3-6-2-1):设置训练周期为30,即训练集完全迭代30次就停止模型训练。
步骤(3-6-2-2):每次迭代的batch_size设置为24,即一次训练24个语句序列。
步骤(3-6-2-3):设置初始学习率lr0为1e-3,衰减率decay为0.05,学习率更新公式如下:
具体的,在本实施例中,步骤(3-6-3)的步骤为:
步骤(3-6-3-1):设置全局变量best_f1=0.0。
步骤(3-6-3-2):模型每训练完成一周期,将验证集的数据输入至当前模型进行预测,若取得的f1>best_f1,best_f1=f1,保存并覆盖原模型存储文件。
具体的,在本实施例中,如图4所示,步骤(4)的步骤为:
步骤(4-1):加载步骤(3)中训练好的实体识别模型步骤(4-2):将步骤(1)得到心理疾病语料按照步骤(3-2)、(3-3)、(3-4)进行处理,送入实体识别模型中进行预测。
步骤(4-3):对比id2tag索引文件,将步骤(4-2)得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表。
所述实体词表为预先构建好的实体词表。
步骤(4-4):对照实体词表,使用分词工具对心理疾病语料进行分词,对照停用词表去停用词。
所述分词工具为jieba分词,python环境下使用pip install jieba即可完成安装。
所述停用词表为预先构建好的。
步骤(4-5):对照关系指示词表,完成实体关系三元组的抽取。
步骤(4-6):对照属性指示词表,完成实体属性三元组的抽取。
步骤(4-7):将步骤(4-5)、(4-6)抽取的三元组存储为csv文件,不同的关系类型、不同的属性类型进行区分存储。
具体的,在本实施例中,步骤(5)的步骤为:
步骤(5-1):加载步骤(4)得到的所有csv文件。
步骤(5-2):调用以下命令完成实体的创建:
CREATE(<node-name>:<label-name>)
其中,<node-name>是要创建的节点名称,<label-name>是节点标签的名称。
步骤(5-3):调用以下命令完成实体属性的创建:
CREATE(
<node-name>:<label-name>
<property1-name>:<property1-Value>,
<property2-name>:<property2-Value>,
......,
<propertyn-name>:<propertyn-Value>
)
其中,<property1-name>...<propertyn-name>是属性名称,<property1-Value>...<propertyn-Value>是属性值。
步骤(5-4):调用以下命令完成
CREATE(
<node1-name>:<label1-name>
[(<relationship-name>:<relationship-label-name>)]
<node2-name>:<label2-name>
)
其中,<node1-name>是From节点的名称,<label1-name>是From节点的标签名称,<node2-name>是To节点的名称,<label2-name>是To节点的标签名称,<relationship-name>是一个关系的名称,<relationship-label-name>是一个关系的标签名称。
同样的,在其他实施例中,可以更改上述具体实现编程语句,但只要命令逻辑与本发明一致,理应落入本发明的保护范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种心理疾病知识图谱的构建方法,其特征是:包括以下步骤:
获取心理疾病相关已有信息,建立心理疾病语料集;
根据所述心理疾病语料集,确定实体、关系以及属性指示词表;
利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值,将微调后的数据和提取的特征进行融合,利用融合后的数据对预先构建的深度学习模型进行训练;
利用训练后的深度学习模型对待处理的心理疾病语料进行预测,将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。
2.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:获取心理疾病相关已有信息,建立心理疾病语料集的具体过程包括:
根据心理疾病相关书籍设置心理疾病术语种子词集;
根据心理疾病术语种子集,遍历搜索医疗网站中的相关内容,记录相关网页url,存为url集合;
对url集合使用爬虫技术进行网页内容的爬取;
对爬取的网页内容采用正则表达式、xpath解析器进行内容提取,对于非结构化数据存储至数据库中,对于半结构化数据,直接抽取出三元组进行存储,不同的关系类型、不同的属性类型进行区分存储;
对已经处理好的语料进行至少一部分的标注。
3.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:利用语言模型对所述心理疾病语料集中的数据进行微调的具体过程包括:
执行git命令,下载谷歌开源的albert_tiny_***_zh模型;
对心理疾病语料进行处理,将txt文件转换为特定格式的tfrecords文件,得到的tfrecords文件进行预训练;
执行modeling.py函数,加载预训练微调后的ALBERT语言模型,利用所述语言模型对得到的语料进行预训练微调。
4.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:构建心理疾病命名实体识别数据集的具体过程包括:
对已标注数据的每个字符打上标签;
采用一定比例对上述数据生成训练集与验证集;
得到的训练集与验证集构建词语索引文件word2id与id2word;对心理疾病语料构建词频统计词典word_frequency文件;
对训练集、测试集与验证集构建标签索引文件tag2id与id2tag。
5.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:提取所述命名实体识别数据集的特征值的具体过程包括:
对输入序列中的每个字符构建“BMES”四种词集,其中“B”、“M”、“E”、“S”分别代表每个字符在词语中的分割信息;
对于相应字符的“BMES”词集,对照词嵌入查找表,将词集中的词语转为词向量,设置词向量的维度;
采用加权平均算法将每个字符的“BMES”词集进行压缩。
6.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:将微调后的数据和提取的特征进行融合的具体过程包括:
对于输入的字符向量序列,每一时刻创建一个前向与后向GRU隐含层单元,每个隐含层单元创建一个门控循环单元,确定状态序列,设置相应的参数;
对得到的状态序列进行调整,将三维数组扁平化为二维数组,并计算隐层输出,进而计算状态输出;
将计算的状态输出进行调整,由二维数组转换为三维数组;
构建并初始化转移矩阵,将上一步转换后得到的三维数组与状态转移矩阵作为CRF函数的输入,采用最大似然估计法计算损失值;
进行反向传播,计算预测最优序列标记。
7.如权利要求1所述的一种心理疾病知识图谱的构建方法,其特征是:将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储的具体过程包括:
对比id2tag索引文件,将得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表;
对照实体词表,使用分词工具对心理疾病语料进行分词,对照停用词表去停用词;
对照关系指示词表,完成实体关系三元组的抽取;
对照属性指示词表,完成实体属性三元组的抽取;
将抽取的实体关系、实体属性三元组存储为csv文件,不同的关系类型、不同的属性类型进行区分存储;
依据存储文件,分别创建实体、实体关系和实体属性,完成知识存储。
8.一种心理疾病知识图谱的构建***,其特征是:包括:
心理疾病语料集构建模块,被配置为获取心理疾病相关已有信息,建立心理疾病语料集;
指示词表构建模块,被配置为根据所述心理疾病语料集,确定实体、关系以及属性指示词表;
预测模型构建及训练模块,被配置为利用语言模型对所述心理疾病语料集中的数据进行微调,构建心理疾病命名实体识别数据集,提取所述命名实体识别数据集的特征值,将微调后的数据和提取的特征进行融合,利用预训练的深度学习模型进行预测;
知识存储构建模块,被配置为将预测得到的实体类别索引序列转换为实体类型序列,并将各实体词存入实体词表,并依据关系类型以及属性类型,分别抽取实体关系和属性数据,进行分别存储。
9.一种电子设备,其特征是:包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-7中任一项所述的方法中的步骤。
10.一种计算机可读存储介质,其特征是:用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-7中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512846.3A CN113128233B (zh) | 2021-05-11 | 2021-05-11 | 一种心理疾病知识图谱的构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512846.3A CN113128233B (zh) | 2021-05-11 | 2021-05-11 | 一种心理疾病知识图谱的构建方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128233A true CN113128233A (zh) | 2021-07-16 |
CN113128233B CN113128233B (zh) | 2022-07-19 |
Family
ID=76781679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110512846.3A Active CN113128233B (zh) | 2021-05-11 | 2021-05-11 | 一种心理疾病知识图谱的构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128233B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362931A (zh) * | 2021-08-12 | 2021-09-07 | 北京好欣晴移动医疗科技有限公司 | 基于知识图谱的归因分析方法、装置和*** |
CN113722501A (zh) * | 2021-08-06 | 2021-11-30 | 深圳清华大学研究院 | 基于深度学习的知识图谱构建方法、设备及存储介质 |
CN114504298A (zh) * | 2022-01-21 | 2022-05-17 | 南京航空航天大学 | 基于多源健康感知数据融合的生理特征判别方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
US20170097984A1 (en) * | 2015-10-05 | 2017-04-06 | Yahoo! Inc. | Method and system for generating a knowledge representation |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及*** |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112417100A (zh) * | 2020-11-20 | 2021-02-26 | 大连民族大学 | 辽代历史文化领域知识图谱及其智能问答***的构建方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112635071A (zh) * | 2020-12-25 | 2021-04-09 | 中国矿业大学 | 融合中西医知识的糖尿病知识图谱构建方法 |
-
2021
- 2021-05-11 CN CN202110512846.3A patent/CN113128233B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170097984A1 (en) * | 2015-10-05 | 2017-04-06 | Yahoo! Inc. | Method and system for generating a knowledge representation |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及*** |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112417100A (zh) * | 2020-11-20 | 2021-02-26 | 大连民族大学 | 辽代历史文化领域知识图谱及其智能问答***的构建方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN112635071A (zh) * | 2020-12-25 | 2021-04-09 | 中国矿业大学 | 融合中西医知识的糖尿病知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
张小亮等: "基于自然语言处理的临床合理用药知识图谱构建", 《中华医学图书情报杂志》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722501A (zh) * | 2021-08-06 | 2021-11-30 | 深圳清华大学研究院 | 基于深度学习的知识图谱构建方法、设备及存储介质 |
CN113722501B (zh) * | 2021-08-06 | 2023-09-22 | 深圳清华大学研究院 | 基于深度学习的知识图谱构建方法、设备及存储介质 |
CN113362931A (zh) * | 2021-08-12 | 2021-09-07 | 北京好欣晴移动医疗科技有限公司 | 基于知识图谱的归因分析方法、装置和*** |
CN114504298A (zh) * | 2022-01-21 | 2022-05-17 | 南京航空航天大学 | 基于多源健康感知数据融合的生理特征判别方法及*** |
CN114504298B (zh) * | 2022-01-21 | 2024-02-13 | 南京航空航天大学 | 基于多源健康感知数据融合的生理特征判别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113128233B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020438B (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113128233B (zh) | 一种心理疾病知识图谱的构建方法及*** | |
CN110287481B (zh) | 命名实体语料标注训练*** | |
CN111209738B (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
CN108460089A (zh) | 基于Attention神经网络的多元特征融合中文文本分类方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及*** | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及*** | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN110263323A (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及*** | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN113128232B (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113220865B (zh) | 一种文本相似词汇检索方法、***、介质及电子设备 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN114722805B (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及*** | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN112732872A (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN116737967A (zh) | 一种基于自然语言的知识图谱构建和完善***及方法 | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |