CN116796750A - 一种基于ner模型基因文献信息提取方法、***及存储介质 - Google Patents

一种基于ner模型基因文献信息提取方法、***及存储介质 Download PDF

Info

Publication number
CN116796750A
CN116796750A CN202311070676.3A CN202311070676A CN116796750A CN 116796750 A CN116796750 A CN 116796750A CN 202311070676 A CN202311070676 A CN 202311070676A CN 116796750 A CN116796750 A CN 116796750A
Authority
CN
China
Prior art keywords
document
gene
word
literature
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311070676.3A
Other languages
English (en)
Other versions
CN116796750B (zh
Inventor
何加铭
冯变
郑韶伟
王家功
金錱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Original Assignee
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Yongheng Yaoyao Intelligent Technology Co ltd filed Critical Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority to CN202311070676.3A priority Critical patent/CN116796750B/zh
Publication of CN116796750A publication Critical patent/CN116796750A/zh
Application granted granted Critical
Publication of CN116796750B publication Critical patent/CN116796750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于NER模型基因文献信息提取方法、***及存储介质,涉及文献信息提取技术领域,包括:步骤S1,通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献;步骤S2,使用基因文献筛选法对基础基因文献进行筛选;步骤S3,使用信息提取法对标准基因文献中的文献信息进行提取,构建信息表格;步骤S4,将多个标准基因文献以及对应的信息表格放入NER模型中进行训练;步骤S5,使用NER模型对待提取的基因文献进行信息提取;本发明用于解决现有技术中缺少对基因文献的有效提取方法的问题。

Description

一种基于NER模型基因文献信息提取方法、***及存储介质
技术领域
本发明涉及文献信息提取技术领域,尤其涉及一种基于NER模型基因文献信息提取方法、***及存储介质。
背景技术
为满足各学科领域用户从海量文献信息获取满足自己需求和对这些信息进行批量式处理的双重需求,国内外学者和机构开发出不同的文献信息提取的软件,比如,BibExcel、CiteSpace、Gephi和Ucinet等,现有的数据检索***虽然能够直接对检索结果进行可视化计量分析,但是很难做到检索式的搜索结果完全准确和全面,搜索结果含有一定的噪声,并且也只能显示有限数量,无法做到精准获取文献中需要的内容;NER模型中NER全称是命名实体识别(Named Entity Recognition, NER),旨在识别文本中感兴趣的实体,如位置、组织和时间。已识别的实体可以在各种下游应用程序中使用,如根据患者记录去识别和信息提取***,也可以作为机器学习***的特性,用于其他自然语言处理任务。
现有技术中还缺少对基因文献的有效提取方法,例如在申请公开号为CN101697164A的发明专利中,公开了一种传统药物专利文献的信息提取方法、***和装置,该文献信息提取方法将传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与传统药物专利文献相关联,并存储在相应的传统药物标引数据库中,实现了对传统药物专利文献的标引与信息提取,上述方式也只能通过药物的说明数据进行信息提取,对于文献数据的无法做到区分和筛选,从而有针对性的提取,导致提取的效率、直观性以及准确度较低,在获取基因文献信息时会浪费较长的时间,无法快速查询到想要的基因文献中的信息,鉴于此,有必要对现有的针对基因文献的信息提取方法进行改进。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于NER模型基因文献信息提取方法、***及存储介质,本发明用于解决现有技术中缺少对基因文献的有效提取方法,从而导致在获取基因文献信息时会浪费较长的时间,无法快速查询到想要的基因文献中的信息的问题。
为了实现上述目的,本发明提供一种基于NER模型基因文献信息提取方法,包括:
步骤S1,通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;
步骤S2,使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
步骤S3,使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
步骤S4,将多个标准基因文献以及对应的信息表格放入NER模型中进行训练;
步骤S5,使用NER模型对待提取的基因文献进行信息提取。
进一步地,所述步骤S2包括如下子步骤:
步骤S201,将多个基础基因文献记为基础文献1至基础文献M,获取基础文献1至基础文献M的字数,记为文献字数1至文献字数M;
步骤S202,以第一标准字数为界限,将文献字数1至文献字数M中大于等于第一标准字数的基础文献记为多字文献1至多字文献J;
将文献字数1至文献字数M中小于第一标准字数的基础文献记为少字文献1至少字文献K1,其中,M、J以及K1均为大于等于1的正整数,J加上K1的值等于M;
所述基因文献筛选法包括多字文献筛选法以及少字文献筛选法;
步骤S203,对多字文献1至多字文献J使用多字文献筛选法,将筛选成功的多字文献记为多字标准文献;
步骤S204,对少字文献1至少字文献K1使用少字文献筛选法,将筛选成功的少字文献记为少字标准文献;
步骤S205,将多字标准文献以及少字标准文献记为标准基因文献。
进一步地,所述多字文献筛选法包括:
对于多字文献1至多字文献J中的任意一个多字文献,获取多字文献中的所有图片,记为文献图片1至文献图片N;
在数据库中获取多个标准基因图片,所述标准基因图片包括多个基因相关的图片,将多个标准基因图片的集合记为基因图片库;
将文献图片1至文献图片N中的每一个图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片在基因图片库中的比对结果分别记为图片百分比1至图片百分比C;
获取每个文献图片在基因图片库中进行比对后图片百分比1至图片百分比C中的最大值,记为文献图片的图片最大相似值;
当文献图片1至文献图片N均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值N。
进一步地,所述多字文献筛选法还包括:
对于文献图片1至文献图片N中的任意一个文献图片的图片最大相似值,将图片最大相似值大于等于标准相似值的文献图片记为文献基因图片;
获取文献图片1至文献图片N中文献基因图片的数量,记为基因图片数;
对多字文献1至多字文献J使用多字文献删除法,所述多字文献删除法包括:当多字文献1至多字文献J中任意一个多字文献的基因图片数小于等于标准图片数时,将多字文献在多字文献1至多字文献J中删除。
进一步地,所述多字文献筛选法还包括:
将使用多字文献删除法后的多字文献1至多字文献J记为已筛选文献1至已筛选文献L;
对已筛选文献1至已筛选文献L中的每一个已筛选文献,使用文字筛选法,将通过文字筛选法后筛选成功的已筛选文献记为多字标准文献。
进一步地,所述文字筛选法包括:
以句号为界限获取文献内的所有句子,记为句子1至句子W;
对于句子1至句子W中的任意一个句子,使用中文分词并将句子中的中文词记为中文词1至中文词A;
在关键词数据库中以基因为搜索词获取与基因相关的关键词,记为基因关键词库,将中文词1至中文词A放入基因关键词库中进行中文词匹配,获取中文词1至中文词A中匹配成功的数量,记为相关词数;
将句子1至句子W中相关词数小于等于标准词数的句子在句子1至句子W中删除,并将剩下的句子记为基因句;
当文献中的基因句大于等于标准句数时,将文献记为筛选成功的文献。
进一步地,所述步骤S204包括如下子步骤:
步骤S2041,当少字文献1至少字文献K1中的任意一个少字文献的字数小于等于第二标准字数时,将少字文献在少字文献1至少字文献K1中删除并将剩余的少字文献记为少字文献1至少字文献K2;
步骤S2042,对少字文献1至少字文献K2中的每一个文献使用少字文献筛选法。
进一步地,所述少字文献筛选法包括:
对文献中的所有文本进行中文分词,并记为中文词1至中文词B,将中文词1至中文词B放入基因关键词库中进行中文词匹配,获取中文词1至中文词B中匹配成功的数量,记为基因词数;
当文献有图片时,将所有图片记为少字图片1至少字图片D,将少字图片1至少字图片D中的每一个少字图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片的在基因图片库中的比对结果分别记为图片百分比1至图片百分比E;
获取每个少字图片在基因图片库中进行比对后图片百分比1至图片百分比E中的最大值,记为少字图片的图片最大相似值;
当少字图片1至少字图片D均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值D;
将最大相似值1至图片最大相似值D中大于等于标准相似值的图片最大相似值记为过线相似值;
当文献的过线相似值的数量大于等于标准过线数量且基因词数大于等于第三标准词数时,将文献记为筛选成功的文献;
当文献中没有图片时,当基因词数大于等于第二标准词数时,将文献记为筛选成功的文献。
进一步地,所述步骤S3中的信息提取法包括如下子步骤:
步骤S301,对于标准基因文献中的每一个文献,使用基因关键词库对文献中文本的每一段进行匹配,获取每一段中出现次数最多的关键词,并将关键词记为该段的头衔;
获取文献中的所有头衔,记为头衔1至头衔P,获取头衔1至头衔P中重复数量最多的头衔,记为代表头衔;
当文献的代表头衔数量大于标准头衔数量时,将代表头衔记为文献头衔;
当文献的代表头衔小于等于标准头衔数量时,将文献中的任意一个头衔记为文献头衔;
将以代表头衔作为文献头衔的文献记为头衔文献,将文献头衔对应的所有段落记为头衔文献的标准信息;
将不以代表头衔作为文献头衔的文献记为散装文献,将散装文献中的所有头衔记为散装文献的标准信息;
步骤S302,基于标准基因文献以及标准基因文献对应的标准信息建立信息表格。
进一步地,所述信息表格包括:
信息表格为T行×Y列的表格,其中,表格的顶行横向记录每个标准基因文献的名称,表格的最左列记录多个基因关键词库中的关键词;
基于文献头衔对应的关键字以及标准基因文献的名称,通过文献头衔将文献的标准信息放入表格内。
进一步地,所述步骤S4包括如下子步骤:
步骤S401,将多个标准基因文献以及对应的信息表格放入NER模型中;
步骤S402,对多个标准基因文献中的任意一个标准基因文献,使用NER模型对标准基因文献进行实体抽取,将NER模型进行实体抽取得到的多个实体记为抽取信息;
步骤S403,当NER模型对一个标准基因文献进行实体抽取后,抽取信息中任意一个实体不属于标准基因文献的标准信息时,将实体标记为错误实体,使用NER模型对标准基因文献再次进行实体抽取;
当抽取到错误实体时,修改NER模型中的抽取代码,使NER模型抽取错误实体相邻最近的且未被抽取的实体;
当NER模型对一个标准基因文献进行实体抽取后,抽取信息中的所有实体均属于标准基因文献的标准信息时,将此次实体抽取记为成功抽取;
步骤S404,当NER模型对多个标准基因文献连续第一抽取次数的实体抽取均为成功抽取时,NER模型训练完毕;
进一步地,所述步骤S5包括如下子步骤:
步骤S501,获取待提取的基因文献;
步骤S502,使用训练完毕后的NER模型为待提取的基因文献进行实体抽取;
步骤S503,将实体抽取后得到的信息记为基因文献的标准信息,基于基因文献以及基因文献对应的标准信息建立信息表格。
第二方面,本发明提供一种基于NER模型基因文献信息提取***,包括文献获取模块、信息提取模块以及终端处理器,所述文献获取模块以及信息提取模块与终端处理器通讯连接;
所述文献获取模块通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
所述信息提取模块使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
所述终端处理器将多个标准基因文献以及对应的信息表格放入NER模型中进行训练,并使用NER模型对待提取的基因文献进行信息提取。
第三方面,一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上述任一项所述方法中的步骤。
本发明的有益效果:本发明通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献;然后使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献,这样的好处在于,从文献数据库中以基因为关键词获取的文献中,有些文献中可能只存在少量与基因相关的信息以及较多的无关信息,通过基因文献筛选法可以对基础基因文献进行筛选,使筛选出的文献中的内容更加贴合基因,使后续的信息提取中提取的基因信息更加精准;
本发明还使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格,这样的好处在于,通过建立信息表格可以更加直观地查看每个基因文献对应的信息,有利于对基因信息的获取以及对NER模型的训练;
本发明还将多个标准基因文献以及对应的信息表格放入NER模型中进行训练并使用NER模型对待提取的基因文献进行信息提取,这样的好处在于,通过标准基因文献以及对应的信息表格对NER模型进行训练,可以使NER模型学习从标准基因文献到信息表格的转换过程,有利于NER模型对标准基因文献的信息提取,提高NER模型对信息提取的精准度。
本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的方法的步骤流程图;
图2为本发明的***的原理框图;
图3为本发明的标准基因文献的获取示意图。
图4为本发明的NER模型的训练流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
请参阅图1所示,本发明提供一种基于NER模型基因文献信息提取方法,包括:
步骤S1,通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;
步骤S2,请参阅图3所示,使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
步骤S2包括如下子步骤:
步骤S201,将多个基础基因文献记为基础文献1至基础文献M,获取基础文献1至基础文献M的字数,记为文献字数1至文献字数M;
步骤S202,以第一标准字数为界限,将文献字数1至文献字数M中大于等于第一标准字数的基础文献记为多字文献1至多字文献J;
将文献字数1至文献字数M中小于第一标准字数的基础文献记为少字文献1至少字文献K1,其中,M、J以及K1均为大于等于1的正整数,J加上K1的值等于M;
在具体实施过程中,第一标准字数设置为4000字,通过对字数较多的文献以及字数较少的文献分开分析,可以对文献进行更加细致的筛选,避免因筛选方法单一导致漏掉有效的基因文献;
基因文献筛选法包括多字文献筛选法以及少字文献筛选法;
步骤S203,对多字文献1至多字文献J使用多字文献筛选法,将筛选成功的多字文献记为多字标准文献;
多字文献筛选法包括:
对于多字文献1至多字文献J中的任意一个多字文献,获取多字文献中的所有图片,记为文献图片1至文献图片N;
在数据库中获取多个标准基因图片,标准基因图片包括多个基因相关的图片,将多个标准基因图片的集合记为基因图片库;
在具体实施过程中,标准基因图片具体包括DNA图片、染色体图片、染色体与细胞结合图片、DNA基因螺旋图片、DNA基因链条图片、圆形细胞图片以及神经细胞图片;
将文献图片1至文献图片N中的每一个图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片在基因图片库中的比对结果分别记为图片百分比1至图片百分比C;
获取每个文献图片在基因图片库中进行比对后图片百分比1至图片百分比C中的最大值,记为文献图片的图片最大相似值;
当文献图片1至文献图片N均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值N;其中,图像比对法为现有技术,图像比对是指通过计算机视觉技术将两张或多张图片进行相似度比较,主要包括图像特征提取、匹配和评估等步骤,通常使用神经网络等深度学***台上通过比对商品图片找到同款商品、车站地铁口的安检中通过比对行李包得出异常情况等;
多字文献筛选法还包括:
对于文献图片1至文献图片N中的任意一个文献图片的图片最大相似值,将图片最大相似值大于等于标准相似值的文献图片记为文献基因图片;
获取文献图片1至文献图片N中文献基因图片的数量,记为基因图片数;
对多字文献1至多字文献J使用多字文献删除法,多字文献删除法包括:当多字文献1至多字文献J中任意一个多字文献的基因图片数小于等于标准图片数时,将多字文献在多字文献1至多字文献J中删除;
在具体实施过程中,标准相似值设置为75%,标准图片数设置为2,当图片最大相似值大于等于75%时,说明该图片最大相似值对应的文献图片为基因相关的图片,当文献中的基因图片数小于2时,说明文献中的基因相关的图片较少,无法在多字文献中支撑较多的文字,应当将该多字文献在多字文献1至多字文献J中删除;
多字文献筛选法还包括:
将使用多字文献删除法后的多字文献1至多字文献J记为已筛选文献1至已筛选文献L;
对已筛选文献1至已筛选文献L中的每一个已筛选文献,使用文字筛选法,将通过文字筛选法后筛选成功的已筛选文献记为多字标准文献;
文字筛选法包括:
以句号为界限获取文献内的所有句子,记为句子1至句子W;
对于句子1至句子W中的任意一个句子,使用中文分词并将句子中的中文词记为中文词1至中文词A;
在关键词数据库中以基因为搜索词获取与基因相关的关键词,记为基因关键词库,将中文词1至中文词A放入基因关键词库中进行中文词匹配,获取中文词1至中文词A中匹配成功的数量,记为相关词数;
将句子1至句子W中相关词数小于等于标准词数的句子在句子1至句子W中删除,并将剩下的句子记为基因句;
当文献中的基因句大于等于标准句数时,将文献记为筛选成功的文献;
在具体实施过程中,标准次数设置为2,标准句数设置为W的70%,其中,W为正整数,计算出的标准句数向下取整;
步骤S204,对少字文献1至少字文献K1使用少字文献筛选法,将筛选成功的少字文献记为少字标准文献;
步骤S204包括如下子步骤:
步骤S2041,当少字文献1至少字文献K1中的任意一个少字文献的字数小于等于第二标准字数时,将少字文献在少字文献1至少字文献K1中删除并将剩余的少字文献记为少字文献1至少字文献K2;
在具体实施过程中,第二标准字数设置为1000字,当少字文献的字数小于等于1000字时,该文献中的内容较少,不具备参考性;
步骤S2042,对少字文献1至少字文献K2中的每一个文献使用少字文献筛选法;其中,NER模型中包括的其中一个部分为分布式向量输入,分布式向量输入表示单词的一个简单选项是一维特征向量表示。在一维特征向量空间中,两个不同的单词具有完全不同的表示形式,并且是正交的。分布式表示表示低维实值密集向量中的单词,其中每个维度表示一个潜在特征。分布式表示从文本中自动学习,可以捕获单词的语义和句法属性,这些属性在输入到NER时不会显式出现。NER模型中使用的三种分布式表示:单词级、字符级和混合表示,少字文献筛选法采用了单词级的分布式表示;
少字文献筛选法包括:
对文献中的所有文本进行中文分词,并记为中文词1至中文词B,将中文词1至中文词B放入基因关键词库中进行中文词匹配,获取中文词1至中文词B中匹配成功的数量,记为基因词数;
当文献有图片时,将所有图片记为少字图片1至少字图片D,将少字图片1至少字图片D中的每一个少字图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片的在基因图片库中的比对结果分别记为图片百分比1至图片百分比E;
获取每个少字图片在基因图片库中进行比对后图片百分比1至图片百分比E中的最大值,记为少字图片的图片最大相似值;
当少字图片1至少字图片D均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值D;
将最大相似值1至图片最大相似值D中大于等于标准相似值的图片最大相似值记为过线相似值;
当文献的过线相似值的数量大于等于标准过线数量且基因词数大于等于第三标准词数时,将文献记为筛选成功的文献;
当文献中没有图片时,当基因词数大于等于第二标准词数时,将文献记为筛选成功的文献;
在具体实施过程中,第二标准词数设置为B的65%,第三标准词数设置为B的55%,其中,B为正整数,计算出的第二标准词数以及第三标准词数均向下取整;
步骤S205,将多字标准文献以及少字标准文献记为标准基因文献;
步骤S3,使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
步骤S3中的信息提取法包括如下子步骤:
步骤S301,对于标准基因文献中的每一个文献,使用基因关键词库对文献中文本的每一段进行匹配,获取每一段中出现次数最多的关键词,并将关键词记为该段的头衔;
获取文献中的所有头衔,记为头衔1至头衔P,获取头衔1至头衔P中重复数量最多的头衔,记为代表头衔;
当文献的代表头衔数量大于标准头衔数量时,将代表头衔记为文献头衔;
当文献的代表头衔小于等于标准头衔数量时,将文献中的任意一个头衔记为文献头衔;
将以代表头衔作为文献头衔的文献记为头衔文献,将文献头衔对应的所有段落记为头衔文献的标准信息;
将不以代表头衔作为文献头衔的文献记为散装文献,将散装文献中的所有头衔记为散装文献的标准信息;
步骤S302,基于标准基因文献以及标准基因文献对应的标准信息建立信息表格;
信息表格包括:
信息表格为T行×Y列的表格,其中,表格的顶行横向记录每个标准基因文献的名称,表格的最左列记录多个基因关键词库中的关键词;
基于文献头衔对应的关键字以及标准基因文献的名称,通过文献头衔将文献的标准信息放入表格内,参照表1所示;
表1
表1为信息表格;
请参阅图4所示,步骤S4包括如下子步骤:
步骤S401,将多个标准基因文献以及对应的信息表格放入NER模型中;
步骤S402,对多个标准基因文献中的任意一个标准基因文献,使用NER模型对标准基因文献进行实体抽取,将NER模型进行实体抽取得到的多个实体记为抽取信息;
步骤S403,当NER模型对一个标准基因文献进行实体抽取后,抽取信息中任意一个实体不属于标准基因文献的标准信息时,将实体标记为错误实体,使用NER模型对标准基因文献再次进行实体抽取;
当抽取到错误实体时,修改NER模型中的抽取代码,使NER模型抽取错误实体相邻最近的且未被抽取的实体;
当NER模型对一个标准基因文献进行实体抽取后,抽取信息中的所有实体均属于标准基因文献的标准信息时,将此次实体抽取记为成功抽取;
步骤S404,当NER模型对多个标准基因文献连续第一抽取次数的实体抽取均为成功抽取时,NER模型训练完毕;第一抽取次数设置为5次;
步骤S5,使用NER模型对待提取的基因文献进行信息提取;
步骤S5包括如下子步骤:
步骤S501,获取待提取的基因文献;
步骤S502,使用训练完毕后的NER模型为待提取的基因文献进行实体抽取;
步骤S503,将实体抽取后得到的信息记为基因文献的标准信息,基于基因文献以及基因文献对应的标准信息建立信息表格;信息表格参照上述表1的构建结构。
实施例2
第二方面,请参阅图2所示,本发明提供一种基于NER模型基因文献信息提取***,包括文献获取模块、信息提取模块以及终端处理器,文献获取模块以及信息提取模块与终端处理器通讯连接;
文献获取模块通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
文献获取模块配置有文献获取策略,文献获取策略包括:
通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;
将多个基础基因文献记为基础文献1至基础文献M,获取基础文献1至基础文献M的字数,记为文献字数1至文献字数M;
以第一标准字数为界限,将文献字数1至文献字数M中大于等于第一标准字数的基础文献记为多字文献1至多字文献J;
将文献字数1至文献字数M中小于第一标准字数的基础文献记为少字文献1至少字文献K1,其中,M、J以及K1均为大于等于1的正整数,J加上K1的值等于M;
在具体实施过程中,第一标准字数设置为4000字,通过对字数较多的文献以及字数较少的文献分开分析,可以对文献进行更加细致的筛选,避免因筛选方法单一导致漏掉有效的基因文献;
基因文献筛选法包括多字文献筛选法以及少字文献筛选法;
对多字文献1至多字文献J使用多字文献筛选法,将筛选成功的多字文献记为多字标准文献;
多字文献筛选法包括:
对于多字文献1至多字文献J中的任意一个多字文献,获取多字文献中的所有图片,记为文献图片1至文献图片N;
在数据库中获取多个标准基因图片,标准基因图片包括多个基因相关的图片,将多个标准基因图片的集合记为基因图片库;
在具体实施过程中,标准基因图片具体包括DNA图片、染色体图片、染色体与细胞结合图片、DNA基因螺旋图片、DNA基因链条图片、圆形细胞图片以及神经细胞图片;
将文献图片1至文献图片N中的每一个图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片在基因图片库中的比对结果分别记为图片百分比1至图片百分比C;
获取每个文献图片在基因图片库中进行比对后图片百分比1至图片百分比C中的最大值,记为文献图片的图片最大相似值;
当文献图片1至文献图片N均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值N;
多字文献筛选法还包括:
对于文献图片1至文献图片N中的任意一个文献图片的图片最大相似值,将图片最大相似值大于等于标准相似值的文献图片记为文献基因图片;
获取文献图片1至文献图片N中文献基因图片的数量,记为基因图片数;
对多字文献1至多字文献J使用多字文献删除法,多字文献删除法包括:当多字文献1至多字文献J中任意一个多字文献的基因图片数小于等于标准图片数时,将多字文献在多字文献1至多字文献J中删除;
在具体实施过程中,标准相似值设置为75%,标准图片数设置为2,当图片最大相似值大于等于75%时,说明该图片最大相似值对应的文献图片为基因相关的图片,当文献中的基因图片数小于2时,说明文献中的基因相关的图片较少,无法在多字文献中支撑较多的文字,应当将该多字文献在多字文献1至多字文献J中删除;
多字文献筛选法还包括:
将使用多字文献删除法后的多字文献1至多字文献J记为已筛选文献1至已筛选文献L;
对已筛选文献1至已筛选文献L中的每一个已筛选文献,使用文字筛选法,将通过文字筛选法后筛选成功的已筛选文献记为多字标准文献;
文字筛选法包括:
以句号为界限获取文献内的所有句子,记为句子1至句子W;
对于句子1至句子W中的任意一个句子,使用中文分词并将句子中的中文词记为中文词1至中文词A;
在关键词数据库中以基因为搜索词获取与基因相关的关键词,记为基因关键词库,将中文词1至中文词A放入基因关键词库中进行中文词匹配,获取中文词1至中文词A中匹配成功的数量,记为相关词数;
将句子1至句子W中相关词数小于等于标准词数的句子在句子1至句子W中删除,并将剩下的句子记为基因句;
当文献中的基因句大于等于标准句数时,将文献记为筛选成功的文献;
在具体实施过程中,标准次数设置为2,标准句数设置为W的70%,其中,W为正整数,计算出的标准句数向下取整;
对少字文献1至少字文献K1使用少字文献筛选法,将筛选成功的少字文献记为少字标准文献;
当少字文献1至少字文献K1中的任意一个少字文献的字数小于等于第二标准字数时,将少字文献在少字文献1至少字文献K1中删除并将剩余的少字文献记为少字文献1至少字文献K2;
在具体实施过程中,第二标准字数设置为1000字,当少字文献的字数小于等于1000字时,该文献中的内容较少,不具备参考性;
对少字文献1至少字文献K2中的每一个文献使用少字文献筛选法;
少字文献筛选法包括:
对文献中的所有文本进行中文分词,并记为中文词1至中文词B,将中文词1至中文词B放入基因关键词库中进行中文词匹配,获取中文词1至中文词B中匹配成功的数量,记为基因词数;
当文献有图片时,将所有图片记为少字图片1至少字图片D,将少字图片1至少字图片D中的每一个少字图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片的在基因图片库中的比对结果分别记为图片百分比1至图片百分比E;
获取每个少字图片在基因图片库中进行比对后图片百分比1至图片百分比E中的最大值,记为少字图片的图片最大相似值;
当少字图片1至少字图片D均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值D;
将最大相似值1至图片最大相似值D中大于等于标准相似值的图片最大相似值记为过线相似值;
当文献的过线相似值的数量大于等于标准过线数量且基因词数大于等于第三标准词数时,将文献记为筛选成功的文献;
当文献中没有图片时,当基因词数大于等于第二标准词数时,将文献记为筛选成功的文献;
在具体实施过程中,第二标准词数设置为B的65%,第三标准词数设置为B的55%,其中,B为正整数,计算出的第二标准词数以及第三标准词数均向下取整;
将多字标准文献以及少字标准文献记为标准基因文献;
信息提取模块使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
信息提取法包括:
对于标准基因文献中的每一个文献,使用基因关键词库对文献中文本的每一段进行匹配,获取每一段中出现次数最多的关键词,并将关键词记为该段的头衔;
获取文献中的所有头衔,记为头衔1至头衔P,获取头衔1至头衔P中重复数量最多的头衔,记为代表头衔;
当文献的代表头衔数量大于标准头衔数量时,将代表头衔记为文献头衔;
当文献的代表头衔小于等于标准头衔数量时,将文献中的任意一个头衔记为文献头衔;
将以代表头衔作为文献头衔的文献记为头衔文献,将文献头衔对应的所有段落记为头衔文献的标准信息;
将不以代表头衔作为文献头衔的文献记为散装文献,将散装文献中的所有头衔记为散装文献的标准信息;
基于标准基因文献以及标准基因文献对应的标准信息建立信息表格;
信息表格包括:
信息表格为T行×Y列的表格,其中,表格的顶行横向记录每个标准基因文献的名称,表格的最左列记录多个基因关键词库中的关键词;
基于文献头衔对应的关键字以及标准基因文献的名称,通过文献头衔将文献的标准信息放入表格内;
终端处理器将多个标准基因文献以及对应的信息表格放入NER模型中进行训练,并使用NER模型对待提取的基因文献进行信息提取。
实施例3
第三方面,本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献;然后使用基因文献筛选法对基础基因文献进行筛选,然后使用信息提取法对标准基因文献中的文献信息进行提取,基于标准信息为每个标准基因文献构建信息表格,最后将多个标准基因文献以及对应的信息表格放入NER模型中进行训练并使用NER模型对待提取的基因文献进行信息提取。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种基于NER模型基因文献信息提取方法,其特征在于,包括:
步骤S1,通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;
步骤S2,使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
步骤S3,使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
步骤S4,将多个标准基因文献以及对应的信息表格放入NER模型中进行训练;
步骤S5,使用NER模型对待提取的基因文献进行信息提取。
2.根据权利要求1所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述步骤S2包括如下子步骤:
步骤S201,将多个基础基因文献记为基础文献1至基础文献M,获取基础文献1至基础文献M的字数,记为文献字数1至文献字数M;
步骤S202,以第一标准字数为界限,将文献字数1至文献字数M中大于等于第一标准字数的基础文献记为多字文献1至多字文献J;
将文献字数1至文献字数M中小于第一标准字数的基础文献记为少字文献1至少字文献K1,其中,M、J以及K1均为大于等于1的正整数,J加上K1的值等于M;
所述基因文献筛选法包括多字文献筛选法以及少字文献筛选法;
步骤S203,对多字文献1至多字文献J使用多字文献筛选法,将筛选成功的多字文献记为多字标准文献;
步骤S204,对少字文献1至少字文献K1使用少字文献筛选法,将筛选成功的少字文献记为少字标准文献;
步骤S205,将多字标准文献以及少字标准文献记为标准基因文献。
3.根据权利要求2所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述多字文献筛选法包括:
对于多字文献1至多字文献J中的任意一个多字文献,获取多字文献中的所有图片,记为文献图片1至文献图片N;
在数据库中获取多个标准基因图片,所述标准基因图片包括多个基因相关的图片,将多个标准基因图片的集合记为基因图片库;
将文献图片1至文献图片N中的每一个图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片在基因图片库中的比对结果分别记为图片百分比1至图片百分比C;
获取每个文献图片在基因图片库中进行比对后图片百分比1至图片百分比C中的最大值,记为文献图片的图片最大相似值;
当文献图片1至文献图片N均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值N。
4.根据权利要求3所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述多字文献筛选法还包括:
对于文献图片1至文献图片N中的任意一个文献图片的图片最大相似值,将图片最大相似值大于等于标准相似值的文献图片记为文献基因图片;
获取文献图片1至文献图片N中文献基因图片的数量,记为基因图片数;
对多字文献1至多字文献J使用多字文献删除法,所述多字文献删除法包括:当多字文献1至多字文献J中任意一个多字文献的基因图片数小于等于标准图片数时,将多字文献在多字文献1至多字文献J中删除。
5.根据权利要求4所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述多字文献筛选法还包括:
将使用多字文献删除法后的多字文献1至多字文献J记为已筛选文献1至已筛选文献L;
对已筛选文献1至已筛选文献L中的每一个已筛选文献,使用文字筛选法,将通过文字筛选法后筛选成功的已筛选文献记为多字标准文献。
6.根据权利要求5所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述文字筛选法包括:
以句号为界限获取文献内的所有句子,记为句子1至句子W;
对于句子1至句子W中的任意一个句子,使用中文分词并将句子中的中文词记为中文词1至中文词A;
在关键词数据库中以基因为搜索词获取与基因相关的关键词,记为基因关键词库,将中文词1至中文词A放入基因关键词库中进行中文词匹配,获取中文词1至中文词A中匹配成功的数量,记为相关词数;
将句子1至句子W中相关词数小于等于标准词数的句子在句子1至句子W中删除,并将剩下的句子记为基因句;
当文献中的基因句大于等于标准句数时,将文献记为筛选成功的文献。
7.根据权利要求6所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述步骤S204包括如下子步骤:
步骤S2041,当少字文献1至少字文献K1中的任意一个少字文献的字数小于等于第二标准字数时,将少字文献在少字文献1至少字文献K1中删除并将剩余的少字文献记为少字文献1至少字文献K2;
步骤S2042,对少字文献1至少字文献K2中的每一个文献使用少字文献筛选法。
8.根据权利要求7所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述少字文献筛选法包括:
对文献中的所有文本进行中文分词,并记为中文词1至中文词B,将中文词1至中文词B放入基因关键词库中进行中文词匹配,获取中文词1至中文词B中匹配成功的数量,记为基因词数;
当文献有图片时,将所有图片记为少字图片1至少字图片D,将少字图片1至少字图片D中的每一个少字图片放入基因图片库中使用图像比对法进行逐个比对,比对结果使用百分比进行表示,将每张图片的在基因图片库中的比对结果分别记为图片百分比1至图片百分比E;
获取每个少字图片在基因图片库中进行比对后图片百分比1至图片百分比E中的最大值,记为少字图片的图片最大相似值;
当少字图片1至少字图片D均在基因图片库内比对结束后,得到图片最大相似值1至图片最大相似值D;
将最大相似值1至图片最大相似值D中大于等于标准相似值的图片最大相似值记为过线相似值;
当文献的过线相似值的数量大于等于标准过线数量且基因词数大于等于第三标准词数时,将文献记为筛选成功的文献;
当文献中没有图片时,当基因词数大于等于第二标准词数时,将文献记为筛选成功的文献。
9.根据权利要求8所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述步骤S3中的信息提取法包括如下子步骤:
步骤S301,对于标准基因文献中的每一个文献,使用基因关键词库对文献中文本的每一段进行匹配,获取每一段中出现次数最多的关键词,并将关键词记为当前段的头衔;
获取文献中的所有头衔,记为头衔1至头衔P,获取头衔1至头衔P中重复数量最多的头衔,记为代表头衔;
当文献的代表头衔数量大于标准头衔数量时,将代表头衔记为文献头衔;
当文献的代表头衔小于等于标准头衔数量时,将文献中的任意一个头衔记为文献头衔;
将以代表头衔作为文献头衔的文献记为头衔文献,将文献头衔对应的所有段落记为头衔文献的标准信息;
将不以代表头衔作为文献头衔的文献记为散装文献,将散装文献中的所有头衔记为散装文献的标准信息;
步骤S302,基于标准基因文献以及标准基因文献对应的标准信息建立信息表格。
10.根据权利要求9所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述信息表格包括:
信息表格为T行×Y列的表格,其中,表格的顶行横向记录每个标准基因文献的名称,表格的最左列记录多个基因关键词库中的关键词;
基于文献头衔对应的关键字以及标准基因文献的名称,通过文献头衔将文献的标准信息放入表格内。
11.根据权利要求10所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述步骤S4包括如下子步骤:
步骤S401,将多个标准基因文献以及对应的信息表格放入NER模型中;
步骤S402,对多个标准基因文献中的任意一个标准基因文献,使用NER模型对标准基因文献进行实体抽取,将NER模型进行实体抽取得到的多个实体记为抽取信息;
步骤S403,当NER模型对一个标准基因文献进行实体抽取后,抽取信息中任意一个实体不属于标准基因文献的标准信息时,将实体标记为错误实体,使用NER模型对标准基因文献再次进行实体抽取;
当抽取到错误实体时,修改NER模型中的抽取代码,使NER模型抽取错误实体相邻最近的且未被抽取的实体;
当NER模型对一个标准基因文献进行实体抽取后,抽取信息中的所有实体均属于标准基因文献的标准信息时,将此次实体抽取记为成功抽取;
步骤S404,当NER模型对多个标准基因文献连续第一抽取次数的实体抽取均为成功抽取时,NER模型训练完毕。
12.根据权利要求11所述的一种基于NER模型基因文献信息提取方法,其特征在于,所述步骤S5包括如下子步骤:
步骤S501,获取待提取的基因文献;
步骤S502,使用训练完毕后的NER模型为待提取的基因文献进行实体抽取;
步骤S503,将实体抽取后得到的信息记为基因文献的标准信息,基于基因文献以及基因文献对应的标准信息建立信息表格。
13.适用于如权利要求1-12任意一项所述的一种基于NER模型基因文献信息提取方法的***,其特征在于,所述***包括文献获取模块、信息提取模块以及终端处理器,所述文献获取模块以及信息提取模块与终端处理器通讯连接;
所述文献获取模块通过爬虫技术从文献数据库中以基因为关键词获取多个与基因相关的文献,记为基础基因文献;使用基因文献筛选法对基础基因文献进行筛选,将筛选出的文献记为标准基因文献;
所述信息提取模块使用信息提取法对标准基因文献中的文献信息进行提取,将提取出的文献信息记为标准信息,基于标准信息为每个标准基因文献构建信息表格;
所述终端处理器将多个标准基因文献以及对应的信息表格放入NER模型中进行训练,并使用NER模型对待提取的基因文献进行信息提取。
14.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-12任一项所述方法中的步骤。
CN202311070676.3A 2023-08-24 2023-08-24 一种基于ner模型基因文献信息提取方法、***及存储介质 Active CN116796750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311070676.3A CN116796750B (zh) 2023-08-24 2023-08-24 一种基于ner模型基因文献信息提取方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311070676.3A CN116796750B (zh) 2023-08-24 2023-08-24 一种基于ner模型基因文献信息提取方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN116796750A true CN116796750A (zh) 2023-09-22
CN116796750B CN116796750B (zh) 2023-11-10

Family

ID=88045079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311070676.3A Active CN116796750B (zh) 2023-08-24 2023-08-24 一种基于ner模型基因文献信息提取方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN116796750B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索***及用于该***的检索词数据库的构建方法
JP2007299039A (ja) * 2006-04-27 2007-11-15 Kanebo Cosmetics Inc 遺伝子情報の探索方法
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取***及方法
CN110321550A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种面向中医古籍文献的命名实体识别方法和装置
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
US20200005893A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Extracting related medical information from different data sources for automated generation of prognosis, diagnosis, and predisposition information in case summary
CN114317227A (zh) * 2021-11-18 2022-04-12 宁波甬恒瑶瑶智能科技有限公司 一种外泌体纯化方法及其一体机装置
CN115618014A (zh) * 2022-10-21 2023-01-17 上海研途标准化技术服务有限公司 一种应用大数据技术的标准文献分析管理***及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索***及用于该***的检索词数据库的构建方法
JP2007299039A (ja) * 2006-04-27 2007-11-15 Kanebo Cosmetics Inc 遺伝子情報の探索方法
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取***及方法
US20200005893A1 (en) * 2018-06-28 2020-01-02 International Business Machines Corporation Extracting related medical information from different data sources for automated generation of prognosis, diagnosis, and predisposition information in case summary
CN110321550A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种面向中医古籍文献的命名实体识别方法和装置
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
CN114317227A (zh) * 2021-11-18 2022-04-12 宁波甬恒瑶瑶智能科技有限公司 一种外泌体纯化方法及其一体机装置
CN115618014A (zh) * 2022-10-21 2023-01-17 上海研途标准化技术服务有限公司 一种应用大数据技术的标准文献分析管理***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ERNEST BASILE FOTSEU FOTSEU 等: "GenNER - A highly scalable and optimal NER method for text-based gene and protein recognition", 《2021 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, pages 3562 - 3569 *
朱丽萍;刘蔷;苏斐;杨中国;王显灿;: "科技文献的实验语料句抽取方法", 计算机工程与设计, no. 11, pages 234 - 239 *

Also Published As

Publication number Publication date
CN116796750B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
Zhong et al. Image-based table recognition: data, model, and evaluation
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN114616572A (zh) 跨文档智能写作和处理助手
Khusro et al. On methods and tools of table detection, extraction and annotation in PDF documents
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN101236609B (zh) 用于分析并确定文档中信息的相关性的装置和方法
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
Clinchant et al. Comparing machine learning approaches for table recognition in historical register books
Cui et al. Watch the story unfold with textwheel: Visualization of large-scale news streams
US10699112B1 (en) Identification of key segments in document images
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN116796750B (zh) 一种基于ner模型基因文献信息提取方法、***及存储介质
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及***
He et al. Bar charts detection and analysis in biomedical literature of PubMed Central
Alharbi et al. VNLP: Visible natural language processing
CN114842982A (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN112686042A (zh) 基于主题驱动的专利推荐方法、***、设备及存储介质
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
CN112270189A (zh) 一种提问式的分析节点生成方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant