CN108959236B - 医学文献分类模型训练方法、医学文献分类方法及其装置 - Google Patents

医学文献分类模型训练方法、医学文献分类方法及其装置 Download PDF

Info

Publication number
CN108959236B
CN108959236B CN201710358918.7A CN201710358918A CN108959236B CN 108959236 B CN108959236 B CN 108959236B CN 201710358918 A CN201710358918 A CN 201710358918A CN 108959236 B CN108959236 B CN 108959236B
Authority
CN
China
Prior art keywords
classification
rule
data
labeling
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710358918.7A
Other languages
English (en)
Other versions
CN108959236A (zh
Inventor
张喜媛
曾刚
李林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201710358918.7A priority Critical patent/CN108959236B/zh
Publication of CN108959236A publication Critical patent/CN108959236A/zh
Application granted granted Critical
Publication of CN108959236B publication Critical patent/CN108959236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种医学文献分类模型训练方法、医学文献分类方法及其装置,该训练方法,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。根据本申请实施例提供的技术方案,通过对文献进行基于专业分类体系和标注规则的分类,能够解决现有医学文献的分类不够细化和专业的问题。

Description

医学文献分类模型训练方法、医学文献分类方法及其装置
技术领域
本公开一般涉及计算机技术领域,尤其涉及一种医学文献分类模型训练方法、医学文献分类方法及其装置。
背景技术
目前市面上提供的在线文献服务平台,与医学相关的文献服务较少且不够专业。例如以下几个平台:
万方:对于医学文献,万方从医药、卫生方面对医疗相关的文献进行了粗粒度的划分。
Pubmed:提供生物医学方面的论文搜寻以及摘要,其核心主题为医学,PubMed的文献不包括期刊论文的全文,可提供指向全文提供者(付费或免费)的链接。
上述两个平台均未提供完备的医学文献的分类,且仅从一个维度进行类别划分,使得医生查找某一类文献时,不能很好地满足搜索需求。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种准确度高且能够进行多维度分类的医学文献分类模型训练方法、医学文献分类方法及其装置。
第一方面,本申请提供一种医学文献分类模型的训练方法,包括:
从样本文献中提取待标注数据;
利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
第二方面,本申请提供一种医学文献分类方法,包括:
从待分类文献中提取待分类数据;
利用根据本申请提供的各实施例的医学文献分类模型的训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
将所述预测概率与设定阈值进行比较,确定分类结果。
第三方面,本申请提供一种医学文献分类模型的训练装置,包括:
提取单元:配置用于从样本文献中提取待标注数据;
标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
训练单元:配置用于将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
第四方面,本申请提供一种医学文献分类装置,其特征在于,包括:
提取单元:配置用于从对待分类文献中提取待分类数据;
预测单元:配置用于利用本申请提供的各实施例的医学文献分类模型的训练装置训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
分类单元:配置用于将所述预测概率与设定阈值进行比较,确定分类结果。
第五方面,本申请提供一种设备,设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行各实施例提供的医学文献分类模型的训练方法。
第六方面,本申请还提供一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明各实施例提供的医学文献分类模型的训练方法。
根据本申请实施例提供的技术方案,通过对文献进行基于专业分类体系和标注规则的训练,能够解决现有医学文献的分类不够细化和专业的问题。进一步的,根据本申请的某些实施例,对文献分词进行规则词的筛选,还能解决现有技术分类数据较大的问题,获得高效的分类效果。另一方面,通过对每条分支分别与标注规则库进行最大正向匹配,获得了文献数据较长时消除数据冗余的效果,提高了标注效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性***架构;
图2示出了根据本申请实施例的医学文献分类模型的训练方法的示例性流程图;
图3示出了根据本申请实施例步骤S102标注方法的示例性示意图;
图4示出了规则类集树的示例性示意图;
图5示出了步骤S103训练方法的示例性流程图;
图6示出了根据本申请一个实施例的医学文献分类方法的示例性流程图;
图7示出了根据本申请一个实施例的医学文献分类模型的训练装置的示例性示意图;
图8示出了根据本申请一个实施例的医学文献分类装置的示例性示意图;
图9示出了根据本申请实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送消息等。
终端设备101、102可以是各种电子设备,包括但不限于个人电脑、智能手机、智能手表、平板电脑、个人数字助理等等。
服务器104可以是提供各种服务的服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的医学文献分类模型的训练方法和医学文献分类方法可以由终端设备101、102执行,也可以由服务器104执行,医学文献分类模型的训练装置及医学文献分类装置可以设置于终端设备101、102中,也可以设置于服务器104中。在一些实施例中,医学文献分类模型可以在服务器104中进行训练,训练后的医学文献分类模型可以存储在服务器104中,以用于对医学文献分类。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明实施例具体可以包括两个部分,第一部分是对医学文献分类模型的训练,第二部分是依据训练出的医学文献分类模型对医学文献进行分类。
参考图2,其示出了根据本申请一个实施例的医学文献分类模型的训练方法的示例性流程图。图2所示的方法可以在图1中的服务器上执行。
如图2所示,在本实施例中,本发明提供的医学文献分类模型的训练方法包括:
步骤S101:从样本文献中提取待标注数据;
步骤S102:利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
步骤S103将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
在步骤S101,从样本文献中解析出标题、关键字和摘要中的一种多多种数据作为待标注数据。
现有的文献分类***未基于医疗数据进行建模分类,大部分采用已有的训练数据,仅基于采用的特征提取方法提取的特征建立分类模型,并且从一个维度进行所属类别的划分。本申请在步骤S102,基于经专业人员构建的多维度的分类体系和标注规则训练分类模型,使得每个文献可从不同的维度划分至每个维度下的各类别中,充分满足了医生查找医学文献的专业需求。
优选地,在对待标注数据进行标注之前,对待标注数据进行过滤去噪处理,去掉多来源的同一篇文献。
优选地,分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。在各维度设置所属的不同类,例如文献类型维度包括Meta分析、指南公式、病例报告、综述/述评、简讯、论著等。上述分类体系满足医生的专业需求。
图3示出了根据本申请实施例步骤S102标注方法的示例性示意图。在本实施例中,本发明提供的标注方法包括:
步骤S201:根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出待标注数据所涉及的一个或更多个规则类;
步骤S202:基于待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;
步骤S203:将构建的规则类集树与标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为样本文献的文献类别。
其中,在步骤S201中提到的规则词列表包含用于医学分类的多个规则词,该规则词根据类别划分了规则类。根据该规则词列表,在步骤S101中获得的待标注数据中筛选出与该规则词列表的规则词匹配的分词,并查找各筛选分词所属的规则类。该规则类可包含疾病类、关系类、研究设计类、研究对象类等。上述规则类仅是举例,可根据实际规则需求进行规则词的类别的划分。
在步骤S202,一个样本文献的待标注数据在步骤S201进行分词时,可出现多个分词组,并且各分词组的分词在规则词列表中可能对应不同的规则类。因此就产生了规则类集树的概念,规则类集树可以理解为上述各分词组经规则类匹配后的规则类组合的集合。
优选地,对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支。例如,标注规则库中的规则可包含疾病类和关系类的组合、疾病类和研究设计类的组合、疾病类和研究对象类的组合等。对于一规则类集树而言,可存在上述组合中的一种或多种,其中的任一组合方式即规则类集树的一条分支作为类别划分的一个分类对象。上述规则类的组合仅仅是几个举例,实际应用中可根据需要设计标注规则库。
在步骤S203,基于标注规则库对步骤S202的各分支进行文献类别的对应,步骤202的规则类集树的各分支与该标注规则库中的标注规则进行对应,各标注规则对应不同的文献类别,并将查找的类别标注为该样本文献的类别。
优选地,将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。当出现多个分支时,将以满足最大正向匹配的分支对应的类别作为该样本文献的类别。
接着,图4示出了规则类集树的示例性示意图。图4提供了一样本文献的待标注数据“糖尿病心肌病发病机制的研究进展”的规则类集树。其构建过程如下:
首先,对该待标注数据进行分词划分,划分出如下几个分词:糖尿、病、心肌、病、机制、的、研究、进展,其中,研究和进展还可划分为组合词“研究发展”。
然后在规则词列表中查找是否存在对应的规则词以及对应规则类,查找后的分词与规则类的映射如下:
糖尿病、心肌病–>疾病类,
研究->B类,进展->C类,
研究进展->A类。
最后,将上述涉及的规则类进行组合,整理出如图4所示的规则类集树,该规则类集树包含2条分支。其中包含的A类的第二条分支满足最大正向匹配,因此,该第二条分支对应的类别作为该样本文献的类别。上述标注的样本文献进入作为训练数据进入训练环节S103。
图5示出了步骤S103训练方法的示例性流程图。本实施例中,步骤S103的训练方法包括:
步骤S301:对标注数据进行特征提取;
步骤S302:根据特征构建最大熵分类模型作为医学文献分类模型。
其中,在步骤S301,可采用如词频法、文档频次法、信息增益法、N-Gram等算法中的一种或多种对训练数据提取特征。
在步骤S302,基于步骤301中提取的特征,构建最大熵分类模型,可对待分类文献进行分类。
另一方面,本申请还提供一种医学文献分类方法,如图6所示,示出了根据本申请一个实施例的医学文献分类方法的示例性流程图。该分类方法包含如下步骤:
步骤S101:从待分类文献中提取待分类数据;
步骤S102:利用根据本申请的各实施例提供的医学文献分类模型训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
其中,在步骤S101从待分类文献中提取标题、关键字和摘要中的一种或多种作为待分类数据。
步骤S103:将预测概率与设定阈值进行比较,确定分类结果。
其中,在步骤S102,经医学文献分类模型训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得两项预测数据,一项为预测类别,另一项为预测概率,对于一个待分类文献而言上述两项数据具有关联性,即该预测概率是针对待分类文献归属于该预测类别的概率。
在步骤103中,根据步骤S102的预测概率的不同情况,确定分类结果,上述不同情况分为如下几种:
第一种:若预测概率不小于第一设定阈值,则确定预测类别为待分类文献的分类结果;
第二种:若预测概率不大于第二设定阈值,则将待分类文献的类别划分至指定类别;
第三种:若预测概率小于第一设定阈值大于第二设定阈值,则对标注规则库校正,以确定所属类别。
其中,在第二种情况中所指的指定类别一般指科普类文献,当预测概率不大于第二设定阈值时,划分至科普类。当然,可根据分类需求划分至其他类。
在优选实施例中,针对第三种情况的标注规则库进行校正包括:对标注规则库进行调整,重复图6所示的医学文献分类方法对待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新标注规则库。对标注规则库进行调整包括:增加、删除或修改规则词、规则类、或者标注规则。
实际应用中,医生可针对本申请的各实施例提供的分类方法分类后的医学文献进行搜索,将获得高准确度的搜索文献,满足了医生的专业搜索需求。
又一方面,本申请公开了医学文献分类模型的训练装置和医学文献分类装置。
图7示出了根据本申请一个实施例的医学文献分类模型的训练装置200的示例性示意图。图7所示的医学文献分类模型的训练装置300可对应执行图2所示的医学文献分类模型的训练方法。
该医学文献分类模型的训练装置200包括:提取单元210:配置用于从样本文献中提取待标注数据;
标注单元220:配置用于利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;训练单元230:配置用于将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
在一些优选实施例中,标注单元220包括:规则类匹配单元221:配置用于根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出待标注数据所涉及的一个或更多个规则类;构建单元222:配置用于基于待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;规则匹配单元223:配置用于将构建的规则类集树与标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为样本文献的文献类别。图7所示的训练原理参见图2所示的训练方法,此处不再赘述。
优选地,构建单元222包括:组合单元:配置用于对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且,规则匹配单元223包括:最大匹配单元:配置用于将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。
在一些优选实施例中,训练单元230包括:特征提取单元231:配置用于对标注数据进行特征提取;构建模型单元232:配置用于根据特征构建最大熵分类模型作为医学文献分类模型。
优选地,医学文献分类模型的训练装置200还包括:预处理单元:配置用于在标注数据进行标注之前,对待标注数据进行过滤去噪处理。
在一些优选实施例中,分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。
图8示出了根据本申请一个实施例的医学文献分类装置300的示例性示意图。图8所示的医学文献分类装置300可对应执行图6所示的医学文献分类方法。
该医学文献分类装置300包括:提取单元310:配置用于从对待分类文献中提取待分类数据;预测单元320:配置用于利用根据本申请提供的各实施例的医学文献分类模型的训练装置训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;分类单元330:配置用于将预测概率与设定阈值进行比较,确定分类结果。图8所示的分类原理参见图6所示的分类方法,此处不再赘述。
优选地,分类单元330包括:第一分类单元331:配置用于若预测概率不小于第一设定阈值,则确定预测类别为待分类文献的分类结果;第二分类单元332:配置用于若预测概率不大于第二设定阈值,则将待分类文献的类别划分至指定类别;校正单元333:配置用于若预测概率小于第一设定阈值大于第二设定阈值,则对标注规则库校正,以确定所属类别。
在一些优选实施例中,校正单元333包括:调整单元:配置用于对标注规则库进行调整,重复根据权利要求16的医学文献分类装置对待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新标注规则库。
图9示出了根据本申请实施例提供的一种设备的结构示意图。
如图9所示,作为另一方面,本申请还提供了一种设备400,包括一个或多个中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考图X描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行医学文献分类模型的训练方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的医学文献分类模型的训练方法。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的***来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,各所述单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独配置的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种医学文献分类模型的训练方法,其特征在于,包括:
从样本文献中提取待标注数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型;
所述利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注包括:
根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出所述待标注数据所涉及的一个或更多个规则类;
基于所述待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;
将所述构建的规则类集树与所述标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为所述样本文献的文献类别。
2.根据权利要求1所述的方法,其特征在于,所述构建对应的规则类集树包括:
对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且
所述将所述构建的规则类集树与所述标注规则库进行匹配包括:
将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。
3.根据权利要求1-2任一所述的方法,其特征在于,将标注数据作为训练数据对分类模型进行训练包括:
对所述标注数据进行特征提取;
根据所述特征构建最大熵分类模型作为所述医学文献分类模型。
4.根据权利要求1-2任一所述的方法,其特征在于,还包括:在所述待标注数据进行标注之前,对所述待标注数据进行过滤去噪处理。
5.根据权利要求1-2任一所述的方法,其特征在于,所述分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。
6.一种医学文献分类方法,其特征在于,包括:
从待分类文献中提取待分类数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
利用根据权利要求1-5任一所述训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
将所述预测概率与设定阈值进行比较,确定分类结果。
7.根据权利要求6所述的方法,其特征在于,将所述预测概率与设定阈值进行比较,确定分类结果包括:
若所述预测概率不小于第一设定阈值,则确定所述预测类别为所述待分类文献的分类结果;
若所述预测概率不大于第二设定阈值,则将所述待分类文献的类别划分至指定类别;
若所述预测概率小于第一设定阈值大于第二设定阈值,则对所述标注规则库校正,以确定所属类别。
8.根据权利要求7所述的方法,其特征在于,对所述标注规则库进行校正包括:
对所述标注规则库进行调整,重复采用权利要求6所述的医学文献分类方法对所述待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新所述标注规则库。
9.一种医学文献分类模型的训练装置,其特征在于,包括:
提取单元:配置用于从样本文献中提取待标注数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
训练单元:配置用于将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型;
所述标注单元包括:
规则类匹配单元:配置用于根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出所述待标注数据所涉及的一个或更多个规则类;
构建单元:配置用于基于所述待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;
规则匹配单元:配置用于将所述构建的规则类集树与所述标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为所述样本文献的文献类别。
10.根据权利要求9所述的装置,其特征在于,所述构建单元包括:
组合单元:配置用于对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且
所述规则匹配单元包括:
最大匹配单元:配置用于将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。
11.根据权利要求9-10任一所述的装置,其特征在于,所述训练单元包括:
特征提取单元:配置用于对所述标注数据进行特征提取;
构建模型单元:配置用于根据所述特征构建最大熵分类模型作为所述医学文献分类模型。
12.根据权利要求9-10任一所述的装置,其特征在于,还包括:
预处理单元:配置用于在所述标注数据进行标注之前,对所述待标注数据进行过滤去噪处理。
13.根据权利要求9-10任一所述的装置,其特征在于,所述分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。
14.一种医学文献分类装置,其特征在于,包括:
提取单元:配置用于从对待分类文献中提取待分类数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
预测单元:配置用于利用根据权利要求9-13任一所述训练装置训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
分类单元:配置用于将所述预测概率与设定阈值进行比较,确定分类结果。
15.根据权利要求14所述的装置,其特征在于,所述分类单元包括:
第一分类单元:配置用于若所述预测概率不小于第一设定阈值,则确定所述预测类别为所述待分类文献的分类结果;
第二分类单元:配置用于若所述预测概率不大于第二设定阈值,则将所述待分类文献的类别划分至指定类别;
校正单元:配置用于若所述预测概率小于第一设定阈值大于第二设定阈值,则对所述标注规则库校正,以确定所属类别。
16.根据权利要求15所述的装置,其特征在于,所述校正单元包括:
调整单元:配置用于对所述标注规则库进行调整,重复采用权利要求14所述的医学文献分类装置对所述待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新所述标注规则库。
17.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-5中任一项所述医学文献分类模型的训练方法,或执行如权利要求6-8中任一项所述医学文献分类方法。
18.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的医学文献分类模型的训练方法,或实现如权利要求6-8中任一项所述医学文献分类方法。
CN201710358918.7A 2017-05-19 2017-05-19 医学文献分类模型训练方法、医学文献分类方法及其装置 Active CN108959236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710358918.7A CN108959236B (zh) 2017-05-19 2017-05-19 医学文献分类模型训练方法、医学文献分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710358918.7A CN108959236B (zh) 2017-05-19 2017-05-19 医学文献分类模型训练方法、医学文献分类方法及其装置

Publications (2)

Publication Number Publication Date
CN108959236A CN108959236A (zh) 2018-12-07
CN108959236B true CN108959236B (zh) 2021-11-09

Family

ID=64463031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710358918.7A Active CN108959236B (zh) 2017-05-19 2017-05-19 医学文献分类模型训练方法、医学文献分类方法及其装置

Country Status (1)

Country Link
CN (1) CN108959236B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684468B (zh) * 2018-12-13 2023-05-09 四川大学 针对循证医学的文献筛选标注***
CN111401563B (zh) * 2018-12-28 2023-11-03 杭州海康威视数字技术股份有限公司 机器学习模型更新方法和装置
CN111401104B (zh) * 2019-01-02 2023-10-31 顺丰科技有限公司 分类模型的训练方法、分类方法、装置、设备及存储介质
CN109815335B (zh) * 2019-01-26 2022-03-04 福州大学 一种适用于文献网络的论文领域分类方法
CN111144658B (zh) * 2019-12-30 2023-06-16 医渡云(北京)技术有限公司 医疗风险预测方法、装置、***、存储介质与电子设备
CN111582388A (zh) * 2020-05-11 2020-08-25 广州中科智巡科技有限公司 一种图像数据快速标注的方法及***
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN113780339B (zh) * 2021-08-03 2024-03-29 阿里巴巴(中国)有限公司 模型训练、预测及内容理解方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN104216876A (zh) * 2013-05-29 2014-12-17 中国电信股份有限公司 信息文本过滤方法及***
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106503254A (zh) * 2016-11-11 2017-03-15 上海智臻智能网络科技股份有限公司 语料分类方法、装置及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809723B2 (en) * 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN104216876A (zh) * 2013-05-29 2014-12-17 中国电信股份有限公司 信息文本过滤方法及***
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106503254A (zh) * 2016-11-11 2017-03-15 上海智臻智能网络科技股份有限公司 语料分类方法、装置及终端

Also Published As

Publication number Publication date
CN108959236A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959236B (zh) 医学文献分类模型训练方法、医学文献分类方法及其装置
US11663254B2 (en) System and engine for seeded clustering of news events
CN107436875B (zh) 文本分类方法及装置
Salgado et al. MyMiner: a web application for computer-assisted biocuration and text annotation
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113204621B (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
US20210110111A1 (en) Methods and systems for providing universal portability in machine learning
US20190266158A1 (en) System and method for optimizing search query to retreive set of documents
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
Jin et al. Identifying informative subsets of the Gene Ontology with information bottleneck methods
CN111078849B (zh) 用于输出信息的方法和装置
CN110807097A (zh) 分析数据的方法和装置
CN111063447B (zh) 查询和文本处理方法及装置、电子设备和存储介质
CN115862840A (zh) 关节疼痛疾病的智能辅助诊断方法和装置
CN114742062B (zh) 文本关键词提取处理方法及***
CN111126034A (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
US20160170983A1 (en) Information management apparatus and information management method
CN110852078A (zh) 生成标题的方法和装置
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
JP6868062B2 (ja) 情報を更新するための方法と装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN111368036A (zh) 用于搜索信息的方法和装置
CN116911714B (zh) 物品运输方法、装置、电子设备和计算机可读介质
CN111310016A (zh) 标签挖掘方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant