CN112131389B - LightGBM集成多个BERT模型用于加速***评价更新的方法 - Google Patents

LightGBM集成多个BERT模型用于加速***评价更新的方法 Download PDF

Info

Publication number
CN112131389B
CN112131389B CN202011157850.4A CN202011157850A CN112131389B CN 112131389 B CN112131389 B CN 112131389B CN 202011157850 A CN202011157850 A CN 202011157850A CN 112131389 B CN112131389 B CN 112131389B
Authority
CN
China
Prior art keywords
bert
models
lightgbm
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011157850.4A
Other languages
English (en)
Other versions
CN112131389A (zh
Inventor
孙鑫
秦璇
李玲
刘佳利
王雨宁
刘艳梅
齐亚娜
邹康
邓可
马玉
刘梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202011157850.4A priority Critical patent/CN112131389B/zh
Publication of CN112131389A publication Critical patent/CN112131389A/zh
Priority to PCT/CN2021/116270 priority patent/WO2022088979A1/zh
Application granted granted Critical
Publication of CN112131389B publication Critical patent/CN112131389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开LightGBM集成多个BERT模型用于加速***评价更新的方法,包括以下步骤:步骤s1:采用预先原有的***评价初筛数据作为语料库,并将所述初筛数据分割为训练集、开发集以及测试集,所述初筛数据包括文本和原本的分类标签;步骤s2:把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量;步骤s3:分别训练4个BERT模型;步骤s4:调整4个BERT模型的超参数;步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类;步骤s6:训练LightGBM模型;步骤s7:得到测试集的最终分类结果。本发明使用Lightgbm模型整合不同的BERT模型,稳定地、高敏感性地且高特异性地进行***评价更新过程中的自动化筛选题目和摘要。

Description

LightGBM集成多个BERT模型用于加速***评价更新的方法
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及LightGBM集成多个BERT模型用于加速***评价更新的方法。
背景技术
作为一种文献综述方法,***评价有助于临床医务工作者和卫生决策者做出科学的医疗卫生决策。然而,目前的***评价大多来自一定时期的文献筛选,因此有必要根据新发表的文献来更新已发表***评价的结果。
在进行***评价的文献检索过程中,由于每年文献的***性增长和检索策略的缺乏特异性,检索到的引文数量非常大。
到目前为止,已经开发了100多个软件工具,来加快合成证据所涉及的最耗时的那部分过程,然而基于先进机器学习的自然语言处理方法(NLP)在***评价的软件中很少被使用。值得注意的是,Covidence、Early Review Organizing Software(EROS)和PICOPortal等软件侧重于文本可视化,并在同一个项目上帮助多个用户合作筛选引文。SWIFT-Active Screener使用词袋编码和术语频率-逆文档频率权重(TF-IDF)对文档进行评分,以便对其估计的相关性概率进行排序,而忽略了语序信息,导致引文筛选效果不佳。GAPscreener,Abstrackr和Rayyan等文本挖掘工具是半自动引用筛选和选择软件,采用支持向量机(SVM)对文档进行分类。SVM是一种成功的机器学习模型,广泛应用于这些文本挖掘工具中,在二十一世纪的第一个十年中十分流行。但SVM在很大程度上依赖于人为设置的样本特征,这样的特征是不稳定,同时需要大量人力劳动。
随着机器学习技术和计算机硬件的发展,基于神经网络的机器学习模型已经出现,并证明了其特别是在图像识别和NLP中良好的学习效果。与SVM相比,深度神经网络学习模型在减少人工工作量的同时,利用该算法提取样本特征,可以获得相同甚至更好的训练效果。机器学习模型在自然语言处理中的发展是卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆(LSTM)、双向长短期记忆(Bi-LSTM)、注意机制、Transformer、BidirectionalEncoder Representations from Transformers(BERT)。BERT,一个由谷歌公司提出的预先培训模型,是截止2018年10月前在11个NLP任务表现最好的模型。不同的预训练集会导致不同的初始BERT参数,这将影响BERT的性能。BERT模型单一模型即可以实现高敏感度和高特异性地识别***评价更新问题中的合格引文,然而其模型的稳定性不佳。
近年来,Light Gradient Boosting Machine(LightGBM)是最受欢迎的机器学习技术之一,因为它作为一种集成策略,具有非常强大地将几种模型的性能结合起来能力。除了节省时间外,其效果还优于现有的Boosting Machine效果。
发明内容
本发明旨在提供一种基于LightGBM算法及多个BERT模型并且在更新***评价时自动筛选标题和摘要的方法。
为达到上述目的,本发明是采用以下技术方案实现的:
LightGBM集成多个BERT模型用于加速***评价更新的方法,包括以下步骤:
步骤s1:采用预先原有的***评价初筛数据作为语料库,并将所述初筛数据分割为训练集、开发集以及测试集,所述初筛数据包括文本和原本的分类标签;
步骤s2:把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量;
步骤s3:使用训练集中的文本转化后的位置向量、文本向量、自向量和原本的分类标签分别训练4个BERT模型;
步骤s4:使用开发集中的文本转化后的位置向量、文本向量、自向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数;
步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类;
步骤s6:训练LightGBM模型;
步骤s7:使用4个BERT模型对测试集数据进行分类,得到分类结果,lightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。
优选的,在步骤s1中,所述分割的方式为将某一个时间节点之后发表的文本作为测试集,将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。
优选的,所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU,SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型,SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型,BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型,BBU为Bert-base不区分大小写且受英文***训练的BERT模型。
优选的,在步骤s5中,训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果。因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。
进一步的,在步骤s6中,使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型,并采用十折交叉验证,逐步调整LightGBM模型超参数。
本发明具有以下有益效果:
使用LightGBM模型整合多个不同的BERT模型,进行***评价更新过程中的自动化筛选题目和摘要,整体过程相较于以往的***评价办法更稳定、更高效,且灵敏度和特异性都更高。
附图说明
图1为本发明算法工作流程;
图2为本发明算法总体框架;
图3为不同模型方法在案例***评价2年后更新中的比较结果;
图4为不同模型方法在案例***评价3年后更新中的比较结果;
图5为不同模型方法在案例***评价4年后更新中的比较结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
如图1,LightGBM集成多个BERT模型用于加速***评价更新的方法,包括以下步骤:
步骤s1:采用预先原有的***评价初筛数据作为语料库,并将所述初筛数据分割为训练集、开发集以及测试集,所述初筛数据包括文本和原本的分类标签。
在步骤s1中,所述分割的方式为将某一个时间节点之后发表的文本作为测试集,将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。
步骤s2:把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量。
具体地,步骤s2中的转化过程采用***提供的bert模型代码的tokenization.py代码完成。
文本向量(Segment Embedding):用于区分句子的表示,比如哪些单词属于句子1,那些单词属于句子2。由于本发明中是单段文本作为输入,所以所有的Segment Embedding都标1。
位置向量(Position Embedding):和transformer中的一样目的在于区分句子中词的位置关系。例如I think,therefore I am,第一个I和第二个I应该有不同的向量表示。BERT模型中的最大句子长度是512,所以Position Embedding layer是一个size为(512,768)的lookup table,且不同句子同样的位置,位置编码是一样的。
字向量(Token Embedding):每个词被表示成一个768维的向量,其中的CLS表示开始符号,SEP表示结束符号。这里使用WordPiece tokenization的原因是这种表示方法使BERT模型只需要存储很少的词汇,并且很少遇到未登陆词。经过预训练的BERT模型会提供Token对应的Embedding向量。
因此,三个部分联合表示形成一个文本数据,例如(1,n,768)。
步骤s3:使用训练集中的文本转化后的位置向量、文本向量、自向量和原本的分类标签分别训练4个BERT模型。
所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU,SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型,SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型,BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型,BBU为Bert-base不区分大小写且受英文***训练的BERT模型。
4个BERT模型SCI-BBUP、SCI-BBUPC、BIOBU和BBU作为基分类器,具有相同的模型结构,但初始参数不同,不同初始参数会影响模型的性能。模型结构是12-layer,768-hidden,12-heads,110M parameters。其中的超参数为:转小写为True,最大片段长度为512,训练batch大小为4,学习率为2e-5,训练轮数为4.0。模型初始参数为公开数据,分别在github中下载。
在使用过程中,对于每个基分类器,输入是以标题和摘要的形式筛选的引文。对于输出,训练集中的每个引文通过每个基分类器得到一个二维向量作为模型结果。
步骤s4:步骤s4:使用开发集中的文本转化后的位置向量、文本向量、自向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数。
步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类;
在步骤s5中,训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果。因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。
步骤s6:训练LightGBM模型。
在步骤s6中,使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型,并采用十折交叉验证,逐步调整LightGBM模型超参数。
在训练过程中,分类器学习了引文与标签(合格或不合格)之间的链接关系。经过训练之后,分类器可以分类没有标签的引文。
步骤s7:使用4个BERT模型对测试集数据进行分类,得到分类结果,lightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。
LightGBM模型作为集成分类器,输入是训练集上四个基分类器的分类结果。在本发明中合并了四个作为基分类器分类结果的二维向量作为集成分类器训练的输入特征,则输出是一个二维向量。
并且,使用argmax将每个二维向量转换为一维(1或0)作为最终分类结果。
评价算法性能的指标有准确性、敏感性、特异性、遗漏研究和工作量节省。
在本发明中,准确性是正确预测的引文数量与引文总数的比率。敏感性是正确预测为合格引文的合格引文数量与合格引文总数的比率。特异性是被正确预测为不合格的引文数量与不合格引文总数的比率。
错过的引文是合格引文的数量,这些引文被错误地预测为不合格的引文。工作量节省是指被错误地预测为不合格引文的合格引文数量与引文总数的比率。对于遗漏的引文,工作人员会检查引文是否包括在最终的全文分类中。
下面通过具体实施例来说明本发明的技术效果:
本具体实施例构建了一个***评价2年后的更新,通过一个人为的时间截点(2018年),按照出版日期通过将引文分为初始筛选的引文和待筛选的引文,2018年前的文章作为筛选过得引文(训练集)。
使用2018年和2019年的文章作为一组待筛选引文(评价集),在初步筛选的引文上拟合了本发明所涉及的模型,在待筛选引文上进行了评估模型筛选合格引文能力的评估。
比较了本发明和单一BERT模型在案例研究中表现,结果展示如图3所示。
同时为了说明模型的稳定性而进行了更早年份的划分,分别预测了此***评价以2016年和2017年为时间节点3年后和4年后的更新。结果展示如图4、5所示。
同时为了说明模型的稳定性,进行了更早年份的划分,分别预测了此***评价以2016年和2017年为时间节点3年后和4年后的更新。
其中***评价数据详情是一份已发表的关于钠-葡萄糖共转运体-2(SGLT2)抑制剂治疗2型糖尿病(T2DM)的随机对照试验(RCTS)的***评价中的数据,这些数据是从开始到2019年6月从Pubmed、EMBASE和Cochrane对照试验中央登记册(Central)中检索的,有3858篇筛选的引文。两位受过研究方法培训的评审员,独立筛选标题/摘要和全文,以获得最终合格的引文。评审员通过讨论或必要时与第三位审查员协商来解决分歧。
本发明在案例研究评价集中的准确率为81%,灵敏度为96%,特异性为78%。灵敏度96%在案例研究中优于每个单一的BERT模型。在案例研究中,本发明将避免手动筛选947篇引文中的347篇,使工作量减少63.3%,而180篇合格引文中缺少8篇(4%),其中没有一篇在全文考虑后最终被纳入***审查。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.LightGBM集成多个BERT模型用于加速***评价更新的方法,其特征在于,包括以下步骤:
步骤s1:采用预先原有的***评价初筛数据作为语料库,并将所述初筛数据分割为训练集、开发集以及测试集,所述初筛数据包括文本和原本的分类标签;
步骤s2:把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量;
步骤s3:使用训练集中的文本转化后的位置向量、文本向量、字向量和原本的分类标签分别训练4个BERT模型;
步骤s4:使用开发集中的文本转化后的位置向量、文本向量、字向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数;
步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类;
步骤s6:训练LightGBM模型;
步骤s7:使用4个BERT模型对测试集数据进行分类,得到分类结果,lightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。
2.根据权利要求1所述的LightGBM集成多个BERT模型用于加速***评价更新的方法,其特征在于:在步骤s1中,所述分割的方式为将某一个时间节点之后发表的文本作为测试集,将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。
3.根据权利要求1所述的LightGBM集成多个BERT模型用于加速***评价更新的方法,其特征在于:所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU,SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型,SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型,BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型,BBU为Bert-base不区分大小写且受英文***训练的BERT模型。
4.根据权利要求1所述的LightGBM集成多个BERT模型用于加速***评价更新的方法,其特征在于:在步骤s5中,训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果;因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。
5.根据权利要求4所述的LightGBM集成多个BERT模型用于加速***评价更新的方法,其特征在于:在步骤s6中,使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型,并采用十折交叉验证,逐步调整LightGBM模型超参数。
CN202011157850.4A 2020-10-26 2020-10-26 LightGBM集成多个BERT模型用于加速***评价更新的方法 Active CN112131389B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011157850.4A CN112131389B (zh) 2020-10-26 2020-10-26 LightGBM集成多个BERT模型用于加速***评价更新的方法
PCT/CN2021/116270 WO2022088979A1 (zh) 2020-10-26 2021-09-02 LightGBM集成多个BERT模型用于加速***评价更新的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011157850.4A CN112131389B (zh) 2020-10-26 2020-10-26 LightGBM集成多个BERT模型用于加速***评价更新的方法

Publications (2)

Publication Number Publication Date
CN112131389A CN112131389A (zh) 2020-12-25
CN112131389B true CN112131389B (zh) 2023-04-07

Family

ID=73853538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011157850.4A Active CN112131389B (zh) 2020-10-26 2020-10-26 LightGBM集成多个BERT模型用于加速***评价更新的方法

Country Status (2)

Country Link
CN (1) CN112131389B (zh)
WO (1) WO2022088979A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131389B (zh) * 2020-10-26 2023-04-07 四川大学华西医院 LightGBM集成多个BERT模型用于加速***评价更新的方法
CN112836772A (zh) * 2021-04-02 2021-05-25 四川大学华西医院 基于LightGBM集成多个BERT模型的随机对照试验识别方法
CN113627185A (zh) * 2021-07-29 2021-11-09 重庆邮电大学 一种用于肝癌病理文本命名的实体识别方法
CN115913703B (zh) * 2022-11-14 2024-06-18 中国电子科技网络信息安全有限公司 一种通用工业协议异常报文检测方法、***、设备及介质
CN117763356A (zh) * 2023-12-26 2024-03-26 中国地质科学院地质力学研究所 一种基于LightGBM算法的地震相快速识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046941A (zh) * 2019-12-09 2020-04-21 腾讯科技(深圳)有限公司 一种目标评论检测方法、装置、电子设备和存储介质
CN111125356A (zh) * 2019-11-29 2020-05-08 江苏艾佳家居用品有限公司 一种文本分类方法及***
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
CN111611483A (zh) * 2020-05-11 2020-09-01 腾讯科技(深圳)有限公司 一种对象画像构建方法、装置、设备及存储介质
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机***及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
US20200334326A1 (en) * 2019-04-18 2020-10-22 Microsoft Technology Licensing, Llc Architectures for modeling comment and edit relations
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN112131389B (zh) * 2020-10-26 2023-04-07 四川大学华西医院 LightGBM集成多个BERT模型用于加速***评价更新的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125356A (zh) * 2019-11-29 2020-05-08 江苏艾佳家居用品有限公司 一种文本分类方法及***
CN111046941A (zh) * 2019-12-09 2020-04-21 腾讯科技(深圳)有限公司 一种目标评论检测方法、装置、电子设备和存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
CN111611483A (zh) * 2020-05-11 2020-09-01 腾讯科技(深圳)有限公司 一种对象画像构建方法、装置、设备及存储介质
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机***及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yu Ma等.natural language proceeding was effictive in assisting rapid title and abstract screening when updating systematic reviews.《Journal of Clinical Epidemiology》.2021,第133卷121-129页. *
鲁威.基于多因素特征的文本分类的研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,I138-2665. *

Also Published As

Publication number Publication date
WO2022088979A1 (zh) 2022-05-05
CN112131389A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112131389B (zh) LightGBM集成多个BERT模型用于加速***评价更新的方法
US20210232762A1 (en) Architectures for natural language processing
CN108463795B (zh) 自助分类***
CN101561805B (zh) 文档分类器生成方法和***
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
Raza et al. Sentiment analysis on COVID tweets: an experimental analysis on the impact of count vectorizer and TF-IDF on sentiment predictions using deep learning models
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
Patil et al. Supervised classifiers with TF-IDF features for sentiment analysis of Marathi tweets
Satapathy et al. Subjectivity detection in nuclear energy tweets
CN111754208A (zh) 一种招聘简历自动筛选方法
CN115357692A (zh) 一种中文问答信息抽取方法、***、设备及存储介质
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN109299007A (zh) 一种缺陷修复者自动推荐方法
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
Kanan et al. Arabic text categorization: A comparison survey
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
US20230168989A1 (en) BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM
Gan et al. Enhancing microblog sentiment analysis through multi-level feature interaction fusion with social relationship guidance
CN114896391A (zh) 基于任务提示的小样本句型分类方法、***、设备及介质
Bl et al. Sentiment analysis in Indian sub-continent during Covid-19 second wave using twitter data
US11727215B2 (en) Searchable data structure for electronic documents
CN116821712B (zh) 非结构化文本与知识图谱的语义匹配方法及装置
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant