CN112926737A - 一种模型训练方法、数据处理方法、装置及电子设备 - Google Patents

一种模型训练方法、数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112926737A
CN112926737A CN202110227463.1A CN202110227463A CN112926737A CN 112926737 A CN112926737 A CN 112926737A CN 202110227463 A CN202110227463 A CN 202110227463A CN 112926737 A CN112926737 A CN 112926737A
Authority
CN
China
Prior art keywords
model
training
data
embedding
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110227463.1A
Other languages
English (en)
Inventor
张发恩
刘雨微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Wisdom Shanghai Technology Co ltd
AInnovation Shanghai Technology Co Ltd
Original Assignee
Innovation Wisdom Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Wisdom Shanghai Technology Co ltd filed Critical Innovation Wisdom Shanghai Technology Co ltd
Priority to CN202110227463.1A priority Critical patent/CN112926737A/zh
Publication of CN112926737A publication Critical patent/CN112926737A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种模型训练方法、数据处理方法、装置及电子设备,属于计算机技术领域。该训练方法包括:获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联。通过对BERT模型进行改进,通过将每一句话的平均响应和最大响应考虑在内,使得训练出的词向量不仅含有语义信息,而且还将整个句子的情感极性表达考虑在内,从而提高了情感分类预测的准确性。

Description

一种模型训练方法、数据处理方法、装置及电子设备
技术领域
本申请属于计算机技术领域,具体涉及一种模型训练方法、数据处理方法、装置及电子设备。
背景技术
随着互联网的发展以及电子商务的大众化,网上购物已变成一种广受欢迎的购物方式,电商网站上的购物评论也逐渐增多,这些评论信息表达的是消费者对所购商品的主观感受,对于消费者挑选符合心意的商品具有极大的参考价值,同时,也是商家改进营销策略的重要依据。随着电商平台评论信息的海量堆积,消费者越来越关注自己感兴趣的商品主题信息,例如商品的质量、包装、或者送货速度等。因此,从电商评论中获取商品主题的情感信息是一个热门课题。
目前主流的情感分析方法有三类:一类是基于情感词典的分析方法,这类方法主要依赖于情感词典,并通过人为设计的规则进行情感分类;第二类是传统的基于机器学习的分析方法,这类方法需要挖掘出词语的特征,再使用如支持向量机、朴素贝叶斯、随机森林等分类算法对文本进行情感倾向性的判断;最后一类则为基于深度学习的分析方法,即使用不同的神经网络模型,将文本隐射到向量空间得到词语的数值表示,再将向量输入到分类器中。
基于情感词典的分析方法并不能处理如今的海量文本语料,不仅耗时耗力,准确率也极低。而传统机器学习分析方法,对于文本本身的特征提取依赖严重,整个过程存在人为因素干扰,所以抗鲁棒性较差。而目前一般的深度神经网络是将文本中的句子看作一个个情感词或短语的集合,而不考虑每个词语之间互相组合的关系,训练出的词向量只含有语义信息而忽略了情感极性的表达,对于情感分析类任务,准确率并不高。
发明内容
鉴于此,本申请的目的在于提供一种模型训练方法、数据处理方法、装置及电子设备,以改善现有情感分析方法存在的分类不准确的问题。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种模型训练方法,包括:获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。本申请实例中,通过对BERT模型进行改进,使得BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2],通过将每一句话的平均响应和最大响应考虑在内,使得训练出的词向量不仅含有语义信息,而且还考虑了整个句子的情感极性表达,从而提高了预测的准确性。
结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。本申请实施例中,在对模型进行训练时,采取动态学习率和提前终止的方式进行训练,能在保证预测精度的前提下,加快模块的收敛速度。
结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数;在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。本申请实施例中,采用动态阈值策略来选择最佳阈值,以提高模型的预测精度。
结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。本申请实施例中,在对模型进行训练时,通过加入权重衰减(weight decay)机制以及dropout机制来减少模型过拟合的问题,以此提高模型的准确性。
结合第一方面实施例的一种可能的实施方式,获取数据样本集,包括:获取网页中与指定目标相关的多条评论文本数据;对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,得到所述数据样本集,所述标签用于标记文本数据为正面评论文本或负面评论样本。本申请实施例中,通过对样本进行去重,使得模型能学习更多不同样本的特征,以此可以提高模型的泛化能力。
第二方面,本申请实施例还提供了一种数据处理方法,所述方法包括:获取网页中的评论数据;利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的模型训练方法训练好的情感分类模型对所述评论数据进行情感分类,得到分类结果。
第三方面,本申请实施例还提供了一种模型训练装置,包括:获取模块以及处理模块;获取模块,用于获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;处理模块,用于利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
第四方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第二方面实施例提供的方法。
第五方面,本申请实施例还提供了一种BERT模型,包括:输入层、嵌入层;所述输入层的数据经过所述嵌入层后,沿着sequence length方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
第六方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第二方面实施例提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种模型训练方法的流程示意图。
图2示出了本申请实施例提供的一种对BERT模块进行改进的原理示意图。
图3示出了本申请实施例提供的一种数据处理方法的流程示意图。
图4示出了本申请实施例提供的一种模型训练装置的结构框图。
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
鉴于现有的情感分析方法存在的缺陷,本申请实施例提供了一种数据处理方法,通过选用BERT(Bidirectional Encoder Representations from Transformer)模型,并对BERT模型进行改进,使得改进后的BERT模型的输入层经过嵌入层(embedding)后,沿着句子序列长度(sequence length)方向分别做平均池化(mean pooling)和最大池化(maxpooling),并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化(pooling)操作后,变为[batch_size,embedding_dimension*2],使得模型将每个句子中的词语之间的相互组合关系考虑在内,训练出的词向量不仅含有语义信息,而且还考虑了整个句子的情感极性表达,从而便解决了现有情感分析方法存在的分类准确率不高的问题。其中,上述的batch_size表示批量大小,也即单次输入的词语个数;sequence_length表示句子序列长度,也即输入的词语的长度,embedding_dimension表示嵌入维度。
为了便于理解,下面将对本申请实施例提供的模型训练方法进行说明,如图1所示。该模型训练方法包括如下步骤:
步骤S101:获取数据样本集,并按照预设比例划分为训练集和测试集。
当需要对模型进行训练时,获取数据样本集,并按照预设比例(例如7:3)划分为训练集和测试集。其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本。
其中,获取的数据样本集可以是事先就准备好的,例如存储在数据库或磁盘中,当需要时,直接获取即可。当然,也可以是实时获取的。
一种实施方式下,获取数据样本集的过程可以是:获取网页中与指定目标相关的多条评论文本数据,对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,便可得到数据样本集,其中,标签用于标记文本数据为正面评论文本或负面评论样本。例如,以酒店评论文本数据为语料,利用爬虫技术爬取多条评论文本数据,例如爬取一万条评论数据,正面评论和负面评论各5000条,然后对其进行清洗去重,并对去重后的每一条文本数据进行标签标记,如将其中表征正面评论数据的标注为1,将其中表征负面评论数据的标注为0。
其中,需要说明的是,上述仅以指定目标为酒为例,其可以是用户根据需要设定的各种目标,如衣服、鞋子、家电等目标,因此不能将上述示例的酒理解成是对指定目标的限制。
步骤S102:利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型。
在按照预设比例将数据样本集划分为训练集和测试集后,便可利用训练集和测试集对BERT模型进行迭代训练,便可得到训练好的情感分类模型。在训练时,利用训练集对BERT模型进行训练,并利用测试集对训练后的模型进行合格测试,若测试不合适,则调整模型参数继续利用训练集进行训练,直至模型测试合格为止。
其中,训练的BERT模型为改进后的模型,由于初始的BERT模型的参数太多,模型太复杂,为了解决过拟合的问题,需要对BERT模型结构进行改进。本申请实施例中,采用包含3个Transformer Block的BERT模型,以起到减少参数的作用,并对包含3个TransformerBlock的BERT模型进行改进。下面将结合图2对其进行说明,如图2所示,改进后的BERT模型,其实就是沿着句子序列长度(sequence length)方向分别做平均池化(mean pooling)和最大池化(max pooling),并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化(pooling)操作后,变为[batch_size,embedding_dimension*2]。之后同样映射成一个值再激活:Y=sigmoid(Linear(mean_max_pooled))y∈(0,1)。
其中,上述对BERT模型进行改进的操作实质,可以理解为求出每一句话的平均响应和最大响应,之后再用线性映射来识别这些响应,从而得到模型的推断结果,这样使得训练出的情感分类模型的准确性更高。
可选地,在利用所述训练集和所述测试集对BERT模型进行迭代训练时,还可以加入权重衰减(weight decay)机制以及dropout机制来提高模型的准确性,也即训练时,基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。其中,加入权重衰减机制,也即加入L2正则化,其作用就是防止参数的值变得过大或过小,能在一定程度上减少模型过拟合的问题。同时,还可以加入dropout机制,并将dropout设为0.4,来减少模型过拟合。其中,权重衰减机制以及dropout机制的原理已经为本领域技术人员所熟知,在此不再介绍。
可选地,在利用所述训练集和所述测试集对BERT模型进行迭代训练时,可以将迭代次数(epoch)设为100,batch_size设为24,同时采取动态学习率和提前终止的方式进行训练,其过程可以是:在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标(如AUC(Area Under Curve))小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。例如,当前epoch训练完毕以后,用测试集衡量当前训练结果,并记下当前epoch的AUC,如果当前的AUC较上一个epoch的AUC没有提升,那么就降低学习率,如将当前的学习率降低1/5后继续进行迭代训练,若连续出现多次迭代后,当前的AUC较上一个epoch的AUC均没有提升,例如出现10个epoch测试集的AUC都没有提升,则提前终止训练。其中,模型评估指标可以用AUC来衡量,AUC为ROC(Receiver Operating Characteristic)曲线与坐标轴围成的面积。
模型的输出值是介于0到1之间,通常情况下,选定0.5为分界值,如果输出值在0.5以上为正样本,值在0.5以下为负样本,但通常0.5不是最佳的分类边界,因此为了提高模型的预测准确性,本申请实施例中,采用动态阈值策略来选择最佳阈值,以提高模型的预测精度。在利用所述训练集和所述测试集对BERT模型进行迭代训练的过程可以是:在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数(F1 score),在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。例如,从0.01到0.99定义99个阈值,高于阈值算正样本,低于算负样本,然后在每次利用测试集对当前迭代训练后BERT模型进行合格测试时,均会计算测试集相对于预设99个阈值中每一个阈值的F1分数,在迭代结束时,选出可以使F1 score最高的阈值,并将其作为模型的最终预测阈值。
模型训练完成后保存模型,以备后续使用,如后续获取网页中的评论数据,利用上述的模型训练方法训练好的情感分类模型对所述评论数据进行情感分类,便可得到分类结果。下面将结合图3,对本申请实施例提供的数据处理方法进行说明。
步骤S201:获取网页中的评论数据。
步骤S202:利用事先训练好的情感分类模型对所述评论数据进行情感分类,得到分类结果。
其中,事先训练好的情感分类模型为利用图1所示的模型训练方法训练好的情感分类模型。
本申请实施例还提供了一种BERT模型,该BERT模型为包含3个Transformer Block的BERT模型,该BERT模型包括输入层、嵌入层,通过对嵌入层进行改进,使得输入层的数据经过嵌入层后,沿着sequence length方向分别做平均池化(mean pooling)和最大池化(max pooling),并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。之后同样映射成一个值再激活:Y=sigmoid(Linear(mean_max_pooled))y∈(0,1)。上述对BERT模型进行改进的操作实质,可以理解为求出每一句话的平均响应和最大响应,之后再用线性映射来识别这些响应,从而得到模型的推断结果,这样使得训练出的情感分类模型的准确性更高。
本申请实施例还提供了一种模型训练装置100,如图4所示。该模型训练装置100包括:获取模块110以及处理模块120。
获取模块110,用于获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本。
可选地,获取模块110,具体用于获取网页中与指定目标相关的多条评论文本数据;对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,得到所述数据样本集,所述标签用于标记文本数据为正面评论文本或负面评论样本。
处理模块120,用于利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
可选地,处理模块120,用于在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。
可选地,处理模块120,用于在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数;在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。
可选地,处理模块120,用于基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。
本申请实施例所提供的模型训练装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图5所示,图5示出了本申请实施例提供的一种电子设备200的结构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230以及处理器240。
所述收发器210、所述存储器220、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210用于收发数据。存储器220用于存储计算机程序,如存储有图4中所示的软件功能模块,即模型训练装置100。其中,模型训练装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作***(operating system,OS)中的软件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块,例如模型训练装置100包括的软件功能模块或计算机程序。例如,处理器240,用于获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;以及还用于利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器240也可以是任何常规的处理器等。
其中,上述的电子设备200,包括但不限于计算机、服务器等。
本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备200运行时,执行上述所示的模型训练方法以及数据处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;
利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
2.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:
在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;
若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;
若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。
3.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:
在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数;
在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。
4.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:
基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。
5.根据权利要求1所述的方法,其特征在于,获取数据样本集,包括:
获取网页中与指定目标相关的多条评论文本数据;
对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,得到所述数据样本集,所述标签用于标记文本数据为正面评论文本或负面评论样本。
6.一种数据处理方法,其特征在于,所述方法包括:
获取网页中的评论数据;
利用如权利要求1-5中任一项所述的模型训练方法训练好的情感分类模型对所述评论数据进行情感分类,得到分类结果。
7.一种模型训练装置,其特征在于,包括:
获取模块,用于获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;
处理模块,用于利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
8.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-5中任一项所述的方法,或者执行如权利要求6所述的方法。
9.一种BERT模型,其特征在于,包括:
输入层、嵌入层;所述输入层的数据经过所述嵌入层后,沿着sequence length方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-5中任一项所述的方法,或者执行如权利要求6所述的方法。
CN202110227463.1A 2021-03-01 2021-03-01 一种模型训练方法、数据处理方法、装置及电子设备 Pending CN112926737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110227463.1A CN112926737A (zh) 2021-03-01 2021-03-01 一种模型训练方法、数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110227463.1A CN112926737A (zh) 2021-03-01 2021-03-01 一种模型训练方法、数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112926737A true CN112926737A (zh) 2021-06-08

Family

ID=76172920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227463.1A Pending CN112926737A (zh) 2021-03-01 2021-03-01 一种模型训练方法、数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112926737A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230195828A1 (en) * 2021-12-17 2023-06-22 Mcafee, Llc Methods and apparatus to classify web content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN110704622A (zh) * 2019-09-27 2020-01-17 北京明略软件***有限公司 文本情感分类方法、装置及电子设备
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
CN110704622A (zh) * 2019-09-27 2020-01-17 北京明略软件***有限公司 文本情感分类方法、装置及电子设备
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘玉良等: "《深度学习》", 西安电子科技大学出版社, pages: 286 - 101 *
杨晨等: "SentiBERT:结合情感信息的预训练语言模型", 《计算机科学与探索》, no. 09, 30 December 2019 (2019-12-30) *
陆泉等著, 武汉大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230195828A1 (en) * 2021-12-17 2023-06-22 Mcafee, Llc Methods and apparatus to classify web content

Similar Documents

Publication Publication Date Title
WO2019218508A1 (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110209805B (zh) 文本分类方法、装置、存储介质和计算机设备
CN110619044B (zh) 一种情感分析方法、***、存储介质及设备
CN106095845B (zh) 文本分类方法和装置
CN111753092A (zh) 一种数据处理方法、模型训练方法、装置及电子设备
Chang et al. Research on detection methods based on Doc2vec abnormal comments
AU2020381439B2 (en) Enhanced intent matching using keyword-based word mover’s distance
US11599927B1 (en) Artificial intelligence system using deep neural networks for pairwise character-level text analysis and recommendations
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN111160000B (zh) 作文自动评分方法、装置终端设备及存储介质
Shen et al. A voice of the customer real-time strategy: An integrated quality function deployment approach
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN115374845A (zh) 商品信息推理方法和装置
CN116703506A (zh) 一种基于多特征融合的电商商品推荐方法及***
Carvalho et al. The importance of context for sentiment analysis in dialogues
Aktaş et al. Turkish sentiment analysis using machine learning methods: application on online food order site reviews
CN112926737A (zh) 一种模型训练方法、数据处理方法、装置及电子设备
KR20220151453A (ko) 상품의 가격 예측 방법
Ma et al. Identifying purchase intention through deep learning: analyzing the Q &D text of an E-Commerce platform
CN115878761A (zh) 事件脉络生成方法、设备及介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN115906824A (zh) 一种文本细粒度情感分析方法、***、介质和计算设备
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Pekar et al. Explainable text-based features in predictive models of crowdfunding campaigns
TWI847119B (zh) 社群網路社團危機資訊管理之系統、方法以及電腦程式產品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication