CN116383710A - 标签确定方法、装置、电子设备及存储介质 - Google Patents

标签确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116383710A
CN116383710A CN202211641048.1A CN202211641048A CN116383710A CN 116383710 A CN116383710 A CN 116383710A CN 202211641048 A CN202211641048 A CN 202211641048A CN 116383710 A CN116383710 A CN 116383710A
Authority
CN
China
Prior art keywords
label
defect
preset
safety data
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211641048.1A
Other languages
English (en)
Inventor
张文学
于帮付
苏萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN202211641048.1A priority Critical patent/CN116383710A/zh
Publication of CN116383710A publication Critical patent/CN116383710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Time Recorders, Dirve Recorders, Access Control (AREA)

Abstract

本申请公开了一种标签确定方法、装置、电子设备及存储介质,属于计算机技术领域,所述方法包括:获取待处理的汽车安全数据;根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的,能够快速准确的确定汽车召回投诉数据的缺陷标签。

Description

标签确定方法、装置、电子设备及存储介质
技术领域
本申请属于计算机技术领域,具体涉及一种标签确定方法、装置、电子设备及存储介质。
背景技术
随着汽车技术的发展,安全问题变得越来越重要,关于汽车各种问题的投诉数据也越来越多。但汽车召回缺陷投诉数据具有非结构化,语义不清晰等问题,不能快速准确的将投诉数据归类到汽车哪个部位发生的哪类问题。因此,如何对当前对汽车召回投诉数据进行标签分类,实现汽车召回投诉数据标签化是当前急需解决的技术问题。
发明内容
本申请实施例提供一种标签确定方法、装置、电子设备及存储介质,能够快速准确的确定汽车召回投诉数据的缺陷标签。
第一方面,本申请实施例提供了一种标签确定方法,该方法包括:获取待处理的汽车安全数据;根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
第二方面,本申请实施例提供了一种标签确定装置,该装置包括:获取模块,用于获取待处理的汽车安全数据;确定模块,用于根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;所述确定模块,还用于在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请提供的标签确定方法中,首先通过预设缺陷标签字典为汽车安全数据推荐缺陷标签,在预设缺陷标签字典无法确定汽车安全数据的缺陷标签时,利用训练好的多标签分类模型来确定汽车安全数据的缺陷标签。这样,解决了将汽车安全数据快速精准的对应到缺陷标签的问题,实现了汽车安全数据的标签化。
附图说明
图1是本申请实施例提供的一种标签确定方法的流程示意图;
图2是本申请实施例提供的另一种标签确定方法的流程示意图;
图3是本申请实施例提供的又一种标签确定方法的流程示意图;
图4是本申请实施例提供的一种标签确定方法的具体实施方式的流程示意图;
图5是本申请实施例提供的一种标签确定装置的结构示意图;
图6是根据本申请的一个实施例的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在汽车召回投诉数据分析方面,目前还没有针对此类数据特点进行多标签分类的方法,多标签数据分类目前已经有不少研究,譬如:CNN-RNN,利用一种卷积神经网络和递归神经网络在多标签文本分类中的集成应用,同时捕获全局和上下文语义信息,还有基于嵌入式的语言学习模型ELMO,它基于双向长短期记忆网络BiLSTM学习框架可以有效的学习上下文语义信息,这些模型或者面临梯度消失以及无法并行化等问题,或者面临文本表征能力不够强等问题,或者面临只有在海量数据的基础上才能够训练得到较好结果的问题。汽车召回投诉数据具有较强的领域特点(譬如:投诉数据不是海量,投诉数据文本是短文本,投诉类别文本数据长度比较均衡),预训练语言模型具有强大的文本表征能力和语义理解能力,TextCNN利用CNN的分类结构进行分类将词向量组成的句子利用不同大小的窗口来捕捉句子的局部信息提取信息,非常适用于短文本分类。因此本文结合ALBERT预训练语言模型以及深度卷积神经网络TextCNN,通过这两种方法的结合实现基于ALBERT-TextCNN的深度学习模型框架的多标签汽车召回投诉文本分类模型。
本申请主要解决的技术问题首先在于制定故障标准,即汽车一级总成,二级总成发生的缺陷标签是什么,描述的关键词有哪些,相对应的故障等级;其次在于将具体缺陷投诉数据内容映射到故障标准上去。其次是针对汽车召回投诉数据特点选择合适的文本多标签分类方法。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种标签确定方法、装置、电子设备及存储介质进行详细地说明。
图1示出本发明的一个实施例提供的一种标签确定方法,该方法可以由电子设备执行,该电子设备可以包括:服务器和/或终端设备。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤。
步骤110:获取待处理的汽车安全数据。
其中,汽车安全数据可以包括车辆基本信息、故障现象、故障位置,例如“xxx的发动机有裂痕”。
汽车安全数据的来源可以包括:官方网站投诉数据、汽车媒体网站的讨论数据、社交平台的舆情数据、车企的技术服务公报(TECHNICAL SERVICE BULLETIN,TSB)公告数据以及交通事故相关数据。
需要说明的是,汽车安全数据的获取方式可以为通过大数据分析、数据打点等方式进行数据挖掘或者用户通过客户端进行填报。
步骤120:根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签。
预设缺陷标签字典是基于历史汽车安全数据利用专家经验创建的,用于对待处理的汽车安全数据进行标签推荐。预设缺陷标签包括故障位置和故障特征,其中,故障位置包括一级总成和二级总成,一级总成是指汽车的一级部件,是主机厂装配的,例如,汽车空调属于一级总成;二级总成是指汽车的二级部件,是供应商的供应商造的,用来制造一级件的零件,也就是零件的零件,例如,汽车空调蒸发器是汽车空调的零件,属于二级总成。故障特征包括关键词和严重等级,关键词是对汽车安全数据的故障描述,例如,“xxx的发动机有裂痕”其关键词为有裂痕,严重等级是指对汽车安全数据的缺陷程度进行量化操作,严重等级可以分为5级:高、较高、中、较低、低。
需要说明的是,所述至少一个缺陷标签是指一条汽车安全数据可能对应有多个缺陷标签,例如,汽车故障投诉可能包含多个故障表现,譬如:漏油、异味等,对应的缺陷标签可以为:漏油、异味。
在一种实现方式中,如图2所示,步骤120包括:
步骤121:对所述汽车安全数据进行预处理,确定所述汽车安全数据的一级总成、二级总成和目标关键词。
预处理是指按一级总成、二级总成将汽车安全数据进行拆分,形成以一级总成、二级总成为索引的预处理数据,例如,针对这条安全数据:“发现车身经常抖动”,经预处理后,其一级总成为车身,二级总成为车架,目标关键词为抖动。需要说明的是,预处理操作是由业务人员或汽车召回专家进行操作的。
需要注意的是,每个汽车安全数据都以唯一一个一级总成和二级总成为索引,如果一条汽车安全数据涉及多个一级总成和二级总成的集合,那么在预处理时,需要将汽车安全数据拆分成不同的一级总成和二级总成及对应的数据内容。
步骤122:将所述汽车安全数据的目标关键词与预设缺陷标签字典的所述关键词进行匹配,并将所匹配到的预设缺陷标签作为备用标签。
步骤123:在确定所述备用标签与所述汽车安全数据的一级总成和二级总成都相同的情况下,将所述备用标签作为所述汽车安全数据的缺陷标签。
可以理解的是,缺陷标签确定的逻辑是通过预设缺陷标签字典维护的关键词与汽车安全数据中的关键词做匹配,并通过汽车安全数据和缺陷标签的一级总成和二级总成做二次筛选。例如,一条汽车安全数据的关键词中包含A标签的任意一个关键词以及B标签的任意一个关键词,同时A标签和B标签各自的一级总成和二级总成与该汽车安全数据一致,那么就将A标签和B标签推荐给该汽车安全数据,即确定A标签和B标签为汽车安全数据的缺陷标签。
可选的,可以针对已确定的缺陷标签,实现其它业务人员或专家再次校验,确保汽车安全数据对应到正确的缺陷标签上。
步骤130:在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签。
其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
由于预设缺陷标签字典是基于历史汽车安全数据利用专家经验创建的,在面对非结构化、语义不清晰的汽车安全数据时,不能快速精准的为汽车安全数据推荐缺陷标签。因此,通过多标签分类模型可以很好的解决这一问题。将根据预设缺陷标签字典确定缺陷标签失败后的汽车安全数据输入至多标签分类模型,由多标签分类模型模型给出汽车安全数据的缺陷标签。
在本申请实现方式中,首先通过预设缺陷标签字典为汽车安全数据推荐缺陷标签,在预设缺陷标签字典无法确定汽车安全数据的缺陷标签时,利用训练好的多标签分类模型来确定汽车安全数据的缺陷标签。这样,解决了将汽车安全数据快速精准的对应到缺陷标签的问题,实现了汽车安全数据的标签化。
在一种实现方式中,在所述根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签之前,还包括:获取汽车安全数据集,其中,所述汽车安全数据集包括多个所述汽车安全数据;对每个所述汽车安全数据进行分析,获取对应的缺陷特征;基于所述缺陷特征划分特征等级,确定所述预设缺陷标签字典。
可以理解的是,在根据预设缺陷标签字典,确定所述汽车安全数据的缺陷标签之前需要确定预设缺陷标签字典,即对汽车安全数据集中的多个所述汽车安全数据进行分析,获取每个汽车安全数据的缺陷特征,再根据每个汽车安全数据的缺陷特征来确定缺陷标签,再基于缺陷标签来设置缺陷标签对应严重等级。需要说明的是,预设缺陷标签字典的确定可以是由业务人员或汽车召回专家进行操作的。
在一种实现方式中,所述缺陷特征包括故障位置和关键词,其中,故障位置包括一级总成和二级总成;所述基于所述缺陷特征划分特征等级,确定所述预设缺陷标签字典,包括根据所述一级总成、所述二级总成和所述关键词确定每个所述汽车安全数据的缺陷标签;基于所述缺陷标签设置所述缺陷标签的严重等级;基于各个所述汽车安全数据的所述一级总成、所述二级总成、所述关键词、所述缺陷标签和所述缺陷标签对应的所述严重等级,确定所述预设缺陷标签字典。示例性的,如表1所示,为预设缺陷标签字典的记录表:
Figure BDA0004009068170000071
其中,预设缺陷标签字典可以被修改,修改时间和修改人也会被记录,因此可以对有争议的缺陷标签进行回溯。
需要说明的是,标签确定的工作是在数据仓库中完成的,该任务是离线任务,因此,新获取的汽车安全数据和新维护的预设缺陷标签字典,都需要在指定时间后才能用于标签确定工作中,其中,指定时间可以根据实际情况进行设置,本申请不对指定时间进行具体设置。
在一种实现方式中,在所述将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签之前,还包括:基于训练集和预定损失函数训练预设多标签分类模型,直至所述损失函数收敛的情况下,得到训练后的预设多标签分类模型;基于验证集,验证所述训练后的预设多标签分类模型符合第一预设效果;基于测试集,对验证合格后的所述预设多标签分类模型进行测试,将符合第二预设效果的所述预设多标签分类模型作为所述多标签分类模型。
其中,训练集、验证集和测试集是将经过业务人员或汽车召回专家进行处理后的高质量标签数据进行随机抽取,按照3:1:1的比例进行分配的。可选的,高质量标签数据的格式可以为[投诉数据:标签1标签2…标签n],其中,标签之间用tab键分隔,例如,“[汽车从2011年购买至今快6年,车内一直存在异味,用了很多办法,无法根除:车身车架异味]”。
在本实现方式中,构建多标签分类模型的可以包括训练过程、验证过程和测试过程,训练过程是基于训练集和预定损失函数来训练预设多标签分类模型;验证过程是基于验证集,来验证经过训练后的预设多标签分类模型是否达到预设效果;测试过程是基于测试集来评估经过验证后的预设多标签分类模型是否可以投入使用,其中,第一预设效果是指预设多标签分类模型在验证过程中不会出现过拟合,第二预设效果是指预设多标签分类模型可以作为生产模型进行部署。
需要说明的是,在验证不合格或者测试不通过的情况下,需要对预设多标签分类模型进行参数调优并继续训练。
在一种实现方式中,所述预设多标签分类模型包括:预训练语言模型和文本分类模型。
其中,预训练语言模型可以为轻量级的BERT模型(A Lite BERT for Self-supervised Learning of Language Representations,ALBERT),文本分类模型可以为文本分类卷积神经网络(Text Convolutional Neural Networks,TextCNN)。
如图3所示,所述基于训练集和预定损失函数训练预设多标签分类模型,直至所述损失函数收敛的情况下,得到训练后的预设多标签分类模型,包括以下步骤:
步骤310:将所述训练集输入所述预训练语言模型,通过所述预训练语言模型对所述训练集中的所述训练样本进行语义特征提取,得到所述训练样本的文本特征向量。
具体的,将所述训练集输入所述预训练语言模型,通过预训练语言模型的处理层对所述训练集中的每个训练样本进行处理,生成每个训练样本的原始词向量、位置向量和一级文本向量,再通过预训练语言模型的编码器将每个训练样本的原始词向量、位置向量和一级文本向量进行处理,输出每个训练样本的文本特征向量。
步骤320:将所述文本特征向量输入所述文本分类模型,通过所述文本分类模型对所述文本特征向量进行多层次处理,得到训练后的预设多标签分类模型。
其中,在一种实现方式中,所述文本分类模型包括输入层、卷积层、池化层、第一全连接层、第二全连接层;
所述对所述文本特征向量进行多层次处理,包括:通过所述输入层对所述文本特征向量进行语义特征提取,得到所述训练样本的高层文本特征向量;通过所述卷积层对所述高层文本特征向量进行卷积运算,得到卷积特征向量;通过所述池化层对所述卷积特征向量进行降维操作,得到池化特征向量;通过所述第一全连接层对所述池化特征向量进行dropout操作,得到第一特征向量;通过所述第二全连接层对所述第一特征向量进行激活操作,获得所述训练样本针对每个所述缺陷标签的第一预测概率,得到多个第一预测概率;基于多个所述第一预测概率和所述预定损失函数,训练所述多标签分类模型。在另一种实现方式中,所述预定损失函数可以为:
Figure BDA0004009068170000091
其中,N表示所述训练样本的数量,L表示所述训练样本对应的所述缺陷标签放入数量,
Figure BDA0004009068170000092
在[0,1]区间,表示所述缺陷标签的预测概率,yij在[0,1]之间,表示第i个所述训练样本是否属于第j个缺陷标签。
在一种实现方式中,所述对验证合格后的所述预设多标签分类模型进行测试,包括:基于预设评估参数对所述预设多标签分类模型进行评估。
其中,预设评估参数可以包括精确率、召回率和F1值。
需要说明的是,可以通过将测试集中的训练样本分为正类(Positive)、负类(Negative)来评估预设多标签分类模型,这样,预设多标签分类模型的输出具有四种分类结果:TP(True Positive):正确的正例,一个实例是正类并且也被判定成正类;FN(FalseNegative):错误的反例,漏报,本为正类但判定为假类;FP(False Positive):错误的正例,误报,本为假类但判定为正类;TN(True Negative):正确的反例,一个实例是假类并且也被判定成假类。根据以上四种分类结果可以确定精确率(Precision)、召回率(Recall)和F1值的具体值。其中,精确率可以通过以下公式确定:
Figure BDA0004009068170000101
召回率可以通过以下公式确定:
Figure BDA0004009068170000102
需要说明的是,精确率和召回率互相影响,相互“制约”:追求精确率高,则召回率就低;追求召回率高,则通常会影响精确率。为了使预测的结果精确率和召回率都高,可以引入F-score指标来平衡准确率和召回率,这样可以较为全面地评价预设多标签分类模型。其中,F-score可以通过以下公式确定:
Figure BDA0004009068170000103
需要说明的是,β如果取1,表示Precision与Recall一样重要;β如果取小于1,表示Precision比Recall重要;β如果取大于1,表示Recall比Precision重要。在本实现方式中β取1,即F1是精确率和召回率的调和平均,F1-Score越大说明模型质量更高,因此在精确率、召回率和F1值均超过0.8时,将F1-Score的值最大时,确定预设多标签分类模型为多标签分类模型。
在一种实现方式中,在所述确定所述汽车安全数据的至少一个缺陷标签之后,还包括:将所述汽车安全数据的至少一个所述缺陷标签转换为one-hot变量进行存储。
示例性的,预设缺陷标签字典包括500个缺陷标签,在某个汽车安全数据中涉及两个缺陷标签:冷却壶裂痕和点火线圈损坏故障,这两个缺陷位于预设缺陷标签字典的第2位和第4位,则所述汽车安全数据的one-hot标签编码为:0101000…0。
图4示出在本申请中一种标签确定方法的具体实施方式的流程示意图,该实施方式包括如下步骤:
步骤410:将利用专家经验标注好的投诉标签数据随机分成三份:训练集、验证集和测试集。
步骤420:利用ALBERT预训练模型+TextCNN模型,使用训练集训练多标签分类模型。
步骤430:根据生产出的模型在验证集和测试上的精确率和召回率表现确认最终模型。
步骤440:部署多分类NLP模型,用于投诉数据标签推荐。
在本实现方式中,利用已经通过专家确认过的投诉标签数据和ALBERT+TextCNN方法训练文本多标签分类模型,这样在无法通过关键词匹配到合适的缺陷标签时,可以利用训练好的NLP分类模型进行缺陷标签推荐。
以上,结合图1~图4详细说明了本说明书实施例的标签确定方法,下面,结合图5,详细说明本说明书实施例的一种标签确定装置。
图5示出了本说明书实施例提供的一种标签确定装置的结构示意图,如图3所示,该标签确定装置500可以包括:获取模块510、确定模块520。
获取模块510,用于获取待处理的汽车安全数据;确定模块520,用于根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;所述确定模块520,还用于在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
在一种实现方式中,确定模块520,还用于在所述根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签之前,获取汽车安全数据集,其中,所述汽车安全数据集包括多个所述汽车安全数据;对每个所述汽车安全数据进行分析,获取对应的缺陷特征;基于所述缺陷特征划分特征等级,确定所述预设缺陷标签字典。
在一种实现方式中,所述缺陷特征包括故障位置和关键词,其中,故障位置包括一级总成和二级总成,确定模块520,还用于根据所述一级总成、所述二级总成和所述关键词确定每个所述汽车安全数据的缺陷标签;基于所述缺陷标签设置所述缺陷标签的严重等级;基于各个所述汽车安全数据的所述一级总成、所述二级总成、所述关键词、所述缺陷标签和所述缺陷标签对应的所述严重等级,确定所述预设缺陷标签字典。
在一种实现方式中,确定模块520,还用于对所述汽车安全数据进行预处理,确定所述汽车安全数据的一级总成、二级总成和目标关键词;将所述汽车安全数据的目标关键词与预设缺陷标签字典的所述关键词进行匹配,并将所匹配到的预设缺陷标签作为备用标签;在确定所述备用标签与所述汽车安全数据的一级总成和二级总成都相同的情况下,将所述备用标签作为所述汽车安全数据的缺陷标签。
在一种实现方式中,确定模块520,还用于在所述将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签之前,基于训练集和预定损失函数训练预设多标签分类模型,直至所述损失函数收敛的情况下,得到训练后的预设多标签分类模型;基于验证集,验证所述训练后的预设多标签分类模型符合第一预设效果;基于测试集,对验证合格后的所述预设多标签分类模型进行测试,将符合第二预设效果的所述预设多标签分类模型作为所述多标签分类模型。
在一种实现方式中,所述预设多标签分类模型包括:预训练语言模型和文本分类模型,确定模块520,还用于将所述训练集输入所述预训练语言模型,通过所述预训练语言模型对所述训练集中的所述训练样本进行语义特征提取,得到所述训练样本的文本特征向量;将所述文本特征向量输入所述文本分类模型,通过所述文本分类模型对所述文本特征向量进行多层次处理,得到训练后的预设多标签分类模型。
在一种实现方式中,所述文本分类模型包括输入层、卷积层、池化层、第一全连接层、第二全连接层,确定模块520,还用于通过所述输入层对所述文本特征向量进行语义特征提取,得到所述训练样本的高层文本特征向量;通过所述卷积层对所述高层文本特征向量进行卷积运算,得到卷积特征向量;通过所述池化层对所述卷积特征向量进行降维操作,得到池化特征向量;通过所述第一全连接层对所述池化特征向量进行dropout操作,得到第一特征向量;通过所述第二全连接层对所述第一特征向量进行激活操作,获得所述训练样本针对每个所述缺陷标签的第一预测概率,得到多个第一预测概率;基于多个所述第一预测概率和所述预定损失函数,训练所述预设多标签分类模型。
在一种实现方式中,确定模块520的所述预定损失函数可以为:
Figure BDA0004009068170000131
其中,N表示训练样本数量,L表示训练样本对应的缺陷标签数量,
Figure BDA0004009068170000132
在[0,1]区间,表示缺陷标签的预测概率,yij在[0,1]之间,表示第i个训练样本是否属于第j个标签。
在一种实现方式中,确定模块520,还用于基于预设评估参数对所述预设多标签分类模型进行评估。
在一种实现方式中,确定模块520,还用于在所述确定所述汽车安全数据的至少一个缺陷标签之后,将所述汽车安全数据的至少一个缺陷标签转换为one-hot变量进行存储。
本申请实施例中的一种标签确定装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。本申请实施例不作具体限定。
本申请实施例中的一种标签确定装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为ios操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的一种标签确定装置能够实现图1方法实施例中实现的各个过程,为避免重复,这里不再赘述。
可选的,如图6所示,本申请实施例还提供一种电子设备,包括处理器610,存储器620,存储在存储器620上并可在所述处理器610上运行的程序或指令,该程序或指令被处理器610执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述一种标签确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述一种标签确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (13)

1.一种标签确定方法,其特征在于,包括:
获取待处理的汽车安全数据;
根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;
在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
2.根据权利要求1所述的方法,其特征在于,在所述根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签之前,还包括:
获取汽车安全数据集,其中,所述汽车安全数据集包括多个所述汽车安全数据;
对每个所述汽车安全数据进行分析,获取对应的缺陷特征;
基于所述缺陷特征划分特征等级,确定所述预设缺陷标签字典。
3.根据权利要求2所述的方法,其特征在于,所述缺陷特征包括故障位置和关键词,其中,故障位置包括一级总成和二级总成;
所述基于所述缺陷特征划分特征等级,确定所述预设缺陷标签字典,包括:
根据所述一级总成、所述二级总成和所述关键词确定每个所述汽车安全数据的缺陷标签;
基于所述缺陷标签设置所述缺陷标签的严重等级;
基于各个所述汽车安全数据的所述一级总成、所述二级总成、所述关键词、所述缺陷标签和所述缺陷标签对应的所述严重等级,确定所述预设缺陷标签字典。
4.根据权利要求1所述的方法,其特征在于,所述根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签,包括:
对所述汽车安全数据进行预处理,确定所述汽车安全数据的一级总成、二级总成和目标关键词;
将所述汽车安全数据的目标关键词与预设缺陷标签字典的所述关键词进行匹配,并将所匹配到的预设缺陷标签作为备用标签;
在确定所述备用标签与所述汽车安全数据的所述一级总成和所述二级总成都相同的情况下,将所述备用标签作为所述汽车安全数据的缺陷标签。
5.根据权利要求1所述的方法,其特征在于,在所述将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签之前,还包括:
基于训练集和预定损失函数训练预设多标签分类模型,直至所述损失函数收敛的情况下,得到训练后的预设多标签分类模型;
基于验证集,验证所述训练后的预设多标签分类模型符合第一预设效果;
基于测试集,对验证合格后的所述预设多标签分类模型进行测试,将符合第二预设效果的所述预设多标签分类模型作为所述多标签分类模型。
6.根据权利要求5所述的方法,其特征在于,所述预设多标签分类模型包括:预训练语言模型和文本分类模型;
所述基于训练集和预定损失函数训练预设多标签分类模型,直至所述损失函数收敛的情况下,得到训练后的预设多标签分类模型,包括:
将所述训练集输入所述预训练语言模型,通过所述预训练语言模型对所述训练集中的所述训练样本进行语义特征提取,得到所述训练样本的文本特征向量;
将所述文本特征向量输入所述文本分类模型,通过所述文本分类模型对所述文本特征向量进行多层次处理,得到训练后的所述预设多标签分类模型。
7.根据权利要求6所述的方法,其特征在于,所述文本分类模型包括输入层、卷积层、池化层、第一全连接层、第二全连接层;
所述对所述文本特征向量进行多层次处理,包括:
通过所述输入层对所述文本特征向量进行语义特征提取,得到所述训练样本的高层文本特征向量;
通过所述卷积层对所述高层文本特征向量进行卷积运算,得到卷积特征向量;
通过所述池化层对所述卷积特征向量进行降维操作,得到池化特征向量;
通过所述第一全连接层对所述池化特征向量进行dropout操作,得到第一特征向量;
通过所述第二全连接层对所述第一特征向量进行激活操作,获得所述训练样本针对每个所述缺陷标签的第一预测概率,得到多个第一预测概率;
基于多个所述第一预测概率和所述预定损失函数,训练所述预设多标签分类模型。
8.根据权利要求5所述的方法,其特征在于,所述预定损失函数为:
Figure FDA0004009068160000032
其中,N表示所述训练样本的数量,L表示所述训练样本对应的所述缺陷标签放入数量,
Figure FDA0004009068160000033
在[0,1]区间,表示所述缺陷标签的预测概率,yij在[0,1]之间,表示第i个所述训练样本是否属于第j个缺陷标签。
9.根据权利要求5所述的方法,其特征在于,所述对验证合格后的所述预设多标签分类模型进行测试,包括:
基于预设评估参数对所述预设多标签分类模型进行评估。
10.根据权利要求1所述的方法,其特征在于,在所述确定所述汽车安全数据的至少一个缺陷标签之后,还包括:
将所述汽车安全数据的至少一个所述缺陷标签转换为one-hot变量进行存储。
11.一种标签确定装置,其特征在于,包括:
获取模块,用于获取待处理的汽车安全数据;
确定模块,用于根据预设缺陷标签字典,确定所述汽车安全数据的至少一个缺陷标签;
所述确定模块,还用于在根据所述预设缺陷标签字典确定所述缺陷标签失败的情况下,将所述汽车安全数据输入至多标签分类模型,得到所述汽车安全数据的至少一个缺陷标签,其中,所述多标签分类模型是基于多个安全数据样本训练得到的。
12.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-10任一项所述的标签确定方法的步骤。
13.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-10任一项所述的标签确定方法的步骤。
CN202211641048.1A 2022-12-20 2022-12-20 标签确定方法、装置、电子设备及存储介质 Pending CN116383710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211641048.1A CN116383710A (zh) 2022-12-20 2022-12-20 标签确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211641048.1A CN116383710A (zh) 2022-12-20 2022-12-20 标签确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116383710A true CN116383710A (zh) 2023-07-04

Family

ID=86964410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211641048.1A Pending CN116383710A (zh) 2022-12-20 2022-12-20 标签确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116383710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688137A (zh) * 2024-01-31 2024-03-12 成都航空职业技术学院 应用于汽车营销管理***软件的数据分析方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688137A (zh) * 2024-01-31 2024-03-12 成都航空职业技术学院 应用于汽车营销管理***软件的数据分析方法及***
CN117688137B (zh) * 2024-01-31 2024-04-12 成都航空职业技术学院 应用于汽车营销管理***软件的数据分析方法及***

Similar Documents

Publication Publication Date Title
CN111984779B (zh) 一种对话文本分析方法、装置、设备和可读介质
CN111210842B (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN109284374B (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN112256849B (zh) 模型训练方法、文本检测方法、装置、设备和存储介质
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN113778894B (zh) 测试用例的构建方法、装置、设备及存储介质
CN111177390A (zh) 基于混合模型的事故车辆识别方法和装置
CN107545505B (zh) 保险理财产品信息的识别方法及***
CN111338692A (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN116383710A (zh) 标签确定方法、装置、电子设备及存储介质
CN117409419A (zh) 图像检测方法、设备及存储介质
CN112884018A (zh) 电网线路故障识别模型训练方法和电网线路巡检方法
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110866172A (zh) 一种面向区块链***的数据分析方法
CN110851709A (zh) 资讯推送方法、装置、计算机设备和存储介质
CN113778875B (zh) 一种***测试缺陷分类方法、装置、设备及存储介质
CN115240145A (zh) 基于场景识别的违章作业行为检测方法及***
CN114254588A (zh) 数据标签处理方法和装置
CN114254622A (zh) 一种意图识别方法和装置
CN114626798A (zh) 任务流程确定方法及装置、计算机可读存储介质、终端
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
CN118013963B (zh) 敏感词的识别和替换方法及其装置
CN115879446B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination