CN116757208A - 数据处理方法、装置及设备 - Google Patents

数据处理方法、装置及设备 Download PDF

Info

Publication number
CN116757208A
CN116757208A CN202310466681.XA CN202310466681A CN116757208A CN 116757208 A CN116757208 A CN 116757208A CN 202310466681 A CN202310466681 A CN 202310466681A CN 116757208 A CN116757208 A CN 116757208A
Authority
CN
China
Prior art keywords
model
text data
data sample
training
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310466681.XA
Other languages
English (en)
Inventor
马志远
张蝶
周书恒
都金涛
周欣欣
杨淑娟
祝慧佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310466681.XA priority Critical patent/CN116757208A/zh
Publication of CN116757208A publication Critical patent/CN116757208A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:获取用于训练第一模型的文本数据样本及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,基于由初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定的初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。

Description

数据处理方法、装置及设备
技术领域
本文件涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
命名实体识别在自然语言处理领域中占据十分重要的位置,如在问答***、知识库构建等应用场景中,可以通过构建实体识别模型,对自然语言文本中包含的实体进行识别,以通过识别出的实体确定对应的问答策略或构建对应的知识库等。
可以通过人工达标的方式确定用于训练实体识别模型的样本数据对应的标签,但是,由于人工标注的标签的准确性差,通过该样本数据训练得到的实体识别模型的实体识别的准确性差,因此,需要一种能够提高命名实体识别准确性的方案。
发明内容
本说明书实施例的目的是提供一种能够提高命名实体识别准确性的方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供的一种数据处理方法,包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第二方面,本说明书实施例提供的一种数据处理方法,包括:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本
数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第三方面,本说明书实施例提供了一种数据处理装置,所述装置包括:数据获取模块,用于获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;第一训练模块,用于基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;第一确定模块,用于基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;第二训练模块,用于基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第四方面,本说明书实施例提供了一种数据处理装置,所述装置包括:信息获取模块,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;类型确定模块,用于将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;话术输出模块,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第五方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第六方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第七方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
第八方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种数据处理***的示意图;
图2A为本说明书一种数据处理方法实施例的流程图;
图2B为本说明书一种数据处理方法的处理过程示意图;
图3为本说明书一种第一模型的结构示意图;
图4为本说明书一种第一模型的处理过程示意图;
图5为本说明书一种第一模型的训练过程的示意图;
图6为本说明书又一种数据处理方法的处理过程示意图;
图7为本说明书又一种数据处理方法的处理过程示意图;
图8为本说明书又一种第一模型的训练过程的示意图;
图9为本说明书又一种第一模型的训练过程的示意图;
图10为本说明书又一种第一模型的训练过程的示意图;
图11为本说明书又一种第一模型的训练过程的示意图;
图12A为本说明书又一种数据处理方法实施例的流程图;
图12B为本说明书又一种数据处理方法的处理过程示意图;
图13为本说明书一种目标信息的示意图;
图14为本说明书另一种数据处理装置实施例的结构示意图;
图15为本说明书另一种数据处理装置实施例的结构示意图;
图16为本说明书一种数据处理设备的结构示意图。
具体实施方式
本说明书实施例提供一种数据处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书的技术方案,可以应用于数据处理***中,如图1所示,该数据处理***中可以有终端设备和服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备。
其中,数据处理***中可以包括n个终端设备和m个服务器,n和m为大于等于1的正整数,终端设备可以用于采集数据样本,例如,终端设备可以针对不同应用场景,获取对应的数据样本,如,针对问答***,终端设备可以采集用户针对话术的反馈信息作为数据样本,针对预设业务的知识库构建场景,终端设备可以采集与预设业务对应的业务数据(如执行预设业务所需的数据)作为数据样本等。
终端设备可以将采集的数据样本发送给数据处理***中的任意服务端,服务端可以对接收到的数据样本进行预处理,将预处理后的数据样本作为文本数据样本进行存储。其中,预处理操作可以包括文本转换预处理(即将音频数据转换为文本数据等)、文本格式转换处理(如将英文文本转换为中文文本等)等。
此外,终端设备还可以将采集的数据样本,基于数据样本对应的应用场景,将数据样本发送给对应的服务端。例如,假设数据处理***中服务端1和服务端2用于处理问答业务,服务端3和服务端4用于处理知识库构建业务,那么,终端设备可以将采集到的问答场景下的数据样本发送给服务端1和服务端2,将采集到的知识库构建场景下的数据样本发送给服务端3和服务端4。
这样,服务端在接收到针对第一模型的训练指令的情况下,可以基于存储的文本数据样本对第一模型进行训练。
另外,数据处理***中可以有中心服务端(如服务端1),中心服务端用于在到达模型训练周期时,基于其他服务端(如服务端2和服务端3)发送的文本数据样本对待训练的第一模型进行训练,并在得到训练后的第一模型后,将训练后的第一模型的模型参数返回给对应的服务端。这样,数据处理***中的其他服务端可以不中断的为用户提供业务服务,同时,中心服务端可以基于模型训练周期对第一模型进行更新升级。
由于服务端获取到的文本数据样本中可能存在噪声,即获取的文本数据样本包含的词对应的实体类型标签的可信度无法保证,因此,为提高模型训练的准确性,以提高命名实体识别的准确性,可以在模型训练过程中,通过由文本数据样本包含的词对应不同的预测实体类型的概率分布,确定的初步训练的第一模型对应的预测熵,判断第一模型对预测结果的自信度,从而动态的对第一损失函数的参数进行调整(即对第一损失函数中的参数进行更新),使得第一损失函数的参数从平均绝对值损失向交叉熵损失逐渐过渡,在模型训练前期对高浓度噪声更具有鲁棒性,而在模型训练后期噪声被逐步筛除后能让网络更好地训练,以提高第一模型的命名实体识别的效果。
基于上述数据处理***结构可以实现下述实施例中的数据处理方法。
实施例一
如图2A和图2B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S202中,获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签。
其中,文本数据样本包含的词对应的实体类型标签可以用于标识实体的类型,可以通过人工标注的方式确定的文本数据样本包含的词对应的实体类型标签,例如,实体类型标签可以包括人名、地名、机构名、专有名词等,第一模型可以是基于预设神经网络算法构建的用于对实体类型进行识别的模型。
在实施中,命名实体识别在自然语言处理领域中占据十分重要的位置,如在问答***、知识库构建等应用场景中,可以通过构建实体识别模型,对自然语言文本中包含的实体进行识别,以通过识别出的实体确定对应的问答策略或构建对应的知识库等。可以通过人工达标的方式确定用于训练实体识别模型的样本数据对应的标签,但是,由于人工标注的标签的准确性差,通过该样本数据训练得到的实体识别模型的实体识别的准确性差,因此,需要一种能够提高命名实体识别准确性的方案。为此,本说明书实施例提供一种可以解决上述问题的技术方案,具体可以参见下述内容。
以第一模型为用于在问答场景中,基于用户输入的反馈信息确定对应的话术的模型为例,服务端可以获取基于终端设备在模型训练周期内采集的用户反馈信息,确定用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签。
如图3所示,第一模型可以包括嵌入层(Embedding Layer)、语义提取层和类型识别层,嵌入层可以用于进行向量提取处理,得到嵌入向量,语义提取层可以用于对嵌入向量进行语义提取处理,得到语义向量,最后,类型识别层可以用于对语义向量进行类别识别处理,得到预测实体类型。其中,语义提取层可以用于对实体进行识别,类型识别层用于对识别出的实体进行类型划分,即确定识别出的实体对应的预测实体类型。
其中,嵌入层和语义提取层可以是基于语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)构建。
服务端可以将文本数据样本输入第一模型,第一模型的嵌入层可以对文本数据样本包含的词进行向量提取处理,得到文本数据样本包含的词对应的嵌入向量(embedding),再通过第一模型的语义提取层对文本数据样本包含的词对应的嵌入向量进行语义提取处理,得到文本数据样本包含的词对应的语义向量(token),最后,通过类型识别层对token进行类型识别处理,得到文本数据样本包含的词对应的预测实体类型。
例如,如图4所示,服务端可以将文本数据样本(即“ABCD”)输入第一模型,得到文本数据样本包含的词对应的预测实体类型,即A对应的预测实体类型可以为实体类型1、B对应的预测实体类型可以为实体类型2、C对应的预测实体类型可以为实体类型2、D对应的预测实体类型可以为实体类型3。
在S204中,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型。
在实施中,可以将文本数据样本输入第一模型,通过第一模型对文本数据样本进行实体识别处理,得到对文本数据样本的实体识别结果,最后,服务端可以基于实体识别结果、文本数据样本包含的词对应的实体类型标签和第一损失函数,确定第一模型对应的第一损失值。
服务端可以基于第一损失值,确定第一模型是否满足预设收敛条件,若服务端基于第一损失值,确定第一模型不满足预设收敛条件,服务端可以基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,继续对第一模型进行迭代训练,直至第一模型满足预设收敛条件,得到初步训练的第一模型。
此外,上述判断第一模型是否满足预设收敛条件的方法是一种可选地、可实现的判断方法,在实际应用场景中,还可以有多种不同的判断方法,可以根据实际应用场景的不同选取不同的判断方法,本说明书实施例对此不作具体限定。
在S206中,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵。
在实施中,可以将文本数据样本分批输入初步训练的第一模型(如可以通过不放回随机采样的方式将文本数据样本输入初步训练的第一模型),通过初步训练的第一模型分别对每批文本数据样本进行实体识别处理,得到每批文本数据样本包含的词对应不同的预测实体类型的概率分布。在将每批文本数据样本包含的词对应不同的预测实体类型的概率分布的熵的均值,确定为初步训练的第一模型对应的预测熵。
在S208中,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。
在实施中,以第一损失函数为广义交叉熵损失(GCE Generalized Cross EntropyLoss,GCE)函数为例,GCE函数是交叉熵损失函数和平均绝对值损失函数的一种折中损失函数,GCE函数能够兼具交叉熵损失函数适合神经网络训练和收敛的优点,以及平均绝对值损失函数对噪声不敏感的优点。其中,第一损失函数对应的损失值可以通过下述公式计算得到
其中,n为第一模型的输入数据的个数,yi为第一模型对第i个输入数据仅是实体识别处理得到的对应的实体识别结果,q为第一损失函数的参数。
当参数q趋于1时,GCE函数趋于平均绝对值损失函数,当参数q趋于0时,GCE函数趋于交叉熵损失函数。在对第一模型的训练框架中,第一模型会在迭代过程中筛选出可信数据,从而改变训练数据集,即第一模型的训练过程中的噪声是逐渐减少的。当噪声更大时,可以让GCE函数的参数q更趋近于1,从而获得更好的噪声鲁棒性,当噪声更小时,可以让GCE函数的参数q更趋近于0,从而让第一模型的神经网络更好地学习和收敛。因此,可以在对第一模型的训练过程中,随着训练的进行,对GCE函数的参数q进行动态调节。
预测熵在第一模型的训练过程中的整体趋势是先下降后趋于平稳的,预测熵可以从侧面反映出第一模型的预测自信度,预测熵越小,第一模型对实体识别结果的正确性越确定,因此,可以用预测熵对第一模型的第一损失函数的参数进行动态调节。
在对第一模型的训练过程中,可以通过文本数据样本和第一损失函数对第一模型进行第一阶段的训练,在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,在通过确定的初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理。在对第一模型进行第二阶段的训练,即可以基于更新处理后的第一损失函数继续对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。
此外,上述是以对第一模型进行两阶段训练为例,在实际应用场景中,还可以对第一模型进行三个及以上阶段的模型训练,在每一阶段训练结束后,可以通过上述方式确定第一模型对应的预测熵。在通过确定的预测熵对第一损失函数的参数进行更新处理,得到更新后的第一损失函数,以通过更新后的第一损失函数继续进行下一阶段的模型训练,直到第一模型收敛,得到训练后的第一模型。
另外,对第一模型是否收敛进行判断的方法可以有多种,例如,可以通过是否达到预设迭代次数、第一模型对实体识别的正确率是否大于预设正确率阈值、第一模型的损失值是否小于预设损失值阈值等,确定第一模型是否收敛,可以根据实际应用场景的不同,选取不同的判断方法,本说明书实施例对此不做具体限定。
以第一模型的模型结构为如图3所示的模型结构为例,在对第一模型进行模型训练的过程中,当第一模型满足预设收敛条件的情况下,可以通过实体识别结果对文本数据样本进行筛选。
若文本数据样本包含的词对应的实体类型标签和预测实体类型不匹配,那么,可以认为这个词对应的预测实体类型是不可信的,因此,可以通过实体类型标签和预测实体类型是否匹配,将文本数据样本分为可信数据和噪声。如图5所示,在对第一模型进行后续训练的过程中,可以不计算噪声数据对应的损失值,仅通过可信数据对第一损失函数中的参数进行更新处理,并基于筛选出的可信数据、更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型,这样,标签不可信的噪声数据,就不会对后续训练产生影响。
另外,若模型自己筛选训练数据,很可能会造成噪声的累积,如果第一模型在前面的训练过程中,已经拟合了某种噪声,那么,在后续数据筛选的过程中,第一模型也不会剔除这类噪声数据,这就会导致在对第一模型的后续训练时,该类错误的增强和累积。因此,在对第一损失函数进行更新处理后,可以获取与文本数据样本不同的文本数据样本,并基于获取的新的文本数据样本、更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型,这样,第一模型在每一阶段的训练过程学到的噪声是不同的,噪声和错误就不会累计加强,使得第一模型具有更强的泛化效果。
本说明书实施例提供一种数据处理方法,通过获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
实施例二
本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S202中,获取用于训练第一模型的文本数据样本。
在S602中,基于预设数据库对文本数据样本中包含的词进行匹配处理,并将预设数据库中与文本数据样本包含的词相匹配的词对应的实体类型标签,确定为文本数据样本包含的词对应的实体类型标签。
在实施中,可以通过远程监督的方式,确定第一文本数据包含的词对应的实体类型标签,如远程监督方法可以通过在现有的知识库、词典等数据库中进行搜索与无标签数据匹配的词,并基于匹配结果确定无标签数据对应的实体类型标签,从而可以不依赖于人工标注而获得大量有标数据。
然而,与固定词典或知识库等预设数据库进行匹配,确定文本数据样本包含的词对应的实体类型标签通常带有大量噪声,这种噪声可能是词典或知识库等预设数据库没有涵盖所有的实体所造成的,也可能是词语本身属于不同实体类型,但通过固定匹配的方法无法区分造成的。
在得到文本数据样本包含的词对应的实体类型标签后,可以通过第一文本数据对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型。其中,确定第一模型是否满足收敛条件的方法有多种,例如,如图6所示,在S602后,可以继续执行S604,以通过第一模型的迭代次数是否到达预设迭代次数,确定第一模型是否满足预设收敛条件,或者,如图7所示,在S602后,可以继续执行S606,以通过第一模型的实体识别准确率,确定第一模型是否满足预设收敛条件。
在S604中,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,在第一模型的迭代次数到达预设迭代次数的情况下,确定第一模型满足预设收敛条件,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型。
其中,预设迭代次数可以是基于第一模型的模型结构、应用场景等配置的预设次数,如,预设迭代次数可以为100次、1000次等。
在S606中,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,在当前迭代结束后第一模型的实体识别准确率小于上一次迭代结束后第一模型的实体识别准确率的情况下,确定第一模型满足预设收敛条件,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型。
在实施中,服务端可以在每次迭代结束时,基于预设数据验证集,确定迭代结束后第一模型的实体识别准确率,在当前迭代结束后第一模型的实体识别准确率小于上一次迭代结束后第一模型的实体识别准确率的情况下,可以确定第一模型满足预设收敛条件。
在S206中,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵。
在S608中,基于第二损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第二模型进行迭代训练,并在第二模型满足预设收敛条件的情况下,得到初步训练的第二模型。
其中,第二模型与第一模型的模型结构可以相同,第一损失函数和第二损失函数可以为广义交叉熵损失函数。
在实施中,对第二模型是否满足预设收敛条件的判断方法可以参见对第一模型是否满足预设收敛条件的判断方法,即可以基于上述S604或S606中的判断方法,对第二模型是否满足预设收敛条件进行判断,此处不再赘述。
在S610中,通过初步训练的第二模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的第一预测实体类型。
在实施中,服务端可以将文本数据样本输入初步训练的第二模型,得到文本数据样本包含的词对应的第一预测实体类型。
在S612中,基于文本数据样本包含的词对应的实体类型标签和第一预测实体类型,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本。
在实施中,可以将文本数据样本中实体类型标签和第一预测实体类型相匹配的词,确定为第一样本,将文本数据样本中实体类型标签和第一预测实体类型不匹配的词,确定为包含噪声的第二样本。
在S614中,基于初步训练的第一模型的预测熵、初始预测熵以及实体类型标签的个数,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数。
在实施中,可以将初步训练的第一模型的预测熵、初始预测熵以及实体类型标签的个数,代入公式
q=1+ln(E/E0)/N,
得到第一损失函数中的参数,其中,q为第一损失函数中的参数,E为初步训练的第一模型的预测熵,E0为初始预测熵,N为实体类型标签的个数。
可以将得到的第一损失函数中的参数对第一损失函数中的参数进行替换处理,得到更新后的第一损失函数。
在S616中,基于第一样本、更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。
在实施中,以第一模型和第二模型的模型结构为如图2所示的模型结构为例,在对模型(即第一模型、第二模型)进行模型训练的过程中,当模型满足预设收敛条件的情况下,可以通过实体识别结果对训练数据进行筛选。
若文本数据样本包含的词对应的实体类型标签和预测实体类型不匹配,那么,可以认为这个词对应的预测实体类型是不可信的,因此,可以通过实体类型标签和预测实体类型是否匹配,将文本数据样本分为可信数据和噪声。
若模型自己筛选训练数据,很可能会造成噪声的累积,如果第一模型在前面的训练过程中,已经拟合了某种噪声,那么,在后续数据筛选的过程中,第一模型也不会剔除这类噪声数据,这就会导致在对第一模型的后续训练时,该类错误的增强和累积。
因此,可以通过初步训练的第二模型,对文本数据样本进行筛选处理,并基于初步训练的第二模型筛选出的可信数据(即第一样本)对初步训练的第一模型进行训练,这样,由于第一模型和第二模型学到的噪声可能是不同的,所以,通过第二模型筛选出的可信数据继续对第一模型进行训练,可以避免在同一模型训练过程中的噪声累加问题,提高第一模型的泛化效果。
此外,若第一模型的训练阶段包括多个,第二模型包括多个,那么,如图8所示,可以通过文本数据样本对第一模型进行第一阶段的训练,得到初步训练的第一模型,并基于文本数据样本对第一损失函数的参数进行更新处理,得到更新后的第一损失函数。
服务端在基于文本数据样本和初步训练的第二模型1,对文本数据样本进行筛选,得到第一样本1,并基于第一样本1和更新后的第一损失函数继续对第一模型进行训练,在第二阶段的训练结束后,可以再次对更新后的第一损失函数的参数进行更新处理,得到更新后的第一损失函数。
服务端可以基于文本数据样本和初步训练的第二模型2,对文本数据样本进行筛选,得到第一样本2,并基于第一样本2和更新后的第一损失函数继续对第一模型进行训练,在第三阶段的训练结束后,可以再次对更新后的第一损失函数的参数进行更新处理,得到更新后的第一损失函数,以此类推,直到第一模型收敛,得到训练后的第一模型。这样,由于第一模型和每个第二模型学到的噪声可能是不同的,所以,可以在不同的训练阶段通过不同的第二模型筛选出的可信数据对第一模型进行训练,可以避免在同一模型训练过程中的噪声累加问题,提高第一模型的泛化效果。
本说明书实施例提供一种数据处理方法,通过获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
实施例三
本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S202中,获取用于训练第一模型的文本数据样本。
在S602中,基于预设数据库对文本数据样本中包含的词进行匹配处理,并将预设数据库中与文本数据样本包含的词相匹配的词对应的实体类型标签,确定为文本数据样本包含的词对应的实体类型标签。
在S204中,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型。
在实施中,上述S204的具体处理过程可以参见上述实施例二中S604或S606的相关内容,在此不再赘述。
在S206中,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵。
在S608中,基于第二损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第二模型进行迭代训练,并在第二模型满足预设收敛条件的情况下,得到初步训练的第二模型。
在S610中,通过初步训练的第二模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的第一预测实体类型。
在S612中,基于文本数据样本包含的词对应的实体类型标签和第一预测实体类型,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本。
在S614中,基于初步训练的第一模型的预测熵、初始预测熵以及实体类型标签的个数,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数。
在S616中,基于第一样本、更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。
在实施中,如图1所示,在数据处理***中可以有中心服务端(如服务端1),中心服务端用于在到达模型训练周期时,可以基于其他服务端(如服务端2和服务端3)发送的文本数据样本对待训练的实体识别模型进行训练,并在得到训练后的实体识别模型后,将训练后的实体识别模型的模型参数返回给对应的服务端。
为避免模型训练过程中存在噪声累积的问题,中心服务端可以存储有每个服务端对应的实体识别模型,且每个服务端对应的实体识别模型的模型结构相同,在到达模型训练周期时,中心服务端可以基于其他服务端发送的文本数据样本,分别对每个服务端对应的实体识别模型进行训练。具体如,中心服务端可以将与服务端2对应的实体识别模型作为第一模型,将与服务端3对应的实体识别模型作为第二模型,将由服务端2和服务端3发送的文本数据样本作为用于训练第一模型和第二模型的文本数据样本。
中心服务端可以基于上述训练过程对第一模型进行训练,得到训练后的第一模型,同时,中心服务端也可以基于初步训练的第一模型、文本数据样本,继续对初步训练的第二模型进行训练,得到训练后的第二模型。即如图9所示,在S616后,服务端可以继续执行S902~S908。
在S902中,通过初步训练的第一模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的第二预测实体类型。
在S904中,基于文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将文本数据样本包含的词划分为第三样本和包含噪声的第四样本。
在实施中,在实际应用中,上述S904的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤二处理:
步骤一,通过初步训练的第二模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的第二预测实体类型的概率值。
步骤二,基于文本数据样本包含的词对应的实体类型标签、文本数据样本包含的词对应的第二预测实体类型的概率值以及预设概率阈值,将文本数据样本包含的词划分为第三样本和包含噪声的第四样本。
在实施中,例如,假设文本数据样本包含的词对应的实体类型标签为0-1标签,预设概率阈值为0.7和0.2,那么,若文本数据样本包含的词对应的第二预测实体类型的概率值小于0.5且不大于0.2,文本数据样本包含的词对应的第二预测实体类型即为标签1,若文本数据样本包含的词对应的第二预测实体类型的概率值不小于0.5且不小于0.7,那么,文本数据样本包含的词对应的第二预测实体类型即为标签2。这样,通过预设概率阈值,可以对文本数据样本进行准确的筛选,提高第三样本的可信度。
在S906中,基于初步训练的第二模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第二模型对应的预测熵。
在S908中,基于初步训练的第二模型对应的预测熵,对第二损失函数中的参数进行更新处理,得到更新后的第二损失函数,并基于第三样本和更新后的第二损失函数对初步训练的第二模型进行迭代训练,直到第二模型收敛,得到训练后的第二模型。
在实施中,初步训练的第二模型对应的预测熵的确定方法以及第二模型的训练过程,可以参见初步训练的第一模型对应的预测熵的确定方法以及第一模型的训练过程,此处不再赘述。
这样,服务端在得到训练后的第一模型和第二模型的情况下,可以将训练后的模型对应的模型参数分别返回给对应的服务端,如可以将训练后的第一模型的模型参数发送给服务端2,将训练后的第二模型的模型参数发送给服务端3等。服务端就可以基于接收到的模型参数对本地的模型进行更新处理,以基于更新后的模型进行实体识别处理。
此外,在第二模型有多个的情况下,服务端还可以通过多个模型互相筛选可信数据进行模型训练的方式,对第一模型和多个第二模型进行训练,得到训练后的第一模型和第二模型。
例如,如图10所示,服务端可以存储有第一模型和n个第二模型,可以通过模型互相筛选可信数据的方式对这多个模型进行训练,具体如,当第一模型满足预设收敛条件的情况下,可以基于初步训练的第一模型,对文本数据样本进行筛选处理,得到第三样本,服务端可以基于第三样本对初步训练的第二模型1继续进行训练,同时,服务端还可以基于初步训练的第二模型1,对文本数据样本进行筛选处理,得到第一样本1,服务端可以基于第一样本1对初步训练的第二模型2继续进行训练,以此类推,可以基于初步训练的第二模型n对文本数据样本进行筛选处理得到的第一样本n继续对初步训练的第一模型进行训练,直到第一模型和n个第二模型收敛,可以得到训练后的第一模型和训练后的n个第二模型。
此外,服务端还可以对第一模型和多个第二模型进行集成处理,即如图11所示,在S908后,还可以继续执行S1102。
在S1102中,对训练后的第一模型和训练后的第二模型进行模型集成处理,得到用于对文本数据进行实体识别处理的目标模型。
在实施中,服务端可以基于集成处理得到的目标模型进行实体识别处理,此外,服务端还可以将目标模型的模型参数发送给数据处理***中的其他服务端,以使其他服务端可以基于接收到的模型参数对本地存储的目标模型进行更新处理。这样,可以节省其他服务端的数据处理资源,提高数据处理效率。
本说明书实施例提供一种数据处理方法,通过获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
实施例四
如图12A和图12B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务端,服务端可以是服务器或终端设备,其中,服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备。该方法具体可以包括以下步骤:
在S1202中,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据。
其中,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息。目标业务可以是任意涉及用户隐私、财产安全等业务,例如,目标业务可以是资源转移业务、隐私信息更新业务(如修改登录密码、新增用户信息等)等,假设目标业务为资源转移业务,目标信息可以包括目标用户触发执行资源转移业务所需的身份验证信息,和/或目标用户针对触发执行资源转移业务的交互信息,交互信息具体可以包括目标用户针对如“是否和资源转移对象是网上认识的?”等话术的反馈信息。
在实施中,以目标业务为终端设备中安装的资源管理应用程序中的资源转移业务为例,目标用户可以触发启动资源管理应用程序,并在该资源管理应用程序中触发执行资源转移业务。终端设备可以获取目标用户触发执行该资源转移业务所需的信息(如目标用户的身份验证信息等),并将该信息作为目标信息。
此外,终端设备在检测到目标用户触发执行目标业务的情况下,还可以输出预设提示信息,并接收目标用户针对预设提示信息输入的反馈信息,终端设备可以将预设提示信息以及目标用户针对预设提示信息输入的反馈信息确定为目标信息。
例如,如图13所示,终端设备在检测到目标用户触发执行资源转移业务的情况下,可以显示带有预设提示信息(即提示信息Q1、提示信息Q2)的提示页面,并可以接收目标用户针对该预设提示信息在提示页面输入的反馈信息。电子设备可以将提示信息Q1、提示信息Q2、反馈信息A1和反馈信息A2确定为目标信息。
终端设备可以将采集的目标信息发送给服务端,服务端可以基于获取的目标信息,确定待识别的目标文本数据。由于终端设备采集的目标信息中可能包括音频数据、图片数据、网页数据、视频数据等,因此,服务端可以对目标信息进行文本转换处理,得到目标文本数据。
在S1204中,将目标文本数据输入训练后的第一模型,得到目标文本数据对应的预测实体类型。
其中,第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。
在实施中,服务端可以基于上述实施例一、实施例二或实施例三中的训练过程对第一模型进行训练,得到训练后的第一模型,并将目标文本数据输入训练后的第一模型,得到目标文本数据包含的词对应的预测实体类型。
此外,服务端还可以接收中心服务端基于上述实施例一、实施例二或实施例三中的训练过程对第一模型进行训练后,得到的训练后的第一模型的模型参数,并基于模型参数,对本地的第一模型进行模型更新。
或者,服务端还可以将实施例三中集成处理得到目标模型确定为训练后的第一模型,并基于目标模型确定目标文本数据对应的预测实体类型。
在S1206中,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术。
其中,候选话术可以用于在与目标用户的交互过程中,获取目标用户针对目标业务的反馈信息,反馈信息可以是任意文字信息、语音信息等。
在实施中,服务端可以基于目标文本数据包含的词对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术。
例如,假设目标文本数据包含的词对应的预测实体类型包括人名类型、机构名类型,那么,服务端可以获取人名类型对应的词,以及机构名类型对应的词,并基于获取到的词从候选话术中确定对应的目标话术。
上述目标话术的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
本说明书实施例提供一种数据处理方法,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息,将目标文本数据输入训练后的第一模型,得到目标文本数据对应的预测实体类型,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术,其中,第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,在对第一模型训练的过程中,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性,进而通过训练后的第一模型,可以准确的对目标文本数据进行实体识别,以提高目标话术的确定准确性。
实施例五
以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种数据处理装置,如图14所示。
该数据处理装置包括:数据获取模块1401、第一训练模块1402、第一确定模块1403和第二训练模块1404,其中:
数据获取模块1401,用于获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;
第一训练模块1402,用于基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;
第一确定模块1403,用于基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;
第二训练模块1404,用于基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
本说明书实施例中,所述装置还包括:
第三训练模块,用于基于第二损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对第二模型进行迭代训练,并在所述第二模型满足所述预设收敛条件的情况下,得到初步训练的第二模型,所述第二模型与所述第一模型的模型结构相同;
第二确定模块,用于通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第一预测实体类型;
第一划分模块,用于基于所述文本数据样本包含的词对应的实体类型标签和第一预测实体类型,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本;
所述第二训练模块,用于:
基于所述第一样本、所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到所述训练后的第一模型。
本说明书实施例中,所述装置还包括:
第三确定模块,用于通过所述初步训练的第一模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第二预测实体类型;
第二划分模块,用于基于所述文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将所述文本数据样本包含的词划分为第三样本和包含噪声的第四样本;
第四确定模块,用于基于所述初步训练的第二模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的所述预测实体类型的概率分布,确定所述初步训练的第二模型对应的预测熵;
第四训练模块,用于基于所述初步训练的第二模型对应的预测熵,对所述第二损失函数中的参数进行更新处理,得到更新后的第二损失函数,并基于所述第三样本和所述更新后的第二损失函数对所述初步训练的第二模型进行迭代训练,直到所述第二模型收敛,得到训练后的第二模型。
本说明书实施例中,所述第二划分模块,用于:
通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第二预测实体类型的概率值;
基于所述文本数据样本包含的词对应的实体类型标签、所述文本数据样本包含的词对应的第二预测实体类型的概率值以及预设概率阈值,将所述文本数据样本包含的词划分为所述第三样本和所述包含噪声的第四样本。
本说明书实施例中,所述装置还包括:
模型集成模块,用于对所述训练后的第一模型和所述训练后的第二模型进行模型集成处理,得到用于对文本数据进行实体识别处理的目标模型。
本说明书实施例中,所述第二训练模块1404,用于:
基于所述初步训练的第一模型的预测熵、初始预测熵以及所述实体类型标签的个数,对所述第一损失函数中的参数进行更新处理,得到所述更新后的第一损失函数。
本说明书实施例中,所述装置还包括:
第一判断模块,用于在所述第一模型的迭代次数到达预设迭代次数的情况下,确定所述第一模型满足所述预设收敛条件。
本说明书实施例中,所述装置还包括:
第二判断模块,用于在当前迭代结束后所述第一模型的实体识别准确率小于上一次迭代结束后所述第一模型的实体识别准确率的情况下,确定所述第一模型满足所述预设收敛条件。
本说明书实施例中,所述数据获取模块1401,用于:
基于预设数据库对所述文本数据样本中包含的词进行匹配处理,并将所述预设数据库中与所述文本数据样本包含的词相匹配的词对应的实体类型标签,确定为所述文本数据样本包含的词对应的实体类型标签。
本说明书实施例中,所述第一损失函数和所述第二损失函数为广义交叉熵损失函数。
本说明书实施例提供一种数据处理装置,通过获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
实施例六
基于同样的思路,本说明书实施例还提供一种数据处理装置,如图15所示。
该数据处理装置包括:信息获取模块1501、类型确定模块1502和话术确定模块1503,其中:
信息获取模块1501,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
类型确定模块1502,用于将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;
话术输出模块1503,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
本说明书实施例提供一种数据处理装置,在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,目标信息包括目标用户触发执行目标业务所需的信息,和/或目标用户针对触发执行目标业务的交互信息,将目标文本数据输入训练后的第一模型,得到目标文本数据对应的预测实体类型,基于目标文本数据对应的预测实体类型,确定候选话术中与目标用户触发执行目标业务匹配的目标话术,并输出目标话术,其中,第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,得到初步训练的第一模型,基于初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定初步训练的第一模型对应的预测熵,基于初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。这样,在对第一模型训练的过程中,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性,进而通过训练后的第一模型,可以准确的对目标文本数据进行实体识别,以提高目标话术的确定准确性。
实施例七
基于同样的思路,本说明书实施例还提供一种数据处理设备,如图16所示。
数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1601和存储器1602,存储器1602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1602可以是短暂存储或持久存储。存储在存储器1602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据处理设备中的一系列计算机可执行指令。更进一步地,处理器1601可以设置为与存储器1602通信,在数据处理设备上执行存储器1602中的一系列计算机可执行指令。数据处理设备还可以包括一个或一个以上电源1603,一个或一个以上有线或无线网络接口1604,一个或一个以上输入输出接口1605,一个或一个以上键盘1606。
具体在本实施例中,数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;
基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;
基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;
基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
另外,经配置以由一个或者一个以上处理器执行该一个或者一个以上程序还包含用于进行以下计算机可执行指令:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种数据处理设备,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
实施例八
本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书实施例提供一种计算机可读存储介质,可以通过预测熵判断第一模型对实体识别结果的自信度,从而通过预测熵对第一损失函数的参数进行更新,使得第一损失函数从平均绝对值损失函数向交叉熵损失函数逐渐过渡,在模型训练的前期能够对高浓度噪声更具有鲁棒性,而在模型训练的后期,当噪声被逐步筛除后,可以通过更新后的第一损失函数让第一模型的神经网络能够得到更好地训练,即在不同阶段的带噪学习中,可以在噪声较强的阶段使第一模型有更强的噪声鲁棒性,在噪声较弱的阶段,通过更新后的第一损失函可以使神经网络得到更好的训练和收敛,此外,通过模型的预测熵可以对第一损失函数的参数进行灵活的调节(即更新处理),可以适应于不同的数据集,无需在不同数据集上进行调参,提高了模型训练的效率,提高第一模型的命名实体识别准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (15)

1.一种数据处理方法,包括:
获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;
基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;
基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;
基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
2.根据权利要求1所述的方法,所述方法还包括:
基于第二损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对第二模型进行迭代训练,并在所述第二模型满足所述预设收敛条件的情况下,得到初步训练的第二模型,所述第二模型与所述第一模型的模型结构相同;
通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第一预测实体类型;
基于所述文本数据样本包含的词对应的实体类型标签和第一预测实体类型,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本;
所述基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型,包括:
基于所述第一样本、所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到所述训练后的第一模型。
3.根据权利要求2所述的方法,所述方法还包括:
通过所述初步训练的第一模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第二预测实体类型;
基于所述文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将所述文本数据样本包含的词划分为第三样本和包含噪声的第四样本;
基于所述初步训练的第二模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的所述预测实体类型的概率分布,确定所述初步训练的第二模型对应的预测熵;
基于所述初步训练的第二模型对应的预测熵,对所述第二损失函数中的参数进行更新处理,得到更新后的第二损失函数,并基于所述第三样本和所述更新后的第二损失函数对所述初步训练的第二模型进行迭代训练,直到所述第二模型收敛,得到训练后的第二模型。
4.根据权利要求3所述的方法,所述基于所述文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将所述文本数据样本包含的词划分为第三样本和包含噪声的第四样本,包括:
通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第二预测实体类型的概率值;
基于所述文本数据样本包含的词对应的实体类型标签、所述文本数据样本包含的词对应的第二预测实体类型的概率值以及预设概率阈值,将所述文本数据样本包含的词划分为所述第三样本和所述包含噪声的第四样本。
5.根据权利要求3所述的方法,所述方法还包括:
对所述训练后的第一模型和所述训练后的第二模型进行模型集成处理,得到用于对文本数据进行实体识别处理的目标模型。
6.根据权利要求1所述的方法,所述基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,包括:
基于所述初步训练的第一模型的预测熵、初始预测熵以及所述实体类型标签的个数,对所述第一损失函数中的参数进行更新处理,得到所述更新后的第一损失函数。
7.根据权利要求1所述的方法,在所述在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型之前,还包括:
在所述第一模型的迭代次数到达预设迭代次数的情况下,确定所述第一模型满足所述预设收敛条件。
8.根据权利要求1所述的方法,在所述在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型之前,还包括:
在当前迭代结束后所述第一模型的实体识别准确率小于上一次迭代结束后所述第一模型的实体识别准确率的情况下,确定所述第一模型满足所述预设收敛条件。
9.根据权利要求1所述的方法,所述获取所述文本数据样本包含的词对应的实体类型标签,包括:
基于预设数据库对所述文本数据样本中包含的词进行匹配处理,并将所述预设数据库中与所述文本数据样本包含的词相匹配的词对应的实体类型标签,确定为所述文本数据样本包含的词对应的实体类型标签。
10.根据权利要求2所述的方法,所述第一损失函数和所述第二损失函数为广义交叉熵损失函数。
11.一种数据处理方法,包括:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
12.一种数据处理装置,包括:
数据获取模块,用于获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;
第一训练模块,用于基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;
第一确定模块,用于基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;
第二训练模块,用于基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
13.一种数据处理装置,包括:
信息获取模块,用于在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
类型确定模块,用于将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;
话术输出模块,用于基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
14.一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;
基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;
基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;
基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
15.一种数据处理设备,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;
将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;
基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;
其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。
CN202310466681.XA 2023-04-26 2023-04-26 数据处理方法、装置及设备 Pending CN116757208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310466681.XA CN116757208A (zh) 2023-04-26 2023-04-26 数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310466681.XA CN116757208A (zh) 2023-04-26 2023-04-26 数据处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116757208A true CN116757208A (zh) 2023-09-15

Family

ID=87952153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310466681.XA Pending CN116757208A (zh) 2023-04-26 2023-04-26 数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116757208A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392694A (zh) * 2023-12-07 2024-01-12 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392694A (zh) * 2023-12-07 2024-01-12 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN117392694B (zh) * 2023-12-07 2024-04-19 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107437416B (zh) 一种基于语音识别的咨询业务处理方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
US11735184B2 (en) Translation and speech recognition method, apparatus, and device
CN112735407B (zh) 一种对话处理方法及装置
CN110910903A (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
CN114596845A (zh) 语音识别模型的训练方法、语音识别方法及装置
CN116757208A (zh) 数据处理方法、装置及设备
CN112597301A (zh) 一种语音意图识别方法及装置
Primorac et al. Android application for sending SMS messages with speech recognition interface
CN117392694B (zh) 数据处理方法、装置及设备
CN116522939A (zh) 数据处理方法、装置及设备
CN117828360A (zh) 一种模型训练、代码生成方法、装置、存储介质及设备
Liu et al. Personalized Natural Language Understanding.
CN116186231A (zh) 一种回复文本的生成方法、装置、存储介质及电子设备
CN116863484A (zh) 一种字符识别的方法、装置、存储介质及电子设备
CN116741155A (zh) 语音识别方法、语音识别模型的训练方法、装置及设备
JP7348447B2 (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN111400443A (zh) 信息处理方法、装置及存储介质
CN114077650A (zh) 口语理解模型的训练方法和装置
CN117079646B (zh) 一种语音识别模型的训练方法、装置、设备及存储介质
CN116501852B (zh) 一种可控对话模型训练方法、装置、存储介质及电子设备
CN114817469B (zh) 文本增强方法、文本增强模型的训练方法及装置
CN115859975B (zh) 数据处理方法、装置及设备
CN115423485B (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination