CN114048731A - 文本处理方法、装置、存储介质及计算机设备 - Google Patents

文本处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114048731A
CN114048731A CN202111349949.9A CN202111349949A CN114048731A CN 114048731 A CN114048731 A CN 114048731A CN 202111349949 A CN202111349949 A CN 202111349949A CN 114048731 A CN114048731 A CN 114048731A
Authority
CN
China
Prior art keywords
text
sentence
training
role
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111349949.9A
Other languages
English (en)
Inventor
王绥学
王睿
黎洛晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vipshop Guangzhou Software Co Ltd
Original Assignee
Vipshop Guangzhou Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vipshop Guangzhou Software Co Ltd filed Critical Vipshop Guangzhou Software Co Ltd
Priority to CN202111349949.9A priority Critical patent/CN114048731A/zh
Publication of CN114048731A publication Critical patent/CN114048731A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的文本处理方法、装置、存储介质及计算机设备,在对业务文本进行文本处理时,可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符,接着将每个句子中的每个词及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列,接着将该文本序列输入至执行文本处理任务的文本处理模型中,以通过文本处理模型来对文本序列执行文本处理任务;本申请中,由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型,能够更加准确地执行当前业务文本的文本处理任务,从而有效提高文本处理结果的准确率。

Description

文本处理方法、装置、存储介质及计算机设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本处理方法、装置、存储介质及计算机设备。
背景技术
现有的开源的预训练语言模型如BERT、Ernie、XLNET、ALBERT等,在预训练阶段,其主要使用来源于***、贴吧、论坛等通用或者开放领域的数据作为预训练的大规模数据集,并使用特定场景下的下游任务对预训练后得到的模型进行微调,从而得到适用于特定场景的语言模型。例如,在电商智能客服和人工客服场景中,在预训练阶段可以使用开源的BERT预训练语言模型,当需要执行下游任务,如售前和售后意图识别、FAQ语义匹配、工单小结、口径质检等任务时,可使用预训练阶段得到的模型进行微调,从而得到与各个下游任务对应的语言模型。
然而,由于前期进行预训练阶段使用的是开源的预训练语言模型,该预训练语言模型使用的数据集主要来源于通用或开放领域,与特定场景下的下游任务所对应的业务数据的差距较大,使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调,并使用微调后的模型进行预测时,得到的预测结果的准确率较低。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中开源的预训练语言模型使用的数据集主要来源于通用或开放领域,与特定场景下的下游任务所对应的业务数据的差距较大,使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调,并使用微调后的模型进行预测时,得到的预测结果的准确率较低的技术缺陷。
本发明提供了一种文本处理方法,所述方法包括:
获取业务文本及所述业务文本中每个句子对应的角色类型;
基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务;其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练。
可选地,将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列的步骤,包括:
将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量,以及在所述业务文本中的位置向量;
将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与所述业务文本对应的文本序列。
可选地,所述文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤,包括:
获取与所述文本处理任务对应的网络层;
将预训练的跨角色掩码语言模型与所述网络层进行拼接,以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征,所述网络层的输出为所述文本处理任务的处理结果;
利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型。
可选地,所述利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型的步骤,包括:
获取与所述文本处理任务对应的训练集,所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签;
将所述训练样本输入到拼接后的跨角色掩码语言模型中,得到所述拼接后的跨角色掩码语言模型输出的预测结果;
以所述预测结果趋近于所述样本标签为目标,对所述拼接后的跨角色掩码语言模型进行参数初始化;
当所述拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。
可选地,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练的步骤,包括:
获取所述跨角色掩码语言模型训练时的训练文本,其中,所述训练文本包括多种类型的业务数据组合后形成的完整的对话文本,所述对话文本中的每个句子对应有所属角色的角色类型;
基于所述训练文本中每个句子对应的角色类型,确定所述训练文本中每个句子中的每个字符及每个句子的结尾符;
将所述训练文本中每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述训练文本对应的文本序列;
将所述训练文本对应的文本序列输入至所述跨角色掩码语言模型中,并以预测训练文本中被遮挡的字符为目标进行训练。
可选地,所述业务文本包括售前售后意图识别文本、FAQ语义匹配文本、工单小结文本和口径质检文本;
所述售前售后意图识别文本中每个句子对应的角色类型包括咨询用户;
所述FAQ语义匹配文本中每个句子对应的角色类型包括咨询用户及对应的客服;
所述工单小结文本中每个句子对应的角色类型包括咨询用户及对应的客服;
所述口径质检文本中每个句子对应的角色类型包括客服。
可选地,所述文本处理任务包括售前售后意图识别任务、FAQ语义匹配任务、工单小结任务和口径质检任务。
本发明还提供了一种文本处理装置,包括:
文本获取模块,用于获取业务文本及所述业务文本中每个句子对应的角色类型;
结尾符确定模块,用于基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
向量转换模块,用于将每个句子中的每个词及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
文本处理模块,用于将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务,其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练。
本发明还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本处理方法的步骤。
本发明还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本处理方法的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明提供的文本处理方法、装置、存储介质及计算机设备,在对业务文本进行文本处理时,可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符,接着将每个句子中的每个词及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列,接着将该文本序列输入至执行文本处理任务的文本处理模型中,以通过文本处理模型来对文本序列执行文本处理任务;本申请中,由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,而跨角色掩码语言模型在预训练阶段主要以多种类型的业务数据组合后形成训练文本,并以该训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练的,因而,使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型,能够更加准确地执行当前业务文本的文本处理任务,从而有效提高文本处理结果的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种文本处理方法的流程示意图;
图2为本发明实施例提供的原始的BERT预训练模型的输入数据格式的结构示意图;
图3为本发明实施例提供的改进后的BERT预训练模型的输入数据格式的结构示意图;
图4为本发明实施例提供的一种文本处理装置的结构示意图;
图5为本发明实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于前期进行预训练阶段使用的是开源的预训练语言模型,该预训练语言模型使用的数据集主要来源于通用或开放领域,与特定场景下的下游任务所对应的业务数据的差距较大,使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调,并使用微调后的模型进行预测时,得到的预测结果的准确率较低。
基于此,本发明提供了如下技术方案,具体参见下文:
在一个实施例中,如图1所示,图1为本发明实施例提供的一种文本处理方法的流程示意图;本发明提供了一种文本处理方法,所述方法可以包括:
S110:获取业务文本及业务文本中每个句子对应的角色类型。
本步骤中,由于日常工作过程中会产生大量与工作相关的业务数据,当需要通过这些业务数据来获取相关信息时,可以将这些业务数据整理成业务文本的形式,进一步地,还可以将业务文本划分为至少一个句子,并确定业务文本中每个句子对应的角色类型。
举例来说,本申请中的业务文本的文本类型包括但不限于售前售后意图识别文本、FAQ语义匹配文本、工单小结文本、口径质检文本等;本申请的业务文本中每个句子对应的角色类型包括但不限于咨询用户和客服等。
可以理解的是,这里的售前售后意图识别文本指的是咨询用户在售前和/或售后咨询智能客服或人工客服相关业务问题时产生的业务数据,如“把我的订单退了吧”、“请问最近有什么优惠活动吗”这类与业务相关的业务数据;这里的FAQ语义匹配文本指的是用户在多种业务场景下咨询智能客服相关业务问题时产生的业务数据,如“快递信息查询”等;这里的工单小结文本指的是咨询用户与客服之间涉及业务方面的整段对话;这里的口径质检文本指的是智能客服和/或人工客服回复咨询用户咨询相关业务问题时产生的业务数据。
由此可见,本申请中的业务文本有多种不同的文本类型,且不同文本类型的业务文本所属的角色类型也不尽相同,如售前售后意图识别文本和FAQ语义匹配文本主要关注的是咨询用户的咨询内容,工单小结文本主要关注的是咨询用户与客服之间的对话内容,而口径质检文本则主要关注的是客服的回复内容。因此,本申请在将业务文本划分为多个句子后,可以进一步确定每个句子所对应的角色类型,从而针对不同角色类型的句子进行不同形式的处理。
需要说明的是,由于本申请中的业务文本为日常工作过程中产生的与某一类型的业务相关的业务数据,该业务数据中包含的文本内容较多,且上下文之间可能存在一定的关联。因此,在对业务文本进行文本处理之前,可以将业务文本划分为至少一个句子。
另外,由于一种文本类型的业务文本中不同的句子可能属于不同的角色所产生的,也可能属于同一角色所产生的,例如,售前售后意图识别文本和FAQ语义匹配文本中不同的句子都是由咨询用户所产生的,而工单小结文本中不同的句子则是由咨询用户或客服所产生的。而本申请在下游任务微调阶段,为了提高特定类型的下游任务下输出的文本处理结果的准确率,对训练集中的业务文本中每个句子的角色类型进行划分,并根据不同角色类型的句子对模型进行训练,因此,后续针对不同的下游任务执行相应的文本处理任务之前,可以先确定业务文本中每个句子对应的角色类型,以便提高文本处理结果的准确率。
S120:基于业务文本中每个句子对应的角色类型,确定业务文本中每个句子中的每个字符及每个句子的结尾符。
本步骤中,通过S110获取到业务文本及业务文本中每个句子对应的角色类型后,可以根据业务文本中每个句子对应的角色类型来确定业务文本中每个句子中的每个字符以及每个句子的结尾符。
可以理解的是,在对业务文本进行文本处理时,由于在文本处理的过程中识别的是业务文本的每个句子中的每个字符,以及业务文本中不同的句子,并且,本申请为了提高文本处理结果的准确率,预先确定了业务文本中每个句子对应的角色类型,因此,在确定当前业务文本中每个句子中的每个字符以及每个句子的结尾符时,可以根据业务文本中每个句子对应的角色类型,来确定业务文本中每个句子的每个字符以及每个句子的结尾符,以使业务文本中每个句子的每个字符以及每个句子的结尾符都携带有每个句子对应的角色类型,从而更好地对不同文本类型的业务文本进行文本处理。
例如,本申请可以使用BERT预训练模型作为文本处理模型,原本的BERT预训练模型在预测业务文本时,其输入的是与业务文本对应的一个句子或一个句子对,并在句子末尾加相同的[SEP]结尾符,两句拼接开头加上[CLS]符,以便让预训练后得到的BERT预训练模型能够应对各种不同的下游任务。而本申请中的业务文本包含有至少一个句子,且每个句子所对应的角色类型也可能不同,因此,当本申请使用BERT预训练模型作为文本处理模型时,可以根据业务文本中每个句子对应的角色类型,来确定每个句子的字符以及每个句子的结尾符,以便针对特定类型的下游任务执行文本处理任务。
举例来说,若本申请的业务文本为售前售后意图识别文本时,由于该文本关注的是咨询用户的咨询内容,需要通过本申请的文本处理方法来识别用户意图;因此,在对售前售后意图识别文本进行处理时,可以将售前售后意图识别文本中咨询用户的句子末尾加一个[SEP_U]标记,两句拼接开头加上[CLS]符,并确定该咨询用户的每个句子的字符,以便提高文本处理的准确率。
需要说明的是,本申请除了使用BERT预训练模型以外,还可以使用其他的预训练模型作为文本处理模型,如Ernie模型、XLNET模型等,在此不做限制。
S130:将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与业务文本对应的文本序列。
本步骤中,为了更好地对业务文本的文本内容执行文本处理任务,本申请在执行文本处理任务之前,可以将业务文本的每个句子中的每个字符及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列。
举例来说,本申请可以使用BERT预训练模型作为文本处理模型来对前售后意图识别文本进行处理。当确定售前售后意图识别文本中咨询用户的句子对应的结尾符[SEP_U]标记,以及该咨询用户的每个句子的字符后,由于BERT预训练模型的输入主要由三部分向量相加组成,分别为token embeddings、segment embeddings和position embeddings。其中,token Embdedding指的是模型中表征中文字符最主要的信息;Segment Embedding为每个句子对应的段向量,由于输入由多个句子拼接起来,因此,每个句子都有其对应的段向量;Position Embedding表示业务文本中的每个字符所在位置的位置向量。
因此,本申请可以将每个句子中的每个字符以及每个句子的结尾符进行向量转换后,得到与每个字符和每个结尾符对应的三个向量拼接后形成的向量组合,并根据这些向量组合来进一步形成与业务文本对应的文本序列。
需要说明的是,在对每个句子中的每个字符以及每个句子的结尾符进行向量转换时,还包括原本的BERT预训练模型中在两个句子拼接开头加上的[CLS]符,以使输入至文本处理模型的文本序列为模型能够识别的完整的文本序列。
S140:将文本序列输入至执行文本处理任务的文本处理模型中,以对文本序列执行文本处理任务。
本步骤中,通过S130得到与业务文本对应的文本序列后,本申请可以将该文本序列输入至执行文本处理任务的文本处理模型中,以便通过文本处理模型来对文本序列执行文本处理任务。
其中,本申请中的文本处理模型可以是基于预训练的跨角色掩码语言模型进行参数初始化后得到的模型,而跨角色掩码语言模型在进行训练时,可以以多种类型的业务数据组合后形成训练文本,以该训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练。
可以理解的是,预训练的跨角色掩码语言模型主要分为两个阶段,其中一个阶段是预训练阶段,另一个阶段为下游任务微调阶段。本申请考虑到下游任务微调阶段时,有的下游任务的关注点是用户问句(售前售后意图识别、FAQ语义匹配,仅需要对用户问句做识别和匹配),有的下游任务的关注点是客服回复(口径质检,对客服话术进行质量检测),而有的下游任务则是两者都关注(工单小结,结合整段对话,包括用户问句和客服回复,给出对应工单类别),因此,本申请中的跨角色掩码语言模型在进行训练时,便将训练文本及其所属角色的角色类型作为样本输入,这样在特定下游任务中,才能取得更好的效果。
在此基础上,为了使得训练后的跨角色掩码语言模型能够更好地进行下游任务的微调,本申请在选择跨角色掩码语言模型的训练文本时,将多种类型的业务数据进行组合,从而形成最终的训练样本。
举例来说,由于电商智能客服和人工客服每天都积累了大量的对话数据,若本申请所使用的跨角色掩码语言模型模型在训练时即使用如表1所述的客服对话数据作为训练文本,这样在客服场景下的各个下游任务中将会获得更好的效果。表1的内容具体如下:
Figure BDA0003355402570000091
Figure BDA0003355402570000101
表1人工对话数据样例(咨询用户:user,客服:manual)
在一个具体的实施方式中,本申请中的跨角色掩码语言模型可以是改进后的BERT预训练模型。可以理解的是,原始的BERT预训练模型输入的是一个句子或一个句子对,并且,原始的BERT预训练模型在预训练阶段的任务有两个,分别是Mask Language Model(随机Mask一定比例的字符并对这些字符进行预测)和Next Sentence Prediction(输入句子对,预测两个句子是否语义连续),当其执行Mask Language Model任务时,其输入数据的格式如图2所示,图2为本发明实施例提供的原始的BERT预训练模型的输入数据格式的结构示意图;图2中,原始的BERT预训练模型输入的是一个句子对,包括A:你好;B:您好,有什么可以帮到您的吗,并在输入时随机Mask了“好”、“什”、“到”这三个字。从图1可以看到,输入BERT预训练模型的Embedding由三部分组成:Token Embdedding、Segment Embedding、Position Embedding,其中,Token Embdedding表示输入的每个字符对应的词向量,Segment Embedding表示不同的句子对应的段向量,而Position Embedding则表示输入的每个字符对应的位置向量,将每个字符对应的三个向量进行拼接后,即可形成最终的Embedding输入到BERT预训练模型中,最终通过BERT预训练模型来预测输入的句子对中被遮挡的字符。
而本申请中改进后的BERT预训练模型,可以使用人工客服与咨询用户之间积累的海量对话数据,并将该对话数据预处理成表1格式的一通完整的对话后,拼接整通对话作为改进后的BERT预训练模型的输入。拼接时,每个句子的末尾分别加上与该句子所述角色的角色类型对应的[SEP]标记,如咨询用户的句子可以加[SEP_U],客服的句子则可以加[SEP_M],这样可以区别对待咨询用户话术和客服话术。接着,本申请可以将原始的BERT预训练模型中的Next Sentence Prediction任务移除,仅做Mask Language Model任务,并对输入改进后的BERT预训练模型的Embedding中的Token Emdedding和Segment Embedding进行一定的修改,如计算Token Emdedding时,[SEP_U]和[SEP_M]分别赋予不同的向量值E[SEP_U]和E[SEP_M],计算Segment Embedding时,[SEP_U]和[SEP_M]分别对应不同的向量值EU和EM。
其中,在将对话数据预处理成一通过完整的对话时,可以将对话数据中用户进入人工客服状态开始,作为对话的起始,将中途用户退出聊天窗口,或人工客服回答完用户的问题并跟用户确认没有其他问题,或用户超过规定的时间没有发言等,作为对话的结束。
上述实施例中,在对业务文本进行文本处理时,可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符,接着将每个句子中的每个词及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列,接着将该文本序列输入至执行文本处理任务的文本处理模型中,以通过文本处理模型来对文本序列执行文本处理任务;本申请中,由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,而跨角色掩码语言模型在预训练阶段主要以多种类型的业务数据组合后形成训练文本,并以该训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练的,因而,使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型,能够更加准确地执行当前业务文本的文本处理任务,从而有效提高文本处理结果的准确率。
在一个实施例中,S130中将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列的步骤,可以包括:
S131:将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量,以及在所述业务文本中的位置向量。
S132:将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与所述业务文本对应的文本序列。
本实施例中,可以使用改进后的BERT预训练模型作为文本处理模型来对业务文本进行处理,在将业务文本输入到文本处理模型之前,可以将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量,以及在业务文本中的位置向量,接着将业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与业务文本对应的文本序列,并将该文本序列作为文本处理模型的输入。
示意性地,如图3所示,图3为本发明实施例提供的改进后的BERT预训练模型的输入数据格式的结构示意图;图3中,截取的部分业务文本包括A:你好,B:您好,句子中每个字符是由三个向量进行拼接的,例如Input那一行的字符【SEP_U】,对应E[SEP_U]、EU和E3三个向量,此时,【SEP_U】这个字符输入到模型的向量,是由E[SEP_U]、EU和E3这三个向量拼接而成的。按照此种方式处理完后,Input中的每一个字符处,都是由3个向量拼接而成,然后形成文本序列后作为模型的输入。
在一个实施例中,S140中文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤,可以包括:
S141:获取与所述文本处理任务对应的网络层。
S142:将预训练的跨角色掩码语言模型与所述网络层进行拼接,以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征,所述网络层的输出为所述文本处理任务的处理结果。
S143:利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型。
本实施例中,文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,当使用预训练的跨角色掩码语言模型进行参数初始化时,可以在预训练的跨角色掩码语言模型后拼接与文本处理任务对应的网络层,并将跨角色掩码语言模型输出的文本特征作为网络层的输入,将网络层的输出为所述文本处理任务的处理结果,接着利用与文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,从而得到最终的文本处理模型。
例如,对于情感分析等单句分类任务,可以直接输入单个句子,并将[CLS]的输出直接输入到分类器进行分类;对于多个句子拼接后的任务,可以用不同角色类型的结尾符分隔不同角色类型的句子输入到模型中,然后同样仅须将[CLS]的输出送到分类器进行分类;对于问答任务,可以将问题与答案拼接输入到跨角色掩码语言模型中,然后将答案位置的输出向量进行二分类并在句子方向上进行softmax(只需预测开始和结束位置即可);对于命名实体识别任务,对每个位置的输出进行分类即可。
在一个实施例中,S143中利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型的步骤,可以包括:
S1431:获取与所述文本处理任务对应的训练集,所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签。
S1432:将所述训练样本输入到拼接后的跨角色掩码语言模型中,得到所述拼接后的跨角色掩码语言模型输出的预测结果。
S1433:以所述预测结果趋近于所述样本标签为目标,对所述拼接后的跨角色掩码语言模型进行参数初始化。
S1434:当所述拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。
本实施例中,在利用与文本处理任务对应的训练集对拼接到跨角色掩码语言模进行训练时,该训练集可以包括训练样本以及对该训练样本进行标注后得到的样本标签。
例如,训练样本可以包括售前售后意图识别训练样本、FAQ语义匹配训练样本、工单小结训练样本、口径质检训练样本等,每一个训练样本都需要进行标注,并利用训练样本和样本标进行有监督学习,当拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为文本处理模型。
本申请通过预训练阶段学习到的模型参数对下游任务进行预测,下游任务会使用标注数据,再来微调模型的参数,以更加适应下游任务。此时,下游任务不需要很大量的标注数据(标注人工成本大),就能学习到一个比较好的模型,从而节省人力成本并提高模型的预测准确率。
在一个实施例中,S140中跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练的步骤,可以包括:
S241:获取所述跨角色掩码语言模型训练时的训练文本,其中,所述训练文本包括多种类型的业务数据组合后形成的完整的对话文本,所述对话文本中的每个句子对应有所属角色的角色类型。
S242:基于所述训练文本中每个句子对应的角色类型,确定所述训练文本中每个句子中的每个字符及每个句子的结尾符。
S243:将所述训练文本中每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述训练文本对应的文本序列。
S244:将所述训练文本对应的文本序列输入至所述跨角色掩码语言模型中,并以预测训练文本中被遮挡的字符为目标进行训练。
本实施例中,在对跨角色掩码语言模型进行训练时,可以选获取与其对应的训练文本,该训练文本可以包括多种类型的业务数据组合后形成的完整的对话文本,该对话文本中的每个句子对应有所属角色的角色类型,接着可以根据训练文本中每个句子对应的角色类型,来确定训练文本中每个句子中的每个字符及每个句子的结尾符,然后将训练文本中每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与该训练文本对应的文本序列,最后将该文本序列输入至跨角色掩码语言模型中,并以预测训练文本中被遮挡的字符为目标进行训练。
举例来说,当使用售前售后意图识别文本作为训练文本时,由于售前售后意图识别文本主要关注的是用户话术,例如“把我的订单退了吧”,针对该文本对应的识别结果为退货意图。此时,在得到与售前售后意图识别文本对应的文本序列的过程中,可以先遮挡售前售后意图识别文本中的某些字符,接着在用户话术的句子末尾仅加一个[SEP_U]标记,并在计算Token Emdedding时,与[SEP_U]标记对应向量值设为E[SEP_U],在计算SegmentEmbedding时,与[SEP_U]标记对应向量值设为EU,计算Position Embedding的方法与原始的BERT预训练模型一致,最后将与每个字符对应的三个向量拼接起来的输入给跨角色掩码语言模型,并以预测训练文本中被遮挡的字符为目标对跨角色掩码语言模型进行训练。
在一个实施例中,所述业务文本可以包括售前售后意图识别文本、FAQ语义匹配文本、工单小结文本和口径质检文本。
所述售前售后意图识别文本中每个句子对应的角色类型可以包括咨询用户;所述FAQ语义匹配文本中每个句子对应的角色类型可以包括咨询用户及对应的客服;所述工单小结文本中每个句子对应的角色类型可以包括咨询用户及对应的客服;所述口径质检文本中每个句子对应的角色类型可以包括客服。
在一个实施例中,所述文本处理任务可以包括售前售后意图识别任务、FAQ语义匹配任务、工单小结任务和口径质检任务。
下面对本申请实施例提供的文本处理装置进行描述,下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。
在一个实施例中,如图4所示,图4为本发明实施例提供的一种文本处理装置的结构示意图;本发明还提供了一种文本处理装置,包括文本获取模块210、结尾符确定模块220、向量转换模块230、文本处理模块240,具体包括如下:
文本获取模块210,用于获取业务文本及所述业务文本中每个句子对应的角色类型。
结尾符确定模块220,用于基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符。
向量转换模块230,用于将每个句子中的每个词及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列。
文本处理模块240,用于将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务,其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练。
上述实施例中,在对业务文本进行文本处理时,可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符,接着将每个句子中的每个词及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列,接着将该文本序列输入至执行文本处理任务的文本处理模型中,以通过文本处理模型来对文本序列执行文本处理任务;本申请中,由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,而跨角色掩码语言模型在预训练阶段主要以多种类型的业务数据组合后形成训练文本,并以该训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练的,因而,使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型,能够更加准确地执行当前业务文本的文本处理任务,从而有效提高文本处理结果的准确率。
在一个实施例中,本发明还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本处理方法的步骤。
在一个实施例中,本发明还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本处理方法的步骤。
示意性地,如图5所示,图5为本发明实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图5,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的文本处理方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作***,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取业务文本及所述业务文本中每个句子对应的角色类型;
基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务;其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练。
2.根据权利要求1所述的文本处理方法,其特征在于,将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列的步骤,包括:
将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量,以及在所述业务文本中的位置向量;
将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与所述业务文本对应的文本序列。
3.根据权利要求1所述的文本处理方法,其特征在于,所述文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤,包括:
获取与所述文本处理任务对应的网络层;
将预训练的跨角色掩码语言模型与所述网络层进行拼接,以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征,所述网络层的输出为所述文本处理任务的处理结果;
利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型。
4.根据权利要求3所述的文本处理方法,其特征在于,所述利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型的步骤,包括:
获取与所述文本处理任务对应的训练集,所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签;
将所述训练样本输入到拼接后的跨角色掩码语言模型中,得到所述拼接后的跨角色掩码语言模型输出的预测结果;
以所述预测结果趋近于所述样本标签为目标,对所述拼接后的跨角色掩码语言模型进行参数初始化;
当所述拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。
5.根据权利要求1所述的文本处理方法,其特征在于,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练的步骤,包括:
获取所述跨角色掩码语言模型训练时的训练文本,其中,所述训练文本包括多种类型的业务数据组合后形成的完整的对话文本,所述对话文本中的每个句子对应有所属角色的角色类型;
基于所述训练文本中每个句子对应的角色类型,确定所述训练文本中每个句子中的每个字符及每个句子的结尾符;
将所述训练文本中每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述训练文本对应的文本序列;
将所述训练文本对应的文本序列输入至所述跨角色掩码语言模型中,并以预测训练文本中被遮挡的字符为目标进行训练。
6.根据权利要求1所述的文本处理方法,其特征在于,所述业务文本包括售前售后意图识别文本、FAQ语义匹配文本、工单小结文本和口径质检文本;
所述售前售后意图识别文本中每个句子对应的角色类型包括咨询用户;
所述FAQ语义匹配文本中每个句子对应的角色类型包括咨询用户及对应的客服;
所述工单小结文本中每个句子对应的角色类型包括咨询用户及对应的客服;
所述口径质检文本中每个句子对应的角色类型包括客服。
7.根据权利要求1所述的文本处理方法,其特征在于,所述文本处理任务包括售前售后意图识别任务、FAQ语义匹配任务、工单小结任务和口径质检任务。
8.一种文本处理装置,其特征在于,包括:
文本获取模块,用于获取业务文本及所述业务文本中每个句子对应的角色类型;
结尾符确定模块,用于基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
向量转换模块,用于将每个句子中的每个词及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
文本处理模块,用于将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务,其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练。
9.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述文本处理方法的步骤。
10.一种计算机设备,其特征在于:所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述文本处理方法的步骤。
CN202111349949.9A 2021-11-15 2021-11-15 文本处理方法、装置、存储介质及计算机设备 Pending CN114048731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111349949.9A CN114048731A (zh) 2021-11-15 2021-11-15 文本处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111349949.9A CN114048731A (zh) 2021-11-15 2021-11-15 文本处理方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN114048731A true CN114048731A (zh) 2022-02-15

Family

ID=80209427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111349949.9A Pending CN114048731A (zh) 2021-11-15 2021-11-15 文本处理方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114048731A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757176A (zh) * 2022-05-24 2022-07-15 上海弘玑信息技术有限公司 一种获取目标意图识别模型的方法以及意图识别方法
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757176A (zh) * 2022-05-24 2022-07-15 上海弘玑信息技术有限公司 一种获取目标意图识别模型的方法以及意图识别方法
CN116306917A (zh) * 2023-05-17 2023-06-23 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN116306917B (zh) * 2023-05-17 2023-09-08 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN110704641B (zh) 一种万级意图分类方法、装置、存储介质及电子设备
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111191450B (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN114048731A (zh) 文本处理方法、装置、存储介质及计算机设备
CN111291166A (zh) 基于Bert的语言模型的训练方法及装置
CN111522916B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN113836298A (zh) 基于视觉增强的文本分类方法和***
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN111027291B (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN106844344B (zh) 用于对话的贡献度计算方法及主题抽取方法和***
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN111858854A (zh) 一种基于历史对话信息的问答匹配方法及相关装置
CN112765974A (zh) 一种业务辅助方法、电子设备及可读存储介质
CN115238799A (zh) 基于ai随机森林恶意流量检测方法和***
CN109710756B (zh) 基于语义角色标注的文书体裁分类***及方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN112667791A (zh) 潜在事件预测方法、装置、设备及存储介质
CN113157880B (zh) 一种要素内容获取方法、装置、设备及存储介质
CN112085594B (zh) 身份核实方法、设备及可读存储介质
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN113761874A (zh) 事件事实性预测方法、装置、电子设备与存储介质
CN114942980B (zh) 一种确定文本匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination