CN112035662B - 文本处理方法、装置、计算机设备以及存储介质 - Google Patents

文本处理方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN112035662B
CN112035662B CN202010872702.4A CN202010872702A CN112035662B CN 112035662 B CN112035662 B CN 112035662B CN 202010872702 A CN202010872702 A CN 202010872702A CN 112035662 B CN112035662 B CN 112035662B
Authority
CN
China
Prior art keywords
text
target
phrase
feature
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010872702.4A
Other languages
English (en)
Other versions
CN112035662A (zh
Inventor
叶志豪
文瑞
陈曦
张子恒
李智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010872702.4A priority Critical patent/CN112035662B/zh
Publication of CN112035662A publication Critical patent/CN112035662A/zh
Application granted granted Critical
Publication of CN112035662B publication Critical patent/CN112035662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质,文本处理方法可以应用于人工智能领域,文本处理方法包括:获取目标文本,目标文本包括N个目标词组;根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征;识别目标文本与K个文本主题之间的匹配权重特征,根据主题词组权重特征集合、匹配权重特征和每个目标词组的主题上下文特征确定目标文本的扩展主题特征;将扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别目标文本特征,得到目标文本所属的业务文本类型。采用本申请,可以提高文本分类效率。

Description

文本处理方法、装置、计算机设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。
背景技术
文本分类是指按照一定的分类体系或者分类标准对文本进行分类标记。文本分类结果可以为文本下游任务提供数据基础,例如,根据文本分类结果进行文本语义理解,根据文本分类结果进行精准推荐等。
目前,文本分类主要由人工完成,即人工理解整个文本后,按照预设的分类标准为文本设置对应的类型标签。由于人工分类文本需要经历人工文本理解,人工设置标签等过程,会耗费大量的时间,造成文本分类的效率低下。
发明内容
本申请实施例提供一种文本处理方法、装置、计算设备以及存储介质,可以提高文本分类效率。
本申请实施例一方面提供了一种文本处理方法,包括:
获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
本申请实施例一方面提供了一种文本处理装置,包括:
获取模块,用于获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
第一确定模块,用于根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
第一识别模块,用于识别所述目标文本与所述K个文本主题之间的匹配权重特征;
第二确定模块,用于根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
组合模块,用于将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征;
第二识别模块,用于识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
本申请不需要人工参与,由终端设备自动提取文本中每个词组的主题上下文特征以及提取文本的扩展主题特征,进而确定文本的文本类型,避免由人工分类所带来的效率低下的情况,可以提高文本分类的效率,丰富文本分类的方式;再有,基于每个词组的主题上下文特征,所确定的扩展主题特征,相比基于上下文无关的词向量所确定的扩展主题特征,可以有效的避免多义词匹配扩展主题特征时产生的错误和噪音,进而提升文本分类的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理的***架构图;
图2是本申请实施例提供的一种文本处理的场景示意图;
图3是本申请实施例提供的一种文本处理的流程示意图;
图4是本申请实施例提供的一种分类模型的示意图;
图5是本申请实施例提供的一种确定主题上下文特征的流程示意图;
图6是本申请实施例提供的一种BERT模型结构示意图;
图7是本申请实施例提供的一种文本处理方法的整体架构图;
图8是本申请实施例提供的一种文本处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
在本申请中,主要涉及基于自然语言处理技术识别出文本的文本类型,确定了文本类型的文本可以用于后续的精准推荐,文本摘要生成任务等。
本申请可以应用于如下场景:在医疗口语意图查询场景下(如智能导诊),欲识别出用户意图(例如,疾病判断意图、找医生意图、找科室意图、非本人看病意图等),可以获取用户输入的目标文本,采用本申请的方案确定目标文本中每个词组的主题上下文特征,以及基于每个词组的主题上下文特征确定目标文本的扩展主题特征,以及根据扩展主题特征确定目标文本的意图类型。后续,可以基于确定的意图类型进行医疗业务数据的精准推荐。
再例如,在疾病预测场景下,欲识别医生主诉类型(例如,症状描述、体格检查、既往病史),可以获取医疗诊断文本(称为目标文本),采用本申请的方案确定目标文本中每个词组的主题上下文特征,以及基于每个词组的主题上下文特征确定目标文本的扩展主题特征,以及根据扩展主题特征确定目标文本的主诉类型。后续,可以基于确定的主诉类型进行疾病预测,提升疾病预测的性能。
再例如,在评论情感分析领域下,欲识别评论文本的情感类型(例如,负面评价,正面评价,中立),可以获取评论文本(称为目标文本),采用本申请的方案确定目标文本中每个词组的主题上下文特征,以及基于每个词组的主题上下文特征确定目标文本的扩展主题特征,以及根据扩展主题特征确定目标文本的情感类型。
请参见图1,是本申请实施例提供的一种文本处理的***架构图。本申请涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
以终端设备10a为例,终端设备10a获取待分类的目标文本,将目标文本发送至服务器10d。服务器10d根据神经主题模型中K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定目标文本中每个目标词组与K个文本主题的主题上下文特征;服务器10d调用神经主题模型确定目标文本和K个文本主题之间的匹配权重特征,服务器10d根据主题词组权重特征集合、匹配权重特征以及每个目标词组的主题上下文特征确定目标文本的扩展主题特征,将扩展主题特征和所有目标词组的主题上下文特征组合为目标文本特征,识别目标文本特征得到目标文本所属的文本类型。
后续,服务器10d可以将识别到的文本类型下发至终端设备10a,终端设备10a可以输出服务器10d下发的文本类型;或者终端设备10a可以根据识别到的文本类型进一步对目标文本进行后处理,以输出后处理结果。
当然,提取每个目标词组的主题上下文特征以及确定目标文本所属的文本类型也可以由终端设备来执行。
图1所示的服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备等具有文本处理功能的智能设备。终端设备集群与服务器10d可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下述以服务器10d如何确定一个文本的文本类型为例进行详细说明:
请参见图2,其是本申请实施例提供的一种文本处理的场景示意图。如图2所示,服务器10d获取待识别的文本20a,文本20a中包括N个词组,分别为词组1、词组2...、词组N。服务器10d首先将文本20a转换为词袋向量,其中,词袋向量中的每一个分量表示词汇表中的每一个词组在文本20a中的出现频次。将文本20a的词袋向量输入神经主题模型20b,其中神经主题模型是基于神经网络预测文本与多个主题之间的匹配概率,神经主题模型20b中包括主题和词组之间的权重矩阵20c,该权重矩阵20c的每一行表示某一个主题和词汇表中的多个词组之间的匹配权重。基于神经主题模型20b可以预测文本20a与多个主题之间的匹配概率,将多个匹配概率组合为匹配概率特征20e。
服务器10d提取文本20a中每个词组的局部上下文特征,其中可以采用自注意机制或者基于BERT模型确定每个词组的局部上下文特征。
基于自注意机制确定每个词组的局部上下文特征的过程如下:
服务器10d将每个词组转换为词向量,对任一词组来说,服务器10d计算任一词组的词向量和文本20a中每个词组的词向量之间的相似度权重,其中可以采用点积、拼接或者感知机等方式计算两个词向量之间的相似度权重。将N个相似度权重进行归一化,将归一化后的相似度权重与所有词组的词向量进行加权,并将加权后的N个词向量叠加为该任一词组的局部上下文特征。服务器10d可以采用相同的方式确定文本20a中每个词组的局部上下文向量。
基于BERT模型确定每个词组的局部上下文特征的过程如下:
服务器10d获取每个词组的词向量,获取每个词组所在语句在文本20a中的语句位置向量,以及获取每个词组在文本20a中的词组位置向量。将每个词组的词向量、语句位置向量和词组位置向量组合为每个词组的输入向量,将N个输入向量输入训练好的BERT模型,BERT模型对每个词组的输入向量进行多注意编码,将BERT模型的最后一个隐藏层输出的每个词组的特征作为每个词组的局部上下文特征。
服务器10d确定了文本20a中每个词组的局部上下文特征后,对于任一词组来说,计算任一词组的局部上下文特征和神经主题模型20b中每一个主题-词组之间的权重向量(即是主题和词组之间的权重矩阵20c的每一行)之间的相似度,得到了这个词组和每一个主题之间的相似度后,将这些相似度与对应的主题-词组之间的权重向量进行加权,将加权后的主题-词组之间的权重向量叠加为该任一词组的全局主题上下文特征。服务器10f可以采用相同的方式确定文本20a中每个词组的全局上下文向量。
至此,服务器10d就确定了文本20a中每个词组的局部上下文特征和全局主题上下文特征,将每个词组的局部上下文特征和全局主题上下文特征叠加为每个词组的主题上下文特征。
服务器10d可以将文本20a中的所有词组的主题上下文特征组合为主题上下文特征集合20d(如图2所示)。
服务器10d将主题上下文特征集合20d、匹配概率特征20e以及权重矩阵20c输入扩展知识模型20f,根据权重矩阵20c确定源主题知识矩阵和目标主题知识矩阵,服务器10d根据匹配概率特征20e确定源主题知识矩阵和主题上下文特征集合20d之间的主题相似度权重,将确定的主题相似度权重和目标主题知识矩阵进行加权求和,得到文本20a的扩展主题特征20g。
服务器10d将扩展主题特征20g分别与主题上下文特征集合20d中每个主题上下文特征进行拼接,将拼接后的主题上下文特征输入分类模型20i,分类模型20i输出文本20a与多种文本类型之间的匹配概率,文本20a与多种文本类型之间的匹配概率之和等于1。
如图2所示,文本20a和文本类型1之间的匹配概率是0.1,文本20a和文本类型2之间的匹配概率是0.2,文本20a和文本类型3之间的匹配概率是0.6,文本20a和文本类型4之间的匹配概率是0.1。服务器10d可以从这4个匹配概率中选择最大匹配概率作为文本20a所属的文本概率,即最大匹配概率0.6对应的文本类型3是文本20a所属的文本类型。
至此,服务器10d就识别出了文本20a所属的文本类型,服务器10d可以为文本20a设置类型标签。
其中,获取目标文本(如上述实施例中的文本20a),确定每个目标词组的主题上下文特征(如上述实施例中的主题上下文特征集合20d中的N个主题上下文特征),获取匹配权重特征(如上述实施例中的匹配概率特征20e),确定文本所属的业务文本类型(如上述实施例中的文本类型3)的具体过程可以参见下述图3-图7对应的实施例。
请参见图3,是本申请实施例提供的一种文本处理的流程示意图,下述实施例以服务器为执行主体描述如何识别文本所属的业务文本类型,文本处理方法可以包括如下步骤:
步骤S101,获取目标文本,所述目标文本包括N个目标词组,所述N是正整数。
具体的,服务器(如上述图2对应实施例中的服务器10d)获取待识别的文本(称为目标文本,如上述图2对应实施例中的文本20a),其中,目标文本包括N个词组,每个词组都称为目标词组(如上述图2对应实施例中的N个词组),N是正整数。
值得注意的是,本申请中的目标文本可以具体属于短文本,即目标文本中包含的字符小于预设的字符阈值。
正是由于短文本包含的字符(信息)较少,一般来说文本特征比较稀疏,进而会降低文本识别的准确率。为了提高识别准确率,本申请引入额外的主题知识,以生成文本的扩展主题特征,可以避免特征稀疏问题,可以有效提升文本分类精度。
步骤S102,根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数。
具体的,服务器调用词向量模型(wor2vec)将每个词组转换为词向量特征,即每一个词组都表示为一个数值向量。基于自注意机制或者BERT模型、N个目标词组的词向量特征,确定每个目标词组的局部上下文特征。每个目标词组的局部上下文特征都是一个向量,该向量的维度是V。
词组的局部上下文特征是指每个词组的特征表示不仅由自身字符决定,还由该词组在文本中的的前后几个词组决定,局部上下文特征可以表达词组的局部语义。
服务器获取神经主题模型(如上述图2对应实施例中的神经主题模型20b)中的K个文本和V个词汇表词组之间的主题词组权重特征集合(如上述图2对应实施例中的主题和词组之间的权重矩阵20c),主题词组权重特征集合包括K个主题词组权重特征,每个主题词组权重特征表示一个文本主题与V个词汇表词组之间的匹配权重,且主题词组权重特征集合是训练神经主题模型时确定的模型参数。因此,主题词组权重特征集合可以看作是一个行数为K列数是V的特征矩阵,特征矩阵中的每一行都表示一个主题词组权重特征。
例如,现有5个词汇表词组和2个文本主题,5个词汇表词组分别是:汽车,火车,飞机,手机和平板电脑;2个文本主题分别是:交通和科技,那么文本主题“交通”与词汇表词组“汽车”、词汇表词组“火车”以及词汇表词组“飞机”的匹配权重就应该大于与词汇表词组“手机”、词汇表词组“平板电脑”的匹配权重;文本主题“科技”与词汇表词组“手机”、词汇表词组“平板电脑”的匹配权重就应该大于与词汇表词组“汽车”、词汇表词组“火车”以及词汇表词组“飞机”的匹配权重。
服务器根据该主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征,每个全局主题上下文特征都是一个向量,该向量的维度是V。
词组的全局主题上下文特征是指每个词组的特征表示不仅由自身字符决定,还由文本中除该词组以外的其余词组决定,全局主题上下文特征可以表达词组的全局语义。
针对短文本中的多义词问题,由于全局主题上下文特征的确定需要K个文本主题参与,因此全局主题上下文特征有利于多义词准确表示在不同句子中的具体含义的。具体来说,对于多义词的不同含义,都有其对应的主题,而这个主题信息同时也能表示多义词在不同句子中含义,即全局主题上下文特征能有效地表示多义词在不同句子中所代表的真正含义。
至此,服务器就获取了每个目标词组的局部上下文特征和全局主题上下文特征,将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征(如上述图2对应实施例中的主题上下文特征集合20d中的N个主题上下文特征),其中,每个主题上下文特征都是一个向量,该向量的维度是V。
步骤S103,识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征。
具体的,服务器根据V个词汇表词组的排布顺序,将目标文本转换为词袋特征,词袋特征是一个向量,该向量的维度等于V,词袋特征中的每一个分量表示一个词汇表词组在目标文本中的出现频次。
例如,现有5个词汇表词组,分别为:词组1、词组2、词组3、词组4和词组5,现有目标文本为:词组1词组3词组1,即在目标文本中词组1出现2次,词组3出现1次,那么目标文本的词袋特征可以表示为:[2,0,1,0,0],可以知道,词袋特征仅能表达词组在文本中的出现频次信息,而摒弃了词组的位置信息。
服务器调用训练好的神经主题模型中的编码器对目标文本的词袋特征进行编码处理,得到目标文本的文本编码特征。
具体过程可以由下述公式(1)和公式(2)进行表示:
编码器的编码处理包含先验参数估计和潜在变量估计两个过程,先验参数估计的过程可以由下述公式(1)进行表示:
Figure BDA0002651655390000091
其中,xbow表示词袋特征,μ(x)和σ(x)表示两个先验参数,l1、l2和fMLP表示的是一个全连接网络,这个全连接网络的激活函数的Relu。
潜在变量估计的过程可以由下述公式(2)进行表示:
Figure BDA0002651655390000101
从公式(2)可以知道,得到两个先验参数后,神经主题模型会对这两个先验参数进行相加操作,其中ε是一个参数权重,再经过一层ReLu为激活函数的神经网络,得到潜在变量z。
潜在变量z即是编码器对词袋特征编码处理后的文本编码特征z。
调用神经主题模型中的解码器,对该文本编码特征z进行重构,得到目标文本与K个文本主题之间的匹配权重特征(如上述图2对应实施例中的匹配概率特征20e)。
解码器的计算过程可以用下述公式(3)进行描述:
θ=softmax(g(z)) (3)
其中,g(·)表示解码器,softmax(·)表示归一化函数,θ即是目标文本与K个文本主题之间的匹配权重特征。
至此,服务器就获取了目标文本和K个文本主题之间的匹配权重特征,匹配权重特征是一个向量,该向量的维度是K。
为了进一步的减缓短文本的特征稀疏的问题,本申请利用每个目标词组的主题上下文特征对主题知识进行匹配,得到扩展主题特征,可以提升扩展主题特征的准确性,以及减少匹配到的噪音。确定扩展主题特征的具体过程为:
服务器将主题词组权重特征集合输入训练好的扩展知识模型中的第一神经感知器,第一神经感知器对主题词组权重特征集合进行压缩,得到源主题知识特征矩阵,源主题知识特征矩阵的行数是K,列数是E,其中E是正整数,且E小于V。
将主题词组权重特征集合输入训练好的扩展知识模型中的第二神经感知器,第二神经感知器对主题词组权重特征集合进行压缩,得到目标主题知识特征矩阵,目标主题知识特征矩阵的行数是K,列数是E,其中E是正整数。
也就是说,源主题知识特征矩阵和目标主题知识特征矩阵的尺寸是相同的。
服务器将源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征,其中记忆权重特征是一个向量,该向量的维度是K。将记忆权重特征和匹配权重特征相加为集成权重特征,前述可知,匹配权重特征也是一个向量,该向量的维度是K。因此,相加后的集成权重特征也是一个K维的向量。
服务器确定记忆权重特征的具体过程如下:
源主题知识特征矩阵包括K个源主题知识特征,即源主题知识特征矩阵中的每一行就表示一个源主题知识特征。以一个源主题知识特征为例,说明如何确定一个注意力权重系数,按照相同的方式确定K个注意力权重系数,将这K个注意力权重系数组合为记忆权重特征。
服务器首先将源主题知识特征分别和N个目标词组的主题上下文特征进行拼接,得到源主题知识特征的N个拼接主题上下文特征,基于扩展知识模型中的模型参数以及源主题知识特征的N个拼接主题上下文特征确定源主题知识特征的注意力权重系数。确定注意力权重系数的过程可以用下述公式(4)进行描述:
Figure BDA0002651655390000111
其中,con(·)表示拼接函数,Sk表示源主题知识特征矩阵中第k个源主题知识特征,Ui表示第i个目标词组的主题上下文特征,Pk表示第k个注意力权重系数,即Pk是一个数值。
至此,服务器就确定了一个注意力权重系数,可以按照相同的方式,确定K个注意力权重系数,然后将K个注意力权重系数组合为记忆权重特征。
将匹配权重特征和记忆权重特征叠加为集成权重特征可以表示为下述公式(5):
Figure BDA0002651655390000112
其中,θk表示匹配权重特征中的第k个匹配权重系数,Pk表示记忆权重特征中的第k个注意力权重系数,
Figure BDA0002651655390000113
表示集成权重特征中的第k个集成特征权重系数,γ是参数权重。可以知道,K个集成特征权重系数可以组合为集成权重特征。
服务器将K维的集成权重特征和目标主题知识特征矩阵进行加权求和,得到目标文本的扩展主题特征(如上述图2对应实施例中的扩展主题特征20g)。其中,将K维的集成权重特征和目标主题知识特征矩阵进行加权求和,以得到扩展主题特征的具体过程是:
目标主题知识特征矩阵包括K个目标主题知识特征,即目标主题知识特征矩阵中的每一行就表示一个目标主题知识特征。K维的集成权重特征包括K个集成特征权重系数,每个目标主题知识特征和每个集成权重系数具有一一对应关系。服务器将K个集成特征权重系数与K个目标主题知识特征进行加权,得到K个待叠加知识特征。将这K个待叠加知识特征叠加为目标文本的扩展主题特征。
举例来说,现有3个目标主题知识特征,分别为[1,2,3]、[2,4,1]、[0,3,2],现有3维的集成权重特征为:[2.0,1.0,1.5],将这个3个目标主题知识特征和3维的集成权重特征加权为3个待叠加知识特征,分别为:[2,4,6]、[2,4,1]、[0,4.5,3],将这3个待叠加知识特征叠加为扩展主题知识特征:[4,12.5,10]。
本申请匹配到的扩展主题特征相对于之前的方案会更加的准确,因为对于多义词,如果利用单一的词向量表示会得到与多义词在句子中不相关的噪音知识,而利用主题上下文特征可以匹配到与多义词在句子中真实含义一致的扩展主题特征。
步骤S104,将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
具体的,至此,服务器就获取到了目标文本的扩展主题特征和每个目标词组的主题上下文特征。服务器可以将扩展主题特征和每个目标词组的主题上下文特征组合为目标文本特征。
其中,将扩展主题特征和每个目标词组的主题上下文特征组合为目标文本特征的方式有两种,其一为:
服务器可以将扩展主题特征和每个目标词组的主题上下文特征进行拼接,得到每个目标词组的目标文本特征,即得到的目标文本特征的数量是N个,且主题上下文特征和扩展主题特征拼接时,可以主题上下文特征在前,扩展主题特征在后;也可以扩展主题特征在前,主题上下文特征在后。
其二为:
服务器将N个目标词组的主题上下文特征压缩为文本上下文特征,文本上下文特征是一个向量,可以采用池化的方式进行压缩。换句话说,即是将一个特征矩阵压缩为一个特征向量。
服务器将扩展主题特征和文本上下文特征拼接为目标文本特征,且文本上下文特征和扩展主题特征拼接时,可以文本上下文特征在前,扩展主题特征在后;也可以扩展主题特征在前,文本上下文特征在后。
至此,服务器就确定了目标文本特征,后续可以基于目标文本特征进行文本类型的识别,具体过程如下:
本申请采用训练好的分类模型进行文本类型识别,分类模型包括卷积池化层和全连接层,将目标文本特征输入分类模型,分类模型中的卷积池化层对目标文本特征进行卷积池化处理,得到卷积特征。其中,卷积池化层包括一个卷积层和一个池化层,该卷积层包括3个卷积核,这3个卷积核的尺寸分别为1×d、2×d和3×d,其中,d是目标文本特征的特征维度。
分类模型中的全连接层对卷积特征进行全连接处理,得到目标文本与分类模型中多个业务文本类型之间的匹配概率,在多个匹配概率中将最大匹配概率对应的业务文本类型作为目标文本的业务文本类型(如上述图2对应实施例中的文本类型3)。
其中,业务文本类型可以是医疗场景下的意图类型,还可以是医疗场景下的主诉类型,还可以是评论情感分析场景下的情感类型。
请参见图4,图4是本申请实施例提供的一种分类模型的示意图,如图4所示,分类模型包括一个卷积层,一个池化层和一个全连接层。将目标文本特征输入分类模型,分类模型中的卷积层对应目标文本特征进行卷积处理,将卷积处理后的结果输入池化层,池化层对卷积处理后的结果进行池化处理,得到卷积特征,其中,池化处理可以是平均池化处理也可以是最大池化处理。将卷积特征输入全连接层,全连接层对卷积特征进行全连接处理,得到目标文本与分类模型中多个业务文本类型之间的匹配概率,在多个匹配概率中将最大匹配概率对应的业务文本类型作为目标文本的业务文本类型。
上述可知,本申请不需要人工参与,由终端设备自动提取文本中每个词组的主题上下文特征以及提取文本的扩展主题特征,进而确定文本的文本类型,避免由人工分类所带来的效率低下的情况,可以提高文本分类的效率,丰富文本分类的方式;再有,本申请匹配到的扩展主题特征相对于之前的方案会更加的准确,因为对于多义词,如果利用单一的词向量表示会匹配得到与多义词在句子中不相关的噪音知识,而利用主题上下文特征可以匹配到与多义词在句子中真实含义一致的扩展主题特征,进而提升文本分类的准确率。
请参见图5,其是本申请实施例提供的一种确定主题上下文特征的流程示意图,确定主题上下文特征包括如下步骤:
步骤S201,获取每个目标词组的词向量特征。
具体的,服务器调用词向量模型(wor2vec)将每个词组转换词向量特征,即每一个词组都表示为一个数值向量。
步骤S202,根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征。
具体的,服务器可以采用自注意力机制或者基于BERT模型确定每个目标词组的局部上下文特征。下面首先对采用自注意力机制确定局部上下文特征的方式进行说明:
针对N个目标词组的任一目标词组,根据N个目标词组的词向量特征确定该任一目标词组的局部上下文特征的流程为:服务器确定任一目标词组的词向量特征和N个目标词组的词向量特征之间的特征相似度(称为第一特征相似度),可以知道第一特征相似度的数量是N。其中,度量两个特征之间的相似度可以采用点积、拼接或者感知机等。服务器将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似,归一化处理处理后的N个标准第一特征相似度都处于0-1区间,且N个标准第一特征相似度之和等于1。服务器再将这N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到任一目标词组的局部上下文特征。
自注意力机制可以用下述公式(6)进行描述:
HT=Attention(Q,K,A)=ATT(Q,K)A (6)
其中,Q表示任一目标词组的词向量特征,K等于A,且K和A表示N个目标词组的N个词向量特征,从公式(6)可以看出,基于自注意力机制即是经过相似度计算后,将相似度权重与对应的词向量特征进行加权求和,得到一个目标词组的局部上下文特征。
举例来说,现有3个目标词组的词向量特征,分别为[1,2,3]、[2,4,1]、[0,3,2],现有3个标准第一特征相似度,分别为:0.2,0.2,0.6,将这个3个标准第一特征相似度和3个目标词组的词向量进行加权求和,得到局部上下文特征:[0.2×1+0.2×2+0.6×0=0.6,0.2×2+0.2×4+0.6×3=3,0.2×3+0.2×1+0.6×2=2],因此局部上下文特征即是:[0.6,3.0,2.0]。
服务器可以采用相同的方式确定N个目标词组中每个目标词组的局部上下文特征。
下面再对采用BERT模型确定局部上下文特征的方式进行说明:
服务器获取每个目标词组在目标文本中的词组位置特征,可以知道,获取的词组位置特征的数量也是N。例如目标文本中包括4个目标词组,第二个目标词组的词组位置特征可以是:[0,1,0,0]。
服务器获取每个目标词组所在语句在目标文本中的语句位置特征,可以知道,获取的语句位置特征的数量也是N。例如,目标词组A在目标文本的第三个语句中,且目标文本一共包括4个语句,那么目标词组A的语句位置特征可以是:[0,0,1,0]。
服务器将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征,可以知道,输入特征的数量也是N。将这N个输入特征输入训练好的BERT模型,BERT模型对这N个输入特征进行多注意力编码(Multi-head self-attention),得到每个目标词组的局部上下文特征。
其中BERT模型是一种先进的预训练模型,该模型在大规模数据集上训练完成后,可以进行对不同任务微调应用,或者获取其中的句子向量和词向量,作为补充特征。
在本申请中,可以将BERT模型的最后一层隐藏层输出的特征作为每个目标词组的局部上下文特征。
请参见图6,其是本申请实施例提供的一种BERT模型结构示意图,如图6所示,服务器获取每个词组的输入特征(E1,E2...),其中输入特征是由词向量特征、词组位置特征和语句位置特征组合得到。将所有词组的输入特征一并输入BERT模型,BERT模型的最后一个隐藏层输出每个词组的局部上下文特征。
步骤S203,根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征。
具体的,针对N个目标词组的任一目标词组,根据主题词组权重特征集合与任一目标词组的局部上下文特征确定该任一目标词组与K个文本主题的全局主题上下文特征的流程包括:
主题词组权重特征集合包括K个主题词组权重特征,如果把主题词组权重特征集合中看作是一个K*V的特征矩阵,该特征矩阵的每一行就是一个主题词组权重特征,每一个主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重,因此每个主题词组权重特征的维度是V。
服务器确定任一目标词组的局部上下文特征和每个主题词组权重特征之间的特征相似度(称为第二特征相似度),可以知道,第二特征相似度的数量是K。将这K个第二特征相似度进行归一化处理,得到K个标准第二特征相似,归一化处理处理后的K个标准第二特征相似度都处于0-1区间,且K个标准第二特征相似度之和等于1。
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到该任一目标词组与K个文本主题的全局主题上下文特征
确定全局主题上下文特征的过程可以用下述公式(7)表示:
Figure BDA0002651655390000161
其中,αik表示第i个目标词组与第k个主题词组权重特征之间的标准第二特征相似度,gi表示第i个目标词组的全局主题上下文特征。
步骤S204,将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
具体的,至此,服务器就获取了每个目标词组的局部上下文特征和每个目标词组的全局主题上下文特征,将每个目标词组的局部上下文特征和每个目标词组的全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
其中,确定主题上下文特征可以用下述公式(8)进行描述:
ci=li+gi (8)
其中,ci表示第i个目标词组的主题上下文特征,li表示第i个目标词组的局部上下文特征,gi表示第i个目标词组的全局主题上下文特征。
可选的,前述可知本申请涉及的模型包括神经主题模型、扩展知识模型以及分类模型,下面对上述3个模型的训练过程进行详细说明:
获取用于模型的文本(称为样本文本),该样本文本包括多个样本词组。服务器获取样本神经主题模型,该样本神经主题模型包括K个文本主题和V个词汇表词组之间的样本主题词组权重特征集合,可以将样本主题词组权重特征集合看作是一个行数是K列数是V的特征矩阵,初始情况下该特征矩阵的取值可以是随机数。
服务器根据样本主题词组权重特征集合确定每个样本词组的样本主题上下文特征,其中确定样本主题上下文特征和前述中确定目标词组的主题上下文特征的过程相同,此处就不再赘述。
服务器调用样本神经主题模型确定样本文本和K个文本主题之间的样本匹配权重特征,其中确定样本匹配权重特征和前述确定目标文本的匹配权重特征的过程相同,此处也不再赘述。
服务器将样本主题词组权重特征集合、样本匹配权重特征和多个样本词组的样本主题上下文特征输入样本扩展知识模型,样本扩展知识模型输出样本扩展主题特征,其中确定样本扩展主题特征和前述确定扩展主题特征的过程相同。
服务器将样本扩展主题特征和多个样本词组的多个样本主题上下文特征组合为样本文本特征,其中组合的方式可以参照前述组合目标文本特征的两种方式。
服务器将样本文本特征输入样本分类模型,样本分类模型确定与该样本文本特征对应的文本类型(称为样本文本类型),获取样本文本对应的文本类型标签,根据样本文本类型和样本类型标签确定分类误差。
服务器根据样本神经主题模型中的样本主题词组权重特征集合,将样本匹配权重特征进行重构,得到样本文本的样本词袋特征,获取样本文本的词袋特征标签,根据词袋特征标签和样本词袋特征确定重构误差。将分类误差和重构误差叠加为模型误差。
其中,模型误差的计算公式可以用下述公式(9)表示:
Figure BDA0002651655390000171
其中,Lloss表示模型误差,LNTM-R表示重构误差,LCLS表示分类误差(也是交叉熵损失函数),λ表示权重超参数,C表示正则化项,q(z)是标准正态先验,p(z|x)和p(x|z)分别是编码过程的概率和解码过程的概率。
基于模型误差训练样本神经主题模型、样本扩展知识模型和样本分类模型。由于样本主题词组权重特征集合是样本神经主题模型中的模型参数,因此训练样本神经主题模型过程中会一并训练样本主题词组权重特征集合。当训练次数达到次数阈值,或者训练前的模型参数和训练后的模型参数之间的差异量较小,可以将训练后的样本神经主题模型作为神经主题模型,将训练后的样本扩展知识模型作为扩展知识模型,将训练后的样本分类模型作为分类模型,将训练后的样本主题词组权重特征集合作为主题词组权重特征集合。
下述表1表示的是本申请与其他对比模型在四个不同数据集上的分类效果:
表1
Figure BDA0002651655390000181
其中,Acc表示准确率,F1表示精确率和召回率的调和均值。cs-TMN-self和cs-TMN-BERT是本申请所提出的方案,其中cs-TMN-self表示的是利用自注意力机制获取的局部上下文特征,cs-TMN-BERT表示的是利用BERT模型获取的局部上下文特征。对4个业界常用的数据集(SearchSnippets、StackOverflflow、Biomedical和Weibo)进行了训练和测试,发现相对于传统的短文分类模型,本文提出的方法在这4个数据集中的效果有明显的提升。相对于比较先进的方法TMN,本方案也在数据集StackOverflflow上有超过5%的提升,在数据集Biomedical和Weibo有2%到3%的效果提升。
请参见图7,图7是本申请实施例提供的一种文本处理方法的整体架构图,文本处理方法涉及5个模块,分别是神经主题模块、局部上下文表示模块、全局主题上下文表示模块、主题匹配模块以及分类模块。
其中,神经主题模块可以对应本申请中的神经主题模型,将目标文本转换为词袋特征x后,神经主题模块中的编码器确定根据公式(1)确定两个先验参数,确定先验参数后再根据公式(2)确定潜在变量z。神经主题模块中的解码器根据公式(3)对潜在变量z进行重构,得到目标文本与K个文本主题之间的匹配权重特征θ。神经主题模块中包括主题词组权重特征集合W。确定匹配权重特征θ的具体过程可以参见上述图3对应实施例中的步骤S103。
局部上下文表示模块是用于确定目标文本中每个目标词组的局部上下文特征,其中可以采用自注意力机制确定局部上下文特征,确定局部上下文特征的具体过程可以参见上述图5对应实施例中的步骤S202。
全局主题上下文表示模块是用于确定目标文本中每个目标词组的全局主题上下文特征,具体为:根据每个目标词组的局部上下文特征以及主题词组权重特征集合W可以确定每个目标词组的全局主题上下文特征。确定全局主题上下文特征的具体过程可以参见上述图5对应实施例中的步骤S203。将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组的主题上下文特征。
将主题词组权重特征集合W、每个目标词组的主题上下文特征以及匹配权重特征θ输入主题匹配模块,其中主题匹配模块可以对应本申请的中的扩展知识模型。主题匹配模块输出目标文本的扩展主题特征,其中确定扩展主题特征的具体过程可以参见上述图3对应实施例中的步骤S103。将扩展主题特征和每个目标词组的主题上下文特征组合为目标文本的目标文本特征。
分类模块可以对应本申请中的分类模型,将目标文本特征输入分类模块,分类模块输出目标文本和多个业务文本类型之间的匹配概率,在多个匹配概率中将最大匹配概率对应的业务文本类型作为目标文本所述的业务文本类型。
上述可知,本申请不需要人工参与,由终端设备自动提取文本中每个词组的主题上下文特征以及提取文本的扩展主题特征,进而确定文本的文本类型,避免由人工分类所带来的效率低下的情况,可以提高文本分类的效率,丰富文本分类的方式;再有,本申请匹配到的扩展主题特征相对于之前的方案会更加的准确,因为对于多义词,如果利用单一的词向量表示会匹配得到与多义词在句子中不相关的噪音知识,而利用主题上下文特征可以匹配到与多义词在句子中真实含义一致的扩展主题特征,进而提升文本分类的准确率;进一步地,本申请提出了多种确定每个词组的主题上下文特征,丰富确定主题上下文特征的方式。
进一步的,请参见图8,图8是本申请实施例提供的一种文本处理装置的结构示意图。如图8所示,文本处理装置1可以应用于上述图3-图7对应实施例中的终端设备。文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
文本处理装置1可以包括:获取模块11、第一确定模块12、第一识别模块13、第二确定模块14、组合模块15以及第二识别模块16。
获取模块11,用于获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
第一确定模块12,用于根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
第一识别模块13,用于识别所述目标文本与所述K个文本主题之间的匹配权重特征;
第二确定模块14,用于根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
组合模块15,用于将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征;
第二识别模块16,用于识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
第一识别模块13,具体用于:
根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;
调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;
调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。
组合模块15,具体用于:
将所述扩展主题特征分别和每个目标词组的主题上下文特征进行拼接,得到每个目标词组的目标文本特征;或者,
将所述N个目标词组的主题上下文特征压缩为文本上下文特征,将所述扩展主题特征和所述文本上下文特征拼接为所述目标文本特征。
在一个实施例中,文本处理装置1还包括:训练模块17。
训练模块17,用于获取样本文本,所述样本文本包括多个样本词组,根据样本神经主题模型中的K个文本主题和V个词汇表词组之间的样本主题词组权重特征集合,确定每个样本词组的样本主题上下文特征,获取所述样本文本和K个文本主题之间的样本匹配权重特征,基于样本扩展知识模型、所述样本主题词组权重特征集合、所述样本匹配权重特征和多个样本主题上下文特征确定样本扩展主题特征,将所述样本扩展主题特征和所述多个样本主题上下文特征组合为样本文本特征,调用样本分类模型确定与所述样本文本特征对应的样本文本类型,根据所述样本文本类型确定分类误差,调用所述样本神经主题模型,将所述样本匹配权重特征进行重构处理,得到样本词袋特征,根据所述样本词袋特征确定重构误差,根据所述重构误差和所述分类误差训练所述样本神经主题模型、所述样本扩展知识模型和所述样本分类模型,得到神经主题模型、扩展知识模型和分类模型。
其中,获取模块11、第一确定模块12、第一识别模块13、第二确定模块14、组合模块15以及第二识别模块16的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,训练模块17的具体功能实现方式可以参见上述图5对应实施例中的步骤S204这里不再进行赘述。
在参见图8,第一确定模块12可以包括:获取单元121、第一确定单元122和第二确定单元123。
获取单元121,用于获取每个目标词组的词向量特征;
第一确定单元122,用于根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;
第二确定单元123,用于根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;
所述获取单元121,还用于将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
在一个实施例中,针对N个目标词组中的任一目标词组,第一确定单元122在用于根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征时,具体用于:
分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;
将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;
将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。
在一个实施例中,第一确定单元122在用于根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征时,具体用于:
获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;
将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;
对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。
在一个实施例中,所述主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;
针对N个目标词组中的任一目标词组,第二确定单元123在用于根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征时,具体用于:
确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;
将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。
其中,获取单元121、第一确定单元122和第二确定单元123的具体功能实现方式可以参见上述图5对应实施例中的步骤S201-步骤S204这里不再进行赘述。
再参见图9,第二确定模块14可以可以包括:调用单元141、匹配单元142以及加权单元143。
调用单元141,用于调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵,调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
匹配单元142,用于将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
所述调用单元141,还用于将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
加权单元143,用于将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征。
在一个实施例中,所述源主题知识特征矩阵包括K个源主题知识特征;
所述匹配单元142,具体用于:
将每个源主题知识特征分别和N个目标词组的主题上下文特征进行拼接,得到每个文本主题的N个拼接主题上下文特征;
根据每个文本主题的N个拼接主题上下文特征确定每个文本主题的注意力权重系数,将K个注意力权重系数组合为所述记忆权重特征。
在一个实施例中,所述目标主题知识特征矩阵包括K个目标主题知识特征,所述集成权重特征包括K个集成特征权重系数;
所述加权单元143,具体用于:
将K个集成特征权重系数和K个目标主题知识特征进行加权处理,得到K个待叠加知识特征;
将K个待叠加知识特征叠加为所述目标文本的扩展主题特征。
其中,调用单元141、匹配单元142以及加权单元143的具体功能实现方式可以参见上述图5对应实施例中的步骤S203,这里不再进行赘述。
进一步地,请参见图9,其是本申请实施例提供的一种计算机设备的结构示意图。上述图3-图7对应实施例中的服务器可以为计算机设备1000,如图9所示,计算机设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图9所示的计算机设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
识别所述目标文本与所述K个文本主题之间的匹配权重特征,根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
在一个实施例中,处理器1004在执行根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征时,具体执行以下步骤:
获取每个目标词组的词向量特征;
根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;
根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;
将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
在一个实施例中,针对N个目标词组中的任一目标词组,处理器1004在执行根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征时,具体执行以下步骤:
分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;
将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;
将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。
在一个实施例中,处理器1004在执行根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征时,具体执行以下步骤:
获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;
将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;
对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。
在一个实施例中,主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;
针对N个目标词组中的任一目标词组,处理器1004在执行根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征时,具体执行以下步骤:
确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;
将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。
在一个实施例中,处理器1004在执行识别所述目标文本与所述K个文本主题之间的匹配权重特征时,具体执行以下步骤:
根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;
调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;
调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。
在一个实施例中,处理器1004在执行根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征时,具体执行以下步骤:
调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵;
调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征。
在一个实施例中,源主题知识特征矩阵包括K个源主题知识特征;
处理器1004在执行将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征时,具体执行以下步骤:
将每个源主题知识特征分别和N个目标词组的主题上下文特征进行拼接,得到每个文本主题的N个拼接主题上下文特征;
根据每个文本主题的N个拼接主题上下文特征确定每个文本主题的注意力权重系数,将K个注意力权重系数组合为所述记忆权重特征。
在一个实施例中,目标主题知识特征矩阵包括K个目标主题知识特征,所述集成权重特征包括K个集成特征权重系数;
处理器1004在执行将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征时,具体执行以下步骤:
将K个集成特征权重系数和K个目标主题知识特征进行加权处理,得到K个待叠加知识特征;
将K个待叠加知识特征叠加为所述目标文本的扩展主题特征。
在一个实施例中,处理器1004在执行将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征时,具体执行以下步骤:
将所述扩展主题特征分别和每个目标词组的主题上下文特征进行拼接,得到每个目标词组的目标文本特征;或者,
将所述N个目标词组的主题上下文特征压缩为文本上下文特征,将所述扩展主题特征和所述文本上下文特征拼接为所述目标文本特征。
在一个实施例中,处理器1004在执行识别所述目标文本特征,得到所述目标文本所属的业务文本类型时,具体执行以下步骤:
调用分类模型对所述目标文本特征进行卷积池化处理,得到卷积特征;
调用所述分类模型将所述卷积特征进行全连接处理,得到所述目标文本与多个业务文本类型之间的匹配概率;
在多个匹配概率中将最大匹配概率对应的业务文本类型作为所述目标文本所述的业务文本类型。
在一个实施例中,处理器1004还执行以下步骤:
获取样本文本,所述样本文本包括多个样本词组;
根据样本神经主题模型中的K个文本主题和V个词汇表词组之间的样本主题词组权重特征集合,确定每个样本词组的样本主题上下文特征;
获取所述样本文本和K个文本主题之间的样本匹配权重特征;
基于样本扩展知识模型、所述样本主题词组权重特征集合、所述样本匹配权重特征和多个样本主题上下文特征确定样本扩展主题特征;
将所述样本扩展主题特征和所述多个样本主题上下文特征组合为样本文本特征;
调用样本分类模型确定与所述样本文本特征对应的样本文本类型,根据所述样本文本类型确定分类误差;
调用所述样本神经主题模型,将所述样本匹配权重特征进行重构处理,得到样本词袋特征,根据所述样本词袋特征确定重构误差;
根据所述重构误差和所述分类误差训练所述样本神经主题模型、所述样本扩展知识模型和所述样本分类模型,得到神经主题模型、扩展知识模型和分类模型。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3到图7所对应实施例中对文本处理方法的描述,也可执行前文图8所对应实施例中对文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3到图7所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3到图7所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
识别所述目标文本与所述K个文本主题之间的匹配权重特征,调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵;
调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征;
将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。
2.根据权利要求1所述的方法,其特征在于,所述根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,包括:
获取每个目标词组的词向量特征;
根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;
根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;
将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。
3.根据权利要求2所述的方法,其特征在于,针对N个目标词组中的任一目标词组,根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征的流程包括:
分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;
将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;
将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。
4.根据权利要求2所述的方法,其特征在于,所述根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征,包括:
获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;
将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;
对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。
5.根据权利要求2所述的方法,其特征在于,所述主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;
针对N个目标词组中的任一目标词组,根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征的流程包括:
确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;
将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;
将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。
6.根据权利要求1所述的方法,其特征在于,所述识别所述目标文本与所述K个文本主题之间的匹配权重特征,包括:
根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;
调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;
调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。
7.根据权利要求1所述的方法,其特征在于,所述源主题知识特征矩阵包括K个源主题知识特征;
所述将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征,包括:
将每个源主题知识特征分别和N个目标词组的主题上下文特征进行拼接,得到每个文本主题的N个拼接主题上下文特征;
根据每个文本主题的N个拼接主题上下文特征确定每个文本主题的注意力权重系数,将K个注意力权重系数组合为所述记忆权重特征。
8.根据权利要求7所述的方法,其特征在于,所述目标主题知识特征矩阵包括K个目标主题知识特征,所述集成权重特征包括K个集成特征权重系数;
所述将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征,包括:
将K个集成特征权重系数和K个目标主题知识特征进行加权处理,得到K个待叠加知识特征;
将K个待叠加知识特征叠加为所述目标文本的扩展主题特征。
9.根据权利要求1所述的方法,其特征在于,所述将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,包括:
将所述扩展主题特征分别和每个目标词组的主题上下文特征进行拼接,得到每个目标词组的目标文本特征;或者,
将所述N个目标词组的主题上下文特征压缩为文本上下文特征,将所述扩展主题特征和所述文本上下文特征拼接为所述目标文本特征。
10.根据权利要求1所述的方法,其特征在于,所述识别所述目标文本特征,得到所述目标文本所属的业务文本类型,包括:
调用分类模型对所述目标文本特征进行卷积池化处理,得到卷积特征;
调用所述分类模型将所述卷积特征进行全连接处理,得到所述目标文本与多个业务文本类型之间的匹配概率;
在多个匹配概率中将最大匹配概率对应的业务文本类型作为所述目标文本所述的业务文本类型。
11.根据权利要求1-10任一项所述的方法,其特征在于,还包括:
获取样本文本,所述样本文本包括多个样本词组;
根据样本神经主题模型中的K个文本主题和V个词汇表词组之间的样本主题词组权重特征集合,确定每个样本词组的样本主题上下文特征;
获取所述样本文本和K个文本主题之间的样本匹配权重特征;
基于样本扩展知识模型、所述样本主题词组权重特征集合、所述样本匹配权重特征和多个样本主题上下文特征确定样本扩展主题特征;
将所述样本扩展主题特征和所述多个样本主题上下文特征组合为样本文本特征;
调用样本分类模型确定与所述样本文本特征对应的样本文本类型,根据所述样本文本类型确定分类误差;
调用所述样本神经主题模型,将所述样本匹配权重特征进行重构处理,得到样本词袋特征,根据所述样本词袋特征确定重构误差;
根据所述重构误差和所述分类误差训练所述样本神经主题模型、所述样本扩展知识模型和所述样本分类模型,得到神经主题模型、扩展知识模型和分类模型。
12.一种文本处理装置,其特征在于,包括:
获取模块,用于获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;
第一确定模块,用于根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;
第一识别模块,用于识别所述目标文本与所述K个文本主题之间的匹配权重特征;
第二确定模块,用于根据所述主题词组权重特征集合、所述匹配权重特征和每个目标词组的主题上下文特征确定所述目标文本的扩展主题特征;
组合模块,用于将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征;
第二识别模块,用于识别所述目标文本特征,得到所述目标文本所属的业务文本类型;
其中,所述第二确定模块包括:
调用单元,用于调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵,调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;
匹配单元,用于将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;
所述调用单元,还用于将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;
加权单元,用于将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征。
13.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-11中任一项所述方法的步骤。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-11任一项所述的方法。
CN202010872702.4A 2020-08-26 2020-08-26 文本处理方法、装置、计算机设备以及存储介质 Active CN112035662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872702.4A CN112035662B (zh) 2020-08-26 2020-08-26 文本处理方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872702.4A CN112035662B (zh) 2020-08-26 2020-08-26 文本处理方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112035662A CN112035662A (zh) 2020-12-04
CN112035662B true CN112035662B (zh) 2021-06-08

Family

ID=73580029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872702.4A Active CN112035662B (zh) 2020-08-26 2020-08-26 文本处理方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112035662B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342940B (zh) * 2021-06-24 2023-12-08 中国平安人寿保险股份有限公司 文本匹配分析方法、装置、电子设备及存储介质
CN114565928A (zh) * 2022-03-01 2022-05-31 北京字节跳动网络技术有限公司 文本识别方法、装置、设备及存储介质
CN118016227A (zh) * 2024-04-10 2024-05-10 天津医科大学第二医院 电子病历识别与检索***及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier
CN101794311B (zh) * 2010-03-05 2012-06-13 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102567464B (zh) * 2011-11-29 2015-08-05 西安交通大学 基于扩展主题图的知识资源组织方法

Also Published As

Publication number Publication date
CN112035662A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112035662B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN112883149A (zh) 一种自然语言处理方法以及装置
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN116543768A (zh) 模型的训练方法、语音识别方法和装置、设备及存储介质
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN115730590A (zh) 意图识别方法以及相关设备
CN115510232A (zh) 文本语句分类方法和分类装置、电子设备及存储介质
CN111241843B (zh) 基于复合神经网络的语义关系推断***和方法
CN113254620B (zh) 基于图神经网络的应答方法、装置、设备及存储介质
CN113486863A (zh) 一种表情识别方法及装置
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN116932686A (zh) 主题挖掘方法、装置、电子设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN115169368B (zh) 基于多文档的机器阅读理解方法及装置
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN116844573A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN114974219A (zh) 语音识别方法、语音识别装置、电子设备及存储介质
CN115995225A (zh) 模型训练方法和装置、语音合成方法、设备及存储介质
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant