CN116028627B

CN116028627B - 新闻分类方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN116028627B
Application number: CN202310104572.3A
Authority: CN
Inventors: 邹游; 刘斌; 胡航; 张睿
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-06-13
Anticipated expiration: 2043-02-13
Also published as: CN116028627A

Abstract

本公开实施例涉及文本分类技术领域，提供了一种新闻分类方法及装置、电子设备、计算机可读存储介质，新闻分类方法包括：接收用户输入的新闻内容；将新闻内容放入预设的新闻分类模板中，得到新闻内容对应的新闻分类实例；按照预设的映射方式，将新闻分类实例映射至预设的嵌入向量，得到新闻内容对应的映射向量；将映射向量输入训练好的新闻分类模型中，得到新闻内容对应的新闻类别。本公开实施例可以在数据量不足的小样本场景和新闻类别不均衡的场景中对新闻内容对应的新闻类型进行有效识别，提高新闻分类的准确率。

Description

新闻分类方法及装置、电子设备、计算机可读存储介质

技术领域

本公开涉及文本分类技术领域，特别涉及一种新闻分类方法及装置、电子设备、计算机可读存储介质。

背景技术

现有技术中，新闻分类往往存在数据量不足的小样本场景，然而，这一场景通常无法支撑各新闻类别的有效识别。同时，在新闻分类可能面临的诸多场景中，还会存在严重的样本不均衡问题，比如，有的新闻类别样本数量偏少，而有的新闻类别样本数量偏多，这一问题会使得新闻分类的准确率较低，严重影响新闻分类的最终效果。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种新闻分类方法及装置、电子设备、计算机可读存储介质。

本公开的一个方面，提供了一种新闻分类方法，所述新闻分类方法包括：

接收用户输入的新闻内容；

将所述新闻内容放入预设的新闻分类模板中，得到所述新闻内容对应的新闻分类实例；

按照预设的映射方式，将所述新闻分类实例映射至预设的嵌入向量，得到所述新闻内容对应的映射向量；

将所述映射向量输入训练好的新闻分类模型中，得到所述新闻内容对应的新闻类别。

可选的，所述训练好的新闻分类模型根据以下步骤训练得到：

采用随机掩盖的方式对基于RoFormer的bert预训练模型进行训练，得到第一分类模型；

通过对比学习对所述第一分类模型进行训练，得到第二分类模型；

采用自学习prompt方法对所述第二分类模型进行训练，得到所述训练好的新闻分类模型。

可选的，所述通过对比学习对所述第一分类模型进行训练，得到第二分类模型，包括：

基于SimCSE的训练方式，采用随机失活方式生成多批正样本，并分别将各批所述正样本所在的同一批里的其他样本作为负样本；

采用动量编码器加队列的方式，分别存储每批所述正样本和所述负样本对应的样本特征表示；

利用所述样本特征表示对所述第一分类模型进行训练，得到所述第二分类模型。

可选的，所述采用自学习prompt方法对所述第二分类模型进行训练，得到所述训练好的新闻分类模型，包括：

将训练样本中的新闻文本映射为第一训练嵌入向量，所述第一训练嵌入向量表示为

，其中，/>

分别表示第0,1,…,n个训练样本中的新闻文本，e表示嵌入函数且/>

，M表示所述第一分类模型；

定义新闻分类训练模板

，其中，/>

表示新闻文本，y表示x对应的新闻类别，/>

表示新闻分类训练模板T中针对/>

的第i个提示词，

表示新闻分类训练模板T中针对/>

的第m个提示词，i=0,1,…,n；

将所述新闻分类训练模板

通过bert预训练模型的嵌入层映射为/>

，再将/>

映射为

，其中，/>

表示第i个通过训练学习到的参数；

利用

对所述第二分类模型进行训练，得到所述训练好的新闻分类模型。

可选的，所述利用

对所述第二分类模型进行训练，得到所述训练好的新闻分类模型，包括：

定义损失函数

，且/>

，其中，/>

表示第二分类模型的输出；

依次利用双向长短时记忆网络、全连接网络、Relu激活函数对

进行编码；

利用编码后的

和所述损失函数/>

，对所述第二分类模型进行训练，得到所述训练好的新闻分类模型。

可选的，所述编码后的

表示为：

其中，LSTM表示长短时记忆网络，MLP表示全连接网络，Relu表示Relu激活函数，

表示第二分类模型正向输出，/>

表示第二分类模型反向输出，/>

表示/>

，/>

表示

。

可选的，所述预设的新闻分类模板基于所述新闻分类训练模板得到，所述预设的嵌入向量为

。/>

本公开的另一个方面，提供了一种新闻分类装置，所述新闻分类装置包括：

接收模块，用于接收用户输入的新闻内容；

实例化模块，用于将所述新闻内容放入预设的新闻分类模板中，得到所述新闻内容对应的新闻分类实例；

映射模块，用于按照预设的映射方式，将所述新闻分类实例映射至预设的嵌入向量，得到所述新闻内容对应的映射向量；

分类模块，用于将所述映射向量输入训练好的新闻分类模型中，得到所述新闻内容对应的新闻类别。

可选的，所述新闻分类装置还包括：

训练模块，用于采用随机掩盖的方式对基于RoFormer的bert预训练模型进行训练，得到第一分类模型；通过对比学习对所述第一分类模型进行训练，得到第二分类模型；采用自学习prompt方法对所述第二分类模型进行训练，得到所述训练好的新闻分类模型。

本公开的另一个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文记载的新闻分类方法。

本公开的另一个方面，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现前文记载的新闻分类方法。

本公开实施方式相对于现有技术而言，通过接收用户输入的新闻内容，将新闻内容放入预设的新闻分类模板中，得到新闻内容对应的新闻分类实例，按照预设的映射方式，将新闻分类实例映射至预设的嵌入向量，得到新闻内容对应的映射向量，将映射向量输入训练好的新闻分类模型中，得到新闻内容对应的新闻类别，可以在数据量不足的小样本场景和新闻类别不均衡的场景中对新闻内容对应的新闻类型进行有效识别，提高新闻分类的准确率。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种新闻分类方法的流程图；

图2为本公开另一实施方式提供的新闻分类模型的训练流程图；

图3为本公开另一实施方式提供的一种新闻分类装置的结构示意图；

图4为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种新闻分类方法，其流程如图1所示，包括：

步骤S110，接收用户输入的新闻内容。

步骤S120，将新闻内容放入预设的新闻分类模板中，得到新闻内容对应的新闻分类实例。

步骤S130，按照预设的映射方式，将新闻分类实例映射至预设的嵌入向量，得到新闻内容对应的映射向量。

步骤S140，将映射向量输入训练好的新闻分类模型中，得到新闻内容对应的新闻类别。

具体的，这里的新闻内容指的是待分类的新闻文本。从反映的社会生活的内容方面来说，新闻内容可以分为政治新闻、经济新闻、法律新闻、军事新闻、科技新闻、文教新闻、体育新闻、社会新闻等类别。当然，用户输入的新闻内容也可以是其他类别，本实施方式对此并不限制。

预设的新闻分类模板以及预设的嵌入向量均可以基于训练好的新闻分类模型建立，以使用户输入的新闻内容能够符合该新闻分类模型的输入要求。

示例性的，如图2所示，训练好的新闻分类模型根据以下步骤训练得到：

步骤S210，采用随机掩盖的方式对基于RoFormer的bert预训练模型进行训练，得到第一分类模型。

具体的，基于RoFormer的bert预训练模型可以是追一科技有限公司发布的基于RoFormer的中文bert预训练模型。通过采用与bert模型的预训练过程类似的随机掩盖即随机mask的方式对基于RoFormer的中文bert预训练模型进行训练，可以帮助模型更适应任务，同时为后续的提示学习做准备。

步骤S220，通过对比学习对第一分类模型进行训练，得到第二分类模型。

具体的，为了进一步提升基于bert预训练模型得到的第一分类模型的特征表示能力，本步骤采用对比学习对第一分类模型进行训练，以使得到的第二分类模型具有更好的特征表示能力。

示例性的，步骤S220包括：基于SimCSE的训练方式，采用随机失活（dropout）方式生成多批（batch）正样本，并分别将各批正样本所在的同一批里的其他样本作为负样本；采用动量对比度（ moco）提出的动量编码器加队列的方式，分别存储每批正样本和负样本对应的样本特征表示，以扩大负样本；利用样本特征表示对第一分类模型进行训练，得到第二分类模型。

步骤S230，采用自学习prompt方法对第二分类模型进行训练，得到训练好的新闻分类模型。

示例性的，步骤S230包括：

将步骤S210得到的第一分类模型记为M。将训练样本中的新闻文本经过最大长度的截断之后，记为

，其中，/>

表示第0,1,…,n个训练样本中的新闻文本集合，/>

分别表示第0,1,…,n个训练样本中的新闻文本。

将训练样本中的新闻文本映射为第一训练嵌入（embedding）向量，第一训练嵌入向量表示为

，其中，e表示嵌入层的嵌入函数且/>

。

将bert词表记为V，定义新闻分类训练模板并表示为

，其中，/>

表示模型的输入即新闻文本集合/>

，y表示x对应的新闻类别即模型的输出目标，/>

表示新闻分类训练模板T中针对/>

的第i个提示词，/>

表示新闻分类训练模板T中针对/>

的第m个提示词，i=0,1,…,n。需要说明的是，本步骤中的模板并不是采用手工模板进行定义，而是将模板中的令牌（token）设计为bert词表即V中的预留字段

，并设置模板中的各个令牌均为可优化，从而使模型能够自己去学习最合适的模板。例如，/>

可设计为/>

的形式，/>

可设计为/>

的形式，其中，

分别表示预留字段0、预留字段1、预留字段2、预留字段3、预留字段4、预留字段5，/>

表示被掩盖的令牌。

将新闻分类训练模板

通过bert预训练模型的嵌入层映射为/>

，将/>

与/>

分别视为一个伪字符，再将

映射为/>

，其中，/>

表示第i个通过训练学习到的参数。通过此步骤，可以得到超越手工模板的更好的连续性表示方式。

利用

对第二分类模型进行训练，得到训练好的新闻分类模型。

示例性的，利用

对第二分类模型进行训练，得到训练好的新闻分类模型，包括：

定义损失函数

，且/>

，其中，/>

表示第二分类模型的输出即/>

，M表示第一分类模型，/>

即为第一分类模型的输出。/>

依次利用双向长短时记忆（Bidirectional Long ShortTerm Memory，Bi-LSTM）网络、全连接网络、Relu激活函数对

进行编码。由于

实际上应该是一种连续的表示，因此，为了更进一步提升/>

表示，本步骤依次使用Bi-LSTM网络、两层全连接网络、Relu激活函数对/>

进行编码，得到更优的/>

表示。

利用编码后的

和损失函数/>

，对第二分类模型进行训练，得到训练好的新闻分类模型。

示例性的，编码后的

表示为：

表示第二分类模型正向输出，/>

表示第二分类模型反向输出，/>

表示/>

，/>

表示

。

通过上述步骤训练得到的新闻分类模型，可以在数据量不足的小样本场景和新闻类别不均衡的场景中对新闻内容对应的新闻类型进行进一步的有效识别，从而进一步提高新闻分类的准确率。

示例性的，在得到编码后的

之后，预设的新闻分类模板可以基于新闻分类训练模板/>

得到，将新闻分类训练模板/>

中的y替换为[MASK]字符，即可得到预设的新闻分类模板/>

。

预设的嵌入向量为

。将用户输入的新闻内容作为x放入预设的新闻分类模板/>

中，将放入新闻内容后的

映射至预设的嵌入向量即/>

，得到新闻内容对应的映射向量，将该映射向量输入训练好的新闻分类模型中，输出的[MASK]字符位置处的内容即为用户输入的新闻内容对应的新闻类别。

本公开的另一个实施方式涉及一种新闻分类装置，如图3所示，包括：

接收模块301，用于接收用户输入的新闻内容。

实例化模块302，用于将新闻内容放入预设的新闻分类模板中，得到新闻内容对应的新闻分类实例。

映射模块303，用于按照预设的映射方式，将新闻分类实例映射至预设的嵌入向量，得到新闻内容对应的映射向量。

分类模块304，用于将映射向量输入训练好的新闻分类模型中，得到新闻内容对应的新闻类别。

示例性的，新闻分类装置还包括：

训练模块，用于采用随机掩盖的方式对基于RoFormer的bert预训练模型进行训练，得到第一分类模型；通过对比学习对第一分类模型进行训练，得到第二分类模型；采用自学习prompt方法对第二分类模型进行训练，得到训练好的新闻分类模型。

利用训练模块训练得到的新闻分类模型，可以在数据量不足的小样本场景和新闻类别不均衡的场景中对新闻内容对应的新闻类型进行进一步的有效识别，从而进一步提高新闻分类的准确率。

本公开实施方式提供的新闻分类装置的具体实现方法，可以参见本公开实施方式提供的新闻分类方法所述，此处不再赘述。

本公开实施方式相对于现有技术而言，通过接收模块接收用户输入的新闻内容，通过实例化模块将新闻内容放入预设的新闻分类模板中，得到新闻内容对应的新闻分类实例，通过映射模块按照预设的映射方式，将新闻分类实例映射至预设的嵌入向量，得到新闻内容对应的映射向量，通过分类模块将映射向量输入训练好的新闻分类模型中，得到新闻内容对应的新闻类别，可以在数据量不足的小样本场景和新闻类别不均衡的场景中对新闻内容对应的新闻类型进行有效识别，提高新闻分类的准确率。

本公开的另一个实施方式涉及一种电子设备，如图4所示，包括：

至少一个处理器401；以及，

与至少一个处理器401通信连接的存储器402；其中，

存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述实施方式所述的新闻分类方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式所述的新闻分类方法。

即，本领域技术人员可以理解，实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。