CN116483990A

CN116483990A - 一种基于大数据的互联网新闻内容自动生成方法

Info

Publication number: CN116483990A
Application number: CN202310448620.0A
Authority: CN
Inventors: 王进; 陈浩如; 缪玉婷; 母雪豪; 汤正宗; 贺小龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-25

Abstract

本发明属于文本生成领域，具体涉及一种基于大数据的互联网新闻内容自动生成方法，包括：获取新闻文本数据；对新闻文本数据进行清洗；将清洗后的新闻文本数据划分为无标签文本和有标签文本；将无标签文本数据输入到基于Transformer的大规模模型中进行预训练，将有标签文本输入到训练好的大规模模型中进行参数微调处理，得到完善的新闻文本内容生成模型；获取新闻关键词，将新闻关键词输入到新闻文本内容生成模型中，并采用动态规划的文本生成搜索策略得到生成的新闻播报内容；本发明采用三种针对挖掘新闻关键词与文本原文之间关系的预训练任务，解决了新闻文本生成从简单关键词中提取有效信息并扩写复杂且完整的新闻内容的困难。

Description

一种基于大数据的互联网新闻内容自动生成方法

技术领域

本发明属于文本生成领域，具体涉及一种基于大数据的互联网新闻内容自动生成方法。

背景技术

随着互联网的不断发展和普及，人们获取新闻的方式也发生了巨大变化。传统媒体的纸质报纸和电视新闻已经逐渐被互联网新闻所取代，而随着移动互联网和社交媒体的兴起，人们对新闻内容的需求也越来越迫切。然而，由于新闻内容的复杂性和时效性，传统的新闻编辑方式已经无法满足人们的需求。人工编辑需要大量的时间和精力来处理新闻事件的各个方面，并且无法及时地跟踪和处理大量的信息。因此，人工智能技术的应用在新闻编辑中变得越来越重要。

基于人工智能的互联网新闻内容自动生成方法可以通过自然语言处理和机器学习技术，自动地从各种来源收集和处理信息，并生成符合读者需求和新闻风格的新闻内容。这种方法可以大大提高新闻编辑的效率和准确性，并且可以满足人们对新闻内容时效性和多样性的需求，是互联网新闻编辑的重要技术手段之一。

对于新闻文本生成来说,传统的方法主要针对文本生成模型的两方面讨论，第一方面是模型训练部分，传统方法多半采用大规模预训练模型，模型框架有所不同，但预训练任务基本都为MLM(Mask Language Model)、DAE(Denoising AutoEncode)等任务，基本原理均为掩盖、删除或添加原文本中的词汇级Token，但这样的生成模型不适用于根据新闻关键词生成新闻内容这一文本扩写任务；第二方面是文本搜索解码方面，传统方法多半采用贪心搜索或是集束搜索，这种方法可以在较短运行时间内得到一个合理性偏高的解，但由于新闻播报的特殊性，这类方法容易出现事实一致性错误，导致新闻失去真实性。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于大数据的互联网新闻内容自动生成方法，该方法包括：获取新闻文本数据；对新闻文本数据进行清洗；将清洗后的新闻文本数据划分为无标签文本和有标签文本；将无标签文本数据输入到基于Transformer的大规模模型中进行预训练，将有标签文本输入到训练好的大规模模型中进行参数微调处理，得到完善的新闻文本内容生成模型；获取新闻关键词，将新闻关键词输入到新闻文本内容生成模型中，并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。

本发明的有益效果：

本发明采用三种针对挖掘新闻关键词与文本原文之间关系的预训练任务，解决了新闻文本生成从简单关键词中提取有效信息并扩写复杂且完整的新闻内容的困难，通过TCR、TCM预训练任务充分挖掘了新闻关键词与文本之间的关系，同时也学习到了新闻文本的人工编写习惯信息；对于新闻文本中的人工语法、语义、常用词、惯用措辞等信息，本发明通过提出MSP任务来学习到了这些信息；同时，针对于传统新闻文本生成方法中的事实一致性错误，本发明提出了基于动态规划的文本搜索解码策略，大大降低了新闻文本生成中的事实一致性错误，提高了生成文本的真实性、时效性。

附图说明

图1为本发明的整体流程图；

图2为本发明的三种预训练任务的示例图；

图3为本发明的基于动态规划的文本搜索解码策略的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于大数据的互联网新闻内容自动生成方法，如图1所示，该方法包括：获取新闻文本数据；对新闻文本数据进行清洗；将清洗后的新闻文本数据划分为无标签文本和有标签文本；将无标签文本数据输入到基于Transformer的大规模模型中进行预训练，将有标签文本输入到训练好的大规模模型中进行参数微调处理，得到完善的新闻文本内容生成模型；获取新闻关键词，将新闻关键词输入到新闻文本内容生成模型中，并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。

在本实施例中，对新闻文本生成模型进行训练并对文本进行搜索解码的过程包括：

S1：获取新闻文本数据和对应新闻关键词；将文本数据进行非法词语清洗及噪声数据清洗，划分出无标签数据集和有标签数据集，将有标签数据集分为训练集与测试集，根据语料数据得到无标签文本的TopK条关键词、关键句。

S2：将无标签数据集送入基于Transformer的大规模模型中，进行MSP、TCR、TCM三种预训练任务，通过合理分配三种预训练任务的loss权重，使其loss比例达到1:1:1，得到在新闻文本领域预训练后的预训练模型。

S3：将有标签数据送入预训练后的Transformer模型进行模型微调。

S4：将测试数据送入微调完的Transformer模型，再通过基于动态规划的文本生成搜索策略，然后经过后处理得到新闻文本生成内容。

如图2所示，进行MSP(Mask Sentence Predicition/句子掩码预测)任务的过程为：

步骤1:将无标签与有标签文本数据送入Word2Vector模型中，训练出新闻文本领域的词向量模型；

步骤2:将无标签文本语料送入Word2Vector模型中，得到每个样本的段落词向量矩W，取平均后得到样本段落向量C；

步骤3:将无标签文本语料按照标准标点符号分割，得到每个样本的句子集S，将每个句子送入Word2Vector模型中，得到的词向量平均为句子向量Vector_S，根据余弦相似度得出与原文本相似度最高的K条互不相同的句子，计算公式为：

其中，Sentence表示选中的句子，Rank_topK表示将输出结果排序后得到相似度最高的K条句子，Vector_Si表示第i个句子集得到的句子向量，C表示原文本。

步骤4:将TopK条句子标记为[MASK]，设TopK条句子分别为Sentence₁,....Sentence_k，则将该条训练样本的标签打标为[Sentence₁,[SEP],Sentence₂,[SEP],...[SEP],Sentence_k]，最后将标签与经过MASK后的训练文本送入tokenizer进行词向量嵌入层编码后分别送入Transformer的编码层和解码层中。

步骤5:由图2中的MSP任务具体输入可知输入编码层的部分为A_C_E，输入Decoder的部分为A B C，其中，每个Token都代表了一句话。然后在步骤4的训练过程中得到模型针对每一个标签Token的分布概率，模型针对词表进行目标词概率预测，故将损失函数定义为每个Token的交叉熵损失，同时针对K条关键句子的句首Token在计算损失函数时增加权重，设权重矩阵W，则损失函数公式为：

其中，N表示词表长度，y_1c表示符号函数(0或1)，如果样本1的真实类别等于c取1，否则取0；W表示根据其是否为句首Token增加的损失权重，p_1c表示样本1属于类别c的预测概率，Sentence_i表示第i条句子。

由图2可知，从解码层中输出了原文章AB C的下个Sentence Token：D。

如图2所示，进行TCR(Token Content Recovery/关键词复原原文)任务的过程为：

步骤1：将无标签与有标签文本数据送入Word2Vector模型中，训练出新闻文本领域的词向量模型；

步骤2：将无标签文本语料送入Word2Vector模型中，得到每个样本的段落词向量矩W，取平均后得到样本段落向量C；

步骤3:将无标签文本语料按照词分割，得到每个词的词集T，将每个词送入Word2Vector模型中，得到的词向量Vector_T，根据余弦相似度得出与原文本相似度最高的K个互不相同的Token级关键词，计算公式为：

步骤4:将训练数据整合为[Token₁,[SEP],Token₂,[SEP],...,Token_k]，将样本原文视为标签，一起送入tokenizer中进行embedding编码，最后分别送入Transformer的Encoder与Decoder中。

步骤5：输入Encoder的部分为筛选出的TopK关键词，输入Decoder的部分为原文内容，在步骤4的训练过程中得到模型针对每一个标签Token的分布概率，模型针对词表进行目标词概率预测，故将损失函数定义为每个Token的交叉熵损失，同时加大分类错误时的Loss权重，损失函数公式为：

其中，N表示词表长度，y_ij表示符号函数(0或1)，如果样本i的真实类别等于j取1，否则取0，α表示分类正确时的Loss权重，β表示分类错误时的Loss权重，p_ij表示样本i属于类别j的预测概率，？表示三目运算符。

最终，由图2可见，模型输出了原句中位于A B C D的后面一个Word Token级别的内容：E。

如图2所示，进行TCM(Token Content Matching/关键词原文匹配)任务的过程为：

步骤3：将无标签文本语料按照词分割，得到每个词的词集T，将每个词送入Word2Vector模型中，得到的词向量Vector_T，根据余弦相似度得出与原文本相似度最高的K个互不相同的Token级关键词，计算公式为：

步骤4：取无标签数据中的一半样本，将原文中关键词部分进行[MASK]，同时将该样本的关键词与原文拼接为新的训练数据[Token₁,[SEP],Token₂,[SEP],...,Content]，将其送入tokenizer进行词嵌入层编码后送入Transformer的编码层中。同时将样本标签打标为真样本。

步骤5：再取无标签数据中的另一半样本，将原文中关键词部分进行[MASK]，同时将所有取出样本的关键词打乱后取出K个互不相同关键词，将选出的关键词与原文拼接为新的训练数据[Token₁,[SEP],Token₂,[SEP],...,Content]，将其送入tokenizer进行词嵌入层编码后送入Transformer的编码层中。同时将样本标签打标为假样本。

步骤6：将关键词与输入文本拼接为[B,[SEP],D,[SEP],A,B,C,D,E]后输入编码层，将训练数据送入编码层后，取出最后一层编码层的Last_hidden_state，做平均池化后经过全连接层进行二分类，同时计算二分类交叉熵损失函数。

如图3所示，基于动态规划的文本搜索解码策略，其主要过程为：

步骤1：设动态规划DP数组，Dp_i表示以Token_i为结尾的解码文本的最大连乘概率值，设字符串Sentence数组，Sentence_i表示以Token_i为结尾的解码文本在连乘概率达到最大时的解码文本情况。设置文本搜索解码的最长长度Max_len，将整个搜索算法迭代Max_len轮。初始时将Dp_[CLS]的概率值设为1.

步骤2：迭代一轮中，首先枚举Dp数组，设当前枚举到的为Dp_i，若枚举到的为[END]则跳过这次枚举，将Decoder_input_ids编码为Sentence_i，送入解码层中，同时将样本原文编码送入编码层中。

步骤3：从步骤2中得到当前预测每个Token概率值logits，同时枚举所有Token情况，设当前枚举到的为Token_j，则当前连乘概率为prob＝logits_j*Dp_i，将prob与Dp_j做比较，如果prob大于Dp_j，则更新Dp_j且将Sentence_j设为Sentence_i与Token_j的连接。

步骤4：完成一轮迭代。

步骤5：完成Max_len轮迭代，将Sentence_[END]作为解码文本输出结果。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的互联网新闻内容自动生成方法，其特征在于，包括：获取新闻文本数据；对新闻文本数据进行清洗；将清洗后的新闻文本数据划分为无标签文本和有标签文本；将无标签文本数据输入到基于Transformer的大规模模型中进行预训练，将有标签文本输入到训练好的大规模模型中进行参数微调处理，得到完善的新闻文本内容生成模型；获取新闻关键词，将新闻关键词输入到新闻文本内容生成模型中，并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。

2.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，对新闻文本数据进行清洗包括将文本数据进行非法词语清洗及噪声数据清洗。

3.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，对基于Transformer的大规模模型中进行预训练包括：

S1：将有标签数据集分为训练集与测试集，其中训练集用于对模型进行任务训练，测试集用于对训练的模型进行测试；

S2：对无标签数据集中的文本提取TopK条关键词和关键句；

S3：将无标签数据集中的TopK条关键词和关键句输入到基于Transformer的大规模模型中，进行MSP、TCR、TCM三种预训练任务；

S4：计算三种训练任务的损失函数，并采用权重分配方法对损失函数进行融合，得到模型损失函数；

S5：不断调整模型的参数，当损失函数收敛时完成模型的训练。

4.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，提取TopK条关键词和关键句的过程包括：

步骤1：将无标签与有标签文本数据输入到Word2Vector模型中，训练出新闻文本领域的词向量模型；

步骤2：将无标签文本语料送入训练后的Word2Vector模型中，得到每个样本的段落词向量矩W，将所有段落词向量矩W求和后取平均，得到样本段落向量C；

步骤3：将无标签文本语料按照标准标点符号分割，得到每个样本的句子集S，将每个句子输入到Word2Vector模型中，得到的词向量平均的句子向量Vector_S，采用余弦相似度计算样本段落向量C与句子向量Vector_S的相似度得分，并筛选出与原文本相似度最高的K条互不相同的句子。

5.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，进行MSP预训练任务的过程包括：获取Top K条句子包括Sentence₁,....Sentence_k；将Top K条句子标记为[MASK]；将Top K条句子进行打标，得到[Sentence₁,[SEP],Sentence₂,[SEP],...[SEP],Sentence_k]；将打标后的数据输入到MASK中进行掩码，将掩码后的文本输入到入tokenizer中进行词向量嵌入层编码，将编码后的数据输入到Transformer的编码层和解码层中，得到模型输出的logits，通过输出的logits与真实label计算模型的损失函数。

6.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，进行TCR预训练任务的过程包括：将训练数据整合为

[Token₁,[SEP],Token₂,[SEP],...,Token_k]，并将样本原文视为标签；将整合后的数据和标签输入到tokenizer中进行词向量嵌入层编码，将编码后的数据分别送入Transformer的编码层与解码层中，得到模型输出的logits，通过输出的logits与真实label计算TCR预训练任务的损失函数。

7.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，进行TCM预训练任务的过程包括：

取无标签数据中的一半样本，将原文中关键词进行[MASK]，同时将该样本的关键词与原文拼接为新的训练数据[Token₁,[SEP],Token₂,[SEP],...,Content]，将其输入到tokenizer进行词向量嵌入层编码，将编码后的数据输入到Transformer的编码层中，得到解码后的数据，对该数据进行打标为真样本；

取无标签数据中的另一半样本，将原文中关键词部分进行[MASK]，同时将所有取出样本的关键词打乱后取出K个互不相同关键词，将选出的关键词与原文拼接为新的训练数据[Token₁,[SEP],Token₂,[SEP],...,Content]，将其送入tokenizer进行词向量嵌入层编码，将编码后的数据输入到Transformer的编码层中进行解密，对解码后的样本标记为假样本；

取出最后一层编码层的Last_hidden_state，做平均池化后经过全连接层进行二分类，并计算二分类交叉熵损失函数。

8.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法，其特征在于，采用动态规划的文本生成搜索策略得到生成的新闻播报内容的过程包括：

步骤1：设动态规划DP数组、符串Sentence数组、文本搜索解码的最长长度Max_len以及迭代Max_len轮；初始时将Dp_[CLS]的概率值设为1；其中，Dp_i表示以Token_i为结尾的解码文本的最大连乘概率值，Sentence_i表示以Token_i为结尾的解码文本在连乘概率达到最大时的解码文本情况；

步骤2：枚举Dp数组，当前枚举到的为Dp_i，若枚举到[END]，则跳过这次枚举，将Decoder_input_ids编码为Sentence_i，并输入到Decoder中，将样本原文编码输入到Encoder中；

步骤3：从步骤2中得到当前预测每个Token概率值logits，同时枚举所有Token情况，设当前枚举到的为Token_j，则当前连乘概率为prob＝logits_j*Dp_i，将prob与Dp_j做比较，如果prob大于Dp_j，则更新Dp_j且将Sentence_j设为Sentence_i，并与Token_j的连接；

步骤4：完成一轮迭代，迭代次数加1；