CN116483990A - 一种基于大数据的互联网新闻内容自动生成方法 - Google Patents

一种基于大数据的互联网新闻内容自动生成方法 Download PDF

Info

Publication number
CN116483990A
CN116483990A CN202310448620.0A CN202310448620A CN116483990A CN 116483990 A CN116483990 A CN 116483990A CN 202310448620 A CN202310448620 A CN 202310448620A CN 116483990 A CN116483990 A CN 116483990A
Authority
CN
China
Prior art keywords
text
news
data
token
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310448620.0A
Other languages
English (en)
Inventor
王进
陈浩如
缪玉婷
母雪豪
汤正宗
贺小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310448620.0A priority Critical patent/CN116483990A/zh
Publication of CN116483990A publication Critical patent/CN116483990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本生成领域,具体涉及一种基于大数据的互联网新闻内容自动生成方法,包括:获取新闻文本数据;对新闻文本数据进行清洗;将清洗后的新闻文本数据划分为无标签文本和有标签文本;将无标签文本数据输入到基于Transformer的大规模模型中进行预训练,将有标签文本输入到训练好的大规模模型中进行参数微调处理,得到完善的新闻文本内容生成模型;获取新闻关键词,将新闻关键词输入到新闻文本内容生成模型中,并采用动态规划的文本生成搜索策略得到生成的新闻播报内容;本发明采用三种针对挖掘新闻关键词与文本原文之间关系的预训练任务,解决了新闻文本生成从简单关键词中提取有效信息并扩写复杂且完整的新闻内容的困难。

Description

一种基于大数据的互联网新闻内容自动生成方法
技术领域
本发明属于文本生成领域,具体涉及一种基于大数据的互联网新闻内容自动生成方法。
背景技术
随着互联网的不断发展和普及,人们获取新闻的方式也发生了巨大变化。传统媒体的纸质报纸和电视新闻已经逐渐被互联网新闻所取代,而随着移动互联网和社交媒体的兴起,人们对新闻内容的需求也越来越迫切。然而,由于新闻内容的复杂性和时效性,传统的新闻编辑方式已经无法满足人们的需求。人工编辑需要大量的时间和精力来处理新闻事件的各个方面,并且无法及时地跟踪和处理大量的信息。因此,人工智能技术的应用在新闻编辑中变得越来越重要。
基于人工智能的互联网新闻内容自动生成方法可以通过自然语言处理和机器学习技术,自动地从各种来源收集和处理信息,并生成符合读者需求和新闻风格的新闻内容。这种方法可以大大提高新闻编辑的效率和准确性,并且可以满足人们对新闻内容时效性和多样性的需求,是互联网新闻编辑的重要技术手段之一。
对于新闻文本生成来说,传统的方法主要针对文本生成模型的两方面讨论,第一方面是模型训练部分,传统方法多半采用大规模预训练模型,模型框架有所不同,但预训练任务基本都为MLM(Mask Language Model)、DAE(Denoising AutoEncode)等任务,基本原理均为掩盖、删除或添加原文本中的词汇级Token,但这样的生成模型不适用于根据新闻关键词生成新闻内容这一文本扩写任务;第二方面是文本搜索解码方面,传统方法多半采用贪心搜索或是集束搜索,这种方法可以在较短运行时间内得到一个合理性偏高的解,但由于新闻播报的特殊性,这类方法容易出现事实一致性错误,导致新闻失去真实性。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于大数据的互联网新闻内容自动生成方法,该方法包括:获取新闻文本数据;对新闻文本数据进行清洗;将清洗后的新闻文本数据划分为无标签文本和有标签文本;将无标签文本数据输入到基于Transformer的大规模模型中进行预训练,将有标签文本输入到训练好的大规模模型中进行参数微调处理,得到完善的新闻文本内容生成模型;获取新闻关键词,将新闻关键词输入到新闻文本内容生成模型中,并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。
本发明的有益效果:
本发明采用三种针对挖掘新闻关键词与文本原文之间关系的预训练任务,解决了新闻文本生成从简单关键词中提取有效信息并扩写复杂且完整的新闻内容的困难,通过TCR、TCM预训练任务充分挖掘了新闻关键词与文本之间的关系,同时也学习到了新闻文本的人工编写习惯信息;对于新闻文本中的人工语法、语义、常用词、惯用措辞等信息,本发明通过提出MSP任务来学习到了这些信息;同时,针对于传统新闻文本生成方法中的事实一致性错误,本发明提出了基于动态规划的文本搜索解码策略,大大降低了新闻文本生成中的事实一致性错误,提高了生成文本的真实性、时效性。
附图说明
图1为本发明的整体流程图;
图2为本发明的三种预训练任务的示例图;
图3为本发明的基于动态规划的文本搜索解码策略的示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于大数据的互联网新闻内容自动生成方法,如图1所示,该方法包括:获取新闻文本数据;对新闻文本数据进行清洗;将清洗后的新闻文本数据划分为无标签文本和有标签文本;将无标签文本数据输入到基于Transformer的大规模模型中进行预训练,将有标签文本输入到训练好的大规模模型中进行参数微调处理,得到完善的新闻文本内容生成模型;获取新闻关键词,将新闻关键词输入到新闻文本内容生成模型中,并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。
在本实施例中,对新闻文本生成模型进行训练并对文本进行搜索解码的过程包括:
S1:获取新闻文本数据和对应新闻关键词;将文本数据进行非法词语清洗及噪声数据清洗,划分出无标签数据集和有标签数据集,将有标签数据集分为训练集与测试集,根据语料数据得到无标签文本的TopK条关键词、关键句。
S2:将无标签数据集送入基于Transformer的大规模模型中,进行MSP、TCR、TCM三种预训练任务,通过合理分配三种预训练任务的loss权重,使其loss比例达到1:1:1,得到在新闻文本领域预训练后的预训练模型。
S3:将有标签数据送入预训练后的Transformer模型进行模型微调。
S4:将测试数据送入微调完的Transformer模型,再通过基于动态规划的文本生成搜索策略,然后经过后处理得到新闻文本生成内容。
如图2所示,进行MSP(Mask Sentence Predicition/句子掩码预测)任务的过程为:
步骤1:将无标签与有标签文本数据送入Word2Vector模型中,训练出新闻文本领域的词向量模型;
步骤2:将无标签文本语料送入Word2Vector模型中,得到每个样本的段落词向量矩W,取平均后得到样本段落向量C;
步骤3:将无标签文本语料按照标准标点符号分割,得到每个样本的句子集S,将每个句子送入Word2Vector模型中,得到的词向量平均为句子向量Vector_S,根据余弦相似度得出与原文本相似度最高的K条互不相同的句子,计算公式为:
其中,Sentence表示选中的句子,RanktopK表示将输出结果排序后得到相似度最高的K条句子,Vector_Si表示第i个句子集得到的句子向量,C表示原文本。
步骤4:将TopK条句子标记为[MASK],设TopK条句子分别为Sentence1,....Sentencek,则将该条训练样本的标签打标为[Sentence1,[SEP],Sentence2,[SEP],...[SEP],Sentencek],最后将标签与经过MASK后的训练文本送入tokenizer进行词向量嵌入层编码后分别送入Transformer的编码层和解码层中。
步骤5:由图2中的MSP任务具体输入可知输入编码层的部分为A_C_E,输入Decoder的部分为A B C,其中,每个Token都代表了一句话。然后在步骤4的训练过程中得到模型针对每一个标签Token的分布概率,模型针对词表进行目标词概率预测,故将损失函数定义为每个Token的交叉熵损失,同时针对K条关键句子的句首Token在计算损失函数时增加权重,设权重矩阵W,则损失函数公式为:
其中,N表示词表长度,y1c表示符号函数(0或1),如果样本1的真实类别等于c取1,否则取0;W表示根据其是否为句首Token增加的损失权重,p1c表示样本1属于类别c的预测概率,Sentencei表示第i条句子。
由图2可知,从解码层中输出了原文章AB C的下个Sentence Token:D。
如图2所示,进行TCR(Token Content Recovery/关键词复原原文)任务的过程为:
步骤1:将无标签与有标签文本数据送入Word2Vector模型中,训练出新闻文本领域的词向量模型;
步骤2:将无标签文本语料送入Word2Vector模型中,得到每个样本的段落词向量矩W,取平均后得到样本段落向量C;
步骤3:将无标签文本语料按照词分割,得到每个词的词集T,将每个词送入Word2Vector模型中,得到的词向量Vector_T,根据余弦相似度得出与原文本相似度最高的K个互不相同的Token级关键词,计算公式为:
步骤4:将训练数据整合为[Token1,[SEP],Token2,[SEP],...,Tokenk],将样本原文视为标签,一起送入tokenizer中进行embedding编码,最后分别送入Transformer的Encoder与Decoder中。
步骤5:输入Encoder的部分为筛选出的TopK关键词,输入Decoder的部分为原文内容,在步骤4的训练过程中得到模型针对每一个标签Token的分布概率,模型针对词表进行目标词概率预测,故将损失函数定义为每个Token的交叉熵损失,同时加大分类错误时的Loss权重,损失函数公式为:
其中,N表示词表长度,yij表示符号函数(0或1),如果样本i的真实类别等于j取1,否则取0,α表示分类正确时的Loss权重,β表示分类错误时的Loss权重,pij表示样本i属于类别j的预测概率,?表示三目运算符。
最终,由图2可见,模型输出了原句中位于A B C D的后面一个Word Token级别的内容:E。
如图2所示,进行TCM(Token Content Matching/关键词原文匹配)任务的过程为:
步骤1:将无标签与有标签文本数据送入Word2Vector模型中,训练出新闻文本领域的词向量模型;
步骤2:将无标签文本语料送入Word2Vector模型中,得到每个样本的段落词向量矩W,取平均后得到样本段落向量C;
步骤3:将无标签文本语料按照词分割,得到每个词的词集T,将每个词送入Word2Vector模型中,得到的词向量Vector_T,根据余弦相似度得出与原文本相似度最高的K个互不相同的Token级关键词,计算公式为:
步骤4:取无标签数据中的一半样本,将原文中关键词部分进行[MASK],同时将该样本的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其送入tokenizer进行词嵌入层编码后送入Transformer的编码层中。同时将样本标签打标为真样本。
步骤5:再取无标签数据中的另一半样本,将原文中关键词部分进行[MASK],同时将所有取出样本的关键词打乱后取出K个互不相同关键词,将选出的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其送入tokenizer进行词嵌入层编码后送入Transformer的编码层中。同时将样本标签打标为假样本。
步骤6:将关键词与输入文本拼接为[B,[SEP],D,[SEP],A,B,C,D,E]后输入编码层,将训练数据送入编码层后,取出最后一层编码层的Last_hidden_state,做平均池化后经过全连接层进行二分类,同时计算二分类交叉熵损失函数。
如图3所示,基于动态规划的文本搜索解码策略,其主要过程为:
步骤1:设动态规划DP数组,Dpi表示以Tokeni为结尾的解码文本的最大连乘概率值,设字符串Sentence数组,Sentencei表示以Tokeni为结尾的解码文本在连乘概率达到最大时的解码文本情况。设置文本搜索解码的最长长度Max_len,将整个搜索算法迭代Max_len轮。初始时将Dp[CLS]的概率值设为1.
步骤2:迭代一轮中,首先枚举Dp数组,设当前枚举到的为Dpi,若枚举到的为[END]则跳过这次枚举,将Decoder_input_ids编码为Sentencei,送入解码层中,同时将样本原文编码送入编码层中。
步骤3:从步骤2中得到当前预测每个Token概率值logits,同时枚举所有Token情况,设当前枚举到的为Tokenj,则当前连乘概率为prob=logitsj*Dpi,将prob与Dpj做比较,如果prob大于Dpj,则更新Dpj且将Sentencej设为Sentencei与Tokenj的连接。
步骤4:完成一轮迭代。
步骤5:完成Max_len轮迭代,将Sentence[END]作为解码文本输出结果。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于大数据的互联网新闻内容自动生成方法,其特征在于,包括:获取新闻文本数据;对新闻文本数据进行清洗;将清洗后的新闻文本数据划分为无标签文本和有标签文本;将无标签文本数据输入到基于Transformer的大规模模型中进行预训练,将有标签文本输入到训练好的大规模模型中进行参数微调处理,得到完善的新闻文本内容生成模型;获取新闻关键词,将新闻关键词输入到新闻文本内容生成模型中,并采用动态规划的文本生成搜索策略得到生成的新闻播报内容。
2.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,对新闻文本数据进行清洗包括将文本数据进行非法词语清洗及噪声数据清洗。
3.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,对基于Transformer的大规模模型中进行预训练包括:
S1:将有标签数据集分为训练集与测试集,其中训练集用于对模型进行任务训练,测试集用于对训练的模型进行测试;
S2:对无标签数据集中的文本提取TopK条关键词和关键句;
S3:将无标签数据集中的TopK条关键词和关键句输入到基于Transformer的大规模模型中,进行MSP、TCR、TCM三种预训练任务;
S4:计算三种训练任务的损失函数,并采用权重分配方法对损失函数进行融合,得到模型损失函数;
S5:不断调整模型的参数,当损失函数收敛时完成模型的训练。
4.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,提取TopK条关键词和关键句的过程包括:
步骤1:将无标签与有标签文本数据输入到Word2Vector模型中,训练出新闻文本领域的词向量模型;
步骤2:将无标签文本语料送入训练后的Word2Vector模型中,得到每个样本的段落词向量矩W,将所有段落词向量矩W求和后取平均,得到样本段落向量C;
步骤3:将无标签文本语料按照标准标点符号分割,得到每个样本的句子集S,将每个句子输入到Word2Vector模型中,得到的词向量平均的句子向量Vector_S,采用余弦相似度计算样本段落向量C与句子向量Vector_S的相似度得分,并筛选出与原文本相似度最高的K条互不相同的句子。
5.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,进行MSP预训练任务的过程包括:获取Top K条句子包括Sentence1,....Sentencek;将Top K条句子标记为[MASK];将Top K条句子进行打标,得到[Sentence1,[SEP],Sentence2,[SEP],...[SEP],Sentencek];将打标后的数据输入到MASK中进行掩码,将掩码后的文本输入到入tokenizer中进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层和解码层中,得到模型输出的logits,通过输出的logits与真实label计算模型的损失函数。
6.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,进行TCR预训练任务的过程包括:将训练数据整合为
[Token1,[SEP],Token2,[SEP],...,Tokenk],并将样本原文视为标签;将整合后的数据和标签输入到tokenizer中进行词向量嵌入层编码,将编码后的数据分别送入Transformer的编码层与解码层中,得到模型输出的logits,通过输出的logits与真实label计算TCR预训练任务的损失函数。
7.根据权利要求3所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,进行TCM预训练任务的过程包括:
取无标签数据中的一半样本,将原文中关键词进行[MASK],同时将该样本的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其输入到tokenizer进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层中,得到解码后的数据,对该数据进行打标为真样本;
取无标签数据中的另一半样本,将原文中关键词部分进行[MASK],同时将所有取出样本的关键词打乱后取出K个互不相同关键词,将选出的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其送入tokenizer进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层中进行解密,对解码后的样本标记为假样本;
取出最后一层编码层的Last_hidden_state,做平均池化后经过全连接层进行二分类,并计算二分类交叉熵损失函数。
8.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,采用动态规划的文本生成搜索策略得到生成的新闻播报内容的过程包括:
步骤1:设动态规划DP数组、符串Sentence数组、文本搜索解码的最长长度Max_len以及迭代Max_len轮;初始时将Dp[CLS]的概率值设为1;其中,Dpi表示以Tokeni为结尾的解码文本的最大连乘概率值,Sentencei表示以Tokeni为结尾的解码文本在连乘概率达到最大时的解码文本情况;
步骤2:枚举Dp数组,当前枚举到的为Dpi,若枚举到[END],则跳过这次枚举,将Decoder_input_ids编码为Sentencei,并输入到Decoder中,将样本原文编码输入到Encoder中;
步骤3:从步骤2中得到当前预测每个Token概率值logits,同时枚举所有Token情况,设当前枚举到的为Tokenj,则当前连乘概率为prob=logitsj*Dpi,将prob与Dpj做比较,如果prob大于Dpj,则更新Dpj且将Sentencej设为Sentencei,并与Tokenj的连接;
步骤4:完成一轮迭代,迭代次数加1;
步骤5:完成Max_len轮迭代,将Sentence[END]作为解码文本输出结果。
CN202310448620.0A 2023-04-24 2023-04-24 一种基于大数据的互联网新闻内容自动生成方法 Pending CN116483990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310448620.0A CN116483990A (zh) 2023-04-24 2023-04-24 一种基于大数据的互联网新闻内容自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310448620.0A CN116483990A (zh) 2023-04-24 2023-04-24 一种基于大数据的互联网新闻内容自动生成方法

Publications (1)

Publication Number Publication Date
CN116483990A true CN116483990A (zh) 2023-07-25

Family

ID=87211469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310448620.0A Pending CN116483990A (zh) 2023-04-24 2023-04-24 一种基于大数据的互联网新闻内容自动生成方法

Country Status (1)

Country Link
CN (1) CN116483990A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094291A (zh) * 2023-10-19 2023-11-21 济南伊特网络信息有限公司 基于智能写作的自动新闻生成***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110990385A (zh) * 2019-11-26 2020-04-10 昆明信息港传媒有限责任公司 一套基于Sequence2Sequence的自动生成新闻标题的软件
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110990385A (zh) * 2019-11-26 2020-04-10 昆明信息港传媒有限责任公司 一套基于Sequence2Sequence的自动生成新闻标题的软件
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094291A (zh) * 2023-10-19 2023-11-21 济南伊特网络信息有限公司 基于智能写作的自动新闻生成***
CN117094291B (zh) * 2023-10-19 2024-01-19 济南伊特网络信息有限公司 基于智能写作的自动新闻生成***

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN110298042A (zh) 基于Bilstm-crf与知识图谱影视实体识别方法
Chen et al. Syntax or semantics? knowledge-guided joint semantic frame parsing
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN112597296A (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN112364132A (zh) 基于依存句法的相似度计算模型和***及搭建***的方法
CN111353314A (zh) 一种用于动漫生成的故事文本语义分析方法
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN116483990A (zh) 一种基于大数据的互联网新闻内容自动生成方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
CN113609840B (zh) 一种汉语法律判决摘要生成方法及***
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN114048314A (zh) 一种自然语言隐写分析方法
Jeong et al. Multi-domain spoken language understanding with transfer learning
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240130

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TA01 Transfer of patent application right