CN116842934A - 一种基于持续学习的多文档融合深度学习标题生成方法 - Google Patents
一种基于持续学习的多文档融合深度学习标题生成方法 Download PDFInfo
- Publication number
- CN116842934A CN116842934A CN202310528373.5A CN202310528373A CN116842934A CN 116842934 A CN116842934 A CN 116842934A CN 202310528373 A CN202310528373 A CN 202310528373A CN 116842934 A CN116842934 A CN 116842934A
- Authority
- CN
- China
- Prior art keywords
- model
- title
- document
- fusion
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 102
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004138 cluster model Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000010845 search algorithm Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于持续学习的多文档融合深度学习标题生成方法,主要包括:S1:文本聚类;S2:文本检索;S3:多文档融合标题生成;该方法可以自动完成多文章融合标题生成过程,无需人工干预,并且还可以融合时事热点文章,不断持续学习最新的社会热点内容进行标题生成。本发明的方法采用优化的文本聚类算法、文本快速检索算法、文本融合算法和标题生成算法,可以在短时间内生成高质量的标题。
Description
技术领域
本发明属于计算机应用领域,具体涉及一种基于持续学习的多文档融合深度学习标题生成方法。
背景技术
在互联网+大数据信息时代,人们不再满足于通过纸质媒体获取新闻的方式方法。更多地依赖于网络新兴媒体,例如智能手机和平板电脑等移动设备的支持。这种更方便的新闻获取方式已成为了解重大突发事件的主要途径。但与此同时,随着互联网生态的快速发展,许多新的热点频出,这对文章标题的设计提出的新的要求。一部分存在蹭热度,或以夸大和不真实的“标题骗子”标题吸引读者,或者重复改换标题来报道同一新闻内容,甚至是与该信息无关的标题。
快速准确的文章标题生成方法将会直观的使读者接收到有效信息,节省时间和精力,提升阅读效率和感受;现有的文章标题生成方法是基于机器学习进行生成,这种方法还存在以下缺陷:
1)首先,现有技术主要缺点在于对单一文档的处理,很难将多个相关文档的信息融合到标题生成中。这导致生成的标题往往缺乏代表性,难以高度概括文章及其背后相关联的内容。
2)其次,训练出的模型往往只能生成比较简单的标题,难以生成具有代表性的标题。最后,由于模型是固定的,无法根据用户的需求进行定制。因此,使用机器学习的方法生成文章标题往往难以满足用户的需求。
3)此外,现有的文章标题生成方法往往只能生成单篇文章的标题,无法将多篇文章融合生成标题。现有技术很难在不停止训练的情况下持续学习新的信息。
发明内容
为了解决现有技术无法融合多文档进行标题生成,且生成出来的标题往往缺乏代表性,无法根据用户需求进行定制的问题,本发明提供了一种基于持续学习的多文档融合深度学习标题生成方法,该方法可以自动完成多文章融合标题生成过程,无需人工干预,并且还可以融合时事热点文章,不断持续学习最新的社会热点内容进行标题生成。本发明的方法采用优化的文本聚类算法、文本快速检索算法、文本融合算法和标题生成算法,可以在短时间内生成高质量的标题。
为了达到上述技术目的,本发明是通过以下技术方案实现的:
一种基于持续学习的多文档融合深度学习标题生成方法,包括以下步骤:
S1:文本聚类:基于预训练的Sentence-BERT模型,将每篇文章转换为一个固定长度的向量;再使用GMM聚类算法对上述向量进行聚类为不同的簇,每个簇包含一组相似的文章;
S2:文本检索:基于聚类结果,从***库中寻找与输入文章最相似的文章组,作为多文档融合标题生成的输入;
S3:多文档融合标题生成:将检索得到的与输入文章最相似的文章组及标题一起输入多文档融合标题生成模型;由多文档融合标题生成模型输出一个符合输入文章内容又结合了其他相关文章标题和内容的新标题。
优选的,所述Sentence-BERT模型的预训练方法为:
1)数据预处理:将原始文本进行分词,再将分词后的文本转换为向量表示;
2)模型架构:Sentence-BERT使用包含两个共享参数BERT模型的孪生网络结构,将句子对分别输入到这两个BERT模型中,然后将Bert输出的句子所有字向量传入Pooling层进行平均池化,获取到每个句子的句向量表示;两个句向量分别用u和v表示;
3)相似度计算:使用余弦相似度公式计算两个句向量u和v之间的相似度:
其中u和v,分别是两个句子的句向量表示,·表示向量点积运算;|u|,|v|分别表示这两个句向量的模;
4)损失函数:Sentence-BERT使用均方误差MSE作为损失函数,其公式如下:
其中n表示训练集的样本数,ui和vi分别是第i个句子对的句向量表示,sim(ui,vi)表示这两个句子向量的相似度,yi表示这个句子对的相似度标签;
通过最小化这个损失函数,模型能够学习到一组句向量表示,使得相似的句子在向量空间中距离更近,不相似的句子在向量空间中距离更远;
5)模型训练:对于训练数据中的每一对句子,计算它们之间的相似度,并根据这些相似度计算模型的损失函数;然后使用随机梯度下降(Stochastic Gradient Descent,SGD)或Adam等优化算法来优化模型参数,使得模型能够更好地预测相似度;
6)模型评估:使用测试数据来评估模型的性能,通常使用平均精度均值(meanaverage precision,MAP)或准确率等指标来评估模型的性能。
优选的,所述GMM聚类模型训练方法为:
1)初始化模型参数:随机初始化包括聚类个数k、每个聚类的权重π、均值向量μ和协方差矩阵Σ的模型参数;
2)Expectation步骤:根据当前模型参数计算每个样本xi属于每个聚类的概率P(z=j|xi),即计算后验概率;可以得到:
其中,N(xi|μj,∑j)表示多维高斯分布的概率密度函数;
3)Maximization步骤:根据样本点属于每个高斯分布的概率,更新每个高斯分布的均值向量和协方差矩阵;具体来说,更新聚类的权重πj、均值向量μj和协方差矩阵∑j;具体更新公式如下:
权重更新公式:
均值向量更新公式:
协方差矩阵更新公式:
4)重复执行Expectation步骤和Maximization步骤,直到收敛。
优选的,所述文本检索的算法步骤为:
1)基于预训练后的Sentence-BERT模型,将输入文章转换为一个固定长度的向量表示;
2)对于每个簇,计算簇的质心向量,并将输入文章的向量表示与质心向量进行相似度比较,计算它们之间的余弦相似度;余弦相似度值越高,表示两个向量越相似;
3)选择与输入文章最相似的簇,并从该簇中随机选择一个或多个文章作为标题生成的输入。
优选的,所述多文档融合标题生成步骤为:
1)数据预处理:对输入文本进行清洗,只保留文章内容和标题;将文章内容和标题划分为训练集、验证集和测试集;将分词后的文章内容和标题通过编码转化为数字序列,方便模型处理;
2)构建模型框架:多文档融合标题生成模型采用的是Seq2Seq模型,由编码器和解码器两部分组成;编码器将文章组内容编码为一个固定长度的向量,解码器根据该向量生成标题;
3)模型训练:将编码后的文章内容作为编码器的输入,将文章的标题作为解码器的输出target;使用训练集和验证集对模型进行训练,并根据验证集的损失函数和指标调整模型参数;使用测试集对训练好的模型进行评估,计算生成标题的准确率、召回率、F1值指标;根据模型评估结果,调整模型的超参数,包括学习率、批次大小、隐藏层大小、编码器解码器层数;保存训练好的模型;
4)标题生成:将编码后的输入文章与检索到的相似文章内容输入到训练好的模型中,生成一个新的标题。
优选的,所述多文档融合标题生成模型的Encoder编码阶段引入了多模态融合层,将相似文章组内容经过文章组联合语义提取和文章组标题融合,形成多模态信息。
优选的,所述文章组联合语义提取具体为:通过预训练的Sentence-BERT模型提取文章语义,提取出的语义保存在一个768维度的向量x=(a0,a1,...,a767)中;待多文章组语义都提取出来后根据与输入文章的相似度作为权重w,加权得到一个联合语义向量其中xi表示多文章组语义向量,wi表示相似度权重。
优选的,所述文章组标题融合具体步骤为:
1)提取文章组标题中的关键词:使用TF-IDF算法来计算文章组标题中每个词的权重,以区分重要词和次要词;TF-IDF的计算公式如下:
TF-IDF(t,d)=TF(t,d)×IDF(t)
其中,TF-IDF(t,d)表示标题中单个词权重值,TF(t,d)表示词t在文档d中出现的频率,IDF(t)表示词t的逆文档频率;
其中,ft,d表示单词t在文档d中出现的次数,∑t′∈dft′,d表示文档d中所有单词的总数,IDF(t,D)表示单词t的逆文档频率,N表示文档总数,|d∈D:t∈d|表示包含单词t的文档数;
2)结合预定标题模板的方法:将提取出的关键词替换到预定标题模板中的占位符位置。
优选的,所述多文档融合标题生成模型在结果输出阶段,使用了Beam Search方法,使得模型可以生成多种结果,丰富用户选择,结合人工偏好选择用于模型强化学习,持续优化模型生成。
优选的,所述强化学习具体步骤为:
1)定义强化学习中的三个基本要素:状态、行动和奖励;在标题生成的任务中,状态可以定义为模型生成的标题及其相关的多模态信息和文章组信息;行动可以定义为模型根据当前状态生成的标题;奖励可以定义为根据人类偏好数据集得到的评分;
2)在多文档融合标题生成模型中,强化学习通过人类偏好数据集来训练模型;将生成的标题与标准标题进行比较,得到相应的奖励或惩罚,以此来更新模型参数;在每次进行多模态信息融合时,使用最新的文章组,通过文章组的变动和人工偏好的限定,从而使得模型进行持续的学习。
本发明的有益效果是:
1)本发明的方法可以结合多篇文章生成具有代表性的文章标题,帮助人们快速阅读并获取信息;
2)本发明的方法可以自动生成文章标题,避免人工干预,提高生成效率;
3)本发明的方法可以根据用户的需求进行定制,生成更符合用户需求的标题;通过用户的选择偏好,对模型进行强化学习,优化模型,使生成的标题更符合用户需求偏向。
附图说明
为了更清楚的说明本发明的技术方案及实施例,下面对实施例描述所需要的附图做简单介绍。
图1是本发明基于持续学习的多文档融合深度学习标题生成方法流程图;
图2是本发明Sentence-BERT孪生网络结构图;
图3是本发明文章组联合语义生成结构图;
图4是本发明编码阶段Encoder融合层多模态融合结构图;
图5是本发明解码器层Decoder结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
一种基于持续学习的多文档融合深度学习标题生成方法,包括以下步骤:
S1:文本聚类:基于预训练的Sentence-BERT模型,将每篇文章转换为一个固定长度的向量;再使用GMM聚类算法对上述向量进行聚类为不同的簇,每个簇包含一组相似的文章;
S2:文本检索:基于聚类结果,从***库中寻找与输入文章最相似的文章组,作为多文档融合标题生成的输入;
S3:多文档融合标题生成:将检索得到的与输入文章最相似的文章组及标题一起输入多文档融合标题生成模型;由多文档融合标题生成模型输出一个符合输入文章内容又结合了其他相关文章标题和内容的新标题。
优选的,所述Sentence-BERT模型的预训练方法为:
1)数据预处理:将原始文本进行分词,再将分词后的文本转换为向量表示;
2)模型架构:Sentence-BERT使用包含两个共享参数BERT模型的孪生网络结构,将句子对分别输入到这两个BERT模型中,然后将Bert输出的句子所有字向量传入Pooling层进行平均池化,获取到每个句子的句向量表示;两个句向量分别用u和v表示,如图2;
3)相似度计算:使用余弦相似度公式计算两个句向量u和v之间的相似度:
其中u和v,分别是两个句子的句向量表示,·表示向量点积运算;|u|,|v|分别表示这两个句向量的模;
4)损失函数:Sentence-BERT使用均方误差MSE作为损失函数,其公式如下:
其中n表示训练集的样本数,ui和vi分别是第i个句子对的句向量表示,sim(ui,vi)表示这两个句子向量的相似度,yi表示这个句子对的相似度标签;
通过最小化这个损失函数,模型能够学习到一组句向量表示,使得相似的句子在向量空间中距离更近,不相似的句子在向量空间中距离更远;
5)模型训练:对于训练数据中的每一对句子,计算它们之间的相似度,并根据这些相似度计算模型的损失函数;然后使用随机梯度下降(Stochastic Gradient Descent,SGD)或Adam等优化算法来优化模型参数,使得模型能够更好地预测相似度;
6)模型评估:使用测试数据来评估模型的性能,通常使用平均精度均值(meanaverage precision,MAP)或准确率等指标来评估模型的性能。
优选的,所述GMM聚类模型训练方法为:
1)初始化模型参数:随机初始化包括聚类个数k、每个聚类的权重π、均值向量μ和协方差矩阵Σ的模型参数;
2)Expectation步骤:根据当前模型参数计算每个样本xi属于每个聚类的概率P(z=j|xi),即计算后验概率;可以得到:
其中,N(xi|μj,∑j)表示多维高斯分布的概率密度函数;
3)Maximization步骤:根据样本点属于每个高斯分布的概率,更新每个高斯分布的均值向量和协方差矩阵;具体来说,更新聚类的权重πj、均值向量μj和协方差矩阵∑j;具体更新公式如下:
权重更新公式:
均值向量更新公式:
协方差矩阵更新公式:
4)重复执行Expectation步骤和Maximization步骤,直到收敛。
优选的,所述文本检索的算法步骤为:
1)基于预训练后的Sentence-BERT模型,将输入文章转换为一个固定长度的向量表示;
2)对于每个簇,计算簇的质心向量,并将输入文章的向量表示与质心向量进行相似度比较,计算它们之间的余弦相似度;余弦相似度值越高,表示两个向量越相似;
3)选择与输入文章最相似的簇,并从该簇中随机选择一个或多个文章作为标题生成的输入。
优选的,所述多文档融合标题生成步骤为:
1)数据预处理:对输入文本进行清洗,只保留文章内容和标题;将文章内容和标题划分为训练集、验证集和测试集;将分词后的文章内容和标题通过编码转化为数字序列,方便模型处理;
2)构建模型框架:多文档融合标题生成模型采用的是Seq2Seq模型,由编码器和解码器两部分组成;编码器将文章组内容编码为一个固定长度的向量,解码器根据该向量生成标题;
3)模型训练:将编码后的文章内容作为编码器的输入,将文章的标题作为解码器的输出target;使用训练集和验证集对模型进行训练,并根据验证集的损失函数和指标调整模型参数;使用测试集对训练好的模型进行评估,计算生成标题的准确率、召回率、F1值指标;根据模型评估结果,调整模型的超参数,包括学习率、批次大小、隐藏层大小、编码器解码器层数;保存训练好的模型;
4)标题生成:将编码后的输入文章与检索到的相似文章内容输入到训练好的模型中,生成一个新的标题。
优选的,所述多文档融合标题生成模型的Encoder编码阶段引入了多模态融合层,将相似文章组内容经过文章组联合语义提取和文章组标题融合,形成多模态信息,作为Decoder层的输入,以更好地表达输入信息;如图4;
Encoder阶段
假设文章组中存在文章H=(h1,h2,...,hn)和文章S=(s1,s2,...,sm),将所有元素展开到一个统一的模型输入向量中得到,([cls],s1,s2,...,sm,[sep],h1,h2,...,hn,[sep]),记作输入到模型的向量W=(w1,w2,...,wm+n+3)。使用Transformer Encoder对输入的结合数据W进行编码,得到一系列的特征表示,以及一个上下文向量作为Decoder的初始状态。
为了将不同类型的数据标记区分开来,还需要使用TE作为类型向量来与原始数据结合。对于每个符号wi,输入嵌入IE(wi)为词嵌入WE(wi)、位置嵌入PE(wi)、段嵌入SE(wi)、类型嵌入TE(wi)的和,得到到模型输入向量公式:
IE(wi)=WE(wi)+PE(wi)+SE(wi)+TE(wi)
在编码结果传入Decoder层的过程中,我们引入了一个多模态融合层。在融合层中,使用了Sentence-BERT模型将文章组的融合背景信息转为包含了语义特征的768维向量Q,同时标题生成模板标准和文章组标题关键词信息也进行特征提取也得到了768维向量K和V。通过将Q,K,V的向量与Encoder层输出向量相加,则可以将不同模态的信息融合在一起作为Decoder层的输入,以更好地表达输入信息;
Decoder阶段
解码器层类似于编码器层,解码器的作用是根据编码器的结果以及上一次预测的结果,输出序列的下一个结果,具有额外的多头注意层,用于计算编码器层输入对解码器层输出的影响。每个解码器层由三个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接,第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。第一个子层的多头注意力和编码器中完全一致,第二个子层,它的多头注意力模块中,query来自上一个子层,key和value来自编码器的输出。可以这样理解,就是第二层负责,利用解码器已经预测出的信息作为query,去编码器提取的各种特征中,查找相关信息并融合到当前特征中,来完成预测。Decoder的模型结构如图5所示。
优选的,所述文章组联合语义提取具体为:通过预训练的Sentence-BERT模型提取文章语义,提取出的语义保存在一个768维度的向量x=(a0,a1,...,a767)中;待多文章组语义都提取出来后根据与输入文章的相似度作为权重w,加权得到一个联合语义向量其中xi表示多文章组语义向量,wi表示相似度权重,如图3;
优选的,所述文章组标题融合具体步骤为:
1)提取文章组标题中的关键词:使用TF-IDF算法来计算文章组标题中每个词的权重,以区分重要词和次要词;TF-IDF的计算公式如下:
TF-IDF(t,d)=TF(t,d)×IDF(t)
其中,TF-IDF(t,d)表示标题中单个词权重值,TF(t,d)表示词t在文档d中出现的频率,IDF(t)表示词t的逆文档频率;
其中,TF(t,d)表示单词t在文档d中的词频,ft,d表示单词t在文档d中出现的次数,∑t′∈dft′,d表示文档d中所有单词的总数,IDF(t,D)表示单词t的逆文档频率,N表示文档总数,|d∈D:t∈d|表示包含单词t的文档数;
2)结合预定标题模板的方法:将提取出的关键词替换到预定标题模板中的占位符位置。
优选的,所述多文档融合标题生成模型在结果输出阶段,使用了Beam Search方法,使得模型可以生成多种结果,丰富用户选择,结合人工偏好选择用于模型强化学习,持续优化模型生成;
优选的,所述强化学习具体步骤为:
1)定义强化学习中的三个基本要素:状态、行动和奖励;在标题生成的任务中,状态可以定义为模型生成的标题及其相关的多模态信息和文章组信息;行动可以定义为模型根据当前状态生成的标题。奖励可以定义为根据人类偏好数据集得到的评分;
2)在多文档融合标题生成模型中,强化学习通过人类偏好数据集来训练模型;将生成的标题与标准标题进行比较,得到相应的奖励或惩罚,以此来更新模型参数;在每次进行多模态信息融合时,使用最新的文章组,通过文章组的变动和人工偏好的限定,从而使得模型进行持续的学习。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,包括以下步骤:
S1:文本聚类:基于预训练的Sentence-BERT模型,将每篇文章转换为一个固定长度的向量;再使用GMM聚类算法对上述向量进行聚类为不同的簇,每个簇包含一组相似的文章;
S2:文本检索:基于聚类结果,从***库中寻找与输入文章最相似的文章组,作为多文档融合标题生成的输入;
S3:多文档融合标题生成:将检索得到的与输入文章最相似的文章组及标题一起输入多文档融合标题生成模型;由多文档融合标题生成模型输出一个符合输入文章内容又结合了其他相关文章标题和内容的新标题。
2.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述Sentence-BERT模型的预训练方法为:
1)数据预处理:将原始文本进行分词,再将分词后的文本转换为向量表示;
2)模型架构:Sentence-BERT使用包含两个共享参数BERT模型的孪生网络结构,将句子对分别输入到这两个BERT模型中,然后将Bert输出的句子所有字向量传入Pooling层进行平均池化,获取到每个句子的句向量表示;两个句向量分别用u和v表示;
3)相似度计算:使用余弦相似度公式计算两个句向量u和v之间的相似度:
其中u和v,分别是两个句子的句向量表示,·表示向量点积运算;|u|,|v|分别表示这两个句向量的模;
4)损失函数:Sentence-BERT使用均方误差MSE作为损失函数,其公式如下:
其中n表示训练集的样本数,ui和vi分别是第i个句子对的句向量表示,sim(ui,vi)表示这两个句子向量的相似度,yi表示这个句子对的相似度标签;
通过最小化这个损失函数,模型能够学习到一组句向量表示,使得相似的句子在向量空间中距离更近,不相似的句子在向量空间中距离更远;
5)模型训练:对于训练数据中的每一对句子,计算它们之间的相似度,并根据这些相似度计算模型的损失函数;然后使用随机梯度下降或Adam等优化算法来优化模型参数,使得模型能够更好地预测相似度;
6)模型评估:使用测试数据来评估模型的性能,通常使用平均精度均值或准确率等指标来评估模型的性能。
3.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述GMM聚类模型训练方法为:
1)初始化模型参数:随机初始化包括聚类个数k、每个聚类的权重π、均值向量μ和协方差矩阵Σ的模型参数;
2)Expectation步骤:根据当前模型参数计算每个样本xi属于每个聚类的概率P(z=j|xi),即计算后验概率;可以得到:
其中,N(xi|μj,∑j)表示多维高斯分布的概率密度函数;
3)Maximization步骤:根据样本点属于每个高斯分布的概率,更新每个高斯分布的均值向量和协方差矩阵;具体来说,更新聚类的权重πj、均值向量μj和协方差矩阵∑j;具体更新公式如下:
权重更新公式:
均值向量更新公式:
协方差矩阵更新公式:
4)重复执行Expectation步骤和Maximization步骤,直到收敛。
4.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述文本检索的算法步骤为:
1)基于预训练后的Sentence-BERT模型,将输入文章转换为一个固定长度的向量表示;
2)对于每个簇,计算簇的质心向量,并将输入文章的向量表示与质心向量进行相似度比较,计算它们之间的余弦相似度;余弦相似度值越高,表示两个向量越相似;
3)选择与输入文章最相似的簇,并从该簇中随机选择一个或多个文章作为标题生成的输入。
5.根据权利要求1所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述多文档融合标题生成步骤为:
1)数据预处理:对输入文本进行清洗,只保留文章内容和标题;将文章内容和标题划分为训练集、验证集和测试集;将分词后的文章内容和标题通过编码转化为数字序列,方便模型处理;
2)构建模型框架:多文档融合标题生成模型采用的是Seq2Seq模型,由编码器和解码器两部分组成;编码器将文章组内容编码为一个固定长度的向量,解码器根据该向量生成标题;
3)模型训练:将编码后的文章内容作为编码器的输入,将文章的标题作为解码器的输出target;使用训练集和验证集对模型进行训练,并根据验证集的损失函数和指标调整模型参数;使用测试集对训练好的模型进行评估,计算生成标题的准确率、召回率、F1值指标;根据模型评估结果,调整模型的超参数,包括学习率、批次大小、隐藏层大小、编码器解码器层数;保存训练好的模型;
4)标题生成:将编码后的输入文章与检索到的相似文章内容输入到训练好的模型中,生成一个新的标题。
6.根据权利要求5所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述多文档融合标题生成模型的Encoder编码阶段引入了多模态融合层,将相似文章组内容经过文章组联合语义提取和文章组标题融合,形成多模态信息。
7.根据权利要求6所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述文章组联合语义提取具体为:通过预训练的Sentence-BERT模型提取文章语义,提取出的语义保存在一个768维度的向量x=(a0,a1,...,a767)中;待多文章组语义都提取出来后根据与输入文章的相似度作为权重w,加权得到一个联合语义向量其中xi表示多文章组语义向量,wi表示相似度权重。
8.根据权利要求6所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述文章组标题融合具体步骤为:
1)提取文章组标题中的关键词:使用TF-IDF算法来计算文章组标题中每个词的权重,以区分重要词和次要词;TF-IDF的计算公式如下:
TF-IDF(t,d)=TF(t,d)×IDF(t)
其中,TF-IDF(t,d)表示标题中单个词权重值,TF(t,d)表示词t在文档d中出现的频率,IDF(t)表示词t的逆文档频率;
其中,ft,d表示单词t在文档d中出现的次数,∑t′∈dft′,d表示文档d中所有单词的总数,IDF(t,D)表示单词t的逆文档频率,N表示文档总数,|d∈D:t∈d|表示包含单词t的文档数;
2)结合预定标题模板的方法:将提取出的关键词替换到预定标题模板中的占位符位置。
9.根据权利要求5所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述多文档融合标题生成模型在结果输出阶段使用了Beam Search方法,使得模型可以生成多种结果,丰富用户选择,结合人工偏好选择用于模型强化学习,持续优化模型生成。
10.根据权利要求9所述一种基于持续学习的多文档融合深度学习标题生成方法,其特征在于,所述强化学习具体步骤为:
1)定义强化学习中的三个基本要素:状态、行动和奖励;在标题生成的任务中,状态可以定义为模型生成的标题及其相关的多模态信息和文章组信息;行动可以定义为模型根据当前状态生成的标题;奖励可以定义为根据人类偏好数据集得到的评分;
2)在多文档融合标题生成模型中,强化学习通过人类偏好数据集来训练模型;将生成的标题与标准标题进行比较,得到相应的奖励或惩罚,以此来更新模型参数;在每次进行多模态信息融合时,使用最新的文章组,通过文章组的变动和人工偏好的限定,从而使得模型进行持续的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528373.5A CN116842934A (zh) | 2023-05-11 | 2023-05-11 | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528373.5A CN116842934A (zh) | 2023-05-11 | 2023-05-11 | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842934A true CN116842934A (zh) | 2023-10-03 |
Family
ID=88162399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310528373.5A Pending CN116842934A (zh) | 2023-05-11 | 2023-05-11 | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842934A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
-
2023
- 2023-05-11 CN CN202310528373.5A patent/CN116842934A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN114201581B (zh) | 一种基于对比学习的长文本检索模型 | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答***实现方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、***及存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及*** | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN116304066B (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN115587207A (zh) | 一种基于分类标签的深度哈希检索方法 | |
CN113159187A (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
US11822887B2 (en) | Robust name matching with regularized embeddings | |
Bao et al. | HTRM: a hybrid neural network algorithm based on tag-aware | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、***、存储介质及设备 | |
CN113128210B (zh) | 一种基于同义词发现的网页表格信息解析方法 | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN114692610A (zh) | 关键词确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |