CN116702737B

CN116702737B - 文案生成方法、装置、设备、存储介质及产品

Info

Publication number: CN116702737B
Application number: CN202310983922.8A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-12-01
Anticipated expiration: 2043-08-07
Also published as: CN116702737A

Abstract

本申请公开了一种文案生成方法、装置、设备、存储介质及产品，属于人工智能技术领域。上述方法可以在融合多种内容信息的基础上，生成目标内容信息，将该目标内容信息输入文案生成模型中的模板构造器进行模板构造，可以得到目标模板提示信息，该目标模板提示信息用于约束目标文案的生成结果，将该目标模板提示信息输入上述文案生成模型的文案生成器进行文案预测，即可得到目标文案，该文案生成模型中的文案生成器由预设的大型生成式语言模型通过提示学习得到，充分利用到了大型生成式语言模型自身丰富的文本处理方面的知识，指导该大型生成式语言模型自动输出高质量的文案，从而提高文案生成效果上限。

Description

文案生成方法、装置、设备、存储介质及产品

技术领域

本申请涉及人工智能技术领域，特别涉及一种文案生成方法、装置、设备、存储介质及产品。

背景技术

随着移动互联网和内容领域的快速发展，信息过载的情况越来越严重，对用户吸引能力的提升和多媒体内容的文案质量的提升就显得尤为重要。基于端到端深度模型的文案自动生成方法生成出来的文案质量上限较低，质量总体可控性不强。而基于模板规则的文案自动生成方法的维护程度较高，并且对于风格化和个性化文案的输出能力不强。也就是说，目前相关技术中文案生成效率低，生成出来的文案质量不高，因此，就需要相应投入较大的人力成本，从而提升了运营成本负担，也导致了文案质量的难控。

发明内容

本申请实施例提供了一种文案生成方法、装置、设备、存储介质及产品，能够显著提升文案质量，在降低运营成本的基础上保持文案质量可控。

根据本申请实施例的一个方面，提供了一种文案生成方法，所述方法包括：

对多媒体对象进行内容理解处理，得到目标内容信息，所述目标内容信息包括所述多媒体对象对应的多模态内容；

将所述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，所述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，所述模板提示数据包括所述多模态内容与预设文案模板，所述预设文案模板包括待预测的文案内容标签；

将所述目标模板提示信息输入所述文案生成模型中的文案生成器，触发所述文案生成器基于所述目标模板提示信息对所述待预测的文案内容标签进行内容预测，得到标签预测结果；根据所述预设文案模板和所述标签预测结果得到文案填充信息，在所述文案填充信息中提取目标文案；

其中，所述文案生成器由大型生成式语言模型结合所述模板构造器进行提示学习得到。

根据本申请实施例的一个方面，提供了一种文案生成装置，所述装置包括：

内容理解模块，用于对多媒体对象进行内容理解处理，得到目标内容信息，所述目标内容信息包括所述多媒体对象对应的多模态内容；

提示信息构建模块，用于将所述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，所述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，所述模板提示数据包括所述多模态内容与预设文案模板，所述预设文案模板包括待预测的文案内容标签；

文案预测模块，用于将所述目标模板提示信息输入所述文案生成模型中的文案生成器，触发所述文案生成器基于所述目标模板提示信息对所述待预测的文案内容标签进行内容预测，得到标签预测结果；根据所述预设文案模板和所述标签预测结果得到文案填充信息，在所述文案填充信息中提取目标文案；

根据本申请实施例的一个方面，提供了一种文案生成***，所述***包括：内容理解模型、文案生成模型和文案评分模型，所述内容理解模型和所述文案评分模型均与所述文案生成模型通信连接，

所述内容理解模型用于对多媒体对象进行内容理解处理，得到目标内容信息，所述目标内容信息包括所述多媒体对象对应的多模态内容；

所述文案生成模型用于基于所述目标内容信息进行模板构造，得到目标模板提示信息，所述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，所述模板提示数据包括所述多模态内容与预设文案模板，所述预设文案模板包括待预测的文案内容标签；以及得到标签预测结果；根据所述预设文案模板和所述标签预测结果得到文案填充信息，在所述文案填充信息中提取目标文案；

所述文案评分模型用于对所述目标文案的质量进行评分。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述文案生成方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文案生成方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述文案生成方法。

本申请实施例提供的技术方案可以带来如下有益效果：

本申请实施例提供一种文案生成方法，该文案生成方法可以在融合目标文案相关的多种内容信息的基础上，生成目标内容信息，将该目标内容信息输入文案生成模型中的模板构造器进行模板构造，可以得到目标模板提示信息，该目标模板提示信息用于约束目标文案的生成结果，将该目标模板提示信息输入所述文案生成模型的文案生成器进行文案预测，即可得到目标文案，其中，该文案生成模型包括模板构造器和文案生成器。该文案生成模型中的文案生成器由预设的大型生成式语言模型通过提示学习得到。大型生成式语言模型本身就是通过大量语料预训练得到的文本处理模型，其包括丰富的文本理解知识和内容背景知识，通过提示学习对大型生成式语言模型进行文本生成指导，可以提升文案生成效果上限。本申请实施例的提示学习作为一种预训练大型生成式语言模型的新的微调范式，可以通过添加模板的方法来避免为预训练大型生成式语言模型的调参过程引入额外的参数，从而让该预训练大型生成式语言模型可以在小样本场景下针对下游的文案生成任务达到理想的效果。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识，又可以对该大型生成式语言模型进行提示学习，指导该大型生成式语言模型自动输出高质量的文案，从而提高文案生成效果上限。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的文案生成方法的流程图；

图3是本申请一个实施例提供的内容理解模型示意图；

图4是本申请一个实施例提供的模板构造方法流程图；

图5是本申请一个实施例提供的预设文案模板示意图；

图6是本申请一个实施例提供的文案生成***示意图；

图7是本申请一个实施例提供的文案输入输出信息的示意图；

图8是本申请一个实施例提供的一种信息流内容服务***的技术框架示意图；

图9是本申请一个实施例提供的文案生成装置的框图；

图10是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替。人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术（AutomaticSpeech Recognition，ASR）和语音合成技术（Text To Speech，TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

Feeds：消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源（英文：web feed、news feed、syndicated feed）是一种资料格式，页面透过它将最新资讯传播给用户，通常以时间轴方式排列，Timeline是Feed 最原始最直觉也最基本的展示形式。用户能够订阅页面的先决条件是，页面提供了消息来源。将Feeds汇流于一处称为聚合（aggregation），而用于聚合的软体称为聚合器（aggregator）。对最终用户而言，聚合器是专门用来订阅页面的软件。

自然语言处理（NLP）：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

LLM：大型生成式语言模型(英文Large Language Model，简称LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步，并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子，随着输入数据集与参数空间的不断扩大，LLM的能力也会相应提高。它用于多种应用领域，如机器人学、机器学习、机器翻译、语音识别、图像处理等，所以被称为多模态大型生成式语言模型(MLLM)。

Instruction Tuning：指令微调，是指针对每个任务，单独生成指令（instruction），通过在若干个任务上进行微调，然后在具体的任务上进行评估泛化能力。通常是在公开的大量的NLP任务数据集合上进行的，用于激发语言模型的理解能力，通过给出更明显的指令，让模型去理解并做出正确的反馈。

Prompt tuning: 提示学习，机器学习当中的一类学习方法：在不显著改变预训练语言模型结构和参数的情况下，通过向输入增加“提示信息”、作为一种信息增强来大幅改善模型的效果，他可以看作是一种对任务的指令，同时也是一种对预训练目标的复用，其本质是参数有效性训练的增强，通过单独生成prompt模板，然后在每个任务上进行微调与评估。

RLHF：人类反馈强化学习（Reinforcement Learning with Human Feedback）是强化学习的一个扩展，它将人类的反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。除了奖励信号外，RLHF 代理从人类得到反馈，以更广泛的视角和更高的效率学习，与人类从另一个人的专业知识中学习的方式相似。通过在代理和人类之间架起一座桥梁，RLHF 允许人类直接指导机器，并允许机器掌握明显嵌入人类经验中的决策要素，作为一种有效的对齐技术，RLHF 能够一定程度上帮助减轻大型生成式语言模型（LLM）产生的有害内容并提高信息完整性。

多媒体对象：信息流服务***推荐给用户阅读观看的多媒体信息个体，可能包含图文对象、图片对象或者视频对象。多媒体对象可以是媒体信息发布对象对应的用户主动编辑发布的包括竖版的小图文内容和/或横版的短图文内容。多媒体对象也可以是内容生产者提供，最后以Feeds流的形式提供。

MCN：是一种多频道网络的产品形态，将PGC（Professional Generated Content，专业生产内容）内容联合起来，保障内容的持续输出。

PGC指专业生产内容（例如视频网站中的视频）、专家生产内容（社交网络中的内容），用来泛指内容个性化、视角多元化、社会关系虚拟化。也称为PPC (Professionally-produced Content，专业生产内容）。

BERT（Bidirectional Encoder Representation from Transformers，基于转换模型的双向编码表示模型），是大规模文本预训练模型，BERT用12层的transformerencoder （转换模型编码器）将自然语言处理任务的基准性能提高了一大截。相比word2vec（词向量），经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识，提供更精准的文本特征。

社交网络：社交网络源自网络社交，网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网，早期的E-mail（电子邮件）解决了远程的邮件传输的问题，至今它也是互联网上最普及的应用，同时它也是网络社交的起点。BBS（Bulletin Board System，网络论坛）则更进了一步，把“群发”和“转发”常态化，理论上实现了向所有人发布信息并讨论话题的功能，成为早期的互联网内容自发产生的平台。

Transformer：是一种神经网络，它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer 模型应用了一组不断发展的数学技术，称为注意力或自我注意力，以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。

摘要：Summary摘要又称概要、内容提要，意思是摘录要点或摘录下来的要点，它是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文。其基本要素包括研究目的、方法、结果和结论。具体地讲就是研究工作的主要对象和范围，采用的手段和方法，得出的结果和重要的结论，有时也包括具有情报价值的其它重要的信息。摘要应具有独立性和自明性，并且拥有与文献同等量的主要信息，即不阅读全文，就能获得必要的信息。本申请实施例中将其引申为对多媒体对象的关键信息总结和提炼描述，便于快速熟悉和了解多媒体对象的概要，不是完全学术定义上的摘要。

在具体阐述本申请实施例之前，对与本申请实施例有关的相关技术背景进行介绍，以便于本申请领域技术人员理解。

社交网络涵盖以人类社交为核心的所有网络服务形式，互联网是一个能够相互交流，相互沟通，相互参与的互动平台，社交网络使得互联网从研究部门、学校、商业应用平台扩展成一个人类社交的工具。网络社交更是把其范围拓展到移动手机平台领域，借助手机的普遍性和无线网络的应用，利用各种交友/即时通讯/邮件收发器等软件，使手机成为新的社交网络的载体。

在自媒体时代，各种不同的声音来自四面八方，“主流媒体”的声音逐渐变弱，人们不再接受被一个“统一的声音”告知对或错，每一个人都在从独立获得的资讯中，对事物做出判断。自媒体有别于由专业媒体机构主导的信息传播，它是由普通大众主导的信息传播活动，由传统的“点到面”的传播，转化为“点到点”的一种对等的传播概念。同时，它也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式。自媒体的内容构成也很特别，没有既定的核心，想到什么就写什么，只要觉得有价值的东西就分享出来，所以看一些优秀的自媒体图文十分独特有趣。自媒体的内容可以以Feeds流（信息流）形式展示出来供用户快速刷新，可以看做一个新型信息聚合器，订阅源是好友或关注的公众人物，内容是他们公开发布的动态。当好友数量较多且活跃时，就可以收到不断更新的内容，这是最常见的Feeds流形式。时间是Feeds流所遵循的终极维度，因为内容的更新是不断向服务器发出请求的结果。Timeline（时间线）是 Feeds最原始最直觉也最基本的展示形式，现在这种形式的信息流成为用户消费信息和资讯的一种主流模式。

但是，随着移动互联网和内容领域的快速发展，信息过载的情况越来越严重，对用户吸引能力的提升和多媒体内容的文案质量的提升就显得尤为重要。移动互联网依托的介质是小屏幕，阅读是折叠并递进的，创作者往往只有一次机会让读者打开折叠，进入下一阶段开展阅读体验，所以就需要引导用户直奔文案主题，即快速直奔摘要。因此，内容创作者为适应新媒体传播特征对文案的重视越来越重要，比如推送内容的文案，运营展示标题文案，相关内容或者推荐的文案等等。编辑阅读分发如此，算法平台亦是，人工智能机器人的“关键词”意识更强，为了节约读者的搜索时间，“关键词”越多的文本，文案质量越高后验表现越好的内容，越容易被推送到读者面前。用户在Feeds流当中看到内容第一眼的体验往往是文案和封面图，比如文案部分的核心是标题，它是用户内容判断是否阅读的重要因素。通常情况，最戏剧的冲突、最想知道的答案、最核心的思想等等都通过文案来体现，很大程度上决定了读者是否点击阅读。当前智能文案生成应用，有两大类主流输出方案：基于内容理解的模版规则方案、基于端到端深度模型的文本生成方案。

模板规则类方案，主要有两种思路。一种模板规则包含模板文本和填充标签词列表，由业务产品不定时根据业务经验，整理上传，短视频命中标签词则输出；另一种模版规则包含模板文本和填充槽位规则，槽位填充主要依赖知识图谱实体识别，短视频命中目标类别和实体类型等输出。源数据层，主要围绕视频提取或挖掘文本信息，如用户上传的视频描述、哈希标签文本等；在内容理解层，利用NLP技术挖掘实体、关键词、类目等信息，辅助模板文案生成，或作为模型文案知识增强的基础；文案生成后，通过多文案错误检测及优化改写、文案去重等基于业务经验的后处理操作，进一步优化多文案输出。这种方法的优点是可控性强，文案准确率高，可以不需要训练数据，对冷启动友好；缺点则是维护成本较高，缺少灵活性，缺少因内容而异的创新和个性化突破，且历史优秀文案难以反馈到文案创作环节。

基于端到端深度模型的文本生成方案：具体说来有关键词到文案句子的生成(一般也是拼接成长文本)、长文本到短文案的生成等类型；长文本到短文案的生成适用性更广。这种方案存在的主要问题是可控性不强，文案准确率难以做到高，需要收集大量的样本训练数据来进行训练，灵活性也不太够，同时对内容本身的多模态多维度方面的特征利用也不够充分。具体涉及的技术包括文本摘要算法，以获得对长文本或某个主题文档集合的简要概述。典型的文本摘要任务设定是输入源长文本，输出摘要短文本。它的发展主要经历如下几个阶段：

（1）传统机器学习，基于非神经网络模型监督学习阶段。随着用户需求、数据语料、算法技术的不断发展，2000年后有越来越多关注文本摘要方向的工作。这个阶段的文本摘要主要基于提取式的方法，基于特征工程和非神经网络的传统机器学习监督算法，提取摘要文本片段。

（2）深度学习模型，基于神经网络模型的监督学习阶段。2006年深度学习算法论文发表后，先后在计算机视觉、NLP领域不断发展应用。这种生成式的方法可以输出更加灵活的摘要文本片段组合，使文本摘要准确率的天花板提升一个台阶。但生成式摘要算法的可控性不如提取式摘要，出现的逻辑错误问题可能比提取式摘要更加严重。

（3）大规模预训练模型结合领域数据微调。2018年BERT之后，基于Transformer大规模预训练模型成为主流方向。得益于大规模数据预训练、跨任务迁移学习、字级别的训练与预测、自注意力机制大模型，不同的NLP任务(如文本蕴含、情感分类、翻译、摘要等)也有通过文本到文本“text-to-text”的框架走向融合训练的趋势。但对于知识密集型或领域知识需求强的场景，大规模预训练模型还是需要特定领域知识背景依赖，所以最终的效果也难以直接满足业务的需求。

目前相关技术中，比如短视频场景的内容类目分布广泛而复杂，模版文案的运营成本很高，限制了模版规则类文案的覆盖率，同时有些短视频类目无法直接用模板文案总结输出，如新闻资讯类视频，人物、事件、地点信息差异太大难以抽象，总结下来就是模板文案维护成本较高，缺少灵活性，缺少因内容而异的创新和个性化突破，且历史优秀文案难以反馈到文案创作环节，同时对于有些垂直类目的原始文本描述易出现语义不够完整，或者需要上下文语境才能理解的问题，因此，模型生成类方法难以输出满足相关技术需求的合适的文案。并且，由于端到端的方案可控性不强，文案准确率难以做到很高，需要收集大量的样本训练数据来进行训练，灵活性也不太够，同时对内容本身的多模态多维度方面的特征利用也不够充分和合理，比如视频内容的一级类目及二级类目多而复杂，文案生成有时候存在与短视频类别信息不符的严重错误问题，尤其是在一些垂直类目视频（比如体育，明星等）中尤为明显，源文本往往针对垂类中的某个问题进行描述，生成文案时会出现一些明显与垂直类目不符的文本信息，这种逻辑错误对观感影响严重，效果存在很大的改进空间。

综上可知，相关技术中的模板生成类的文案生成方法，和端到端的文案生成方法都存在各自的弊端，因此其各自生成出的文案都难以在真正的媒体内容应用场景中达到应用要求。因此，本申请实施例提供一种文案生成方法，该文案生成方法可以在融合目标文案相关的多种内容信息的基础上，生成目标内容信息，将该目标内容信息输入文案生成模型中的模板构造器进行模板构造，可以得到目标模板提示信息，该目标模板提示信息用于约束目标文案的生成结果，将该目标模板提示信息输入上述文案生成模型的文案生成器进行文案预测，即可得到目标文案，其中，该文案生成模型包括模板构造器和文案生成器。该文案生成模型中的文案生成器由预设的大型生成式语言模型通过提示学习得到。大型生成式语言模型本身就是通过大量语料预训练得到的文本处理模型，其包括丰富的文本理解知识和内容背景知识，通过提示学习对大型生成式语言模型进行文本生成指导，可以提升文案生成效果上限。本申请实施例的提示学习作为一种预训练大型生成式语言模型的新的微调范式，可以通过添加模板的方法来避免为预训练大型生成式语言模型的调参过程引入额外的参数，从而让该预训练大型生成式语言模型可以在小样本场景下针对下游的文案生成任务达到理想的效果。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识，又可以对该大型生成式语言模型进行提示学习，指导该大型生成式语言模型自动输出高质量的文案，从而提高文案生成效果上限，通过收集实际业务场景当中后验表现好的数据，或者结合实际业务场景的文案风格或者用户个性化文案倾向，可以实现文案的个性化的可控，让最终该大型生成式语言模型生成的文案充分体现业务个性化和文案风格化，从而最终改善文案应用的效果。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供文案生成服务的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以提供依赖文案生成的信息流内容服务。例如，新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实（Virtual Reality，VR）类应用程序、增强现实（Augmented Reality，AR）类应用程序等，本申请实施例对此不作限定。本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。在一些实施例中，上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容，并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content DeliveryNetwork，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参考图2，其示出了本申请一个实施例提供的文案生成方法的流程图。该方法可应用于计算机设备中，上述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤：

步骤201，对多媒体对象进行内容理解处理，得到目标内容信息，上述目标内容信息包括上述多媒体对象对应的多模态内容。

本申请实施例并不对多媒体对象进行限定，可选地，上述多媒体对象可以包括但不限于文本内容对象、图片内容对象、图文内容对象、音频内容对象、视频内容对象、音视频内容对象、音视频图文内容对象。

本申请实施例通过对多媒体对象进行内容理解，从而获取多媒体对象有关的多模态内容，多模态内容相比较于单一模态内容，内容包含的信息更加丰富，从而有利于提升文案生成质量，也就是说，通过引入多维度多模态的信息可以做更多的知识增强，提升文案生成模型的质量。

本申请实施例并不对多模态内容进行限定，其可以包括文本信息、视觉信息、听觉信息、预设的知识，比如标签信息等，中的至少一个。在一个实施方式中，上述对多媒体对象进行内容理解处理，得到目标内容信息，包括：根据下述至少一类内容信息生成上述目标内容信息：

（1）视频图像内容信息，在上述多媒体对象为视频类对象的情况下，上述视频图像内容信息为根据上述多媒体对象中的帧图像或封面图像得到的信息。

视频图像内容信息可以包括视频帧（也包括封面图）和视频内容，对于视频帧中的视频图像内容信息，可以利用Vit模型来提取，ViT是2020年Google团队提出的将Transformer应用在图像分类的模型。

本申请实施例中还可以进行视频画面物体识别，主要包括对视频封面和视频帧内容当中存在的主体比如建筑，车辆，物品等的识别结果，将该识别结果作为视频图像内容信息。

本申请实施例中还可以进行面部特征识别，比如，可以识别出多媒体对象中一些知名人物，这类识别结果对于提升娱乐类多媒体对象的文案质量有显著作用。比如，如果明星信息没有在文本中出现，但是在多媒体对象中出现，就可以实现很好的关联。

视频类多媒体对象的封面图非常重要，所以本申请实施例可以对于视频封面图的特征单图提取，可以采用Vit网络作为基础网络，尤其是提取封面当中的一些对象主体，可以通过目标检测模型检测这些主体的位置、类型等信息作为视频图像内容信息。

（2）业务分类信息，上述业务分类信息包括上述多媒体对象在多媒体内容库中对应的分类信息、分级信息或携带的标签信息。

本申请实施例业务分类信息可以是对于多媒体对象进行管理的***为多媒体内容进行分类、分级或者打标的过程中所产生的信息。该***可以包括多媒体对象的信息流分发***，或者其中的多媒体内容库。在信息流内容分发的流转过程当中，通常都会有发布作者提供或者内容处理流程当中通过内容理解算法处理得到的多级分类信息和多级标签信息，这些信息可以看做是对多媒体对象一个抽象维度的理解，这些内容即为本申请实施例中的业务分类信息。

（3）文本信息，上述文本信息包括上述多媒体对象的自身的内容文本信息，或者基于上述多媒体对象识别到的文字信息。

本申请并不限定文本信息的来源，比如，可以来源于视频内容的标题，或视频抽帧及封面图的光学字符识别（OCR）结果。视频内容如果有语音对话信息，将语音进行语音转换（ASR）的结果，这一部分如果语音很长，可以通过对语音转换结果做一个主题识别，从而简化得到的文本信息。

（4）风格信息，上述风格信息包括文本生成场景对应的文本风格信息或者用户个性化风格信息。

风格信息可以包括文本生成场景对应的文本风格信息或者用户个性化风格信息两方面内容的至少一个，文本生成场景可以影响文案的生成风格，比如，文本生成场景是会议摘要生成，则文案的文本风格信息应当较为严肃，使用书面语生成。而如果文本生成场景是娱乐摘要，则文案的文本风格信息应当较为轻松俏皮，使用书面语或者网络流行语生成。

用户个性化的倾向也可能影响文案的生成风格。主要是因为实际应用时需要输出包含不同关键点或者侧重点的智能文案，将结果个性化分发给不同用户。一方面一条Feed往往不止包含一个重点信息，比如电视剧的宣传短视频，源文本描述信息当中可能包含电视剧名、电视剧类型、不同演员、重点情节等不同关键信息。很难在同一条固定字数的标题文案内给用户所有信息，而且这也会加大用户阅读理解的成本。另一方面，每个用户最喜欢关注的信息也不尽相同。有些用户可能更关注主演，有些用户可能更关注视频内容的类型。所以，在个性设置当中，需要选择输出多条包含不同关键点或侧重点标题文案的方案，有利于做个性化的内容分发，同时通过这种可控文案生成，可以使得模型文本输出的文案倾向于某种情感极性、倾向于包含更多有价值的主题词等。

在一个实施例中，上述对多媒体对象进行内容理解处理，得到目标内容信息的动作可以由内容理解模型实施。宏观来说本申请实施例的文案生成方法应用于文案生成***，上述文案生成***包括内容理解模型和与上述内容理解模型连接的文案生成模型，上述内容理解模型包括与前述每一类内容信息对应的内容提取单元，即上述内容理解模型包括下述至少一个内容提取单元：视频图像内容理解单元、业务分类信息提取单元、文本内容理解单元、风格信息提取单元。

请参考图3，其示出内容理解模型示意图。该内容理解模型可以包括四个解耦合的内容提取单元：视频图像内容理解单元、业务分类信息提取单元、文本内容理解单元、风格信息提取单元，从而可以分别对应提取视频图像内容信息、业务分类信息、文本信息和风格信息。这些内容提取单元可以采用相关技术，本申请实施例对其具体结构不做限定。其中，视频图像内容理解单元可以进行图像内容识别和内容类型预测，通过Vit或者Transformer来实现视频图像的内容理解，得到若干内容理解结果。文本内容理解单元，可以从音频识别、光学字符识别等多个方向获取多媒体对象中的信息，得到对应的文本信息。业务分类信息提取单元可以对多媒体对象自身的文本进行自然语言处理（NLP），得到若干标签。业务分类信息提取单元还可以基于多媒体内容库中的分级、分类和标签获取更多业务分类信息。风格信息提取单元可以获取相关的风格数据，这些内容提取单元的输出结果被融合之后即可得到目标内容信息。本申请实施例并不对融合的具体操作进行限定，比如其可以包括合并、过滤后合并、拼接操作中的至少一个。

S202. 将上述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，上述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，上述模板提示数据包括上述多模态内容与预设文案模板，上述预设文案模板包括待预测的文案内容标签。

本申请实施例中的目标内容信息是一类具有明确含义的信息，通过对多媒体内容进行文本、视频、业务分类和风格等维度的信息提取，可以得到包含多媒体对象各方各面的内容的、具备明确含义的信息，即目标内容信息，根据该目标内容信息可以构造目标模板提示信息。目标模板提示信息包括上述多模态内容与预设文案模板，其中，预设文案模板是为了得到符合要求的目标文案所构建的模板，用于约束目标文案的生成结果，提升目标文案的质量，预设文案模板中包括若干文案内容标签，从而将目标文案的生成过程转化为文案内容标签的预测过程。

在一个实施例中，上述模板构造器包括任务定义模板构造单元、任务输入模板构造单元、任务输出模板构造单元，请参考图4，其示出本申请实施例中模板构造方法流程图。上述将上述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，包括：

S401. 上述任务定义模板构造单元生成任务定义描述信息，上述任务定义描述信息包括下述至少一项内容：任务描述提示方式、任务要求信息、关键内容信息和个性化风格要求信息。

任务定义描述信息表示所有智能文案生成任务定义的描述提示方式和要求，比如提取文案的具体字数限制要求，输出标题的条数，包括的关键内容信息和类目及关注内容含量的约束，用户的个性设置要求等等。

S402. 上述任务输入模板构造单元基于上述目标内容信息生成任务输入信息。

任务输入信息具体表示任务输入的信息，其可以包括视频描述信息、视频多级分类和标签信息等，视觉模态提取的文本信息比如帧相关的字符识别信息或者语音转换信息等，也可以直接将目标内容信息作为任务输入信息。

S403. 上述任务输出模板构造单元生成任务输出提示信息，上述任务输出提示信息包括下述至少一项内容：字数要求信息、关键字信息、生成结果提示信息。

任务输出提示信息可以对输出的文案的要求进一步定义更多细节，通过细节约束提升后验效果。

S404. 根据所述任务描述信息、所述任务输入信息和所述任务输出提示信息，生成预设文案模板，所述任务定义描述信息和所述任务输出提示信息中均包括所述待预测的文案内容标签；根据所述预设文案模板和所述多模态内容，生成所述目标模板提示信息。

上述任务描述信息、上述任务输入信息和上述任务输出提示信息中还可以包括待预测的文案内容标签，上述任务描述信息、上述任务输入信息和上述任务输出提示信息中可自由设计待预测的文案内容标签的占位个数，当然这个占位个数受控于文案生成器能预测的内容体量。

请参考图5，其示出预设文案模板示意图。该预设文案模板中包括前述的任务描述信息、上述任务输入信息和上述任务输出提示信息。并且任务描述信息、上述任务输入信息和上述任务输出提示信息中也可以包括若干待预测的文案内容标签，比如，图5中的N、A、B、C都属于文案内容标签。在设计得到预设文案模板的基础上，利用步骤S201获取到的多模态信息，结合该预设文案模板，即可得到目标模板提示信息。

S203. 将上述目标模板提示信息输入上述文案生成模型中的文案生成器，触发上述文案生成器基于上述目标模板提示信息对上述待预测的文案内容标签进行内容预测，得到标签预测结果；根据上述预设文案模板和上述标签预测结果得到文案填充信息，在上述文案填充信息中提取目标文案。其中，上述文案生成器由大型生成式语言模型结合上述模板构造器进行提示学习得到。

为了提升本申请实施例的文案生成的效果上限，本申请实施例中的文案生成器由预设的大型生成式语言模型通过结合上述模板构造器输出的模板提示信息进行提示学习得到。随着技术的快速发展，各种类型大型生成式语言模型发展非常快速，本申请实施例中的文案生成器就属于这一类大型生成式语言模型，可以将其理解为主体架构为基于Transform模型构建的参数数量大于预设值的生成式语言模型，当然，对于该预设值本领域技术人员可以自行确定。

相关技术中大型生成式语言模型有很多，本申请实施例可以使用开源的双语（英汉）双向密集预训练大型生成式语言模型，其拥有 130B亿个参数，使用通用语言模型（General Language Model， GLM）的算法进行预训练，在该模型基础上通过提示学习得到本申请实施例的文案生成器。

本申请实施例中，为充分发挥大模型的能力，设计了一种基于提示学习的方案来激发大型生成式语言模型的能力，核心是通过构造提示信息进行小规模调整参数适配务，来达到充分利用大模型能力为具体的文案生成服务的目的。提示信息作为一种信息增强的数据，目的是使得大模型明确需要做什么任务，输出什么内容，即本质是复用大型预训练生成式语言模型在预训练阶段所使用的目标和参数，在其基础上冻结部分参数和层，从而在节省硬件计算资源和存储资源的基础上，通过冻结部分模型参数，调整部分参数使得调参后的大型生成式语言模型在实际的业务场景落地使用，同时能够降低建模的成本和提升建模的效率。

在一个实施例中，上述文案生成***中的文案生成器通过下述方法训练得到：上述内容理解***对样本多媒体对象进行内容理解得到样本内容信息；将上述样本内容信息输入上述模板构造器，得到样本模板提示信息；将上述样本模板提示信息输入预训练的大型生成式语言模型，触发上述大型生成式语言模型对上述样本模板提示信息中的待预测的文案内容标签进行内容预测，以及根据内容预测结果得到预测文案；根据上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，调节上述大型生成式语言模型的参数，得到上述文案生成器。

本申请实施例中训练环节中模板构造器和大型生成式语言模型所执行的操作分别与前文中模板构造器以及文案生成器执行的操作一致，在此不做赘述。在一个实施方式中，上述根据上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，调节上述大型生成式语言模型的参数，得到上述文案生成器，包括：对上述大型生成式语言模型中预设参数进行冻结处理；基于上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，计算交叉熵损失；根据上述交叉熵损失，调整上述大型生成式语言模型中未被冻结的参数，得到上述文案生成器。

本申请实施例并不限定具体冻结哪些参数，可以根据实际情况进行选择，这也跟具体使用的大型生成式语言模型的具体结构有关，选择方式并不构成本申请实施例的实施障碍，对此，不做赘述。

本申请实施例中可以基于梯度下降法对未被冻结的参数进行调整。梯度下降法是机器学习和深度学习领域中进行网络参数调整时经常使用的、通过梯度下降的方式对网络参数进行一阶最优化调整的方法。本申请实施例中梯度下降法可以引导上述参数向减少损失的方向进行调整。当调整次数达到预设的次数阈值，或者当损失小于预设的损失阈值的情况下，停止调参，得到上述文案生成器。

在文案生成器的训练过程中，使用到了多媒体的样本内容信息，可以通过引入内容多维度多模态的文本和视觉信息得到知识增强后的样本内容信息。比如，可以通过增加视频封面、首帧的光学字符识别结果和关键视觉帧文本信息，利用视频短标题数据，语音识别结果等等技术手段，获取信息丰富样本内容信息。

文案生成器的训练过程其实是一种提示学习，这一学习方法充分利用大型生成式语言模型包含的背景知识。在训练过程中设计了样本提示模板信息，将其构造以后注入大型生成式语言模型当中，利用更优更好的基础预训练模型获取基础信息，结合提示学习得到更适合文案生成这一业务的垂直领域的模型，最后在智能文案生成中实现字数可控和质量多样性可控的最终结果，并且能够通过持续利用业务反馈收集的数据，补充少量导向样本，定期通过后验目标样本快速进行生成模型周期更新，使文案生成模型更快捕捉新的内容文案范式，更好适应业务的发展。

在一些实施方式中，为提高文案生成的准确率，还通过统计分析挖掘关键易错词，在训练样本过程中，引导模型向不生成包含关键易错词的文案的方向学习，使文案生成器具有关键易错词知识去躁能力，这样最终对业务很有帮助。为了保证最后实际任务输出的效果能够达到预期，还可以引入RLHF持续控制最终输出的文案质量。

在一个实施方式中，本申请实施例还可以获取上述目标文案对应的评分，上述评分表征上述目标文案的文案质量；根据上述目标文案和上述目标文案的文案质量，构建文案评分模型；根据上述文案评分模型对上述文案生成器生成的、针对同一多媒体对象的不同文案进行选择，得到上述同一多媒体对象的推荐文案。也就是说，通过对文案质量进行RLHF持续评分控制，可以筛选优质文案，使得推荐文案的质量更加稳定。评分越高文案质量也越好，可以根据场景需要选择评分满足用户期望的文案作为推荐文案。

请参考图6，其示出本申请实施例的文案生成***示意图。内容理解模型（多模态内容理解***）可以用于执行下述操作：对多媒体对象的视频封面、首帧及关键帧进行图像主体提取和/或光学字符识别；对多媒体对象的音频信息进行语音转化识别；对多媒体对象的文本信息，比如标题，进行提取；对多媒体对象的分级分类标签信息进行利用，通过上述操作得到的结果确定多模态的目标内容信息。

在得到目标内容信息的基础上，可以构造目标提示模板信息。目标提示模板信息的构建由模板构造器（Prompt Constructor）执行，然后将其注入文案生成器，以实现文案内容标签预测。该文案生成器通过提示学习得到，该提示学习是一种基于优质文案对大型生成式语言模型（LLM）进行指令微调的过程，微调过程大型生成式语言模型大部分参数、内容理解模型以及模板构造器的参数都是冻结不变的。这里内容理解模块可以应用到的Feeds内容，以典型的小视频内容为例，包括多种模态，如果是其他内容，比如图文内容就只有部分模态，但是处理方式是类似的，内容理解模型的输出是文案生成***的基础输入，应用阶段，在模板构造器构造出目标提示模板信息之后，由文案生成器预测出最终的目标文案。

请参考图7，其示出文案输入输出信息的示意图。输入为多媒体对象，比如短视频及其相关的长描述文本，然后通过内容理解得到多模态的目标内容信息，文案生成器可以输出多条不同的标题短文案，充分体现多样性，内容分发侧可以根据用户兴趣选择或者根据评分***选择其中的一些用于展示。

在文案的实际应用中，由于人工撰写文案，运营人力成本非常高，通过本申请实施例提供更多文案生成方法可以实现智能文案自动生成，让文案信息有增益，运营人员可以由写文案，转为审文案，有效降低人力成本，同时平均每个视频的可用文案数提升，对同一视频能推送更多样化、个性化的文案，提升对多媒体对象的推送效果。

文案生成器能够充分利用大型生成式语言模型当中包含的背景知识，通过提示学习实现输出文案字数可控、文案准确率高，语义通顺完整的效果，对于不同细分场景，即使细节的文案生成要求不同，也可以共享互通加强文案生成器的泛化能力，文案生成器也可以随着内容更新进行快速迭代和捕捉新的内容文案范式。进一步地，通过挖掘分析智能文案的后验数据，可以挖掘曝光价值更高的关键词指导知识，基于关键词指导知识可以进一步提高文案生产的业务效果，对用户增长有显著正向作用，比如在推荐模型自然竞争的基础上，提高高曝光文案(爆款文案)的比例，对于业务日活和多媒体对象的消费时长有明显正向收益。

在示例性实施例中，上述文案生成方法可应用于信息流内容服务***。请参考图8所示，其示例性示出了一种信息流内容服务***的技术框架示意图。图8所示的信息流内容服务***中各个服务模块及其主要功能如下。

一、内容生产端和内容消费端

（1）PGC或者UGC以及MCN内容生产者，通过移动端或者后端接口API（ApplicationProgramming Interface，应用程序接口）***，提供多媒体对象，如视频内容对象、图文内容对象、图集内容对象的发布入口，上述发布入口获取的多媒体对象都是信息流内容服务的主要内容来源。

（2）内容生产端通过和上下行内容接口服务的通讯来上传发布多媒体对象。内容生产端可以先获取上传服务器的接口地址，然后再上传本地文件。其中，视频内容发布通常是一个具有拍摄功能的终端作为摄影端，拍摄过程当中用户可以为本地视频内容选择搭配的音乐，并进行相应的剪辑，选择封面图，滤镜模板和视频的美化功能等等操作，图文内容通常是通过一个图文编辑器和排版***发布。

（3）内容消费端通过和上下行内容接口服务的通信来获取多媒体对象的索引信息，并根据上述索引信息从内容存储服务中直接获取多媒体对象源文件，然后加载多媒体对象源文件向用户进行展示。上述索引信息可以是用户专题订阅的多媒体对象的索引信息。内容存储服务器存储的是多媒体对象实体，比如视频源文件，封面图的图片源文件，而多媒体对象的元信息，比如标题，作者，封面图，分类，标签信息等等存储在内容数据库。

（4）内容生产端和内容消费端同时将上传和下载过程当中的日志数据、卡顿、加载时间、播放点击等数据上报给上下行内容接口服务器或者另外的后台服务器，用于后续的数据统计分析。

（5）内容消费端通常通过Feeds流的方式向用户展示内容，以使用户浏览消费内容数据。

（6）服务端可以以推送提示方式主动推送运营的内容给用户，引导用户进入Feed流主流消费更多的内容，增加大盘的活跃，推送的文案可以由本申请实施例中的文案生成方法生成出来。

二、上下行内容接口服务器

（1）与内容生产端直接通讯，获取从内容生产端提交的数据，通常包括多媒体对象的标题、信息发布对象、摘要、封面图、发布时间等元信息。

（2）写入元信息至内容数据库，比如将文件大小、封面图链接、标题、发布时间、信息发布对象等信息写入内容数据库。

（3）将内容生产端发布提交的多媒体对象同步给调度中心服务器（简称调度中心），以使调度中心服务器进行后续的多媒体对象处理和流转，包括质量处理和内容理解处理，比如挖掘多媒体对象的高阶语义标签等。

三、内容数据库

（1）内容数据库是多媒体对象的核心数据库，所有内容生产端发布的多媒体对象的元信息都保存在这个内容数据库，重点存储多媒体对象本身的元信息，比如文件大小、封面图链接、码率、文件格式、标题，发布时间、信息发布对象、文件大小、文件格式、原创标记、首发标记以及人工审核过程中对多媒体对象的分类标签信息。上述分类标签信息包括一、二、三级别分类和标签信息，比如一篇讲解某某牌手机的视频，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息可以包括基础标签，如某某牌、型号，也可以包括高阶语义标签，如“省电手机”、“待机时间长”、“某某人群最爱用的手机”等。

（2）上下行内容接口服务在收到多媒体对象元文件的时候会进行标准的转码操作，转码完成后异步返回元信息，主要是文件大小、码率、规格、截取封面图，这些元信息都会保存在内容数据库当中。

（3）人工审核***在人工审核过程当中会读取内容数据库当中的信息，同时人工审核结果和状态也会由人工审核***回传进入内容数据库。

（4）调度中心服务器对内容处理主要包括机器处理和人工审核处理，这里机器处理的核心过程包括调用内容排重服务识别完全重复和相似的内容，排重结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理，节省审核的人力资源。

四、调度中心服务器

（1）调度中心服务器负责多媒体对象流转的整个调度过程，通过上下行内容接口服务接收的多媒体对象，然后从内容数据库中获取多媒体对象的元信息。所有生产者发布内容的元信息都保存在这个内容数据库当中，重点是内容本身的元信息比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，视频文件大小，视频格式，是否原创的标记或者首发，还包括人工审核过程中对内容的分类。

（2）调度人工审核***和精准校验服务，控制调度的顺序和优先级。

（3）对于多媒体对象，先和召回检索服务通讯，然后和内容排重服务通讯，识别重复或者相似的多媒体对象。

（4）没有达到重复或相似的多媒体对象，输出多媒体对象之间的内容相似度和相似关系链，供推荐***打散使用。

（5）通过启用内容分发服务，通常如推荐引擎或者搜索引擎或者运营直接的展示页面，将通过人工审核***的多媒体对象提供给终端展示。

（6）负责和高阶语义标签挖掘服务通讯，完成多媒体对象的高阶语义标签挖掘补充处理。

五、人工审核***

（1）需要读取内容数据库中多媒体对象本身的原始信息，通常是一个业务复杂的基于web（网络）数据库开发的***，通过人工来对多媒体对象是否涉及异常信息进行判断，从而进行一轮初步过滤。

（2）在初步审核的基础之上，对多媒体对象进行二次审核，主要是对多媒体对象进行分类、标注标签或确认标签。通过在机器处理的结果上进行二次的人工审核处理，通过人机协作，提升多媒体对象对应的标签的准确性和标注效率。

（3）本申请实施例当中提到的关于高阶语义标签集合的处理可以借助人工审核***来核对和整理。

（4）人工审核***是人工服务能力的载体，可以用于审核敏感或者非法的内容，同时还对进行视频内容的标签标注和二次确认。

（5）人工审核过程当中，对于低质量的内容标题和优质的内容标题直接标记上报出来，作为后面机器学习训练的数据来源；对于点击率好的内容不错的标题文案信息，也可以按照要求进行标记，作为用于进行提示学习的样本数据。

六、内容存储服务

（1）通常由一组分布范围很广，方便终端就近接入的存储服务器组成。通常***还有CDN加速服务器进行分布式缓存加速，通过上下行内容接口服务将内容生产者上传的多媒体对象保存起来。

（2）内容消费端在获取索引信息后，也可以直接访问内容存储服务器下载对应的多媒体对象。

（3）除了作为对外服务的数据源以外，还作为对内服务的数据源，供下载文件***获取原始的多媒体对象数据以进行相关的处理，内外数据源的通路通常是分开部署的，避免相互影响。排重过程当中，发现完全一样的数据在内容存储服务上只需要保存一份，多余的会被删除掉，节省存储空间。

七、文案样本数据库

（1）从人工审核标记的内容元数据服务当中，读取优质文案的数据和低质量标题的数据。

（2）为构建文案生成模型和提示学习提供样本数据源，同时也保存定期挖掘的后验结果不错的文案数据，让文案生成模型保持定期的更新，更好适应业务的发展。

八、智能文案生成模型

（1）按照上面提到的模型构造过程来构建文案生成模型，核心是基于大型生成式语言模型，通过提示学习进行参数调整。

九、智能文案生成服务

（1）将文案生成模型服务化，对于用于推送运营或者特定分发场景下的内容，通过调度中心服务于文案生成服务，生成多种不同规格和要求的文案。

（2）按照实际下游业务的不同场景选择对应的文案内容分发给不同的用户。

十、统计接口和分析服务

（1）接受内容消费端和人工审核***分别在内容消费过程当中和内容审核处理过程当中的统计数据上报，同时对上报的数据进行量化的分析确定不同文案的后验消费数据及分布，比如对应标题的内容的点击率，后验消费时长等等。

十一、内容排重服务

（1）和调度中心服务器进行通讯，主要任务包括标题去重、封面图的图片去重、内容正文去重及视频指纹和音频指纹去重。对于图文内容对象，通常是将图文内容对象的标题和正文向量化，采用simmhash（文本指纹）及BERT等方式生成正文特征向量并去重，确定图片特征向量并去重。对于视频内容对象，抽取视频指纹和音频指纹构建视频特征向量，然后计算视频特征向量之间的距离，比如欧式距离来确定视频内容是否重复。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的文案生成装置的框图。该装置具有实现上述文案生成方法的功能，上述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置可以包括：

内容理解模块901，用于对多媒体对象进行内容理解处理，得到目标内容信息，上述目标内容信息包括上述多媒体对象对应的多模态内容；

提示信息构建模块902，用于将上述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，上述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，上述模板提示数据包括上述多模态内容与预设文案模板，上述预设文案模板包括待预测的文案内容标签；

文案预测模块903，用于将上述目标模板提示信息输入上述文案生成模型中的文案生成器，触发上述文案生成器基于上述目标模板提示信息对上述待预测的文案内容标签进行内容预测，得到标签预测结果；根据上述预设文案模板和上述标签预测结果得到文案填充信息，在上述文案填充信息中提取目标文案；

其中，上述文案生成器由大型生成式语言模型结合上述模板构造器进行提示学习得到。

在一个实施例中，上述模板构造器包括任务定义模板构造单元、任务输入模板构造单元、任务输出模板构造单元，上述提示信息构建模块902，用于执行下述操作：

上述任务定义模板构造单元生成任务定义描述信息，上述任务定义描述信息包括下述至少一项内容：任务描述提示方式、任务要求信息、关键内容信息和个性化风格要求信息；

上述任务输入模板构造单元基于上述目标内容信息生成任务输入信息；

上述任务输出模板构造单元生成任务输出提示信息，上述任务输出提示信息包括下述至少一项内容：字数要求信息、关键字信息、生成结果提示信息；

根据上述任务描述信息、上述任务输入信息和上述任务输出提示信息，生成上述预设文案模板，上述任务定义描述信息和上述任务输出提示信息中均包括上述待预测的文案内容标签；

根据上述预设文案模板和上述多模态内容，生成上述目标模板提示信息。

在一个实施例中，上述对多媒体对象进行内容理解处理，得到目标内容信息，包括：根据下述至少一类内容信息生成上述目标内容信息：

视频图像内容信息，在上述多媒体对象为视频类对象的情况下，上述视频图像内容信息为根据上述多媒体对象中的帧图像或封面图像得到的信息；

业务分类信息，上述业务分类信息包括上述多媒体对象在多媒体内容库中对应的分类信息、分级信息或携带的标签信息；

文本信息，上述文本信息包括上述多媒体对象的自身的内容文本信息，或者基于上述多媒体对象识别到的文字信息；

风格信息，上述风格信息包括文本生成场景对应的文本风格信息或者用户个性化风格信息。

在一个实施例中，上述装置应用于文案生成***，上述文案生成***包括内容理解模型和与上述内容理解模型通信连接的上述文案生成模型，上述内容理解模型包括与每一类内容信息对应的内容提取单元，上述内容理解模型包括下述至少一个内容提取单元：视频图像内容理解单元、业务分类信息提取单元、文本内容理解单元、风格信息提取单元。

在一个实施例中，上述装置包括训练模块904，上述训练模块904用于训练文案生成***中的文案生成器，具体地，上述训练模块904用于执行下述操作：

上述内容理解***对样本多媒体对象进行内容理解得到样本内容信息；

将上述样本内容信息输入上述模板构造器，得到样本模板提示信息；

将上述样本模板提示信息输入预训练的大型生成式语言模型，触发上述大型生成式语言模型对上述样本模板提示信息中的待预测的文案内容标签进行内容预测，以及根据内容预测结果得到预测文案；

根据上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，调节上述大型生成式语言模型的参数，得到上述文案生成器。

在一个实施例中，上述训练模块904用于执行下述操作：

对上述大型生成式语言模型中预设参数进行冻结处理；

基于上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，计算交叉熵损失；

根据上述交叉熵损失，调整上述大型生成式语言模型中未被冻结的参数，得到上述文案生成器。

在一个实施例中，上述装置还包括强化反馈模块，上述强化反馈模块用于执行下述操作：

获取上述目标文案对应的评分，上述评分表征上述目标文案的文案质量；

根据上述目标文案和上述目标文案的文案质量，构建文案评分模型；

根据上述文案评分模型对上述文案生成器生成的、针对同一多媒体对象的不同文案进行选择，得到上述同一多媒体对象的推荐文案。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述文案生成方法。具体来讲：

计算机设备1000包括中央处理单元（Central Processing Unit ，CPU）1001、包括随机存取存储器（Random Access Memory ，RAM）1002和只读存储器（Read Only Memory，ROM）1003的***存储器1004，以及连接***存储器1004和中央处理单元1001的***总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***（I/O（Input/Output）***）1006，和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到***总线1005的大容量存储控制器（未示出）连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者CD-ROM（Compact Disc Read-Only Memory，只读光盘）驱动器之类的计算机可读介质（未示出）。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM（Erasable Programmable Read Only Memory，可擦除可编程只读存储器）、EEPROM（Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器）、闪存或其他固态存储其技术，CD-ROM、DVD（Digital Video Disc，高密度数字视频光盘）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在***总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***（未示出）。

上述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述文案生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述文案生成方法。

具体地，该文案生成方法包括：

对多媒体对象进行内容理解处理，得到目标内容信息，上述目标内容信息包括上述多媒体对象对应的多模态内容；

将上述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，上述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，上述模板提示数据包括上述多模态内容与预设文案模板，上述预设文案模板包括待预测的文案内容标签；

将上述目标模板提示信息输入上述文案生成模型中的文案生成器，触发上述文案生成器基于上述目标模板提示信息对上述待预测的文案内容标签进行内容预测，得到标签预测结果；根据上述预设文案模板和上述标签预测结果得到文案填充信息，在上述文案填充信息中提取目标文案；

在一个实施例中，上述模板构造器包括任务定义模板构造单元、任务输入模板构造单元、任务输出模板构造单元，上述将上述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，包括：

在一个实施例中，上述方法应用于文案生成***，上述文案生成***包括内容理解模型和与上述内容理解模型通信连接的上述文案生成模型，上述内容理解模型包括与每一类内容信息对应的内容提取单元，上述内容理解模型包括下述至少一个内容提取单元：视频图像内容理解单元、业务分类信息提取单元、文本内容理解单元、风格信息提取单元。

在一个实施例中，上述文案生成***中的文案生成器通过下述方法训练得到：

在一个实施例中，上述根据上述预测文案、与上述样本多媒体对象对应的预设文案之间的差异，调节上述大型生成式语言模型的参数，得到上述文案生成器，包括：

对上述大型生成式语言模型中预设参数进行冻结处理；

在一个实施例中，上述方法还包括：

可选地，该计算机可读存储介质可以包括：ROM（Read Only Memory，只读存储器）、RAM（Random Access Memory，随机存取记忆体）、SSD（Solid State Drives，固态硬盘）或光盘等。其中，随机存取记忆体可以包括ReRAM（Resistance Random Access Memory，电阻式随机存取记忆体）和DRAM（Dynamic Random Access Memory，动态随机存取存储器）。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文案生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

另外，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文案生成方法，其特征在于，所述方法包括：

将所述目标模板提示信息输入所述文案生成模型中的文案生成器，触发所述文案生成器基于所述目标模板提示信息对所述待预测的文案内容标签进行内容预测，得到标签预测结果；

根据所述预设文案模板和所述标签预测结果得到文案填充信息，在所述文案填充信息中提取目标文案；

其中，所述文案生成器由大型生成式语言模型结合所述模板构造器进行提示学习得到，所述文案生成器基于样本内容信息，以及将所述样本内容信息输入所述模板构造器所得到的样本模板提示信息训练得到；所述模板构造器用于生成下述至少一项内容：任务描述提示方式、任务要求信息、关键内容信息、个性化风格要求信息、字数要求信息、关键字信息、生成结果提示信息。

2.根据权利要求1所述的方法，其特征在于，所述模板构造器包括任务定义模板构造单元、任务输入模板构造单元、任务输出模板构造单元，所述将所述目标内容信息输入文案生成模型中的模板构造器进行模板构造，得到目标模板提示信息，包括：

所述任务定义模板构造单元生成任务定义描述信息，所述任务定义描述信息包括下述至少一项内容：任务描述提示方式、任务要求信息、关键内容信息和个性化风格要求信息；

所述任务输入模板构造单元基于所述目标内容信息生成任务输入信息；

所述任务输出模板构造单元生成任务输出提示信息，所述任务输出提示信息包括下述至少一项内容：字数要求信息、关键字信息、生成结果提示信息；

根据所述任务定义描述信息、所述任务输入信息和所述任务输出提示信息，生成所述预设文案模板，所述任务定义描述信息和所述任务输出提示信息中均包括所述待预测的文案内容标签；

根据所述预设文案模板和所述多模态内容，生成所述目标模板提示信息。

3.根据权利要求1或2所述的方法，其特征在于，所述对多媒体对象进行内容理解处理，得到目标内容信息，包括：根据下述至少一类内容信息生成所述目标内容信息：

视频图像内容信息，在所述多媒体对象为视频类对象的情况下，所述视频图像内容信息为根据所述多媒体对象中的帧图像或封面图像得到的信息；

业务分类信息，所述业务分类信息包括所述多媒体对象在多媒体内容库中对应的分类信息、分级信息或携带的标签信息；

文本信息，所述文本信息包括所述多媒体对象的自身的内容文本信息，或者基于所述多媒体对象识别到的文字信息；

风格信息，所述风格信息包括文本生成场景对应的文本风格信息或者用户个性化风格信息。

4.根据权利要求3所述的方法，其特征在于，所述方法应用于文案生成***，所述文案生成***包括内容理解模型和与所述内容理解模型通信连接的所述文案生成模型，所述内容理解模型包括与每一类内容信息对应的内容提取单元，所述内容理解模型包括下述至少一个内容提取单元：视频图像内容理解单元、业务分类信息提取单元、文本内容理解单元、风格信息提取单元。

5.根据权利要求4所述的方法，其特征在于，所述文案生成***中的文案生成器通过下述方法训练得到：

所述内容理解模型对样本多媒体对象进行内容理解得到样本内容信息；

将所述样本内容信息输入所述模板构造器，得到样本模板提示信息；

将所述样本模板提示信息输入预训练的大型生成式语言模型，触发所述大型生成式语言模型对所述样本模板提示信息中的待预测的文案内容标签进行内容预测，以及根据内容预测结果得到预测文案；

根据所述预测文案、与所述样本多媒体对象对应的预设文案之间的差异，调节所述大型生成式语言模型的参数，得到所述文案生成器。

6.根据权利要求5所述的方法，其特征在于，所述根据所述预测文案、与所述样本多媒体对象对应的预设文案之间的差异，调节所述大型生成式语言模型的参数，得到所述文案生成器，包括：

对所述大型生成式语言模型中预设参数进行冻结处理；

基于所述预测文案、与所述样本多媒体对象对应的预设文案之间的差异，计算交叉熵损失；

根据所述交叉熵损失，调整所述大型生成式语言模型中未被冻结的参数，得到所述文案生成器。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标文案对应的评分，所述评分表征所述目标文案的文案质量；

根据所述目标文案和所述目标文案的文案质量，构建文案评分模型；

根据所述文案评分模型对所述文案生成器生成的、针对同一多媒体对象的不同文案进行选择，得到所述同一多媒体对象的推荐文案。

8.一种文案生成装置，其特征在于，所述装置包括：

9.一种文案生成***，其特征在于，所述***包括：内容理解模型、文案生成模型和文案评分模型，所述内容理解模型和所述文案评分模型均与所述文案生成模型通信连接，

文案生成模型的模板构造器用于基于所述目标内容信息进行模板构造，得到目标模板提示信息，所述目标模板提示信息为用于约束目标文案的生成结果的模板提示数据，所述模板提示数据包括所述多模态内容与预设文案模板，所述预设文案模板包括待预测的文案内容标签；文案生成模型的文案生成器用于得到标签预测结果；所述文案生成模型还用于根据所述预设文案模板和所述标签预测结果得到文案填充信息，在所述文案填充信息中提取目标文案；其中，所述文案生成器由大型生成式语言模型结合所述模板构造器进行提示学习得到，所述文案生成器基于样本内容信息，以及将所述样本内容信息输入所述模板构造器所得到的样本模板提示信息训练得到；所述模板构造器用于生成下述至少一项内容：任务描述提示方式、任务要求信息、关键内容信息、个性化风格要求信息、字数要求信息、关键字信息、生成结果提示信息；

所述文案评分模型用于对所述目标文案的质量进行评分。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的文案生成方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的文案生成方法。