CN116861913A

CN116861913A - 基于gpt大模型的立场检测方法及相关设备

Info

Publication number: CN116861913A
Application number: CN202310519543.3A
Authority: CN
Inventors: 王玉龙; 苏森; 宋佳璇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-10-10

Abstract

本公开提供一种基于GPT大模型的立场检测方法及相关设备，所述方法包括：获取预训练的GPT大模型；获取所述GPT大模型的初始立场检测数据；获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据；基于包括所述外部信息数据的立场检测数据训练所述GPT大模型。本公开的方法通过对预训练语言模型进行训练微调，使用外部信息数据融合的立场检测数据作为数据集，采用结合反馈的强化学习的训练方法对模型进行训练，指导模型进行立场预测，从而获取立场检测模型用于实际任务。提高了模型的学习效率以及适应能力，模型的行为能够得到及时的调整。同时缓解了传统机器学习算法的不可解释性和脆弱性，提高模型的精度。

Description

基于GPT大模型的立场检测方法及相关设备

技术领域

本发明属于数据学习处理技术领域，尤其涉及一种基于GPT大模型的立场检测方法及相关设备。

背景技术

立场检测是指识别文本中作者或者说话者对于某个话题或观点的立场或态度。这个话题或观点可以是多方面的，而作者或说话者的态度可以是支持、反对或中立。在自然语言处理领域，立场检测是一项重要的任务，它可以用于社交媒体检测、产品评估等领域。立场检测的主要挑战在于识别文本中的情感、语气、语境等信息，并将它们与特定话题或观点联系起来。这通常需要结合自然语言处理技术，如词向量表示、情感分析、命名实体识别等，以及机器学习算法如支持向量机、逻辑回归等来进行分类。

传统的立场检测方法主要是基于人工文本处理和数据分析方法，例如利用情感词典和规则来判断文本的情感极性，以及基于统计学方法进行数据分析。这些方法有着很多局限性；例如需要人工制定规则、需要专业的领域知识以及对数据要求较高等等。随着人工智能的发展，基于机器学习和深度学习的方法逐渐成为立场检测的主流方法。通过使用大规模数据集和强大的计算资源，机器学习和深度学习方法可以从数据中自动学习特征，并对立场进行更准确的分析和预测。

现有技术中的方法大都有基于词语或句子级别的建模限制即当前的立场检测方法通常是基于文本的词语或句子级别的建模，而忽略了上下文和语境的重要性。另外也存在数据集匮乏的问题，那么如何使用少量的标记数据来训练出一个立场检测模型也是一个重要的问题。同时，由于立场检测的数据和话题类型非常多样化，所以需要能够泛化到未曾见过的话题和数据上的模型。现存的负面效应是关键***建设智能化亟待解决的问题。

发明内容

针对上述问题，本发明的目的在于提供一种能够提高立场检测模型的准确性和高效性的基于GPT大模型立场检测方法及相关设备。

从上面所述可以看出，本公开在第一方面提供一种基于GPT大模型的立场检测方法，包括：

获取预训练的GPT大模型；

获取所述GPT大模型的初始立场检测数据；

获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据；

基于包括所述外部信息数据的立场检测数据训练所述GPT大模型。

在一些可选的实施例中，所述获取预训练的GPT大模型，包括：

基于当前应用场景选取对应的GPT大GPT大模型；

将选取的所述GPT大模型加载至计算机内存中。

在一些可选的实施例中，所述获取所述GPT大模型的初始立场检测数据，包括：

选择立场检测目标；

基于所述立场检测目标获取初始立场检测数据。

在一些可选的实施例中，所述基于所述立场检测目标获取初始立场检测数据之后，所述方法还包括：

筛选所述初始立场检测数据中的非法数据和冗余数据；

输出滤除所述非法数据和冗余数据的所述初始立场检测数据。

在一些可选的实施例中，所述获取外部信息数据，将所述外部信息数合并至所述初始立场检测数据，包括：

获取发文历史；

基于所述发文历史提取发文主体特征作为外部信息数据；

将所述发文主体特征与所述初始立场检测数据的文本相结合；

将结合所述发文主体特征的初始立场检测数据输出为后续模型。

在一些可选的实施例中，所述将所述发文主体特征与所述初始立场检测数据的文本相结合，包括：

将所述发文主体特征的向量与所述初始立场检测数据的向量相拼接。

在一些可选的实施例中，所述基于包括所述外部信息数据的立场检测数据训练所述GPT大模型，包括：

收集反馈数据；

对所述预训练的GPT大模型进行立场检测，获取模型的预测正确性；

基于所述模型的正确性生成反馈结果，并将所述反馈结果与预测结果绑定，形成反馈循环；

迭代所述反馈循环，训练所述GPT大模型。

在第二方面，基于同一发明构思，公开一种基于GPT大模型的立场检测装置，包括：

GPT大模型获取模块，用于获取预训练的GPT大模型；

数据获取模块，用于获取所述GPT大模型的初始立场检测数据；

数据融合模块，用于获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据；

训练模块，用于基于包括所述外部信息数据的所述初始训练数据训练所述GPT大模型。

在第三方面，基于同一发明构思，还公开一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述程序时实现如上述任意一项方案中所述的方法。

在第四方面，基于同一发明构思，还公开一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行根据上述方案中任一项所述的方法。

从上面所述可以看出，本公开提供的基于GPT大模型立场检测方法及相关设备，通过对预训练语言模型进行训练微调，使用外部信息数据融合的立场检测数据作为数据集，采用结合反馈的强化学习的训练方法对模型进行训练，指导模型进行立场预测，从而获取立场检测模型用于实际任务。本申请提高了模型的学习效率以及适应能力，模型的行为能够得到及时的调整。同时缓解了传统机器学习算法的不可解释性和脆弱性，借助反馈来解释智能体的决策过程，使其更容易被理解和接受。同时在能够在一定程度上减缓噪声和不确定性的影响，提高模型的精度。引入外部信息数据可以帮助模型更好地理解上下文，掌握发文主体的特征，帮助模型更好地进行立场检测。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的现有的强化学习方法的流程图；

图2为本公开实施例的立场检测方法的流程图；

图3为本公开实施例的立场检测装置的结构示意图；

图4为本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

在具体描述本申请提供的一种基于GPT大模型立场检测方法及相关设备之前，首先描述本申请的应用场景和发明构思。

随着信息技术的快速发展和互联网的普及，人们获取信息的方式和渠道也发生了巨大的变化，社会上各种信息形态、来源、主体和传播方式呈现多元化、复杂化的趋势。同时，人们对信息的需求和关注度也越来越高，信息量和信息速度呈爆发式增长。在这样的背景下，开源情报分析变得越来越重要。开源情报分析是指利用公开的信息来源，通过收集、处理、分析和评估情报信息，以支持特定的业务需要和决策。而立场检测又是开源情报分析的重要步骤，它可以帮助政府、企业、组织等各种主体快速了解社会大众的需求、反应和态度，及时发现和解决问题，更好地与公众沟通和互动，帮助组织和个人更好地理解和应对复杂的环境和风险，发现机会和优势，并支持更好的决策和战略规划。

立场检测是指自然语言处理中的一项任务，目标是判断给定文本中所表达的观点或态度与某个特定话题之间的立场关系，通常包括支持、反对、中立等几种。立场检测在社交媒体分析、市场研究等领域有着广泛的应用，可以帮助分析师了解公众对某个话题的看法、态度和倾向。

常用的立场检测方法主要有基于规则的方法，即使用人工制定的规则来判断文本的立场，例如根据文本中是否包含特定的关键词或短语来判断文本的立场，这种方法依赖于预先设定的规则或特征，如情感词汇、关键词、命名实体等。这种方法通常需要专业知识和领域经验，并且难以应对复杂多变的语言现象。

另外，还有基于机器学习的方法，这种方法不需要预先设定规则或特征，而是利用大量标注好的数据集进行训练，学习文本中不同特征与立场之间的关系，并通过分类器来预测文本的立场或情感。即通过构建一个分类器，将文本分为不同的立场类别，通常使用一些特征表示文本，如词袋模型、TF-IDF算法等；基于深度学习的方法，即使用深度学习模型来判断文本的立场，通常使用词嵌入将文本转化为向量表示，然后输入到神经网络中进行分类。这种方法可以自适应地适应不同地语言现象和领域特点，并且可以利用深度学习等新兴技术来提高检测效果和精度。

当前，基于深度学习的方法在立场检测任务中取得了较好的效果，尤其是预训练模型(如BERT、RoBERTa等)的应用，使得立场检测的精度得到了进一步提升。这种方法首先需要获取一个预训练语言模型，预训练语言模型是指在大规模语料库上预训练的语言模型，该模型能够学习到更好的语言表示，帮助其在下游任务中取得更好的性能。预训练语言模型通常采用无监督的方式进行训练，即在大规模未标注的数据上训练模型。例如Google的BERT、OpenAI的GPT等。这些模型采用了深度神经网络来学习词汇的分布式表示，使得每个单词被表示为一个高维向量，同时该向量捕获了单词的语义和上下文信息。

GPT模型的全称为"Generative Pre-training Transformer"，中文名称为"生成式预训练变压器"。它在研发出之后，是一种基于Transformer结构的大规模自然语言处理模型。它的本质是通过预训练的方式对大量文本数据进行学习，从而达到精准预测和生成文本的目的。GPT模型采用了Transformer结构，它的核心是Self-Attention机制。通过Self-Attention机制，GPT模型能够理解上下文语义，进而生成符合语境的文本。同时，GPT模型还使用了深度生成网络和Masked语言模型等技术，从而进一步提升了生成文本的质量。

GPT系列模型的基本框架大都采用预训练、微调两个阶段，都是采取Transformer作为特征抽取器。第一阶段预训练阶段采用“单向语言模型”作为训练任务，把语言知识编码到Transformer中。第二阶段会在第一阶段训练好的模型的基础上，通过微调来做具体的自然语言处理任务。GPT-2相较于其前辈GPT-1的主要区别在于：首先，它将第二阶段的微调做有监督的下游自然语言处理任务换成了无监督地做下游任务。其次，GPT-2把Transformer模型的参数进行扩容，常规的Transformer Big包含24个叠加的Block。而GPT-2将其扩充到48个。这意味着GPT-2可以用更大的训练数据来做预训练，模型越大意味着参数越大，模型的容量也就更高，这样模型才能容纳下更多的自然语言知识。同时，GPT-2的训练数据质量也得到了提高，GPT-2采用了800万互联网网页作为训练数据，其覆盖的主体范围十分广泛，这就使得GPT-2的通用性好，可以用于任意领域的下游任务，同时还做了数据质量筛选，过滤出高质量的网页用于模型训练。

目前的立场检测方法仍然存在一些问题，主要包括以下几个方面：

1.数据稀缺问题：立场检测需要大量标注的数据集，但是对于某些特定话题或领域，很难找到足够的数据集进行从头训练。

2.立场细粒度问题：现有的立场检测方法通常只能识别简单的二分类问题，如支持和反对。但是，在实际应用中，往往需要进行更细粒度的立场识别，例如支持度量(如赞成度、部分赞成度)和反对度量(如部分反对毒)等。

3.鲁棒性问题：立场检测的性能往往受到语言变体、噪声和歧义等因素的影响，因此需要考虑如何提高算法的鲁棒性。

传统的强化学习方法通常需要在一个环境中进行大量的试错和学习，以获得最优的策略。然而，在某些情况下，环境的模型和奖励函数可能不是很清晰，甚至是主观的。在这种情况下，通过人类专家的反馈来引导强化学习的过程可能会更加有效。

人类反馈强化学习(RLHF)是一种结合人类反馈的强化学习方法，其思想实在强化学习的过程中，将人类专家的反馈作为额外的奖励信号来辅助训练。强化学习是一种通过智能体与环境交互进行学习的机器学习方法。在强化学习中，智能体会通过观察环境的状态，采取相应的行动来最大化预期的长期奖励。这种学习方法最常见的应用是在游戏中，例如AlphaGo的胜利以及在机器人控制等领域。

然而，在某些任务中，强化学习可能需要消耗大量时间和资源来获得高质量的策略。为了加速强化学习的学习过程，提出了人类反馈强化学习(RLHF)。这种方法是在强化学习中加入人类专家的指导，以提高智能体学习的效率和准确性。在RLHF中，人类专家会提供有关智能体即模型所采取行动即预测结果的反馈信息，这种反馈信息可以是正向的(表明该预测结果较好)，也可以是负向的(表明该预测结果较差)。RLHF分为两个阶段：训练和测试。在训练阶段，人类专家会提供反馈信息来指导模型的学习过程。在测试阶段，模型会在没有人类专家的帮助下运行，以测试它所学习到的策略的效果。

RLHF的常用流程如图1所示，首先将预训练模型在下游任务数据集上进行微调，但这一步不是必须的。该步骤中训练数据的质量较为重要，如果有条件可以使用人工筛选的优质语料进行微调。接下来需要训练奖励模型，奖励模型的目标是刻画模型的输出是否符合人类的预期，对于模型在多个文本上的输出，使用人工对这些输出按照一定的标准如正确性或常理性进行排序，训练一个奖励模型来打分。最后使用强化学习来训练经过微调的GPT-2模型。

RLHF的优点在于它可以使模型在学习过程中更快地掌握正确的行动方式，从而减少学习时间和资源。此外，它还可以避免模型在学习过程中陷入错误的局面，并且可以保证学习到的策略更加稳定和可靠。

根据上述对现有方法技术的分析，本申请实施例提出了一种基于预训练模型的立场检测方法，本方法使用了人类反馈强化学习(RLHF)方法。致力于弥补现有攻击方法的缺陷，在一定程度上提高立场检测的准确率和效率。

结合图2所示，本发明实施例提供一种基于预训练模型的立场检测方法，包括，

S1：获取预训练的GPT大模型；

S2：获取所述GPT大模型的初始立场检测数据；

S3：获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据；

S4：基于包括所述外部信息数据的所述初始立场检测训练所述GPT大模型。

本申请实施例提供的基于GPT大模型的立场检测方法能够基于人类反馈强化学习(RLHF)方法提供的反馈，提高了模型的学习效率以及适应能力，模型的行为能够得到及时的调整。同时缓解了传统机器学习算法的不可解释性和脆弱性，借助人类反馈来解释智能体的决策过程，使其更容易被理解和接受。同时在能够在一定程度上减缓噪声和不确定性的影响，提高模型的精度。引入外部信息数据可以帮助模型更好地理解上下文，掌握发文主体的特征，帮助模型更好地进行立场检测；为立场检测任务提供了基于强化学习和外部信息融合的方法，用于提高立场检测任务的准确性和可靠性，并以此帮助开源分析的自动化、智能化转变。

在一些可选的实施例中，步骤S1：获取预训练的GPT大模型，包括：

S101：基于当前应用场景选取对应的GPT大模型；

S102：将选取的所述GPT大模型加载至计算机内存中。

在本实施例中，所述GPT大模型选用为GPT-2模型，

其中，预训练语言模型可以通过学习大量的文本数据，自动获取语言的语法、语义和语用知识，从而提高自然语言处理任务的表现。

同时，预训练语言模型在大规模文本语料库上进行预训练，从而在许多任务中取得良好的表现，可以使用少量标注数据来进行微调，从而减少了大量标注数据的需求。使用工具如HuggingFace Transformers库将GPT-2预训练模型加载到计算机内存中。

在一些可选的实施例中，步骤S2：获取所述GPT大模型的初始立场检测数据，包括：

S201：选择立场检测目标；以此作为社交媒体的搜索输入；

S202：基于所述立场检测目标获取初始立场检测数据；所述初始立场检测数据至少包括目标、发文内容、发文主体、发文时间。

S203：筛选所述初始立场检测数据中的非法数据和冗余数据；

S204：输出滤除所述非法数据和冗余数据的所述初始立场检测数据。

对数据进行基本的数据清洗，过滤无效数据和冗余数据。

具体地，使用爬虫技术获取初始立场检测数据，在社交媒体或新闻网站上，以支持或反对某立场目标为关键词进行搜索，然后使用自动化手段获取一定量的文本数据。这些文本数据的支持或反对立场即为其标签，以此构成一批带标签的立场检测数据集，用于之后的微调，以提高模型在立场检测任务中的性能。除了发文信息外，还需要获取发文主体、发文时间等信息用于之后步骤使用。

其中，对于立场检测数据的获取，首先需要确定立场检测的目标，即某个事件或某个观点，该目标即为数据的真实标签。随后获取发文内容、发文主体、发文时间，发文内容即为模型的原始输入，发文主体和发文时间用于后续步骤中的内外部知识融合。获取到的训练数据可能包含部分的干扰或冗余，可使用数据清洗工具对其进行清洗。

在一些可选的实施例中，步骤S202的执行步骤可以包括：

S2021：安装selenium和对应的浏览器驱动；

S2022：自动化启动浏览器；

S2023：访问目标网页并查找网页元素；

S2024：解析网页数据。

Selenium是一个自动化Web测试工具，它允许使用不同的编程语言来控制Web浏览器，模拟用户的交互操作，比如点击、输入文本、滚动等。使用Selenium来模拟用户在社交媒体上搜索特定立场检测目标的操作，获得目标页面并查找所需的网页元素，最后解析网页数据获得所需要的信息。

需要注意的是，爬虫在爬取网络数据时需要遵循法律法规和网站的使用规定，不得进行未经授权的抓取，否则可能会受到法律风险和道德谴责。此外，为了防止对目标网站造成过大的负担，爬虫应该遵循爬虫道德规范，比如设置合理的抓取间隔、限制抓取范围等。

在一些可选的实施例中，所述步骤S3：获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据，包括：

S301：获取发文历史；包括历史发文、历史互动等信息；

S302：基于所述发文历史提取发文主体特征作为外部信息数据；

S303：将所述发文主体特征与所述初始立场检测数据的文本相结合；

S304：将结合所述发文主体特征的初始立场检测数据输出为后续模型。

具体地，本步骤是将外部信息数据和原始立场检测数据进行结合或拼接。这是两段数据(外部信息可能是文本或者一些用户关系网络)，将这两段数据合并成一段。

其中，外部信息数据是指与输入无关的信息，例如实体的属性、关系、事件、背景等。如果仅仅使用输入的文本数据而不引入外部知识，那么模型可能无法全面地理解语言的含义和上下文。对于上一步中所获取的每条训练数据均包含一个发文主体，使用自动化脚本获取该发文主体的历史行为，包括历史发文、互动行为等，以此作为外部信息数据知识，通过历史行为分析得到发文主体的个性特征，如激进、好战、发动等特征词。

基于以下前提：发文主体的立场及喜好短时间内不会发生反差性改变，即对于某事件，发文主体短期内态度立场大致相同，或者发文人的情绪表达意图短时间内不对发生较大改变。因此针对某条训练数据，发文主体的历史行为与该条数据大概率具有相似的情感色彩或大致立场。针对所分析出的个性特征，选出若干个离散或连续的词嵌入，并将词嵌入与原始输入融合，从而达到内外部知识融合的目的，同时也将原始输入赋予发文主体个性特征。

需要说明的是，社交媒体上的每一条发文，都包含发文主体、发文内容和发文时间。发文主体在发表某些言论时，一定会或多或少地附加一些个人情绪或者个人喜好特征。比如一个好战分子在其言论中都会或多或少的体现出一种好战地倾向或是一种暴怒冲动的情绪。同时，它也会在社交媒体上点赞或者转发一些好战内容，即其存在符合其特征的互动行为。基于这种特征，当进行立场检测时，首先获取发文主体的历史行为数据，并输入到一个特定的模型，该模型输出一个连续的向量，表示该发文主体的特征：

feature＝f(history)＝{t₁,t₂,t₃,……,t_n}

其中，feature表示为外部信息数据，f(history)表示为历史行为数据，t_n表示为各个数据。

将该特征与原始文本信息进行结合，可以理解为给原始文本附加上一定的主观色彩，将发文主体的个性特征和情绪喜好信息融入到其发文内容中，得到融合内外部知识的输入input^′：

input＝x₁,x₂,x₃,……x_n

input^′＝concatenate(feature,input)

其中，input^′表示为融合发文主体特征的立场检测数据，feature为发文主体特征，input为初始立场检测数据。

在一些可选的实施例中，步骤S303：将所述发文主体特征与所述初始立场检测数据的文本相结合，包括：

具体地，将提取到的发文主体特征向量与原始文本的词嵌入表示进行结合，即两向量进行拼接，拼接后的词嵌入会包含发文主体的立场特征，使得文本内容的立场表达更加明显，引导模型正确预测立场。

在一些可选的实施例中，步骤S4：基于包括所述外部信息数据的所述初始立场检测训练所述GPT大模型，包括：

S401：收集反馈数据；

S402：对所述预训练的GPT大模型进行立场检测，获取模型的预测正确性；

S403：基于所述模型的正确性生成反馈结果，并将所述反馈结果与预测结果绑定，形成反馈循环；

S404：迭代所述反馈循环，训练所述GPT大模型。

还需要定义任务和奖励，任务是使用GPT大模型对输入进行立场检测，奖励定义为模型预测正确时的分数；

并且定义人类反馈，将GPT大模型与人类进行交互，让人类根据模型的分类结果给出反馈，使用强化学习来优化模型的分类性能。

首先通过在线调查、焦点小组讨论、专家评估等方式收集人类反馈数据，该数据用于训练RLHF模型。之后引入预训练的GPT-2模型作为初始立场检测模型并将RLHF模型引入到立场检测模型中，以使其能够从人类反馈中学习并调整其预测。将人类反馈数据与当前模型的预测结果结合在一起，形成一个反馈循环，使RLHF模型能够根据人类反馈对其预测进行调整。通过不断地迭代反馈循环，逐步微调模型，提高其预测准确性和鲁棒性。

其中，步骤S402的具体实现包括：

人类反馈强化学习(RLHF)结合了强化学习和人类反馈，它的目标是通过从人类反馈中学习来提高模型的预测准确性和鲁棒性。目前常见的RLHF模型有以下几种：

Bandit模型：Bandit模型是RLHF模型中最简单的一种，它只有一个状态和多个动作。在每个时间步骤上，模型会选择一个动作并接收相应的奖励。通过人类反馈中学习选择正确的动作，提高其预测准确性。

Q-Learning模型：Q-Learning模型是一个更复杂的RLHF模型，它可以处理多个状态和动作。在每个时间步骤上，模型会选择一个动作并接收相应的奖励。通过在每个状态中计算每个动作的Q值，并使用人类反馈调整Q值，提高模型的预测准确性。

Actor-Critic模型：Actor-Critic模型结合了策略梯度和值函数的方法。在每个时间步骤上，模型会选择一个动作并接收相应的奖励。通过从人类反馈中学习调整策略和值函数。

Imitation Learning模型：Imitation Learning模型通过从人类实例中学习来进行预测。在训练阶段，模型会学习人类的决策过程，并从中推断出正确的预测结果。通过与人类决策的比较，提高模型的预测准确性和鲁棒性。

在本实施例中，选用Actor-Critic模型，因在立场检测中，模型需要根据输入文本的上下文和语言风格等信息判断文本的立场，因此需要考虑到语境和上下文的影响。Actor-Critic模型可以学习到更复杂的策略，因此可以更好地处理此情况。

本公开提供的基于GPT大模型立场检测方法，通过对预训练语言模型进行训练微调，使用外部信息数据融合的立场检测数据作为数据集，采用结合反馈的强化学习的训练方法对模型进行训练，指导模型进行立场预测，从而获取立场检测模型用于实际任务。本申请提高了模型的学习效率以及适应能力，模型的行为能够得到及时的调整。同时缓解了传统机器学习算法的不可解释性和脆弱性，借助反馈来解释智能体的决策过程，使其更容易被理解和接受。同时在能够在一定程度上减缓噪声和不确定性的影响，提高模型的精度。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

结合图3所示，基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于GPT大模型的立场检测装置，包括：

GPT大模型获取模块1，用于获取预训练的GPT大模型；

数据获取模块2，用于获取所述GPT大模型的初始立场检测数据；

数据融合模块3，用于获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据；

训练模块4，用于基于包括所述外部信息数据的所述初始训练数据训练所述GPT大模型。

在一些可选的实施例中，所述GPT大模型获取模块1还用于：

基于当前应用场景选取对应的GPT大模型；

将选取的所述GPT大模型加载至计算机内存中。

在一些可选的实施例中，所述数据获取模块2还用于：

选择立场检测目标；

基于所述立场检测目标获取初始立场检测数据；

筛选所述初始立场检测数据中的非法数据和冗余数据；

在一些可选的实施例中，所述数据融合模块3还用于：

获取发文历史；

基于所述发文历史提取发文主体特征作为外部信息数据；

将结合所述发文主体特征的立场检测数据输出为后续模型。

在一些可选的实施例中，所述训练模块4还用于：

收集反馈数据；

迭代所述反馈循环，训练所述GPT大模型。

为了描述的方便，描述以上装置是以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于GPT大模型的立场检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于GPT大模型的立场检测方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于GPT大模型的立场检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于GPT大模型的立场检测方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于GPT大模型的立场检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于GPT大模型的立场检测方法，其特征在于，包括：

获取预训练的GPT大模型；

获取所述GPT大模型的初始立场检测数据；

2.根据权利要求1所述的基于GPT大模型的立场检测方法，其特征在于，所述获取预训练的GPT大模型，包括：

基于当前应用场景选取对应的GPT大模型；

将选取的所述GPT大模型加载至计算机内存中。

3.根据权利要求1所述的基于GPT大模型的立场检测方法，其特征在于，所述获取所述预训练模型的初始立场检测数据，包括：

选择立场检测目标；

基于所述立场检测目标获取初始立场检测数据。

4.根据权利要求3所述的基于GPT大模型的立场检测方法，其特征在于，所述基于所述立场检测目标获取初始立场检测数据之后，所述方法还包括：

筛选所述初始立场检测数据中的非法数据和冗余数据；

5.根据权利要求1所述的基于GPT大模型的立场检测方法，其特征在于，所述获取外部信息数据，将所述外部信息数据合并至所述初始立场检测数据，包括：

获取发文历史；

基于所述发文历史提取发文主体特征作为外部信息数据；

将结合所述发文主体特征的立场检测数据输出为后续模型。

6.根据权利要求5所述的基于GPT大模型的立场检测方法，其特征在于，所述将所述发文主体特征与所述初始立场检测数据的文本相结合，包括：

7.根据权利要求1所述的基于GPT大模型的立场检测方法，其特征在于，所述基于包括所述外部信息数据的立场检测数据训练所述预训练模型，包括：

收集反馈数据；

对所述预训练的预训练模型进行立场检测，获取模型的预测正确性；

迭代所述反馈循环，训练所述预训练模型。

8.一种基于GPT大模型的立场检测装置，其特征在于，包括：

GPT大模型获取模块，用于获取预训练的GPT大模型；

训练模块，用于基于包括所述外部信息数据的所述立场检测数据训练所述GPT大模型。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。