CN117291175B - 基于多个大语言模型统计特征融合的生成文本检测方法 - Google Patents

基于多个大语言模型统计特征融合的生成文本检测方法 Download PDF

Info

Publication number
CN117291175B
CN117291175B CN202311584926.5A CN202311584926A CN117291175B CN 117291175 B CN117291175 B CN 117291175B CN 202311584926 A CN202311584926 A CN 202311584926A CN 117291175 B CN117291175 B CN 117291175B
Authority
CN
China
Prior art keywords
text
model
generated
language models
feature fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311584926.5A
Other languages
English (en)
Other versions
CN117291175A (zh
Inventor
毛震东
张勇东
胡博
张立成
徐本峰
郭子康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311584926.5A priority Critical patent/CN117291175B/zh
Publication of CN117291175A publication Critical patent/CN117291175A/zh
Application granted granted Critical
Publication of CN117291175B publication Critical patent/CN117291175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言理解技术领域,公开了一种基于多个大语言模型统计特征融合的生成文本检测方法,通过由统计特征融合模型和分类模型组成的检测模型,检测生成的文本的类别标签;检测模型的构建方法包括:构建基于多个大语言模型的统计特征融合模型;构建分类模型;通过计算预测类别标签和真实标签的交叉熵损失函数来训练检测模型。本发明基于多个大语言模型的统计特征融合模型有效缓解了在多种类型语言模型生成不同的文本的情况下,模型拟合能力差和缺乏鲁棒性的问题。多统计特征融合降低了检测模型的不准确性和脆弱性。

Description

基于多个大语言模型统计特征融合的生成文本检测方法
技术领域
本发明涉及自然语言理解技术领域,具体涉及一种基于多个大语言模型统计特征融合的生成文本检测方法。
背景技术
随着大语言模型(LLM)的发展,机器已经能够生成语句通顺、逻辑性强的文本。其生成的文本可以辅助人类高效地解决大部分难题,但是机器生成的文本能够帮助人类的同时,也会被滥用生成假新闻、假评论等,给社会带来严重威胁。生成文本检测***旨在区分文本是由机器生成还是人类生成的,可以有效辅助人类抵抗机器生成文本带来的危害。近年来成为了自然语言处理领域的研究热点。随着国内外越来越多的大语言模型开源发布,语言模型生成文本的方法也多种多样,而不同类型的语言模型生成的文本也具有不同的特点和模式,对于未知模型生成的文本,无法判断其真实的特征概率分布,因此需要尝试找到与生成语言模型相似的模型进行检测,如果只使用单一语言模型统计特征进行检测则存在无法拟合其他类型语言模型生成的文本的特征信息的问题,会对该模型的特定生成方法和独特的概率分布弱拟合,从而在面对不同变体的生成文本模型时失效,导致检测模型准确率降低。同时仅通过生成的文本中的词频、文本复杂度等单一特征值判别文本是由机器生成还是人类生成无法全面评估其真实性和生成方式,不同特征对于不同类型的生成文本可能具有不同的敏感性。一些生成文本可能在某个特征上表现出异常而在其他特征上正常,就会导致误报率提高。因此如何使用一种生成文本检测模型对多种语言模型进行全面准确的文本生成检测成为了一个重大挑战。
考虑到单一语言模型的检测模型拟合能力差、缺乏鲁棒性和单一统计特征值评估不全面的情况。本发明希望结合多种特征和多模型集成学习方法,更有效地检测各种语言模型的生成文本,更全面的分析评估预测结果,以增强检测模型的拟合能力、鲁棒性和准确率。
发明内容
为解决上述技术问题,本发明提供一种基于多个大语言模型统计特征融合的生成文本检测方法,选择五个最常用的大语言模型(GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan)提取统计特征,挖掘不同语言模型的差异,然后对多种统计特征融合分析进行概率校准,最终实现生成文本的全面评估预测。
为解决上述技术问题,本发明采用如下技术方案:
一种基于多个大语言模型统计特征融合的生成文本检测方法,通过由统计特征融合模型和分类模型组成的检测模型,检测生成的文本的类别标签;检测模型的构建方法包括:
步骤一,构建基于多个大语言模型的统计特征融合模型:
统计特征融合模型使用对数似然、对数排名、熵和困惑度作为需要提取的统计特征,选择五个语言模型:GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan;将选择的语言模型作为代理模型,获取文本中每个单词的生成概率,得到单词在词汇表中的绝对排名,并计算对数似然、对数排名、熵和困惑度;
其中,对数似然用于评估语言模型在生成文本时的预测能力,衡量语言模型生成的文本在给定条件下的条件概率;
对数排名通过在计算单词排名时使用对数变换,将关于排名数值的线性关系平滑为曲线;
熵用于反映语言模型生成的文本的多样性,熵越低,则文本是被语言模型生成的可能性越大;
困惑度是用来评估语言模型好坏的指标,困惑度较低,则文本是被语言模型生成的可能性越大;
将对数似然、对数排名/>、熵/>和困惑度拼接得到的拼接特征记为/>,将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征/>按特征类型分别平均后,得到最终拼接特征/>
步骤二,构建分类模型:
分类模型包括一个输入层、两个隐藏层和一个输出层;输入层包括四个神经元,每个隐藏层包括16个神经元和ReLU激活函数;最后通过分类模型得到文本的类别标签概率分布
其中为分类器激活函数,/>是全连接网络,/>为偏置;
步骤三,通过计算和文本的真实标签/>的交叉熵损失函数来训练检测模型。
进一步地,训练检测模型时的训练数据集结构如下:
训练数据集,/>对应的标签集/>,且/>,/>为标签集合,/>为训练数据集的长度,/>是/>对应的类别标签;文本/>是一个单词序列/>,/>代表第个/>文本/>中的第/>个单词,/>为文本/>的长度。
进一步地,计算对数似然时:
表示给定前/>个单词的条件下,第/>个单词的预测概率分布。
进一步地,计算对数排名时:
表示给定前/>个单词的条件下预测第/>个单词时,第/>个单词在词汇表中的排名。
进一步地,计算熵时:
表示给定前/>个单词的条件下,第/>个单词预测为/>的概率。
进一步地,计算困惑度时:
先计算待检测的文本的概率/>
表示条件概率,计算待检测的文本/>的困惑度/>
每个文本中有/>个句子,即/>,/>代表第/>个句子;计算文本/>中每个句子/>的困惑度/>,并将所有句子的困惑度的平均值作为句级的困惑度/>
进一步地,将对数似然、对数排名/>、熵/>和困惑度拼接为拼接特征/>时:
其中代表拼接操作;将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征/>按特征类型分别平均后,得到最终拼接特征/>时:
与现有技术相比,本发明的有益技术效果是:
本发明提出了一种基于多个大语言模型的统计特征融合的生成文本检测方法,包括基于多个大语言模型的统计特征融合模型、分类模型两部分。基于多个大语言模型的统计特征融合模型有效缓解了在多种类型语言模型生成不同的文本的情况下,模型拟合能力差和缺乏鲁棒性的问题。多统计特征融合降低了检测模型的不准确性和脆弱性。每种统计特征都提供了一种对生成文本进行量化评估的方法,通过将多种特征结合在一起,可以提供更全面的文本评估,更好地理解生成文本的属性和生成方式。分类模型使用神经网络模型能够挖掘深层次文本特征及特征之间的关系,进而提高检测的准确率。通过使用多种特征,可以对不同的模型进行适应,从而提高检测的灵活性和性能。基于多个大语言模型的统计特征融合模型使用多种统计特征可以带来更全面、更准确的生成文本检测结果,并提高检测模型的鲁棒性和适应性。本发明中的技术方案在多种语言模型中取得了很好的检测效果,应用前景广阔。
附图说明
图1为本发明检测模型的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明中,训练数据集,其对应的标签集/>,且/>,标签集合/>,/>表示人类,/>表示机器,/>为训练数据集的长度。文本/>是一个单词序列/>,/>代表文本/>中的第/>个单词,/>为/>的长度。假设每条文本/>中有/>个句子,即/>,/>代表第/>个句子。任务的目标是学习一个通过/>来预测正确类别标签/>的函数/>
本发明提出的检测模型如图1所示,包括以下两个部分:(1)基于多个大语言模型的统计特征融合模型;(2)分类模型。
(1)基于多个大语言模型的统计特征融合模型
统计特征应该能够显示出语言模型生成的文本和人类书面文本之间的差异。现有的生成类的语言模型大都采用自回归的方式,即生成的过程是逐步进行的,每一步生成一个词或字符,并将其添加到之前已生成的部分文本中,作为下一步生成的输入。语言模型根据已生成的部分文本和上下文信息来预测下一个最有可能的词或字符,然后将其添加到生成的文本中,不断重复这个过程,直到生成足够长的文本或达到设定的终止条件。研究发现,语言模型生成的文本与人类书写的文本在对数似然、对数排名、熵和困惑度上存在分布差异。语言模型生成的文本通常比人类书写的文本具有更高的对数似然、更小的对数排名、更低的熵和更小的困惑度。因此,本发明使用对数似然、对数排名、熵和困惑度作为需要提取的统计特征。
由于生成待检测文本的语言模型是未知的,因此本发明选择五个常用的语言模型(GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan)来近似真实模型的分布。首先将选择的语言模型作为代理模型,获取每个单词的生成概率,得到单词在词汇表中的绝对排名,由此计算对数似然、对数排名、熵和困惑度。
对数似然是用来评估语言模型在生成文本时的预测能力,它衡量了语言模型生成的文本在给定真实数据下的条件概率。对数似然定义为:
表示给定前/>个单词的条件下第/>个单词的预测概率分布,可以直接从语言模型获取。
在语言模型生成文本时,单词的排名越靠前,排名数值越小,表示该单词更有可能被语言模型选择作为下一个单词,因为它在模型的预测中有较高的概率。但是直接使用单词的排名可能会受到词汇表大小的限制。如果词汇表非常大,某些单词的排名可能相对词汇表在很高的位置,但实际上这些单词在文本生成中并不常见。对数排名则通过在计算排名时使用对数变换,将关于排名数值的线性关系平滑为曲线,可以在一定程度上缓解这种问题。它能更好地捕捉单词在生成文本中的相对分布,更准确地衡量模型生成文本中单词的位置,更好地区分语言模型生成的文本与人类书写的文本。对数排名定义为:
代表给定前/>个单词后预测第/>个单词时该单词在词表中的排名。
熵是信息论中的概念,用来度量一个随机变量的不确定性。在语言生成中,熵可以反映模型生成的文本多样性。较低的熵表示文本更集中,更有可能是语言模型生成的,而较高的熵表示文本更加多样化,更有可能是人类书写的。熵定义为:
表示给定前/>个单词时第/>个单词预测为z的概率。
困惑度是一种用来评估语言模型好坏的指标。由于语言模型倾向于采样生成概率更高的词,人类选取的词则更具有随机性,因此,通常情况下,困惑度较低意味着文本更有可能是由语言模型产生的。可以先计算待检测文本的概率/>
由此可以计算待检测文本的困惑度(perplexity):
同样地,可以计算每个句子的困惑度/>,并将所有句子困惑度的平均值作为句级的困惑度/>
最后将统计特征(对数似然、对数排名、熵、困惑度)拼接得到拼接特征h,然后对五种语言模型(GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan)对应的拼接特征按特征类型分别平均后,得到最终拼接特征/>
其中[;]代表拼接操作。
(2)分类模型
本发明选择神经网络模型作为分类模型,因为与机器学习分类模型相比,神经网络模型能够更好地发现和描述统计特征之间的联系。神经网络模型规模越大,训练成本就越高。在输入特征数量较少的情况下,不需要设计太深的神经网络模型。本分类模型由一个输入层、两个隐藏层和一个输出层组成。输入层由四个神经元组成。每个隐藏层由16个神经元和ReLU激活函数组成。最后通过分类模型得到输入文本的类别标签概率分布
其中为分类器激活函数,/>是全连接网络,/>为偏置,/>是模型预测的类别标签概率分布,通过计算/>和真实标签/>的交叉熵损失函数来训练模型。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,通过由统计特征融合模型和分类模型组成的检测模型,检测生成的文本的类别标签;检测模型的构建方法包括:
步骤一,构建基于多个大语言模型的统计特征融合模型:
统计特征融合模型使用对数似然、对数排名、熵和困惑度作为需要提取的统计特征,选择五个语言模型:GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan;将选择的语言模型作为代理模型,获取文本中每个单词的生成概率,得到单词在词汇表中的绝对排名,并计算对数似然、对数排名、熵和困惑度;
其中,对数似然用于评估语言模型在生成文本时的预测能力,衡量语言模型生成的文本在给定条件下的条件概率;
对数排名通过在计算单词排名时使用对数变换,将关于排名数值的线性关系平滑为曲线;
熵用于反映语言模型生成的文本的多样性,熵越低,则文本是被语言模型生成的可能性越大;
困惑度是用来评估语言模型好坏的指标,困惑度较低,则文本是被语言模型生成的可能性越大;
将对数似然、对数排名/>、熵/>和困惑度拼接得到的拼接特征记为/>,将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征按特征类型分别平均后,得到最终拼接特征/>
步骤二,构建分类模型:
分类模型包括一个输入层、两个隐藏层和一个输出层;输入层包括四个神经元,每个隐藏层包括16个神经元和ReLU激活函数;最后通过分类模型得到文本的类别标签概率分布
其中为分类器激活函数,/>是全连接网络,/>为偏置;
步骤三,通过计算和文本的真实标签/>的交叉熵损失函数来训练检测模型。
2.根据权利要求1所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,训练检测模型时的训练数据集结构如下:
训练数据集,/>对应的标签集/>,且/>,/>为标签集合,为训练数据集的长度,/>是/>对应的类别标签;文本/>是一个单词序列/>,/>代表第个/>文本/>中的第/>个单词,/>为文本/>的长度。
3.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,计算对数似然时:
表示给定前/>个单词的条件下,第/>个单词的预测概率分布。
4.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,计算对数排名时:
表示给定前/>个单词的条件下预测第/>个单词时,第/>个单词在词汇表中的排名。
5.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,计算熵时:
表示给定前/>个单词的条件下,第/>个单词预测为/>的概率。
6.根据权利要求2所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,计算困惑度时:
先计算待检测的文本的概率/>
表示条件概率,计算待检测的文本/>的困惑度/>
每个文本中有/>个句子,即/>,/>代表第/>个句子;计算文本/>中每个句子的困惑度/>,并将所有句子的困惑度的平均值作为句级的困惑度/>
7.根据权利要求6所述的基于多个大语言模型统计特征融合的生成文本检测方法,其特征在于,将对数似然、对数排名/>、熵/>和困惑度拼接为拼接特征/>时:
其中代表拼接操作;将语言模型GPT-2、GPT-3、LLaMA、ChatGLM2、Baichuan与/>对应的拼接特征/>按特征类型分别平均后,得到最终拼接特征/>时:
CN202311584926.5A 2023-11-27 2023-11-27 基于多个大语言模型统计特征融合的生成文本检测方法 Active CN117291175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311584926.5A CN117291175B (zh) 2023-11-27 2023-11-27 基于多个大语言模型统计特征融合的生成文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311584926.5A CN117291175B (zh) 2023-11-27 2023-11-27 基于多个大语言模型统计特征融合的生成文本检测方法

Publications (2)

Publication Number Publication Date
CN117291175A CN117291175A (zh) 2023-12-26
CN117291175B true CN117291175B (zh) 2024-03-29

Family

ID=89241180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311584926.5A Active CN117291175B (zh) 2023-11-27 2023-11-27 基于多个大语言模型统计特征融合的生成文本检测方法

Country Status (1)

Country Link
CN (1) CN117291175B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
WO2020257304A1 (en) * 2019-06-18 2020-12-24 Verint Americas Inc. Detecting anomalies in textual items using cross-entropies
US11748577B1 (en) * 2022-08-22 2023-09-05 Rohirrim, Inc. Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
US20230316003A1 (en) * 2022-03-31 2023-10-05 Smart Information Flow Technologies, LLC Natural Language Processing for Identifying Bias in a Span of Text
CN116955624A (zh) * 2023-08-01 2023-10-27 中国工商银行股份有限公司 文本的识别方法、装置、处理器以及电子设备
CN117077085A (zh) * 2023-10-17 2023-11-17 中国科学技术大学 大模型结合双路记忆的多模态有害社交媒体内容识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230343011A1 (en) * 2020-05-11 2023-10-26 Sign-Speak Inc. Realtime ai sign language recognition with avatar

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
WO2020257304A1 (en) * 2019-06-18 2020-12-24 Verint Americas Inc. Detecting anomalies in textual items using cross-entropies
US20230316003A1 (en) * 2022-03-31 2023-10-05 Smart Information Flow Technologies, LLC Natural Language Processing for Identifying Bias in a Span of Text
US11748577B1 (en) * 2022-08-22 2023-09-05 Rohirrim, Inc. Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
CN116955624A (zh) * 2023-08-01 2023-10-27 中国工商银行股份有限公司 文本的识别方法、装置、处理器以及电子设备
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN117077085A (zh) * 2023-10-17 2023-11-17 中国科学技术大学 大模型结合双路记忆的多模态有害社交媒体内容识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于句结构的主题分类模型改进算法;韩奕农;乐红兵;;电子技术与软件工程(第04期);全文 *

Also Published As

Publication number Publication date
CN117291175A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
Higashinaka et al. The dialogue breakdown detection challenge: Task description, datasets, and evaluation metrics
Gao et al. Dialogue response ranking training with large-scale human feedback data
CN110232395B (zh) 一种基于故障中文文本的电力***故障诊断方法
CN109685104B (zh) 一种识别模型的确定方法和装置
Basile et al. Diachronic analysis of the italian language exploiting *** ngram
CN113672931A (zh) 一种基于预训练的软件漏洞自动检测方法及装置
Soleimani-Babakamali et al. A general framework for supervised structural health monitoring and sensor output validation mitigating data imbalance with generative adversarial networks-generated high-dimensional features
Pang et al. Early identification of vulnerable software components via ensemble learning
CN114816962A (zh) 基于attention-lstm的网络故障预测方法
Zhao et al. Fuzzy sentiment membership determining for sentiment classification
Jafari A deep learning anomaly detection method in textual data
CN117573985A (zh) 一种应用于智能化在线教育***的信息推送方法及***
CN117291175B (zh) 基于多个大语言模型统计特征融合的生成文本检测方法
CN115456176B (zh) 一种基于知识增强的文本匹配方法及***
CN116611003A (zh) 一种变压器故障诊断方法、装置、介质
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
Jubair et al. A multi‐agent K‐means with case‐based reasoning for an automated quality assessment of software requirement specification
Swati et al. Ic-bait: An inferential commonsense-driven model for predicting political polarity in news headlines
CN110427330B (zh) 一种代码分析的方法以及相关装置
Chaudhary et al. Fake News Detection During 2016 US Elections Using Bootstrapped Metadata-Based Naïve Bayesian Classifier
Song et al. Two robust multivariate exponentially weighted moving average charts to facilitate distinctive product quality features assessment
Shi et al. On the complexity of bayesian generalization
CN116881738B (zh) 一种应用于电网行业的项目申报文档的相似度检测方法
Lu et al. Predicting E-Learning Resource Quality Based on Multi-Modal Data
Essaijan The estimation of model performance on unseen data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant