CN117332038A - 文本信息检测方法、装置、设备和存储介质 - Google Patents

文本信息检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117332038A
CN117332038A CN202311214190.2A CN202311214190A CN117332038A CN 117332038 A CN117332038 A CN 117332038A CN 202311214190 A CN202311214190 A CN 202311214190A CN 117332038 A CN117332038 A CN 117332038A
Authority
CN
China
Prior art keywords
word
detection
sequence
text
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311214190.2A
Other languages
English (en)
Other versions
CN117332038B (zh
Inventor
方滨兴
张民
贾焰
顾钊铨
张欢
李晶
陈科海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202311214190.2A priority Critical patent/CN117332038B/zh
Publication of CN117332038A publication Critical patent/CN117332038A/zh
Application granted granted Critical
Publication of CN117332038B publication Critical patent/CN117332038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本信息检测方法、装置、设备和存储介质,通过获取待测文本的至少一个单词序列;然后基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列,并将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于第一检测得分得到掩码序列的检测概率向量;接下来将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到第二检测得分,并基于第二检测得分得到待测文本的检测结果,从而提高文本信息检测的准确度。

Description

文本信息检测方法、装置、设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及文本信息检测方法、装置、设备和存储介质。
背景技术
目前,国内外工业界和学术界正在广泛研究大型文本模型,并涌现出各种不同架构和针对不同垂直领域的大型文本模型。大型文本模型可以生成高质量的文本,但不能保证生成的内容符合社会准则、法律法规和道德标准。由此,随着大型文本模型的广泛应用,对其生成的文本内容进行有效的合规性检测是很有必要的。
在相关技术中,针对文本内容的合规性检测通常采用模式匹配和制定相关规则,以识别文本内容中的非法词汇和敏感信息。但是,大型语言模型生成的文本质量过高,已达到一般人类书写水平,采用模式匹配和制定相关规则的检测方法对大型语言模型生成的文本进行合规性检测,其检测精准度较低。
发明内容
本申请实施例的提供了一种文本信息检测方法、装置、设备和存储介质,能够提高文本信息检测的精准性。
为实现上述目的,本申请实施例的第一方面提出了一种文本信息检测方法,包括:
获取待测文本的至少一个单词序列,所述单词序列包括至少一个文本词;
基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,并根据所述权重序列在所述文本词中选取掩码词,根据所述掩码词生成所述单词序列的掩码序列;
将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量;
将每个所述单词序列对应的所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,并基于所述第二检测得分得到所述待测文本的检测结果。
在一些实施例,所述基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,包括:
基于每个所述文本词在所述单词序列中的词频,得到每个所述文本词的文本权重;
选取各不相同的所述文本词按照文本词顺序构成文本序列;
基于所述文本词顺序生成所述权重序列中每个所述文本词的权重元素。
在一些实施例,所述基于所述文本词顺序生成所述权重序列中每个所述文本词的权重元素,包括:
根据第一个所述文本词的所述文本权重生成第一个所述文本词的所述权重元素;
基于所述文本词顺序,将前一个所述文本词的所述权重元素与当前所述文本词的所述文本权重加和,得到当前所述文本词的所述权重元素。
在一些实施例,所述根据所述权重序列在所述文本词中选取掩码词,包括:
根据所述权重序列的所述权重元素的数量生成至少一个随机数;
遍历所述权重序列中所述权重元素,选取大于或等于所述随机数的所述权重元素中最小的所述权重元素作为目标权重;
选取所述目标权重对应的所述文本词作为所述掩码词。
在一些实施例,当至少两个所述随机数对应的所述目标权重相同时,所述选取所述目标权重对应的所述文本词作为所述掩码词,包括:
基于所述随机数的选取顺序,选取前一个所述随机数对应的所述目标权重作为候选权重;
将所述候选权重的后一个所述权重元素作为后一个所述随机数对应的所述目标权重;
分别选取所述候选权重和所述目标权重对应的所述文本词作为所述掩码词。
在一些实施例,所述第一检测模型为多个,所述将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量,包括:
将所述掩码序列进行向量化处理,得到掩码向量;
将所述掩码向量分别输入多个所述第一检测模型进行第一检测处理,得到每个第一检测模型输出的第一概率得分和第二概率得分;
根据所述第一概率得分和所述第二概率得分,得到所述掩码序列的第一检测得分;
拼接多个所述第一检测得分,得到所述掩码序列的检测概率向量。
在一些实施例,每个单词序列的所述掩码序列为多个,所述将每个所述单词序列对应的所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,包括:
将每个所述单词序列对应的多个所述检测概率向量依次输入第二检测模型进行第二检测处理,得到每个所述检测概率向量的第三检测得分;
将多个所述第三检测得分进行累加,得到检测累加得分;
计算所述检测累加得分的均值,得到所述单词序列的第二检测得分。
在一些实施例中,所述获取待测文本的至少一个单词序列,包括:
对所述待测文本进行分词得到待测词序列;
基于停用词列表,去除所述待测词序列中包含的停用词得到简化单词序列;
对所述简化单词序列进行划分得到至少一个所述单词序列。
在一些实施例中,所述基于所述第二检测得分得到所述待测文本的检测结果,包括:
根据预设的第一权重和多个所述第一检测得分得到第一调整参数;
根据预设的第二权重和多个所述第三检测得分得到第二调整参数;
根据所述第一调整参数和所述第二调整参数调整预设阈值;
根据所述第二检测得分与所述预设阈值的对比结果得到检测结果。
为实现上述目的,本申请实施例的第二方面提出了一种文本信息检测装置,包括:
获取模块,用于获取待测文本的至少一个单词序列;
掩码处理模块,用于基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,并根据所述权重序列在所述文本词中选取掩码词,根据所述掩码词生成所述单词序列的掩码序列;
第一检测模块,用于将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量;
第二检测模块,用于将每个所述单词序列对应的所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,并基于所述第二检测得分得到所述待测文本的检测结果。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面所述的文本信息检测方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本信息检测方法。
本申请实施例提出的文本信息检测方法、装置、设备和存储介质,通过获取待测文本的至少一个单词序列,其中单词序列包括至少一个文本词;然后基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列;再将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于至少一个第一检测得分得到掩码序列的检测概率向量;接下来将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,并基于第二检测得分得到待测文本的检测结果。本申请实施例针对文本信息检测,利用单词权重生成权重序列,再根据权重序列生成掩码序列,不同于随机生成掩码的方式,可以提高生成掩码的随机性,然后再将掩码序列依次输入至少一个第一检测模型和第二检测模型中,得到单词序列的检测结果,从而提高文本信息检测的准确度,进而避免语言模型输出不符合社会准则、法律法规和道德标准的文本内容。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本申请一实施例提供的文本信息检测方法的流程图。
图2是图1中的步骤S101的流程图。
图3是图1中的步骤S102的流程图。
图4是图3中的步骤S303的流程图。
图5是图1中的步骤S102的又一流程图。
图6是图5中的步骤S503的流程图。
图7是图1中的步骤S103的流程图。
图8是图1中的步骤S104的流程图。
图9是图1中的步骤S104的又一流程图。
图10是本申请又一实施例提供的文本信息检测方法的迭代过程示意图。
图11是本申请又一实施例提供的文本信息检测方法的示意性流程框图。
图12是本申请一实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对目标对象的意识、思维等信息进行模拟过程。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
机器学习是一种人工智能领域的分支,它通过让计算机从数据中学习并自动提取规律和模式,从而实现对未知数据的预测和决策。机器学习的目标是通过训练模型,使其能够对新的输入数据进行预测或分类。机器学习的基本原理是通过分析和处理大量的数据,从中找到数据之间的关系和模式,并将这些关系和模式用于未知数据的预测。机器学习算法可以根据数据的特征和标签进行分类、回归、聚类、降维等任务。
神经网络是一种以人脑为模型的机器学习。神经网络能够执行深度学习。人工神经网络的基本组成部分是一个感知器,这个感知器可以完成简单的信号处理,然后连接到一个大的网状网络中。
目前,国内外工业界和学术界正在广泛研究大型文本模型,并涌现出各种不同架构和针对不同垂直领域的大型文本模型。大型文本模型可以生成高质量的文本,但不能保证生成的内容符合社会准则、法律法规和道德标准。由此,随着大型文本模型的广泛应用,对其生成的文本内容进行有效的合规性检测是很有必要的。
在相关技术中,针对文本内容的合规性检测通常采用模式匹配和制定相关规则,以识别文本内容中的非法词汇和敏感信息。但是,大型语言模型生成的文本质量过高,已达到一般人类书写水平,采用模式匹配和制定相关规则的检测方法对大型语言模型生成的文本进行合规性检测,其检测精准度较低,进而使得大型语言模型输出不符合社会准则、法律法规和道德标准的文本内容。
基于此,本申请实施例提供了一种文本信息检测方法、装置、设备和存储介质,能够提高文本信息检测的精准性。文本信息检测方法主要通过获取待测文本的至少一个单词序列,其中单词序列包括至少一个文本词;然后基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列;再将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于至少一个第一检测得分得到掩码序列的检测概率向量;接下来将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,并基于第二检测得分得到待测文本的检测结果。本申请实施例针对文本信息检测,利用单词权重生成权重序列,再根据权重序列生成掩码序列,不同于随机生成掩码的方式,可以提高生成掩码的随机性,然后再将掩码序列依次输入至少一个第一检测模型和第二检测模型中,得到单词序列的检测结果,从而提高文本信息检测的准确度,进而避免语言模型输出不符合社会准则、法律法规和道德标准的文本内容。
本申请实施例提供文本信息检测方法、装置、设备和存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的文本信息检测方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
本申请实施例提供的文本信息检测方法,涉及人工智能技术领域,尤其涉及数据检测领域。本申请实施例提供的文本信息检测方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作***中的原生程序或软件模块;可以是本地应用程序(Application,APP),即需要在操作***中安装才能运行的程序,如支持文本翻译的客户端,也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该文本信息检测方法可以由终端或服务器执行,或由终端和服务器协同执行。
在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。此外,终端还可以是智能车载设备。该智能车载设备应用本实施例的文本信息检测方法提供相关的服务,提升驾驶体验。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链***中的服务节点,该区块链***中的各服务节点之间形成组成点对点(Peer To Peer,P2P)网络,P2P协议是一个运行在传输控制协议(Transmission Control Protocol,TCP)协议之上的应用层协议。服务器上可以安装文本翻译***的服务端,通过该服务端可以与终端进行交互,例如服务端上安装对应的软件,软件可以是实现文本信息检测方法的应用等,但并不局限于以上形式。终端与服务器之间可以通过蓝牙、通用串行总线(Universal Serial Bus,USB)或者网络等通讯连接方式进行连接,本实施例在此不做限制。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络个人计算机(Personal Computer,PC)、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
首先描述本申请实施例中的文本信息检测方法。在本实施例中,文本信息检测方法可应用于文本信息检测装置。参照图1,为本申请实施例提供的文本信息检测方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S104。同时可以理解的是,本实施例对图1中步骤S101至步骤S104的顺序不做具体限定,可以根据实际需求调整步骤顺序或者减少、增加某些步骤。
步骤S101:获取待测文本的至少一个单词序列。
在一些实施例中,待测文本中包括诸多文本词。待测文本是指待进行某种处理或分析的文本数据,它可以是一段或多段文字,也可以是一个文档、一篇文章、一封邮件等。在本实施例中,不对待测文本的获取来源进行限制,即可以是由人为输入的,也可以是一些基于机器学习模型所得到的文本生成模型所生成的,也可以是通过计算机设备从文本数据库中提取得到或通过计算机设备从网络上爬取得到等。
在一些实施例中,文本检测装置在获取待测文本之后,为了避免同时处理过长的文本信息,需要对待测文本进行相应的预处理操作。下面描述本申请实施例对待测文本进行预处理的过程。
因此,参照图2,对待测文本进行预处理得到至少一个单词序列的过程,包括步骤S201至步骤S203。
步骤S201:对待测文本进行分词得到待测词序列。
在一些实施例中,在获取待测文本之后,对待测文本进行分词处理,以得到待测词序列。其中,待测词序列包含有待测文本中所有的文本词。可以理解的是,分词处理是指将连续的待测文本切分成具有独立意义的文本词的过程,在本实施例中,不限制进行分词处理所采用的工具,即可以是采用中文分词工具“jieba”、“pkuseg”等等,也可以采用英文分词工具“NLTK”、“spaCy”等等。
步骤S202:基于停用词列表,去除待测词序列中包含的停用词得到简化单词序列。
在一些实施例中,在得到待测词序列后,将遍历待测词序列中的文本词,然后将待测词序列中包含的停用词去除,形成去除停用词后的简化单词序列,表示为X=[w1,w2,...,wn],其中n表示文本词个数。从而去除待测词序列的冗余信息,保留有效的文本词信息,以提高文本检测的工作效率和精准度。可以理解的是,停用词指在源语言句子中的非实意词语或者其他实际作用较小的词语,如介词、连词、代词等,本申请实施例中停用词列表可以根据预设的停用词库或者公开网络中得到。
步骤S203:对简化单词序列进行划分得到至少一个单词序列。
在一些实施例中,在获得简化单词序列之后,为了避免文本检测装置由于同时处理过长的单词序列,导致出现模型的时间训练过长、模型训练过程中的训练梯度消失、模型训练过程中的相关参数更新慢等等问题。需要对简化单词序列进行划分得到至少一个单词序列,其中单词序列包括至少一个文本词。从而提高文本检测的工作效率和精准性。
在一些实施例中,文本检测装置按照从前往后的顺序将简化单词序列切分成多个单词子序列,使得每个单词子序列长度不超过L。其中L是超参数,取值区间是[200,500]。对于简化单词序列Z=[w1,w2,...,wn],当简化单词序列的长度小于或等于L时,即n m≤L,则单词序列为简化单词序列本身;当简化单词序列的长度大于L时,即若n>L,则X被拆分为多个单词序列X1=[w1,w2,...,wL],...,Zk=[w(k-1)L+1,w(k-1)L+2,...,wn],其中表示单词序列的总个数,可以理解的是/>表示向上取整。
步骤S102:基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列。
在一些实施例中,文本信息检测装置在获取至少一个单词序列中,为了避免由于文本词的含义所影响文本信息检测装置理解文本信息的含义,需要对单词序列进行c次掩码操作,从而生成单词序列对应的c个掩码序列,以便于后续文本信息检测装置通过被掩码文本词的前后文本词信息理解待测文本信息,从而避免由于文本词的含义所影响文本信息检测装置理解文本信息的含义的情况发生,以提高文本信息检测的精准度和可靠性。可以理解的是,c是超参数,取值区间为c≥1。适当选取c的数值能有效缓解采样随机性对待测文本的检测结果的误差,但同时,不建议选取c的数值过大,因为c的数值过大将会导致文本信息检测的处理效率降低。在每一次掩码操作中,文本检测装置将选取单词序列中a%的文本词替换为无意义的符号,其中a是超参数,取值区间为[10,20]。
本申请实施例为了避免文本序列中由于某个文本词出现的频次过高,容易导致重复选取该文本词作为目标掩码词,从而不可避免地降低文本信息检测的精准度。所以需要生成合适的权重序列,以便于选取合适的目标掩码词。
下面描述本申请实施例提供的文本信息检测方法中的生成单词序列对应的权重序列的过程。
因此,参照图3,基于文本词在单词序列中的单词权重,生成单词序列的权重序列,包括步骤S301至步骤S303。
步骤S301:基于每个文本词在单词序列中的词频,得到每个文本词的文本权重。
在一些实施例中,在每一次掩码操作中,基于每个文本词在单词序列中的词频,得到每个文本词的文本权重为ei=count(wi)/L,其中,count(wi)表示单词序列Xj中文本词wi的总个数。
步骤S302:选取各不相同的文本词按照文本词顺序构成文本序列。
在一些实施例中,文本信息检测装置在针对划分后得到的每个单词序列,都将生成每个单词序列对应的权重序列。在生成权重序列的过程中,文本信息检测装置首先在基于每个文本词在单词序列中的词频,得到每个文本词的文本权重后,然后选取单词序列中各不相同的文本词,按照文本词在单词序列中的顺序构成文本序列,以便于后续生成单词序列对应的权重序列。
在一些实施例中,文本信息检测装置在得到每个文本词的文本权重后,然后选取单词序列中各不相同的文本词按照每个文本词在单词序列中的词频,从高到低的顺序构成文本序列,以便于后续生成单词序列对应的权重序列。
步骤S303:基于文本词顺序生成权重序列中每个文本词的权重元素。
在一些实施例中,文本信息检测装置在生成文本序列后,将基于文本序列中文本词顺序,依次生成权重序列中每个文本词的权重元素,从而生成权重序列以便于后续的生成掩码序列的操作。为了避免由于文本序列中某个文本词的频次过高,容易导致重复选取该文本词作为目标掩码词,从而不可避免地降低文本信息检测的精准度。因此需要生成一个选取目标掩码词的随机性更高的权重序列,以便于进行更加精准的文本信息检测。
下面描述本申请实施例提供的文本信息检测方法中的选取单词序列中的掩码词的过程。
因此,参照图4,基于文本词顺序生成权重序列中每个文本词的权重元素,包括步骤S401至步骤S402。
步骤S401:根据第一个文本词的文本权重生成第一个文本词的权重元素。
步骤S402:基于文本词顺序,将前一个文本词的权重元素与当前文本词的文本权重加和,得到当前文本词的权重元素。
在一些实施例中,文本信息检测装置在生成文本序列后,将根据文本序列中第一个文本词的文本权重生成第一个文本词的权重元素,然后再基于文本词顺序,从第二个文本词开始,将前一个文本词的权重元素与当前文本词的文本权重加和,以得到当前文本词的权重元素,从而根据权重累积的操作结果生成一个选取目标掩码词的随机性更高的权重序列,以便于后续进行更加精准的文本信息检测。同时也避免由于文本序列中某个文本词的频次过高,容易导致重复选取该文本词作为目标掩码词,从而出现降低文本信息检测的精准度的情况。
在一些实施例中,累计权重是指从单词序列Xj的第一个不重复的文本词开始,计算每个文本词的频次与前面所有文本词的频次之和,作为该文本词的累计权重,以构建一个权重序列Sume=[e(j-1)L+1,e(j-1)L+1+e(j-1)L+2,…,1],其中权重序列的权重元素数量为l,且可以理解的是,由于权重序列的最后一个权重元素是累积了整个文本序列的所有文本词的频次之和,因此权重序列的最后一个权重元素的值为1。
在一些实施例中,在得到权重序列后,需要生成对应于单词序列的掩码序列,同时为了使选取目标掩码词的随机性更高,因此需要进行合适的生成掩码词。
因此,参照图5,选取目标权重对应的文本词作为掩码词,包括步骤S501至步骤S503。
步骤S501:根据权重序列的权重元素的数量生成至少一个随机数。
在一些实施例中,文本信息检测装置在得到权重序列后,将根据权重序列的权重元素的数量生成个的随机数,且随机数的范围为[0,1],可以理解的是/>表示向下取整。这个随机数将用于确定从权重序列中确定目标权重,以便于后续根据目标权重中选择权重元素对应的文本词作为掩码词。
步骤S502:遍历权重序列中权重元素,选取大于或等于随机数的权重元素中最小的权重元素作为目标权重。
步骤S503:选取目标权重对应的文本词作为掩码词。
在一些实施例中,在得到至少一个随机数后,文本信息检测装置将针对于每一个随机数,遍历权重序列中所有的权重元素,然后选取其中大于或等于该随机数的权重元素中的最小的权重元素作为目标权重,并选取目标权重对应的文本词作为掩码词,使得选取目标掩码词的随机性更高,以便于后续进行掩码操作,从而生成单词序列对应的掩码序列,使得生成的掩码序列的随机性更高,进而提高文本信息检测的精准度和可靠性。
在一些实施例中,当随机数的数量大于一个时,在一次生成掩码序列的过程中,将逐一选取随机数对应的目标权重,并最后得到每个随机数对应的目标权重,可以理解的是,目标权重数量与随机数的数量对应;然后根据多个目标权重,选取多个掩码词并进行掩码操作,从而生成掩码序列。
在一些实施例中,文本信息检测装置对于每个随机数,从权重序列Sume中从左往右进行遍历,确定第一个超过该随机数的位置,将对应单词序列Xj中该位置的文本词确定为掩码词。
在一些实施例中,当出现至少两个随机数对应的目标权重相同时,为了使选取目标掩码词的随机性更高,从而提高文本信息检测的精准度和可靠性,需要对选取目标掩码词的操作进一步细化。
因此,参照图6,选取目标权重对应的文本词作为掩码词,还包括步骤S60l至步骤S602。
步骤S60l:基于随机数的选取顺序,选取前一个随机数对应的目标权重作为候选权重。
步骤S602:将候选权重的后一个权重元素作为后一个随机数对应的目标权重。
步骤S603:分别选取候选权重和目标权重对应的文本词作为掩码词。
在一些实施例中,当出现至少两个随机数对应的目标权重相同时,文本信息检测装置将基于随机数的选取顺序,针对于后一个随机数的选取目标权重的过程中:将选取前一个随机数对应的目标权重作为候选权重,然后将候选权重的后一个权重元素作为后一个随机数对应的目标权重,使得掩码词的最终总数目为个,从而使得选取目标掩码词的随机性更高,进而提高文本信息检测的精准度和可靠性。
在一些实施例中,文本信息检测装置在对单词序列的每次生成掩码序列的过程中,在确定掩码词之后,将文本序列中所有掩码词替换为“[MASK]”,从而生成掩码序列。可以理解的是,对单词序列执行c次生成掩码序列的操作,即可得到对应于单词序列的c个掩码序列。
在一些实施例中,假设某一单词序列Xj为:
Xj=[m,d,h,f,d,k,h,k,g,g,h,m,m,n,n,k,f,h,m,m],其中该单词序列的长度为20,按Xj中文本词顺序对应生成的文本序列为[em=5/20=0.25,ed=2/20=0.1,eh=4/20=0.2,ef=2/20=0.1,ek=3/20=0.15,eg=2/20=0.1,en=2/20=0.1],其中,该文本序列的长度为l=7。
根据文本序列[em=0.25,ed=0.1,eh=0.2,ef=0.1,ek=0.15,eg=0.1,en=0.1],进行权重累加,得到权重序列为:
[em=0.25,ed+em=0.35,eh+ed+em=0.55,ef+eh+ed+em=0.65,ek+ef+eh+ed+em=0.8,eg+ek+ef+eh+ed+em=0.9,en+eg+ek+ef+eh+ed+em=1]接下来选取超参数a=15,即需要选取的随机数为即需要选取一个随机数,假设选取的随机数为0.64,并对权重序列进行遍历,确定其中大于或等于0.64的权重元素为第四个权重元素,对应的文本词为“f”,并对单词序列中的“f”进行掩码处理,得到掩码序列为[m,d,h,MASK,d,k,h,k,g,g,h,m,m,n,n,k,MASK,h,m,m]。
步骤S103:将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于至少一个第一检测得分得到掩码序列的检测概率向量。
在一些实施例中,文本信息检测装置在得到单词序列所对应的至少一个掩码序列后,将每个掩码序列逐一输入至少一个第一检测模型进行第一检测处理,从而得到每个掩码序列的第一检测得分,并基于至少一个第一检测得分可以得到掩码序列的检测概率向量,以便于后续将检测概率向量输入第二检测模型进行检测,从而提高文本信息检测的精准度和可靠性。在本实施例中,不对第一检测模型进行过多的限制,即第一检测模型只要是能实现常规的处理文本输入和输出评分的要求的模型即可。因此,第一检测模型可以是基模型。可以理解的是,基模型是指在机器学习中用作基础的模型。基模型通常是指在特定任务上效果较好的模型,可以作为其他模型的比较基准或起点。基模型可以是简单的模型,如线性回归、逻辑回归等,也可以是复杂的模型,如支持向量机、决策树、随机森林等。选择基模型的关键因素是根据具体任务的需求和数据的特征来确定。第一检测模型的架构不局限于循环神经网络模型、卷积神经网络模型、BERT、GPT等。
在一些实施例中,为了使文本信息检测的结果更加精准,需要增加第一检测模型的数量。
因此,参照图7,将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于至少一个第一检测得分得到掩码序列的检测概率向量,包括步骤S701至步骤S704。
步骤S70l:将掩码序列进行向量化处理,得到掩码向量。
在一些实施例中,当第一检测模型的数量为b>1个时,文本信息检测装置首先需要对掩码序列进行向量化处理,以得到掩码向量,以便于后续所有第一检测模型的处理。这是由于基模型没有固定,其向量化的流程无法统一表示。例如,在卷积神经网络模型中,需要通过向量模型Word2Vec将单词序列转换为二维向量;而在BERT模型中,由于已嵌入向量表示层,只需要输入文本即可。
步骤S702:将掩码向量分别输入多个第一检测模型进行第一检测处理,得到每个第一检测模型输出的第一概率得分和第二概率得分。
步骤S703:根据第一概率得分和第二概率得分,得到掩码序列的第一检测得分。
在一些实施例中,文本信息检测装置在得到掩码序列对应的掩码向量后,将掩码序列分别输入多个第一检测模型中进行第一检测处理,以得到每个检测模型输出的第一概率得分p1和第二概率得分p2,并基于第一概率得分p1和第二概率得分p2,得到掩码序列的第一检测得分[p1,p2]。可以理解的是,第一概论得分表示该掩码序列合规的概率,第二概率得分表示该掩码序列不合规的概率。
步骤S704:拼接多个第一检测得分,得到掩码序列的检测概率向量。
在一些实施例中,文本信息检测装置在对每个单词序列的每个掩码序列依次输入多个第一检测模型,从而得到每个第一检测模型输出的第一检测得分[p1,p2];然后拼接多个第一检测得分可以得到每个单词序列的每个掩码序列的检测概率向量以便于后续输入第二检测模型进行处理,从而更加精准的进行文本信息检测。可以理解的是,检测概率向量的元素数量为第一检测模型的两倍,即2b。
在一些实施例中,文本信息检测装置再对每个单词序列的c个掩码序列输入多个第一检测模型,可以得到单词序列的c个检测概率向量为:
步骤S104:将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,并基于第二检测得分得到待测文本的检测结果。
在一些实施例中,文本信息检测装置在得到每个单词序列对应的检测概率向量后,将依次将其输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,并基于第二检测得分得到待测文本的检测结果,从而得到一个更加精准的待测文本的检测结果,进而提高用户的使用体验。在本实施例中,不对第二检测模型进行限制,即只要是能实现常规的数值向量输入和输出评分的要求的模型即可。因此,第二检测模型可以是元模型,可以理解的是,元模型是指在机器学习中使用的一种模型,用于对其他模型进行建模、分析和优化的模型。元模型可以看作是对模型的模型,它通过对其他模型的结果进行聚合、组合或进一步处理,来提供更准确或更可解释的预测结果。第二检测模型的架构可以是传统的机器学习模型,例如决策树、提升树、随机森林、支持向量机等。
在一些实施例中,为了提高文本信息检测的精准度,需要增加每个单词序列的掩码序列数量。
因此,参照图8,将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,包括步骤S801至步骤S803。
步骤S801:将每个单词序列对应的多个检测概率向量依次输入第二检测模型进行第二检测处理,得到每个检测概率向量的第三检测得分。
在一些实施例中,当每个单词序列对应的掩码序列数量大于1时,即c>1,通过上述步骤S701至步骤S704可以得到每个单词序列对应的多个检测概率向量。然后文本信息检测装置将每个单词序列对应的多个检测概率向量: 依次输入第二检测模型中,以得到每个单词序列对应的多个第三检测得分/> 以便于后续根据第三检测得分进行输出文本信息的检测结果判断,从而提高文本信息检测的精准性和可靠性。
步骤S802:将多个第三检测得分进行累加,得到检测累加得分。
步骤S803:计算检测累加得分的均值,得到单词序列的第二检测得分。
在一些实施例中,在得到每个单词序列的多个第三检测得分 后,文本信息检测装置将多个第三检测得分进行累加,得到每个单词序列对应的检测累加得分/>接下来计算检测累加得分的均值,得到每个单词序列对应的第二检测得分/>以便于后续根据每个单词序列的第二检测得分对待测文本进行检测,从而提高文本信息检测的精准性和可靠性。
在一些实施例中,在得到每个单词序列的第二检测得分之后,为了提高文本信息检测的精准性和可靠性,需要对每个单词序列进行下一步的阈值检测。
因此,参照图9,基于第二检测得分得到待测文本的检测结果,包括步骤S901至步骤S904。
步骤S901:根据预设的第一权重和多个第一检测得分得到第一调整参数。
步骤S902:根据预设的第二权重和多个第三检测得分得到第二调整参数。
步骤S903:根据第一调整参数和第二调整参数调整预设阈值。
步骤S904:根据第二检测得分与预设阈值的对比结果得到检测结果。
在一些实施例中,文本信息检测装置在得到每个单词序列的第二检测得分后,将根据预设的第一权重[β12]和每个单词序列的每个掩码序列的多个第一检测得分[p1,p2],得到第一调整参数并根据预设的第二权重[β34]和每个单词序列的每个掩码序列的多个第一检测得分[p1,p2],得到第一调整参数/>接下来根据第一调整参数α1和第二调整参数α2调整预设阈值ε=ε012,其中ε0为初始预设的预设阈值;然后将每个单词序列的第二检测得分/>与预设阈值ε进行对比,若第二检测得分大于预设阈值,即则判定该单词序列的检测结果为“合规”,否则为“不合规”,从而实现更加精准的文本信息检测过程,以提高文本信息检测的精准度和可靠性。在本实施例中,不对预设参数[ε01234]进行限制,可以根据实际需要进行调整。
在一些实施例中,第一权重[β12]和第二权重[β34]可以设置为0,即预设阈值ε等于初始预设的预设阈值ε0。因此,在这种情况下,每个单词序列是否“合规”的判断条件为:第二检测得分是否大于初始预设的预设阈值ε0,若第二检测得分大于初始预设的预设阈值,即/>则判定该单词序列的检测结果为“合规”,否则为“不合规”。
在一些实施例中,对于待测文本的简化单词序列X的所有单词序列{w1,w2,…,wn}所得到的第二检测得分都与预设阈值进行比对,以得到所有单词序列的检测结果,若所有单词序列的检测结果均为“合规”,则将待测文本的检测结果判定为“合规”;若至少有一个单词序列的检测结果为“不合规”,则将待测文本的检测结果判定为“不合规”,以得到一个精准且可靠的待测文本的检测结果。
参照图10,是本申请实施例提供的一种文本信息检测方法的示意性流程框图,包括以下步骤:
1)文本信息检测装置在获取待测文本后,将待测文本输入预处理模块进行分词、简化与划分操作,得到多个单词序列,并对每个单词序列依次进行下述步骤2)至步骤8),以得到每个单词序列的第二检测得分;
2)将单词序列执行多次下述步骤3),以得到单词序列的多个掩码序列;
3)将单词序列输入掩码处理模块生成权重序列,并根据权重序列和生成的随机数选取掩码词,从而根据掩码词对单词序列进行掩码,得到掩码序列;
4)将单词序列的多个掩码序列依次执行下述步骤5)至步骤7),以得到单词序列的每个掩码序列的第三检测得分;
5)将掩码序列依次输入多个第一检测模型进行第一检测,以得到掩码序列的多个第一检测得分;
6)拼接掩码序列的多个第一检测得分,得到掩码序列的检测概率向量;
7)将掩码序列的检测概率向量输入第二检测模型,得到掩码序列的第三检测得分;
8)将单词序列的多个掩码序列的第三检测得分进行均分处理,以得到单词序列的第二检测得分;
9)将多个单词序列的第二检测得分输入阈值判断模块中与预设阈值进行判断,得到待测文本的检测结果并输出。
本申请实施例提供的技术方案,通过对待测文本进行分词、简化与划分操作,得到多个单词序列;然后对每个单词序列多次输入掩码处理模块生成权重序列,并根据权重序列和生成的随机数选取掩码词,从而根据掩码词对单词序列进行掩码,以得到单词序列的多个掩码序列;接下来将每个单词序列的多个掩码序列依次输入多个第一检测模型进行第一检测,以得到每个掩码序列的多个第一检测得分,并将每个掩码序列的多个第一检测得分进行拼接,得到每个掩码序列的检测概率向量,再将每个单词序列的每个掩码序列的概率检测向量依次输入第二检测模型进行第二检测,得到掩码序列的第三检测得分,同时将每个单词序列的多个掩码序列的第三检测得分进行均分处理,以得到每个单词序列的第二检测得分;最后基于每个单词序列的第二检测得分与预设阈值进行比对,根据比对结果输出待测文本的检测结果。
本申请实施例针对文本信息的检测过程,首先利用生成单词序列的权重序列,再结合随机数以选取掩码词从而针对性的生成掩码序列,不同于随机选取掩码以生成掩码序列的方式,其通过权重序列结合随机数进行掩码词的选取,避免了由于文本序列中某个文本词的频次过高,导致容易重复选取该文本词作为目标掩码词,并出现降低文本信息检测的精准度的情况,从而提高了文本信息检测过程中选取掩码词的随机性,进而提高了文本信息的精准性和可靠性。接下来,利用多个第一检测模型对掩码序列进行第一检测后得到检测概率向量,再将检测概率向量输入第二检测模型进行第二检测后,再得到单词序列的第二检测得分,将检测信息输入多次检测模型,可以有效的提高文本信息检测的精准度和可靠性。
本申请实施例还提供一种文本信息检测装置,可以实现上述文本信息检测方法,参照图11,该装置1100包括:
获取模块1110,用于获取待测文本的至少一个单词序列。
掩码处理模块1120,用于基于文本词在单词序列中的单词权重,生成单词序列的权重序列,并根据权重序列在文本词中选取掩码词,根据掩码词生成单词序列的掩码序列。
第一检测模块1130,用于将掩码序列输入至少一个第一检测模型进行第一检测处理,得到掩码序列的第一检测得分,并基于至少一个第一检测得分得到掩码序列的检测概率向量。
第二检测模块1140,用于将每个单词序列对应的检测概率向量依次输入第二检测模型进行第二检测处理,得到与单词序列的数量一致的第二检测得分,并基于第二检测得分得到待测文本的检测结果。
本实施例的文本信息检测装置的具体实施方式与上述文本信息检测方法的具体实施方式基本一致,在此不再赘述。
本申请实施例还提供了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本申请实施上述的文本信息检测方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)、车载电脑等任意智能终端。
请参阅图12,图12示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1201,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1202,可以采用ROM(ReadOnlyMemory,只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory,随机存取存储器)等形式实现。存储器1202可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1202中,并由处理器1201来调用执行本申请实施例的文本信息检测方法;
输入/输出接口1203,用于实现信息输入及输出;
通信接口1204,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1205,在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息;
其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述文本信息检测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (12)

1.一种文本信息检测方法,其特征在于,包括:
获取待测文本的至少一个单词序列,所述单词序列包括至少一个文本词;
基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,并根据所述权重序列在所述文本词中选取掩码词,根据所述掩码词生成所述单词序列的掩码序列;
将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量;
将每个所述单词序列对应的所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,并基于所述第二检测得分得到所述待测文本的检测结果。
2.根据权利要求1所述的一种文本信息检测方法,其特征在于,所述基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,包括:
基于每个所述文本词在所述单词序列中的词频,得到每个所述文本词的文本权重;
选取各不相同的所述文本词按照文本词顺序构成文本序列;
基于所述文本词顺序生成所述权重序列中每个所述文本词的权重元素。
3.根据权利要求2所述的一种文本信息检测方法,其特征在于,所述基于所述文本词顺序生成所述权重序列中每个所述文本词的权重元素,包括:
根据第一个所述文本词的所述文本权重生成第一个所述文本词的所述权重元素;
基于所述文本词顺序,将前一个所述文本词的所述权重元素与当前所述文本词的所述文本权重加和,得到当前所述文本词的所述权重元素。
4.根据权利要求3所述的一种文本信息检测方法,其特征在于,所述根据所述权重序列在所述文本词中选取掩码词,包括:
根据所述权重序列的所述权重元素的数量生成至少一个随机数;
遍历所述权重序列中所述权重元素,选取大于或等于所述随机数的所述权重元素中最小的所述权重元素作为目标权重;
选取所述目标权重对应的所述文本词作为所述掩码词。
5.根据权利要求4所述的一种文本信息检测方法,其特征在于,当至少两个所述随机数对应的所述目标权重相同时,所述选取所述目标权重对应的所述文本词作为所述掩码词,包括:
基于所述随机数的选取顺序,选取前一个所述随机数对应的所述目标权重作为候选权重;
将所述候选权重的后一个所述权重元素作为后一个所述随机数对应的所述目标权重;
分别选取所述候选权重和所述目标权重对应的所述文本词作为所述掩码词。
6.根据权利要求1所述的一种文本信息检测方法,其特征在于,所述第一检测模型为多个,所述将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量,包括:
将所述掩码序列进行向量化处理,得到掩码向量;
将所述掩码向量分别输入多个所述第一检测模型进行第一检测处理,得到每个第一检测模型输出的第一概率得分和第二概率得分;
根据所述第一概率得分和所述第二概率得分,得到所述掩码序列的第一检测得分;
拼接多个所述第一检测得分,得到所述掩码序列的检测概率向量。
7.根据权利要求1所述的一种文本信息检测方法,其特征在于,每个单词序列的所述掩码序列为多个,所述将每个所述单词序列对应的所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,包括:
将每个所述单词序列对应的多个所述检测概率向量依次输入第二检测模型进行第二检测处理,得到每个所述检测概率向量的第三检测得分;
将多个所述第三检测得分进行累加,得到检测累加得分;
计算所述检测累加得分的均值,得到所述单词序列的第二检测得分。
8.根据权利要求1所述的一种文本信息检测方法,其特征在于,所述获取待测文本的至少一个单词序列,包括:
对所述待测文本进行分词得到待测词序列;
基于停用词列表,去除所述待测词序列中包含的停用词得到简化单词序列;
对所述简化单词序列进行划分得到至少一个所述单词序列。
9.根据权利要求7所述的一种文本信息检测方法,其特征在于,所述基于所述第二检测得分得到所述待测文本的检测结果,包括:
根据预设的第一权重和多个所述第一检测得分得到第一调整参数;
根据预设的第二权重和多个所述第三检测得分得到第二调整参数;
根据所述第一调整参数和所述第二调整参数调整预设阈值;
根据所述第二检测得分与所述预设阈值的对比结果得到检测结果。
10.一种文本信息检测装置,其特征在于,所述装置包括:
获取模块,用于获取待测文本的至少一个单词序列;
掩码处理模块,用于基于所述文本词在所述单词序列中的单词权重,生成所述单词序列的权重序列,并根据所述权重序列在所述文本词中选取掩码词,根据所述掩码词生成所述单词序列的掩码序列;
第一检测模块,用于将所述掩码序列输入至少一个第一检测模型进行第一检测处理,得到所述掩码序列的第一检测得分,并基于至少一个所述第一检测得分得到所述掩码序列的检测概率向量;
第二检测模块,用于将每个所述单词序列对应地所述检测概率向量依次输入第二检测模型进行第二检测处理,得到与所述单词序列的数量一致的第二检测得分,并基于所述第二检测得分得到所述待测文本的检测结果。
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的文本信息检测方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的文本信息检测方法。
CN202311214190.2A 2023-09-19 2023-09-19 文本信息检测方法、装置、设备和存储介质 Active CN117332038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311214190.2A CN117332038B (zh) 2023-09-19 2023-09-19 文本信息检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311214190.2A CN117332038B (zh) 2023-09-19 2023-09-19 文本信息检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN117332038A true CN117332038A (zh) 2024-01-02
CN117332038B CN117332038B (zh) 2024-07-02

Family

ID=89282126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311214190.2A Active CN117332038B (zh) 2023-09-19 2023-09-19 文本信息检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117332038B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN112069795A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
CN113628043A (zh) * 2021-09-17 2021-11-09 平安银行股份有限公司 基于数据分类的投诉有效性判断方法、装置、设备及介质
WO2022160447A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN116258137A (zh) * 2023-03-03 2023-06-13 华润数字科技有限公司 文本纠错方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN112069795A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
WO2022160447A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN113628043A (zh) * 2021-09-17 2021-11-09 平安银行股份有限公司 基于数据分类的投诉有效性判断方法、装置、设备及介质
CN116258137A (zh) * 2023-03-03 2023-06-13 华润数字科技有限公司 文本纠错方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN117332038B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN114780831A (zh) 基于Transformer的序列推荐方法及***
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN115640394A (zh) 文本分类方法、文本分类装置、计算机设备及存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN116719683A (zh) 异常检测方法、异常检测装置、电子设备及存储介质
CN113449508B (zh) 一种基于事件链的网络舆情关联推演预测分析方法
CN114490949A (zh) 基于bm25算法的文档检索方法、装置、设备及介质
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
CN113343235A (zh) 基于Transformer的应用层恶意有效负载检测方法、***、设备及介质
CN117332038B (zh) 文本信息检测方法、装置、设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115036022A (zh) 健康风险评估方法和评估***、计算机设备、存储介质
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质
CN114492437A (zh) 关键词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant