CN114722141A - 文本检测方法及装置 - Google Patents

文本检测方法及装置 Download PDF

Info

Publication number
CN114722141A
CN114722141A CN202110012534.6A CN202110012534A CN114722141A CN 114722141 A CN114722141 A CN 114722141A CN 202110012534 A CN202110012534 A CN 202110012534A CN 114722141 A CN114722141 A CN 114722141A
Authority
CN
China
Prior art keywords
text
sensitive
texts
word
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110012534.6A
Other languages
English (en)
Inventor
范宇河
甘祥
郑兴
彭婧
郭晶
刘羽
唐文韬
申军利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110012534.6A priority Critical patent/CN114722141A/zh
Publication of CN114722141A publication Critical patent/CN114722141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种文本检测方法及装置。该文本检测方法包括:获取多个第一文本以及多个第二文本,第一文本为标注有标签的文本,第二文本为未标注标签的敏感文本;基于各个第一文本标注的标签,提取各个第一文本对应的标签特征向量,并根据标签特征向量确定多个第一文本中的敏感文本;根据确定出的敏感文本和多个第二文本,生成敏感参考文本集合,并检测敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;若根据多个检测结果判定出敏感参考文本集合中存在与待检测文本之间的相似性满足相似条件的文本,则确定待检测文本为敏感文本。本申请实施例的技术方案提高了敏感文本检测的准确度和精度。

Description

文本检测方法及装置
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种文本检测方法及装置。
背景技术
随着企业数字化转型的发展,越来越多的企业开始将各种数据文件转移到线上,实现电子化办公,但随之而来的是对敏感数据的检测和防泄漏技术的要求也逐步提高。然而,目前的敏感文本检测技术检测准确率低,容易出现漏报、误报等诸多问题。
发明内容
本申请的实施例提供了一种文本检测方法及装置,进而至少在一定程度上能够提高敏感文本检测的准确度和精度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本检测方法,包括:获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
根据本申请实施例的一个方面,提供了一种文本检测装置,包括:获取单元,配置为获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;第一确定单元,配置为基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;检测单元,配置为根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;第二确定单元,配置为若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
在本申请的一些实施例中,基于前述方案,所述第一确定单元包括:输入子单元,配置为将所述各个第一文本对应的标签特征值输入已训练的文本分类模型,得到所述文本分类模型输出的所述各个第一文本对应的敏感概率,所述敏感概率为所述第一文本为敏感文本的概率,所述文本分类模型是基于多个标注有标签的训练文本和各个训练文本对应的文本类别训练得到的,所述文本类别包括敏感文本和非敏感文本;确定子单元,配置为根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本。
在本申请的一些实施例中,基于前述方案,所述确定子单元配置为:将所述多个第一文本中敏感概率大于第一预设阈值的第一文本,作为所述多个第一文本中的敏感文本。
在本申请的一些实施例中,基于前述方案,所述检测单元配置为:根据所述敏感参考文本集合中的各个文本对应的第一哈希签名值以及所述待检测文本对应的第二哈希签名值,确定所述敏感参考文本集合中的各个文本与所述待检测文本之间的海明距离;所述第二确定单元配置为:若根据多个海明距离判定出所述敏感参考文本集合中存在与所述待检测文本之间的海明距离小于或等于第二预设阈值的文本,则确定所述待检测文本为敏感文本。
在本申请的一些实施例中,基于前述方案,所述装置还包括:第一分词单元,配置为对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;第一处理单元,配置为对所述第一特征词集合中的各个特征词进行哈希处理,得到所述各个特征词的哈希值;第一生成单元,配置为根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为:根据所述各个特征词对应的权重对对应的哈希值进行加权处理,得到所述各个特征词对应的加权后的数值;将所述各个特征词对应的加权后的数值进行合并累加,得到累加后的数值,并对所述累加后的数值进行降维处理,得到所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,基于前述方案,所述装置还包括:第二分词单元,配置为对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;第二处理单元,配置为对所述第一特征词集合中的目标特征词进行哈希处理,得到所述目标特征词的哈希值;第二生成单元,配置为根据所述目标特征词的哈希值以及所述目标特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,基于前述方案,所述装置还包括:计算单元,配置为计算所述第一特征词集合中的各个特征词在所述敏感参考文本集合中的词频逆向文件频率;选择单元,配置为按照所述词频逆向文件频率从高到低的顺序,从所述第一特征词集合中选择预设数量个特征词作为所述目标特征词。
在本申请的一些实施例中,基于前述方案,所述计算单元配置为:统计所述各个特征词在所述敏感参考文本集合中出现的逆向文件频率,以及统计所述各个特征词在所述敏感参考文本集合中出现的频次;将所述逆向文件频率与所述频次的乘积,作为所述各个特征词在所述敏感参考文本集合中的词频逆向文件频率。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本检测方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本检测方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的文本检测方法。
在本申请的一些实施例所提供的技术方案中,通过获取多个第一文本和多个第二文本,第一文本为标注有标签的文本,第二文本为未标注标签的敏感文本,然后,通过提取到的各个第一文本对应的标签特征向量,确定出多个第一文本中的敏感文本,进而根据确定出的敏感文本和多个第二文本生成敏感参考文本集合,对待检测文本与敏感参考文本集合中的各个文本之间的相似性进行检测,如果根据多个检测结果判定出敏感参考文本集合中存在与待检测文本之间的相似性满足相似条件的文本,则可以确定待检测文本为敏感文本。与传统使用规则进行文本内容的匹配相比,本申请实施例的技术方案不需要预先配置规则,只需要生成敏感参考文本集合,使得对待检测文本进行的检测可以直接根据敏感参考文本集合中的各个文本进行相似性检测,可以避免通过预置规则进行检测时只有符合预置规则的数据才会被检测到,而其他数据无法检测到所造成的漏检问题,同时也可以避免因预置规则的错误而导致的误检问题,从而提高了敏感文本检测的准确度和精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图;
图2示出了根据本申请的一个实施例的文本检测方法的流程图;
图3示出了根据本申请的一个实施例的文本检测方法的流程图;
图4示出了根据本申请的一个实施例的文本检测方法的流程图;
图5示出了根据本申请的一个实施例的文本检测方法的流程图;
图6示出了根据本申请的一个实施例的文本检测方法的流程图;
图7示出了根据本申请的一个实施例的文本检测方法的流程图;
图8示出了根据本申请的一个实施例的文本检测方法的流程图;
图9示出了根据本申请的一个实施例的文本检测方法的流程图;
图10示出了根据本申请的一个实施例的文本检测方法的逻辑图;
图11示出了根据本申请的一个实施例的文本检测装置的框图;
图12示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
需要说明的是,本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例,并不旨在限制本申请的范围。应该理解的是,术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组,但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。
将进一步理解的是,尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本发明的范围的情况下,第一元件可以被称为第二元件。类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图,如图1所示,***架构100可以包括终端设备101和服务器102。
终端设备101通过网络与服务器102相连,网络用以在终端设备101和服务器102之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,在此不做限制。
终端设备101可以是智能手机、平板电脑、智能电视、台式计算机,车载计算机以及便携计算机等设备,但并不局限于此。终端设备101可以泛指多个终端设备中的一个,本申请实施例仅以终端设备101来举例说明。本领域技术人员可以知晓,上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为一个,或者上述终端设备为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端设备。本申请实施例对终端设备的数量和设备类型不加以限定。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一些实施例中,终端设备101获取待检测文本,该待检测文本可以是基于终端设备101的用户输入确定的文本,再通过网络将待检测文本发送至服务器102,服务器对待检测文本进行检测,确定待检测文本是否为敏感文本。在其他实施例中,也可以由终端设备101获取待检测文本后,直接对待检测文本进行检测,确定该待检测文本是否为敏感文本。
图2示出了根据本申请的一个实施例的文本检测方法的流程图,该文本检测方法可以由服务器来执行,该服务器可以是图1中所示的服务器102。参照图2所示,文本检测方法包括:
步骤S210、获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;
步骤S220、基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;
步骤S230、根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;
步骤S240、若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
下面对这些步骤进行详细描述。
在步骤S210中,获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本。
其中,第一文本为预先标注有标签的文本,标注的标签可以是针对第一文本的敏感程度进行标注的标签,例如,标注第一文本的标签可以是绝密、机密、私密等等,第二文本是未标注标签的敏感文本,敏感文本是指包含有敏感内容的文本,例如,文本中包含涉及用户隐私的内容,包括用户身份资料、社交关系链以及用户网络行为记录等,用户身份资料包括用户社交网络账号的密码、出生日期、证件号码、年龄、出生地以及常住地等。用户网络行为记录包括网页浏览记录、网上购物记录等。
在本实施例中,文本可以为书面语言的表现形式,文本可以为文章、句子、段落或者短语等等。文本可以是英语语言的文本、中文语言的文本、或法语语言的文本等,本申请实施例在此不做限定。
在步骤S220中,基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本。
本实施例中,若需要确定多个第一文本中的敏感文本,则需要基于各个第一文本标注的标签,提取得到各个第一文本对应的标签特征向量,具体地,标签特征向量是由至少一个预先指定的标签特征构成的向量。该指定的标签特征包括:标签类型,标签在文本中出现的位置,标签在句子中出现的位置,文本格式,文本大小等。可以理解的是:通过多种类别的特征组合成向量的方式进行第一文本中的敏感文本的确定,相对于使用单一类别的特征进行第一文本中的敏感文本的确定,便于更加准确的确定第一文本中的敏感文本,避免出现误判。
其中,标签类型可以包括第一类标签、第二类标签和第三类标签。第一类标签可以是按照保密等级划分的标签,可以有绝密、机密、私密三级;第二类标签可以是带有否定含义的标签,表明文档禁止对外扩展,例如,不得分发、未公开、非经授权、不得以任何形式传播、非经本人书面许可、不得擅自摘抄,除非另有约定、内部使用、审阅、仅提供给指定的、禁止对外发布、追究法律责任。第三类标签可以是其他任何可作为表明文本敏感程度的标签。标签在文本中出现的位置可以包括标签出现在文本的顶部、中部或者底部。标签在句子中出现的位置可以包括标签出现在句子的左边、中间和右边,当句子以标签开头时,标签的位置为“左”;当句子以标签结束时,标签的位置为“右”,当标签出现在句子的其他位置时,标签的位置为“中间”。文本格式可以包括pdf、docx、pptx等。
标签特征向量的提取是为了能够基于标签特征向量实现第一文本的自动分类。因此,在提取得到各个第一文本对应的标签特征向量后,进一步,可以根据标签特征向量,对多个第一文本进行分类,以确定出多个第一文本中的敏感文本和非敏感文本。
在步骤S230中,根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果。
在确定出多个第一文本中的敏感文本之后,可以根据确定出的敏感文本和多个第二文本生成敏感参考文本集合,以检测敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果。具体而言,假设确定出的敏感文本为文本A和文本B,多个第二文本分别为文本C、文本D和文本E,则敏感参考文本集合可以包括文本A、文本B、文本C、文本D和文本E,且文本A、文本B、文本C、文本D和文本E均为敏感文本。
其中,待检测文本可以是终端设备上传的待检测文本,该待检测文本可以是终端设备的用户输入的文本,例如终端设备的用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是通过对终端设备的用户的语音进行识别得到的文本,在其他实施例中,还可以终端设备通过其他方式获得的文本。
上述文本相似性检测的逻辑可以是:采用相似度算法,计算两文本之间的相似度检测结果,例如,采用向量空间模型(Vector Space Model,VSM),先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。
在步骤S240中,若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
其中,相似条件是预先设定的将待检测文本归为敏感文本的条件,即如果敏感参考文本集合中存在与待检测文本之间的相似性满足相似条件的文本,则可以将待检测文本归类为敏感文本。
在采用相似度表示检测结果时,相似条件可以是相似度阈值,相似度阈值是预先设定将文本归为某一类别的相似度下限值,即如果敏感参考文本集合中存在与待检测文本之间的相似度大于相似度阈值的文本,则可以确定待检测文本为敏感文本。
以上实施例的技术方案与传统使用规则进行文本内容的匹配相比,不需要预先配置规则,只需要生成敏感参考文本集合,使得对待检测文本进行的检测可以直接根据敏感参考文本集合中的各个文本进行相似性检测,可以避免通过预置规则进行检测时只有符合预置规则的数据才会被检测到,而其他数据无法检测到所造成的漏检问题,同时也可以避免因预置规则的错误而导致的误检问题,从而提高了敏感文本检测的准确度和精度。
在本申请的一个实施例中,可以利用已训练的文本分类模型的方法确定多个第一文本中的敏感文本,如图3所示,在该实施例中,可以具体包括步骤S310-步骤S320,详细说明如下:
步骤S310、将所述各个第一文本对应的标签特征值输入已训练的文本分类模型,得到所述文本分类模型输出的所述各个第一文本对应的敏感概率,所述敏感概率为所述第一文本为敏感文本的概率,所述文本分类模型是基于多个标注有标签的训练文本和各个训练文本对应的文本类别训练得到的,所述文本类别包括敏感文本和非敏感文本。
在本实施例中,需要使用已训练的文本分类模型,该文本分类模型是基于多个标注有标签的训练文本和各个训练文本对应的文本类别对预置的分类模型进行训练得到的。其中,预置的分类模型可以是支持向量机(Support Vector Machines,SVM)分类模型、朴素贝叶斯分类模型等,本申请实施例在此不进行具体限定。各个训练文本对应的文本类别是预先设置的,文本类别可以包括敏感文本和非敏感文本,即预先设置哪些训练文本是敏感文本,哪些训练文本是非敏感文本。在使用训练文本进行预置的分类模型的训练时,也需要提取各个训练文本对应的标签特征值,可以理解的是,训练时使用的标签特征值包含的特征的类型与对第一文本进行敏感文本确定时使用的标签特征值包含的特征的类型是相同的。
在训练得到文本分类模型之后,将各个第一文本对应的标签特征值输入已训练的文本分类模型中,可以得到文本分类模型输出的各个第一文本对应的敏感概率,其中,敏感概率为第一文本为敏感文本的概率,敏感概率是一种条件概率,在已经设置文本分类模型中的输入层、隐藏层及输出层、及预先设置敏感文本和非敏感文本的条件下,将标签特征值输入后,输出的文本为敏感文本的概率。
步骤S320、根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本。
具体而言,在获得各个第一文本对应的敏感概率之后,则可以根据敏感概率确定出多个第一文本中的敏感文本。
在本申请的一个实施例中,根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本的方法可以具体包括:
将所述多个第一文本中敏感概率大于第一预设阈值的第一文本,作为所述多个第一文本中的敏感文本。
其中,第一预设阈值可以根据实际需求进行设定,例如,将第一预设阈值设定为90%,那么如果多个第一文本中存在敏感概率大于90%的第一文本时,则可以将该敏感概率大于90%的第一文本作为多个第一文本中的敏感文本。
在本申请的一个实施例中,检测敏感参考文本集合中的各个文本与待检测文本之间的相似性的方法可以是根据敏感参考文本集合中的各个文本对应的第一哈希签名值以及待检测文本对应的第二哈希签名值的对比,具体地,如图4所示,具体可以包括步骤S410-步骤S420,详细说明如下:
步骤S410、根据所述敏感参考文本集合中的各个文本对应的第一哈希签名值以及所述待检测文本对应的第二哈希签名值,确定所述敏感参考文本集合中的各个文本与所述待检测文本之间的海明距离。
其中,计算哈希签名值是一种用单个哈希函数得到文本最小哈希签名的方法,其计算结果是得到该文本的一个唯一的哈希值。在本实施例中,敏感参考文本集合中的各个文本对应的第一哈希签名值可以代表各个文本的具体内容,第二哈希签名值可以代表待检测文本的具体内容,因此,可以通过第一哈希签名值和第二哈希签名值进行敏感参考文本集合中的各个文本与待检测文本之间的相似性判断。
由于文本的哈希签名值实际上就是一个多位二进制编码,在信息编码中,海明距离是指两个代码对应位置上不同编码的个数。换句话说,海明距离就是指将一串代码变换为另一串代码所需替换的字符个数。因此,在本实施例中,可以通过第一签名哈希值和第二签名哈希值计算海明距离,来判断待检测文本与敏感参考文本集合中的各个文本是否相似。例如,若敏感参考文本集合中某个文本对应的第一哈希签名值为1011101,待检测文本对应的第二哈希签名值为1001001,则可以确定敏感参考文本集合中的该文本与待检测文本之间的海明距离是2。
步骤S420、若根据多个海明距离判定出所述敏感参考文本集合中存在与所述待检测文本之间的海明距离小于或等于第二预设阈值的文本,则确定所述待检测文本为敏感文本。
其中,第二预设阈值可以为事先设置好的一个数值,当两个文本之间的海明距离小于或等于第二预设阈值时,则认为两个文本内容相似,否则,两个文本内容不相似,进一步地,根据海明距离的计算方式以及相似判定规则,可以将第二预设阈值设为3。
在本实施例中,在计算得到敏感参考文本集合中的各个文本与待检测文本之间的海明距离,得到多个海明距离之后,如果根据多个海明距离判定出敏感参考文本集合中存在与待检测文本之间的海明距离小于或等于第二预设阈值的文本,也就是说敏感参考文本集合中存在与待检测文本相似的文本,则可以确定待检测文本为敏感文本。
在本申请的一个实施例中,如图5所示,敏感参考文本集合中各个文本对应的第一哈希签名值的生成方法可以具体包括步骤S510-步骤S530,详细说明如下:
步骤S510、对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合。
具体而言,首先对敏感参考文本集合中的各个文本进行分词,得到一个一个的词,该多个词即组成了各个文本对应的第一特征词集合。在本实施例中,可使用多种开源或非开源的分词工具对敏感参考文本进行分词,例如StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer等开源分词工具,本申请实施例在此不进行具体限定。
在一些实施例中,在分词的过程中,还可进行预处理,过滤掉各个文本中的符号信息和冗余语义信息。例如,由于表情符号和标点符号基本上不涉及敏感信息,可预先将其过滤,从而减少计算量。另外,对于明显笔误的重复出现的分词,可进行过滤,从而可减少计算量。
步骤S520、对所述第一特征词集合中的各个特征词进行哈希处理,得到所述各个特征词的哈希值。
在对敏感参考文本集合中的各个文本进行分词得到各个文本对应的第一特征词集合之后,可以对第一特征词集合中的各个特征词进行哈希运算,得到各个特征词的哈希值。哈希值为二进制数组成的多个bit,这样一来就实现了将特征词由文本转换为向量表示,便于后续处理。
其中,哈希运算(Hash Function)是一种主要用于信息安全领域中的加密算法,哈希运算又称为散列函数,是一种通过散列算法,将任意长度的输入转化为固定长度输出的函数,其输出为固定长度的字符串,被称为哈希值。这种转化的本质是一种压缩映射,即哈希值的空间通常小于输入值的空间。哈希运算的一个重要属性是不可逆,即给定一个哈希值,想要计算出它所对应的消息是极其困难的。其中,不同输入值对应的输出值基本不同,不同输出值对应的输入值不同,所以不可能从散列值来确定唯一的输入值,也就是说,没有办法从输出的哈希值得到原来输入的数据。基于哈希原理的常见哈希算法包括安全散列算法1(Secure Hash Algorithm 1,SHA-1)、安全散列算法224(Secure Hash Algorithm 224,SHA-224)、安全散列算法256(Secure Hash Algorithm 256,SHA-256)、安全散列算法384(Secure Hash Algorithm 384,SHA-384)、安全散列算法512(Secure Hash Algorithm512,SHA-512)以及MD5信息摘要算法(MD5 Message-Digest Algorithm,MD5)等,本申请实施例对于哈希算法的类型不做限定。
步骤S530、根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
其中,各个特征词对应的权重是指各个特征词在对应文本中出现的次数,当计算各个文本对应的第一哈希签名值的第i位时,则获取到该文本中的各个特征词的哈希值在其第i位上的值,然后,根据各个特征词的哈希值在其第i位上的值以及各个特征词对应的权重进行加权求和,得到第一哈希签名值第i位的数值,从而得到该文本对应的第一哈希签名值。
在本申请的一个实施例中,如图6所示,步骤S530可以具体包括步骤S610-步骤S620,详细说明如下:
步骤S610、根据所述各个特征词对应的权重对对应的哈希值进行加权处理,得到所述各个特征词对应的加权后的数值。
举例说明,以敏感参考文本集合中的文本A为例进行说明,假设文本A的特征词有n个,各个特征词对应的权重分别为:
第1个特征词对应的权重为:w1
第2个特征词对应的权重为:w2
.......
第n个特征词对应的权重为至wn
且各个特征词的哈希值分别为:
第1个特征词的哈希值为:100011;
第2个特征词的哈希值为:011011;
.......
第n个特征词的哈希值为:011011;
则根据各个特征词对应的权重对对应的哈希值进行加权处理,可以得到各个特征词对应的加权后的数值分别为:
第1个特征词的对应的加权后的数值为:w1-w1-w1-w1w1w1
第2个特征词的对应的加权后的数值为:-w2w2w2-w2w2w2
.......
第n个特征词的对应的加权后的数值为:-wnwnwn-wnwnwn
步骤S620、将所述各个特征词对应的加权后的数值进行合并累加,得到累加后的数值,并对所述累加后的数值进行降维处理,得到所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在通过步骤S610计算得到各个特征词对应的加权后的数值后,可以将各个加权后的数值进行合并累加,得到累加后的数值,也就是将多个加权后的数据合并累加为一个数值,然后对累加后的数值进行降维处理,其中,降维处理具体可以是当累加后的数值中为负值时取0,为正值时取1,最后得到各个文本对应的第一哈希签名值。
继续上面步骤S610的举例进行说明,假设得到累加后的数值为13,108,-22,-5,-32,55,则可以对累加后的数值进行降维处理,最终得到文本A对应的第一哈希签名值为110001。
在本申请的另一个实施例中,如图7所示,敏感参考文本集合中的各个文本对应的第一哈希签名值的生成方法还可以具体包括:
步骤S710、对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;
步骤S720、对所述第一特征词集合中的目标特征词进行哈希处理,得到所述目标特征词的哈希值;
步骤S730、根据所述目标特征词的哈希值以及所述目标特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
需要说明的是,步骤S710及步骤S730分别与图5所示实施例中步骤S510及步骤S530描述的内容相似,不同之处在于,本实施例是对第一特征词集合中的目标特征词进行哈希处理,然后根据目标特征词的哈希值以及目标特征词对应的权重,生成敏感参考文本集合中的各个文本对应的第一哈希签名值,这样做的原因在于,可以减少哈希处理的计算量,提高处理速度。
在本申请的一个实施例中,目标特征词可以是根据各个特征词的词频逆向文件频率选择出的,如图8所示,可以具体包括步骤S810-步骤S820,详细说明如下:
步骤S810、计算所述第一特征词集合中的各个特征词在所述敏感参考文本集合中的词频逆向文件频率。
词频逆向文件频率,也可称为词频-逆向文件频率,即是词频(Term Frequency,TF)和逆向文件频率(Inverse Document Frequency,IDF),词频-逆向文件频率方法的主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率主要是指,如果包含某个词或短语的文章越少,则逆向文件频率越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。
具体到本实施例中,通过计算第一特征词集合中的各个特征词在敏感参考文本集合中的词频逆向文件频率,即计算各个特征词对于敏感参考文本集合的重要性,这样一来,可以进一步根据重要性选择出目标特征词。
步骤S820、按照所述词频逆向文件频率从高到低的顺序,从所述第一特征词集合中选择预设数量个特征词作为所述目标特征词。
在计算得到各个特征词在敏感参考文本集合中的词频逆向文件频率之后,可以按照词频逆向文件频率从高到低的顺序,从第一特征词集合中选择预设数量个特征词作为目标特征词。
其中,选择的方法可以是选择排序靠前的预设数量个特征词作为目标特征词,排序靠前的特征词的词频逆向文件频率越高,说明特征词在敏感参考文本集合中的重要性越高,由于第一哈希签名值能够代表敏感参考文本集合中的各个文本的具体内容,因此,将重要性高的特征词作为目标特征词,然后对目标特征词进行哈希处理,生成敏感参考文本集合中的各个文本对应的第一哈希签名值,可以使得第一哈希签名值能够更加符合各个文本的具体内容,准确性更高。
在本申请的一个实施例中,如图9所示,步骤S810可以具体包括步骤S910-步骤S920,详细说明如下:
步骤S910、统计所述各个特征词在所述敏感参考文本集合中出现的逆向文件频率,以及统计所述各个特征词在所述敏感参考文本集合中出现的频次。
为了计算各个特征词在敏感参考文本集合中的词频逆向文件频率,可以首先统计各个特征词在敏感参考文本集合中出现的逆向文件频率,具体地,某一特定词语的逆向文件频率,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。之后,进一步统计各个特征词在敏感参考文本集合中出现的频次,统计得到的频次为各个特征词出现的次数除以特征词的总数量。
举例说明,假设敏感参考文本集合有1000份文本,对敏感参考文本集合中的各个文本进行分词,得到各个文本对应的第一特征词集合,根据各个文本对应的第一特征词集合可以统计得到特征词的总数量为10000个,进一步假设特征词“小明”在敏感参考文本集合中出现的次数为18次,特征词“小明”在敏感参考文本集合中10份文本中出现过,则可以统计得到特征词“小明”出现的频次为TF=18/10000=0.0018,特征词“小明”出现的逆向文件频率为IDF=log(1000/10)=2。
步骤S920、将所述逆向文件频率与所述频次的乘积,作为所述各个特征词在所述敏感参考文本集合中的词频逆向文件频率。
最后,可以将统计出的逆向文件频率与频次的乘积作为各个特征词在敏感参考文本集合中的词频逆向文件频率。在步骤S910的举例中,统计得到的频次TF=0.0018,逆向文件频率IDF=2,则可以计算得到特征词“小明”的词频逆向文件频率TF-IDF=2×0.0018=0.0036。
在本申请的一个实施例中,待检测文本对应的第二哈希签名值的生成方法可以具体包括:
对所述待检测文本进行分词,得到第二特征词集合;
对所述第二特征词集合中的各个特征词进行哈希处理,得到所述各个特征词的哈希值;
根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述待检测文本对应的第二哈希签名值。
具体而言,由于本实施例中生成待检测文本对应的第二哈希签名值的方法与图5所示实施例中的生成敏感参考文本对应的第一哈希签名值的方法类似,故在此不再赘述。
在本申请的另一个实施例中,生成待检测文本对应的第二哈希签名值的方法还可以具体包括:
对所述待检测文本进行分词,得到第二特征词集合;
对所述第二特征词集合中的目标特征词进行哈希处理,得到所述目标特征词的哈希值;
根据所述目标特征词的哈希值以及所述各个特征词对应的权重,生成所述待检测文本对应的第二哈希签名值。
由于本实施例中生成待检测文本对应的第二哈希签名值的方法与图7所示实施例中的生成敏感参考文本对应的第一哈希签名值的方法类似,故在此不再赘述。
图10示出了根据本申请的一个实施例的文本检测方法的逻辑图,如图10所示,在该实施例中,文本检测方法可以具体包括如下步骤:
S1、获取多个第一文本和多个第二文本,其中,第一文本为标注有标签的文本,第二文本为未标注标签的敏感文本。
S2、提取各个第一文本对应的标签特征向量。
S3、根据标签特征向量,确定出敏感文本和非敏感文本。
S4、根据确定出的敏感文本和多个第二文本,生成敏感参考文本集合。
S5、检测敏感参考文本集合中的各个文本和待检测文本之间的相似性,得到多个检测结果。
S6、若根据多个检测结果判定出敏感参考文本集合中存在与待检测文本之间的相似性满足相似条件的文本,则确定待检测文本为敏感文本。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本检测方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本检测方法的实施例。
图11示出了根据本申请的一个实施例的文本检测装置的框图,参照图11所示,根据本申请的一个实施例的文本检测装置1100,包括:获取单元1102、第一确定单元1104、检测单元1106和第二确定单元1108。
其中,所述获取单元1102,配置为获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;所述第一确定单元1104,配置为基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;所述检测单元1106,配置为根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;所述第二确定单元1108,配置为若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
在本申请的一些实施例中,所述第一确定单元1104包括:输入子单元,配置为将所述各个第一文本对应的标签特征值输入已训练的文本分类模型,得到所述文本分类模型输出的所述各个第一文本对应的敏感概率,所述敏感概率为所述第一文本为敏感文本的概率,所述文本分类模型是基于多个标注有标签的训练文本和各个训练文本对应的文本类别训练得到的,所述文本类别包括敏感文本和非敏感文本;确定子单元,配置为根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本。
在本申请的一些实施例中,所述确定子单元配置为:将所述多个第一文本中敏感概率大于第一预设阈值的第一文本,作为所述多个第一文本中的敏感文本。
在本申请的一些实施例中,所述检测单元1106配置为:根据所述敏感参考文本集合中的各个文本对应的第一哈希签名值以及所述待检测文本对应的第二哈希签名值,确定所述敏感参考文本集合中的各个文本与所述待检测文本之间的海明距离;所述第二确定单元配置为:若根据多个海明距离判定出所述敏感参考文本集合中存在与所述待检测文本之间的海明距离小于或等于第二预设阈值的文本,则确定所述待检测文本为敏感文本。
在本申请的一些实施例中,所述装置还包括:第一分词单元,配置为对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;第一处理单元,配置为对所述第一特征词集合中的各个特征词进行哈希处理,得到所述各个特征词的哈希值;第一生成单元,配置为根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,所述第一生成单元配置为:根据所述各个特征词对应的权重对对应的哈希值进行加权处理,得到所述各个特征词对应的加权后的数值;将所述各个特征词对应的加权后的数值进行合并累加,得到累加后的数值,并对所述累加后的数值进行降维处理,得到所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,所述装置还包括:第二分词单元,配置为对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;第二处理单元,配置为对所述第一特征词集合中的目标特征词进行哈希处理,得到所述目标特征词的哈希值;第二生成单元,配置为根据所述目标特征词的哈希值以及所述目标特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
在本申请的一些实施例中,所述装置还包括:计算单元,配置为计算所述第一特征词集合中的各个特征词在所述敏感参考文本集合中的词频逆向文件频率;选择单元,配置为按照所述词频逆向文件频率从高到低的顺序,从所述第一特征词集合中选择预设数量个特征词作为所述目标特征词。
在本申请的一些实施例中,所述计算单元配置为:统计所述各个特征词在所述敏感参考文本集合中出现的逆向文件频率,以及统计所述各个特征词在所述敏感参考文本集合中出现的频次;将所述逆向文件频率与所述频次的乘积,作为所述各个特征词在所述敏感参考文本集合中的词频逆向文件频率。
图12示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
需要说明的是,图12示出的电子设备的计算机***1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机***1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有***操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的***中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本检测方法,其特征在于,所述方法包括:
获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;
基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;
根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;
若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
2.根据权利要求1所述的方法,其特征在于,根据所述标签特征向量确定所述多个第一文本中的敏感文本,包括:
将所述各个第一文本对应的标签特征值输入已训练的文本分类模型,得到所述文本分类模型输出的所述各个第一文本对应的敏感概率,所述敏感概率为所述第一文本为敏感文本的概率,所述文本分类模型是基于多个标注有标签的训练文本和各个训练文本对应的文本类别训练得到的,所述文本类别包括敏感文本和非敏感文本;
根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本。
3.根据权利要求2所述的方法,其特征在于,根据所述各个第一文本对应的敏感概率,确定所述多个第一文本中的敏感文本,包括:
将所述多个第一文本中敏感概率大于第一预设阈值的第一文本,作为所述多个第一文本中的敏感文本。
4.根据权利要求1所述的方法,其特征在于,检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果,包括:根据所述敏感参考文本集合中的各个文本对应的第一哈希签名值以及所述待检测文本对应的第二哈希签名值,确定所述敏感参考文本集合中的各个文本与所述待检测文本之间的海明距离;
若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本,包括:若根据多个海明距离判定出所述敏感参考文本集合中存在与所述待检测文本之间的海明距离小于或等于第二预设阈值的文本,则确定所述待检测文本为敏感文本。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;
对所述第一特征词集合中的各个特征词进行哈希处理,得到所述各个特征词的哈希值;
根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
6.根据权利要求5所述的方法,其特征在于,根据所述各个特征词的哈希值以及所述各个特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值,包括:
根据所述各个特征词对应的权重对对应的哈希值进行加权处理,得到所述各个特征词对应的加权后的数值;
将所述各个特征词对应的加权后的数值进行合并累加,得到累加后的数值,并对所述累加后的数值进行降维处理,得到所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述敏感参考文本集合中的各个文本进行分词,得到所述各个文本对应的第一特征词集合;
对所述第一特征词集合中的目标特征词进行哈希处理,得到所述目标特征词的哈希值;
根据所述目标特征词的哈希值以及所述目标特征词对应的权重,生成所述敏感参考文本集合中的各个文本对应的第一哈希签名值。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
计算所述第一特征词集合中的各个特征词在所述敏感参考文本集合中的词频逆向文件频率;
按照所述词频逆向文件频率从高到低的顺序,从所述第一特征词集合中选择预设数量个特征词作为所述目标特征词。
9.根据权利要求8所述的方法,其特征在于,计算所述第一特征词集合中的各个特征词在所述敏感参考文本集合中的词频逆向文件频率,包括:
统计所述各个特征词在所述敏感参考文本集合中出现的逆向文件频率,以及统计所述各个特征词在所述敏感参考文本集合中出现的频次;
将所述逆向文件频率与所述频次的乘积,作为所述各个特征词在所述敏感参考文本集合中的词频逆向文件频率。
10.一种文本检测装置,其特征在于,所述装置包括:
获取单元,配置为获取多个第一文本以及多个第二文本,所述第一文本为标注有标签的文本,所述第二文本为未标注标签的敏感文本;
第一确定单元,配置为基于各个第一文本标注的标签,提取所述各个第一文本对应的标签特征向量,并根据所述标签特征向量确定所述多个第一文本中的敏感文本;
检测单元,配置为根据确定出的敏感文本和所述多个第二文本,生成敏感参考文本集合,并检测所述敏感参考文本集合中的各个文本与待检测文本之间的相似性,得到多个检测结果;
第二确定单元,配置为若根据所述多个检测结果判定出所述敏感参考文本集合中存在与所述待检测文本之间的相似性满足相似条件的文本,则确定所述待检测文本为敏感文本。
CN202110012534.6A 2021-01-06 2021-01-06 文本检测方法及装置 Pending CN114722141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110012534.6A CN114722141A (zh) 2021-01-06 2021-01-06 文本检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110012534.6A CN114722141A (zh) 2021-01-06 2021-01-06 文本检测方法及装置

Publications (1)

Publication Number Publication Date
CN114722141A true CN114722141A (zh) 2022-07-08

Family

ID=82234977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110012534.6A Pending CN114722141A (zh) 2021-01-06 2021-01-06 文本检测方法及装置

Country Status (1)

Country Link
CN (1) CN114722141A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245322A1 (en) * 2021-01-29 2022-08-04 Salesforce.Com, Inc. Machine-learning based generation of text style variations for digital content items
CN115268799A (zh) * 2022-09-27 2022-11-01 武汉烜旭软件科技有限公司 一种基于云服务的存储方法和装置
CN115994217A (zh) * 2022-11-29 2023-04-21 南京审计大学 一种财务报告舞弊检测方法及***
CN116028618A (zh) * 2022-12-27 2023-04-28 百度国际科技(深圳)有限公司 文本处理、文本检索方法、装置、电子设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245322A1 (en) * 2021-01-29 2022-08-04 Salesforce.Com, Inc. Machine-learning based generation of text style variations for digital content items
US11694018B2 (en) * 2021-01-29 2023-07-04 Salesforce, Inc. Machine-learning based generation of text style variations for digital content items
CN115268799A (zh) * 2022-09-27 2022-11-01 武汉烜旭软件科技有限公司 一种基于云服务的存储方法和装置
CN115268799B (zh) * 2022-09-27 2022-12-06 武汉烜旭软件科技有限公司 一种基于云服务的存储方法和装置
CN115994217A (zh) * 2022-11-29 2023-04-21 南京审计大学 一种财务报告舞弊检测方法及***
CN115994217B (zh) * 2022-11-29 2024-01-23 南京审计大学 一种财务报告舞弊检测方法及***
CN116028618A (zh) * 2022-12-27 2023-04-28 百度国际科技(深圳)有限公司 文本处理、文本检索方法、装置、电子设备及存储介质
CN116028618B (zh) * 2022-12-27 2023-10-27 百度国际科技(深圳)有限公司 文本处理、文本检索方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11907672B2 (en) Machine-learning natural language processing classifier for content classification
CN114722141A (zh) 文本检测方法及装置
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Chen et al. A classified feature representation three-way decision model for sentiment analysis
Chaidaroon et al. Deep semantic text hashing with weak supervision
CN113065330A (zh) 一种从非结构化数据中提取敏感信息的方法
CN111126067B (zh) 实体关系抽取方法及装置
Shaaban et al. Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
CN112052424B (zh) 一种内容审核方法及装置
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
Budhiraja et al. A supervised learning approach for heading detection
Wagle et al. Explainable ai for multimodal credibility analysis: Case study of online beauty health (mis)-information
Rehman et al. User-aware multilingual abusive content detection in social media
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
Boyle et al. Mailtrout: a machine learning browser extension for detecting phishing emails
Gong et al. Improving extractive document summarization with sentence centrality
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
Agbeyangi et al. Authorship verification of yoruba blog posts using character n-grams
Kwon et al. Detecting textual adversarial examples through text modification on text classification systems
Jain et al. Review on analysis of classifiers for fake news detection
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Ma et al. A privacy-preserving word embedding text classification model based on privacy boundary constructed by deep belief network
Sarwar et al. AGI-P: A Gender Identification Framework for Authorship Analysis Using Customized Fine-Tuning of Multilingual Language Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination