CN116776862A - Ofd文件的敏感词屏蔽方法、装置、设备及介质 - Google Patents

Ofd文件的敏感词屏蔽方法、装置、设备及介质 Download PDF

Info

Publication number
CN116776862A
CN116776862A CN202311076705.7A CN202311076705A CN116776862A CN 116776862 A CN116776862 A CN 116776862A CN 202311076705 A CN202311076705 A CN 202311076705A CN 116776862 A CN116776862 A CN 116776862A
Authority
CN
China
Prior art keywords
ofd file
sensitive
sensitive word
ofd
shielding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311076705.7A
Other languages
English (en)
Inventor
徐华杰
方俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuxin Kunpeng Beijing Information Technology Co ltd
Original Assignee
Fuxin Kunpeng Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuxin Kunpeng Beijing Information Technology Co ltd filed Critical Fuxin Kunpeng Beijing Information Technology Co ltd
Priority to CN202311076705.7A priority Critical patent/CN116776862A/zh
Publication of CN116776862A publication Critical patent/CN116776862A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种OFD文件的敏感词屏蔽方法、装置、设备及介质,属于文档处理技术领域,其中方法包括:接收针对OFD文件的目标指令;目标指令用于指示对OFD文件中的敏感词进行屏蔽;基于目标指令对OFD文件进行解析,得到OFD文件中的至少一个文本字符对象;针对至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各文本字符对象分别对应的结构数据;将各结构数据输入至敏感词检测模型,得到敏感词检测模型输出的各结构数据对应的标识信息;标识信息用于指示对应的结构数据中的敏感词及敏感词对应的位置和等级;基于各标识信息和预设等级机制,对OFD文件中的各敏感词进行屏蔽。

Description

OFD文件的敏感词屏蔽方法、装置、设备及介质
技术领域
本发明涉及文档处理技术领域,尤其涉及一种OFD文件的敏感词屏蔽方法、装置、设备及介质。
背景技术
开放版式文档(Open Fixed-layout Document,OFD)格式文件是一种电子文件版式文档格式,旨在替代其他电子文档格式,如可携带文件格式(Portable DocumentFormat,PDF),具有格式独立、版式固定、固化呈现等特点,主要应用在定稿定版和存档等场景。
OFD文件的应用场景中,需要对OFD文件中的内容进行敏感词检测,现有技术中,一般通过人工检查的方式,对OFD文件中的敏感词进行检查,再进行编辑以使得OFD文件符合行为规范。
现有的针对OFD文件的敏感词检测方法与对应的编辑方法,无法实现对OFD文件中的敏感词进行自动且准确的屏蔽。
发明内容
本发明提供一种OFD文件的敏感词屏蔽方法、装置、设备及介质,用以解决现有技术中对OFD文件中的敏感词无法自动、准确的屏蔽的缺陷,实现对OFD文件敏感词的准确的自动化屏蔽。
本发明提供一种OFD文件的敏感词屏蔽方法,包括:
接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;
针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;
将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象,包括:
获取所述OFD文件中至少一个页面的页面对象;所述页面对象为图形对象、图像对象和文本对象中的一项;
判断所述至少一个页面对象中的每一个页面对象的对象类型,在判定所述对象类型为文本类型的情况下,获取所述页面对象的文本字符对象。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据,包括:
将各所述文本字符对象进行字符化处理,得到各所述文本字符对象分别对应的至少一个字符;
获取各所述字符的属性信息;所述属性信息包括所述字符位置的页面对象编号、所述字符位置的章节索引和所述字符所在章节的位置索引中的至少一项基于各所述字符的所述属性信息,得到各所述文本字符对象分别对应的结构数据。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽,包括:
基于各所述敏感词的等级,在所述预设等级机制中匹配各所述敏感词对应的屏蔽策略;所述预设等级机制包括敏感词的等级与屏蔽策略的映射关系;
基于各所述敏感词的位置和各所述敏感词对应的所述屏蔽策略,对所述OFD文件中的各所述敏感词进行屏蔽。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述屏蔽策略包括以下至少一项:
遮盖敏感词;
替换敏感词;
删除敏感词。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,还包括:
在所述屏蔽策略包括所述替换敏感词的情况下,对替换后的敏感词进行存储。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述敏感词检测模型为基于人工智能的敏感词检测模型。
本发明还提供一种OFD文件的敏感词屏蔽装置,包括:
接收模块,用于接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
解析模块,用于基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;
处理模块,用于针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;
检测模块,用于将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
屏蔽模块,用于基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的OFD文件的敏感词屏蔽方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的OFD文件的敏感词屏蔽方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的OFD文件的敏感词屏蔽方法。
本发明提供的一种OFD文件的敏感词屏蔽方法、装置、设备及介质,在接收到指示对OFD文件中的敏感词进行屏蔽的目标指令后,对OFD文件进行解析,以获取OFD文件中的所有文本字符对象,对所有文本字符对象进行结构化处理,得到各个文本字符对象对应的结构数据,通过敏感词检测模型对结构数据进行敏感词检测,输出文本字符对象中的敏感词,及敏感词在OFD文件中的位置和敏感词的等级,提高了OFD文件敏感词检测准确率,最后基于敏感词等级和预设等级机制匹配,实现了对OFD文件中敏感词的自动化屏蔽。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之一;
图2是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之二;
图3是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之三;
图4是本发明提供的OFD文件的敏感词屏蔽方法的结构化数据示意图;
图5是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之四;
图6是本发明提供的OFD文件的敏感词屏蔽装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于更加清晰地理解本申请各实施例,首先对一些相关的背景知识进行如下介绍。
OFD文件不受设备影响,版式固定。在版式、版面、字体、字号等方面与纸质文件保持完全一致。版式文档格式的特点使它成为严肃类电子文档发布、数字化信息传播和存档的理想文档格式,主要应用在定稿定版和存档等场景。如宣传资料和宣传册、学术论文和研究报告、产品手册、用户指南、演示文稿、电子合同和公文等,恰恰因为OFD文件的应用场景,需要对OFD文件中的敏感词进行检查,并且对检查出的敏感词做对应的处理。
现有技术中,通常通过工作人员人工进行检查,费时费力并且无法确保检查的完整性和准确性,并且还需要针对检测出的敏感词做对应的处理。
综上所述,为了实现对OFD文件中敏感词的自动化屏蔽,同时提高OFD文件敏感词的检查效率和准确率,本发明实施例提供一种OFD文件的敏感词屏蔽方法、装置、电子设备及存储介质。
本发明提供的OFD文件的敏感词屏蔽方法可以应用于文档处理技术领域。可选的,本发明提供的OFD文件的敏感词屏蔽方法可以在服务器端实现,以公有云或私有云的形式,针对大批量的OFD文件进行检查和屏蔽;或者在客户端实现,以软件开发包的形式嵌入OFD文件阅读器中。
下面结合图1-图7描述本发明的OFD文件的敏感词屏蔽方法、装置、设备及介质。
图1是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之一,如图1所示,本发明提供的OFD文件的敏感词屏蔽方法,包括:
步骤101、接收针对OFD文件的目标指令;
目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
具体地,本发明实施例的OFD文件的敏感词屏蔽方法应用于需要对OFD文件中的内容进行敏感词屏蔽的场景。执行主体可以是服务器端,也可以是用于客户端;当OFD文件的敏感词屏蔽方法的执行主体是服务器端时,用户可通过服务器端发出目标指令;当OFD文件的敏感词屏蔽方法的执行主体是客户端时,即在OFD阅读器中添加软件开发工具包,集成OFD文件的敏感词屏蔽方法,用户可在OFD阅读器中发出目标指令,一般通过如“屏蔽敏感词”的指令发出,在此不做具体限定。接收到针对OFD文件的目标指令,OFD文件的个数可以是一个,也可以是多个,可对单个OFD文件进行敏感词的屏蔽,也可以并发对多个OFD文件进行批量的敏感词屏蔽。
步骤102、基于目标指令对OFD文件进行解析,得到OFD文件中的至少一个文本字符对象;
具体地,本步骤中,在接收到来自用户的目标指令后,对OFD文件进行解析。OFD文件格式的结构一般分为三层:第一层为虚拟存储***,包括包组织结构及包内目录组织结构;第二层为文档模型,包括文档、页面、大纲、文件级资源等组织结构;第三层为OFD文件中的页面内容描述,包括页面级资源、图形、图像和文字等。
在页面内容描述中,具体地包括三种最基本的图元对象:
图形对象:由一系列的贝塞尔曲线和圆弧组成,最终形成一个区域,图形对象可以被填充或者勾边;
图像对象:由一个矩形区域的像素值组成,每个像素值确定矩形区域一个指定点的颜色值;
文本字符对象:由一系列的字符及各个字符对应的定位信息组成,每个字符的字形由其指定的字形和其他参数确定,文本字符对象可以被填充或者勾边。
在本发明的具体实施例中,在接收到来自用户的目标指令之后,对OFD文件进行解析,首先将其按照三层结构解析,获取三层结构中的页面内容描述部分,再获取页面内容描述部分中的文本字符对象,作为后续敏感词检索的基础。
步骤103、针对至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各文本字符对象分别对应的结构数据;
具体地,本发明实施例中,以页为单位,对OFD文件中的每一页进行解析,在获取了每一页的文本字符对象之后,需要对每一页的文本字符对象进行处理,组成结构化数据,具体实施为对OFD文件中每一页的文字对象中所包含的每一个字符,做结构化处理。每一个字符的结构化数据,包含了它在对应页面的精确位置。
步骤104、将各结构数据输入至敏感词检测模型,得到敏感词检测模型输出的各结构数据对应的标识信息;标识信息用于指示对应的结构数据中的敏感词及敏感词对应的位置和等级;
具体地,在对OFD文件中每一页的文字对象进行结构化处理后,将一个OFD文件中的所有经过结构化处理之后的结构数据,输入敏感词检测模型。具体地,本发明实施例中的敏感词检测模型为基于人工智能技术的敏感词检测模型,可以通过语义分析技术针对经过结构化处理的每一个字符,进行依次敏感词检测,语义分析(Semantic Analysis)是人工智能(Artificial Intelligence,AI)的一个分支,是自然语言处理技术中的核心任务,语义分析指运用各种方法,学习与理解一段文本所表示的语义内容,任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。在本发明的具体实施中,OFD文件中的敏感词会通过一些混淆的方式来躲避普通的敏感词检索,如采用英文简称,或者在敏感词中间添加空格,在敏感词中添加特殊符号,或通过中英文混合的方式将敏感词混淆在文件中,通过人工智能敏感词检测模型中的语义分析功能,以字符为最小单位,依次检测OFD文件中的文本字符对象,输出标识信息。本实施例中的标识信息,会将OFD文件中的敏感词及敏感词所在的具***置及敏感词的级别返回。敏感词的级别是预设的,具体可根据OFD文件的类型进行预设,在此不做具体限定。
步骤105、基于各标识信息和预设等级机制,对OFD文件中的各敏感词进行屏蔽。
具体地,获取敏感词检测模型输出的标识信息,即OFD文件中的敏感词是什么,及敏感词所在的位置和敏感词的等级。在具体实施中,预设了屏蔽等级机制,针对敏感词的不同等级,在屏蔽等级机制中进行匹配,确定对应的屏蔽策略,基于不同敏感词对应的不同屏蔽策略,对不同的敏感词执行对应的屏蔽操作。
本发明实施例提供的OFD文件的敏感词屏蔽方法,在接收到指示对OFD文件中的敏感词进行屏蔽的目标指令后,对OFD文件进行解析,以获取OFD文件中的所有文本字符对象,对所有文本字符对象进行结构化处理,得到各个文本字符对象对应的结构数据,通过敏感词检测模型对结构数据进行敏感词检测,输出文本字符对象中的敏感词,及敏感词在OFD文件中的位置和敏感词的等级,提高了OFD文件敏感词检测准确率,最后基于敏感词等级和预设等级机制进行匹配,确定敏感词等级对应的屏蔽机制并执行,实现了对OFD文件中敏感词的自动化屏蔽。
可选的,上述步骤102具体包括以下步骤,图2是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之二,如图2所示,上述步骤102具体包括:
步骤1021、获取OFD文件中至少一个页面的页面对象;页面对象为图形对象、图像对象和文本字符对象中的一项;
步骤1022、判断至少一个页面对象中的每一个页面对象的对象类型,在判定对象类型为文本类型的情况下,获取页面对象的文本字符对象。
具体地,在本发明的具体实施例中,在接收到来自用户的目标指令之后,对OFD文件进行解析,首先将其按照三层结构解析,获取三层结构中的页面内容描述部分,再获取页面内容描述部分中的文本字符对象,作为后续敏感词检索的基础。
本发明实施例提供的OFD文件的敏感词屏蔽方法,通过解析OFD文件的结构,获取OFD文件中的文本类型内容,为后续的结构化打下基础,便于敏感词检测模型对OFD文件中的文本内容进行敏感词检测。
可选的,上述步骤103具体包括以下步骤,图3是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之三,如图3所示,上述步骤103具体包括:
步骤1031、将各文本字符对象进行字符化处理,得到各文本字符对象分别对应的至少一个字符;
步骤1032、获取各字符的属性信息;所述属性信息包括所述字符位置的页面索引、所述字符位置的章节索引和所述字符的代码中的至少一项;
步骤1033、基于各字符的所述属性信息,得到各文本字符对象分别对应的结构数据。
具体地,以页为单位,对OFD文件中的每一页进行解析,在获取了每一页的文本字符对象之后,需要对每一页的文本字符对象进行处理,组成结构化数据,具体实施为对OFD文件中每一页的文字对象中所包含的每一个字符,做结构化处理。每一个字符的结构化数据,包含了它在对应页面的精确位置。
图4是本发明提供的OFD文件的敏感词屏蔽方法的结构化数据示意图,如图4所示,对OFD文件中的某一页进行解析之后,对该页的文本字符对象进行结构化处理,获取文本字符对象中每一个字符的属性信息,如图4所示,在该页面中的文本字符对象为“你好北京”,经过结构化处理之后,按照字符,每一个字符都有各自对应的属性信息,包括,PieceIndex,即字符所在的页面索引,Char Index,即字符所在的章节索引还有Char Code,即字符本身的代码,一个页面中的所有字符和各个字符对应的属性信息,各自关联之后,共同构成了该页的结构数据。
本发明实施例提供的OFD文件的敏感词屏蔽方法,通过对OFD文件中的文本字符对象进行结构化处理,事实上,是以字符为单位,确定文本字符对象中每一个字符的属性信息,即字符位置的页面索引、字符位置的章节索引和字符的代码,将每一个字符与其对应的属性信息进行关联,进而获得文本字符对象的结构化数据,结构化数据可被敏感词检测模型处理,以实现对OFD文件中敏感词的检测。
可选的,上述步骤105具体包括以下步骤,图5是本发明提供的OFD文件的敏感词屏蔽方法的流程示意图之四,如图5所示,上述步骤105具体包括以下步骤:
步骤1051、基于各敏感词的等级,在预设等级机制中匹配各敏感词对应的屏蔽策略;预设等级机制包括敏感词的等级与屏蔽策略的映射关系;
具体地,获取敏感词检测模型输出的标识信息,即OFD文件中的敏感词是什么,及敏感词所在的位置和敏感词的等级。在具体实施中,预设了屏蔽等级机制,针对敏感词的不同等级,在屏蔽等级机制中进行匹配,确定对应的屏蔽策略,基于不同敏感词对应的不同屏蔽策略,对不同的敏感词执行对应的屏蔽操作。
步骤1052、基于各敏感词的位置和各敏感词对应的屏蔽策略,对OFD文件中的各敏感词进行屏蔽。
具体地,在接收到敏感词检测模型返回的结果中的标识信息,可以获取每一个经过结构化处理之后的字符的结构化数据,及其对应的标识信息,若敏感词检测模型检测到该字符为敏感词,则标识信息中会包括该字符的代码本身,该字符在OFD文件中的页面索引,该字符在页面中的章节索引,及该敏感词对应的等级,基于该敏感词的等级,和预设等级机制进行匹配,得到该敏感词对应的屏蔽策略,例如,该敏感词的等级为一级,则在预设等级机制中进行匹配,当敏感词等级为一级时,应当执行的屏蔽策略是什么,对该敏感词字符执行对应的屏蔽策略。
本发明实施例提供的OFD文件的敏感词屏蔽方法,针对敏感词所处的不同等级,预设了不同的屏蔽机制,实现了对OFD文件不同敏感词的分级处理,增强了OFD文件敏感词屏蔽的灵活性。
可选的,本发明实施例提供的OFD文件的敏感词屏蔽方法,屏蔽策略包括以下至少一项:
遮盖敏感词;
替换敏感词;
删除敏感词。
具体地,作为举例,在敏感词检测模型输出的敏感词的等级和预设等级机制中的一级匹配成功时,对该敏感词的屏蔽策略是遮盖敏感词。在屏蔽策略为遮盖敏感词的情况下,源文档的内容是保持不变的,只需要在该页面中,该字符的位置上,通过黑色、白色、或马赛克模糊的方式,对该敏感词进行遮盖,达到屏蔽的效果,具体的遮盖方式在此不做限定。
在敏感词检测模型输出的敏感词的等级和预设等级机制汇总的二级匹配成功时,对该敏感词的屏蔽策略是替换敏感词。在屏蔽策略为替换敏感词的情况下,通过星形符号“*”或其他符号对该字符进行替换,此处具体分为两种情况,第一种,替换之后的敏感词不可被还原,在之后的OFD文件中,该字符永久以“*”进行展现,替换之后的敏感词实际上已经被删除,不会被还原;第二种情况为,该敏感词为重要信息或需要保密的信息,字符本身的内容不能被删除,在OFD文件显示时,通过特殊符号进行替换,但是该字符可以被还原,即被替换的字符本身以某种数据格式保存在OFD文件的内部,可根据该OFD文件的实际需要,在必要的时候还原该敏感词,被替换的字符本身,可以放置在自定义的下标中。
在敏感词检测模型输出的敏感词的等级和预设等级机制汇总的三级匹配成功时,对该敏感词的屏蔽策略是删除敏感词。在屏蔽策略为删除敏感词的情况下,将字符本身直接从OFD源文件中删除,在特殊情况下,可将该敏感词所处的整个段落或整个页面进行删除。
本发明实施例提供的OFD文件的敏感词屏蔽方法,针对敏感词所处的不同等级,预设了不同的屏蔽机制,实现了对OFD文件不同敏感词的分级处理,屏蔽机制包括遮盖、替换、删除,这种分级的敏感词处理方法,一定程度上提升了OFD文件的可用性。
可选的,本发明实施例提供的OFD文件的敏感词屏蔽方法,还包括:
在屏蔽策略包括替换敏感词的情况下,对替换后的敏感词进行存储。
具体地,在屏蔽策略为替换敏感词的情况下,分为两种细化情况,如上述的第一种,替换之后的敏感词不可被还原,在之后的OFD文件中,该字符永久以“*”进行展现,替换之后的敏感词实际上已经被删除,不会被还原;第二种情况为,该敏感词为重要信息或需要保密的信息,字符本身的内容不能被删除,在OFD文件显示时,通过特殊符号进行替换,但是该字符可以被还原,即被替换的字符本身以某种数据格式保存在OFD文件的内部,可根据该OFD文件的实际需要,在必要的时候还原该敏感词,被替换的字符本身,可以放置在自定义的下标中。在第二种情况下,该敏感词为重要信息或需要保密的信息,可以对放置在自定义下标中的字符进行加密,具体的加密方法在此不做限定。
本发明实施例提供的OFD文件的敏感词屏蔽方法,在敏感词对应的敏感词等级的屏蔽策略为替换敏感词的情况下,可以对替换之后的敏感词进行加密,使得该方法可以应用于多种场景,提升了OFD文件敏感词屏蔽方法的可用性。
根据本发明提供的一种OFD文件的敏感词屏蔽方法,所述敏感词检测模型为基于人工智能的敏感词检测模型。
具体地,在对OFD文件中每一页的文字对象进行结构化处理后,将一个OFD文件中的所有经过结构化处理之后的结构数据,输入敏感词检测模型。具体地,本发明实施例中的敏感词检测模型为基于人工智能技术的敏感词检测模型,可以通过语义分析技术针对经过结构化处理的每一个字符,进行依次敏感词检测,语义分析是AI的一个分支,是自然语言处理技术中的核心任务通过人工智能敏感词检测模型中的语义分析功能,以字符为最小单位,依次检测OFD文件中的文本字符对象,输出标识信息。本实施例中的标识信息,会将OFD文件中的敏感词及敏感词所在的具***置及敏感词的级别返回。敏感词的级别是预设的,可根据OFD文件的具体内容进行预设,在此不做具体限定。
本发明实施例提供的OFD文件的敏感词屏蔽方法,通过结合人工智能技术,利用其语义分析能力,实现了对OFD文件敏感词的准确识别,并且提升了OFD文件敏感词的检测效率,可以进行多并发处理,同时实现大批量的OFD文件的敏感词检测。
下面对本发明提供的OFD文件的敏感词屏蔽装置进行描述,下文描述的OFD文件的敏感词屏蔽装置与上文描述的OFD文件的敏感词屏蔽方法可相互对应参照。图6是本发明提供的OFD文件的敏感词屏蔽装置的结构示意图,如图6所示,OFD文件的敏感词屏蔽装置包括:
接收模块601,用于接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
具体地,本发明实施例的OFD文件的敏感词屏蔽方法可以应用于服务器端,也可应用于客户端;当OFD文件的敏感词屏蔽方法应用于服务器端时,用户可通过服务器端发出目标指令;当OFD文件的敏感词屏蔽方法应用于客户端时,即在OFD阅读器中添加软件开发工具包,集成OFD文件的敏感词屏蔽方法,用户可在OFD阅读器中发出目标指令,一般通过如“屏蔽敏感词”的指令发出,在此不做具体限定。接收到针对OFD文件的目标指令,OFD文件的个数可以是一个,也可以是多个,可对单个OFD文件进行敏感词的屏蔽,也可以并发对多个OFD文件进行批量的敏感词屏蔽。
解析模块602,用于基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;
具体地,本步骤中,在接收到来自用户的目标指令后,对OFD文件进行解析。OFD文件格式的结构一般分为三层:第一层为虚拟存储***,包括包组织结构及包内目录组织结构;第二层为文档模型,包括文档、页面、大纲、文件级资源等组织结构;第三层为OFD文件中的页面内容描述,包括页面级资源、图形、图像和文字等。
在页面内容描述中,具体地包括三种最基本的图元对象:
图形对象:由一系列的贝塞尔曲线和圆弧组成,最终形成一个区域,图形对象可以被填充或者勾边;
图像对象:由一个矩形区域的像素值组成,每个像素值确定矩形区域一个指定点的颜色值;
文本字符对象:由一系列的字符及各个字符对应的定位信息组成,每个字符的字形由其指定的字形和其他参数确定,文本字符对象可以被填充或者勾边。
在本发明的具体实施例中,在接收到来自用户的目标指令之后,对OFD文件进行解析,首先将其按照三层结构解析,获取三层结构中的页面内容描述部分,再获取页面内容描述部分中的文本字符对象,作为后续敏感词检索的基础。
处理模块603,用于针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;
具体地,本发明实施例中,以页为单位,对OFD文件中的每一页进行解析,在获取了每一页的文本字符对象之后,需要对每一页的文本字符对象进行处理,组成结构化数据,具体实施为对OFD文件中每一页的文字对象中所包含的每一个字符,做结构化处理。每一个字符的结构化数据,包含了它在对应页面的精确位置。
检测模块604,用于将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
具体地,在对OFD文件中每一页的文字对象进行结构化处理后,将一个OFD文件中的所有经过结构化处理之后的结构数据,输入敏感词检测模型。具体地,本发明实施例中的敏感词检测模型为基于人工智能技术的敏感词检测模型,可以通过语义分析技术针对经过结构化处理的每一个字符,进行依次敏感词检测。
屏蔽模块605,用于基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
具体地,获取敏感词检测模型输出的标识信息,即OFD文件中的敏感词是什么,及敏感词所在的位置和敏感词的等级。在具体实施中,预设了屏蔽等级机制,针对敏感词的不同等级,在屏蔽等级机制中进行匹配,确定对应的屏蔽策略,基于不同敏感词对应的不同屏蔽策略,对不同的敏感词执行对应的屏蔽操作。
本发明实施例的OFD文件的敏感词屏蔽装置,通过各个模块之间的相互配合,实现了OFD文件敏感词的自动化屏蔽。
可选的,上述解析模块具体包括:
第一获取单元,用于获取OFD文件中至少一个页面的页面对象;页面对象为图形对象、图像对象和文本对象中的一项;
判断单元,用于判断至少一个页面对象中的每一个页面对象的对象类型,在判定对象类型为文本类型的情况下,获取页面对象的文本字符对象。
本发明实施例的OFD文件的敏感词屏蔽装置,通过解析模块中的第一获取单元和判断单元,解析OFD文件的结构,获取OFD文件中的文本类型内容,为后续的结构化打下基础,便于敏感词检测模型对OFD文件中的文本内容进行敏感词检测。
可选的,上述处理模块具体包括:字符化处理单元,用于将各文本字符对象进行字符化处理,得到各文本字符对象分别对应的至少一个字符;
第二获取单元,用于获取各字符的属性信息;所述属性信息包括所述字符位置的页面索引、所述字符位置的章节索引和所述字符的代码中的至少一项;
结构数据获取单元,用于基于各字符的所述属性信息,得到各文本字符对象分别对应的结构数据。
本发明实施例的OFD文件的敏感词屏蔽装置,通过对OFD文件中的文本字符对象进行结构化处理,以字符为单位,确定文本字符对象中每一个字符的属性信息,即字符位置的页面索引、字符位置的章节索引和字符的代码,将每一个字符与其对应的属性信息进行关联,进而获得文本字符对象的结构化数据,结构化数据可被敏感词检测模型处理,以实现对OFD文件中敏感词的检测。
可选的,上述屏蔽模块具体包括:
匹配单元,用于基于各敏感词的等级,在预设等级机制中匹配各敏感词对应的屏蔽策略;预设等级机制包括敏感词的等级与屏蔽策略的映射关系;
屏蔽单元,用于基于各敏感词的位置和各敏感词对应的屏蔽策略,对OFD文件中的各所述敏感词进行屏蔽。
本发明实施例的OFD文件的敏感词屏蔽装置,针对敏感词所处的不同等级,预设了不同的屏蔽机制,实现了对OFD文件不同敏感词的分级处理,增强了OFD文件敏感词屏蔽的灵活性。
图7是本发明提供的电子设备的结构示意图,图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行上述的OFD文件的敏感词屏蔽方法,该方法包括:接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的OFD文件的敏感词屏蔽方法,该方法包括:接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的OFD文件的敏感词屏蔽方法,该方法包括:接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种开放版式文档OFD文件的敏感词屏蔽方法,其特征在于,包括:
接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;
针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;
将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
2.根据权利要求1所述的OFD文件的敏感词屏蔽方法,其特征在于,所述基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象,包括:
获取所述OFD文件中至少一个页面的页面对象;所述页面对象为图形对象、图像对象和文本对象中的一项;
判断所述至少一个页面对象中的每一个页面对象的对象类型,在判定所述对象类型为文本类型的情况下,获取所述页面对象的文本字符对象。
3.根据权利要求1所述的OFD文件的敏感词屏蔽方法,其特征在于,所述针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据,包括:
将各所述文本字符对象进行字符化处理,得到各所述文本字符对象分别对应的至少一个字符;
获取各所述字符的属性信息;所述属性信息包括所述字符位置的页面对象编号、所述字符位置的章节索引和所述字符所在章节的位置索引中的至少一项;
基于各所述字符的所述属性信息,得到各所述文本字符对象分别对应的结构数据。
4.根据权利要求1所述的OFD文件的敏感词屏蔽方法,其特征在于,所述基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽,包括:
基于各所述敏感词的等级,在所述预设等级机制中匹配各所述敏感词对应的屏蔽策略;所述预设等级机制包括敏感词的等级与屏蔽策略的映射关系;
基于各所述敏感词的位置和各所述敏感词对应的所述屏蔽策略,对所述OFD文件中的各所述敏感词进行屏蔽。
5.根据权利要求4所述的OFD文件的敏感词屏蔽方法,其特征在于,所述屏蔽策略包括以下至少一项:
遮盖敏感词;
替换敏感词;
删除敏感词。
6.根据权利要求5所述的OFD文件的敏感词屏蔽方法,其特征在于,所述方法还包括:
在所述屏蔽策略包括所述替换敏感词的情况下,对替换后的敏感词进行存储。
7.根据权利要求1至6任一项所述的OFD文件的敏感词屏蔽方法,其特征在于,所述敏感词检测模型为基于人工智能的敏感词检测模型。
8.一种OFD文件的敏感词屏蔽装置,其特征在于,包括:
接收模块,用于接收针对OFD文件的目标指令;所述目标指令用于指示对所述OFD文件中的敏感词进行屏蔽;
解析模块,用于基于所述目标指令对所述OFD文件进行解析,得到所述OFD文件中的至少一个文本字符对象;
处理模块,用于针对所述至少一个文本字符对象中的每一个文本字符对象进行结构化处理,得到各所述文本字符对象分别对应的结构数据;
检测模块,用于将各所述结构数据输入至敏感词检测模型,得到所述敏感词检测模型输出的各所述结构数据对应的标识信息;所述标识信息用于指示对应的结构数据中的敏感词及所述敏感词对应的位置和等级;
屏蔽模块,用于基于各所述标识信息和预设等级机制,对所述OFD文件中的各所述敏感词进行屏蔽。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的OFD文件的敏感词屏蔽方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的OFD文件的敏感词屏蔽方法。
CN202311076705.7A 2023-08-25 2023-08-25 Ofd文件的敏感词屏蔽方法、装置、设备及介质 Pending CN116776862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311076705.7A CN116776862A (zh) 2023-08-25 2023-08-25 Ofd文件的敏感词屏蔽方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311076705.7A CN116776862A (zh) 2023-08-25 2023-08-25 Ofd文件的敏感词屏蔽方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116776862A true CN116776862A (zh) 2023-09-19

Family

ID=88013824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311076705.7A Pending CN116776862A (zh) 2023-08-25 2023-08-25 Ofd文件的敏感词屏蔽方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116776862A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132070A1 (en) * 2000-11-13 2005-06-16 Redlich Ron M. Data security system and method with editor
CN109522740A (zh) * 2018-10-16 2019-03-26 易保互联医疗信息科技(北京)有限公司 健康数据的去隐私化处理方法及***
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN113204949A (zh) * 2021-05-28 2021-08-03 中国建设银行股份有限公司 电子文档中敏感数据的脱敏处理方法及装置
CN113642739A (zh) * 2021-08-12 2021-11-12 北京华宇元典信息服务有限公司 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
CN114330287A (zh) * 2021-12-23 2022-04-12 北京八分量信息科技有限公司 异构网络中敏感数据的伪处理方法、装置及相关产品
CN114398873A (zh) * 2022-01-11 2022-04-26 山东东葳电子科技有限公司 一种敏感词的处理方法及处理装置
CN115455473A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 电子文档敏感词自动处理方法、装置、设备和存储介质
CN115495621A (zh) * 2022-08-03 2022-12-20 熵链科技(厦门)有限公司 一种敏感词数据的屏蔽方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132070A1 (en) * 2000-11-13 2005-06-16 Redlich Ron M. Data security system and method with editor
CN109522740A (zh) * 2018-10-16 2019-03-26 易保互联医疗信息科技(北京)有限公司 健康数据的去隐私化处理方法及***
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN113204949A (zh) * 2021-05-28 2021-08-03 中国建设银行股份有限公司 电子文档中敏感数据的脱敏处理方法及装置
CN113642739A (zh) * 2021-08-12 2021-11-12 北京华宇元典信息服务有限公司 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
CN114330287A (zh) * 2021-12-23 2022-04-12 北京八分量信息科技有限公司 异构网络中敏感数据的伪处理方法、装置及相关产品
CN114398873A (zh) * 2022-01-11 2022-04-26 山东东葳电子科技有限公司 一种敏感词的处理方法及处理装置
CN115495621A (zh) * 2022-08-03 2022-12-20 熵链科技(厦门)有限公司 一种敏感词数据的屏蔽方法、装置、设备及存储介质
CN115455473A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 电子文档敏感词自动处理方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯辉 等: "OFD的安全应用分析", 信息技术与标准化, no. 11, pages 49 - 53 *
曾冬 等: "多模多维舆情监控智能过滤审核***的功能与使用", 视听, no. 03, pages 75 - 79 *

Similar Documents

Publication Publication Date Title
US11830266B2 (en) Data processing systems, devices, and methods for content analysis
US10929449B2 (en) Generating a structured document guiding view
US7428701B1 (en) Method, system and computer program for redaction of material from documents
US10929597B2 (en) Techniques and systems for storing and protecting signatures and images in electronic documents
CN104346322A (zh) 文档格式处理装置和文档格式处理方法
US11675963B2 (en) Suggestion techniques for documents to-be-translated
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
CN105512096B (zh) 一种基于文档中内嵌字体的优化方法及装置
KR20090008747A (ko) 전자책에서의 텍스트 변경으로 컨텐츠 리포맷팅 및 페이지수의 재산출을 위한 방법, 및 이에 적용되는 장치
US10140278B2 (en) Computer-implemented methods and systems for associating files with cells of a collaborative spreadsheet
CN116776862A (zh) Ofd文件的敏感词屏蔽方法、装置、设备及介质
CN111291575A (zh) 文本处理方法、装置、电子设备、及存储介质
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
JP2011515730A (ja) 電子文書をページごとにコンピュータグラフィックスとして供給する方法および装置
CN111046096B (zh) 用于生成图文结构化信息的方法和装置
JP2018036843A (ja) 装置、方法、及びプログラム
CN111079375A (zh) 一种信息整理的方法、装置、计算机存储介质及终端
JP2019109703A (ja) 文書検索装置、文書検索方法、及びプログラム
EP2711847A2 (en) Page data generation apparatus, recording medium and page data generation method
JP7501255B2 (ja) 文書検索システム、文書検索方法およびプログラム
US20240169144A1 (en) Methods and apparatus for selecting, high lighting and/or processing, text included in a pdf document
CN116227465A (zh) 文字处理方法、装置、存储介质以及电子设备
CN114546306A (zh) 应用于报表套打的数据处理方法、装置、设备、介质和程序产品
CN116884009A (zh) 证照信息识别方法及装置、模型训练方法及装置
CN115526964A (zh) 一种图像生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230919