CN110427773A - 信息处理方法、装置、存储介质及终端设备 - Google Patents

信息处理方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN110427773A
CN110427773A CN201910575551.3A CN201910575551A CN110427773A CN 110427773 A CN110427773 A CN 110427773A CN 201910575551 A CN201910575551 A CN 201910575551A CN 110427773 A CN110427773 A CN 110427773A
Authority
CN
China
Prior art keywords
character string
text
content
processed
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910575551.3A
Other languages
English (en)
Inventor
唐志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910575551.3A priority Critical patent/CN110427773A/zh
Priority to PCT/CN2019/103028 priority patent/WO2020258492A1/zh
Publication of CN110427773A publication Critical patent/CN110427773A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种信息处理方法、装置、存储介质及终端设备,所述方法包括:获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;根据正则表达式对所述字符串数组进行匹配,获取所述字符串数组中满足正则表达式要求的待处理字符串;根据所述正则表达式与所述待处理字符串,确定所述待处理字符串对应的匹配字符串;获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。本发明能够批量处理文件中的文本内容,提高了文件内容的处理效率。

Description

信息处理方法、装置、存储介质及终端设备
技术领域
本发明涉及数据处理领域,具体涉及一种信息处理方法、装置、存储介质及终端设备。
背景技术
随着互联网信息的发展,公司信息、合同信息、个人信息及客户信息等信息都记录在计算机设备中,而在不同时间段或面向不同的用户,需要对记录在案的部分信息进行特殊处理,例如该些信息面向大众时,对重要、敏感的信息作屏蔽处理。而目前,对于此类信息,通常是对存储该些信息的文件直接作加密处理,或者通过人工一一修改文件中的重要、敏感信息,直接对文件进行加密处理无法让文件针对性地面向不同用户,同时,若面向不同的用户需要对文件进行不同处理,通过人工一一修改文件需要耗费大量的资源,造成时间、人力、资源的浪费。
发明内容
为克服以上技术问题,特别是现有技术无法高效、低成本地进行文件内容处理的问题,特提出以下技术方案:
第一方面,本发明提供了一种信息处理方法,包括:
获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;
根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;
根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;
获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
进一步的,所述获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,还包括:
获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
进一步的,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之后,还包括:
将所述正则表达式、待处理字符串及匹配字符串关联保存至配置文件;
接收对所述配置文件的正则表达式的修改,修改对应的匹配字符串,或
接收对所述配置文件的匹配字符串的修改,修改对应的正则表达式。
进一步的,所述将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,还包括:
根据替换后的匹配文本内容,生成文本内容替换文件;
统计所述文本内容替换文件的正确率,根据所述正确率确定目标正则表达式;
根据所述目标正则表达式,重新生成所述文本内容替换文件。
进一步的,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
获取所述文件的属性信息,根据预设规则匹配出与所述文件的属性信息对应的正则表达式。
进一步的,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
判断所述文件的文件格式是否为预置格式,若否,将所述文件格式转换为预置格式;
获取所述预置格式对应的正则表达式。
第二方面,本发明提供一种信息处理装置,包括:
格式化模块:用于获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;
匹配模块:用于根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;
确定模块:用于根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;
替换模块:用于获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
进一步的,所述替换模块还包括执行:
获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
第三方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的信息处理方法。
第四方面,本发明还提供了一种终端设备,所述终端设备包括一个或多个处理器、存储器、一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的信息处理方法。
本发明与现有技术相比,具有以下有益效果:
本发明提供了一种对文件中指定的文本内容进行处理的方法,在获取到文件后,将文件的文本内容进行处理,将文件的文本内容格式化为一个一个的字符串,从而将文件的文本内容看作由一个个字符串组成的字符串数组,然后获取处理该文件文本内容的正则表达式,筛选所述字符串数组中满足正则表达式要求的待处理字符串,根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容,在确定了待处理字符串跟各待处理字符串对应的匹配字符串后,模拟打开所述文件,模拟执行替换操作,获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容,完成对文件中的待处理文本内容的转换,实现对文件中重要或敏感信息的屏蔽、修改或掩码处理,批量化的文件内容处理节省了时间,提高对文件中文本内容的处理效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明信息处理方法的一实施例流程示意图;
图2为本发明信息处理方法的另一实施例流程示意图;
图3为本发明信息处理装置的一实施例示意图;
图4为本发明终端设备的一实施例结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本领域技术人员应当理解,本发明所称的“应用”、“应用程序”、“计算机程序”以及类似表述的概念,是业内技术人员所公知的相同概念,是指由一系列计算机指令及相关数据资源有机构造的适于电子运行的计算机软件。除非特别指定,这种命名本身不受编程语言种类、级别,也不受其赖以运行的操作***或平台所限制。理所当然地,此类概念也不受任何形式的终端所限制。
本发明实施例提供一种信息处理方法,如图1所示,所述方法包括以下步骤:
S10:获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组。
本实施例中,在需要对文件中包含的内容进行处理时,例如文件中存储的公司信息,个人信息,客户信息,需要对特定的信息进行处理,所述处理包括掩码处理、替换处理、删改处理,首先获取包含文本内容的文件,然后对所述文件进行文本预处理,本实施例的一种实施方式,对所述文本内容进行格式化处理,具体的,将内容分析工具集合到本实施例的应用程序中,通过调用内容分析工具如tika将文件的文本内容进行处理,得到文件的metadata,content等内容,返回格式化信息,从而将文件的文本内容格式化为一个一个的字符串,本实施例将该些字符串的集合成定义为字符串数组。
S20:根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串。
本实施例中,设置有一配置文件,配置文件中配置有正则表达式,一种实施方式,所述配置文件为xml配置文件,在xml配置文件中制定正则表达式,正则表达式是对字符串操作的一种逻辑公式,包括对普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”)的操作,利用事先定义好的一些字符、及该些字符的组合组成一个“规则字符串”,通过所述“规则字符串”对字符串进行过滤,具体的,根据xml配置文件的规则,利用正则表达式对所述字符串数组进行筛选,从所述字符串数组中查找到满足正则表达式规则的字符串,将该些字符串定义为待处理字符串,所述正则表达式中包括不同的条件规则,根据不同的条件规则匹配到不同的字符串,进一步的,还可以根据多个条件规则的组合匹配到满足多个条件规则的字符串,从而筛选出文件中指定的文本内容,例如,正则表达式包含的一条件规则为筛选出包含字符“aa”的字符串,根据该正则表达式对字符串数组中的字符串进行筛选,便能筛选出包含字符“aa”的字符串。
S30:根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容。
为了对文件中特定的文本内容进行处理,包括对文本内容进行掩码处理、屏蔽处理、替换处理等,本实施例中,在获取到待处理字符串后,根据所述正则表达式对所述待处理字符串包含的字符进行替换,所述替换包括对字符串的字符进行更改,例如将字符a替换成字符b;所述替换还包括对字符串的字符进行删除,即将字符a替换成空字符;所述替换还包括对字符串的字符进行增加,即将字符a替换成字符ab;,对待处理字符串进行替换后,生成所述待处理字符串对应的匹配字符串,即将待处理字符串按照正则表达式的规则进行替换,替换的结果仍为字符串,本实施例将替换后的字符串定义为匹配字符串,所述匹配字符串为后续替换所述待处理字符串所用,例如,待处理的字符串aaaa对应的匹配字符串为xxxx,待处理字符串bbcc对应的匹配字符串为xyxy。字符串与文本内容存在映射关系,本实施例将生成的匹配字符串进行逆格式化处理,从而确定所述匹配字符串对应的匹配文本内容,并将匹配文本内容保存至配置文件中。
本实施例的一种实施方式,所述待处理字符串为文件的通用格式或标准格式的字符串,可以转化为任意格式的其它字符串。
S40:获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
本实施例中,在xml配置文件中确定了文件中的待处理字符串及每个待处理字符串对应的匹配字符串后,模拟打开所述文件,具体的,获取所述文件的文件格式类型,然后根据所述文件格式类型获取模拟打开所述文件格式类型的方式,包括模拟打开.txt格式文件、.doc格式文件或.pdf文件,然后再模拟执行文本内容替换操作,具体的,将所述待处理字符串转化为待处理文本内容,然后从文件中查找、定位所述待处理文本内容,再获取所述匹配字符串转化后对应的匹配文本内容,然后将所述待处理内容替换为所述的匹配文本内容,完成对文件中的所述待处理文本内容的转换,实现对文件中重要或敏感信息的屏蔽、修改或掩码处理。
本实施例提供了一种对文件中指定的文本内容进行处理的方法,在获取到文件后,将文件的文本内容进行处理,将文件的文本内容格式化为一个一个的字符串,从而将文件的文本内容看作由一个个字符串组成的字符串数组,然后获取处理该文件文本内容的正则表达式,筛选所述字符串数组中满足正则表达式要求的待处理字符串,根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容,在确定了待处理字符串跟各待处理字符串对应的匹配字符串后,获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容,完成对文件中的待处理文本内容的转换,实现对文件中重要或敏感信息的屏蔽、修改或掩码处理,批量化的文件内容处理节省了时间,提高对文件中文本内容的处理效率。
本发明的一种实施例,如图2所示,所述获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,还包括:
S41:获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
在实际应用中,由于不同文件具有不同的文本格式,甚至同一文件中不同文字内容亦具有不同的文本格式,包括粗体格式、不同字体格式、不同颜色格式等,本实施例中,在将将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,获取所述待处理文本内容的原始文本格式,然后将替换掉所述待处理文本内容的匹配文本内容的文本格式设置为所述原始文本格式,设置后所述匹配文本内容的文本格式与待处理文本内容的文本格式相同,均为所述原始文本格式。例如,原先文本格式为粗体格式的待处理文本内容,替换后文本内容的文本格式仍为粗体格式,原先文本格式为5号宋体的待处理文本内容,替换后文本内容的文本格式仍为5号宋体,在不修改原文件文本内容的文本格式下对文本内容进行替换或修改,从而达到不影响文件整体文本格式的优点。
本发明的一种实施例,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之后,还包括:
将所述正则表达式、待处理字符串及匹配字符串关联保存至配置文件;
接收对所述配置文件的正则表达式的修改,修改对应的匹配字符串,或
接收对所述配置文件的匹配字符串的修改,修改对应的正则表达式。
在实际应用中,可能不同部门对于文件的内容要求不同,对于文件中相同文本内容想要的处理结果亦不相同,例如,对于部门S1,需要将文件A中的所有涉及人物姓名的文本内容替换为“***”的形式,对于部门S2,需要将文件A中的所有涉及人物姓名的文本内容替换为“姓氏+**”的形式,本实施例中,将所述正则表达式、待处理字符串及匹配字符串关联保存至配置文件,例如保存至xml配置文件,然后当不同部门对于文件中相同文本内容的替换需求不同时,只需要修改所述xml配置文件,以修改配置文件中的正则表达式或匹配字符串,便可根据不同的需求替换不同的文本内容。
本实施例的一种实施方式,接收对所述配置文件的正则表达式的修改,对正则表达式的替换条件进行修改,修改后根据待处理字符串及所述正则表达式的替换条件便能生成不同的匹配字符串,以修改待处理字符串对应的匹配字符串,在需要将相同的待处理文本内容替换为不同的匹配文本内容时,可以通过修改配置文件中的正则表达式,从而修改相应的匹配字符串。本实施例的另一种实施方式,接收对所述配置文件的匹配字符串的修改,修改对应的正则表达式,当业务人员不具备修改正则表达式的能力时,所述配置文件中确定了待处理字符串后,然后通过修改所述匹配字符串,从而修改相应的正则表达式,保证后续能够将待处理字符串替换为所需的匹配字符串,实现实时修改所述配置文件,从而提高对文件中文本内容的处理效率,满足不同业务对文件内容处理的需求。
本发明的一种实施例,所述将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,还包括:
根据替换后的匹配文本内容,生成文本内容替换文件;
统计所述文本内容替换文件的正确率,根据所述正确率确定目标正则表达式;
根据所述目标正则表达式,重新生成所述文本内容替换文件。
本实施例中,在将文件中的待处理文本内容替换为匹配文本内容后,根据替换后的匹配文本内容,生成文本内容替换文件,由于机器处理的开始阶段,可能存在文本内容替换错误率较高的现象,为了进一步提高机器处理的正确率,在一次处理后,统计所述文本内容替换文件的内容处理的正确率,当所述正确率低于预设值时,根据所述正确率调整此次替换时所使用的正则表达式,从而确定目标正则表达式,然后格局所述目标正则表达式,对所述文件再执行一次信息处理操作,重新生成文本内容替换文件。例如,在测试阶段,设置多个不同正则表达式应用于对同一文件的相同文本内容的处理,然后统计所述不同正则表达式的处理结果的正确率,进而根据正确率进行排序,在实际应用中,优先使用正确率高的正则表达式对文件进行处理,若实际应用中,该正则表达式的正确率不满足要求时,再更换为其它正则表达式,以提高对文件内容处理的正确率。
本发明的一种实施例,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
获取所述文件的属性信息,根据预设规则匹配出与所述文件的属性信息对应的正则表达式。
在实际应用中,不同文件随着业务发展的不同阶段,文件所需要处理的内容不尽相同,本实施例中,通过不同的正则表达式实现对不同阶段的文件进行不同的处理,具体的,在根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,获取所述文件的属性信息,然后根据预设规则匹配出与所述文件的属性信息对应的正则表达式,从而确定不同属性信息的文件此时所需的正则表达式,在一种实施方式中,所述属性信息包括文件的创建时间,然后判断当前时间与所述文件创建时间之间的时长间隔,获取该时长间隔对应的正则表达式,然后再根据不同的正则表达式对不同创建时间的文件进行相应的处理。例如,若文件的创建时间与当前时间的间隔时长大于6个月,匹配的正则表达式A,基于正则表达式A将文件中的文本内容X及Y作掩码处理,而当所述时间间隔小于6个月,匹配的正则表达式B,基于正则表达式B将文件中的文本内容Y作掩码处理,对于文本内容X不作掩码处理。本实施例的一种应用场景,对于申请专利的交底材料,判断该交底材料的创建时间是否小于12个月,若是则屏蔽技术信息和发明人信息;若该交底材料的创建时间大于12个月后,该交底材料的专利文献一般已公开,不需要屏蔽该交底材料的技术信息,只屏蔽发明人信息。
本发明的一种实施例,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
判断所述文件的文件格式是否为预置格式,若否,将所述文件格式转换为预置格式;
获取所述预置格式对应的正则表达式。
在实际中,待处理的文件包括多种文件格式,如.doc格式、.txt格式、.pdf格式,为了减少对不同格式的文件开发不同的处理逻辑代码而带来二额外的工作量,本实施例中,在确定正则表达式时,判断所述文件的文件格式是否为预置格式,若否,将所述文件格式转换为预置格式,预置格式的文件则有相应的正则表达式进行匹配,然后获取所述预置格式对应的正则表达式,从而实现对不同文件格式的文件进行处理,提高对不同文件格式的文件的处理效率。
如图3所示,在另一种实施例中,本发明提供了一种信息处理装置,包括:
格式化模块10:用于获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;
匹配模块20:用于根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;
确定模块30:用于根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;
替换模块40:用于获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
本发明的一种实施例,所述替换模块40还包括执行;
获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
本发明的一种实施例,所述装置还包括:
配置模块:用于将所述正则表达式、待处理字符串及匹配字符串关联保存至配置文件;接收对所述配置文件的正则表达式的修改,修改对应的匹配字符串,或接收对所述配置文件的匹配字符串的修改,修改对应的正则表达式。
本发明的一种实施例,所述装置还包括:
调整模块:用于根据替换后的匹配文本内容,生成文本内容替换文件;统计所述文本内容替换文件的正确率,根据所述正确率确定目标正则表达式;根据所述目标正则表达式,重新生成所述文本内容替换文件。
本发明的一种实施例,所述匹配模块20还包括执行:
获取所述文件的属性信息,根据预设规则匹配出与所述文件的属性信息对应的正则表达式。
本发明的一种实施例,所述匹配模块20还包括执行:
判断所述文件的文件格式是否为预置格式,若否,将所述文件格式转换为预置格式;获取所述预置格式对应的正则表达式。
在另一种实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例所述的信息处理方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明实施例提供的一种计算机可读存储介质,可实现获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。通过提供一种对文件中指定的文本内容进行处理的方法,在获取到文件后,将文件的文本内容进行处理,将文件的文本内容格式化为一个一个的字符串,从而将文件的文本内容看作由一个个字符串组成的字符串数组,然后获取处理该文件文本内容的正则表达式,筛选所述字符串数组中满足正则表达式要求的待处理字符串,根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容,在确定了待处理字符串跟各待处理字符串对应的匹配字符串后,获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容,完成对文件中的待处理文本内容的转换,实现对文件中重要或敏感信息的屏蔽、修改或掩码处理,批量化的文件内容处理节省了时间,提高对文件中文本内容的处理效率。
本发明实施例提供的计算机可读存储介质可以实现上述信息处理方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,在又一种实施例中,本发明还提供一种终端设备,如图4所示,所述终端设备包括处理器403、存储器405、输入单元407以及显示单元409等器件。本领域技术人员可以理解,图4示出的结构器件并不构成对所有终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。所述存储器405可用于存储计算机程序401以及各功能模块,所述处理器403运行存储在存储器405的计算机程序401,从而执行设备的各种功能应用以及数据处理。所述存储器405可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器405只作为例子而非作为限定。
输入单元407用于接收信号的输入及接收用户的输入,输入单元407可包括触控面板以及其它输入设备,触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元409可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元409可采用液晶显示器、有机发光二极管等形式。处理器403是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器403内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
在一种实施方式中,所述终端设备包括一个或多个处理器403,以及一个或多个存储器405,一个或多个计算机程序401,其中所述一个或多个计算机程序401被存储在存储器405中并被配置为由所述一个或多个处理器403执行,所述一个或多个计算机程序401配置用于执行以上实施例所述的文件文本内容处理方法。图4中所示的一个或多个处理器403能够执行、实现图3中所示的格式化模块10、匹配模块20、确定模块30、替换模块40的功能。
本发明实施例提供的一种终端设备,可实现获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。通过提供一种对文件中指定的文本内容进行处理的方法,在获取到文件后,将文件的文本内容进行处理,将文件的文本内容格式化为一个一个的字符串,从而将文件的文本内容看作由一个个字符串组成的字符串数组,然后获取处理该文件文本内容的正则表达式,筛选所述字符串数组中满足正则表达式要求的待处理字符串,根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容,在确定了待处理字符串跟各待处理字符串对应的匹配字符串后,获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容,完成对文件中的待处理文本内容的转换,实现对文件中重要或敏感信息的屏蔽、修改或掩码处理,批量化的文件内容处理节省了时间,提高对文件中文本内容的处理效率。
本发明实施例提供的终端设备可以实现上述提供的信息处理方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;
根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;
根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;
获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
2.根据权利要求1所述的方法,其特征在于,所述获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,所述方法还包括:
获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
3.根据权利要求1所述的方法,其特征在于,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之后,还包括:
将所述正则表达式、待处理字符串及匹配字符串关联保存至配置文件;
接收对所述配置文件的正则表达式的修改,修改对应的匹配字符串,或,
接收对所述配置文件的匹配字符串的修改,修改对应的正则表达式。
4.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容之后,还包括:
根据替换后的匹配文本内容,生成文本内容替换文件;
统计所述文本内容替换文件的正确率,根据所述正确率确定目标正则表达式;
根据所述目标正则表达式,重新生成所述文本内容替换文件。
5.根据权利要求1所述的方法,其特征在于,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
获取所述文件的属性信息,根据预设规则匹配出与所述文件的属性信息对应的正则表达式。
6.根据权利要求1所述的方法,其特征在于,所述根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串之前,包括:
判断所述文件的文件格式是否为预置格式,若否,将所述文件格式转换为预置格式;
获取所述预置格式对应的正则表达式。
7.一种信息处理装置,其特征在于,包括:
格式化模块:用于获取包含文本内容的文件,将所述文件的文本内容格式化为字符串数组;
匹配模块:用于根据正则表达式对所述字符串数组进行筛选,获取所述字符串数组中满足所述正则表达式要求的待处理字符串;
确定模块:用于根据所述正则表达式对所述待处理字符串包含的字符进行替换,生成所述待处理字符串对应的匹配字符串,将所述匹配字符串进行逆格式化处理,确定所述匹配字符串对应的匹配文本内容;
替换模块:用于获取所述文件中所述待处理字符串对应的待处理文本内容,将所述待处理文本内容替换为所述匹配字符串对应的匹配文本内容。
8.根据权利要求7所述的装置,其特征在于,所述替换模块还包括执行:
获取所述待处理文本内容的原始文本格式,将所述匹配文本内容的文本格式设置为所述原始文本格式。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的信息处理方法。
10.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行根据权利要求1至6任一项所述的信息处理方法。
CN201910575551.3A 2019-06-28 2019-06-28 信息处理方法、装置、存储介质及终端设备 Pending CN110427773A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910575551.3A CN110427773A (zh) 2019-06-28 2019-06-28 信息处理方法、装置、存储介质及终端设备
PCT/CN2019/103028 WO2020258492A1 (zh) 2019-06-28 2019-08-28 信息处理方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575551.3A CN110427773A (zh) 2019-06-28 2019-06-28 信息处理方法、装置、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN110427773A true CN110427773A (zh) 2019-11-08

Family

ID=68409929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575551.3A Pending CN110427773A (zh) 2019-06-28 2019-06-28 信息处理方法、装置、存储介质及终端设备

Country Status (2)

Country Link
CN (1) CN110427773A (zh)
WO (1) WO2020258492A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941946A (zh) * 2019-11-29 2020-03-31 西安四叶草信息技术有限公司 一种信息提取方法、装置、设备及存储介质
CN111090671A (zh) * 2019-12-19 2020-05-01 山大地纬软件股份有限公司 消除数据库中空字符串和无效字符串差异的方法和装置
CN112183034A (zh) * 2020-10-26 2021-01-05 阳光保险集团股份有限公司 语料合成方法、装置、电子设备和存储介质
CN113111231A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式接处警文本人物信息要素提取方法和装置
CN113378518A (zh) * 2021-05-17 2021-09-10 广东广宇科技发展有限公司 基于正则表达式的json数据格式替换方法、***及存储介质
CN114398578A (zh) * 2021-12-23 2022-04-26 网易有道信息技术(北京)有限公司 用于对html字符串进行预处理的方法及其相关产品
CN114697311A (zh) * 2020-12-31 2022-07-01 ***通信有限公司研究院 文件处理方法、装置、设备及存储介质
CN117852496A (zh) * 2024-01-09 2024-04-09 镁佳(北京)科技有限公司 一种文本分割格式化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073794A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd 文字列選択方法、文字列選択プログラム、および文字列選択装置
CN103455307A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 对命令行输出的信息进行处理的方法和装置
CN109684469A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 敏感词过滤方法、装置、计算机设备及存储介质
CN109829328A (zh) * 2018-12-19 2019-05-31 上海晶赞融宣科技有限公司 数据脱敏、逆脱敏方法及装置、存储介质、终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060265357A1 (en) * 2005-04-26 2006-11-23 Potts Matthew P Method of efficiently parsing a file for a plurality of strings
CN105701074A (zh) * 2016-01-04 2016-06-22 北京京东尚科信息技术有限公司 一种字符处理方法和装置
CN107329957B (zh) * 2017-05-18 2020-08-18 网易(杭州)网络有限公司 替换代码中文字符串的方法以及计算机可读存储介质
CN109376547A (zh) * 2018-09-29 2019-02-22 北京邮电大学 基于文件路径的信息防护方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073794A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd 文字列選択方法、文字列選択プログラム、および文字列選択装置
CN103455307A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 对命令行输出的信息进行处理的方法和装置
CN109684469A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 敏感词过滤方法、装置、计算机设备及存储介质
CN109829328A (zh) * 2018-12-19 2019-05-31 上海晶赞融宣科技有限公司 数据脱敏、逆脱敏方法及装置、存储介质、终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941946A (zh) * 2019-11-29 2020-03-31 西安四叶草信息技术有限公司 一种信息提取方法、装置、设备及存储介质
CN111090671A (zh) * 2019-12-19 2020-05-01 山大地纬软件股份有限公司 消除数据库中空字符串和无效字符串差异的方法和装置
CN113111231A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式接处警文本人物信息要素提取方法和装置
CN112183034A (zh) * 2020-10-26 2021-01-05 阳光保险集团股份有限公司 语料合成方法、装置、电子设备和存储介质
CN114697311A (zh) * 2020-12-31 2022-07-01 ***通信有限公司研究院 文件处理方法、装置、设备及存储介质
CN113378518A (zh) * 2021-05-17 2021-09-10 广东广宇科技发展有限公司 基于正则表达式的json数据格式替换方法、***及存储介质
CN113378518B (zh) * 2021-05-17 2024-06-11 广东广宇科技发展有限公司 基于正则表达式的json数据格式替换方法、***及存储介质
CN114398578A (zh) * 2021-12-23 2022-04-26 网易有道信息技术(北京)有限公司 用于对html字符串进行预处理的方法及其相关产品
CN117852496A (zh) * 2024-01-09 2024-04-09 镁佳(北京)科技有限公司 一种文本分割格式化方法及装置

Also Published As

Publication number Publication date
WO2020258492A1 (zh) 2020-12-30

Similar Documents

Publication Publication Date Title
CN110427773A (zh) 信息处理方法、装置、存储介质及终端设备
Everitt A handbook of statistical analyses using S-Plus
Fox et al. An R companion to applied regression
Marciniak Encyclopedia of software engineering
US20170192758A1 (en) Method and apparatus for migration of application source code
CN108694214A (zh) 数据报表的生成方法、生成装置、可读介质及电子设备
US20230018975A1 (en) Monolith database to distributed database transformation
US20160041824A1 (en) Refining data understanding through impact analysis
CN101853163B (zh) 一种基于组装业务建模的行业应用软件***构建方法
CN108595179A (zh) 任务生成方法、装置、电子设备及计算机可读存储介质
CN101876969B (zh) 报表开发方法及装置
Wu Finding achievable features and constraint conflicts for inconsistent metamodels
US11593511B2 (en) Dynamically identifying and redacting data from diagnostic operations via runtime monitoring of data sources
Wojszczyk et al. The process of verifying the implementation of design patterns—used data models
JP6870454B2 (ja) 分析装置、分析プログラム及び分析方法
US10025838B2 (en) Extract transform load input suggestion
Panahandeh et al. MUPPIT: A method for using proper patterns in model transformations
CN110737642B (zh) 数据库信息分析方法、装置、计算机装置及存储介质
de Boer et al. Completeness and complexity of reasoning about call-by-value in Hoare logic
Li et al. Automatic Module Detection in Data Cleaning Workflows: Enabling Transparency and Recipe Reuse
CN101916179B (zh) 控制寄存器中的标志位的存取方法
Bourke Computer Science I
Windham Introduction to Regular Expressions in SAS
Oliveira et al. On the conceptualization of ETL patterns: a Reo approach
CN116578298A (zh) 业务处理方法、装置及计算机设备、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination