CN111522950A - 一种针对非结构化海量文本敏感数据的快速识别*** - Google Patents

一种针对非结构化海量文本敏感数据的快速识别*** Download PDF

Info

Publication number
CN111522950A
CN111522950A CN202010338431.4A CN202010338431A CN111522950A CN 111522950 A CN111522950 A CN 111522950A CN 202010338431 A CN202010338431 A CN 202010338431A CN 111522950 A CN111522950 A CN 111522950A
Authority
CN
China
Prior art keywords
data
unit
identification
sensitive
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010338431.4A
Other languages
English (en)
Other versions
CN111522950B (zh
Inventor
章明珠
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Siwei Century Technology Co ltd
Original Assignee
Chengdu Siwei Century Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Siwei Century Technology Co ltd filed Critical Chengdu Siwei Century Technology Co ltd
Priority to CN202010338431.4A priority Critical patent/CN111522950B/zh
Publication of CN111522950A publication Critical patent/CN111522950A/zh
Application granted granted Critical
Publication of CN111522950B publication Critical patent/CN111522950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对非结构化海量文本敏感数据的快速识别***,包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元,所述建模单元包括信息采集模块和建模计算模块,且建模单元与识别层单元电性连接,所述存储单元用于为所述建模单元的元数据提供持久化存储,所述存储单元电性连接于建模单元,所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块。本发明对于非结构化数据的快速分类,利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类,提高了识别效率,并且对于非结构化数据的高效识别、根据敏感类型,能自主选择对应的查询方法进行扫描,提高了扫描效率。

Description

一种针对非结构化海量文本敏感数据的快速识别***
技术领域
本发明属于数据安全、数据分类算法及数据建模领域,更具体地说,尤其涉及一种针对非结构化海量文本敏感数据的快速识别***。
背景技术
针对于海量的非机构化的文本数据,目前市场上面通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行抽离和优化,将非结构化数据进行分类和敏感提取。目前主流的相关技术方案主要是使用神经网络数据分析引擎对文本数据进行分类和汇总、然后对数据进行抽离和识别,其中核心技术是对于文本数据的快速分类和体系化饿的敏感识别引擎,随着互联网技术的发展和普及,互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,其中的敏感数据也时刻威胁着企业和个人日常生活。如何帮助企业高效识别这些敏感数据,快速地从海量的非结构化文本中对敏感数据进行分类,如何将这些非结构化文本数据表示成计算机能够“理解”的形式,减轻识别成本,同时将数据高效的挖掘与储存起来,越来越受到广泛的市场需求。
对于目前非结构化数据的敏感识别现有技术,主要存在的缺点有:对于海量数据进行敏感识别时,识别效率十分低下,主要原因是数据的分类效率和关键信息的扫描效率。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种针对非结构化海量文本敏感数据的快速识别***,本***对于非结构化数据的快速分类,利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类,提高了识别效率,并且对于非结构化数据的高效识别、根据敏感类型,能自主选择对应的查询方法进行扫描,提高了扫描效率。
为实现上述目的,本发明提供如下技术方案:
一种针对非结构化海量文本敏感数据的快速识别***,包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元,所述建模单元包括信息采集模块和建模计算模块,且建模单元与识别层单元电性连接,所述存储单元用于为所述建模单元的元数据提供持久化存储,且存储单元上设置有读写接口,所述存储单元电性连接于建模单元,所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块,且所述支撑层单元用于对所述序列化单元的算法进行优化,并对信息采集模块采集重心提供策略和依据。
优选的,所述信息采集模块包括人工采集模块和机器采集模块,所述人工采集模块由人工分拣样本数据到存储单元,并对样本进行敏感类型及等级标注,所述人工采集模块上设置有与识别层单元连接的接口,且人工采集模块由人工提供批量关键字导入,所述人工采集模块采集样本每个应不少于100条信息,且上述样本均存储于存储单元内。
优选的,所述建模计算模块同于对所述人工采集模块和机器采集模块提供相应的人采计算和机采计算,所述机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法,所述人采计算是用于对机采计算进行业务相关性的修正,对敏感分类和评级打分体系进行平滑过渡处理,所述人采计算引入相似度计算、海明距离扩展性算法,且人采计算增加近似度和词法联想的自然语言处理。
优选的,所述识别层单元以建模单元的输出作为输入对模型进行初始加载操作,且识别层单元根据业务需要动态增减模型项,并支持热插拔操作,所述识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法,即每个分类自身权重乘以其匹配度累加值取对数,其结果是一个介于零和一之间的浮点数,来作为敏感最终评估计算的修正值。
优选的,所述识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理,然后处理判断字符集和语言,并根据需要转换为内部存储所对应的字符集,所述识别层单元采用分词***对元数据进行分词,删除停用词以后提取当前文本的关键词。
优选的,所述存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容,且存储单元中的消息队列满足先进先出的特性,并且能对消息队列进行自由订阅。
优选的,所述读写接口用于定期读取增量数据并传输至所述存储单元形成消息队列,并将上述消息队列推送到识别层单元的各个业务节点,所述业务节点根据设备负载情况以及消费队列数据进行设置,并在处理完毕后立即回写到消息队列中。
优选的,所述序列化单元包括敏感信息模块,所述敏感信息模块用于将敏感词及敏感字段封闭,所述序列化单元在生产端序列化,并在消费端反序列化,所述序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。
优选的,该针对非结构化海量文本敏感数据的快速识别***的具体工作流程为:
S1:数据采集与储存,将需要识别的机构或者企业提供的数据存储在hbase、ES或者其他非关系型数据中;
S2:识别操作,根据配置项加载部分或全部识别模型,利用关系型抽取从数据中依照识别模型进行数据识别,线程池从消息队列逐一读取记录并执行反序列化操作,根据数据类型执行不同的处理流程,模型匹配完成后进行汇总计算,序列化后回写***总线消息队列主题,并对当前执行过程记录日志用于离线的效果分析;
S3:总线队列,***总线启动时可创建生产工作线程和消费工作线程,生产工作线程定时跟踪底层存储增量数据的变化情况,当有数据到达的时候,将待消费数据从存储单元中提取出来放入消费主题;消费工作线程在入口挂起等待,有新消息的时候自动触发回写操作,更新底层的原址数据;
S4:日志分析,序列化单元***以小时为单位,采用整批处理方式对日志数据进行分析并生成报表,统计得到数据规模、敏感信息比例、敏感信息强度、传播频次热度以及识别准确率等;
S5:支撑***,通过支撑层单元对该快速识别***整体架构提供支撑能力,主要是数据库组件和学习引擎的支撑能力,数据库需要定期进行数据清理和数据优化。学习引擎需要及时更新识别算法和识别库;
S6:对外接口,对外提供敏感识别数据导入和对敏感数据识别的请求接口。
本发明的技术效果和优点:本发明提供的一种针对非结构化海量文本敏感数据的快速识别***,与传统的灌溉技术相比,本发明对于非结构化数据的快速分类,利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类,提高了识别效率,并且对于非结构化数据的高效识别、根据敏感类型,能自主选择对应的查询方法进行扫描,提高了扫描效率。
附图说明
图1为本发明的针对非结构化海量文本敏感数据的快速识别***框图;
图2为本发明的针对非结构化海量文本敏感数据的快速识别***工作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种针对非结构化海量文本敏感数据的快速识别***,包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元,建模单元包括信息采集模块和建模计算模块,且建模单元与识别层单元电性连接,存储单元用于为建模单元的元数据提供持久化存储,且存储单元上设置有读写接口,存储单元电性连接于建模单元,支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块,且支撑层单元用于对序列化单元的算法进行优化,并对信息采集模块采集重心提供策略和依据。
其中,信息采集模块包括人工采集模块和机器采集模块,人工采集模块由人工分拣样本数据到存储单元,并对样本进行敏感类型及等级标注,人工采集模块上设置有与识别层单元连接的接口,且人工采集模块由人工提供批量关键字导入,人工采集模块采集样本每个应不少于100条信息,且上述样本均存储于存储单元内。
其中,建模计算模块同于对人工采集模块和机器采集模块提供相应的人采计算和机采计算,机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法,人采计算是用于对机采计算进行业务相关性的修正,对敏感分类和评级打分体系进行平滑过渡处理,人采计算引入相似度计算、海明距离扩展性算法,且人采计算增加近似度和词法联想的自然语言处理。
其中,识别层单元以建模单元的输出作为输入对模型进行初始加载操作,且识别层单元根据业务需要动态增减模型项,并支持热插拔操作,识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法,即每个分类自身权重乘以其匹配度累加值取对数,其结果是一个介于零和一之间的浮点数,来作为敏感最终评估计算的修正值。
其中,识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理,然后处理判断字符集和语言,并根据需要转换为内部存储所对应的字符集,识别层单元采用分词***对元数据进行分词,删除停用词以后提取当前文本的关键词。
其中,存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容,且存储单元中的消息队列满足先进先出的特性,并且能对消息队列进行自由订阅。
其中,读写接口用于定期读取增量数据并传输至存储单元形成消息队列,并将上述消息队列推送到识别层单元的各个业务节点,业务节点根据设备负载情况以及消费队列数据进行设置,并在处理完毕后立即回写到消息队列中。
其中,序列化单元包括敏感信息模块,敏感信息模块用于将敏感词及敏感字段封闭,序列化单元在生产端序列化,并在消费端反序列化,序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。
实施例2
一种针对非结构化海量文本敏感数据的快速识别***的具体工作流程为:
S1:数据采集与储存,将需要识别的机构或者企业提供的数据存储在hbase、ES或者其他非关系型数据中;
S2:识别操作,根据配置项加载部分或全部识别模型,利用关系型抽取从数据中依照识别模型进行数据识别,线程池从消息队列逐一读取记录并执行反序列化操作,根据数据类型执行不同的处理流程,模型匹配完成后进行汇总计算,序列化后回写***总线消息队列主题,并对当前执行过程记录日志用于离线的效果分析;
S3:总线队列,***总线启动时可创建生产工作线程和消费工作线程,生产工作线程定时跟踪底层存储增量数据的变化情况,当有数据到达的时候,将待消费数据从存储单元中提取出来放入消费主题;消费工作线程在入口挂起等待,有新消息的时候自动触发回写操作,更新底层的原址数据;
S4:日志分析,序列化单元***以小时为单位,采用整批处理方式对日志数据进行分析并生成报表,统计得到数据规模、敏感信息比例、敏感信息强度、传播频次热度以及识别准确率等;
S5:支撑***,通过支撑层单元对该快速识别***整体架构提供支撑能力,主要是数据库组件和学习引擎的支撑能力,数据库需要定期进行数据清理和数据优化。学习引擎需要及时更新识别算法和识别库;
S6:对外接口,对外提供敏感识别数据导入和对敏感数据识别的请求接口。
综上所述:本发明提供的一种针对非结构化海量文本敏感数据的快速识别***,与传统的灌溉技术相比,本发明对于非结构化数据的快速分类,利用学习引擎从常用分类算法中自主选择合适算法进行数据的快速分类,提高了识别效率,并且对于非结构化数据的高效识别、根据敏感类型,能自主选择对应的查询方法进行扫描,提高了扫描效率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种针对非结构化海量文本敏感数据的快速识别***,包括建模单元、识别层单元、存储单元、支撑层单元和序列化单元,其特征在于:所述建模单元包括信息采集模块和建模计算模块,且建模单元与识别层单元电性连接,所述存储单元用于为所述建模单元的元数据提供持久化存储,且存储单元上设置有读写接口,所述存储单元电性连接于建模单元,所述支撑层单元包括业务监控模块、人机交互模块、服务托管模块和日志跟踪模块,且所述支撑层单元用于对所述序列化单元的算法进行优化,并对信息采集模块采集重心提供策略和依据。
2.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述信息采集模块包括人工采集模块和机器采集模块,所述人工采集模块由人工分拣样本数据到存储单元,并对样本进行敏感类型及等级标注,所述人工采集模块上设置有与识别层单元连接的接口,且人工采集模块由人工提供批量关键字导入,所述人工采集模块采集样本每个应不少于100条信息,且上述样本均存储于存储单元内。
3.根据权利要求2所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述建模计算模块同于对所述人工采集模块和机器采集模块提供相应的人采计算和机采计算,所述机采计算采用行业在神经网络和人工智能方面技术前沿企业开源的算法,所述人采计算是用于对机采计算进行业务相关性的修正,对敏感分类和评级打分体系进行平滑过渡处理,所述人采计算引入相似度计算、海明距离扩展性算法,且人采计算增加近似度和词法联想的自然语言处理。
4.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述识别层单元以建模单元的输出作为输入对模型进行初始加载操作,且识别层单元根据业务需要动态增减模型项,并支持热插拔操作,所述识别层单元针对每个敏感模型返回的命中评分***应具备一个汇总算法,即每个分类自身权重乘以其匹配度累加值取对数,其结果是一个介于零和一之间的浮点数,来作为敏感最终评估计算的修正值。
5.根据权利要求4所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述识别层单元用于对海量的非结构化文本数据利用分类算法或者聚类算法进行汇总处理,然后处理判断字符集和语言,并根据需要转换为内部存储所对应的字符集,所述识别层单元采用分词***对元数据进行分词,删除停用词以后提取当前文本的关键词。
6.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述存储单元基于网络数据特性采用半结构化的分布式存储解决方案来保存高扩展性的网页内容,且存储单元中的消息队列满足先进先出的特性,并且能对消息队列进行自由订阅。
7.根据权利要求6所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述读写接口用于定期读取增量数据并传输至所述存储单元形成消息队列,并将上述消息队列推送到识别层单元的各个业务节点,所述业务节点根据设备负载情况以及消费队列数据进行设置,并在处理完毕后立即回写到消息队列中。
8.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:所述序列化单元包括敏感信息模块,所述敏感信息模块用于将敏感词及敏感字段封闭,所述序列化单元在生产端序列化,并在消费端反序列化,所述序列化单元需要序列化的信息包括版本号、信息类型、操作类型、加密标识和密钥、数据长度、数据信息、识别结果。
9.根据权利要求1所述的一种针对非结构化海量文本敏感数据的快速识别***,其特征在于:该针对非结构化海量文本敏感数据的快速识别***的具体工作流程为:
S1:数据采集与储存,将需要识别的机构或者企业提供的数据存储在hbase、ES或者其他非关系型数据中;
S2:识别操作,根据配置项加载部分或全部识别模型,利用关系型抽取从数据中依照识别模型进行数据识别,线程池从消息队列逐一读取记录并执行反序列化操作,根据数据类型执行不同的处理流程,模型匹配完成后进行汇总计算,序列化后回写***总线消息队列主题,并对当前执行过程记录日志用于离线的效果分析;
S3:总线队列,***总线启动时可创建生产工作线程和消费工作线程,生产工作线程定时跟踪底层存储增量数据的变化情况,当有数据到达的时候,将待消费数据从存储单元中提取出来放入消费主题;消费工作线程在入口挂起等待,有新消息的时候自动触发回写操作,更新底层的原址数据;
S4:日志分析,序列化单元***以小时为单位,采用整批处理方式对日志数据进行分析并生成报表,统计得到数据规模、敏感信息比例、敏感信息强度、传播频次热度以及识别准确率等;
S5:支撑***,通过支撑层单元对该快速识别***整体架构提供支撑能力,主要是数据库组件和学习引擎的支撑能力,数据库需要定期进行数据清理和数据优化。学习引擎需要及时更新识别算法和识别库;
S6:对外接口,对外提供敏感识别数据导入和对敏感数据识别的请求接口。
CN202010338431.4A 2020-04-26 2020-04-26 一种针对非结构化海量文本敏感数据的快速识别*** Active CN111522950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010338431.4A CN111522950B (zh) 2020-04-26 2020-04-26 一种针对非结构化海量文本敏感数据的快速识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010338431.4A CN111522950B (zh) 2020-04-26 2020-04-26 一种针对非结构化海量文本敏感数据的快速识别***

Publications (2)

Publication Number Publication Date
CN111522950A true CN111522950A (zh) 2020-08-11
CN111522950B CN111522950B (zh) 2023-06-27

Family

ID=71903482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010338431.4A Active CN111522950B (zh) 2020-04-26 2020-04-26 一种针对非结构化海量文本敏感数据的快速识别***

Country Status (1)

Country Link
CN (1) CN111522950B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580092A (zh) * 2020-12-07 2021-03-30 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置
CN112698676A (zh) * 2020-12-09 2021-04-23 泽恩科技有限公司 一种基于ai和数字孪生技术的智能配电房运营方法
CN113343108A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070283270A1 (en) * 2006-06-01 2007-12-06 Sand Anne R Context sensitive text recognition and marking from speech
US20110040983A1 (en) * 2006-11-09 2011-02-17 Grzymala-Busse Withold J System and method for providing identity theft security
CN105205104A (zh) * 2015-08-26 2015-12-30 成都布林特信息技术有限公司 一种云平台数据获取方法
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及***
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏***及方法
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评***及方法、信息数据处理终端
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程***和方法
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110415053A (zh) * 2019-08-12 2019-11-05 秦宇亮 一种基于大数据的用户体验监测***及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070283270A1 (en) * 2006-06-01 2007-12-06 Sand Anne R Context sensitive text recognition and marking from speech
US20110040983A1 (en) * 2006-11-09 2011-02-17 Grzymala-Busse Withold J System and method for providing identity theft security
CN105205104A (zh) * 2015-08-26 2015-12-30 成都布林特信息技术有限公司 一种云平台数据获取方法
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程***和方法
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及***
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评***及方法、信息数据处理终端
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏***及方法
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110415053A (zh) * 2019-08-12 2019-11-05 秦宇亮 一种基于大数据的用户体验监测***及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580092A (zh) * 2020-12-07 2021-03-30 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置
CN112580092B (zh) * 2020-12-07 2023-03-24 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置
CN112698676A (zh) * 2020-12-09 2021-04-23 泽恩科技有限公司 一种基于ai和数字孪生技术的智能配电房运营方法
CN113343108A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质
CN113343108B (zh) * 2021-06-30 2023-05-26 中国平安人寿保险股份有限公司 推荐信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111522950B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理***及方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
Bisandu et al. Clustering news articles using efficient similarity measure and N-grams
CN111522950B (zh) 一种针对非结构化海量文本敏感数据的快速识别***
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和***
Yao et al. Bursty event detection from collaborative tags
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
CN112100149B (zh) 日志自动化分析***
CN110163688A (zh) 商品网络舆情检测***
CN112148881A (zh) 用于输出信息的方法和装置
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及***
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
Hossari et al. TEST: A terminology extraction system for technology related terms
Wang et al. Topic discovery method based on topic model combined with hierarchical clustering
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Benny et al. Hadoop framework for entity resolution within high velocity streams
CN112417082A (zh) 一种科研成果数据消歧归档存储方法
CN116738068A (zh) 一种热门话题的挖掘方法、装置、存储介质及设备
Awad et al. Analyzing customer reviews on social media via applying association rule
Li et al. Automatic classification algorithm for multisearch data association rules in wireless networks
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
Shen et al. A cross-database comparison to discover potential product opportunities using text mining and cosine similarity
Wang et al. A Method of Hot Topic Detection in Blogs Using N-gram Model.
Seenivasan ETL in a World of Unstructured Data: Advanced Techniques for Data Integration
Liu et al. Practical skills of business english correspondence writing based on data mining algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Fast Recognition System for Unstructured Massive Text Sensitive Data

Granted publication date: 20230627

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU SIWEI CENTURY TECHNOLOGY Co.,Ltd.

Registration number: Y2024980015966

PE01 Entry into force of the registration of the contract for pledge of patent right