CN106815605B - 一种基于机器学习的数据分类方法及设备 - Google Patents

一种基于机器学习的数据分类方法及设备 Download PDF

Info

Publication number
CN106815605B
CN106815605B CN201710051325.6A CN201710051325A CN106815605B CN 106815605 B CN106815605 B CN 106815605B CN 201710051325 A CN201710051325 A CN 201710051325A CN 106815605 B CN106815605 B CN 106815605B
Authority
CN
China
Prior art keywords
data
word group
classification
feature word
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710051325.6A
Other languages
English (en)
Other versions
CN106815605A (zh
Inventor
李洋
张志勇
高政伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Suninfo Technology Co ltd
Original Assignee
Shanghai Suninfo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Suninfo Technology Co ltd filed Critical Shanghai Suninfo Technology Co ltd
Priority to CN201710051325.6A priority Critical patent/CN106815605B/zh
Publication of CN106815605A publication Critical patent/CN106815605A/zh
Application granted granted Critical
Publication of CN106815605B publication Critical patent/CN106815605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于机器学习的数据分类方法,包括如下步骤:S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据特征词对学习数据进行分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型;一种基于机器学习的数据分类设备包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块。本发明对文件内容进行切词处理,采用TFIDF算法,算出词的权重,然后计算文件相似度,将同类文件进行聚类。特征词提取。特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。

Description

一种基于机器学习的数据分类方法及设备
技术领域
本发明涉及数据分类领域,具体涉及一种基于机器学习的数据分类方法及设备。
背景技术
随着关键数据在保障企业运营中的重要性不断上升,管理者对数据安全的关注也不断提高。与此同时,敏感文件外泄事件频繁发生,但单凭人为的去识别并归类敏感文件,显然是很难完成的。针对一批文件,单靠文件名称或文件类型是很难准确地区分哪些文件属于哪一类。对于敏感数据的提取,如果只靠人工方式,进行过滤筛选,再提取,显然是非常困难的。
内部人员本身缺乏经验、动力和技术支持来完成数据梳理工作。现有的敏感数据发现技术架构一般都是要求用户先做好数据梳理工作,为各个敏感数据打上恰当的标签以后,再使用关键词和正则表达式去检测标签属性,从而完成数据分类。但是出于内部现有状况的角度出发,用户希望通过抓取敏感数据来推动数据梳理工作的进展。
此外,还主要体现在以下几个方面:
(1)聚类结果差强人意,当得到聚类结果后,往往都是直接以分出的结果为准,无法进行更为灵活的调整。而实际上有些词语具有多义性,在不同的文件中有不同的意思,包括成语,谚语等,这些词在切词过程中很有可能被分开,这就导致原本极具代表性的词变成了普普通通的词语,这就会严重影响聚类效果。
(2)关键字过短,且在其他类别的文件中也有一定几率出现,这样就需要提供足够的关键字,才能作为这一类文挡的特征,而选取关键字的过程也不是很容易的,数量过多,就需要耗费相当多的时间。如果为节省时间而全选,那么其中就会有相当一部分词汇是多余的,在一定程度上会影响匹配的结果以及效率。如果只选取一部分词,就需要人工的到文章中去比对筛选,这种做法显然也是不可取的。
(3)流程过于复杂,操作起来不够连贯,上手难,在整个操作的过程中很可能漏掉某个环节,或是浪费掉不必要的时间。
基于以上分析,要想解决上述问题,不仅要能够人为的干预聚类结果,还要提高关键字的代表性,使之能够更好的作为具有代表性的敏感词汇,且整个过程简单易懂,操作简单,并且可手动调整聚类的结果。
本发明正是基于对以上要素的综合考虑,而设计的。
发明内容
为了解决上述问题,本发明提供了一种基于机器学习的数据分类方法及设备。本发明提供的一种基于机器学习的数据分类方法及设备,通过机器学习建立数据分类模型,根据数据分类模型对待分类数据读取分类,数据分类模型基于特征词建立,特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。
本发明采用的技术方案如下:
一种基于机器学习的数据分类方法,包括如下步骤;
S11,基于学习数据确定每种数据对应的第一特征词群;
S12,根据第一特征词群对学习数据进行数据分类;
S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;
S15,基于第一特征词群建立数据分类模型。
上述的一种基于机器学习的数据分类方法,其中,所述步骤S11包括:
S111,从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
S112,将S111中排序前X位词汇选取为第一特征词群。
上述的一种基于机器学习的数据分类方法,其中,所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。
上述的一种基于机器学习的数据分类方法,其中,当步骤S13判断学习数据分类正确时,至步骤S14,所述步骤S14包括,读取通过S12分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群。
上述的一种基于机器学习的数据分类方法,其中,用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。
上述的一种基于机器学习的数据分类方法,其中,所述步骤S15为基于第二特征词群建立数据分类模型。
一种基于机器学习的数据分类设备,包括:
第一特征词群确定模块:用于基于学习数据确定每种数据对应的第一特征词群;
第一数据分类模块:用于根据第一特征词群对学习数据进行数据分类;
判断分类模块:用于判断学习数据的分类是否正确,如果是,至建模模块;如果否,调整第一特征词群,至第一数据分类模块;
建模模块:用于基于第一特征词群建立数据分类模型。
上述的一种基于机器学习的数据分类设备,其中,所述数据分类模块包括:
权重排序单元:用于从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
第一特征词群选取单元:用于将权重排序单元中排序前X位词汇选取为第一特征词群。
上述的一种基于机器学习的数据分类设备,其中,所述第一特征词群选取单元还用于用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。
上述的一种基于机器学习的数据分类设备,其中,当判断分类模块判断学习数据分类正确时,至第二特征词群确定模块,所述第二特征词群确定模块用于读取第一数据分类模块分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群。
上述的一种基于机器学习的数据分类设备,其中,用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群。
上述的一种基于机器学习的数据分类设备,其中,所述建模模块用于基于第二特征词群建立数据分类模型。
本发明主要采用TFIDF算法以及贝叶斯算法,整个流程操作简单,支持自定义词典,聚类效果好,可以进行手动纠正,特征词代表性强,整体效率高。
本发明会对指定范围内的文件进行聚类处理,用户可根据实际聚类结果进行动态调整,调整分类个数和文件归属类别。调整完毕可针对某一类提取关键词,用户可通过手动方式筛选关键词作为敏感信息,然后根据选取的关键词生成模型。这个模型将被用作文档分类,通过模型中记录的敏感信息将匹配的文件进行汇总,还会将汇总后的文件直接定位到敏感文件所在位置,用户既可以跟踪到指定目录取收集敏感文件,亦可以将所选文件作导出处理。
本发明是通过对文本内容的分析,来确定文件类型的,同时还可借助自定义词汇来优化关键词的提取效果,帮助企业有针对性的对关键数据进行聚类和分类。用户还可实时对学习文件内容进行检查,因为只靠文件名是无法确定文件类型的,因此聚类/分类结果以实际文件内容为准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于机器学习的数据分类方法的实施例一的流程图;
图2是本发明一种基于机器学习的数据分类方法的实施例二的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种基于机器学习的数据分类方法,通过机器学习建立数据分类模型,根据数据分类模型对待分类数据读取分类,数据分类模型基于特征词建立,对文档进行聚类处理。对文件内容进行切词处理,采用TFIDF算法,算出词的权重,然后计算文件相似度,将同类文件进行聚类。
实施例一方法包括如下步骤:
S11,基于学习数据确定每种数据对应的第一特征词群;
学习数据,即所关心的用于机器学习的样本数据,这些样本数据为已经分好类的数据,比如这些样本数据选取包括医学、林业、建筑、石油等不同领域的学术资料。因为相同领域也会分不同的种类或研究方向,因此本发明将会对这些数据进行聚类,尽可能将相似度较高的文档归为一类,然后针对这一类计算出对应的规则,即模型,这个模型中所包含的即是该类的特征,有了这个特征,用户就可以从海量的文档中搜索出用户所关心的,即符合模型特征的文档,比人工检索、识别、分类更高效。
S111,从学习数据中的每种数据中读取2-5份数据,将其中的词汇按照权重排序;
S112,将S111中排序前X位词汇选取为第一特征词群,进一步的,用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群;特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。
S12,根据第一特征词群对学习数据进行数据分类;
S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;
S15,基于第一特征词群建立数据分类模型。
一种基于机器学习的数据分类设备,包括第一特征词群确定模块、第一数据分类模块、判断分类模块、建模模块,其中:
第一特征词群确定模块:用于基于学习数据确定每种数据对应的第一特征词群;
第一数据分类模块:用于根据第一特征词群对学习数据进行数据分类;
判断分类模块:用于判断学习数据的分类是否正确,如果是,至建模模块;如果否,调整第一特征词群,至第一数据分类模块;
建模模块:用于基于第一特征词群建立数据分类模型。
上述的一种基于机器学习的数据分类设备,所述数据分类模块包括:
权重排序单元:用于从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
第一特征词群选取单元:用于将权重排序单元中排序前X位词汇选取为第一特征词群,进一步的,用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。
实施例二
如图2所示,一种基于机器学习的数据分类方法,包括如下步骤:
S11,基于学习数据确定每种数据对应的第一特征词群;
学习数据,即所关心的用于机器学习的样本数据,这些样本数据为已经分好类的数据,比如这些样本数据选取包括医学、林业、建筑、石油等不同领域的学术资料。因为相同领域也会分不同的种类或研究方向,因此本发明将会对这些数据进行聚类,尽可能将相似度较高的文档归为一类,然后针对这一类计算出对应的规则,即模型,这个模型中所包含的即是该类的特征,有了这个特征,用户就可以从海量的文档中搜索出用户所关心的,即符合模型特征的文档,比人工检索、识别、分类更高效。
S111,从学习数据中的每种数据中读取2-5份数据,将其中的词汇按照权重排序;
S112,将S111中排序前X位词汇选取为第一特征词群,进一步的,用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群;特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合作为特征词用来分类。
S12,根据第一特征词群对学习数据进行数据分类;
S13,判断学习数据的分类是否正确,如果是,至步骤S14;如果否,调整第一特征词群,至步骤S12;
在判断学习数据的分类是否正确时,还会根据类的数量,把相似度更高的文档分在一起,比如,假设有5个类别,而首次分类只分了三类,这样得到的结果肯定是与实际类别相差较大,这时,不仅要调整第一特征词群,还要调整分类的个数,例如达到5个分类的类别,然后重新分类,这样的到的结果会更加接近于预期的效果)。
S14,读取通过S12分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群,在排序的过程中,先使用朴素贝叶斯算法对同类的文件提取特征词,;进一步的,用户根据需要对排序前Y位词汇进行筛选获得第二特征词群;S15,基于第二特征词群建立数据分类模型,使用TFIDF算法将不同的文件分类。TFIDF算法是评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度;比如说:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
一种基于机器学习的数据分类设备,包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块,其中:
第一特征词群确定模块:用于基于学习数据确定每种数据对应的第一特征词群;
第一数据分类模块:用于根据第一特征词群对学习数据进行数据分类;
判断分类模块:用于判断学习数据的分类是否正确,如果是,至第二特征词群确定模块;如果否,调整第一特征词群,至第一数据分类模块;
第二特征词群确定模块:用于读取第一数据分类模块分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群,进一步的,用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群;
建模模块:用于基于第二特征词群建立数据分类模型。
上述的一种基于机器学习的数据分类设备,所述数据分类模块包括:
权重排序单元:用于从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
第一特征词群选取单元:用于将权重排序单元中排序前X位词汇选取为第一特征词群,进一步的,用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。
基于上述两个实施例,进一步的,在使用本发明方法时,先通过使用内容识别引擎,识别包括doc、docx、xls、xlsx、ppt、pptx、pdf、zip、rar、7z、txt等常见的文件内容,包括对多层嵌套压缩文件内容以及由文档转换而成的图片内容的识别。进一步的,对于不带扩展名或修改扩展名的文件,同样能根据其文件特征识别其文件类型,支持自定义文件类型。能够识别加密的Office类文档RAR、ZIP、ARJ压缩包、PDF文档。支持Unicode、GB18030、GBK编码格式。识别图片文件格式。识别单个大容量的文件,支持1G以内文档内容识别。为达到最优效果,使用该方法前,可针对用户最关心的业务数据类型,提供一篇符合此业务数据类型特征的典型的实际数据样本。根据以上典型数据样本,提供2-3个最代表此样本内容的关键词。然后针对一批样本数据,按用户调研中给出的关键字按关键字规则进行样本扫描,进行初步筛选,也就是“海选”;然后将初筛样本进行机器学习自动聚类,建议加入一些与学习样本具有明显差异化的数据一起聚类,提高聚类准确性,也就是“精选”,接着再制作属于该类的模型;最后,再加载生成好的模型,对指定范围内的文件进行扫描,查看扫描分类结果是否正确,以此检验规则是否有误报,如上一步规则校验发现误报,通过数据梳理规则制作软件将误报样本重新提取语义特征,形成对照组对比,重新选择原规则语义特征,优化模型,再次重复扫描过程,验证进一步优化后的模型的准确性。以上步骤重复迭代优化,以达到最优效果。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
当然,对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于机器学习的数据分类方法,其特征在于,包括如下步骤;
S11,基于学习数据确定每种数据对应的第一特征词群;
S12,根据第一特征词群对学习数据进行数据分类;
S13,判断学习数据的分类以及分类对应的类别数量是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;
当步骤S13判断学习数据分类正确时,至步骤S14,所述步骤S14包括,读取通过S12分好类的学习数据的内容,对每一类学习数据内容进行切词处理得到每一类数据中的词汇,将所述每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群;
S15,基于第二特征词群建立数据分类模型。
2.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,所述步骤S11包括:
S111,从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
S112,将S111中排序前X位词汇选取为第一特征词群。
3.根据权利要求2所述的一种基于机器学习的数据分类方法,其特征在于,所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。
4.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。
5.一种基于机器学习的数据分类设备,其特征在于,包括:
第一特征词群确定模块:用于基于学习数据确定每种数据对应的第一特征词群;
第一数据分类模块:用于根据第一特征词群对学习数据进行数据分类;
判断分类模块:用于判断学习数据的分类以及分类对应的类别数量是否正确,如果是,至建模模块;如果否,调整第一特征词群,至第一数据分类模块;
当判断分类模块判断学习数据分类正确时,至第二特征词群确定模块,所述第二特征词群确定模块用于读取第一数据分类模块分好类的学习数据的内容,对每一类学习数据内容进行切词处理得到每一类数据中的词汇,将所述每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群;
建模模块:用于基于第二特征词群建立数据分类模型。
6.根据权利要求5所述的一种基于机器学习的数据分类设备,其特征在于,所述数据分类模块包括:
权重排序单元:用于从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;
第一特征词群选取单元:用于将权重排序单元中排序前X位词汇选取为第一特征词群。
7.根据权利要求6所述的一种基于机器学习的数据分类设备,其特征在于,所述第一特征词群选取单元还用于用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。
8.根据权利要求5所述的一种基于机器学习的数据分类设备,其特征在于,用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群。
CN201710051325.6A 2017-01-23 2017-01-23 一种基于机器学习的数据分类方法及设备 Active CN106815605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710051325.6A CN106815605B (zh) 2017-01-23 2017-01-23 一种基于机器学习的数据分类方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710051325.6A CN106815605B (zh) 2017-01-23 2017-01-23 一种基于机器学习的数据分类方法及设备

Publications (2)

Publication Number Publication Date
CN106815605A CN106815605A (zh) 2017-06-09
CN106815605B true CN106815605B (zh) 2021-04-13

Family

ID=59112339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710051325.6A Active CN106815605B (zh) 2017-01-23 2017-01-23 一种基于机器学习的数据分类方法及设备

Country Status (1)

Country Link
CN (1) CN106815605B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273501B (zh) * 2017-06-16 2020-06-26 合肥美的智能科技有限公司 语料生成方法及***、智能设备和计算机装置
US11609353B2 (en) * 2017-09-26 2023-03-21 Schlumberger Technology Corporation Apparatus and methods for improved subsurface data processing systems
CN109597892A (zh) * 2018-12-25 2019-04-09 杭州数梦工场科技有限公司 一种数据库中数据的分类方法、装置、设备及存储介质
CN111339304A (zh) * 2020-03-16 2020-06-26 闪捷信息科技有限公司 一种基于机器学习的文本数据自动分类方法
CN111917648B (zh) * 2020-06-30 2021-10-26 华南理工大学 一种数据中心里分布式机器学习数据重排的传输优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机***有限公司 一种基于中文分词的文本相似性识别方法及装置
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法
CN106056098A (zh) * 2016-06-23 2016-10-26 哈尔滨工业大学 一种基于类别合并的脉冲信号聚类分选方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646464B (zh) * 2013-12-23 2016-01-20 尤新革 智能点验钞机识别***自动升级的方法
CN103886090B (zh) * 2014-03-31 2018-01-02 北京搜狗科技发展有限公司 基于用户喜好的内容推荐方法及装置
CN104112026B (zh) * 2014-08-01 2017-09-08 中国联合网络通信集团有限公司 一种短信文本分类方法及***
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机***有限公司 一种基于中文分词的文本相似性识别方法及装置
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法
CN106056098A (zh) * 2016-06-23 2016-10-26 哈尔滨工业大学 一种基于类别合并的脉冲信号聚类分选方法

Also Published As

Publication number Publication date
CN106815605A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN106815605B (zh) 一种基于机器学习的数据分类方法及设备
CN109992645B (zh) 一种基于文本数据的资料管理***及方法
CN109101597B (zh) 一种电力新闻数据采集***
US9367581B2 (en) System and method of quality assessment of a search index
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN113190502A (zh) 基于深度学习的档案管理方法
Eykens et al. Fine-grained classification of social science journal articles using textual data: A comparison of supervised machine learning approaches
CN114491034B (zh) 一种文本分类方法及智能设备
CN102591920A (zh) 对文档管理***中的文档集合进行分类的方法以及***
CN114117038A (zh) 一种文档分类方法、装置、***及电子设备
CN113515622A (zh) 一种档案数据分类保存***
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警***
CN117113973A (zh) 一种信息处理方法及相关装置
CN111859032A (zh) 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN110807099B (zh) 一种基于模糊集的文本分析检索方法
CN113722421A (zh) 一种合同审计方法和***,及计算机可读存储介质
CN110737749A (zh) 创业计划评价方法、装置、计算机设备及存储介质
CN117909440B (zh) 智能档案索引与检索***
KR102555711B1 (ko) 지식재산권 데이터 플랫폼 및 그의 데이터 처리 방법
CN115640758B (zh) 一种基于知识构建的三维模型数模质检方法
CN117252514B (zh) 基于深度学习和模型训练的建筑物资库数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Data Classification Method and Equipment Based on Machine Learning

Effective date of registration: 20221008

Granted publication date: 20210413

Pledgee: Industrial Bank Co.,Ltd. Shanghai Branch

Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd.

Registration number: Y2022310000279

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231017

Granted publication date: 20210413

Pledgee: Industrial Bank Co.,Ltd. Shanghai Branch

Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd.

Registration number: Y2022310000279

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Data Classification Method and Equipment Based on Machine Learning

Effective date of registration: 20231025

Granted publication date: 20210413

Pledgee: Industrial Bank Co.,Ltd. Shanghai Jinshan Branch

Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd.

Registration number: Y2023980062535