CN113254634A

CN113254634A - 一种基于相空间的档案分类方法及***

Info

Publication number: CN113254634A
Application number: CN202110153675.XA
Authority: CN
Inventors: 苏卫卫; 黄瑞; 衣秀; 张�成; 黄军阳
Original assignee: Tianjin Delta Technology Co ltd
Current assignee: Tianjin Delta Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-08-13

Abstract

本发明提供一种基于相空间的档案分类方法及***，所述档案分类方法包括以下步骤：采用文本分析技术和OCR技术读取档案内容；采用关键词抽取技术自动抽取档案关键词；针对档案文本采用word2vec提取特征，构建文本向量，同时考虑文本全局向量权重和自身关键词权重；采用聚类技术对档案数据进行压缩；采用支撑向量机文本分类技术根据档案内容建立档案分类模型，利用测试数据对模型进行评估，根据模型测试结果对模型进行调优；应用档案分类模型对未知类别档案数据进行类别划分。本发明解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题，大大节省了人力。

Description

一种基于相空间的档案分类方法及***

技术领域

本发明属于档案分类管理技术领域，尤其涉及一种基于相空间的档案分类方法及***。

背景技术

档案工作是社会各项事业不可或缺的组成部分，而信息化对档案工作影响巨大。采用文本分析技术，对档案文档进行智能管理，构筑智慧化、网络化的服务平台，形成完善的“智慧档案”应用体系，快捷方便地向社会各方提供所需的档案信息资源服务。构建档案智慧收集、智慧管理、智慧服务、智慧保护、智慧监督平台，实现基于电子文档一体化和业务数据仓储式管理。

随着生产规模和运营规模的不断扩大，我国各类大型科研机构和智库机构则拥有的是论文、调查报告、历史文献、学术专著等形式的知识。这些知识信息已经呈现出大数据的特征：首先是规模庞大，从TB级别甚至PB级，其次在形式上相当繁杂，例如纯文本，XML文件，Office文档，图像，音视频等。特别是对于比较久远的档案数据，没有电子版，只有纸质版，并且由于时间久远，保存的并不是特别完好，扫描之后通过OCR识别的结果达不到令人满意的程度，这些都直接影响这类档案的处理。

档案种类和内容都如此庞大，对档案进行类别划分就显得尤为重要，给档案划定准确的类别更方便对档案的管理和使用，但是单纯的靠人工分类比较花费时间，并且对档案进行类别划分不同人可能对标准的理解不同，分类结果也会不同，直接影响档案分类的准确性。文本分类技术是通过学习已知类别数据的分类规律，采用机器学习方法，从文本中抽取出能够体现文本特点的关键特征，抓取特征到类别之间的映射，用于对未知类别的数据进行处理。

对档案进行文本分类方法的核心思想是将档案文本数据分词，进行向量化，再采用挖掘方法进行建模，要想保留尽量多的信息，就需要保留较多的词语，这样无疑会导致字段数较多，支撑向量机方法引入结构风险最小化的理念，寻找分类边界上的支撑向量，仅用支撑向量来构建模型，所有这些构建思想决定了支撑向量机即便利用较少的数据样本，也可以得到别的方法更好的预测模型，并且模型具有更好的泛化推广能力。

因此，急需一种基于相空间的档案分类方法及***，采用文本分析技术，从电子档案中读取档案内容，采用分词技术对档案文本进行分词，自动提取关键词，采用word2vec对档案文本进行向量化，将档案文本权重与关键词权重综合考虑，采用聚类技术对档案文本数据进行压缩之后采用支撑向量机分类方法建立档案分类模型，对档案进行类别划分。

发明内容

为了解决上述技术问题，本发明提供一种基于相空间的档案分类方法及***，所述档案分类方法包括以下步骤：

步骤S1：采用文本分析技术和OCR技术读取档案内容；

步骤S2：采用关键词抽取技术自动抽取档案关键词；

步骤S3：针对档案文本采用word2vec提取特征，构建文本向量，同时考虑文本全局向量权重和自身关键词权重；

步骤S4：采用聚类技术对档案数据进行压缩；

步骤S5：采用支撑向量机文本分类技术根据档案内容建立档案分类模型，利用测试数据对模型进行评估，根据模型测试结果对模型进行调优；应用档案分类模型对未知类别档案数据进行类别划分。

优选的，所述步骤S1包括以下步骤：

步骤S11：对于普通的电子文档，采用文本分析技术直接读取档案内容；

步骤S12：对于纸质档案的扫描文件和图片档案，采用OCR技术识别图片档案内容。

优选的，所述步骤S2包括以下步骤：

步骤S21：采用分词技术对档案进行分词；

步骤S22：采用关键词抽取技术自动抽取档案关键词，用于构建文本向量。

优选的，所述步骤S3包括如下步骤：

步骤S31：针对已知类别的档案数据，对文本进行分词，进行0-1向量化；

步骤S32：采用word2vec对词语进行向量化，综合考虑文本全局信息和关键词权重信息。

优选的，所述步骤S4包括以下步骤：

步骤S41：根据相似性构建聚类特征树；

步骤S42：从聚类特征树中提取建模数据。

优选的，所述步骤S5包括以下步骤：

步骤S51：将数据集分为训练集和测试集；

步骤S52：利用训练集，采用基于数据压缩的支撑向量机方法建立档案分类模型；

步骤S53：利用测试集，对分类模型进行测试，根据测试结果对模型进行调优；

步骤S54：应用档案分类模型对未知类别档案数据进行分类。

优选的，所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块；所述档案数据采集模块用于档案数据的采集，从电子文档中读取档案内容；所述档案数据抽取模块用于档案数据的分词以及关键词抽取；所述档案分类模型建模模块用于档案数据的分类，采用word2vec将词语进行向量化，既考虑单个档案文档全部词语的权重，又考虑关键词的权重，采用聚类思想将档案数据进行压缩，采用支撑向量机建立分类模型；所述档案分类模型评估模块，采用测试数据，对档案分类模型进评估，根据评估结果对模型进行调优；所述档案分类模型使用模块，利用建好的模型，对未知类别数据进行类别判别，将类别结果进行存储。

与现有技术相比，本发明的有益效果为：本发明不仅可以读取正常电子文档，还可以采用OCR识别技术读取图片数据，不仅考虑了档案全部词语的加权权重，还重点考虑了关键词的权重，使得信息更加全面，并且通过采用聚类对数据进行压缩，既考虑了数据的广泛性，又保留了主要数据的特征，使得模型的泛化能力更好，因此解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题，大大节省了人力。

附图说明

图1为本发明的***结构示意图；

图2为本发明的总体流程图；

图3为本发明的数据压缩环节的数据处理流程图。

具体实施方式

以下结合附图对本发明做进一步描述：

实施例：

一种基于相空间的档案分类方法及***，如附图1所示，所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块；所述档案数据采集模块用于档案数据的采集，从电子文档中读取档案内容；所述档案数据抽取模块用于档案数据的分词以及关键词抽取；所述档案分类模型建模模块用于档案数据的分类，采用word2vec将词语进行向量化，既考虑单个档案文档全部词语的权重，又考虑关键词的权重，采用聚类思想将档案数据进行压缩，采用支撑向量机建立分类模型；所述档案分类模型评估模块，采用测试数据，对档案分类模型进评估，根据评估结果对模型进行调优；所述档案分类模型使用模块，利用建好的模型，对未知类别数据进行类别判别，将类别结果进行存储。

如附图2所示，所述档案分类方法包括如下步骤：

步骤S1：对档案数据进行采集，采用文本分析技术读取档案内容；

步骤S12：对于纸质档案的扫描文件和图片档案，采用OCR技术识别图片档案内容；

其中OCR识别技术过程包括图像预处理、文字检测和文本识别；图像预处理采用基于CNN的神经网络作为特征提取手段；文字检测采用box标识出图像中所有文字位置；文本识别采用CRNN+CTC算法，首先CNN提取图像卷积特征，然后LSTM进一步提取图像卷积特征中的序列特征，最后引入CTC解决训练时字符无法对齐的问题；

步骤S2：对档案数据进行预处理，包括如下步骤：

步骤S21：对读取的档案文本数据进行分词，去除停用词；

步骤S22：针对档案文本采用关键词提取技术提取档案关键词；

步骤S3：对档案文本进行特征提取，这里采用word2vec方法，构建文本向量，包括以下步骤：

步骤S31：针对已知类别的档案数据，对一个文本的全部词语，进行0-1向量化；

步骤S32：采用word2vec的权重进行加权平均，提取文本的关键词的 word2vec的权重，将两部分权重组合起来，这样既考虑了单个文本全部词语的权重，保留了文本信息的完整性，又突出了关键词的权重信息；

步骤S4：如附图3所示，采用聚类技术对档案数据进行压缩，包括以下步骤：

步骤S41：从聚类特征树根节点开始遍历；

步骤S42：如果当前节点是叶子节点，转步骤S43，否则转步骤S46；

步骤S43：找到当前节点中与该条数据最近的子节点，计算将该条数据与此子节点的数据合并后的簇直径，如果簇直径小于阈值，则转步骤S44，否则转步骤S45；

步骤S44：将该条数据与最近的子节点进行合并；

步骤S45：该条数据作为当前节点的一个新的子节点，此时如果当前节点的子节点数超过一定阈值，当前节点就要拆分为两个节点，可以选择距离最远的两个子节点作为初始节点，将其它子节点根据距离远近分到合适的节点进行合并；

步骤S46：找到当前节点中与该条数据最近的子节点，将此孩子节点作为新的当前节点，转步骤S42。

对于新增的数据，可以在原来的聚类特征树上进行追加，而无需用全部数据重新构建聚类特征树。

从聚类特征树提取建模数据，由于支撑向量机是基于结构风险最小化原则的建模方法，通过寻找支撑向量，形成分类超平面来构建模型；基于此，可以对聚类特征树的叶子节点下的每一簇数据，计算其边界，取最有可能成为支撑向量的边界点作为支撑向量机的建模数据，从而实现数据压缩。

在本实施例中，边界具体计算方法通过下述例子加以说明：

假设某簇数据所含记录为：(-5,-4,-2)，(-4,-6,-7)，(-3,-2,0)， (-2,-1,1)，(-1,0,2)，(0,1,3)，(1,2,4)，(2,3,5)，(3,4,6)，(4,5,7)，(5,9,8)， (6,7,9)，则在每个维度上取Top2极大、极小值点：

第1维度极大点为(6,7,9)，(5,9,8)，极小点为：(-5,-4,-2)，(-4,-6,-1)，第2维度极大点为(5,9,8)，(6,7,9)，极小点为：(-4,-6,-1)，(-5,-4,-2)，第3维度极大点为(6,7,9)，(5,9,8)，极小点为：(-4,-6,-7)，(-5,-4,-2)

最后选取的极值点取上述不同极值点的并集，共5条记录；

步骤S5：采用支撑向量机方法，构建档案分类模型；利用测试数据对模型进行评估，根据模型测试结果对模型进行调优；应用档案分类模型对未知类别档案数据进行类别划分。

本发明不仅可以读取正常电子文档，还可以采用OCR识别技术读取图片数据，不仅考虑了档案全部词语的加权权重，还重点考虑了关键词的权重，使得信息更加全面，并且通过采用聚类对数据进行压缩，既考虑了数据的广泛性，又保留了主要数据的特征，使得模型的泛化能力更好，因此解决了传统的档案管理技术无法对各类档案文本的非结构化和半结构化数据进行综合分析的技术问题，大大节省了人力。

利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，设计出类似的技术方案，而达到上述技术效果的，均是落入本发明的保护范围。

Claims

1.一种基于相空间的档案分类方法及***，其特征在于，所述档案分类方法包括以下步骤：

步骤S1：采用文本分析技术和OCR技术读取档案内容；

步骤S2：采用关键词抽取技术自动抽取档案关键词；

步骤S4：采用聚类技术对档案数据进行压缩；

2.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述步骤S1包括以下步骤：

3.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述步骤S2包括以下步骤：

步骤S21：采用分词技术对档案进行分词；

4.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述步骤S3包括如下步骤：

5.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述步骤S4包括以下步骤：

步骤S41：根据相似性构建聚类特征树；

步骤S42：从聚类特征树中提取建模数据。

6.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述步骤S5包括以下步骤：

步骤S51：将数据集分为训练集和测试集；

步骤S54：应用档案分类模型对未知类别档案数据进行分类。

7.如权利要求1所述的一种基于相空间的档案分类方法及***，其特征在于，所述档案分类***包括档案数据采集模块、档案数据抽取模块、档案数据分类建模模块、档案分类模型评估模块、档案分类模型使用模块；所述档案数据采集模块用于档案数据的采集，从电子文档中读取档案内容；所述档案数据抽取模块用于档案数据的分词以及关键词抽取；所述档案分类模型建模模块用于档案数据的分类，采用word2vec将词语进行向量化，既考虑单个档案文档全部词语的权重，又考虑关键词的权重，采用聚类思想将档案数据进行压缩，采用支撑向量机建立分类模型；所述档案分类模型评估模块，采用测试数据，对档案分类模型进评估，根据评估结果对模型进行调优；所述档案分类模型使用模块，利用建好的模型，对未知类别数据进行类别判别，将类别结果进行存储。