CN104361111B - 一种档案自动编研方法 - Google Patents
一种档案自动编研方法 Download PDFInfo
- Publication number
- CN104361111B CN104361111B CN201410714594.2A CN201410714594A CN104361111B CN 104361111 B CN104361111 B CN 104361111B CN 201410714594 A CN201410714594 A CN 201410714594A CN 104361111 B CN104361111 B CN 104361111B
- Authority
- CN
- China
- Prior art keywords
- mrow
- volume
- archives
- expert
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000007635 classification algorithm Methods 0.000 claims abstract description 12
- 238000011160 research Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004321 preservation Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000014759 maintenance of location Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 3
- 238000007639 printing Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 241000816029 Euphaedra themis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于档案分类与检索技术领域,涉及一种基于B/S架构档案管理信息***的档案自动编研方法;首先按照案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案信息,再由档案录入与管理模块利用自动层次分类算法对档案信息进行自动分类和汇总,并分别存入相对应的数据库中;然后档案编研模块根据用户输入的编研条件和存入的信息对相应数据库进行检索、查询并汇总生成档案编研结果,最后将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出打印后形成纸质文档保存,实现档案的自动编研;其设计原理科学可靠,编研劳动强度小,工作效率高,信息疏漏少,保证编研的质量和价值,编研效率高,编研环境友好。
Description
技术领域:
本发明属于档案分类与检索技术领域,涉及一种基于B/S架构档案管理信息***的档案自动编研方法,为档案汇编和档案文摘汇编提供由计算机软件完成的档案自动编研技术。
背景技术:
基于B/S架构的档案管理信息***是传统档案馆功能在信息化社会的延伸,既具有传统档案馆的基本属性和功能,又能适应信息时代的发展需要,在实现常规档案数字化管理的同时,通过互联网和建立数字档案存储数据库实现对各部门及各类档案信息的收集、存储、管理和利用,为档案资源的利用提供信息化服务。面向档案利用的档案编研工作是档案馆/室根据档案利用的实际需求,以档案馆/室库藏档案为基础,以汇编档案参考资料为成果形式的一项专门工作。档案编研工作的实质是对档案文件的内容进行研究和加工整理,并编研成册,使之一目了然,以提高执政部门和单位综合管理水平和工作效率,增强档案资源对社会的服务价值。目前,档案编研工作主要是以人工编研为主,其速度慢,效率低,编研质量差。
传统的人工档案编研方法按照对档案的加工层次分为2种,第一种档案编研的加工方法是在原始档案的基础上摘录、缩编和剪辑,形成概要性材料;其加工档案编研的成果形式有:发文汇集、专题汇编、专题档案文摘汇编,其中包括某一领域的专家学者及学术论文文摘汇编、科技成果文摘汇编等等;第二种档案编研的加工方法是需要在对原始档案资料的有关内容进行分析、研究和归纳的基础上,编写出新的材料;其加工档案编研成果形式有:年鉴、组织沿革、史志和综合性技术经济调研报告等。在第二种档案编研的加工成果形式中由于包含了人们对事物的新认识、新观点、新的结论和新的建议等新内容,从信息量的角度来看这些都是新增加的信息,所以这种档案编研加工一般是由相关领域的专家或学者完成。而第一种加工档案编研成果包含的信息是档案中已有的信息,不会增加信息量,不产生新的内容,力求做到“全、精、准”,不能有疏漏,编研的内容要全面、细致,宁多勿漏,并且随着时间的延续,需要编研的原始档案材料积累将会达到海量数据量,对于海量数据由人工进行编研稍有大意就会造成信息遗漏或出错,不能保证档案编研成果的质量和价值,其劳动强度大,工作效率低,编研准确率差,制约了档案资源在海量数据规模和更高技术水平上的充分开发和利用,人力成本很高。
发明内容:
本发明的目的在于克服现有技术存在的缺点,寻求设计提供一种基于档案管理信息***的档案自动编研方法,采用计算机自动分类和检索技术自动生成档案编研成果形式,提高档案编研效率和准确率,减少人工编研时的信息疏漏。
为了实现上述目的,本发明在基于B/S架构的档案管理信息***中由档案录入与管理模块和档案编研模块联合实现档案自动编研,其具体步骤为:
(1)先进行档案信息录入,按照***显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息;
(2)再由档案录入与管理模块利用本发明提出的自动层次分类算法自动对步骤(1)录入的档案信息进行分类和汇总,并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中;
(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果;
(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档案的自动编研。
本发明提出的自动层次分类算法是对现有常规的朴素贝叶斯算法的改进,朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进行分类,分类时将预测样本根据预测结果划分到特定文档类别概率最高的类别库中。
本发明涉及的朴素贝叶斯算法的具体分类模型如下:给定一个未知类别的档案文本X,设有m个类别,记为C1,C2,……,Cm,根据朴素贝叶斯分类定律,在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下:
在P(Ci|X)计算公式中,P(X)是常数,因此只需要将分子P(X|Ci)P(Ci)最大化即可;P(Ci)是训练集中的类别分布概率,计算公式为:式中分子为类别|Ci|包含的文本数加1,分母为m个类别与|D|为训练集中所包含的文本总数之和;为了简化P(X|Ci)的计算过程,假定文本的多个属性是相互无关的,因此,计算P(X|Ci)就是推算特征属性在类别Ci上出现的概率,使用拉普拉斯估计的2种计算模型来推算P(X|Ci)的值:
(1)多变量模型,统计特征属性在文本中是否出现过,若出现记为1,否则记为0。计算公式为:
其中,|V|代表特征值总的数量,Bxt是wt在文本X中出现的标记,若wt出现则Bxt记为1,否则记为0,wt代表第t个特征,即向量的第t个分量,因此,式中的P(wt|Ci)计算公式如下:
(2)多项式模型(Multinomial Model)则统计特征属性在文本中的出现次数,计算公式为:
其中,Nxt代表了特征t在文本X中出现的次数;P(wt|Ci)的计算公式如下:
在P(wt|Ci)的计算公式中,Njt为特征t在文本dj中曾出现的次数,|D|为训练文本总数,|V|为特征总数,Njs是特征s在文本dj中的出现次数;该分类方法的实质是对文本对象中的所有特征值进行统计并映射到已存在的各个类别中的概率。
本发明在档案录入管理模块中对朴素贝叶斯算法进行了改进,实现基于案卷目录标题及关键词粗分类的自动层次分类算法,直接从案卷目录以及卷内目录的题目提取关键词集,构建层次化分类模型,在适当的降维后以低的特征维度达到分类效果,取代传统文本分类算法的中文分词,有效提高档案文献的分类精度和运行效率;所述的基于案卷目录标题及关键词粗分类的自动层次分类算法的实现流程如下:
(1)先在本地或在线录入档案信息,按照***显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属分类、档号、年度和专家的各类基本信息;
(2)***自动提取档案标题及档案文本中的关键词的文本数据特征参数集并保存在相应的数据库中;
(3)对提取的文本数据特征参数集超过阈值时进行降维,过多的特征往往会导致维数灾难,使分类的效率降低;
(4)根据提取的文本数据特征参数或关键词执行朴素贝叶斯分类算法的粗分类;
(5)在步骤(4)粗分类结果上再分别针对每一子类进行特征抽取;
(6)再针对各个子类的文本数据特征参数执行朴素贝叶斯分类算法自动完成细分类;
(7)输出分类结果并保存到相对应的数据库中。
本发明涉及的档案编研模块处理的数据信息是针对已建立的档案信息录入与管理模块的案卷目录、卷内目录和专家登记卡目录进行的基本编研,在档案信息录入与管理模块中创建包括案卷目录数据库、卷内目录数据库、档案分类数据库、专家基本信息登记数据库、专家论文明细和专家项目明细等6个数据库;档案编研模块由档案分类编研子模块、文件字号索引编研子模块和专家信息编研3个子模块组成,在档案编研模块中创建与上述6个数据库相关联的档案编研基础数据库;档案分类编研子模块根据用户输入的编研条件,自动实现档案分类编研、档案标题编研和归档时间编研并以列表形式显示编研结果;文件字号索引编研子模块根据用户的编研需求输入包括公文字号、年度、档号和保管期限的组合编研条件,点击查询后根据条件过滤数据,以便自动生成并显示文件字号索引编研列表;专家信息编研子模块对档案管理中的专家登记卡信息进行编研统计,根据输入的专家姓名、研究方向和成果的编研条件进行模糊查询,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研,并将编研结果进行汇总后显示在屏幕上;其中专家分类编研是指编研自动生成某一研究领域的所有专家信息编研结果列表,其编研结果可导出到Excel或Word文档中保存或打印输出。
本发明涉及的档案分类编研子模块的档案编研包括以下步骤:
(1)创建分类编研视图,视图以卷内目录或案卷目录为主表,关联分类信息表获取分类信息名称,卷内目录与案卷目录信息存放在不同的数据表中,在进行分类编研时需要汇总两部分信息,进行统一查询并检索;
(2)数据访问层代码,数据访问层是从步骤(1)给出的视图中检索需要编研的档案信息,执行函数以查询条件为参数,检索符合条件的档案信息,分类编研提取档案分类、档案标题、归档时间、份数、页数和档号信息,并对编研结果按照分类名称、分类标题和归档时间进行排序;
(3)分类编研应用层实现,首先设置分类编研条件,按档案分类名称模糊检索、档案标题模糊检索和归档时间检索分类编研;
(4)将编研结果导出到EXCEL或Word文档中,方便用户保存查看并打印装订成册。
本发明涉及的文件字号索引编研子模块的档案编研包括以下步骤:
(1)创建文件字号索引视图,文件字号索引视图以卷内目录为主表关联分类信息表,提取公文字号、年度、文件序号、档号、页号、页数和保管期限信息;
(2)数据访问层代码,数据访问层是从文件字号索引视图中提取信息,并按照公文字号、文件序号和年度排序,函数以查询条件为参数,由应用层动态构建;
(3)应用层主要代码,***设定编研条件,包括公文字号、年度、档号和保管期限,根据编研需要进行组合输入,点击查询后根据条件过滤数据;
(4)将编研结果导出到EXCEL或Word文档中,方便用户保存查看并打印装订成册。
本发明涉及的专家信息编研子模块的档案编研包括以下步骤:
(1)创建专家信息编研视图,视图以专家基本信息登记表为主表,关联专家论文明细表提取论文信息,关联专家项目明细表提取项目及获奖信息,专家基本信息登记与专家成果信息存放在不同的数据表中,在进行信息编研时需要汇总各部分信息,进行统一查询;
(2)数据访问层代码,数据访问层是从步骤(1)中的视图中获取需要编研的专家信息,函数以查询条件为参数,查询符合条件的专家档案信息,编研提取专家姓名、专家类别、研究方向、论文信息和项目信息;
(3)专家信息编研应用层实现,设置编研条件,进行专家名称模糊检索、专家研究方向模糊检索,论文题目与论文概述模糊检索,论文发表时间检索,项目名称模糊检索,项目概述模糊检索和项目起止时间检索和项目获奖情况检索;专家信息编研根据输入的编研条件,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研;
(4)将编研结果导出到Excel或Word文档中,方便用户保存查看并打印装订成册。
本发明涉及的档案管理信息***的执行流程为:
(1)在客户端打开一个浏览器,在地址栏中输入***的网站地址即向Web服务器发出服务请求,当桌面上显示***的登录页面时,在登录页面填写用户名、密码及验证码之后传送给Web服务器,Web服务器对用户身份进行验证后用HTTP协议把档案管理信息***的主页传送给客户端,客户端浏览器接收传来的主页文件,并把它显示在屏幕上;
(2)档案基本信息的录入,按照***显示在主页的案卷目录、卷内目录和专家登记卡给出的统一格式分别录入和添加档案所属分类、档号、档案标题、年度和专家各类基本信息;***在Web服务器的业务逻辑层执行相应的扩展应用程序与数据库服务器进行连接,通过SQL方式将用户录入或添加的上述各类基本信息在存储到相对应的与Web服务器相连的数据库之前,***将目录及档案标题进行自动分类归档,再对原文进行挂接;原文可以是电子扫描件或电子版原件;
(3)需要对某类档案信息进行档案编研时,***根据用户选择的档案编研的条目,进入到相对应的档案编研界面,在该界面中输入编研条件;例如:进行某个领域的专家信息编研时,则输入该研究领域的名称或研究方向还包括论文、项目情况等编研参数点击查询按钮,对相应数据库进行信息检索和查询;
(4)根据(3)已输入的编研参数,在与Web服务器执行链接后通过SQL语句向相对应的数据库服务器提出数据处理请求,即对档案编研基础数据库和相关联的其他数据库信息进行检索和查询操作,并将检索到符合编研条件的数据项进行统计、分析和汇总,生成档案编研成果;
(5)数据库服务器把生成的档案编研的结果提交给Web服务器,再由Web服务器传送到客户端并显示在屏幕上;
(6)将编研成果导出到Word文档或Excel报表中保存或打印输出。
本发明与现有技术相比,其设计原理科学可靠,编研劳动强度小,工作效率高,信息疏漏少,保证编研的质量和价值,编研效率高,编研环境友好。
附图说明:
图1为本发明装置的硬件组成结构原理示意框图。
图2是本发明涉及的档案编研模块与档案管理模块的逻辑功能结构原理示意框图。
图3是本发明的档案管理信息***自动编研执行流程图。
图4是本发明的粗分类的层次分类算法执行流程图。
具体实施方式:
下面通过实施例并结合附图做进一步描述。
实施例1:
本实施例对本发明提出的分类算法进行测试与评价,先在收集到的1000个档案文本中,从每类随机抽选40个文本对本发明涉及的方法进行分类训练,其余的960个档案文本就作为待分类文本集对本发明涉及的方法进行分类结果的测试评价;其中,文书档案类的是222个,科技档案类216个,会计档案类162个,人事档案类95个,声像档案类43个,综合照片类86个,实物档案类35个,归档文件类40个,期刊档案类的是61个,分别用查准率、查全率和F1(查全率和查准率的调和平均数)测试值三个指标对分类结果进行评价,测试评价结果如表1所示;
表1分类结果测试评价表
类别 | 查全率 | 查准率 | F1测试值 |
文书档案类 | 95.08% | 91.80% | 93.44% |
科技档案类 | 85.34% | 87.93% | 86.64% |
会计档案类 | 90.32% | 93.55% | 91.94% |
人事档案类 | 92.00% | 94.67% | 93.33% |
声像档案类 | 93.02% | 95.35% | 94.19% |
综合照片类 | 97.67% | 94.19% | 95.93% |
实物档案类 | 91.43% | 94.29% | 92.86% |
归档文件类 | 87.50% | 85.00% | 86.25% |
期刊档案类 | 90.16% | 83.61% | 86.89% |
上表说明,本实施例的分类结果的查全率、查准率以及F1测试值均能达到较好的效果,在粗分类过程中根据文档标题和关键词产生的特征维数均在50以下,提高了***运行效率。
本实施例的运行环境要求:配置双核微处理器或更高、内存2G以上的联网PC及兼容机运行;服务器操作***为Windows XP及以上版本;***必备软件为Framework 3.5、SQLServer2005;开发软件为Microsoft Visual Studio 2008;采用B\S三层架构,通过asp.net分别实现表示层、业务逻辑层和数据层代码。
本实施例需要安装并设置Microsoft SQL Server数据库服务器,为服务器添加用户名和设置密码之后导入***数据库;然后发布网站(即B/S架构的档案管理信息***);网站发布成功后,打开任意一台已联网PC机上的浏览器,在地址栏中输入网站地址进入到登录页面,输入账号、密码和验证码之后点击登录进入到***管理主界面;在***管理员左侧的树形菜单栏中点击【档案编研】,屏幕上显示需要编研的多个条目,包括分类编研、文件字号索引编研和专家信息编研等;选择并点击【分类编研】,进入到分类编研界面,在该界面中输入各编研条件,包括档案分类名称、档案标题和归档时间(大于某一时间、小于某一时间或某段时间内)等,***会根据输入的编研条件自动产生分类编研的结果并以列表的形式显示在屏幕上,并可导出到Word文档或Excel中保存或打印;选择并点击【文件字号索引编研】,则进入到文件字号索引编研界面,在该界面中根据编研需要进行组合输入编研的内容如公文字号、年度、档号和保管期限等,点击查询后***会根据输入的编研条件检索、过滤数据自动生成并显示编研结果,或将编研结果导出到Word文档或Excel中保存或打印;选择并点击【专家信息编研】,进入到专家信息编研界面,在该界面中输入编研条件,***进行专家姓名模糊检索、研究方向模糊检索、论文题目、论文概述模糊检索、论文发表时间检索、项目名称模糊检索、项目概述模糊检索、项目起止时间检索和项目获奖情况(是否获奖、获奖名称)检索;***根据输入的专家姓名,研究方向和成果的编研条件进行模糊查询,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研;并将编研结果进行汇总后显示在屏幕上,或将结果导出到Excel或Word文档中保存或打印输出。
本实施例的档案分类管理根据档案编研的实际需求进行分类编研的设置,实际工作需要编研一个“行政审批”的档案分类,***管理员只需要在档案分类表中增加一个“行政审批”的分类数据,即可在档案的卷内目录、案卷目录中维护相应分类的档案信息,并对该分类执行编研操作;***通过对各类档案信息的录入,将各类档案信息进行汇总,根据分类或档案标题等相关信息快速检索出该档案,通过查看档案的库存位置,快速从相应的物理存放位置获取该档案,缩短档案寻找的时间,提高工作效率。
实施例2:
实现本实施例涉及的档案自动编研方法的装置,其主体结构由客户端浏览器1、档案信息录入与管理模块2、档案编研模块3和与其相链接的7个数据库电信息连通组成。其中,档案信息录入与管理模块2又包括卷内目录管理子模块4、案卷目录管理子模块5和专家登记卡信息子模块6三个功能模块单元;档案编研模块3由档案分类编研子模块7、文件字号索引编研子模块8和专家信息编研子模块9三个功能模块单元电信息连通组成;档案录入与管理模块2录入档案信息并对档案信息进行维护,对卷内目录、案卷目录和专家登记卡的档案信息进行分类和汇总维护;档案编研模块3根据用户输入的编研条件,自动实现档案分类编研、档案标题编研和归档时间编研,并以列表形式显示编研结果;文件字号索引编研子模块8根据用户的编研需求输入由公文字号、年度、档号和保管期限组合的编研条件,点击查询后能够根据编研条件过滤数据,以便自动生成并显示文件字号索引编研列表;专家信息编研子模块9对档案管理中的专家登记卡信息进行编研统计,根据输入的专家姓名,研究方向和成果的编研条件进行模糊查询,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研,并将编研结果进行汇总后显示在屏幕上;其中专家分类编研是编研自动生成某一研究领域的所有专家信息编研结果列表,其编研结果均能够导出到Excel或Word文档中保存或打印输出。与档案信息录入与管理模块2和档案编研模块3电信息相链接的7个数据库分别为案卷目录数据库、卷内目录数据库、档案分类数据库、专家基本信息登记数据库、专家论文明细数据库、专家项目明细数据库和档案编研基础数据库;客户端浏览器1为联网的任意电脑和终端设备上运行的任意浏览器软件。
Claims (6)
1.一种档案自动编研方法,其特征在于在基于B/S架构的档案管理信息***中由档案录入与管理模块和档案编研模块联合实现档案自动编研,其具体步骤为:
(1)先进行档案信息录入,按照***显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息;
(2)再由档案录入与管理模块利用本发明提出的自动层次分类算法自动对步骤(1)录入的档案信息进行自动分类和汇总,并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中;
(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果;
(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档案的自动编研;
所述的自动层次分类算法的实现流程如下:
(1)先在本地或在线录入档案信息,按照***显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属分类、档号、年度和专家的各类基本信息;
(2)***自动提取档案标题及档案文本中的关键词的文本数据特征参数集并保存在相应的数据库中;
(3)对提取的文本数据特征参数集超过阈值时进行降维,过多的特征往往会导致维数灾难,使分类的效率降低;
(4)根据提取的文本数据特征参数或关键词执行朴素贝叶斯分类算法的粗分类;
(5)在步骤(4)粗分类结果上再分别针对每一子类进行特征抽取;
(6)再针对各个子类的文本数据特征参数执行朴素贝叶斯分类算法自动完成细分类;
(7)输出分类结果并保存到相对应的数据库中;
所述朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进行分类,分类时将预测样本根据预测结果划分到特定文档类别概率最高的类别库中,其具体分类模型如下:给定一个未知类别的档案文本X,设有m个类别,记为C1,C2,……,Cm,根据朴素贝叶斯分类定律,在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mi>i</mi>
<mo>|</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>|</mo>
<mi>C</mi>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
在P(Ci|X)计算公式中,P(X)是常数,因此只需要将分子P(X|Ci)P(Ci)最大化即可;P(Ci)是训练集中的类别分布概率,计算公式为:式中分子为类别|Ci|包含的文本数加1,分母为m个类别与|D|为训练集中所包含的文本总数之和;为了简化P(X|Ci)的计算过程,假定文本的多个属性是相互无关的,因此,计算P(X|Ci)就是推算特征属性在类别Ci上出现的概率,使用拉普拉斯估计的2种计算模型来推算P(X|Ci)的值:
(1)多变量模型,统计特征属性在文本中是否出现过,若出现记为1,否则记为0,计算公式为:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>v</mi>
<mo>|</mo>
</mrow>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>B</mi>
<mrow>
<mi>x</mi>
<mi>t</mi>
</mrow>
</msub>
<mi>P</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>+</mo>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>B</mi>
<mrow>
<mi>x</mi>
<mi>t</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
其中,|V|代表特征值总的数量,Bxt是wt在文本X中出现的标记,若wt出现则Bxt记为1,否则记为0,wt代表第t个特征,即向量的第t个分量,因此,式中的P(wt|Ci)计算公式如下:
(2)多项式模型(Multinomial Model)则统计特征属性在文本中的出现次数,计算公式为:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>v</mi>
<mo>|</mo>
</mrow>
</munderover>
<mfrac>
<mrow>
<mi>P</mi>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>x</mi>
<mi>t</mi>
</mrow>
</msub>
</msup>
</mrow>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>x</mi>
<mi>t</mi>
</mrow>
</msub>
<mo>!</mo>
</mrow>
</mfrac>
</mrow>
其中,Nxt代表了特征t在文本X中出现的次数;P(wt|Ci)的计算公式如下:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mn>1</mn>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</munderover>
<msub>
<mi>N</mi>
<mrow>
<mi>j</mi>
<mi>t</mi>
</mrow>
</msub>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>V</mi>
<mo>|</mo>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>V</mi>
<mo>|</mo>
</mrow>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</munderover>
<msub>
<mi>N</mi>
<mrow>
<mi>j</mi>
<mi>s</mi>
</mrow>
</msub>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
在P(wt|Ci)的计算公式中,Njt为特征t在文本dj中曾出现的次数,|D|为训练文本总数,|V|为特征总数,Njs是特征s在文本dj中的出现次数;该分类方法的实质是对文本对象中的所有特征值进行统计并映射到已存在的各个类别中的概率。
2.根据权利要求1所述的档案自动编研方法,其特征在于涉及的档案编研模块处理的数据信息是针对已建立的档案信息录入与管理模块的案卷目录、卷内目录和专家登记卡目录进行的基本编研,在档案信息录入与管理模块中创建包括案卷目录数据库、卷内目录数据库、档案分类数据库、专家基本信息登记数据库、专家论文明细和专家项目明细6个数据库;档案编研模块由档案分类编研子模块、文件字号索引编研子模块和专家信息编研3个子模块组成,在档案编研模块中创建与上述6个数据库相关联的档案编研基础数据库;档案分类编研子模块根据用户输入的编研条件,自动实现档案分类编研、档案标题编研和归档时间编研并以列表形式显示编研结果;文件字号索引编研子模块根据用户的编研需求输入包括公文字号、年度、档号和保管期限的组合编研条件,点击查询后根据条件过滤数据,以便自动生成并显示文件字号索引编研列表;专家信息编研子模块对档案管理中的专家登记卡信息进行编研统计,根据输入的专家姓名、研究方向和成果的编研条件进行模糊查询,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研,并将编研结果进行汇总后显示在屏幕上;其中专家分类编研是指编研自动生成某一研究领域的所有专家信息编研结果列表,其编研结果可导出到Excel或Word文档中保存或打印输出。
3.根据权利要求1所述的档案自动编研方法,其特征在于涉及的档案分类编研子模块的档案编研包括以下步骤:
(1)创建分类编研视图,视图以卷内目录或案卷目录为主表,关联分类信息表获取分类信息名称,卷内目录与案卷目录信息存放在不同的数据表中,在进行分类编研时需要汇总两部分信息,进行统一查询并检索;
(2)数据访问层代码,数据访问层是从步骤(1)给出的视图中检索需要编研的档案信息,执行函数以查询条件为参数,检索符合条件的档案信息,分类编研提取档案分类、档案标题、归档时间、份数、页数和档号信息,并对编研结果按照分类名称、分类标题和归档时间进行排序;
(3)分类编研应用层实现,首先设置分类编研条件,按档案分类名称模糊检索、档案标题模糊检索和归档时间检索分类编研;
(4)将编研结果导出到EXCEL或Word文档中,方便用户保存查看并打印装订成册。
4.根据权利要求1所述的档案自动编研方法,其特征在于涉及的文件字号索引编研子模块的档案编研包括以下步骤:
(1)创建文件字号索引视图,文件字号索引视图以卷内目录为主表关联分类信息表,提取公文字号、年度、文件序号、档号、页号、页数和保管期限信息;
(2)数据访问层代码,数据访问层是从文件字号索引视图中提取信息,并按照公文字号、文件序号和年度排序,函数以查询条件为参数,由应用层动态构建;
(3)应用层主要代码,***设定编研条件,包括公文字号、年度、档号和保管期限,根据编研需要进行组合输入,点击查询后根据条件过滤数据;
(4)将编研结果导出到EXCEL或Word文档中,方便用户保存查看并打印装订成册。
5.根据权利要求1所述的档案自动编研方法,其特征在于涉及的专家信息编研子模块的档案编研包括以下步骤:
(1)创建专家信息编研视图,视图以专家基本信息登记表为主表,关联专家论文明细表提取论文信息,关联专家项目明细表提取项目及获奖信息,专家基本信息登记与专家成果信息存放在不同的数据表中,在进行信息编研时需要汇总各部分信息,进行统一查询;
(2)数据访问层代码,数据访问层是从步骤(1)中的视图中获取需要编研的专家信息,函数以查询条件为参数,查询符合条件的专家档案信息,编研提取专家姓名、专家类别、研究方向、论文信息和项目信息;
(3)专家信息编研应用层实现,设置编研条件,进行专家名称模糊检索、专家研究方向模糊检索,论文题目与论文概述模糊检索,论文发表时间检索,项目名称模糊检索,项目概述模糊检索和项目起止时间检索和项目获奖情况检索;专家信息编研根据输入的编研条件,实现专家分类编研、专家研究方向编研、专家论文信息编研和专家项目信息编研;
(4)将编研结果导出到Excel或Word文档中,方便用户保存查看并打印装订成册。
6.根据权利要求1所述的档案自动编研方法,其特征在于涉及的档案管理信息***的执行流程为:
(1)在客户端打开一个浏览器,在地址栏中输入***的网站地址即向Web服务器发出服务请求,当桌面上显示***的登录页面时,在登录页面填写用户名、密码及验证码之后传送给Web服务器,Web服务器对用户身份进行验证后用HTTP协议把档案管理信息***的主页传送给客户端,客户端浏览器接收传来的主页文件,并把它显示在屏幕上;
(2)档案基本信息的录入,按照***显示在主页的案卷目录、卷内目录和专家登记卡给出的统一格式分别录入和添加档案所属分类、档号、档案标题、年度和专家各类基本信息;***在Web服务器的业务逻辑层执行相应的扩展应用程序与数据库服务器进行连接,通过SQL方式将用户录入或添加的上述各类基本信息在存储到相对应的与Web服务器相连的数据库之前,***将目录及档案标题进行自动分类归档,再对原文进行挂接;原文可以是电子扫描件或电子版原件;
(3)需要对某类档案信息进行档案编研时,***根据用户选择的档案编研的条目,进入到相对应的档案编研界面,在该界面中输入编研条件点击查询按钮,对相应数据库进行信息检索和查询;
(4)根据步骤(3)已输入的编研参数,在与Web服务器执行链接后通过SQL语句向相对应的数据库服务器提出数据处理请求,即对档案编研基础数据库和相关联的其他数据库信息进行检索和查询操作,并将检索到符合编研条件的数据项进行统计、分析和汇总,生成档案编研成果;
(5)数据库服务器把生成的档案编研的结果提交给Web服务器,再由Web服务器传送到客户端并显示在屏幕上;
(6)将编研成果导出到Word文档或Excel报表中保存或打印输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410714594.2A CN104361111B (zh) | 2014-11-28 | 2014-11-28 | 一种档案自动编研方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410714594.2A CN104361111B (zh) | 2014-11-28 | 2014-11-28 | 一种档案自动编研方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104361111A CN104361111A (zh) | 2015-02-18 |
CN104361111B true CN104361111B (zh) | 2017-10-27 |
Family
ID=52528371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410714594.2A Expired - Fee Related CN104361111B (zh) | 2014-11-28 | 2014-11-28 | 一种档案自动编研方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361111B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303321A (zh) * | 2015-11-04 | 2016-02-03 | 广州赛莱拉干细胞科技股份有限公司 | 一种档案管理方法及装置 |
CN105808770A (zh) * | 2016-03-22 | 2016-07-27 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 文件管理的方法及装置 |
CN106021355B (zh) * | 2016-05-10 | 2020-07-28 | 重庆大学 | 多张表之间的统计方法、自定义规则建立方法、装置及*** |
CN106227748A (zh) * | 2016-07-14 | 2016-12-14 | 上海超橙科技有限公司 | 一种信息生成方法和设备 |
CN106227749A (zh) * | 2016-07-14 | 2016-12-14 | 上海超橙科技有限公司 | 一种信息推送方法和设备 |
CN106776695B (zh) * | 2016-11-11 | 2020-12-04 | 上海信联信息发展股份有限公司 | 实现文书档案价值自动鉴定的方法 |
CN107491498A (zh) * | 2017-07-27 | 2017-12-19 | 合肥泓泉档案信息科技有限公司 | 一种档案记录表的自动调整方法 |
CN107463651A (zh) * | 2017-07-27 | 2017-12-12 | 合肥泓泉档案信息科技有限公司 | 一种电子档案建档管理方法 |
CN109684608A (zh) * | 2017-10-19 | 2019-04-26 | 航天信息股份有限公司 | 一种基于数据库通过生成 excel 文档的方法及*** |
CN107894999A (zh) * | 2017-10-27 | 2018-04-10 | 成都准星云学科技有限公司 | 面向初等数学的基于解题思路的题型自动分类方法及*** |
CN107943957A (zh) * | 2017-11-27 | 2018-04-20 | 广西简约科技有限公司 | 一种归集会议纪要的软件设计方法 |
CN108763467B (zh) * | 2018-05-29 | 2023-07-11 | 甘肃集优品网络科技有限公司 | 一种适用于档案行业的电子文件智能加工管理*** |
CN109189730A (zh) * | 2018-09-21 | 2019-01-11 | 郑州云海信息技术有限公司 | 一种档案可视化管理方法、***、装置及可读存储介质 |
CN109766439A (zh) * | 2018-12-15 | 2019-05-17 | 内蒙航天动力机械测试所 | 统计查询软件的无限树状分类定义与指派方法 |
CN111597150B (zh) * | 2020-05-09 | 2023-09-12 | 云南驰宏锌锗股份有限公司 | 一种自动化归档整理信息*** |
CN111858499A (zh) * | 2020-08-03 | 2020-10-30 | 王洋 | 基于黑白名单的档案鉴定方法、***及装置 |
CN112463896B (zh) * | 2020-12-08 | 2024-02-23 | 常兰会 | 档案编目数据处理方法、装置、计算设备及存储介质 |
CN112861473B (zh) * | 2021-03-12 | 2024-02-02 | 国网浙江省电力有限公司物资分公司 | 基于openpyxl的目录审查结果汇总***及方法 |
CN113204610A (zh) * | 2021-05-06 | 2021-08-03 | 广东博维创远科技有限公司 | 基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置 |
CN113407645B (zh) * | 2021-05-19 | 2024-06-11 | 福建福清核电有限公司 | 一种基于知识图谱的声像档案智能编研方法 |
CN113220842B (zh) * | 2021-05-20 | 2022-04-19 | 广州中海云科技有限公司 | 海事行政处罚裁量模板的处理方法、装置和设备 |
CN113590903B (zh) * | 2021-09-27 | 2022-01-25 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
CN114947402A (zh) * | 2022-06-20 | 2022-08-30 | 国网山东省电力公司冠县供电公司 | 一种档案筛选分类处理装置 |
CN115329086B (zh) * | 2022-08-29 | 2024-04-16 | 中铁四局集团电气化工程有限公司 | 基于分类编码的轨道交通文档检索***及检索方法 |
CN116757172A (zh) * | 2023-06-21 | 2023-09-15 | 山东浪潮科学研究院有限公司 | 一种档案编研方法、装置、设备及存储介质 |
CN116501862B (zh) * | 2023-06-25 | 2023-09-12 | 桂林电子科技大学 | 一种基于动态分布式汇集的文本自动摘录*** |
CN116595238B (zh) * | 2023-07-17 | 2023-09-19 | 三土电子有限公司 | 一种基于rfid技术的用户档案数据分析处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368273A (zh) * | 2011-11-29 | 2012-03-07 | 神华集团有限责任公司 | 档案管理***和方法 |
CN103745302A (zh) * | 2013-12-19 | 2014-04-23 | 镇江锐捷信息科技有限公司 | 一种数字化档案资料管理*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132496A1 (en) * | 2007-11-16 | 2009-05-21 | Chen-Kun Chen | System And Method For Technique Document Analysis, And Patent Analysis System |
-
2014
- 2014-11-28 CN CN201410714594.2A patent/CN104361111B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368273A (zh) * | 2011-11-29 | 2012-03-07 | 神华集团有限责任公司 | 档案管理***和方法 |
CN103745302A (zh) * | 2013-12-19 | 2014-04-23 | 镇江锐捷信息科技有限公司 | 一种数字化档案资料管理*** |
Also Published As
Publication number | Publication date |
---|---|
CN104361111A (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104361111B (zh) | 一种档案自动编研方法 | |
CN104462306B (zh) | 一种档案自动编研装置 | |
CN109992645B (zh) | 一种基于文本数据的资料管理***及方法 | |
CN103914478B (zh) | 网页训练方法及***、网页预测方法及*** | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
CN100440224C (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及*** | |
CN104077407B (zh) | 一种智能数据搜索***及方法 | |
CN101794311A (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN104050163A (zh) | 内容推荐***及方法 | |
CN110532309B (zh) | 一种高校图书馆用户画像***的生成方法 | |
Irudeen et al. | Big data solution for Sri Lankan development: A case study from travel and tourism | |
CN111192176B (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
KR100974064B1 (ko) | 사용자 맞춤형 정보 제공 시스템 및 그 방법 | |
Kim et al. | Event diffusion patterns in social media | |
KR101801257B1 (ko) | 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 | |
CN106557558A (zh) | 一种数据分析方法及装置 | |
CN103810162A (zh) | 推荐网络信息的方法和*** | |
CN104834739B (zh) | 互联网信息存储*** | |
Balasubramaniam et al. | Identifying Covid-19 misinformation tweets and learning their spatio-temporal topic dynamics using Nonnegative Coupled Matrix Tensor Factorization | |
CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析***及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171027 |