CN201654779U - 学术文献自动分类*** - Google Patents

学术文献自动分类*** Download PDF

Info

Publication number
CN201654779U
CN201654779U CN2009201516820U CN200920151682U CN201654779U CN 201654779 U CN201654779 U CN 201654779U CN 2009201516820 U CN2009201516820 U CN 2009201516820U CN 200920151682 U CN200920151682 U CN 200920151682U CN 201654779 U CN201654779 U CN 201654779U
Authority
CN
China
Prior art keywords
text
classification number
unit
data server
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2009201516820U
Other languages
English (en)
Inventor
张振海
罗霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN2009201516820U priority Critical patent/CN201654779U/zh
Application granted granted Critical
Publication of CN201654779U publication Critical patent/CN201654779U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实用新型提供了一种面向中图法的学术文献自动分类***,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与特征选择器、训练器和分类器相连,用于存储学术文献文本;特征选择器与训练器相连,用于从基础数据服务器读取训练文本,并选择分类所需的特征词,得到特征词词典;训练器与分类器相连,用于从基础数据服务器读取训练文本,并计算特征选择器得到的特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且分类器从基础数据服务器读取待分类文本,利用特征词词典以及词语-分类号映射词典计算待测试文本对应的中图分类号。通过该***,能够对学术文献实现准确、精细的智能分类,大大提升了效率。

Description

学术文献自动分类***
技术领域
本实用新型涉及一种计算机和图书情报领域,更具体地说,涉及一种面向中图法的学术文献自动分类***。
背景技术
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。
《中国图书馆分类法》简称《中图法》,英文译名为Chinese LibraryClassification,英文缩写为CLC,已普遍应用于全国各类型的图书馆,国内主要大型书目、检索刊物、机读数据库,以及《中国国家标准书号》等都著录《中图法》分类号。
目前,各图书馆及数字图书馆对于中文学术期刊的分类均按《中图法》实行。分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低。大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。而且新进人员的培训也耗时耗力。
实用新型内容
为了解决上述问题,根据本实用新型的一方面,提供了一种面向中图法的学术文献自动分类***,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与连接特征选择器、训练器和分类器,用于以数据库的形式存储学术文献文本,其中包括训练文本和待分类文本;特征选择器进一步连接所述训练器,用于从所述基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步连接所述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且,分类器进一步连接所述基础数据服务器,用于从所述基础数据服务器读取所述待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。
其中,优选地,所述基础数据服务器中的所述训练文本和所述待分类文本以统一的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,所述训练文本的分类号是已知的,所述待分类文本的分类号初始为空。
优选地,所述特征选择器进一步包括:
读取单元,连接计算单元,用于从所述基础数据服务器中读取所述训练文本;
计算单元,进一步连接选择单元,用于计算所述训练文本中的所有词语在所述各个分类号下的权重;
选择单元,进一步连接所述训练器,用于对所述权重进行排序和筛选,得到特征词词典。
其中,优选地,所述特征选择器进一步包括:
统计单元,分别连接所述读取单元与所述计算单元,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;
判断单元,分别连接所述计算单元和所述选择单元,用于判断所述训练文本中的词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如果“否”,则将未进行计算的词语发送到所述计算单元进行计算。
所述学术文献自动分类***中,优选地,所述训练器进一步包括:
读取单元,连接查找单元,用于从所述基础数据服务器中读取所述训练文本;
查找单元,进一步连接统计单元,用于利用所述特征词词典查找所述训练文本中的特征词;
统计单元,进一步连接计算单元,用于统计所述特征词的对应分类号并统计所述训练文本中出现所述特征词的文档数量,即文档频度,以及在所述训练文本的篇名、中文关键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;
计算单元,进一步连接生成单元,用于根据所述特征词在不同字段位置的出现数量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序。
生成单元,进一步连接所述分类器,用于将所述词形、所述分类号、所述文档频度、所述权重存入所述词语-分类号映射词典。
优选地,所述分类器进一步包括:
读取单元,连接分词单元,用于从所述基础数据服务器中读取所述待分类文本;
分词单元,进一步连接计算单元,用于根据所述特征词词典对所述待分类文本进行分词,获得所述待分类文本中的特征词;
计算单元,进一步连接分类单元,用于计算所述特征词的权重并根据所述词语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类文本中的所有特征词对应的每个分类号的总权重;
分类单元,进一步连接所述基础数据服务器单元,用于对所述计算单元得到的所述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出所述分类号。
其中,优选地,所述分类器进一步包括:
统计单元,分别连接所述分词单元与所述计算单元,用于统计所述特征词在所述待分类文本中的出现频度,以及统计所述特征词的文本频度,并发送到所述计算单元。
实用新型效果:
采用本实用新型所述的面向中图法的学术文献自动分类***,具有以下优点:
1)分类体系广、层次细:本分类器能够对中图分类法的37个大类,5万余子类进行自动训练和标注,并取得了较高的准确率,覆盖范围之广、分类层次之细是开创性的,填补了以往分类器只能对少数类别分类的空白。
2)专业文献的智能分类:以往多数分类器只能对篇幅较短、内容简单的文本进行分类,例如网页等。但本分类器能够对学术期刊、博硕士论文、报纸等形式的专业文献进行准确的分类,其中一篇期刊的数据量最多可达几十k,有5000-10000字左右,博硕士论文可以过M,字数在3万字以上。不但如此,专业文献的词汇和类别要求比较严格,因此对其分类需要严格的语义支持,并体现智能化。
3)大大提高数据加工效率:本分类器将自动分类应用于了文献加工的工作流水线,辅助并替换了以往的人工分类,大大提升了工作效率,降低的生产成本。
附图说明
下面将参照附图详细地描述实施方式。
图1是表示根据本实用新型的面向中图法的学术文献自动分类***的总体结构的框图。
图2是表示根据本实用新型的面向中图法的学术文献自动分类***的一个实施方式的具体结构的框图。
图3是表示根据本实用新型的面向中图法的学术文献自动分类***的一个实施方式的基础数据服务器中数据存储形式的示意图。
图4是表示根据本实用新型的面向中图法的学术文献自动分类***的一个实施方式的工作流程图。
具体实施方式
下面将参照附图描述根据本实用新型一个实施方式的学术文献自动分类***的结构和工作原理。
图1是表示根据本实用新型的面向中图法的学术文献自动分类***的总体结构的框图。参照图1,本实施方式的学术文献自动分类***包括:基础数据服务器、特征选择器、训练器和分类器。其中,基础数据服务器,连接特征选择器、训练器和分类器,以数据库的形式存储学术文献文本,其中包括训练文本和待分类文本。特征选择器,连接所述训练器,用于从所述基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典。训练器,连接所述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典。分类器,连接所述基础数据服务器,从所述基础数据服务器读取所述待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。
图2是表示根据本实用新型的面向中图法的学术文献自动分类***200的具体结构的框图。参照图2,面向中图法的学术文献自动分类***200包括基础数据服务器210、特征选择器220、训练器230和分类器240。
基础数据服务器210连接特征选择器220、训练器230和分类器240,以数据库的形式存储学术文献文本,作为***其它部分的信息载体,其中包括训练文本和待分类文本。训练文本和待分类文本以统一的表的结构(参见图3)进行存储,包括文本篇名、中文摘要、中文关键字、全文、刊名、引文和分类号,其中,训练文本的分类号是已知的,待分类文本的分类号字段初始为空。
特征选择器220连接训练器230,自动选择分类所需的特征词,得到特征词词典。特征选择器220包括:读取单元221、统计单元222、计算单元223、判断单元224、选择单元225。其中,读取单元221,连接统计单元222,从基础数据服务器210中读取训练文本。统计单元222,连接计算单元223,统计从读取单元210中读取到的训练文本中的词语与分类号的对应关系及数量关系。例如,训练文本中包含词语“计算机”,要统计其与分类号“TP3-4”的关系,首先统计训练文本中包含词语“计算机”且属于分类号“TP3-4”的文档数量;然后,统计训练文本中不包含词语“计算机”但属于分类号“TP3-4”的文档数量;接着统计训练文本中包含词语“计算机”但不属于分类号“TP3-4”的文档数量;最后统计训练文本总数。将所有统计值发送到计算单元223。计算单元223,连接判断单元224,计算训练文本中的词语在各个分类号下的权重。判断单元224,连接选择单元225,判断所述训练文本中的词语是否都已计算完毕,如果“是”,则将计算单元223得到的权重发送到选择单元225,如果“否”,则将未进行计算的词语发送到计算单元223进行计算。选择单元225,连接训练器230,对从计算单元223得到权重进行排序和筛选,自动选择合适的特征词,得到特征词词典。
训练器230连接分类器240,从基础数据服务器210读取训练文本,并计算从特征选择器220得到的特征词与分类号的概率关系,从而得到词语-分类号映射词典。训练器230包括:读取单元231、查找单元232、统计单元233、计算单元234、生成单元235。其中,读取单元231,连接查找单元232,从基础数据服务器210中读取训练文本,以训练文本的篇名、中文关键字、全文、中文摘要字段作为输入。查找单元232,连接统计单元233,利用特征词词典查找训练文本中输入字段的特征词。统计单元233,连接计算单元234,统计查找到的特征词的对应分类号,统计训练文本中出现该特征词的文档数量,即文档频度,并且在训练文本的篇名、中文关键字、全文、中文摘要字段统计该特征词对应分类号的出现数量。计算单元233,连接生成单元234,根据特征词在训练文本中不同字段位置的出现数量进行加权,计算其在对应分类号下的权重,并按照权重对分类号由高到低排序。生成单元234,连接分类器240,将词形、分类号、文档频度和权重存入词语-分类号映射词典。下面是词语-分类号映射词典的示例:
  词形   分类号   文档频度   权重
  金融机构   F832.2;F832.3;   57079   0.3912;0.3019;
  计算机   TP3-4;TP399;   408907   0.5292;0.1639;
  潜艇基地   E712;E273;E19;   72   0.2773;0.2310;0.1848;
  强心扩血管药   R541.6;R473.6;   39   0.4951;0.1980;
  现代教育   G434;G40-057;   32317   0.4433;0.2498;
分类器240,连接基础数据服务器210,从基础数据服务器210读取待分类文本,特征词词典以及词语-分类号映射词典计算所述待测试文本对应的中图分类号。分类器包括:读取单元241、分词单元242、统计单元243、计算单元244、分类单元245。其中,读取单元241,连接分词单元242,从基础数据服务器210中读取待分类文本。分词单元242,连接统计单元243,利用特征选择器220生成的特征词词典对待分类文本进行分词,获得待分类文本中的特征词在不同位置的出现频度,去除其中重复的词项。统计单元243,连接计算单元244,统计特征词在待分类文本中的出现频度和特征词的文本频度,并将统计值发送到计算单元244。计算单元244,连接分类单元245,根据接收到的统计值计算特征词的权重并根据训练器230生成的词语-分类号映射词典获得特征词在所有分类号下相应的权重,从而计算出待分类文本中的特征词对应每个分类号的总权重;分类单元245,连接基础数据服务器210,对计算单元244得到的分类号总权重进行排序,将排序前几位的分类号作为待分类文本的分类号,并输出该分类号。
综上所述,本实用新型所述学术文献自动分类***能够替代现有的人工分类工作,优化数据加工流程,并大大提升工作效率。
在本说明书中所谈到的“一个实施方式”、“另一个实施方式”、“实施方式”、等,指的是结合该实施方式描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施方式中。在说明书中任何地方出现这种表述不是一定都指的是该同一个实施方式。进一步,结合任一实施方式描述一个具体特征、结构或者特点时,所要主张的是结合其他实施方式来实现这种特征、结构或者特点,落在本领域技术人员的范围内。
尽管参照本实用新型的多个解释性实施方式对本实用新型进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (7)

1.一种面向中图法的学术文献自动分类***,其特征在于,该学术文献自动分类***包括基础数据服务器、特征选择器、训练器和分类器,其中,
基础数据服务器分别与特征选择器、训练器和分类器相连接,用于以数据库的形式存储学术文献文本,所述学术文献文本包括训练文本和待分类文本;
特征选择器进一步与训练器相连接,用于从基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;
训练器进一步与分类器相连接,用于从基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且
分类器分别与基础数据服务器和训练器相连接,用于从基础数据服务器读取待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。
2.根据权利要求1所述的学术文献自动分类***,其特征在于,所述特征选择器进一步包括:
读取单元,与计算单元相连接,用于从所述基础数据服务器中读取所述训练文本;
计算单元,进一步与选择单元相连接,用于计算所述训练文本中的所有词语在所述各个分类号下的权重;
选择单元,进一步与所述训练器相连接,用于对所述权重进行排序和筛选从而得到特征词词典。
3.根据权利要求2所述的学术文献自动分类***,其特征在于,所述特征选择器进一步包括:
统计单元,分别与所述读取单元与所述计算单元相连接,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;
判断单元,分别与所述计算单元和所述选择单元相连接,用于判断所述训练文本中的词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如果“否”,则将未进行计算的词语发送到所述计算单元进行计算。
4.根据权利要求1所述的学术文献自动分类***,其特征在于,所述训练器进一步包括:
读取单元,与查找单元相连接,用于从所述基础数据服务器中读取所述训练文本;
查找单元,进一步与统计单元相连接,用于利用所述特征词词典查找所述训练文本中的特征词;
统计单元,进一步与计算单元相连接,用于统计所述特征词的对应分类号并统计所述训练文本中出现所述特征词的文档数量以及在所述训练文本的篇名、中文关键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;
计算单元,进一步与生成单元相连接,用于根据所述特征词在不同字段位置的出现数量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序;
生成单元,进一步与所述分类器相连接,用于将所述词形、所述分类号、所述训练文本中出现所述特征词的文档数量、所述权重存入所述词语-分类号映射词典。
5.根据权利要求1所述的学术文献自动分类***,其特征在于,所述分类器进一步包括:
读取单元,与分词单元相连接,用于从所述基础数据服务器中读取所述待分类文本;
分词单元,进一步与计算单元相连接,用于根据所述特征词词典对所述待分类文本进行分词,获得所述待分类文本中的特征词;
计算单元,进一步与分类单元相连接,用于计算所述特征词的权重并根据所述词语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类文本中的所有特征词对应的每个分类号的总权重;
分类单元,进一步与所述基础数据服务器相连接,用于对所述计算单元得到的所述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出所述分类号。
6.根据权利要求5所述的学术文献自动分类***,其特征在于,所述分类器进一步包括:
统计单元,分别与所述分词单元与所述计算单元相连接,用于统计所述特征词在所述待分类文本中的出现频度并统计所述特征词的文本频度,并将统计值发送到所述计算单元。
7.根据权利要求1所述的学术文献自动分类***,其特征在于,所述基础数据服务器中的训练文本和待分类文本以统一的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,训练文本的分类号是已知的,待分类文本的分类号初始为空。
CN2009201516820U 2009-04-22 2009-04-22 学术文献自动分类*** Expired - Lifetime CN201654779U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009201516820U CN201654779U (zh) 2009-04-22 2009-04-22 学术文献自动分类***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009201516820U CN201654779U (zh) 2009-04-22 2009-04-22 学术文献自动分类***

Publications (1)

Publication Number Publication Date
CN201654779U true CN201654779U (zh) 2010-11-24

Family

ID=43120022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009201516820U Expired - Lifetime CN201654779U (zh) 2009-04-22 2009-04-22 学术文献自动分类***

Country Status (1)

Country Link
CN (1) CN201654779U (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和***以及设备
CN102651092A (zh) * 2011-02-25 2012-08-29 艾迪讯科技股份有限公司 以色彩管理书籍的***
CN103377216A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 产品信息库的构建方法及***
CN104679875A (zh) * 2015-03-10 2015-06-03 杭州凡闻科技有限公司 一种基于数字报纸的资讯数据分类方法
CN106156114A (zh) * 2015-04-03 2016-11-23 北京中献电子技术开发中心 专利检索方法和装置
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和***以及设备
CN102073704B (zh) * 2010-12-24 2013-09-25 华为终端有限公司 文本分类处理方法和***以及设备
CN102651092A (zh) * 2011-02-25 2012-08-29 艾迪讯科技股份有限公司 以色彩管理书籍的***
CN103377216A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 产品信息库的构建方法及***
CN104679875A (zh) * 2015-03-10 2015-06-03 杭州凡闻科技有限公司 一种基于数字报纸的资讯数据分类方法
CN104679875B (zh) * 2015-03-10 2017-12-15 杭州凡闻科技有限公司 一种基于数字报纸的资讯数据分类方法
CN106156114A (zh) * 2015-04-03 2016-11-23 北京中献电子技术开发中心 专利检索方法和装置
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN201654779U (zh) 学术文献自动分类***
CN106528528A (zh) 文本情感分析的方法及装置
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及***
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及***
CN107194617B (zh) 一种app软件工程师软技能分类***及方法
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类***
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN109960799A (zh) 一种面向短文本的优化分类方法
CN103678576A (zh) 基于动态语义分析的全文检索***
CN104050240A (zh) 一种确定搜索查询词类别属性的方法和装置
CN101183430A (zh) 一种基于模块神经网络sn9701矩阵列的手写体数字自动识别方法
CN105893380A (zh) 一种改良的文本分类特征选择方法
CN104216979B (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及***
CN107169061A (zh) 一种融合双信息源的文本多标签分类方法
CN109740642A (zh) ***类别识别方法、装置、电子设备及可读存储介质
CN112307153A (zh) 一种产业知识库自动构建方法、装置及存储介质
CN109784387A (zh) 基于神经网络和贝叶斯模型的多层次递进分类方法及***
CN103778206A (zh) 一种网络服务资源的提供方法
CN106777193A (zh) 一种自动撰写特定稿件的方法
CN110276382A (zh) 基于谱聚类的人群分类方法、装置及介质
CN110659367A (zh) 文本分类号的确定方法、装置以及电子设备
CN108920508A (zh) 基于lda算法的文本分类模型训练方法及***

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20101124

CX01 Expiry of patent term