CN106202380B - 一种分类语料库的构建方法、***及具有该***的服务器 - Google Patents
一种分类语料库的构建方法、***及具有该***的服务器 Download PDFInfo
- Publication number
- CN106202380B CN106202380B CN201610536555.7A CN201610536555A CN106202380B CN 106202380 B CN106202380 B CN 106202380B CN 201610536555 A CN201610536555 A CN 201610536555A CN 106202380 B CN106202380 B CN 106202380B
- Authority
- CN
- China
- Prior art keywords
- target data
- corpus
- classified
- data
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000007115 recruitment Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 101000710137 Homo sapiens Recoverin Proteins 0.000 description 2
- 102100034572 Recoverin Human genes 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种分类语料库的构建方法、***及具有该***的服务器,构建方法包括:获取待分类的目标数据,并根据实际需求获取类别描述数据;选取最大准确度对应的文本相似度计算方法;将待分类的目标数据归类到最大相似度对应的类别;将第一分类匹配度位于第一相似度范围内的目标数据填充至预设初级语料库;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库;直至填充后的预设初级语料库无法再扩大,将预设初级语料库确定为最终版语料库。本发明减少了创建语料库的成本、降低人工参与程度、缩短创建语料库的时间。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种构建方法及***,特别是涉及一种分类语料库的构建方法、***及具有该***的服务器。
背景技术
近些年,网络技术得到飞速发展,互联网数据由于更新迅速,范围广泛,获取容易等优点已经成为人们获取信息的主要来源。据统计显示,网络数据中的绝大部分都是以文本形式存在的,如何利用自然语言处理技术对这些文本信息进行分类,使得用户能够更准确,快速的查找到有用信息,成为人工智能领域的一个重要研究问题。面对这一需求诞生了多项极具实用价值的技术,例如信息检索、数据挖掘、舆情监测等,由于文本分类优劣直接影响这些技术的准确性,因此成为了核心研究问题。
由于基于统计机器学习的方法在准确率和稳定性方面有明显优势,己经成为文本分类领域的绝对主流。由于基于统计机器学习的文本分类***使用训练样本进行特征选择和分类器参数训练,根据选择的特征对待分类数据进行形式化,然后输入到分类器进行类别判定,最终得到输入样本的类别。其中的关键就是从训练样本,也就是已经进行过准确分类的文档中挖掘出一些有效分类的规则,这些己经进行了准确分类的材料,即语料库,将直接影响到分类器的性能。所以想要得到准确性高的分类器,就必须有一个内容丰富,文本充足的语料库。
目前文本分类常用的语料库英文方面有利用路透社新闻语料建立的RCV1、RCV2、20Newsgroups、斯坦福大学的情感标注语料库等,中文方面,应用较广泛的有复旦大学李荣路老师的中文语料库、搜狗语料库、中科院自动化所的中英文新闻语料库等。这些语料库存在的共同的问题就是文本类别较少,创建方法不具有普适性。而在语料库构建方面,现有语料库构建方法一般是组织各个领域的专家,从浩如烟海知识中,选取符合语料库要求的语料,在这个过程中需要大量的人力物力资源,并且创建的语料库的优劣通常与参与专家的水平有关,带有一定的主观特性。
例如,20Newsgroups语料库和复旦大学李荣路老师的中文语料库只包含20个类别,情感标注语料库SST-1只包含5个类别。包含类别较多的RCV1是多标签语料库,其中行业类别有376个,而主题类别只有103个,建立语料库时,需要多名自然语言处理专家和资深记者对自动编码生成的类别标签矫对和更正。
随着信息处理技术的快速发展,语言信息处理领域需要大量的专业性强,类别数较多的文本分类语料库。在文本类别多于1000类时,即使是领域专家也无法做到给文本准确的分类。所以传统的语料库构建方法在时效性、专业性等方面并不能完全满足这些需求。面对文本类别数较多的情况,如何构造一种方法,利用完全没有标记的语料建立文本分类语料库,减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间,是本发明所要解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种分类语料库的构建方法、***及具有该***的服务器,用于解决现有技术建立的文本分类语料库带有标记的语料,创建语料库的成本较高,人为参与度高,创建语料库的时间高的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种分类语料库的构建方法,所述分类语料库的构建方法包括以下步骤:获取待分类的目标数据,并根据实际需求获取类别描述数据;源数据库采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据;根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;所述深度匹配指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;对上一步骤中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;使用所述预设初级语料库重新训练分类器,循环执行对未填充至预设初级语料库中的待分类的目标数据进行分类,直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
于本发明的一实施例中,所述分类语料库的构建方法还包括:在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述初级语料库中。
于本发明的一实施例中,所述计算待分类的目标数据与确定的类别描述数据之间的文本相似度以选取最大准确度所对应的文本相似度计算方法的步骤包括:计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别;根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度,选择最大准确度对应的文本相似度计算方法。
于本发明的一实施例中,所述分类语料库的构建方法在利用已选定的分类器对除去填充至预设初级语料库中的目标数据的待分类的目标数据进行分类的步骤之前还包括利用所述预设初级语料库在预存的多个分类器测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
于本发明的一实施例中,所述分类语料库的构建方法还包括对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。
一种分类语料库的构建***,所述分类语料库的构建***包括:数据获取模块,用于获取待分类的目标数据;类别获取模块,与所述数据获取模块连接,用于根据实际需求获取类别描述数据;第一处理模块,采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据源数据库第一分类模块,与所述第一处理模块连接,用于根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;第二处理模块,与所述第一分类模块连接,用于对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;所述深度匹配指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性;第二分类模块,与所述第一分类模块和第二处理模块连接,用于利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;第三处理模块,与所述第二分类模块连接,用于对所述第二分类模块已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;确定模块,与所述第三处理模块连接,用于使用所述预设初级语料库重新训练分类器,循环执行对未填充至预设初级语料库中的待分类的目标数据进行分类,直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
于本发明的一实施例中,所述分类语料库的构建还包括与所述第三处理模块和确定模块连接,用于在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述预设初级语料库中。
于本发明的一实施例中,所述第一分类模块执行的计算待分类的目标数据与确定的类别描述数据之间的文本相似度指计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别,根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度,选择最大准确度对应的文本相似度计算方法。
于本发明的一实施例中,所述分类语料库的构建***若包括与所述数据获取模块和类别获取模块连接,用于从待分类的目标数据中截取一部分待分类的目标数据的截取模块时,所述第一处理模块还用于对截取的部分待分类的目标数据计算待分类的目标数据与确定的类别描述数据之间的文本相似度,根据计算得到的相似度将部分待分类的目标数据归类到与其对应的类别,将已归类的部分待分类的目标数据填充至预设初级语料库,并选取最大准确度所对应的文本相似度计算方法;第一分类模块还用于采用最大准确度所对应的文本相似度计算方法计算剩余部分待分类的目标数据和确定的类别描述数据之间的相似度,根据计算得到的相似度将待分类的目标数据归类到与其对应的类别,将已归类的剩余部分待分类的目标数据填充至预设初级语料库以扩充所述初级语料库。
于本发明的一实施例中,所述分类语料库的构建***还包括与所述第二处理模块和第二分类模块连接的选取模块,所述选取模块用于利用所述预设初级语料库在预存的多个分类器测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
于本发明的一实施例中,所述分类语料库的构建***还包括与所述第三处理模块连接的测试模块,所述测试模块用于对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。
本发明又一方面提供一种服务器,包括所述的分类语料库的构建***
如上所述,本发明的分类语料库的构建方法、***及具有该***的服务器,具有以下有益效果:
本发明所述的分类语料库的构建方法、***及具有该***的服务器减少了创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间、降低人为主观影响,且可以有效解决目前自然语言处理领域各种特色语料库、专业语料库缺少的情况。
附图说明
图1显示为本发明的分类语料库的构建方法于一实施例中的方法流程示意图。
图2显示为本发明的分类语料库的构建方法于另一实施例中的方法流程示意图。
图3显示为本发明的分类语料库的构建***于一实施例中的原理结构示意图。
图4显示为本发明的分类语料库的构建***于另一实施例中的原理结构示意图。
图5显示为本发明的服务器于一实施例中的原理结构示意图。
图6显示为本发明的服务器于另一实施例中的原理结构示意图。
元件标号说明
1, 分类语料库的构建***
10 数据获取模块
11 类别获取模块
12 第一处理模块
13 第一分类模块
14 第二处理模块
15 选取模块
16 第二分类模块
17 第三处理模块
18 第三分类模块
19 确定模块
20 测试模块
21 截取模块
3 服务器
S1~S10 步骤
S1’~S12’ 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种分类语料库的构建方法,所述分类语料库的构建方法包括以下步骤:
获取待分类的目标数据,并根据实际需求获取类别描述数据;
计算待分类的目标数据与确定的类别描述数据之间的文本相似度以选取最大准确度所对应的文本相似度计算方法;
采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据和确定的类别描述数据之间的相似度,根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;
对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;
利用已选定并训练好的分类器对除去填充至预设初级语料库的数据的待分类的目标数据进行分类;
对上一步骤中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库中;
直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
以下将结合图示对本实施例所述的分类语料库的构建方法进行详细阐述。请参阅图1,显示为分类语料库的构建方法于一实施例中的方法流程示意图。如图1所示,所述分类语料库的构建方法具体包括以下几个步骤:
S1,通过网络爬虫***获取待分类的目标数据。
例如,通过网络爬虫***获取从2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息。因此2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息即为待分类的目标数据。
S2,根据实际需求明确分类体系以获取类别描述数据。在本实施例中,以《中华人民共和国职业分类大典》作为分类依据,大典中细类职业共1481个,每个细类职业的描述作为类别的描述文档。
S3,采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度。其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据。在某某大学的文本分类语料库上进行KNN分类实验,在实验过程中分别采用多种文本相似度计算方法,也就是使用f0,f1,f2,……,fn相似度计算函数计算文本相似度,能够得到使用各种不同相似度计算函数时的KNN分类准确度,即P0,P1,P2,……,Pn,从P0,P1,P2,……,Pn中选取最大值Pi=MAX(P1,P2,……,Pn)以选取文本相似度计算方法的最大准确度Pi所对应的文本相似度计算方法fi。具体地说就是,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别;根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度,选择最大准确度对应的文本相似度计算方法;在本实施例中,文本相似度计算方法的准确度=计算正确的待分类的目标数据的数目与所有待分类的目标数据的比。
S4,根据计算得到的相似度将待分类的目标数据归类到对应的类别。所述对应的类别是指与待分类的目标数据最为相近的类别。
S5,对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中。在本实施例中,深度匹配具体是指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性。若已归类的目标数据中具体文档内容与类别描述数据中具体文档内容深度匹配获取的第一分类匹配度在预存的第一匹配度范围内,便将第一分类匹配度位于所述第一相似度范围内的目标数据填充至预设初级语料库中,若第一分类匹配度没有位于所述第一相似度范围内的目标数据重新归为待分类的目标数据。
S6,利用所述预设初级语料库在预存的多个分类器(即现有技术已有的分类器)测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
S7,利用已选定的分类器对除去填充至预设初级语料库中的目标数据的待分类的目标数据进行分类,将除去填充至预设初级语料库中的目标数据的待分类的目标数据归类到与之对应的类别。
S8,对步骤S7中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中。在本实施例中,使用所述预设初级语料库重新训练分类器,循环执行步骤S8对未填充至预设初级语料库中的待分类的目标数据进行分类直至填充后的预设初级语料库无法再扩大。
S9,在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述预设初级语料库中,将该预设初级语料库确定为最终版语料库。
S10,对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。在本实施例中,对所述最终版语料库进行可用性测试包括对所述最终版语料库进行Kmeans聚类和SVM分类实验,分别得到聚类和分类的准确率,召回率,F1值。证明最终版语料库的可用性以为日后的科研工作给出参照基准。
实施例二
请参阅图2,显示为分类语料库的构建方法于另一实施例中的方法流程示意图。如图2所示,所述分类语料库的构建方法具体包括以下几个步骤:
S1’,通过网络爬虫***获取待分类的目标数据。
例如,通过网络爬虫***获取从2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息。因此2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息即为待分类的目标数据。
S2’,根据实际需求明确分类体系以获取类别描述数据。在本实施例中,以《中华人民共和国职业分类大典》作为分类依据,大典中细类职业共1481个,每个细类职业的描述作为类别的描述文档。
S3’,从待分类的目标数据中截取一部分待分类的目标数据。
S4’,采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度。。其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据。具体地说就是,计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别;根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,选择最大准确度对应的文本相似度计算方法;在本实施例中,文本相似度计算方法的准确度=计算正确的待分类的目标数据的数目与所有待分类的目标数据的比。本实施例中,步骤S4’还会将这一过程中已分类正确的部分截取数据添加到预设初级语料库中。
S5’,根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别,将已归类的剩余部分待分类的目标数据填充至预设初级语料库以扩充所述初级语料库。
S6’,对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中。在本实施例中,深度匹配具体是指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性。若已归类的目标数据中具体文档内容与类别描述数据中具体文档内容深度匹配获取的第一分类匹配度在预存的第一匹配度范围内,便将第一分类匹配度位于所述第一相似度范围内的目标数据填充至预设初级语料库中,若第一分类匹配度没有位于所述第一相似度范围内的目标数据重新归为待分类的目标数据。
S7’,利用所述预设初级语料库在预存的多个分类器(即现有技术已有的分类器)测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
S8’,利用初级语料库训练已选定的分类器,并利用训练好的分类器对除去填充至预设初级语料库中的目标数据的待分类的目标数据进行分类,将除去填充至预设初级语料库中的目标数据的待分类的目标数据归类到与之对应的类别。
S9’,对步骤S9’中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中。在本实施例中,使用所述预设初级语料库重新训练分类器,循环执行步骤S10’对未填充至预设初级语料库中的待分类的目标数据进行分类直至所述预设初级语料库无法再扩大,当所述预设初级语料库无法再扩大。
S10’,在所述初级语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述最终版语料库中。
S11’,所述分类语料库的构建方法还包括对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。在本实施例中,对所述最终版语料库进行可用性测试包括对所述最终版语料库进行Kmeans聚类和SVM分类实验,分别得到聚类和分类的准确率,召回率,F1值。证明最终版语料库的可用性以为日后的科研工作给出参照基准。
本实施例所述的分类语料库的构建方法减少了创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间、降低人为主观影响,且可以有效解决目前自然语言处理领域各种特色语料库、专业语料库缺少的情况。
实施例三
本实施例提供一种分类语料库的构建***1,请参阅图3,显示为分类语料库的构建***于一实施例中的原理结构示意图。如图3所示,所述分类语料库的构建***1包括:数据获取模块10、类别获取模块11、第一处理模块12、第一分类模块13、第二处理模块14、选取模块15、第二分类模块16、第三处理模块17、确定模块18、第三分类模块19、及测试模块20。
所述数据获取模块10用于通过网络爬虫***获取待分类的目标数据。
例如,通过网络爬虫***获取从2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息。因此2014年8月到2015年8月在前程无忧、智联招聘、中华英才网及猎聘网发布的所有国内上市公司的招聘信息即为待分类的目标数据。
与所述数据获取模块10连接的类别获取模块11用于根据实际需求明确分类体系以获取类别描述数据。在本实施例中,以《中华人民共和国职业分类大典》作为分类依据,大典中细类职业共1481个,每个细类职业的描述作为类别的描述文档。
与所述数据获取模块10和类别获取模块11连接的第一处理模块12用于采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据。例如,在某某大学的文本分类语料库上进行KNN分类实验,在实验过程中分别采用多种文本相似度计算方法,也就是使用f0,f1,f2,……,fn文本相似度相似度计算函数计算待文本相似度,能够得到使用不同文本相似度计算方法时的KNN分类准确度即P0,P1,P2,……,Pn,从P0,P1,P2,……,Pn中选取最大值Pi=MAX(P1,P2,……,Pn)以选取最大精确度Pi所对应的文本相似度计算方法fi。,所述第一处理模块具体地用于计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别;根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数据与总目标数据数据的比作为准确度,选择最大准确度对应的文本相似度计算方法;在本实施例中,文本相似度计算方法的准确度=计算正确的待分类的目标数据的数目与所有待分类的目标数据的比。
与所述第一处理模块12连接的第一分类模块13用于根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别。所述对应的类别是指与待分类的目标数据最为相近的类别。
与所述第一分类模块13连接的第二处理模块14用于对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中。在本实施例中,深度匹配具体是指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性。若已归类的目标数据中具体文档内容与类别描述数据中具体文档内容深度匹配获取的第一分类匹配度在预存的第一匹配度范围内,便将第一分类匹配度位于所述第一相似度范围内的目标数据填充至预设初级语料库中,若第一分类匹配度没有位于所述第一相似度范围内的目标数据重新归为待分类的目标数据。
与所述第二处理模块14连接的选取模块15用于利用所述预设初级语料库在预存的多个分类器(即现有技术已有的分类器)测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
与所述第二处理模块14和选取模块15连接的第二分类模块16用于利用已选定的分类器对除去填充至预设初级语料库中的目标数据的待分类的目标数据进行分类,将除去填充至预设初级语料库中的目标数据的待分类的目标数据归类到与之对应的类别。
与所述第二分类模块16连接的第三处理模块17用于对第二分类模块16中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中。在本实施例中,使用所述预设初级语料库重新训练分类器,循环执行所述第三处理模块17所具有的功能对未填充至预设初级语料库中的待分类的目标数据进行分类直至所述预设语料库无法再扩大。
与所述第三处理模块17连接的第三分类模块18用于在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述预设初级语料库中。
与所述第三分类模块18连接的确定模块19用于直至所述预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
与所述第三处理模块17、第三分类模块18和确定模块19连接的测试模块20用于对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。在本实施例中,对所述最终版语料库进行可用性测试包括对所述最终版语料库进行Kmeans聚类和SVM分类实验,分别得到聚类和分类的准确率,召回率,F1值。证明最终版语料库的可用性以为日后的科研工作给出参照基准。
实施例四
本实施例提供一种分类语料库的构建***1’,请参阅图4,显示为分类语料库的构建***于另一原理结构示意图。如图4所示,实施例四中所述的分类语料库的构建***1’与实施例三中所述的分类语料库的构建***1的区别仅为:
所述分类语料库的构建***1’还包括与所述数据获取模块10和类别获取模块11连接的,用于从待分类的目标数据中截取一部分待分类的目标数据的截取模块21。
与所述截取模块21和类别获取模块11连接的第一处理模块12用于采用多种文本相似度计算方法对截取的部分待分类的目标数据计算待分类的目标数据与确定的类别描述数据之间的文本相似度,文本相似度选取最大准确度所对应的文本相似度计算方法fi。即所述第一处理模块12具体用于计算待分类的目标数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该待分类的目标数据所属的类别;根据待分类的目标数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度。在本实施例中,文本相似度计算方法的准确度=计算正确的待分类的目标数据的数目与所有待分类的目标数据的比。
与所述第一处理模块12连接的第一分类模块13用于采用最大准确度所对应的文本相似度计算方法fi计算部分待分类的目标数据和确定的类别描述数据之间的相似度,根据计算得到的相似度将部分待分类的目标数据归类到与其对应的类别,将已归类的部分待分类的目标数据填充至预设初级语料库。并采用最大准确度所对应的文本相似度计算方法计算剩余部分待分类的目标数据和确定的类别描述数据之间的相似度,根据计算得到的相似度将待分类的目标数据归类到与其对应的类别,将已归类的剩余部分待分类的目标数据填充至预设初级语料库以扩充所述初级语料库。
其余所述分类语料库的构建***1’与分类语料库的构建***1没有区别。也就说,所述分类语料库的构建***1’也包括与所述第一分类模块13连接的第二处理模块14、选取模块15、第二分类模块16、第三处理模块17、确定模块18、第三分类模块19、及测试模块20。
实施例五
本实施例提供一种服务器3,请参阅图5和6,显示为服务器的原理结构示意图。如图5和图6所示,所述服务器3包括实施例三中所述的分类语料库的构建***1或实施例四中所述的分类语料库的构建***1’。
综上所述,本发明所述的分类语料库的构建方法、***及具有该***的服务器减少了创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间、降低人为主观影响,且可以有效解决目前自然语言处理领域各种特色语料库、专业语料库缺少的情况。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种分类语料库的构建方法,其特征在于,所述分类语料库的构建方法包括以下步骤:
获取目标数据,并根据实际需求获取类别描述数据;
采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据;
根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;
对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;所述深度匹配指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性;
利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;
对上一步骤中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;
使用所述预设初级语料库重新训练分类器,循环执行对未填充至预设初级语料库中的待分类的目标数据进行分类,直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
2.根据权利要求1所述的分类语料库的构建方法,其特征在于:所述分类语料库的构建方法还包括:在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述预设初级语料库中。
3.根据权利要求1所述的分类语料库的构建方法,其特征在于:所述采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度的步骤包括:
计算训练数据与确定的类别描述数据之间的文本相似度;
选择最大文本相似度的类别描述数据作为该训练数据所属的类别;
根据训练数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度,选择最大准确度对应的文本相似度计算方法。
4.根据权利要求1所述的分类语料库的构建方法,其特征在于:所述分类语料库的构建方法在利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类的步骤之前还包括利用所述预设初级语料库在预存的多个分类器测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
5.根据权利要求1所述的分类语料库的构建方法,其特征在于:所述分类语料库的构建方法还包括对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。
6.一种分类语料库的构建***,其特征在于,所述分类语料库的构建***包括:
数据获取模块,用于获取待分类的目标数据;
类别获取模块,与所述数据获取模块连接,用于根据实际需求获取类别描述数据;
第一处理模块,与所述数据获取模块和类别获取模块连接,用于采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据;
第一分类模块,与所述第一处理模块连接,用于采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度,根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;
第二处理模块,与所述第一分类模块连接,用于对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;所述深度匹配指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性;
第二分类模块,与所述第一分类模块和第二处理模块连接,用于利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;
第三处理模块,与所述第二分类模块连接,用于对所述第二分类模块已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;
确定模块,与所述第三处理模块连接,用于使用所述预设初级语料库重新训练分类器,循环执行对未填充至预设初级语料库中的待分类的目标数据进行分类,直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。
7.根据权利要求6所述的分类语料库的构建***,其特征在于:所述分类语料库的构建还包括与所述第三处理模块和确定模块连接的第三分类模块,所述第三分类模块用于在所述语料库无法再扩大时,对无法分类的目标数据采用标记法分类,并将其填充至所述预设初级语料库中。
8.根据权利要求6所述的分类语料库的构建***,其特征在于:所述第一处理模块计算训练数据与确定的类别描述数据之间的文本相似度;选择最大文本相似度的类别描述数据作为该训练数据所属的类别;根据训练数据与确定的类别描述数据之间预设重复度来判断所选择的类别是否正确,所有正确分类的目标数据数量与总目标数据数量的比作为准确度,选择最大准确度对应的文本相似度计算方法。
9.根据权利要求6所述的分类语料库的构建***,其特征在于:所述分类语料库的构建***还包括与所述第二处理模块和第二分类模块连接的选取模块,所述选取模块用于利用所述预设初级语料库在预存的多个分类器测试,选取准确度最高的分类器,将选取的准确度最高的分类器作为已选定的分类器。
10.根据权利要求6所述的分类语料库的构建***,其特征在于:所述分类语料库的构建***还包括与所述第三处理模块连接的测试模块,所述测试模块用于对所述最终版语料库进行可用性测试以获取所述最终版语料库的评价指标。
11.一种服务器,其特征在于,包括如权利要求6-10中任一项所述的分类语料库的构建***。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610536555.7A CN106202380B (zh) | 2016-07-08 | 2016-07-08 | 一种分类语料库的构建方法、***及具有该***的服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610536555.7A CN106202380B (zh) | 2016-07-08 | 2016-07-08 | 一种分类语料库的构建方法、***及具有该***的服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202380A CN106202380A (zh) | 2016-12-07 |
CN106202380B true CN106202380B (zh) | 2019-12-24 |
Family
ID=57473067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610536555.7A Expired - Fee Related CN106202380B (zh) | 2016-07-08 | 2016-07-08 | 一种分类语料库的构建方法、***及具有该***的服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202380B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959329B (zh) * | 2017-05-27 | 2023-05-16 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN110019827B (zh) * | 2017-08-24 | 2023-03-14 | 腾讯科技(北京)有限公司 | 一种语料库生成方法、装置、设备和计算机存储介质 |
CN108009248A (zh) * | 2017-11-30 | 2018-05-08 | 国信优易数据有限公司 | 一种数据分类方法和*** |
CN109271477B (zh) * | 2018-09-05 | 2020-07-24 | 杭州数湾信息科技有限公司 | 一种借助互联网构建分类语料库的方法及*** |
CN109522424B (zh) * | 2018-10-16 | 2020-04-24 | 北京达佳互联信息技术有限公司 | 数据的处理方法、装置、电子设备及存储介质 |
CN113168416A (zh) * | 2018-11-29 | 2021-07-23 | 皇家飞利浦有限公司 | 用于根据通用领域语料库来创建领域特异性训练语料库的方法和*** |
CN109977207A (zh) * | 2019-03-21 | 2019-07-05 | 网易(杭州)网络有限公司 | 对话生成方法、对话生成装置、电子设备及存储介质 |
CN110942765B (zh) * | 2019-11-11 | 2022-05-27 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、设备、服务器和存储介质 |
CN111460149B (zh) * | 2020-03-27 | 2023-07-25 | 科大讯飞股份有限公司 | 文本分类方法、相关设备及可读存储介质 |
CN113553430A (zh) * | 2021-07-20 | 2021-10-26 | 中国工商银行股份有限公司 | 一种数据分类方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916889A (zh) * | 2005-08-19 | 2007-02-21 | 株式会社日立制作所 | 语料库制作装置及其方法 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127229B2 (en) * | 2014-04-23 | 2018-11-13 | Elsevier B.V. | Methods and computer-program products for organizing electronic documents |
-
2016
- 2016-07-08 CN CN201610536555.7A patent/CN106202380B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916889A (zh) * | 2005-08-19 | 2007-02-21 | 株式会社日立制作所 | 语料库制作装置及其方法 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及*** |
Non-Patent Citations (2)
Title |
---|
RCV1: A New Benchmark Collection for Text Categorization Research;David D. Lewis等;《Journal of Machine Learning Research》;20040531;全文 * |
文本分类语料库自动构建***的研究与改进;李亚洲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110915;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202380A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202380B (zh) | 一种分类语料库的构建方法、***及具有该***的服务器 | |
CN110298033B (zh) | 关键词语料标注训练提取*** | |
KR101312770B1 (ko) | 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템 | |
US9875319B2 (en) | Automated data parsing | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、***、装置和存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN103577534B (zh) | 搜索方法和搜索引擎 | |
CN111460149B (zh) | 文本分类方法、相关设备及可读存储介质 | |
KR102371437B1 (ko) | 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
US20220180317A1 (en) | Linguistic analysis of seed documents and peer groups | |
CN105653547B (zh) | 一种提取文本关键词的方法和装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN109344408A (zh) | 一种译文检测方法、装置及电子设备 | |
CN105164672A (zh) | 内容分类 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和*** | |
CN104699819A (zh) | 一种义原的分类方法及装置 | |
Coban | IRText: An item response theory-based approach for text categorization | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN116882414A (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN112685544A (zh) | 电信信息的查询方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191224 |