CN103309857A - 一种分类语料确定方法和设备 - Google Patents

一种分类语料确定方法和设备 Download PDF

Info

Publication number
CN103309857A
CN103309857A CN2012100566693A CN201210056669A CN103309857A CN 103309857 A CN103309857 A CN 103309857A CN 2012100566693 A CN2012100566693 A CN 2012100566693A CN 201210056669 A CN201210056669 A CN 201210056669A CN 103309857 A CN103309857 A CN 103309857A
Authority
CN
China
Prior art keywords
entry
characteristic
language material
word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100566693A
Other languages
English (en)
Other versions
CN103309857B (zh
Inventor
贺翔
亓超
毛少林
翟俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210056669.3A priority Critical patent/CN103309857B/zh
Publication of CN103309857A publication Critical patent/CN103309857A/zh
Application granted granted Critical
Publication of CN103309857B publication Critical patent/CN103309857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分类语料确定方法和设备,该方法包括:从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;根据所述特征样本集确定分类特征词;根据所述分类特征词以及待选文本确定分类语料及其类别。在本发明中,提高了分类语料获取的效率和准确率。

Description

一种分类语料确定方法和设备
技术领域
本发明涉及互联网技术应用领域,尤其涉及一种分类语料确定方法和设备。
背景技术
文本自动分类是指用计算机程序对文本集(或其他数据)按照一定的分类体系或标准进行自动分类标记。
为了使计算机程序能对文本集进行自动分类标记,需要使用大量分类语料对其进行训练;其中,该分类语料是指大量具有类别标注信息的文本集合,上述计算机程序(如分类器)通过语料学习(训练)标注规则。
现有技术中,获取分类语料的途径主要包括以下两种方式:
(1)人工标注,即人工对大量的文本进行分类标注;
(2)定向抓取,即通过自动爬虫等方式从互联网上已经分好类的数据中抓取;如,当需要影视类分类语料时,可以在互联网上的影视类网站数据库中抓取。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺陷:
人工标注的方式需要花费大量的人力和时间,效率较低;定向抓取则无法保证分类语料的准确率,即无法保证从影视类网站数据库中获取到的文本集均为影视类的语料。 
发明内容                                              
本发明提供一种分类语料的确认方法和设备,以提高分类语料获取的效率和准确率。
为了达到上述目的,本发明实施例提供一种分类语料确定方法,包括:
从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;
根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;
根据所述特征样本集确定分类特征词;
根据所述分类特征词以及待选文本确定分类语料及其类别。
本发明实施例还提供一种分类语料确定设备,包括:
第一获取模块,用于从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;
第二获取模块,用于根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;
第一确定模块,用于根据所述特征样本集确定分类特征词;
第二确定模块,用于根据所述分类特征词以及待选文本确定分类语料及其类别。
与现有技术相比,本发明实施例具有以下优点:
通过预先选取一定数量的已知类别的种子词,并从数据库中获取一定数量的输入样本组成输入样本集;根据预设的种子词从输入样本集中获取特征样本组成特征样本集,并根据获取到的特征样本集确定分类特征词;根据获取到的分类特征词以及待选文本确定分类语料及其类别,提高了分类语料获取的效率和准确率。
附图说明
图1为本发明实施例提供的一种分类语料确定方法的流程示意图;
图2为本发明实施例提供的技术方案中获取特征样本的流程示意图;
图3为本发明实施例提供的一种具体应用场景下的分类语料确定方法的流程示意图;
图4为本发明实施例提供的一种分类语料确定设备的结构示意图。
具体实施方式
针对上述现有技术中的缺陷,本发明实施例提供了一种分类语料确定的技术方案。在该技术方案中,通过预先选取一定数量的已知类别的种子词,并从数据库中获取一定数量的输入样本组成输入样本集;根据预设的种子词从输入样本集中获取特征样本组成特征样本集,并根据获取到的特征样本集确定分类特征词;根据获取到的分类特征词以及待选文本确定分类语料及其类别,提高了分类语料获取的效率和准确率。
其中,在本发明实施例提供的技术方案中,获取输入样本集的数据库可以为百度百科、***、WordNet等。从数据库中获取到的输入样本集可以包含词条的词条名、分类信息以及相关词条信息,其格式可以如表1所示:
表1
下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的实施例保护的范围。
如图1所示,为本发明实施例提供的一种分类语料确定方法的流程示意图,可以包括以下步骤:
步骤101、从数据库中获取预设数量的输入样本,组成输入样本集。
具体的,以从百度百科中挖掘分类语料为例。在本发明实施例提供的技术方案中,可以从百度百科中获取预设数量(如1000)的输入样本,其格式可以如表1所示。
步骤102、根据预设的种子词从输入样本集中获取特征样本,组成特征样本集。
具体的,在本发明实施例提供的技术方案中,当需要获取分类语料时,可以预先选取一定数量的种子词。例如,当需要获取体育类分类语料时,可以预先选取10个体育类的种子词,如体育、足球、运动员、田径、世界杯、***等。获取输入样本并选好种子词以后,可以根据种子词从输入样本集中获取特征样本,组成特征样本集。
其中,在本发明实施例提供的技术方案中,获取特征样本的流程可以如图2所示,可以包括以下步骤:
步骤102A、从输入样本集中获取包含当前种子词的特征样本。
例如,预先选取的种子词为足球、篮球、运动员,则根据该种子词从输入样本集中获取包含当前种子词的特征样本。其中,包含该种子词的特征样本可以是词条为足球、篮球或运动员,也可以是相关词条中包含相应种子词。
步骤102B、判断特征样本的数量是否超过第一阈值,若判断为是,则结束该流程;否则,转至步骤102C。
其中,特征样本数量阈值可以根据实际需求确定,如10000。
步骤102C、获取特征样本中的词条和相关词条,并将获取到的词条和相关词条加入种子词,更新当前种子词;转至步骤102A。
具体的,当获取到的特征样本数量低于预设阈值时,可以将获取到的特征样本中的词条和相关词条均加入到种子词中,并根据更新后的种子词从输入样本集中获取更多的特征样本。
通过以上流程即可获取到足够数量的特征样本。
步骤103、根据获取到的特征样本集确定分类特征词。
具体的,在本发明实施例中,获取到特征样本后,可以进一步确定各特征样本中包含的词条的权值,并根据各词条的权值确定分类特征词。
以词条的权值为该词条的区分度为例,在本发明实施例中,将输入样本集作为全集,并根据特征样本集进一步确定两个集合:
集合1:包含特征样本集中的所有词条;
集合2:包含特征样本集中的所有相关词条。
对集合2中的某个词W,定义其区分度为:
Qw=W在集合2中出现的次数/W在全集中出现的次数
对于集合1中的某个词x,定义其区分度为其所有相关词条区分度的均值:
 
其中,n为词条为x的特征样本中相关词条的数目,为第i个相关词条的区分度。
确定特征样本集中各词条的区分度后,可以将区分度超过阈值(如K)的词条确定为分类特征词。
步骤104、根据分类特征词以及待选文本确定分类语料及其类别。
具体的,确定分类特征词后,可以任选一待选文本,并对该待选文本进行切词,获取该待选文本中包含的分类特征词,并根据获取到的分类特征词确定待选文本的权值;当待选文本的权值超过阈值时,确定该待选文本为分类语料,并将相应的种子词所属的类别作为该分类语料的类别。
其中,根据分类特征词以及获取到的特征词确定待选文本的权值,可以具体通过以下公式实现:
Figure 2012100566693100002DEST_PATH_IMAGE003
其中,tf为所述待选文本中出现的分类特征词在该待选文本中的词频;所述i为分类特征词的个数;所述Qi为第i个分类特征词的权值;所述N为所述待选文本的字数。
为了进一步提高获取到的分类语料的准确率,在本发明实施例提供的技术方案中,在确定了分类语料后,还可以将所确定的分类语料分为多份;根据各份分类语料进行语料交叉验证,并确定最终的分类语料及其类别。
其中,根据所述各份分类语料进行语料交叉验证,可以具体通过以下流程实现:
步骤A1、从各份分类语料中选择一份未被选择的分类语料作为测试数据;
步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证;
步骤C1、统计验证正确的次数,并当其超过第五阈值时,确定测试数据为最终的分类语料;
步骤D1、判断是否还存在未被选择的分类语料;若判断为是,则转至步骤A1;否则,结束该流程。
例如,可以将确定的分类语料分为10份,轮流将其中9份作为训练数据,1份作为测试数据,对测试数据的类别进行验证,即每份测试数据进行了9次分类测试;将测试数据中,分类验证正确的次数超过阈值的确定为最终的分类语料。
需要注意的是,上述流程中提供的确定区分度的方法仅仅是本发明实施例提供的技术方案中确定词条权值的一种具体实施方式,而本发明实施例提供的技术方案中,确定词条权值的方式并不限于这一种具体实施方式。例如,在本发明实施例提供的技术方案中,还可以根据各词条的预设参数对词条进行赋权或使用链接分析中常见的hit算法来对特征词进行赋权,并当词条的权值超过阈值时,确定该词条为分类特征词。其中,该预设参数至少包括以下之一或任意组合:词条的点击量、好评数以及编辑次数。
下面结合具体的附图和具体的应用场景对本发明实施例提供的技术方案进行更加详细的描述。
如图3所示为本发明实施例提供的一种具体应用场景下的分类语料确定方法的流程示意图,在该实施例中,需要获取5000个体育类的分类语料;预选的种子词包括:体育、足球、运动员、田径、世界杯、***;语料挖掘数据库为百度百科;该方法可以包括:
步骤301、从百度百科中获取10000个输入样本组成输入样本集。
其中,输入样本集的格式可以如表1所示。
步骤302、根据预设的种子词从输入样本集中获取1000个特征样本,组成特征样本集。
其中,该特征样本可以如表2所示:
表2
Figure 2012100566693100002DEST_PATH_IMAGE004
当根据体育、足球、运动员、田径、世界杯、***等种子词获取到的特征样本数不足1000时,可以根据特征样本中包含的相关词条获取更多的特征样本。
步骤303、根据特征样本集确定分类特征词。
具体的,在该实施例中,可以通过确定区分度的方式,确定特征样本中各词条的权值,并将权值大于0.05的词条作为分类特征词。
以表2所示的特征样本为例。假设篮球的区分度为0.08,台球的区分度为0.03,世界杯的区分度为0.07,则足球的区分度为0.06,即足球属于分类特征词。
步骤304、根据分类特征词以及待选文本确定分类语料。
具体的,可以从互联网中获取50000个待选文本,并对各待选文本分别进行切词及权值计算,并确定权值超过一定阈值的待选文本为分类语料,在该步骤中,获取5000个分类语料。
步骤305、对确定的5000个分类语料进行语料交叉验证,并确定1000个最终的分类语料。
具体的,在该步骤中,可以将步骤304中确定的5000个分类语料均分为5份,并依次选择其中一份为测试数据,分别用剩余的4份对该测试数据进行类别验证,并选取验证成功率从高到低排序前1000位的分类语料为最终的分类语料。其中,验证成功率相同的分类语料之间随机排序。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过预先选取一定数量的已知类别的种子词,并从数据库中获取一定数量的输入样本组成输入样本集;根据预设的种子词从输入样本集中获取特征样本组成特征样本集,并根据获取到的特征样本集确定分类特征词;根据获取到的分类特征词以及待选文本确定分类语料及其类别,提高了分类语料获取的效率和准确率。
基于上述分类语料确定方法相同的发明构思,本发明实施例还提供了一种分类语料确定设备,可以应用于上述方法流程中。
如图4所示,为本发明实施例提供的分类语料确定设备的结构示意图,可以包括:
第一获取模块41,用于从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;
第二获取模块42,用于根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;
第一确定模块43,用于根据所述特征样本集确定分类特征词;
第二确定模块44,用于根据所述分类特征词以及待选文本确定分类语料及其类别。
其中,所述第二获取模块42根据预设的种子词从所述输入样本集中获取特征样本,具体通过以下流程实现:
步骤A、从所述输入样本集中获取包含当前种子词的特征样本;
步骤B、判断特征样本的数量是否超过第一阈值;若判断为是,则结束该流程;否则,转至步骤C;
步骤C、获取所述特征样本中的词条和相关词条,并将所述获取到的词条和相关词条加入种子词,更新当前种子词;转至步骤A。
其中,所述第一确定模块43具体用于,获取该特征样本集中的词条;确定该词条中各词条的权值;根据所述各词条的权值确定分类特征词。
其中,所述词条的权值为所述词条的区分度;
所述第一确定模块43具体用于,获取所述特征样本集中的相关词条;确定该相关词条中各相关词条的区分度;根据所述相关词条的区分度确定该词条中各词条的区分度;根据所述词条的区分度确定分类特征词。
其中,所述该相关词条中各相关词条的区分度具体为,所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值;所述该词条中各词条的区分度,具体为该词条所在特征样本中包含的相关词条的区分度的均值;
所述第一确定模块43具体用于,当所述词条的区分度超过第二阈值时,确定该词条为分类特征词。
其中,所述第一确定模块43具体用于,根据预设参数确定各词条的权值,当所述词条的权值超过第三阈值时,确定该词条为分类特征词;或,根据hit算法确定各词条的权值,当所述词条的权值超过第三阈值时,确定该词条为分类特征词;
其中,所述预设参数包括以下之一或任意组合:
词条的点击量、好评数以及编辑次数。
其中,所述第二确定模块44具体用于,对所述待选文本进行切词,并获取该待选文本中包含的分类特征词;根据获取到的分类特征词确定所述待选文本的权值;当所述待选文本的权值超过第四阈值时,确定所述待选文本为分类语料,并将所述预设的种子词所属的类别作为所述分类语料的类别。
其中,所述第二确定模块44根据所述分类特征词以及获取到的特征词确定所述待选文本的权值,具体通过以下公式实现:
 
其中,tf为所述待选文本中出现的分类特征词在该待选文本中的词频;所述i为分类特征词的个数;所述Qi为第i个分类特征词的权值;所述N为所述待选文本的字数。
其中,所述第二确定模块44还用于,将所述确定的分类语料分为多份;根据所述各份分类语料进行语料交叉验证,并确定最终的分类语料及其类别。
其中,步骤A1、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据;
步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证;
步骤C1、统计验证正确的次数,并当其超过第五阈值时,确定所述测试数据为最终的分类语料;
步骤D1、判断是否还存在未被选择的分类语料;若判断为是,则转至步骤A1;否则,结束该流程。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (20)

1.一种分类语料确定方法,其特征在于,包括:
从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;
根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;
根据所述特征样本集确定分类特征词;
根据所述分类特征词以及待选文本确定分类语料及其类别。
2.如权利要求1所述的方法,其特征在于,所述根据预设的种子词从所述输入样本集中获取特征样本,具体通过以下流程实现:
步骤A、从所述输入样本集中获取包含当前种子词的特征样本;
步骤B、判断特征样本的数量是否超过第一阈值;若判断为是,则结束该流程;否则,转至步骤C;
步骤C、获取所述特征样本中的词条和相关词条,并将所述获取到的词条和相关词条加入种子词,更新当前种子词;转至步骤A。
3.如权利要求1所述的方法,其特征在于,所述根据所述特征样本集确定分类特征词,具体为:
获取该特征样本集中的词条;
确定该词条中各词条的权值;
根据所述各词条的权值确定分类特征词。
4.如权利要求3所述的方法,其特征在于,所述词条的权值为所述词条的区分度;
所述确定该词条中各词条的权值,具体为:
获取所述特征样本集中的相关词条;
确定该相关词条中各相关词条的区分度;
根据所述相关词条的区分度确定该词条中各词条的区分度;
所述根据所述各词条的权值确定分类特征词,具体为:
根据所述各词条的区分度确定分类特征词。
5.如权利要求4所述的方法,其特征在于,
所述该相关词条中各相关词条的区分度,具体为:
所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值;
所述该词条中各词条的区分度,具体为:
该词条所在特征样本中包含的相关词条的区分度的均值;
所述根据所述各词条的区分度确定分类特征词,具体为:
当所述词条的区分度超过第二阈值时,确定该词条为分类特征词。
6.如权利要求3所述的方法,其特征在于,所述确定该词条中各词条的权值,具体为:
根据预设参数确定各词条的权值;或,
根据hit算法确定各词条的权值;
其中,所述预设参数包括以下之一或任意组合:
词条的点击量、好评数以及编辑次数;
所述根据所述各词条的权值确定分类特征词,具体为:
当所述词条的权值超过第三阈值时,确定该词条为分类特征词。
7.如权利要求3所述的方法,其特征在于,所述根据所述分类特征词以及待选文本确定分类语料及其类别,具体为:
对所述待选文本进行切词,并获取该待选文本中包含的分类特征词;
根据获取到的分类特征词确定所述待选文本的权值;
当所述待选文本的权值超过第四阈值时,确定所述待选文本为分类语料,并将所述预设的种子词所属的类别作为所述分类语料的类别。
8.如权利要求7所述的方法,其特征在于,所述根据所述分类特征词以及获取到的特征词确定所述待选文本的权值,具体通过以下公式实现:
                                                                                  
其中,tf为所述待选文本中出现的分类特征词在该待选文本中的词频;所述i为分类特征词的个数;所述Qi为第i个分类特征词的权值;所述N为所述待选文本的字数。
9.如权利要求7所述的方法,其特征在于,该方法还包括:
将所述确定的分类语料分为多份;
根据所述各份分类语料进行语料交叉验证,并确定最终的分类语料及其类别。
10.如权利要求9所述的方法,其特征在于,所述根据所述各份分类语料进行语料交叉验证,具体通过以下流程实现:
步骤A1、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据;
步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证;
步骤C1、统计验证正确的次数,并当其超过第五阈值时,确定所述测试数据为最终的分类语料;
步骤D1、判断是否还存在未被选择的分类语料;若判断为是,则转至步骤A1;否则,结束该流程。
11.一种分类语料确定设备,其特征在于,包括:
第一获取模块,用于从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;
第二获取模块,用于根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;
第一确定模块,用于根据所述特征样本集确定分类特征词;
第二确定模块,用于根据所述分类特征词以及待选文本确定分类语料及其类别。
12.如权利要求11所述的分类语料确定设备,其特征在于,所述第二获取模块根据预设的种子词从所述输入样本集中获取特征样本,具体通过以下流程实现:
步骤A、从所述输入样本集中获取包含当前种子词的特征样本;
步骤B、判断特征样本的数量是否超过第一阈值;若判断为是,则结束该流程;否则,转至步骤C;
步骤C、获取所述特征样本中的词条和相关词条,并将所述获取到的词条和相关词条加入种子词,更新当前种子词;转至步骤A。
13.如权利要求11所述的分类语料确定设备,其特征在于,所述第一确定模块具体用于,获取该特征样本集中的词条;确定该词条中各词条的权值;根据所述各词条的权值确定分类特征词。
14.如权利要求13所述的分类语料确定设备,其特征在于,所述词条的权值为所述词条的区分度;
所述第一确定模块具体用于,获取所述特征样本集中的相关词条;确定该相关词条中各相关词条的区分度;根据所述相关词条的区分度确定该词条中各词条的区分度;根据所述词条的区分度确定分类特征词。
15.如权利要求14所述的方法,其特征在于,所述该相关词条中各相关词条的区分度具体为,所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值;所述该词条中各词条的区分度,具体为该词条所在特征样本中包含的相关词条的区分度的均值;
所述第一确定模块具体用于,当所述词条的区分度超过第二阈值时,确定该词条为分类特征词。
16.如权利要求13所述的分类语料确定设备,其特征在于,所述第一确定模块具体用于,根据预设参数确定各词条的权值,当所述词条的权值超过第三阈值时,确定该词条为分类特征词;或,根据hit算法确定各词条的权值,当所述词条的权值超过第三阈值时,确定该词条为分类特征词;
其中,所述预设参数包括以下之一或任意组合:
词条的点击量、好评数以及编辑次数。
17.如权利要求13所述分类语料确定设备,其特征在于,所述第二确定模块具体用于,对所述待选文本进行切词,并获取该待选文本中包含的分类特征词;根据获取到的分类特征词确定所述待选文本的权值;当所述待选文本的权值超过第四阈值时,确定所述待选文本为分类语料,并将所述预设的种子词所属的类别作为所述分类语料的类别。
18.如权利要求17所述的分类语料确定设备,其特征在于,所述第二确定模块根据所述分类特征词以及获取到的特征词确定所述待选文本的权值,具体通过以下公式实现:
                            
Figure 2012100566693100001DEST_PATH_IMAGE002
   
其中,tf为所述待选文本中出现的分类特征词在该待选文本中的词频;所述i为分类特征词的个数;所述Qi为第i个分类特征词的权值;所述N为所述待选文本的字数。
19.如权利要求17所述的分类语料确定设备,其特征在于,所述第二确定模块还用于,将所述确定的分类语料分为多份;根据所述各份分类语料进行语料交叉验证,并确定最终的分类语料及其类别。
20.如权利要求19所述的分类语料确定设备,其特征在于,所述第二确定模块根据所述各份分类语料进行语料交叉验证,具体通过以下流程实现:
步骤A1、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据;
步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证;
步骤C1、统计验证正确的次数,并当其超过第五阈值时,确定所述测试数据为最终的分类语料;
步骤D1、判断是否还存在未被选择的分类语料;若判断为是,则转至步骤A1;否则,结束该流程。
CN201210056669.3A 2012-03-06 2012-03-06 一种分类语料确定方法和设备 Active CN103309857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210056669.3A CN103309857B (zh) 2012-03-06 2012-03-06 一种分类语料确定方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210056669.3A CN103309857B (zh) 2012-03-06 2012-03-06 一种分类语料确定方法和设备

Publications (2)

Publication Number Publication Date
CN103309857A true CN103309857A (zh) 2013-09-18
CN103309857B CN103309857B (zh) 2018-11-09

Family

ID=49135096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210056669.3A Active CN103309857B (zh) 2012-03-06 2012-03-06 一种分类语料确定方法和设备

Country Status (1)

Country Link
CN (1) CN103309857B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN106503254A (zh) * 2016-11-11 2017-03-15 上海智臻智能网络科技股份有限公司 语料分类方法、装置及终端
CN106528615A (zh) * 2016-09-29 2017-03-22 北京金山安全软件有限公司 分类方法、装置及服务器
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN108304530A (zh) * 2018-01-26 2018-07-20 腾讯科技(深圳)有限公司 知识库词条分类方法和装置、模型训练方法和装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN109948142A (zh) * 2019-01-25 2019-06-28 北京海天瑞声科技股份有限公司 语料选取处理方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101976246A (zh) * 2010-09-30 2011-02-16 互动在线(北京)科技有限公司 百科词条分类检索方法
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102207961A (zh) * 2011-05-25 2011-10-05 盛乐信息技术(上海)有限公司 一种网页自动分类方法及装置
US20110258152A1 (en) * 2010-03-31 2011-10-20 Kindsight, Inc. Categorization automation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
US20110258152A1 (en) * 2010-03-31 2011-10-20 Kindsight, Inc. Categorization automation
CN101976246A (zh) * 2010-09-30 2011-02-16 互动在线(北京)科技有限公司 百科词条分类检索方法
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102207961A (zh) * 2011-05-25 2011-10-05 盛乐信息技术(上海)有限公司 一种网页自动分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘峰: ""通用中英文专业搜索引擎技术的研究及应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
吴韦: ""文本分类语料库自动创建***的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
苏小康: ""基于***构建语义知识库及其在文本分类领域的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN106528615A (zh) * 2016-09-29 2017-03-22 北京金山安全软件有限公司 分类方法、装置及服务器
CN106528615B (zh) * 2016-09-29 2019-08-06 北京金山安全软件有限公司 分类方法、装置及服务器
CN106503254A (zh) * 2016-11-11 2017-03-15 上海智臻智能网络科技股份有限公司 语料分类方法、装置及终端
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN108304530A (zh) * 2018-01-26 2018-07-20 腾讯科技(深圳)有限公司 知识库词条分类方法和装置、模型训练方法和装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN109948142A (zh) * 2019-01-25 2019-06-28 北京海天瑞声科技股份有限公司 语料选取处理方法、装置、设备及计算机可读存储介质
CN109948142B (zh) * 2019-01-25 2020-01-14 北京海天瑞声科技股份有限公司 语料选取处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103309857B (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN103309857A (zh) 一种分类语料确定方法和设备
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN1701324B (zh) 用于分类文档的***,方法和软件
CN101937436B (zh) 一种文本分类方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103208039B (zh) 软件项目风险评价方法及装置
CN106570109B (zh) 一种通过文本分析自动生成题库知识点的方法
CN104516986A (zh) 一种语句识别方法及装置
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN103324758B (zh) 一种新闻分类方法和***
CN102426572A (zh) 一种对业务词条进行分类的方法和设备
CN106445908A (zh) 文本识别方法和装置
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN106326498A (zh) 一种作弊视频识别方法及装置
CN108717459A (zh) 一种面向用户评论信息的移动应用缺陷定位方法
CN113918806A (zh) 自动推荐培训课程的方法及相关设备
CN109871770A (zh) 房产证识别方法、装置、设备及存储介质
CN112445897A (zh) 文本类数据大规模分类标注方法、***、装置及存储介质
CN101788987A (zh) 一种网络资源类别的自动判定方法
CN108960884A (zh) 信息处理方法、模型构建方法及装置、介质和计算设备
CN105787004A (zh) 一种文本分类方法及装置
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131017

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131017

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant