CN103309857A

CN103309857A - 一种分类语料确定方法和设备

Info

Publication number: CN103309857A
Application number: CN2012100566693A
Authority: CN
Inventors: 贺翔; 亓超; 毛少林; 翟俊杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-03-06
Filing date: 2012-03-06
Publication date: 2013-09-18
Anticipated expiration: 2032-03-06
Also published as: CN103309857B

Abstract

本发明公开了一种分类语料确定方法和设备，该方法包括：从数据库中获取预设数量的输入样本，组成输入样本集；其中，所述输入样本包含词条的词条名、分类信息以及相关词条信息；根据预设的种子词从所述输入样本集中获取特征样本，组成特征样本集；根据所述特征样本集确定分类特征词；根据所述分类特征词以及待选文本确定分类语料及其类别。在本发明中，提高了分类语料获取的效率和准确率。

Description

一种分类语料确定方法和设备

技术领域

本发明涉及互联网技术应用领域，尤其涉及一种分类语料确定方法和设备。

背景技术

文本自动分类是指用计算机程序对文本集（或其他数据）按照一定的分类体系或标准进行自动分类标记。

为了使计算机程序能对文本集进行自动分类标记，需要使用大量分类语料对其进行训练；其中，该分类语料是指大量具有类别标注信息的文本集合，上述计算机程序（如分类器）通过语料学习（训练）标注规则。

现有技术中，获取分类语料的途径主要包括以下两种方式：

（1）人工标注，即人工对大量的文本进行分类标注；

（2）定向抓取，即通过自动爬虫等方式从互联网上已经分好类的数据中抓取；如，当需要影视类分类语料时，可以在互联网上的影视类网站数据库中抓取。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺陷：

人工标注的方式需要花费大量的人力和时间，效率较低；定向抓取则无法保证分类语料的准确率，即无法保证从影视类网站数据库中获取到的文本集均为影视类的语料。

发明内容

本发明提供一种分类语料的确认方法和设备，以提高分类语料获取的效率和准确率。

为了达到上述目的，本发明实施例提供一种分类语料确定方法，包括：

从数据库中获取预设数量的输入样本，组成输入样本集；其中，所述输入样本包含词条的词条名、分类信息以及相关词条信息；

根据预设的种子词从所述输入样本集中获取特征样本，组成特征样本集；

根据所述特征样本集确定分类特征词；

根据所述分类特征词以及待选文本确定分类语料及其类别。

本发明实施例还提供一种分类语料确定设备，包括：

第一获取模块，用于从数据库中获取预设数量的输入样本，组成输入样本集；其中，所述输入样本包含词条的词条名、分类信息以及相关词条信息；

第二获取模块，用于根据预设的种子词从所述输入样本集中获取特征样本，组成特征样本集；

第一确定模块，用于根据所述特征样本集确定分类特征词；

第二确定模块，用于根据所述分类特征词以及待选文本确定分类语料及其类别。

与现有技术相比，本发明实施例具有以下优点：

通过预先选取一定数量的已知类别的种子词，并从数据库中获取一定数量的输入样本组成输入样本集；根据预设的种子词从输入样本集中获取特征样本组成特征样本集，并根据获取到的特征样本集确定分类特征词；根据获取到的分类特征词以及待选文本确定分类语料及其类别，提高了分类语料获取的效率和准确率。

附图说明

图1为本发明实施例提供的一种分类语料确定方法的流程示意图；

图2为本发明实施例提供的技术方案中获取特征样本的流程示意图；

图3为本发明实施例提供的一种具体应用场景下的分类语料确定方法的流程示意图；

图4为本发明实施例提供的一种分类语料确定设备的结构示意图。

具体实施方式

针对上述现有技术中的缺陷，本发明实施例提供了一种分类语料确定的技术方案。在该技术方案中，通过预先选取一定数量的已知类别的种子词，并从数据库中获取一定数量的输入样本组成输入样本集；根据预设的种子词从输入样本集中获取特征样本组成特征样本集，并根据获取到的特征样本集确定分类特征词；根据获取到的分类特征词以及待选文本确定分类语料及其类别，提高了分类语料获取的效率和准确率。

其中，在本发明实施例提供的技术方案中，获取输入样本集的数据库可以为百度百科、***、WordNet等。从数据库中获取到的输入样本集可以包含词条的词条名、分类信息以及相关词条信息，其格式可以如表1所示：

表1

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的实施例保护的范围。

如图1所示，为本发明实施例提供的一种分类语料确定方法的流程示意图，可以包括以下步骤：

步骤101、从数据库中获取预设数量的输入样本，组成输入样本集。

具体的，以从百度百科中挖掘分类语料为例。在本发明实施例提供的技术方案中，可以从百度百科中获取预设数量（如1000）的输入样本，其格式可以如表1所示。

步骤102、根据预设的种子词从输入样本集中获取特征样本，组成特征样本集。

具体的，在本发明实施例提供的技术方案中，当需要获取分类语料时，可以预先选取一定数量的种子词。例如，当需要获取体育类分类语料时，可以预先选取10个体育类的种子词，如体育、足球、运动员、田径、世界杯、***等。获取输入样本并选好种子词以后，可以根据种子词从输入样本集中获取特征样本，组成特征样本集。

其中，在本发明实施例提供的技术方案中，获取特征样本的流程可以如图2所示，可以包括以下步骤：

步骤102A、从输入样本集中获取包含当前种子词的特征样本。

例如，预先选取的种子词为足球、篮球、运动员，则根据该种子词从输入样本集中获取包含当前种子词的特征样本。其中，包含该种子词的特征样本可以是词条为足球、篮球或运动员，也可以是相关词条中包含相应种子词。

步骤102B、判断特征样本的数量是否超过第一阈值，若判断为是，则结束该流程；否则，转至步骤102C。

其中，特征样本数量阈值可以根据实际需求确定，如10000。

步骤102C、获取特征样本中的词条和相关词条，并将获取到的词条和相关词条加入种子词，更新当前种子词；转至步骤102A。

具体的，当获取到的特征样本数量低于预设阈值时，可以将获取到的特征样本中的词条和相关词条均加入到种子词中，并根据更新后的种子词从输入样本集中获取更多的特征样本。

通过以上流程即可获取到足够数量的特征样本。

步骤103、根据获取到的特征样本集确定分类特征词。

具体的，在本发明实施例中，获取到特征样本后，可以进一步确定各特征样本中包含的词条的权值，并根据各词条的权值确定分类特征词。

以词条的权值为该词条的区分度为例，在本发明实施例中，将输入样本集作为全集，并根据特征样本集进一步确定两个集合：

集合1：包含特征样本集中的所有词条；

集合2：包含特征样本集中的所有相关词条。

对集合2中的某个词W，定义其区分度为：

Q_w=W在集合2中出现的次数/W在全集中出现的次数

对于集合1中的某个词x，定义其区分度为其所有相关词条区分度的均值:

其中，n为词条为x的特征样本中相关词条的数目，为第i个相关词条的区分度。

确定特征样本集中各词条的区分度后，可以将区分度超过阈值（如K）的词条确定为分类特征词。

步骤104、根据分类特征词以及待选文本确定分类语料及其类别。

具体的，确定分类特征词后，可以任选一待选文本，并对该待选文本进行切词，获取该待选文本中包含的分类特征词，并根据获取到的分类特征词确定待选文本的权值；当待选文本的权值超过阈值时，确定该待选文本为分类语料，并将相应的种子词所属的类别作为该分类语料的类别。

其中，根据分类特征词以及获取到的特征词确定待选文本的权值，可以具体通过以下公式实现：

Figure 2012100566693100002DEST_PATH_IMAGE003

其中，tf为所述待选文本中出现的分类特征词在该待选文本中的词频；所述i为分类特征词的个数；所述Q_i为第i个分类特征词的权值；所述N为所述待选文本的字数。

为了进一步提高获取到的分类语料的准确率，在本发明实施例提供的技术方案中，在确定了分类语料后，还可以将所确定的分类语料分为多份；根据各份分类语料进行语料交叉验证，并确定最终的分类语料及其类别。

其中，根据所述各份分类语料进行语料交叉验证，可以具体通过以下流程实现：

步骤A₁、从各份分类语料中选择一份未被选择的分类语料作为测试数据；

步骤B₁、分别使用其余各份分类语料对所述测试数据的类别进行验证；

步骤C₁、统计验证正确的次数，并当其超过第五阈值时，确定测试数据为最终的分类语料；

步骤D₁、判断是否还存在未被选择的分类语料；若判断为是，则转至步骤A₁；否则，结束该流程。

例如，可以将确定的分类语料分为10份，轮流将其中9份作为训练数据，1份作为测试数据，对测试数据的类别进行验证，即每份测试数据进行了9次分类测试；将测试数据中，分类验证正确的次数超过阈值的确定为最终的分类语料。

需要注意的是，上述流程中提供的确定区分度的方法仅仅是本发明实施例提供的技术方案中确定词条权值的一种具体实施方式，而本发明实施例提供的技术方案中，确定词条权值的方式并不限于这一种具体实施方式。例如，在本发明实施例提供的技术方案中，还可以根据各词条的预设参数对词条进行赋权或使用链接分析中常见的hit算法来对特征词进行赋权，并当词条的权值超过阈值时，确定该词条为分类特征词。其中，该预设参数至少包括以下之一或任意组合：词条的点击量、好评数以及编辑次数。

下面结合具体的附图和具体的应用场景对本发明实施例提供的技术方案进行更加详细的描述。

如图3所示为本发明实施例提供的一种具体应用场景下的分类语料确定方法的流程示意图，在该实施例中，需要获取5000个体育类的分类语料；预选的种子词包括：体育、足球、运动员、田径、世界杯、***；语料挖掘数据库为百度百科；该方法可以包括：

步骤301、从百度百科中获取10000个输入样本组成输入样本集。

其中，输入样本集的格式可以如表1所示。

步骤302、根据预设的种子词从输入样本集中获取1000个特征样本，组成特征样本集。

其中，该特征样本可以如表2所示：

表2

Figure 2012100566693100002DEST_PATH_IMAGE004

当根据体育、足球、运动员、田径、世界杯、***等种子词获取到的特征样本数不足1000时，可以根据特征样本中包含的相关词条获取更多的特征样本。

步骤303、根据特征样本集确定分类特征词。

具体的，在该实施例中，可以通过确定区分度的方式，确定特征样本中各词条的权值，并将权值大于0.05的词条作为分类特征词。

以表2所示的特征样本为例。假设篮球的区分度为0.08，台球的区分度为0.03，世界杯的区分度为0.07，则足球的区分度为0.06，即足球属于分类特征词。

步骤304、根据分类特征词以及待选文本确定分类语料。

具体的，可以从互联网中获取50000个待选文本，并对各待选文本分别进行切词及权值计算，并确定权值超过一定阈值的待选文本为分类语料，在该步骤中，获取5000个分类语料。

步骤305、对确定的5000个分类语料进行语料交叉验证，并确定1000个最终的分类语料。

具体的，在该步骤中，可以将步骤304中确定的5000个分类语料均分为5份，并依次选择其中一份为测试数据，分别用剩余的4份对该测试数据进行类别验证，并选取验证成功率从高到低排序前1000位的分类语料为最终的分类语料。其中，验证成功率相同的分类语料之间随机排序。

通过以上描述可以看出，在本发明实施例提供的技术方案中，通过预先选取一定数量的已知类别的种子词，并从数据库中获取一定数量的输入样本组成输入样本集；根据预设的种子词从输入样本集中获取特征样本组成特征样本集，并根据获取到的特征样本集确定分类特征词；根据获取到的分类特征词以及待选文本确定分类语料及其类别，提高了分类语料获取的效率和准确率。

基于上述分类语料确定方法相同的发明构思，本发明实施例还提供了一种分类语料确定设备，可以应用于上述方法流程中。

如图4所示，为本发明实施例提供的分类语料确定设备的结构示意图，可以包括：

第一获取模块41，用于从数据库中获取预设数量的输入样本，组成输入样本集；其中，所述输入样本包含词条的词条名、分类信息以及相关词条信息；

第二获取模块42，用于根据预设的种子词从所述输入样本集中获取特征样本，组成特征样本集；

第一确定模块43，用于根据所述特征样本集确定分类特征词；

第二确定模块44，用于根据所述分类特征词以及待选文本确定分类语料及其类别。

其中，所述第二获取模块42根据预设的种子词从所述输入样本集中获取特征样本，具体通过以下流程实现：

步骤A、从所述输入样本集中获取包含当前种子词的特征样本；

步骤B、判断特征样本的数量是否超过第一阈值；若判断为是，则结束该流程；否则，转至步骤C；

步骤C、获取所述特征样本中的词条和相关词条，并将所述获取到的词条和相关词条加入种子词，更新当前种子词；转至步骤A。

其中，所述第一确定模块43具体用于，获取该特征样本集中的词条；确定该词条中各词条的权值；根据所述各词条的权值确定分类特征词。

其中，所述词条的权值为所述词条的区分度；

所述第一确定模块43具体用于，获取所述特征样本集中的相关词条；确定该相关词条中各相关词条的区分度；根据所述相关词条的区分度确定该词条中各词条的区分度；根据所述词条的区分度确定分类特征词。

其中，所述该相关词条中各相关词条的区分度具体为，所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值；所述该词条中各词条的区分度，具体为该词条所在特征样本中包含的相关词条的区分度的均值；

所述第一确定模块43具体用于，当所述词条的区分度超过第二阈值时，确定该词条为分类特征词。

其中，所述第一确定模块43具体用于，根据预设参数确定各词条的权值，当所述词条的权值超过第三阈值时，确定该词条为分类特征词；或，根据hit算法确定各词条的权值，当所述词条的权值超过第三阈值时，确定该词条为分类特征词；

其中，所述预设参数包括以下之一或任意组合：

词条的点击量、好评数以及编辑次数。

其中，所述第二确定模块44具体用于，对所述待选文本进行切词，并获取该待选文本中包含的分类特征词；根据获取到的分类特征词确定所述待选文本的权值；当所述待选文本的权值超过第四阈值时，确定所述待选文本为分类语料，并将所述预设的种子词所属的类别作为所述分类语料的类别。

其中，所述第二确定模块44根据所述分类特征词以及获取到的特征词确定所述待选文本的权值，具体通过以下公式实现：

其中，所述第二确定模块44还用于，将所述确定的分类语料分为多份；根据所述各份分类语料进行语料交叉验证，并确定最终的分类语料及其类别。

其中，步骤A₁、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据；

步骤C₁、统计验证正确的次数，并当其超过第五阈值时，确定所述测试数据为最终的分类语料；

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种分类语料确定方法，其特征在于，包括：

根据所述特征样本集确定分类特征词；

根据所述分类特征词以及待选文本确定分类语料及其类别。

2.如权利要求1所述的方法，其特征在于，所述根据预设的种子词从所述输入样本集中获取特征样本，具体通过以下流程实现：

3.如权利要求1所述的方法，其特征在于，所述根据所述特征样本集确定分类特征词，具体为：

获取该特征样本集中的词条；

确定该词条中各词条的权值；

根据所述各词条的权值确定分类特征词。

4.如权利要求3所述的方法，其特征在于，所述词条的权值为所述词条的区分度；

所述确定该词条中各词条的权值，具体为：

获取所述特征样本集中的相关词条；

确定该相关词条中各相关词条的区分度；

根据所述相关词条的区分度确定该词条中各词条的区分度；

所述根据所述各词条的权值确定分类特征词，具体为：

根据所述各词条的区分度确定分类特征词。

5.如权利要求4所述的方法，其特征在于，

所述该相关词条中各相关词条的区分度，具体为：

所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值；

所述该词条中各词条的区分度，具体为：

该词条所在特征样本中包含的相关词条的区分度的均值；

所述根据所述各词条的区分度确定分类特征词，具体为：

当所述词条的区分度超过第二阈值时，确定该词条为分类特征词。

6.如权利要求3所述的方法，其特征在于，所述确定该词条中各词条的权值，具体为：

根据预设参数确定各词条的权值；或，

根据hit算法确定各词条的权值；

其中，所述预设参数包括以下之一或任意组合：

词条的点击量、好评数以及编辑次数；

所述根据所述各词条的权值确定分类特征词，具体为：

当所述词条的权值超过第三阈值时，确定该词条为分类特征词。

7.如权利要求3所述的方法，其特征在于，所述根据所述分类特征词以及待选文本确定分类语料及其类别，具体为：

对所述待选文本进行切词，并获取该待选文本中包含的分类特征词；

根据获取到的分类特征词确定所述待选文本的权值；

当所述待选文本的权值超过第四阈值时，确定所述待选文本为分类语料，并将所述预设的种子词所属的类别作为所述分类语料的类别。

8.如权利要求7所述的方法，其特征在于，所述根据所述分类特征词以及获取到的特征词确定所述待选文本的权值，具体通过以下公式实现：

其中，tf为所述待选文本中出现的分类特征词在该待选文本中的词频；所述i为分类特征词的个数；所述Qi为第i个分类特征词的权值；所述N为所述待选文本的字数。

9.如权利要求7所述的方法，其特征在于，该方法还包括：

将所述确定的分类语料分为多份；

根据所述各份分类语料进行语料交叉验证，并确定最终的分类语料及其类别。

10.如权利要求9所述的方法，其特征在于，所述根据所述各份分类语料进行语料交叉验证，具体通过以下流程实现：

步骤A1、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据；

步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证；

步骤C1、统计验证正确的次数，并当其超过第五阈值时，确定所述测试数据为最终的分类语料；

步骤D1、判断是否还存在未被选择的分类语料；若判断为是，则转至步骤A1；否则，结束该流程。

11.一种分类语料确定设备，其特征在于，包括：

第一确定模块，用于根据所述特征样本集确定分类特征词；

12.如权利要求11所述的分类语料确定设备，其特征在于，所述第二获取模块根据预设的种子词从所述输入样本集中获取特征样本，具体通过以下流程实现：

13.如权利要求11所述的分类语料确定设备，其特征在于，所述第一确定模块具体用于，获取该特征样本集中的词条；确定该词条中各词条的权值；根据所述各词条的权值确定分类特征词。

14.如权利要求13所述的分类语料确定设备，其特征在于，所述词条的权值为所述词条的区分度；

所述第一确定模块具体用于，获取所述特征样本集中的相关词条；确定该相关词条中各相关词条的区分度；根据所述相关词条的区分度确定该词条中各词条的区分度；根据所述词条的区分度确定分类特征词。

15.如权利要求14所述的方法，其特征在于，所述该相关词条中各相关词条的区分度具体为，所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值；所述该词条中各词条的区分度，具体为该词条所在特征样本中包含的相关词条的区分度的均值；

所述第一确定模块具体用于，当所述词条的区分度超过第二阈值时，确定该词条为分类特征词。

16.如权利要求13所述的分类语料确定设备，其特征在于，所述第一确定模块具体用于，根据预设参数确定各词条的权值，当所述词条的权值超过第三阈值时，确定该词条为分类特征词；或，根据hit算法确定各词条的权值，当所述词条的权值超过第三阈值时，确定该词条为分类特征词；

其中，所述预设参数包括以下之一或任意组合：

词条的点击量、好评数以及编辑次数。

17.如权利要求13所述分类语料确定设备，其特征在于，所述第二确定模块具体用于，对所述待选文本进行切词，并获取该待选文本中包含的分类特征词；根据获取到的分类特征词确定所述待选文本的权值；当所述待选文本的权值超过第四阈值时，确定所述待选文本为分类语料，并将所述预设的种子词所属的类别作为所述分类语料的类别。

18.如权利要求17所述的分类语料确定设备，其特征在于，所述第二确定模块根据所述分类特征词以及获取到的特征词确定所述待选文本的权值，具体通过以下公式实现：

Figure 2012100566693100001DEST_PATH_IMAGE002

19.如权利要求17所述的分类语料确定设备，其特征在于，所述第二确定模块还用于，将所述确定的分类语料分为多份；根据所述各份分类语料进行语料交叉验证，并确定最终的分类语料及其类别。

20.如权利要求19所述的分类语料确定设备，其特征在于，所述第二确定模块根据所述各份分类语料进行语料交叉验证，具体通过以下流程实现：