CN110110080A

CN110110080A - 文本分类模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN110110080A
Application number: CN201910247846.8A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-08-09
Also published as: WO2020199591A1

Abstract

本发明公开了一种文本分类模型训练方法、装置、计算机设备及存储介质，所述方法包括：从预设样本库中获取具有类别标记的第一样本数据和不具有类别标记的第二样本数据；根据第一样本数据建立初级分类模型；同时，计算第二样本数据的信息熵值和相关度值；根据预设的类别标注方式，对信息熵值和相关度值满足预设条件的第二样本数据进行类别标注，得到第三样本数据；使用第三样本数据对初级分类模型进行训练，得到中级分类模型；使用第一样本数据和第三样本数据对中级分类模型进行训练，得到文本分类模型。本发明的技术方案解决了文本分类模型训练过程中，训练样本规模庞大，训练时间长的问题。

Description

文本分类模型训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及信息处理领域，尤其涉及文本分类模型训练方法、装置、计算机设备及存储介质。

背景技术

文本分类是自然语言处理研究领域中的一个重要应用方向。文本分类是指利用分类器对包含文本的数据文档进行分类，从而确定每个文档所属的类别，使得用户能够方便的获取需要的文档。

其中，分类器又称为分类模型，是通过使用大量的带有类别标记的样本数据，对分类准则或模型参数进行训练而得到的。利用训练得到的分类器对未知类别的文本数据进行识别，从而实现对大规模文本数据的自动分类。因此，分类模型的优劣直接影响到分类的最终效果。

然而，在现实的大型文本分类问题中，有类别标记的样本数据非常有限，大部分样本是没有类别标记的。这使得在分类模型的构建过程中，不得不采用由领域内的专家来进行人工标注的方式。这种方式需要耗费大量的人力、财力和时间，并且训练样本的规模庞大，训练过程也将花费大量的时间。

发明内容

本发明实施例提供一种文本分类模型训练方法、装置、计算机设备及存储介质，以解决在文本分类模型训练过程中，训练样本规模庞大，训练时间长的问题。

一种文本分类模型训练方法，包括：

从预设样本库中获取具有类别标记的第一样本数据，并根据所述第一样本数据建立初级分类模型；

从所述预设样本库中获取不具有所述类别标记的第二样本数据；

计算每个所述第二样本数据的信息熵，得到每个所述第二样本数据的信息熵值；

根据所述第二样本数据中包含相同词组的数量，计算每个所述第二样本数据的相关度值；

选取所述信息熵值超过预设信息熵阈值，并且所述相关度值低于所述预设相关度阈值的所述第二样本数据作为待标注数据；

根据预设的类别标注方式，对所述待标注数据进行类别标注，得到第三样本数据；

按照预设的模型训练方式，使用所述第三样本数据对所述初级分类模型进行训练，得到中级分类模型；

按照所述预设的模型训练方式，使用所述第一样本数据和所述第三样本数据对所述中级分类模型进行训练，得到文本分类模型。

一种文本分类模型训练装置，包括：

初级模型建立模块，用于从预设样本库中获取具有类别标记的第一样本数据，并根据所述第一样本数据建立初级分类模型；

样本数据获取模块，用于从所述预设样本库中获取不具有所述类别标记的第二样本数据；

信息熵计算模块，用于计算每个所述第二样本数据的信息熵，得到每个所述第二样本数据的信息熵值；

相关度计算模块，用于根据所述第二样本数据中包含相同词组的数量，计算每个所述第二样本数据的相关度值；

待标注数据选取模块，用于选取所述信息熵值超过预设信息熵阈值，并且所述相关度值低于所述预设相关度阈值的所述第二样本数据作为待标注数据；

标注模块，用于根据预设的类别标注方式，对所述待标注数据进行类别标注，得到第三样本数据；

第一模型训练模块，用于按照预设的模型训练方式，使用所述第三样本数据对所述初级分类模型进行训练，得到中级分类模型；

第二模型训练模块，用于按照所述预设的模型训练方式，使用所述第一样本数据和所述第三样本数据对所述中级分类模型进行训练，得到文本分类模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本分类模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本分类模型训练方法。

上述文本分类模型训练方法、装置、计算机设备及存储介质，从预设样本库中获取具有类别标记的第一样本数据，并根据第一样本数据建立初级分类模型，即利用一小部分有类别标记的样本数据进行训练，得到初级分类模型，可以减少对有类别标记的样本数据的需求量，节约训练成本；从预设样本库中获取不具有类别标记的第二样本数据；计算第二样本数据的信息熵值和相关度值，并对信息熵值和相关度值符合预设条件的第二样本数据进行类别标注；按照预设的模型训练方式，使用标注后的第三样本数据对初级分类模型进行训练，得到中级分类模型，即利用了第三样本数据的信息熵大，彼此之间的相关性小，且有类别标记的特点，优化了初级分类模型的分类精度；最后，根据第一样本数据和第三样本数据对所述中级分类模型进行训练，得到文本分类模型，即通过逐级的迭代，优化得到最终的文本分类模型。提出了一种利用少量有类别标记的样本数据训练得到文本分类模型的方法，使得可以通过对较少的样本数据进行训练，获得性能较好的分类模型，节约了人力成本，提高了训练速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文本分类模型训练方法的一应用环境示意图；

图2是本发明一实施例中文本分类模型训练方法的流程图；

图3是本发明一实施例中文本分类模型训练方法中步骤S1的流程图；

图4是本发明一实施例中文本分类模型训练方法中步骤S4的流程图；

图5是本发明一实施例中文本分类模型训练方法中步骤S5的流程图；

图6是本发明一实施例中文本分类模型训练装置的示意图；

图7是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的文本分类模型训练方法，可应用在如图1的应用环境中，其中，服务端是进行文本分类模型训练的计算机设备，服务端可以是服务器或服务器集群；预设样本库是提供训练样本数据的数据库，具体可以是各种关系型或非关系型数据库，如MS-SQL、Oracle、MySQL、Sybase、DB2、Redis、MongodDB、Hbase等；服务端与预设样本库之间通过网络连接，网络可以是有线网络或无线网络。本发明实施例提供的文本分类模型训练方法应用于服务端。

在一实施例中，如图2所示，提供了一种文本分类模型训练方法，其具体实现流程包括如下步骤：

S1：从预设样本库中获取具有类别标记的第一样本数据，并根据第一样本数据建立初级分类模型。

预设样本库，即提供训练样本数据的数据库。预设样本库可以部署在服务端本地，或者通过网络与服务端相连。

第一样本数据，是具有类别标记的文本数据。其中，文本数据是包含有文本信息的文本文档、互联网上的文字、新闻、以及电子邮件正文等；类别标记是对文本数据所作的分类标签，是对文本数据的分类限定。

例如，一篇文章的类别标记为“情感”，则代表该篇文章的内容以与“情感”相关。可以理解地，类别标记还包括但不限于“科普”、“运动”、“励志”、“诗歌散文”等用于表示文本数据所属类别的标记。

具体地，在预设样本库中，类别标记和文本数据是关联存储的，每个文本数据均有表示其是否具有类别标记的字段。服务端可以通过SQL查询语句获取有类别标记的文本数据作为第一样本数据。

初级分类模型，是根据第一样本数据构建的分类工具。建立起的初级分类模型能够对有类别标记的样本数据进行粗略的分类。

具体地，服务端可以通过对具有类别标记的第一样本数据进行特征分析，得到第一样本数据的文本特征信息，然后将类别标记与文本特征信息进行关联存储，作为初级分类模型。例如，服务端可以对第一样本数据中的文字进行分词处理，以高词频的分词作为文本特征信息。其中，分词处理，是在对文字信息处理中，将文中的词进去切分，得到一个个单独的词。分词处理作为一种文字处理手段，被广泛应用于全文检索、文本内容挖掘等领域。

或者，服务端可以根据第一样本数据，使用基于神经网络的训练方法得到初级分类模型。

S2：从预设样本库中获取不具有类别标记的第二样本数据。

第二样本数据，是不具有类别标记的文本数据。即，与第一样本数据相比，第二样本数据没有类别标记，若不通过人工标记的方式，服务端不清楚第二样本数据所属的文本类别或表达的意思。

具体地，服务端可以通过SQL查询语句，从预设样本库中获取第二样本数据。

S3：计算每个第二样本数据的信息熵，得到每个第二样本数据的信息熵值。

信息熵，是由香浓提出的衡量信息量的概念，是对信息多少的量化度量。信息熵越大，即样本数据中所包含的信息量也就越丰富，同时代表信息的不确定性越大。

信息熵值，是对信息熵的具体量化值。

服务端可以根据第二样本数据中包含文本数据的多少来确定信息熵值。例如，以第二样本数据中文字字数的数量作为信息熵值。可以理解地，一篇5000字的文章中所包含的信息量要大于一篇只有20字的电子邮件正文所包含的信息量。

具体地，服务端计算每个第二样本数据中的文字字数，以文字字数作为每个第二样本数据的信息熵值。

或者，服务端以第二样本数据中去掉语助词之后的分词数量作为第二样本数据的信息熵值。其中，语助词包括但不限于“吧”、“嗯”、“的”、“了”等。

具体地，服务端对第二样本数据作分词处理，得到分词集合，并将分词集合中的语助词去掉，以剩下的分词数量作为第二样本数据的信息熵值。

S4：根据第二样本数据中包含相同词组的数量，计算每个第二样本数据的相关度值。

第二样本数据的相关度值，即反应了第二样本数据提供的信息是否重复和冗余。相关度值越高，则代表第二样本数据彼此之间提供的信息重复度和冗余性越高；相关度值越低，则代表第二样本数据彼此之间提供的信息的差异性越大。

服务端根据第二样本数据中包含相同词组的数量来确定相关度值。

举例来说，若第二样本数据A中包括词组“文化”、“文明”、“历史”，第二样本数据B中包括词组“文化”、“国家”、“历史”，第二样本数据C中包括词组“旅行”、“山川”、“国家”；则第二样本数据A和第二样本数据B中均包含词组“文化”和“历史”，则A和B的相关度值为2；可以理解地，A和C的相关度值为0，B和C的相关度值为1。同时，每个第二样本数据的相关度值可以由该第二样本数据与其他每个第二样本数据的相关度值的累加和确定。即A的相关度值为2，B的相关度值为3，C的相关度值为1。

S5：选取信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据作为待标注数据。

预设信息熵阈值和预设相关度阈值是对不具有类别标记的第二样本数据进行筛选的条件。

待标注数据，是根据预设信息熵阈值和预设相关度阈值，对第二样本数据进行筛选后得到的数据。

信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据，代表其信息量的内容具不确定性，并且信息量之间的差异性越大，是用于训练模型的首选数据。

具体地，若预设信息熵阈值为1000，预设相关度阈值为100，则服务端根据每个第二样本数据的信息熵值和相关度值进行选取，将信息熵值大于1000，并且相关度值低于100的第二样本数据作为待标注数据。

S6：根据预设的类别标注方式，对待标注数据进行类别标注，得到第三样本数据。

类别标注，是对不具有类别标记的第二样本数据进行标记，使第二样本数据具有相应的类别标记的过程。例如，对某篇文章进行类别标注，对其加上如“小说”、“悬疑”等反应其主题内容的标签。经过类别标注后得到的数据即为第三样本数据。

预设的类别标注方式，是指服务端具体可以采用多种标注方式对第二样本数据进行类别标注。

举例来说，服务端可以提取第二样本数据中的关键词，即以词频最高的五个词作为关键词；然后，将关键词与预设的类别标记词库中的目标关键词进行一致性比较，若关键词与目标关键词一致，则将目标关键词对第二样本数据进行标注，从而得到第三样本数据。

或者，服务端可以直接调用第三方的专家***进行标记。例如，利用第三方专家***提供的API(Application Programming Interface,应用程序编程接口)接口，将第二样本数据进行输入，得到与第二样本数据对应的类别标记，从而得到第三样本数据。

S7：按照预设的模型训练方式，使用第三样本数据对初级分类模型进行训练，得到中级分类模型。

中级分类模型，是在初级分类模型的基础上，使用第三样本数据进行训练后得到的分类模型。中级分类模型与初级分类模型的区别在于，中级分类模型的训练集是具有类别标记，并且信息熵值和相关度值满足特定条件的第三样本数据。

预设的模型训练方式，即服务端以第三样本数据作为训练数据，采用多种框架或算法对初级分类模型进行训练。例如，服务端可以利用现有的机器学习框架或工具，如Scikit-Learn、TensorFlow等。

其中，Scikit-Learn，简称sklearn，是一个开源的、基于Python的机器学习工具库，sklearn中内置了朴素贝叶斯算法、决策树算法、随机森林算法等分类算法，使用sklearn可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。TensorFlow，是最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来的用于数值计算的开源软件库，其可以用于机器学习和深度神经网络方面的研究，但这个***的通用性使其也可广泛用于其他计算领域。

具体地，以sklearn为例，服务端将第三样本数据作为输入数据，调用sklearn中的内置训练方法，直到模型趋于收敛，即可得到中级分类模型。

S8：按照预设的模型训练方式，使用第一样本数据和第三样本数据对中级分类模型进行训练，得到文本分类模型。

文本分类模型，是对中级分类模型进行再训练后得到的最终分类模型。

其中，服务端采用的预设的模型训练方式与步骤S7的训练过程一样，此处不再赘述。与步骤S7的训练过程不同的是，同时使用第一样本数据和第三样本数据对中级分类模型进行训练，即使用有类别标记的样本数据对中级分类模型进行迭代训练，以提高中级分类模型的分类精度。

具体地，以sklearn为例，服务端将第一样本数据和第三样本数据作为输入数据，调用sklearn中的内置训练方法，直到模型趋于收敛，即可得到文本分类模型。

在本实施例中，从预设样本库中获取具有类别标记的第一样本数据，并根据第一样本数据建立初级分类模型，即利用一小部分有类别标记的样本数据进行训练，得到初级分类模型，可以减少对有类别标记的样本数据的需求量，节约训练成本；从预设样本库中获取不具有类别标记的第二样本数据；计算第二样本数据的信息熵值和相关度值，并对信息熵值和相关度值符合预设条件的第二样本数据进行类别标注；按照预设的模型训练方式，使用标注后的第三样本数据对初级分类模型进行训练，得到中级分类模型，即利用了第三样本数据的信息熵大，彼此之间的相关性小，且有类别标记的特点，优化了初级分类模型的分类精度；最后，根据第一样本数据和第三样本数据对所述中级分类模型进行训练，得到文本分类模型，即通过逐级的迭代，优化得到最终的文本分类模型。提出了一种利用少量有类别标记的样本数据训练得到文本分类模型的方法，使得可以通过对较少的样本数据进行训练，获得性能较好的分类模型，节约了人力成本，提高了训练速度。

进一步地，在一实施例中，如图3所示，针对步骤S1，即从预设样本库中获取具有类别标记的第一样本数据，并根据第一样本数据建立初级分类模型，具体包括如下步骤：

S11：按照预设样本选取方式从预设样本库中选取具有类别标记的第一样本数据。

预设样本选取方式，即从预设样本库中选取一定数量的、并且有代表性的有类别标记的第一样本数据。其中，数量尽量的少，以减少对样本数据的需求量；同时，选取的第一样本尽量覆盖文本数据的类别。例如，对新闻类文本数据的选取，尽量覆盖“政治”、“商业”、“体育”、“文体娱乐”等类别。

具体地，若预设样本库中有10万篇文章，其中，具有类别标记的文章有3000篇，则服务端可以选取3000篇文章中的30％，即选取900篇文章，并且从900篇文章中选取代表文本数据类别的文章各5篇文章作为第一样本数据。

S12：结合具有类别标记的第一样本数据和预设训练算法建立初级分类模型。

预设训练算法，包括机器学习中对模型进行训练的各种算法。服务端使用具有类别标记的第一样本数据建立初级分类模型的过程属于监督学习模式。其中，监督学习就是通过已有的训练样本，即已知数据以及其对应的输出，去训练得到一个最优模型。这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的。

具体地，以朴素贝叶斯分类算法为例，服务端可以从sklearn库中导入朴素贝叶斯函数，然后调用MultinomialNB().fit()进行训练。

当训练完成，服务端可以使用Joblib库实现保存训练数据的功能。其中，Joblib是SciPy生态的一部分，为管道化python的工作提供的工具。或者，服务端可以调用pickle库的函数将初级分类模型保存。

在本实施例中，服务端按照预设样本选取方式，选取出数量尽量少，且样本数据的类型覆盖尽量广的第一样本数据；然后结合预设训练算法建立初级分类模型，使得对样本数据的需求尽量少，进一步减轻训练成本，同时，由于第一样本数据的覆盖面广，使得初级分类模型的可识别范围更广。

进一步地，在一实施例中，针对步骤S3，即计算每个第二样本数据的信息熵，得到每个第二样本数据的信息熵值，具体包括如下步骤：

根据如下公式计算每个第二样本数据的信息熵：

其中，H代表第二样本数据的信息熵值，x代表第二样本数据中的词组，p_(x)代表词组出现的频率。

第二样本数据中的词组，是服务端对第二样本数据作分词处理后得到的词。词组出现的频率，即词组在第二样本数据中出现的次数。

具体地，服务端先对每个第二样本数据作分词处理，得到分词的集合；然后将分词集合中所有分词的频率代入公式中，即可得到该第二样本数据的信息熵值。

在本实施例中，服务端根据香浓公式和第二样本数据中的词组的词频计算出第二样本数据的信息熵，使得对样本数据包含信息量的量化更加准确。

进一步地，在一实施例中，如图4所示，针对步骤S4，即根据第二样本数据中包含相同词组的数量，计算每个第二样本数据的相关度值，具体包括如下步骤：

S41：对每个第二样本数据作分词处理，得到N个分词集合，其中，N为第二样本数据的数量。

具体地，服务端可以采用多种方式进行分词处理。例如，采用正则表达式对第二样本数据进行切分，得到由若干分词构成的集合，即分词集合。可以理解地，第二样本数据的数量与分词集合的数量是一一对应的。

其中，正则表达式，即Regular Expression，又称规则表达式，是用来在上下文中检索或替换目标文本的处理方法。

具体地，服务端可以采用Perl或Python语言中内置的正则表达式引擎，对第二样本数据进行切分；或者，服务端使用Unix***中自带的grep工具，对第二样本数据进行切分，得到包含若干分词的集合。其中，grep，即Globally search a Regular Expressionand Print，是一种强大的文本搜索工具。

S42：针对每个第二样本数据，计算该第二样本数据的分词集合与其他N-1个第二样本数据的分词集合之间的交集，并根据每个交集中包含的词组数量，确定该第二样本数据与其他N-1个第二样本数据之间的局部相关度值，得到该第二样本数据对应的N-1个局部相关度值。

计算分词集合之间的交集，具体可以将不同分词集合进行对比，交集即相同的词组。

局部相关度值，代表了一个第二样本数据与其他第二样本数据之间的相关程度。

举例来说，分词集合a表示为{“人们”、“利息”、“银行”、“借贷”}，分词集合b表示为{“银行”、“借贷”、“收入”}，则分词集合a与b的交集为{“银行”、“借贷”}，交集中包含的词组数量为2，分词集合a与b的局部相关度值为2。同理可知，若分词集合c表示为{“会议”、“报告”、“收入”}，则分词集合a与c的局部相关度值为0，分词集合b与c的局部相关度值为1。

S43：计算每个第二样本数据对应的N-1个局部相关度值的平均值，将平均值作为每个第二样本数据的相关度值。

仍以步骤S42中的分词集合a、b和c为例，与分词集合a对应的第二样本数据的相关度值为分词集合a与b、分词集合a与c的局部相关度值之和的平均值，即为1。同理可知，与分词集合b和c对应的第二样本数据的相关度值分别为1.5和0.5。

在本实施例中，服务端通过对第二样本数据进行分词处理，以分词集合之间的交集确定第二样本数据彼此之间的局部相关度值，并对局部相关度值求平均值的方式得到每个第二样本数据的相关度值，使得相关度值可以更加准确的反应第二样本数据之间的关联程度。

进一步地，在一实施例中，如图5所示，针对步骤S5，即选取信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据作为待标注数据，具体包括如下步骤：

S51：选取信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据作为候选样本数据。

服务端对符合特定条件的第二样本数据进行再次筛选，既减少训练样本的数量，又找出普通分类器难以识别的样本数据。其中，特定条件是指信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值。

S52：使用至少两个预设样本分类器对候选样本数据进行分类，得到分类结果。

预设样本分类器，即文本分类模型。例如，常见的FastText、Text-CNN模型等。

其中，FastText是facebook开源的一个词向量与文本分类工具，其典型应用场景是“带监督的文本分类问题”。它提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。TextCNN是利用卷积神经网络对文本进行分类的算法，由于其结构简单、效果好，在文本分类领域应用广泛。

不同的预设样本分类器对同一样本数据进行分类的结果可能不同。即同一样本数据被FastText、Text-CNN等不同分类模型进行分类后，可能被识别为不同的类别。

分类结果，即包括了每个候选样本数据所属的类别。

S53：从分类结果中选取同时属于不同类别的候选样本数据作为待标注数据。

同时属于不同类别的候选样本数据，即不同的预设分类器对同一候选样本数据的识别结果不同。例如，一篇文章被FastText识别为“历史类”，同时，又被Text-CNN识别为“文艺类”。因此，代表该篇文章难以被识别，或难以简单划分为某一类别。

具体地，服务端根据分类结果中的候选样本数据所属的类别，确定其是否同时属于不同类别的。

在本实施例中，服务端根据不同的预设分类器对满足特定条件的第二样本数据进行筛选，挑出难以被识别的第二样本数据作为待标注数据，既去除掉简单容易被识别的样本数据，进一步减少训练样本的数量和训练时间，提高训练效率；同时，挑选出不容易被识别的样本数据作为待标注数据，使得对这些待标注数据进行类别标注后，有利于模型训练精度的提高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文本分类模型训练装置，该文本分类模型训练装置与上述实施例中文本分类模型训练方法一一对应。如图6所示，该文本分类模型训练装置包括初级模型建立模块61、样本数据获取模块62、信息熵计算模块63、相关度计算模块64、待标注数据选取模块65、标注模块66、第一模型训练模块67和第二模型训练模块68。各功能模块详细说明如下：

初级模型建立模块61，用于从预设样本库中获取具有类别标记的第一样本数据，并根据第一样本数据建立初级分类模型；

样本数据获取模块62，用于从预设样本库中获取不具有类别标记的第二样本数据；

信息熵计算模块63，用于计算每个第二样本数据的信息熵，得到每个第二样本数据的信息熵值；

相关度计算模块64，用于根据第二样本数据中包含相同词组的数量，计算每个第二样本数据的相关度值；

待标注数据选取模块65，用于选取信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据作为待标注数据；

标注模块66，用于根据预设的类别标注方式，对待标注数据进行类别标注，得到第三样本数据；

第一模型训练模块67，用于按照预设的模型训练方式，使用第三样本数据对初级分类模型进行训练，得到中级分类模型；

第二模型训练模块68，用于按照预设的模型训练方式，使用第一样本数据和第三样本数据对中级分类模型进行训练，得到文本分类模型。

进一步地，初级模型建立模块61，包括：

选取子模块611，用于按照预设样本选取方式从预设样本库中选取具有类别标记的第一样本数据；

训练子模块612，用于结合具有类别标记的第一样本数据和预设训练算法建立初级分类模型。

进一步地，信息熵计算模块63，包括

信息熵计算子模块631，用于根据如下公式计算每个第二样本数据的信息熵：

进一步地，相关度计算模块64，包括：

分词子模块641，用于对每个第二样本数据作分词处理，得到N个分词集合，其中，N为第二样本数据的数量；

局部相关度计算子模块642，用于针对每个第二样本数据，计算该第二样本数据的分词集合与其他N-1个第二样本数据的分词集合之间的交集，并根据每个交集中包含的词组数量，确定该第二样本数据与其他N-1个第二样本数据之间的局部相关度值，得到该第二样本数据对应的N-1个局部相关度值；

平均值计算子模块643，用于计算每个第二样本数据对应的N-1个局部相关度值的平均值，将平均值作为每个第二样本数据的相关度值。

进一步地，待标注数据选取模块65，包括：

候选样本选取子模块651，用于选取信息熵值超过预设信息熵阈值，并且相关度值低于预设相关度阈值的第二样本数据作为候选样本数据；

分类子模块652，用于使用至少两个预设样本分类器对候选样本数据进行分类，得到分类结果；

标注子模块653，用于从分类结果中选取同时属于不同类别的候选样本数据作为待标注数据。

关于文本分类模型训练装置的具体限定可以参见上文中对于文本分类模型训练方法的限定，在此不再赘述。上述文本分类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中文本分类模型训练方法的步骤，例如图2所示的步骤S1至步骤S8。或者，处理器执行计算机程序时实现上述实施例中文本分类模型训练装置的各模块/单元的功能，例如图6所示模块61至模块68的功能。为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中文本分类模型训练方法，或者，该计算机程序被处理器执行时实现上述装置实施例中文本分类模型训练装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类模型训练方法，其特征在于，所述文本分类模型训练方法包括：

2.如权利要求1所述的文本分类模型训练方法，其特征在于，所述从预设样本库中获取具有类别标记的第一样本数据，并根据所述第一样本数据建立初级分类模型，包括：

按照预设样本选取方式从所述预设样本库中选取所述具有类别标记的第一样本数据；

结合所述具有类别标记的第一样本数据和预设训练算法建立所述初级分类模型。

3.如权利要求1所述的文本分类模型训练方法，其特征在于，所述计算每个所述第二样本数据的信息熵，得到每个所述第二样本数据的信息熵值，包括：

根据如下公式计算每个所述第二样本数据的信息熵：

其中，H代表所述第二样本数据的信息熵值，x代表所述第二样本数据中的词组，p_(x)代表所述词组出现的频率。

4.如权利要求1所述的文本分类模型训练方法，其特征在于，所述根据所述第二样本数据中包含相同词组的数量，计算每个所述第二样本数据的相关度值，包括：

对每个所述第二样本数据作分词处理，得到N个分词集合，其中，N为所述第二样本数据的数量；

针对每个所述第二样本数据，计算该第二样本数据的分词集合与其他N-1个第二样本数据的分词集合之间的交集，并根据每个所述交集中包含的词组数量，确定该第二样本数据与其他N-1个第二样本数据之间的局部相关度值，得到该第二样本数据对应的N-1个所述局部相关度值；

计算每个所述第二样本数据对应的N-1个所述局部相关度值的平均值，将所述平均值作为每个所述第二样本数据的相关度值。

5.如权利要求1所述的文本分类模型训练方法，其特征在于，所述选取所述信息熵值超过预设信息熵阈值，并且所述相关度值低于所述预设相关度阈值的所述第二样本数据作为待标注数据，包括：

选取所述信息熵值超过所述预设信息熵阈值，并且所述相关度值低于所述预设相关度阈值的所述第二样本数据作为候选样本数据；

使用至少两个预设样本分类器对所述候选样本数据进行分类，得到分类结果；

从所述分类结果中选取同时属于不同类别的所述候选样本数据作为所述待标注数据。

6.一种文本分类模型训练装置，其特征在于，所述文本分类模型训练装置，包括：

7.如权利要求6所述的文本分类模型训练装置，其特征在于，所述初级模型建立模块，包括：

选取子模块，用于按照预设样本选取方式从所述预设样本库中选取所述具有类别标记的第一样本数据；

训练子模块，用于结合所述具有类别标记的第一样本数据和预设训练算法建立所述初级分类模型。

8.如权利要求6所述的文本分类模型训练装置，其特征在于，所述信息熵计算模块，包括：

信息熵计算子模块，用于根据如下公式计算每个所述第二样本数据的信息熵：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本分类模型训练方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本分类模型训练方法。