CN104850617A

CN104850617A - 短文本处理方法及装置

Info

Publication number: CN104850617A
Application number: CN201510250477.XA
Authority: CN
Inventors: 阮星华; 张文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-08-19
Anticipated expiration: 2035-05-15
Also published as: CN104850617B

Abstract

本申请公开了短文本处理方法及装置。所述方法包括：获取第一短文本集合，并对第一短文本集合进行预处理；基于预处理后的第一短文本集合，执行如下处理步骤：使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布；对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。本申请通过训练主题模型并进一步对主题概率分布进行聚类，可以得到短文本的主题类别，实现了对短文本准确分类的目的。

Description

短文本处理方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及文本处理技术领域，尤其涉及短文本处理方法及装置。

背景技术

随着互联网技术的飞速发展，人们越来越多的通过各种网络平台发表自己的观点或意见。例如，用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评，还可以通过网络购物平台对购买或使用过的商品发表商品评价，也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议，还可以通过微博等社交平台发表自己的任意观点等。由于这些评论、评价或意见大多只是进行片断性的描述说明，其所包括的文字内容较少，因此均可以被看作是短文本数据。

面对互联网迅猛发展所产生的海量短文本数据，如何准确地对短文本进行划分并从中提取出有实用价值的信息，已经成为互联网行业普遍关注和研究的课题。在现有技术中，可以通过TF-IDF(TermFrequency-Inverse Document Frequency，词频-逆向文档频率)方法对短文本数据进行分析。但是，由于这种方法完全依赖词在文档中的出现频次进行计算，而短文本的内容一般来说都比较简短，向量矩阵稀疏，因此传统的TF-IDF方法应用效果并不好，其对短文本进行区分的准确性较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望能够提供一种短文本分类准确的方案。为了实现上述一个或多个目的，本申请提供了短文本处理方法及装置。

第一方面，本申请提供了一种短文本处理方法，包括：获取第一短文本集合，并对所述第一短文本集合进行预处理；基于预处理后的第一短文本集合，执行如下处理步骤：使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。

第二方面，本申请提供了一种短文本处理装置，包括：第一获取模块，用于获取第一短文本集合，并对所述第一短文本集合进行预处理；处理模块，用于基于预处理后的第一短文本集合，驱动以下单元执行如下处理步骤：训练单元，用于使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；聚类单元，用于对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。

本申请提供的短文本处理方法及装置，首先可以对获取的第一短文本集合进行预处理，然后利用处理后的数据进行主题模型LDA训练，以得到集合中各短文本的主题概率分布，最后对主题概率分布进行聚类，就可以确定出各短文本的主题类别。通过先进行主题模型训练得到主题概率的分布情况，再进一步对主题概率分布聚类，可以得到用于区分短文本类型的主题类别，从而可以实现对海量短文本数据的快速、准确分类。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请短文本处理方法的一个实施例的流程图；

图2是本申请短文本处理方法的另一个实施例的流程图；

图3是本申请短文本处理装置的一个实施例的功能模块构架示意图；

图4是本申请短文本处理装置的另一个实施例的功能模块构架示意图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了本申请短文本处理方法的一个实施例的流程100。本实施例主要以该方法应用于短文本应用平台的服务器中来举例说明，本实施例的短文本处理方法，包括以下步骤：

如图1所示，在步骤101中，获取第一短文本集合，并对第一短文本集合进行预处理。

在本实施例中，服务器可以通过各种有线或无线的方式，获取用户在客户端所输入的短文本信息。第一短文本集合通常可以是首次应用本实施例的方法对某一类短文本进行处理时，所能获得的短文本组成的集合。例如，当需要对某一个应用的用户反馈意见进行处理时，可以将用户针对该应用的所有意见反馈作为第一短文本集合。可选地，也可以获取在一段时间内(如一年内)的反馈意见作为第一短文本集合，从而去除那些时效性较差的短文本数据。在获取到待处理的第一短文本集合后，可以首先对其进行预处理，以提高后续处理的效率和准确性。

在本实施例的一个可选实现方式中，上述预处理包括对短文本集合中的各短文本进行无效数据过滤、去除停用词、词干提取和编号处理。无效数据过滤可以是对短文本数据进行过滤，去除其中无效的短文本信息，例如文本长度低于3个字符或带有尝试攻击SQL(StructuredQuery Language，结构化查询语言)语句等特征的短文本。具体可以通过决策树来判定一个短文本是否属于无效数据。在过滤掉第一短文本集合中的无效数据后，可以使用常用的分词方法，如基于字符串匹配的分词方法，对剩下的短文本进行切词，然后去除其中表意价值较低的无用词和停用词，例如“的”、“了”等等。接着，可以进行词干提取，即把同词干同义的不同词语中的相同部分提取出来，从而可以进一步剔除价值低的词对整个短文本类别判定的影响。最后，可以对词干提取后的第一短文本集合中所有出现过的词进行一次索引，即为每个词赋予一个编号或ID号，以便于后续计算。

在本实施例的一个可选实现方式中，词干提取包括主体提取和描述词提取。当对一个短文本进行词干提取时，可以进行主体提取和描述词提取。主体可以是指短文本所针对的对象，例如意见反馈所针对的产品，或者影评所对应的电影或演员等，通常可以是短文本中的主语或宾语等。描述词可以是对状态、情形、情感等进行描述的词语，通常可以是带有感情色彩的形容词或动词等。由于用户发表短文本的位置，通常是在一个特定的网络位置，如某个产品的意见反馈渠道。此时用户会直接发表意见和建议，而通常不再提及相关产品。因此，在进行词干提取时，很有可能无法提取到确切的主体。例如，用户对某一个产品的反馈是“新版很难用”几个字，则无法直接从该反馈中提取到其所对应的主体。此时，可以根据第一短文本集合的来源确定主体。例如，当第一短文本集合是从搜索应用的意见反馈中获取到的时，则可以认为短文本所对应的主体就是该搜索应用。

在本实施例的一个可选实现方式中，当未提取到主体时，还可以根据描述词确定主体。具体地，当未提取到主体时，可以对描述词进行分析，并进一步根据描述词的所描述的内容来确定主体。例如，虽然第一短文本集合是从搜索应用的意见反馈中获取到的，但是其中某一个短文本的内容是“播放电影时，无法自动匹配字幕”。通过这个短文本所描述的内容，可以确定出其对应的主体应该具备视频播放功能，因此其针对的很可能是视频应用而不是搜索应用。该用户很可能是通过搜索应用的反馈渠道，反馈了视频应用的问题。此时，可以根据描述词将该反馈的主体确定为视频应用，而不是搜索应用。通过根据描述词确定主体，可以提高主体确定的准确性。

接着，在步骤102中，可以基于预处理后的第一短文本集合，执行如下处理步骤：使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布；对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。

在本实施例中的步骤102可以包括子步骤1021和1022。其中：

在步骤1021中，使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布。

当在上述步骤101中得到预处理后的第一短文本集合后，可以进一步将其作为数据样本，对主体模型LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)进行训练。LDA可以无监督地对文档和词进行分类，并能够预测非训练集中的文档和词的主题分布。与一般的机器学习分类算法不同，LDA的预测目标——主题分布，是训练集中不能直接观察到的量，而是人(或模型)虚构出来的一个量，因此称之为潜在的(Latent)。也正因为预测目标是模型自身虚构出来的一个隐变量，而不需要训练集提供这个量，所以LDA可以实现无监督的学习。

LDA是一种生成模型(generative model)，也就是说，与直接根据观察到的文档来进行预测不同，LDA首先假设了产生文档的一个过程，然后根据观察到文档，来预测背后的产生过程是怎样的。LDA假设所有的文档存在k个主题(主题其实就是词的分布)，要生成一篇文档，首先生成该文档的一个主题分布，然后再生成词的集合；要生成一个词，需要根据文档的主题分布随机选择一个主题，然后根据主题中词的分布随机选择一个词。具体地，可以通过吉布斯采样(GibbsSampling)的方式，根据观察到的样本即第一短文本集合，推导出每个短文本的主题概率分布每个主题到单词的概率分布以及第一短文本集合中的单词所属主题的概率z_m,n。其中，m、k和n可以分别用于代表短文本、主题和单词的数量。在确定出所有的和z_m,n后，就相当于得到了训练后的LDA模型。

在步骤1022中，对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。在本实施例中，在上述步骤102中所得到各主题概率分布，都可以用概率向量的形式来表示。因此当对主题概率分布进行聚类时，相当于对多个概率向量进行聚类。具体地，可以使用现有技术中通用的聚类方法，对所有主题概率分布进行聚类。可选地，可以使用K均值(K-Means)聚类法对短文本的主题概率分布进行聚类。K-Means是一种典型的划分聚类算法，其聚类中心用各类别中所有数据的平均值表示，其收敛速度快，能扩展以用于大规模的数据集。在对主题概率分布进行K-Means聚类之后，每个短文本的主题概率分布都可以被划分进一个特定的主题类别，该主题类别就可以作为短文本的主题类别。

本实施例提供的短文本处理方法，首先可以对获取的第一短文本集合进行预处理，然后利用处理后的数据进行主题模型LDA训练，以得到集合中各短文本的主题概率分布，最后对主题概率分布进行聚类，就可以确定出各短文本的主题类别。通过先进行主题模型训练得到主题概率的分布情况，再对主题概率分布进一步聚类，可以得到用于区分短文本类型的主题类别，从而可以实现对海量短文本数据的快速、准确分类。

请进一步参考图2，其示出了本申请短文本处理方法的另一个实施例的流程200。

如图2所示，在步骤201中，获取第一短文本集合，并对第一短文本集合进行预处理。

接着，在步骤202中，可以基于预处理后的第一短文本集合，执行如下处理步骤：使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布；对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。

在本实施例中，步骤202可以包括子步骤2021和2022。其中：

在步骤2021中，使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布。

在步骤2022中，对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。

在本实施例中，上述步骤201-202与图1中的步骤101-102相同，在此不再赘述。

接着，在步骤203中，获取新增的第二短文本集合，并对第二短文本集合进行预处理。

当在上述步骤202中通过训练LDA模型，确定出第一短文本集合中各短文本的主题类别后，还可以进一步获取新增的第二短文本集合。由于短文本数据是用户在网络上自主发表的，因此在对第一短文本集合进行处理后，随着时间的推移，用户还会不断地发表新的意见反馈、评论或评价等。在本实施例中，可以将新增的短文本都加入第二短文本集合，并对其进行预处理。在本步骤中的预处理与图1的步骤101中的预处理过程可以是一样的，在此不再赘述。

继而，在步骤204中，检测预处理后的第二短文本集合中的新词数量是否超出预设阈值，若是则执行步骤205，否则执行步骤206。

在本实施例中，在对第二短文本集合进行预处理后，可以进一步对第二短文本集合中的新词数量进行统计，其中，新词是指在第一短文本集合中未出现过的词。用户可以预先设置一个关于新词数量的阈值，如果统计出第二短文本集合中的新词数量超过该阈值，则执行下述步骤205，否则执行下述步骤206。

在步骤205中，将预处理后的第一短文本集合和预处理后的第二短文本集合共同作为预处理后的第一短文本集合，再次执行上述处理步骤202。

由于训练后的LDA只能对在第一短文本集合中出现过的词进行识别，而无法处理新出现的词。当第二短文本集合中的新词数量超出预设阈值时，之前训练好的LDA很可能已经无法对第二短文本集合中的短文本进行准确的识别，因此可以重新对LDA模型进行训练。具体地，可以将在步骤201中进行过预处理的第一短文本集合和在步骤203中进行过预处理的第二短文本集合共同作为数据样本，即预处理后的第一短文本集合，再次执行上述处理步骤202。通过对LDA模型重新进行训练，并对得到的主题概率分布再次聚类，可以确定出原始的第一短文本集合和新增的第二短文本集合中，各短文本的主题类别。

在步骤206中，使用训练后的LDA确定第二短文本集合中各短文本的主题类别。

在本实施例中，当第二短文本集合中的新词数量未超出预设阈值时，可以认为之前训练好的LDA模型能够用于预测第二短文本集合的文档和词的主题分布。因此，可以直接使用在上述步骤202中训练过的LDA，对第二短文本集合中的各短文本进行分类，以确定它们的主题类别。

与图1中所示的方法相比，本实施例提供的短文本处理方法，在对LDA模型进行训练后，可以进一步获取新增的短文本数据，并可以根据新增数据中新词的数量来确定是重新训练LDA模型，还是用之前训练过的LDA模型确定新增短文本的主题类别。从而能够提高对新增短文本的处理精度，扩展了短文本处理方法的应用范围。

进一步参考图3，其示出了本申请短文本处理装置的一个实施例的结构示意图。

如图3所示，本实施例的短文本处理装置300包括：第一获取模块310和处理模块320。

第一获取模块310，用于获取第一短文本集合，并对第一短文本集合进行预处理。

处理模块320，用于基于预处理后的第一短文本集合，驱动以下单元执行如下处理步骤：

训练单元321，用于使用第一获取模块310预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布。

聚类单元322，用于对训练单元321得到的主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。

在本实施例的一个可选实现方式中，如图4所示，短文本处理装置300还可以包括：

第二获取模块330，用于获取新增的第二短文本集合，并对第二短文本集合进行预处理。

检测模块340，用于检测第二获取模块330预处理后的第二短文本集合中的新词数量是否超出预设阈值。

反馈模块350，用于当检测模块340检测出新词数量超出预设阈值时，将预处理后的第一短文本集合和预处理后的第二短文本集合共同作为预处理后的第一短文本集合，反馈给处理模块320。

确定模块360，用于当检测模块340检测出新词数量未超出预设阈值时，使用训练后的LDA确定所述第二短文本集合中各短文本的主题类别。

在本实施例的一个可选实现方式中，预处理包括对短文本集合中的各短文本进行无效数据过滤、去除停用词、词干提取和编号处理。

在本实施例的一个可选实现方式中，词干提取包括主体提取和描述词提取。

在本实施例的一个可选实现方式中，还包括：

主体确定模块(未示出)，用于当未提取到主体时，根据描述词确定主体。

应当理解，图3-4中记载的诸单元或模块与参考图1-2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于图3-4中的装置及其中包含的单元或模块，在此不再赘述。

本实施例提供的短文本处理装置，第一获取模块首先可以对获取的第一短文本集合进行预处理，然后处理模块利用处理后的数据进行主题模型LDA训练，以得到集合中各短文本的主题概率分布，并对主题概率分布进行聚类，就可以确定出各短文本的主题类别。通过先进行主题模型训练得到主题概率的分布情况，再进一步对主题概率分布聚类，可以得到用于区分短文本类型的主题类别，从而可以实现对海量短文本数据的快速、准确分类。

下面参考图5，其示出了适于用实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块和处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“用于获取第一短文本集合，并对第一短文本集合进行预处理的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的短文本处理方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种短文本处理方法，其特征在于，包括：

获取第一短文本集合，并对所述第一短文本集合进行预处理；

基于预处理后的第一短文本集合，执行如下处理步骤：

使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；

对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取新增的第二短文本集合，并对所述第二短文本集合进行所述预处理；

检测预处理后的第二短文本集合中的新词数量是否超出预设阈值；

若是，则将所述预处理后的第一短文本集合和所述预处理后的第二短文本集合共同作为预处理后的第一短文本集合，再次执行所述处理步骤；

否则，使用训练后的LDA确定所述第二短文本集合中各短文本的主题类别。

3.根据权利要求1或2所述的方法，其特征在于，所述预处理包括对短文本集合中的各短文本进行无效数据过滤、去除停用词、词干提取和编号处理。

4.根据权利要求3所述的方法，其特征在于，所述词干提取包括主体提取和描述词提取。

5.根据权利要求4所述的方法，其特征在于，还包括：

当未提取到所述主体时，根据所述描述词确定所述主体。

6.一种短文本处理装置，其特征在于，包括：

第一获取模块，用于获取第一短文本集合，并对所述第一短文本集合进行预处理；

处理模块，用于基于预处理后的第一短文本集合，驱动以下单元执行如下处理步骤：

训练单元，用于使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；

聚类单元，用于对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。

7.根据权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于获取新增的第二短文本集合，并对所述第二短文本集合进行所述预处理；

检测模块，用于检测预处理后的第二短文本集合中的新词数量是否超出预设阈值；

反馈模块，用于当所述新词数量超出预设阈值时，将所述预处理后的第一短文本集合和所述预处理后的第二短文本集合共同作为预处理后的第一短文本集合，反馈给所述处理模块；

确定模块，用于当所述新词数量未超出预设阈值时，使用训练后的LDA确定所述第二短文本集合中各短文本的主题类别。

8.根据权利要求6或7所述的装置，其特征在于，所述预处理包括对短文本集合中的各短文本进行无效数据过滤、去除停用词、词干提取和编号处理。

9.根据权利要求8所述的装置，其特征在于，所述词干提取包括主体提取和描述词提取。

10.根据权利要求9所述的装置，其特征在于，还包括：

主体确定模块，用于当未提取到所述主体时，根据所述描述词确定所述主体。