CN110019639A

CN110019639A - 数据处理方法、装置及存储介质

Info

Publication number: CN110019639A
Application number: CN201710585205.4A
Authority: CN
Inventors: 常卓; 温旭; 范欣; 张智敏; 张伟; 花少勇; 李探; 王丹丹
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2019-07-16
Anticipated expiration: 2037-07-18
Also published as: CN110019639B

Abstract

本申请公开了一种数据处理方法。该方法包括：获取一个内容类别的训练样本；确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，其中，K为正整数；根据所述每个主题描述词在任一主题出现的概率确定所述内容类别的词‑主题向量；确定所述词‑主题向量与预先设定的背景向量之间的距离；以及根据所述距离确定所述内容类别的N个第一特征词；其中，N为正整数。本申请还公开了实现数据处理的装置以及计算机可读存储介质。

Description

数据处理方法、装置及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

随着互联网技术的发展，越来越多的数据(包括：文本、图片、音频、视频等)会通过互联网推送给各种用户。比如：用户在使用手机、PC等终端设备浏览网页时，会接收到网络侧推送的各种数据，比如：图片或视频格式的广告、公益宣传信息、新闻等。这样，用户可以及时获知时讯、感兴趣的内容等。这类数据可被称为推送信息或推送媒体内容等。因而，如何为用户推送更符合用户兴趣的数据已经成为当前研究的热点问题之一。

发明内容

本申请提供了一种数据处理方法，该方法包括：获取一个内容类别的训练样本；确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，其中，K为正整数；根据所述每个主题描述词在任一主题出现的概率，确定所述内容类别的词-主题向量；确定所述词-主题向量与预先设定的背景向量之间的距离；以及根据所述距离确定所述内容类别的N个第一特征词；其中，N为正整数。

本申请还提供了一种数据处理装置，该装置包括：

获取模块，用于获取一个内容类别的训练样本；

主题确定模块，用于确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，其中，K为正整数；

向量确定模块，用于根据所述每个主题描述词在任一主题出现的概率，确定所述内容类别的词-主题向量；

距离确定模块，用于确定所述词-主题向量与预先设定的背景向量之间的距离；以及

特征词确定模块，用于根据所述距离确定所述内容类别的N个第一特征词；其中，N为正整数。

本申请还提供了一种存储介质，存储有计算机可读指令，可以使至少一个处理器执行上述方法。

采用上述技术方案，能够准确地得到内容类别特征词，提高了特征词选取的准确性，改善了服务器的性能。

附图说明

为了更清楚地说明本申请实例中的技术方案，下面将对实例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实例提出的一种数据处理方法的流程图；

图2为本申请实例提出的另一种数据处理方法的流程图；

图3为本申请实例所提出的实现文本内容推送的***结构示意图；

图4示出了基于本申请提出的数据处理方法的文本内容推送过程的示意***互图；

图5为本申请实例提出的数据处理装置的内部结构示意图；及

图6是本申请一实例的设备结构图。

具体实施方式

下面将结合本申请实例中的附图，对本申请实例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅是本申请一部分实例，而不是全部的实例。基于本申请中的实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本申请保护的范围。

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本发明的方案进行阐述。实施例中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

通常，为了给用户推送更加契合用户兴趣的媒体内容，媒体内容推送***首先会对被推送的媒体内容进行分类，然后再根据媒体内容的分类结果以及用户的属性进行媒体内容推送，以使得所推送的媒体内容与用户的兴趣相符合。而对于文本类型的媒体内容的分类，例如，对于新闻资讯等文本媒体内容的分类，通常会依据预先确定的各个分类的特征词来进行。上述特征词是指能够体现某一类别文本特性的词语，如“篮球”就可以被视为“体育”类别的一个特征词。而各个类别特征词的选择和确定是文本分类过程中最主要的环节之一，特征词选择的准确度基本决定了分类效果可以达到的上限。

基于上述问题，本申请提出了一种数据处理方法，该方法可以应用于进行文本内容推送的推送***，主要用于确定各个内容类别的特征词。

图1显示了本申请实例提出的一种数据处理方法的流程。如图1所示，该方法可以包括以下步骤：

步骤101：获取某一内容类别的训练样本。

如前所述，为了对文本内容进行分析和整理以便向用户进行推送，通常会根据某个文本的具体内容对文本内容进行分类，例如，通常可以分为体育、娱乐、文化、时尚等等。在本申请中，为了描述方便，将这种文本内容的分类称为内容类别。而上述训练样本就是预先配置的内容类别已经确定的文本内容。

在本申请的一些实例中，上述推送***可以预先为各个内容类别配置一个或多个文本内容作为各个内容类别的训练样本。例如，上述推送***可以预先配置多个体育类的新闻资讯、多个娱乐类的新闻资讯、多个文化类的新闻资讯及多个时尚类的新闻资讯等等。其中，所配置的每个训练样本均对应一个内容类别，也就是说，每个训练样本的内容类别是已经确定的。这些训练样本可以存储在推送***的一个或者多个数据库中。此时，推送***可以从数据库中获取任一个内容类别所对应的一个或者多个训练样本。

步骤102：确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题中出现的概率。

在本申请的一些实例中，上述推送***可以根据预定的主题模型算法对某一个内容类别对应的训练样本进行训练，从而确定该内容类别下的K个主题、每个主题的主题描述词以及每个主题描述词在任一主题中出现的概率，其中，主题描述词为用于描述一个主题的多个词语，K为正整数。

上述主题可以表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率不等的单词，这些单词与这个主题有一定的相关性。在本申请的实例中，将这些与主题有一定相关性的单词称为主题描述词。例如，每个训练样本的主题就表示该训练样本的主要内容、主要概念以及主要方面。而且，每个主题都有一个或者多个对应的主题描述词。

具体的，在本申请的一些实例中，上述推送***可以采用隐含狄利克雷分布(Latent Dirichlet allocation，LDA)算法训练所述训练样本，确定该内容类别下的K个主题以及这K个主题对应的多个主题描述词。比如，当其中一个训练样本为体育类的新闻资讯时，该资讯中描述的是有关皇马和马竞的比赛，则通过LDA算法可以确定该训练样本的主题可以为“皇马”和“马竞”，其中，描述主题“皇马”的主题描述词可以有C罗、贝尔和本泽马等，而描述主题“马竞”的主题描述词可以有格里兹曼、萨维奇和托雷斯等。

在本申请的实例中，除了LDA算法之外，还可以通过其他的主题模型算法对某一内容类别对应的一个或多个训练样本进行训练即可以得到该内容类别的K个主题以及描述各个主题的主题描述词，例如，通过概率潜在语义分析(Probabilistic Latent SemanticAnalysis，PLSA)模型算法等主题模型算法均可以得到该内容类别的K个主题以及描述各个主题的主题描述词，本申请对此不进行限定。

通过上述主题模型算法还可以得到一个主题包含各个主体描述词的概率分布，该分布又可称为主题-词向量。每个主题-词向量对应一个主题，其中的每个元素代表这个主题包含某个主题描述词的概率，也即某个主题描述词在该主题中出现的概率。进一步，根据各个主题对应的主题-词向量即可得到每个主题描述词在任一主题出现的概率。

步骤103：根据每个主题描述词在任一主题出现的概率确定所述内容类别的词-主题向量。

在本申请的一些实例中，上述内容类别的词-主题向量具体可以是在一个内容类别下各个主题对某个主题描述词的影响占比分布。也即，每个主题描述词均可对应一个词-主题向量，其中的每个元素代表某一个主题对该主题描述词的影响占比，所述影响占比越大，表明该主题对该主题描述词的影响越大。

在一些实例中，一个内容类别的词-主题向量可以通过如下方法确定。具体而言，该方法具体可以包括：根据在某个内容类别下每个主题描述词在任一主题出现的概率计算得到在某个内容类别下各个主题对某个主题描述词的影响占比分布，将其作为所述内容类别中该主题描述词的词-主题向量。

在本申请的一些实例中，如前所述，通过上述主题模型算法在获得某一内容类别的K个主题以及每个主题的主题描述词的同时，还可以得到该内容类别中各个主题对应的主题-词向量，进而得到各个主题描述词在各个主题上出现的概率。

具体而言，在本申请的实例中，根据LDA算法可以确定每一个主题描述词在每一个主题上出现的概率，可以用下面的公式(1)表示：

其中，上述任一项向量元素表示各个主题描述词在主题i中出现的概率。由此可以看出，上述公式(1)其实是一个二维矩阵，每一个列向量为一个主题-词向量，对应一个主题，包含V个元素(V对应主题描述词的个数)，每个元素代表一个主题描述词在该主题中出现的概率，其中，该主题中所有词出现的概率之和为1；每个横向量对应一个主题描述词，包含K个元素(K对应主题的个数)，每个元素代表该主题描述词在一个主题中出现的概率，其中，上述K个元素之和不等于1。

具体地，上述公式(1)中的每个元素，也即某个主题描述词c在主题i中出现的概率可以用下面的公式(2)表示：

其中，表示主题描述词c在主题i中出现的概率，n_i,c表示主题描述词c在主题i中出现的次数，β_c和β_j为概率平滑因子，代表所有主题描述词在主题i上出现的次数之和。

然后，根据上述公式(1)和公式(2)可以计算得到每一个主题对主题描述词c的影响占比分布也即得到主题描述词c的词-主题向量，其中，主题描述词c属于主题描述词集合V。例如，可以首先对上述公式(1)所示的矩阵转置，然后再对每个列向量的值进行归一化处理，从而得到各个主题描述词对应的词-主题向量。

在本申请的一些实例中，可以通过如下公式(3)表示每一个主题对主题描述词c的影响占比分布

其中，上述任一项向量元素W_c,i表示主题i中出现主题描述词c的概率与主题描述词c在该内容分类下的所有主题中出现概率的比值(或称为主题i对主题描述词c的影响占比)。

具体地，主题i包含主题描述词c的概率分布可以用下面的公式(4)表示：

其中，表示主题描述词c在主题i中出现的概率，且可以用上述公式(2)表示，表示主题描述词c在所有主题上出现的概率之和。由此可以看出，通过上述公式(4)将词-主题向量的各个元素的值进行了归一化处理，使得这V个元素之和为1。此时，每个元素代表该主题对一个主题描述词的影响占比。

例如，表示主题描述词“王菲”在主题“音乐”中出现的概率，则表示主题描述词“王菲”在娱乐这一内容分类(例如，内容分类“娱乐”包括“音乐”、“综艺”、“新闻”等主题)中出现的概率(各个主题中出现的概率之和)，W_c,i则表示主题“音乐”对主题描述词“王菲”的影响占比。

步骤104：确定所述词-主题向量与预先设定的背景向量之间的距离。

在本申请的实例中，上述距离可以是余弦距离。具体地，可以采用距离算法计算上述向量之间的距离，所述距离算法可以包括但不限于信息增益算法或JS散度算法等等。

在本申请的实例中，上述背景向量又可称为噪音向量，通常为平均分布。在本申请的实例中，背景向量的任一项可以设置为任意值，例如可以设置为取值也可设置为取值其中，K为该内容类别的主题数，V为该内容类别的主题描述词的数目。上述背景向量代表的含义为意义不突出的词(如“我们”)在任一主题中均出现，且出现的概率相同。而意义比较突出的词(如“林丹”)则在某一个主题(如“体育”)中出现的概率较大，因而不是背景向量。本申请实例的目的是选取特征词，从而选取意义比较突出且特点比较鲜明的词作为特征词较好，因此，在上述方法中引入背景向量可去除意义不突出词的影响，提高特征词选取的准确性。

例如，预设的背景向量为其中，K为主题个数。在本申请的实例中，可以使用JSD(Jensen-Shannon Divergence，JS散度，是Kullback-Leiblerdivergence(KLD)的一个变种)算法计算向量与背景向量之间的距离，即可以用公式(5)表示：

其中，D_KL为信息增益。

步骤105：根据所述距离确定所述内容类别的N个第一特征词。

在一些实例中，所述根据所述距离确定该类别下的N个第一特征词可以包括：根据所述距离从大到小对上述主题描述词进行降序排序，将其中的前N个主题描述词确定为该类别下的第一特征词。

或者，在一些实例中，所述根据所述距离确定该类别下的N个第一特征词可以包括：预先设定阈值，将所述距离达到预定阈值的N个词确定为该类别下的第一特征词。

如此，可以将上述N个第一特征词作为该内容类别的特征词。

在上述方法中，通过使用上述预定的主题模型算法能够考虑文本内容的上下文语境，从而解决了文本中存在的语义歧义(如一词多义或一义多词)的现象，因此，提高了特征词选取的准确性，而且也避免了单独使用现有特征词确定算法可能出现的低频词缺陷问题。

更进一步，为了进一步提高特征词选择的准确性，本申请的实例还提出了一种数据处理方法，该方法如图2所示，从图2可以看出，该方法在执行完上述步骤101-105之后，进一步执行如下操作：

步骤106：根据预定的特征词确定算法对所述训练样本进行训练确定所述内容类别的M个第二特征词。

其中，在本申请的实例中，可以采用常规的特征词确定算法，对所述训练样本进行训练确定所述内容类别的M个第二特征词，其中，M为自然数。上述常规的特征词确定算法可以是如互信息，文档频率，卡方检验等等算法，本申请对此不限定。

步骤107：将所述N个第一特征词和所述M个第二特征词求交集，确定所述内容类别对应的一个或多个特征词。

在本申请的一些实例中，推送***可以通过预定的主题模型算法得到N个第一特征词，更进一步，还可以通过预定的特征词确定算法得到M个第二特征词，在本步骤中，可以将N个第一特征词组成的集合和M个第二特征词组成的集合求交集，得到的特征词集合，记为该内容类别下的特征词。

通过上述方法可以看出，在上述方法中，先通过主题模型训练得到一组特征词集合，再通过另外的特征词确定方法确定另外一组特征词集合，并通过求交集的方法确定最终的特征词集合，综合了不同特征值确定算法之间的优势，使得特征词的选择更为准确。

例如，采用上述LDA主题模型、JS散度算法和卡方校验算法结合筛选出的体育类别下的特征词如下：

韦德，林书豪，鲁能，格里芬，滑雪，女排，范加尔，波什，赛车，诺维茨基，高尔夫，车手，卡戴珊，快船，周琦，巴特勒，车队，国王，林丹，邹市明，特塞德，棋手，内马尔，男排，库里，丁俊晖，考辛斯，厄齐尔，广厦，女篮，温格，苏亚雷斯，开拓者，利拉德，热火，柯洁，小牛，滑雪场，斯诺克，梅西，穆里尼奥，哈登，鲁尼，苏宁，瓜帅，邵佳一

其中，被筛选排除的特征词如下：

不济，金荷娜，劲儿，外地，仙境，牛奶，鞍山，风景线，铁丝，钱宝，韩雨，真人，回帖，发文，幻想，黑鱼，大连市，体育部，先客，维利，香味，专业性，胡比，火焰，旋风，革新，局面起因，大势，新兵，肘关节，电影院，块钱，园区，雪友，肢体冲突，难民，博大精深，公安部

在一些实例中，可以对所有文本类别的训练样本分别执行上述操作，从而可以得到所有内容类别对应的特征词，亦可称为特征词典。

更进一步，将通过上述方法得到的特征词典应用至文本分类之中，也即根据上述特征词词典可以建立分类模型，从而对新的未经过分类的文本内容进行分类。由于通过本申请上述方法所选择的特征词更为准确，因而使得基于上述各个内容类别的特征词的分类更为准确。更进一步，也使得基于这种分类的内容推送更为准确，更贴合用户的兴趣。

在一些实例中，上述推送***包括分类器，所述分类器可以根据所述特征词典和所述训练样本建立分类模型，其中，所述分类模型中可以确定所述媒体内容所述的内容类别、该内容类别下的特征词及所述特征词与该内容类别的相关度等等，其中，如前所述，所述内容类别下的特征词是根据所述相关度确定的。更进一步，上述分类器所确定的分类模型还可以对一个未经分类的媒体内容进行分类，如将文本内容的类别确定为“体育”，其中的特征词为“林丹”，且“林丹”与“体育”的相关度为85％，这里，所述相关度不是100％的原因是特征词“林丹”还可能会出现在其他类别中，如“娱乐”、“时尚”等。

本申请的实例还给出一种基于上述数据处理方法的文本内容推送方法。在此实例中，上述文本内容推送过程所适用的***可如图3所示，主要包括应用客户端31、应用服务器32、推送***33以及数据库34。其中，应用服务器、推送***以及数据库均可以集成在一个或者多个服务器端设备(单一的服务器设备或者集群服务器)上，且上述推送***可以包括特征选择模块、分类模块和推送模块。上述应用客户端31可以是新闻资讯类的应用客户端，例如，天天快报APP或者腾讯新闻APP等等。

图4示出了基于本申请提出的数据处理方法的文本内容推送过程的示意***互图。如图4所示，媒体内容推送过程包括如下步骤：

步骤401：推送***的特征选择模块从数据库中获取包含多个内容类别的训练样本。

步骤402：针对其中任一内容类别，推送***的特征选择模块采用LDA算法对该内容类别的训练样本进行训练，确定该内容类别下的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题中出现的概率，其中，K为正整数。

步骤403：推送***的特征选择模块根据上述LDA算法确定上述任一词语在每一个主题上的概率分布，得到词-主题向量

如前所述，上述词-主题向量可以使用上述公式(3)表示。

步骤404：推送***的特征选择模块取背景向量(或噪音向量)为并使用JSD)算法计算词-主题向量与上述背景向量之间的距离。

如前所述，可以使用上述公式(5)计算词-主题向量与上述背景向量之间的距离。

步骤405：推送***的特征选择模块根据上述步骤404中得到的距离值从大到小对上述主题描述词进行降序排序，将其中的前N个主题描述词作为此内容类别的第一特征词。其中，N为正整数。

步骤406：推送***的特征选择模块采用卡方检验算法选取每个内容类别的M个第二特征词。其中，M为正整数。

步骤407：推送***的特征选择模块将所述N个第一特征词和所述M个第二特征词求交集，确定所述内容类别对应的一个或多个特征词。

步骤408：推送***的特征选择模块将上述内容类别及其对应的特征词(将类别与词的对应关系称为特征词典)发送给推送***的分类模块。

步骤409：推送***的分类模块根据上述特征词典和训练样本进行训练，得到一个分类模型。

步骤410：推送***的分类模块从数据库中获取新的未分类的文本内容。

步骤411：推送***的分类模块先使用特征词典提取所述未分类的文本内容中的词语，并根据这些词语采用上述分类模型对所述未分类的文本内容进行分类。

步骤412：推送***的分类模块将上述分类完成的文本内容存入数据库，并标识其对应的内容类别。

步骤413：应用客户端向应用服务器发送页面数据获取请求，所述页面数据获取请求携带用户标识。

步骤414：应用服务器内部的推送***响应上述页面数据获取请求，根据所述用户标识从应用服务器内部的数据库获取该用户的属性，并根据该用户的属性以及各个文本内容的内容类别确定准备推送给该用户的文本内容。

在本申请中，上述推送***可以根据各种现有的匹配算法依据用户的属性以及文本内容的内容类别确定推送给用户的文本内容，本申请对此不进行限定。

步骤415：推送***将所述准备推送给所述应用客户端的文本内容发送给应用服务器，所述应用服务器所述准备推送的文本内容发送给应用客户端。

步骤416：应用客户端展示所述文本内容。

如此可以看出，通过上述技术方案，推送***可以准确的确定各个内容类别的特征词，从而提高对新文本内容分类的准确度，进而提高了给用户推送文本内容的准确度，实现了文本内容的精准投放，从而改善了推送***的性能。

对应上述方法，本申请的实例还公开了实现上述数据处理方法的数据处理装置500，可以应用于推送***中，用于确定各个内容类别的特征词。

如图5所示，该数据处理装置500主要包括：

获取模块501，获取一个内容类别的训练样本。

主题确定模块502，用于确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，其中，K为正整数；

向量确定模块503，用于根据所述每个主题描述词在任一主题出现的概率，确定所述内容类别的词-主题向量；

距离确定模块504，用于确定所述词-主题向量与预先设定的背景向量之间的距离；以及

特征词确定模块505，用于根据所述距离确定所述内容类别的N个第一特征词；其中，N为正整数。

在本申请的一些实例中，上述装置还可以进一步包括：

训练模块506，用于根据预定特征词确定算法对所述训练样本进行训练，确定所述内容类别的M个第二特征词；其中，M为正整数；以及

所述特征词确定模块505进一步用于将所述N个第一特征词和所述M个第二特征词求交集，确定所述内容类别对应的一个或多个特征词。

在本申请的一些实例中，上述装置还可以进一步包括：

分类模块507，用于根据所有内容类别的特征词及所述训练样本建立分类模型；以及根据所述分类模型对未经分类的文本内容进行分类，确定所述未经分类的文本内容的内容类别、该文本内容所包含的特征词及所述特征词与所述内容类别的相关度。

图6示出了数据处理装置500所在的计算设备600的组成结构图。如图6所示，该计算设备包括一个或者多个处理器(CPU)602、存储器604、用户接口606，以及用于互联这些组件的通信总线608。

用户接口606包括一个或多个输出设备612，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口610也包括一个或多个输入设备614，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器604可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器604存储处理器602可执行的指令集，包括：

操作***616，包括用于处理各种基本***服务和用于执行硬件相关任务的程序；

应用618，包括用于数据处理的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图5所示的数据处理装置500中的部分或全部单元。各单元或模块501-507中的至少一个模块可以存储有机器可执行指令。处理器602通过执行存储器606中各模块501-507中至少一个模块中的机器可执行指令，进而能够实现上述各模块501-507中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。例如，对应上述数据处理方法和装置，本申请的实例还提供了一种计算机可读存储介质，其上存储有计算机指令，其中，所述计算机指令被处理器执行时实现上述数据处理方法的步骤。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和/或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图5中的模块对应的机器可读指令可以使计算机上操作的操作***等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

另外，在本申请各个实例中的装置及各模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的较佳实例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种数据处理方法，其中，该方法包括：

获取一个内容类别的训练样本；

确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，其中，K为正整数；

根据所述每个主题描述词在任一主题出现的概率确定所述内容类别的词-主题向量；

确定所述词-主题向量与预先设定的背景向量之间的距离；以及

根据所述距离确定所述内容类别的N个第一特征词；其中，N为正整数。

2.根据权利要求1所述的方法，其中，所述方法进一步包括：

根据预定特征词确定算法对所述训练样本进行训练，确定所述内容类别的M个第二特征词；其中，M为正整数；以及

将所述N个第一特征词和所述M个第二特征词求交集，确定所述内容类别对应的一个或多个特征词。

3.根据权利要求1所述的方法，其中，所述方法进一步包括：

根据所有内容类别的特征词及所述训练样本建立分类模型；

根据所述分类模型对未经分类的文本内容进行分类，确定所述未经分类的文本内容的内容类别、该文本内容所包含的特征词及所述特征词与所述内容类别的相关度。

4.根据权利要求1所述的方法，其中，所述确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率包括：根据隐含狄利克雷分布算法确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率。

5.根据权利要求4所述的方法，其中，所述每个主题描述词在任一主题出现的概率由如下公式表示：

其中，所述任一项向量元素由如下公式表示：

6.根据权利要求1所述的方法，其中，所述确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率，包括：根据概率潜在语义分析算法确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率。

7.根据权利要求1所述的方法，其中，所述根据所述每个主题描述词在任一主题出现的概率确定所述内容类别的词-主题向量包括：根据在所述内容类别下每个主题描述词在任一主题出现的概率计算各个主题对各个主题描述词的影响占比分布作为各个主体描述词对应的词-主题向量。

8.根据权利要求7所述的方法，其中，主题i对主题描述词c的影响占比为主题i中出现主题描述词c的概率与主题描述词c在所述内容类别下的所有主题中出现的概率的比值，通过如下公式计算：

其中，表示主题描述词c在主题i中出现的概率；表示主题描述词c在所述内容类别下各个主题上出现的概率之和。

9.根据权利要求1所述的方法，其中，所述背景向量为平均分布；

所述确定所述词-主题向量与预先设定的背景向量之间的距离包括：

利用信息增益算法或JS散度算法距离算法计算所述词-主题向量与所述背景向量之间的距离。

10.根据权利要求1所述的方法，其中，所述根据所述距离确定所述内容类别下的N个第一特征词包括：

根据所述距离从大到小对上述主题描述词进行降序排序，将其中的前N个主题描述词确定为所述内容类别下的第一特征词；或者

预先设定阈值，将所述距离达到预定阈值的N个词确定为所述内容类别下的第一特征词。

11.根据权利要求2所述的方法，其中，所述根据预定特征词确定算法包括：互信息算法、文档频率算法或卡方检验算法。

12.一种数据处理装置，其中，包括：

获取模块，用于获取一个内容类别的训练样本；

13.根据权利要求12所述的装置，其中，所述装置进一步包括：

训练模块，用于根据预定特征词确定算法对所述训练样本进行训练，确定所述内容类别的M个第二特征词；其中，M为正整数；以及

所述特征词确定模块进一步用于将所述N个第一特征词和所述M个第二特征词求交集，确定所述内容类别对应的一个或多个特征词。

14.根据权利要求12所述的装置，其中，所述装置进一步包括：

分类模块，用于根据所有内容类别的特征词及所述训练样本建立分类模型；以及根据所述分类模型对未经分类的文本内容进行分类，确定所述未经分类的文本内容的内容类别、该文本内容所包含的特征词及所述特征词与所述内容类别的相关度。

15.一种存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至11任一项所述的方法。