CN112052306A

CN112052306A - 识别数据的方法和装置

Info

Publication number: CN112052306A
Application number: CN201910491007.0A
Authority: CN
Inventors: 程翔
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-08
Anticipated expiration: 2039-06-06
Also published as: CN112052306B

Abstract

本发明公开了识别数据的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：对多条待识别数据进行分词，得到待识别词，以生成待识别词的词向量集合和词频次集合；分别从待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，目标待识别数据为多条待识别数据中的任意一条；将目标待识别数据的词向量输入到预先训练的识别模型中，得到目标待识别数据的主题和情感；根据目标待识别数据的词频次、正面词语集合和负面词语集合得到目标待识别数据的情感倾向值。该实施方式提高了数据识别的准确性。

Description

识别数据的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别数据的方法和装置。

背景技术

现有识别数据的技术包括：无监督的贝叶斯模型、短文本主题模型和短文本情感主题模型。无监督的贝叶斯模型和短文本主题模型无法识别出数据的情感，短文本情感主题模型可以识别出数据的情感。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

短文本情感主题模型是根据训练数据得到词对，基于词对得到模型，从而用模型进行识别。词对中的词可能不属于同一主题，也可能是情感极性相反的词，并且，根据词对只能识别出情感极性，无法确定情感程度。因而，词对的噪音使现有技术存在数据识别的准确性不高的问题。

发明内容

有鉴于此，本发明实施例提供一种识别数据的方法和装置，能够提高数据识别的准确性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别数据的方法。

本发明实施例的识别数据的方法，包括：

对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合；

分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条；

将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感；

根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

在一个实施例中，根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值，包括：

根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值；

统计所述目标待识别数据中，属于正面词语集合的词的第一数量，属于负面词语集合的词的第二数量；将所述第一数量与所述第二数量的差作为所述目标待识别数据的情感值；

将所述目标待识别数据的逆文本频率指数值和所述目标待识别数据的情感值的乘积作为所述目标待识别数据的情感倾向值。

在一个实施例中，根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值，包括：

对于所述目标待识别数据中每个词，对所述词的词频次的倒数进行取对数处理，得到的值作为所述词的逆文本频率指数值；

将所述目标待识别数据中每个词的逆文本频率指数值的和作为所述目标待识别数据的逆文本频率指数值。

在一个实施例中，所述识别模型的训练方法包括：

对多条训练数据进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条训练数据；

对所述经处理的多条训练数据进行分词，得到训练词；

根据所述训练词生成所述训练词的词向量集合；

根据预先设置的参数值、所述训练词的词向量集合和所述多条训练数据得到所述识别模型。

在一个实施例中，根据预先设置的参数值、所述训练词的词向量集合和所述多条训练数据得到所述识别模型，包括：

预先设置主题数量、情感数量、主题参数值、情感参数值和词参数值，根据所述主题数量和所述情感数量分别从所述训练词的词向量集合中得到主题集合和情感集合，从所述多条训练数据中得到所述训练词的各个词向量的热度；

根据所述主题集合、所述训练词的词向量集合、所述训练词的各个词向量的热度和所述主题参数值得到主题模型；根据所述主题集合、所述情感集合、所述训练词的各个词向量的热度和所述情感参数值得到情感模型；根据所述主题集合、所述训练词的词向量集合、所述情感集合和所述词参数值得到词模型；所述识别模型包括所述主题模型、所述情感模型和所述词模型。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种识别数据的装置。

本发明实施例的识别数据的装置，包括：

处理单元，用于对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合；

匹配单元，用于分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条；

第一识别单元，用于将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感；

第二识别单元，用于根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

在一个实施例中，所述第二识别单元用于：

在一个实施例中，所述第一识别单元用于：

对所述经处理的多条训练数据进行分词，得到训练词；

根据所述训练词生成所述训练词的词向量集合；

在一个实施例中，所述第一识别单元用于：

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的识别数据的方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例提供的识别数据的方法。

上述发明中的一个实施例具有如下优点或有益效果：对多条待识别数据进行分词，得到待识别词，以生成待识别词的词向量集合和词频次集合，分别从待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次，将目标待识别数据的词向量输入到预先训练的识别模型中，得到目标待识别数据的主题和情感，识别依靠的是词向量而不是词对，减少了词对的噪音对识别准确性的影响，根据目标待识别数据的词频次、正面词语集合和负面词语集合得到目标待识别数据的情感倾向值，不光确定了数据的情感极性，也确定了数据的情感程度，提高了数据识别的准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是现有技术中NNLM模型示意图；

图2是现有技术中Word2Vec神经网络架构示意图；

图3是根据本发明一实施例的识别数据的方法的主要流程的示意图；

图4是根据本发明一实施例的识别数据的方法中正面词语集合和负面词语集合的示意图；

图5是根据本发明一实施例的识别数据的方法中生成待识别词的词向量集合和词频次集合的流程示意图；

图6是根据本发明另一实施例的识别数据的方法中的多条待识别数据的示意图；

图7是根据本发明另一实施例的识别数据的方法中的一个应用场景示意图；

图8是根据本发明另一实施例的识别数据的方法中的情感和主题的示意图；

图9是根据本发明另一实施例的识别数据的方法中的准确率对比图；

图10是根据本发明另一实施例的识别数据的方法中的召回率对比图；

图11是根据本发明另一实施例的识别数据的方法中的F值对比图；

图12是根据本发明另一实施例的识别数据的方法中的识别模型的架构示意图；

图13是根据本发明实施例的识别数据的装置的主要单元的示意图；

图14是本发明实施例可以应用于其中的示例性***架构图；

图15是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以互相组合。

主题模型通俗来讲就是将一些文档归类于某一种主题之下，LDA(LatentDirichlet Allocation)是一种无监督的贝叶斯模型，包含词、主题和文档的三层结构。在训练模型时不需要手工来标注训练集，只需要文本的数量级以及指定的主题数量，且每一个主题均可以找到一些词语来描述相应的主题。文档到主题服从多项式分布，主题到词也服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

要想实现文档主题的无监督自动化分，最好的机器学习办法就是进行聚类，聚类的结果也应当是一个概率值，好在贝叶斯学派为机器学习提供了一种后验形式的概率模型“贝叶斯模型”。贝叶斯模型：

P(χ│y)＝(P(χ,y))/(P(y))＝(P(χ)P(y|χ))/(P(y))

通过贝叶斯模型可以很好的实现x与y的互换，也就是要得到P(χ|y)，我们只需要转化得到P(y|χ)，通过先验以及似然的不断更新计算来得到后验概率。

一段话中的每个词我们认为都是一定概率选择了某个特定的主题，而这个主题又是由一定概率的词来决定的，因此概率上存在：P(词|文档)＝P(词|主题)*P(主题|文档)这样的关系，因此只需不断的改进更新词与主题的概率以及主题与文档的概率即可得到，看是否拟合已知的P(词|文档)的概率，从而得到大致的主题所在。因此LDA的生成过程可以概述为：

P(w│d)＝P(w│t)*P(t|d)

其中(w代表单词，d代表文档，t代表主题，大写则代表小写个体的集合)D中的每个d可以视作词集<w1,w2,w3…wn>，wi则代表第i个词。D中所有的单词汇聚成一个大的词汇表集合V，LDA以D作为输入得到两个结果集：

(1)对D中的每个d对应到不同的t的概率Ptd<pt1,pt2,…,ptk>，其中pti代表d对应于k个主题中第i个主题t的概率，pti＝nti/n，nti表示文档d中对应于第i个主题t的个数，而n表示的则是d中所有单词的个数。

(2)对每个T中的主题t生成不同单词的概率Ptw<pw1,pw2,…pwm>，pwi表示的是t生成V中的第i个单词的概率，pwi＝nwi/n，其中nwi表示对应到t的V中第i个单词的数量，n表示的是对应到这个t的所有单词的数量。

通过这个公式LDA就可以做到以t(主题)作为中间层，通过Ptd以及Ptw来得到文档d中出现w的概率，对于任意一个单词w我们都可以计算得到P(w|d)，而这个产生的值来更新这个词对应的Ptd和Ptw，不断迭代优化后我们就可以得到一个优化的值，就会收敛到LDA想要得到的结果，最后要得到我们想要的P(t|d)，即通过单词来得到文档属于哪一个主题，我们只需要输入分词后的文档即可找到主题。

后验概率∝先验概率*似然函数

先验概率是我们对事件的理论估算值，似然函数是我们对已发生事件的观测值，而后验概率就是实际这个事件发生的概率，当先验概率与后验概率在函数形式上是相同的，只有参数是相差或相同的，为了便于计算，这时就称之为共轭分布。

自然语言词表示技术：

1、One-Hot词向量算法

One-Hot词向量编码方式是一种比较直观的词向量表示方式，表示方法就是采用一位有效的向量来表示词语，例如“我觉得苹果手机很好用。”在分词后变成“我/觉得/苹果/手机/很好/用”，“我”可以表示成向量[1,0,0,…,0]，“觉得”表示成[0,1,0,…,0]，“苹果”表示成[0,0,1,…,0]，…，一个纬度代表一个词，如果我们的分词结果集中含有1万个词，那么我们可能就需要一个1万纬度的向量，且每个词向量都只有一个维度是1，而剩余的9999个纬度均为0。

采用这种算法表示的词向量在词典规模较大时，向量会变得十分庞大，而且在组成矩阵运算的时候会变得十分稀疏。同时这样的词向量之间点乘均为0，也就是说词之间是没有相关性的，依然无法很好的解决我们的问题。而且这样的词向量表示方法在文档或评价语句中并没有反应出词的权重以及词在句子或文档中出现的先后顺序。

2、n-gram算法

n-gram是基于词的上下文之间相关性，以及词在句子或文档中出现的先后顺序而考虑的一直词向量生成办法，使用前n-1个词向量来预测下一个词，即第n个词。当n＝1时，可以理解为句子中的词是前后文无关的，只与在句子中的出现顺序有关，例如“我喜欢苹果手机”，采用1-gram划分词向量索引表示就会成为：我1，喜欢2，苹果3，手机4，而采用2-gram表示词向量索引则会划分为：我喜欢1，喜欢苹果2，苹果手机3。

当n＝1时,一元模型(unigram model)即为：

当n＝2,二元模型(bigram model)即为：

当n＝3,三元模型(trigram model)即为：

c(w1,..,wn)c(w1,..,wn)表示n-gram中w1,..,wn在训练语料中出现的次数，M是语料库中的总字数，对于一元模型而言：

P(wi)＝C(wi)M

对于bigram model而言，

P(wi|wi-1)＝C(wi-1wi)C(wi-1)

对于n-gram model而言，

P(wi|wi-n-1,…,wi-1)＝C(wi-n-1,…,wi)C(wi-n-1,…,wi-1)

这样的离散方式表示词向量虽然考虑到了词的顺序，但是却无法动态的更新我们的词向量，词表的扩展变得很难，同时会造成数据稀疏的问题，同时对于词典的依赖也是很强的，扩展性不是很好。

3、分布式表示词向量

为了得到做够精确的词向量，作为后续的深度学习的输入和表示空间，我们需要得到一组既能够表示词之间相关性的词向量表示方法，又可以将10000的纬度降低一些。早在1986年就有一篇关于词向量的表示方法的论文Learning DistributedRepresentations od Concepts中提出一种方式来解决One-Hot的这两种问题，就是词向量的分布式表达(Distributed Representation)，就是将语言集中的每一个词映射到一个定长的向量中表示，这样不仅可以解决词向量稀疏的问题(也就是大部分元素都是零)，同时词语之间也开始变得相关起来，形如[0.213,0.025,…,-0.371]这样的表示形式来表示一个词语，而将这些向量组合在一起就可以构建一个词向量空间，这样不仅方便于计算词与词之间的相关性，同时也使得词之间的距离变成可计算的，不同语言词语之间的相互映射和转换也变得不再复杂，这样的词向量用于不同语言之间的翻译可以得到90％以上的准确率。

4、NNLM神经网络语言模型

NNLM是在词向量的基础上最早由Bengio***化提出，并引入到语言模型中进行了深入研究后提出的，使用了非对称的前向窗函数，窗口长度为n-1，计算规模也是基于语料库的大小的，目的是通过前n-1个词来预测位置t处的词语，计算出目标函数：

而概率P是要要满足归一化条件，即对于整个词典V来说，位置t处可能出现的词典中词的概率和为1：

如图1所示，Softmax是NNLM神经网络的输出层，是作为一个线性多分类器的作用，对词典V中的所有词组做了归一化操作，计算出各个词组在第t个位置可能出现的概率，遍历到概率最大的一项作为输出。

NNLM最底层，也就是输入层，是由于开始训练模型时，词向量的表示形式是未知的，为了进行初步的可计算表示，故采用不同的下标index来对词建立稀疏的向量表示，用指定的index来表示位置t前的第n+1，…，2，1共n-1个词，称之为n-1个前向词，先采用one-hot来建立一个纬度为n-1维的稀松矩阵，每一行中只有某一维的值是1，而其他纬度全部为0。接下来对这个稀松的矩阵进行降维以及稠密的矩阵投影，就要用到Table look-up In C方法，C矩阵是投影矩阵，也是稠密词向量表示，例如输入的稀松矩阵用5000维来进行表示，为了得到一个100微的稠密结果向量，就需要用1*5000的向量乘以5000*100的矩阵，这样就会得到1*100的向量。

NNLM神经网络语言模型只有一个隐层，而这个隐层就是要在我们刚刚对稀松矩阵进行稠密化投影后得到的向量集上进行计算，最终得到概率模型的输出。

5、Word2Vec简介

Word2Vec是一种神经网络架构的概率语言模型，由Google公司于2013年发布，特别适合从大规模语料中获取高精度词向量模型。

在机器学习中，由于有监督的学习是基于标准化的数据集的，因此有监督的学习效果是优于无监督的学习的，但是有监督的学习是要依靠大量的标准结果集。Google在NNLM的基础上又进行了进一步的优化，提出位置t处的词由周边的已知的n个词来推测的方式，并命名为Word2Vec。

Word2Vec架构如图2所示，包括：输入层、投影层、隐含层、输出层。其中的W代表投影层与隐含层之间的权值矩阵，P表示隐含层上的偏置向量，U表示输出层与隐含层之间的权值矩阵，q表示输出层的偏置向量。

我们假设输入语料为C，语聊中共有m个词组，也就是说初始的稀松词向量长度是m。遍历C中的每一个词w，则我们用Context来表示其前面n-1个词，这样就会产生二元组(Context(w),w)，这个二元组就可以作为神经网络的输入层。

语料C和词向量的维度m都是确认的，由此我们就可以确定输入层和投影层的规模：输入层包含有n-1个词向量，而投影层的Xw可以通过将输入层的n-1个词向量按照顺序首位拼接起来，形成一个长度为m(n-1)的向量。

隐藏层中以tanh双曲线正切函数作为激活函数，投影层与隐含层之间的权值矩阵与Xw的乘积加上偏移量p，就得到Zw，隐藏层的计算公式如下：

Zw＝tanh(Wxw+p)

输出层通过隐藏层计算得出的Zw乘以权值矩阵U，再加上偏移量计算得到Yw，Yw是一个长度为N的向量，公式如下：

Yw＝UZw+q

最终的输出结果还需要通过softmax函数计算得到：

输出层是一颗Huffman树，每个叶子节点都代表一个词语，因此输出层的纬度为m，即C中所有词语的数目。

6、CBOW模型

Continuous Bag-of-Words Model模型是Word2Vec最重要的模型，NNLM的输入是第t个词之前的n-1个词，而CBOW在此基础上扩大了输入，将周围词的词向量作为输入，而输出则是预测词的词向量，即通过周围的词来预测当前位置的词。

CBOW模型包括三层：输入层，投影层和输出层。输入层Context(w)中有2c个词的词向量，t位置的单侧词向量个数为c，则词向量的长度依然为m。投影层与NNLM不同的是不在做收尾相接了，而是对2c个词向量做累加求和操作。同时CBOW中去掉了计算量较大的隐藏层，将投影层直接连接输出层。输出层对应的是一棵Huffman树，将语料库中所有的词都作为叶子节点，以各个词出现的次数作为权值来构造。

LDA是一种反应主题、数据和词语三者之间关系的概率模型，采用LDA对待识别数据进行识别，只能识别出待识别数据的主题和词语。但只识别出主题是不够的，待识别数据的情感也是至关重要。

Yan等在2013年提出短文本主题模型(Biterm Topic Model，简称BTM)，BTM同时适用于长文本和短文本的识别,BTM用整个语料库的词共同学习隐含主题并建模，用模型识别数据。但BTM仅考虑主题，不考虑情感。熊蜀峰等针对文本提出短文本情感主题模型(SSTM)，SSTM相比BTM增加了情感层,能够对待识别数据同时进行主题和情感的识别。

SSTM与BTM类似,只是在采样得到主题分布后,相对于每个主题又生成情感分布,对每个主题下的每个情感生成词分布,从词分布中选择词对。SSTM的生成模型的过程如下:

1采样得到全局的主题分布θ～()Dirα；

2针对每个主题z∈θ生成情感分布π～()Dirγ；

3针对每一种情感s∈π生成词分布

～()Dirβ；

4针对集合中的每个词对:1)选取一个主题分配z Mulit～()θ；2)从主题对应的情感分布中选取一个情感s～()Mulitπ；3)从情感对应的词分布中选取一个词对w wij,～Mulit()

。基于1)、2)、3)和4)构建模型。

SSTM将范围缩小到了固定窗口内的两个词语。例如，训练数据是：音质清晰，但音量太小。由训练数据得到5个词对：(音质，清晰)、(音质，音量)、(音质，小)、(清晰，音量)、(清晰，小)、(音量，小)，词对应具有相同的主题和相同的情感极性，基于这5个词对进行建模，得到SSTM的模型。SSTM虽然解决了语义稀疏的问题，但引入了新的问题：

第一，词对中的词不属于同一主题。例如，训练数据是：音质清晰，但音量太小。得到的5个词对中有三个词对明显不属于同一主题：(音质，小)、(清晰，音量)和(清晰，小)。SSTM认为对整个语料库(语料库是指词对)进行全局的统计可以减少这个问题，且这个问题出现的次数不多。

第二，词对中的词的情感极性相反。例如，训练数据是：功能完善,但外形难看。得到的词对是(完善,难看)，这个词对中的词的情感极性明显相反。

综上所述，SSTM的词对具有噪声，词对的噪声对识别准确性产生了严重影响，仅靠对整个语料库进行全局的统计并不能消除这个影响。并且，SSTM根据词对只能识别出情感极性(词对的情感极性就是识别出的情感极性)，无法确定情感程度，SSTM的识别准确性不高。

为了解决现有技术存在的问题，本发明一实施例提供了一种识别数据的方法，如图3所示，该方法包括：

步骤S301、对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合。

在该步骤中，待识别数据可以是物品评价数据、电影评价数据、视频评价数据或新闻评价数据等短文本。该步骤的实施可以参考图5所示实施例。

步骤S302、分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条。

在该步骤中，需说明的是，目标待识别数据可以是多条待识别数据中的任意一条，也可以是至少一条。目标待识别数据中包括的待识别数据的数量不影响对每个待识别数据的识别，对每个待识别数据的识别过程都相同，识别过程均是步骤S302、步骤S303和步骤S304描述的过程。

步骤S303、将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感。

在该步骤中，应理解的是，目标待识别数据的主题和情感都是词语。需说明的是，步骤S303和步骤S304可以并行执行，也可以先后执行。

步骤S304、根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

在本发明实施例中，步骤S304可以包括：

根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值。

统计所述目标待识别数据中，属于正面词语集合的词的第一数量，属于负面词语集合的词的第二数量；将所述第一数量与所述第二数量的差作为所述目标待识别数据的情感值。

在该步骤中，具体实施时，如图4所示，正面词语集合包括正面评价词语(中文)、正面评价词语(英文)、正面情感词语(中文)和正面情感词语(英文)；负面词语集合包括负面评价词语(中文)、负面评价词语(英文)、负面情感词语(中文)和负面情感词语(英文)。正面词语集合和负面词语集合还可以包括程度级别的词语。正面词语集合和负面词语集合可以通过网上下载HowNet(是指情感词典)，并对其进行解压得到。下面以两个具体例子说明该步骤：例1：目标待识别数据中有10词，其中，8个词出现在正面词语集合，2个词出现在负面词语集合，8-2＝6，目标待识别数据的情感值为6。例2：目标待识别数据中有10词，其中，2个词出现在正面词语集合，8个词出现在负面词语集合，2-8＝-6，目标待识别数据的情感值为-6。另外，情感值的最小计算单位是单个词语。

情感值的表达式：

其中，word表示目标待识别数据中的所有词中的任意一个词；pword表示正面词语集合；nword表示负面词语集合；SO(word)表示目标待识别数据的情感值。

通过情感值的表达式可知，目标待识别数据中，若属于正面词语集合的词的第一数量，越大于属于负面词语集合的词的第二数量，则目标待识别数据的情感越正面，否则，目标待识别数据的情感越负面。

在该步骤中，具体实施时，情感倾向值的表达式：

SO-IDF＝SO(word)*(∑IDFo)；o∈E

其中，SO-IDF表示目标待识别数据的情感倾向值；SO(word)表示目标待识别数据的情感值；E表示目标待识别数据中所有词；o表示所有词中的任意一个词；IDFo表示词o的逆文本频率指数值。

另外，需说明的是，若只是将目标待识别数据的情感值作为目标待识别数据的情感倾向值，则目标待识别数据中每个词的权重就没有考虑到，也就是忽略了词对目标待识别数据的代表意义。若一个情感词在一个待识别数据中出现，而在其他待识别数据中出现次数少甚至没有出现，是不能忽略这个情感词的普遍重要性。例如，一个待识别数据包括：物流快，但是手机耗电快。“物流快”这个词在所有待识别数据中出现的次数很多，类似出现次数多的词语并不是用户真正想侧重表达的；“耗电快”这个词在所有待识别数据中出现的次数很少，类似出现次数少的词语才是用户真正想侧重表达的。因而，本发明实施例中情感倾向值的计算考虑了目标待识别数据中每个词的权重(通过词的词频次确定所述词的逆文本频率指数值，所述词的逆文本频率指数值作为所述词的权重)，目标待识别数据中每个词不是对等关系，因而，情感倾向值的计算更准确，进一步提高了数据识别的准确性。

在该实施例中，通过词频次，将词普遍重要性的度量作为计算情感倾向值的依据，减少情感倾向值的计算没有考虑词普遍重要性的度量导致的数据的情感程度不准确的问题，进一步提高了数据识别的准确性。

在本发明实施例中，根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值，包括：

对于所述目标待识别数据中每个词，对所述词的词频次的倒数进行取对数处理，得到的值作为所述词的逆文本频率指数值。

在该步骤中，具体实施时，逆文本频率指数值的表达式：

其中，E表示目标待识别数据中所有词；o表示所有词中的任意一个词；T表示词o的词频次；IDFo表示词o的逆文本频率指数值。

在该实施例中，通过目标待识别数据中每个词的词频次，将每个词的词普遍重要性的度量作为计算目标待识别数据的情感倾向值的依据，减少情感倾向值的计算没有考虑词普遍重要性的度量导致的数据的情感程度不准确的问题，进一步提高了数据识别的准确性。

在本发明实施例中，如图5所示，步骤S301可以包括：

步骤S501、获取多条待识别数据。

在该步骤中，采用java作为爬虫语言从电商服务器中抓取多条待识别数据。

步骤S502、对多条待识别数据进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条待识别数据。

在该步骤中，多条待识别数据使用excel文件存储，将excel文件转换为csv文件，使用Weka(是指怀卡托智能分析环境)工具对csv文件进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条待识别数据。其中，机械词汇是指重复性的词汇，例如，好的好的好的。短句是指语句包含的字数少于预设值的语句。预设值可以人为设置，例如，5。

步骤S503、对经处理的多条待识别数据进行分词，得到待识别词。

在该步骤中，具体实施时，可以采用python(是指一种计算机程序设计语言)的开源结巴(Gibbs)中文分词工具的精确模式对经处理的多条待识别数据进行分词。

步骤S504、统计待识别词中每个词在多条待识别数据中出现的次数，根据统计结果得到待识别词的词频次集合。

在该步骤中，使用结巴(Gibbs)中文分词工具的analyse函数对经处理的多条待识别数据进行迭代，从而统计出待识别词中每个词在多条待识别数据中出现的次数，根据统计结果得到待识别词的词频次集合。

步骤S505、根据待识别词生成待识别词的词向量集合。

在该步骤中，python提供gensim(是指一个用于从文档中自动提取语义主题的Python库)自然语言处理工具包，gensim中有多种自然语言处理的算法和模型，我们通过语句——from gensim.models import word2vec，从gensim中找到word2vec(是指一群用来产生词向量的相关模型)模型，采用word2vec模型根据待识别词生成待识别词的词向量集合，如此，相近词的余弦距离更近。另外，用word2vec模型生成词向量需预先设置最短词长度和隐藏层单元数量，最短词长度和隐藏层单元数量对于生成词向量来说至关重要，因而，需要不断调整这两个参数以达到最优。待识别词中词的数量与待识别词的词向量集合中词向量的数量相同。应理解的是，步骤S504和步骤S505可以并行执行，也可以先后执行，不影响本发明实施例的实施。

在本发明实施例中，所述识别模型的训练方法包括：

对多条训练数据进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条训练数据。

在该步骤中，训练数据的数据类型最好与待识别数据的数据类型相同，例如，训练数据和待识别数据均是物品评价数据。如此，可以提高数据识别的准确性。

对所述经处理的多条训练数据进行分词，得到训练词。

根据所述训练词生成所述训练词的词向量集合。

在本发明实施例中，根据预先设置的参数值、所述训练词的词向量集合和所述多条训练数据得到所述识别模型，包括：

预先设置主题数量、情感数量、主题参数值、情感参数值和词参数值，根据所述主题数量和所述情感数量分别从所述训练词的词向量集合中得到主题集合和情感集合，从所述多条训练数据中得到所述训练词的各个词向量的热度。

在该实施例中，具体实施时，根据主题数量采用结巴(Gibbs)采样方法从训练词的词向量集合中得到主题集合，根据情感数量采用结巴(Gibbs)采样方法从训练词的词向量集合中得到情感集合。并采用结巴(Gibbs)采样方法得到主题模型、情感模型和词模型。

主题模型的表达式：

情感模型的表达式：

词模型的表达式：

其中，j表示训练词的词向量集合中任意一个词向量；s表示主题集合中任意一个主题；i表示情感集合中任意一个情感；K表示主题数量；L表示情感数量；V表示训练词的词向量集合中词向量数量；α_s表示主题参数值；γ_i表示情感参数值；β_i,s表示词参数值；φ_j表示训练词的词向量集合中词向量j的热度；n_j,s表示主题s在词向量j中出现的次数；n_i,s表示情感i包含主题s的个数；n_j,,s表示词向量j在情感主题is中出现的次数；θ_j,s表示数据对应的主题概率分布；π_i,s,j表示主题对应的情感概率分布；

表示情感主题对应的词概率分布。n_j,s根据主题集合和训练词的词向量集合计算得到；n_i,s根据情感集合和主题集合计算得到；n_j,i,s根据主题集合、情感集合和训练词的词向量集合计算得到。注意，热度是指词向量j对应的训练数据的点赞数量或者支持数量(训练数据是物品评价数据时，支持数量是指物品评价数据的追加评价数据的数量)。由于训练数据的点赞数量或者支持数量表示了用户认可程度，所以，热度越高，该热度对应的待识别数据的主题和情感越具有代表性，该热度对应的待识别数据的主题概率和情感概率越高，故，基于热度训练识别模型，识别模型更准确，进一步提高了数据识别的准确性。

主题模型、情感模型和词模型都是狄利克雷函数，狄利克雷函数的表达式：

根据取值范围为[0,1]的随机变量x，我们假设出现x的情况为α，不出现x的情况为β，我们会有贝塔二项分布：

其中，gamma函数对于实数满足：

狄利克雷函数是二项分布的共轭先验分布在高纬度上的推广，我们假设出现情况i的概率为x_i，而实际出现的次数为α₁，由此我们可以推广出狄利克雷函数的上述表达式。

另外，下面以一具体例子说明对识别模型进行验证的过程：采用准确率、召回率和F值作为评价指标，设置不同的主题数量。

准确率的表达式：

召回率的表达式：

F值的表达式：

验证结果具体详见下面的表1：

K	Precision	Recall	F
				2	70.5％	84.3％	0.768
10	73.3％	85.9％	0.791
				30	77.4％	87.5％	0.821
50	81.5％	87.8％	0.845
				100	77.5％	89.1％	0.821
150	72.7％	87.6％	0.794

表1

由表1可以看出，当设置的主题数量为50，F值是84.5％，准确率达到最大值81.5％，召回率也在可接受范围内，因而，主题数量设置为50比较理想。

在该实施例中，基于词向量得到识别模型，进一步减少了词对的噪音对识别准确性的影响，得到识别模型还考虑了词向量的热度，进一步提高了数据识别的准确性。

为了解决现有技术存在的问题，本发明另一实施例提供了一种识别数据的方法，该方法包括：

第一步，如图6所示，采用爬虫语言从电商服务器中获取多条物品评价数据。

第二步，对多条物品评价数据进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条物品评价数据。

第三步，对经处理的多条物品评价数据进行分词，得到待识别词。

第四步，统计待识别词中每个词在多条物品评价数据中出现的次数，根据统计结果得到待识别词的词频次集合，根据待识别词和待识别词的词频次集合生成如图7所示的数据表，其中，第一列表示待识别词，属于第一列的一行表示一个词；第二列表示待识别词的词频次集合，属于第二列的这一行表示这个词的词频次。

第五步，根据待识别词生成待识别词的词向量集合。

第六步，从待识别词的词向量集合中匹配出目标物品评价数据的词向量，从待识别词的词频次集合中匹配出目标物品评价数据的词频次；其中，目标物品评价数据为多条物品评价数据中的任意一条。

第七步，将目标物品评价数据的词向量输入到预先训练的识别模型中，得到目标物品评价数据的主题和情感。得到的所有主题和所有情感具体如图8所示。

第八步，对于目标物品评价数据中每个词，对所述词的词频次的倒数进行取对数处理，得到的值作为所述词的逆文本频率指数值；将目标物品评价数据中每个词的逆文本频率指数值的和作为目标物品评价数据的逆文本频率指数值；统计目标物品评价数据中，属于正面词语集合的词的第一数量，属于负面词语集合的词的第二数量；将第一数量与第二数量的差作为目标物品评价数据的情感值；将目标物品评价数据的逆文本频率指数值和目标物品评价数据的情感值的乘积作为目标物品评价数据的情感倾向值。

将本发明实施例的方法与其他方法进行比对，其他方法包括无法识别出情感的LDA，基于词对可以识别出情感的SSTM。通过设置不同的主题数量，以准确率、召回率和F值作为评价指标进行比对，比对结果如下：

在准确率方面，如图9所示，主题数量设置为2，本发明实施例的方法(是指图9中的本文算法)的准确率略低于LDA的准确率和SSTM的准确率。主题数量设置为50，本发明实施例的方法的准确率达到峰值(即0.82)。主题数量增加，本发明实施例的方法的准确率开始下降，但本发明实施例的方法的准确率依然比LDA的准确率和SSTM的准确率的高。本发明实施例的方法的准确率和SSTM的准确率，均高于LDA的准确率。

在召回率方面，如图10所示，主题数量设置为2，本发明实施例的方法(是指图10中的本文算法)的召回率比LDA的召回率低。但随着主题数量增加，本发明实施例的方法的召回率呈总体增长的趋势。在主题数量达到50时，本发明实施例的方法的召回率达到峰值(即0.89)。本发明实施例的方法的召回率相比于LDA的召回率更稳定，总体呈现平缓趋势。

综合准确率和召回率，计算得到F值，如图11所示，在主题数量小于50时，本发明实施例的方法的F值呈现上升趋势。在主题数量达到50时，本发明实施例的方法(是指图11中的本文算法)的F值达到峰值(即0.84)。在主题数量达到100时，本发明实施例的方法的F值略低于SSTM的F值，主要是由于：在主题数量较多的情况下，采用词对的SSTM能够稀释噪音词语对主题划分所带来的干扰，随后，由于本发明实施例的方法的准确率的下降，影响到本发明实施例的方法的F值，使本发明实施例的方法的F值继续下降。但本发明实施例的方法的F值总体上比SSTM的F值和LDA的F值高。

从准确率、召回率和F值方面来看，本发明实施例的方法取得了较好效果，具有较好的聚类效果，同时，也验证了识别模型的合理性。

因而，识别模型的主题参数值为0.1，情感参数值(又称非对称狄利克雷先验参数)为(0.01,0.012,0.01)，词参数值为0.01，主题数量为50。

下面结合图12说明本发明实施例的原理：知道情感主题，可以确定对应的词，根据贝叶斯模型，可以反推出，确定了对应的词，就知道情感主题，因而，训练出情感主题[k,s]中的词分布。同理，在情感主题中，知道主题，可以确定对应的情感，根据贝叶斯模型，可以反推出，确定了对应的情感，就知道主题，因而，训练出主题k的情感分布。词、数据、主题和情感四者中，主题与数据相关，情感与主题相关，词与情感主题相关。

首先，根据多个训练数据生成主题分布θ_d～Dir(α)，在生成主题集K后，通过狄利克雷函数计算每个主题K对应的情感分布π_k～Dir(γ)。

再次，为第i个词从主题分布中选取一个主题z_i，计算所述词的情感l_i，通过所述词ω_i对

主题情感[k,s]的词分布情况建立多项分布

其中，图12中每个符号及说明具体详见下面的表2：

表2

本发明实施例中，识别模型是一种反应主题、情感、数据和词语之间关系的概率模型。利用识别模型可以得到待识别数据的主题和情感，还可以得到数据的主题概率分布(即主题模型)，主题的情感概率分布(即情感模型)，情感主题的词概率分布(即词分布)。通过本发明实施例提供的方法，对待识别数据进行识别，得到待识别数据的主题、情感和情感倾向值，通过主题、情感和情感倾向值可以确定哪些问题是用户满意的，哪些是用户不满意的，对用户不满意的物品、电影、视频或新闻等进行改进，从而提高用户体验度。

本发明实施例中，考虑到目标待识别数据中每个词的权重，得到目标待识别数据的逆文本频率指数值，将目标待识别数据的逆文本频率指数值和目标待识别数据的情感值的乘积作为目标待识别数据的情感倾向值。其原理是将TF-IDF算法与SO-HowNet算法融合，得到SO-IDF(Semantic Opinion Orientation–Inverse Document Frequency)算法。

上文结合图3-图12说明了识别数据的过程，下文结合图13说明识别数据的装置。

为了解决现有技术存在的问题，本发明实施例提供了一种识别数据的装置，该装置包括：

处理单元1301，用于对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合。

匹配单元1302，用于分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条。

第一识别单元1303，用于将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感。

第二识别单元1304，用于根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

在本发明实施例中，第二识别单元1304用于：

在本发明实施例中，第一识别单元1303用于：

对所述经处理的多条训练数据进行分词，得到训练词。

根据所述训练词生成所述训练词的词向量集合。

在本发明实施例中，第一识别单元1303用于：

应理解的是，本发明实施例提供的识别数据的装置的各部件所执行的功能已经在上述实施例一种识别数据的方法中做了详细的介绍，这里不再赘述。

图14示出了可以应用本发明实施例的识别数据的方法或识别数据的装置的示例性***架构1400。

如图14所示，***架构1400可以包括终端设备1401、1402、1403，网络1404和服务器1405。网络1404用以在终端设备1401、1402、1403和服务器1405之间提供通信链路的介质。网络1404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1401、1402、1403通过网络1404与服务器1405交互，以接收或发送消息等。终端设备1401、1402、1403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1401、1402、1403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1405可以是提供各种服务的服务器，例如对用户利用终端设备1401、1402、1403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的识别数据的方法一般由服务器1405执行，相应地，识别数据的装置一般设置于服务器1405中。

应该理解，图14中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图15，其示出了适于用来实现本发明实施例的终端设备的计算机***1500的结构示意图。图15示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图15所示，计算机***1500包括中央处理单元(CPU)1501，其可以根据存储在只读存储器(ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中，还存储有***1500操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括处理单元、匹配单元、第一识别单元和第二识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，处理单元还可以被描述为“对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合；分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条；将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感；根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

根据本发明实施例的技术方案，对多条待识别数据进行分词，得到待识别词，以生成待识别词的词向量集合和词频次集合，分别从待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次，将目标待识别数据的词向量输入到预先训练的识别模型中，得到目标待识别数据的主题和情感，识别依靠的是词向量而不是词对，减少了词对的噪音对识别准确性的影响，根据目标待识别数据的词频次、正面词语集合和负面词语集合得到目标待识别数据的情感倾向值，不光确定了数据的情感极性，也确定了数据的情感程度，提高了数据识别的准确性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别数据的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值，包括：

4.根据权利要求1所述的方法，其特征在于，所述识别模型的训练方法包括：

对所述经处理的多条训练数据进行分词，得到训练词；

根据所述训练词生成所述训练词的词向量集合；

5.根据权利要求4所述的方法，其特征在于，根据预先设置的参数值、所述训练词的词向量集合和所述多条训练数据得到所述识别模型，包括：

6.一种识别数据的装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。