CN109241529B

CN109241529B - 观点标签的确定方法和装置

Info

Publication number: CN109241529B
Application number: CN201810993285.1A
Authority: CN
Inventors: 赵慧; 魏进武; 刘颖慧
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2023-05-02
Anticipated expiration: 2038-08-29
Also published as: CN109241529A

Abstract

本发明提供一种观点标签的确定方法和装置。该方法包括：根据待处理的评论数据，确定待处理的关键词；根据所述待处理的关键词和word2vec模型，确定所述待处理的关键词对应的词向量；根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签。上述方法可批量地为评论数据打标签，和现有技术中通过人工方式逐条打标签的方法相比，大大地提高了打标签的效率。

Description

观点标签的确定方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种观点标签的确定方法和装置。

背景技术

通常，消费者在对某件商品做出是否购买的决策时，会参考已经购买，及已经有使用体验的购买者对该商品的评论。然而，购买者对商品的评论数据相当庞大，动辄就上千甚至上万，如何为该成千上万的评论打上观点标签是目前各商家面临的主要问题。

现有技术是通过人工的方式来分析提取评论数据中的评价观点，并根据提取到的观点为评论数据打标签。然而，通过人工的方式逐条打标签的方法人工成本高，且效率低下。

发明内容

本发明提供一种观点标签的确定方法和装置，用以提高为评论数据打标签的效率。

第一方面，本发明提供一种观点标签的确定方法，包括：

根据待处理的评论数据，确定待处理的关键词；

根据所述待处理的关键词和word2vec模型，确定所述待处理的关键词对应的词向量；

根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签。

可选的，所述根据待处理的评论数据，确定待处理的关键词，包括：

对所述待处理的评论数据进行分词处理，得到候选关键词；

根据所述候选关键词，确定所述待处理的关键词。

可选的，所述根据所述词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签之前，还包括：

获取所述预先建立的标签词典。

可选的，所述获取所述预先建立的标签词典，包括：

获取预设数量的种子词，所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语；

根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量；

根据每个种子词对应的词向量，确定每个种子词的近义词；

根据每个种子词的近义词，建立所述预先建立的标签词典。

可选的，所述根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量，包括：

对每个种子词进行独热编码，得到每个种子词的独热编码信息；

获取训练每个种子词的维度信息；

根据所述独热编码信息和所述维度信息，采用word2vec模型确定每个种子词对应的词向量。

可选的，所述根据所述每个种子词对应的词向量，确定每个种子词的近义词，包括：

根据余弦距离公式，计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离；

根据所述距离，确定所述目标种子词的近义词。

可选的，所述根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据的观点标签，包括：

将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配，得到匹配结果；

根据所述匹配结果，确定所述待处理的评论数据的观点标签。

第二方面，本发明提供一种观点标签的确定装置，包括：

第一确定模块，用于根据待处理的评论数据，确定待处理的关键词；

第二确定模块，用于根据所述待处理的关键词和word2vec模型，确定所述待处理的关键词对应的词向量；

第三确定模块，用于根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签。

可选的，所述第一确定模块，包括：

处理模块，用于对所述待处理的评论数据进行分词处理，得到候选关键词；

第一确定单元，用于根据所述候选关键词，确定所述待处理的关键词。

可选的，所述观点标签的确定装置，还包括：

获取模块，用于获取所述预先建立的标签词典。

可选的，所述获取模块包括：

获取单元，用于获取预设数量的种子词，所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语；

第二确定单元，用于根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量；

第三确定单元，根据每个种子词对应的词向量，确定每个种子词的近义词；

建立模块，用于根据每个种子词的近义词，建立所述预先建立的标签词典。

可选的，所述第二确定单元，具体用于对每个种子词进行独热编码，得到每个种子词的独热编码信息；

获取训练每个种子词的维度信息；

可选的，所述第三确定单元，具体用于根据余弦距离公式，计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离；

根据所述距离，确定所述目标种子词的近义词。

可选的，所述第三确定模块，具体用于将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配，得到匹配结果；

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述观点标签的确定方法。

第四方面，本发明提供一种服务器，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来实现上述观点标签的确定方法。

本实施例提供的观点标签的确定方法和装置，首先根据待处理的评论数据，确定待处理的关键词；然后通过word2vec模型，确定所述待处理的关键词对应的词向量；最后根据该词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签；上述方法可批量地为成千上万的评论数据打标签，和现有技术中通过人工方式逐条打标签的方法相比，大大地提高了打标签的效率。

附图说明

图1为本发明提供的观点标签的确定方法的实施例一的流程示意图；

图2为本发明提供的观点标签的确定方法的实施例二的流程示意图；

图3为本发明提供的观点标签的确定方法的实施例二的另一流程示意图；

图4为本发明提供的观点标签的确定装置的实施例一的结构示意图；

图5为本发明提供的观点标签的确定装置的实施例二的结构示意图；

图6为本发明提供的服务器的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为商品打标签可以让消费者快速了解所要购买的商品，进而帮助消费者做出购买决策，现有技术中，是通过人工的方式来分析提取评论数据中的评论观点，并根据提取到的观点为评论数据打标签。然而，通过人工的方式逐条打标签的方法无疑会带来人工成本高，且效率低下的问题。

本发明提供一种观点标签的确定方法和装置。预先建立一个标签词典。在有待处理的评论数据时，先根据待处理的评论数据确定待处理的关键词，然后将该待处理的关键词输入word2vec模型，得到待处理的关键词对应的词向量，最后将该词向量和上述标签词典中包含的词语的词向量进行匹配，将匹配成功时对应的标签词典中的词语作为该待处理的评论数据的观点标签。采用本发明的上述方法可对商品的所有评论数据批量打上观点标签，和现有技术中通过人工方式逐条打标签的方法相比，提高了效率。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图1为本发明提供的观点标签的确定方法的实施例一的流程示意图。如图1所示，本实施例提供的观点标签的确定方法，包括：

S101、根据待处理的评论数据，确定待处理的关键词。

可选的，S101的一种可实现的方式为：

对所述待处理的评论数据进行分词处理，得到候选关键词；根据所述候选关键词，确定所述待处理的关键词。

具体的，待处理的评论数据往往是句子的形式，在这种情况下，需要对评述数据进行分词处理，以得到候选关键词。

具体的，上述候选关键词可能会包含很多停用词和低频词。该停用词指的是“啊”“呀”“的”“地”等不具有实际意义的词；低频词指的是在所有的评论数据中出现次数很少的词。可将候选关键词中的上述停用词和低频词去掉，得到待处理的关键词。

S102、根据所述待处理的关键词和word2vec模型，确定所述待处理的关键词对应的词向量。

可选的，在S101中得到待处理的关键词后，可通过如下步骤确定上述待处理的关键词对应的词向量：

步骤A：对待处理的关键词进行独热编码，得到独热编码后的关键词；

步骤B：人工选择用来描述该待处理的关键词的维度值；

步骤C：将上述独热编码后的关键词和维度值输入word2vec模型；

步骤D：将上述word2vec模型输出的向量作为上述待处理的关键词对应的词向量。

S103、根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签。

可选的，可通过如下方式确定观点标签：

将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配，得到匹配结果；根据所述匹配结果，确定所述待处理的评论数据的观点标签。

举例来说，假设S101得到的关键词是关键词A，S102得到的关键词A对应的词向量为

将词向量

和标签词典中所有词语对应的词向量进行匹配，若标签词典中词语B对应的词向量和上述词向量

能够匹配成功，则将词语B确定为待处理的评论数据对应的观点标签。

可选的，上述匹配成功指的是：词向量

和词语B对应的词向量之间的距离在预设距离范围内。

可选的，标签词典中所有词语对应的词向量可通过S102获得。

本实施例提供的观点标签的确定方法，首先根据待处理的评论数据，确定待处理的关键词；然后通过word2vec模型，确定所述待处理的关键词对应的词向量；最后根据该词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签；上述方法可批量地为成千上万的评论数据打标签，和现有技术中通过人工方式逐条打标签的方法相比，大大地提高了打标签的效率。

图2为本发明提供的观点标签的确定方法的实施例二的流程图。如图2所述，本实施例提供的观点标签的确定方法，在S103之前，还包括：

S200、获取所述预先建立的标签词典。

具体的，如图3所示，获取所述预先建立的标签词典的一种可实现的方式可以为：

S201、获取预设数量的种子词，所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语；

其中，种子词可以是描述一件商品时经常用到的词。举例来说，描述一家餐厅时经常用到的词可能有：菜品、饮品、点心、分量、价格、卫生或者环境等，因此，可将这几个词作为种子词。

S202、根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量；

可选的，S202的一种可实现的方式为：

步骤a、对每个种子词进行独热编码，得到每个种子词的独热编码信息；

步骤b、获取训练每个种子词的维度信息；

步骤c、根据所述独热编码信息和所述维度信息，采用word2vec模型确定每个种子词对应的词向量。

S203、根据所述每个种子词对应的词向量，确定每个种子词的近义词；

可选的，S203的一种可实现的方式为：

步骤a、根据余弦距离公式，计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离，

步骤b、根据所述距离，确定所述目标种子词的近义词。

举例来说，假设S201中人工提供的种子词为：菜品、饮品、点心、分量和价格。通过S202计算这几个种子词中每个种子词对应的词向量。其中，菜品对应的词向量为

饮品对应的词向量为

点心对应的词向量为

分量对应的词向量为

价格对应的词向量为

假设目标种子词为菜品，则分别计算

和

和

和

和

的距离，可选的，可将上述计算得到的所有距离中，按照从小到大的顺序排在前两位的词向量对应的种子词作为目标种子词的近义词，假设排在前两位的种子词是饮品和点心，则可将饮品和点心作为目标种子词(菜品)的近义词。

S204、根据每个种子词的近义词，建立所述预先建立的标签词典。

其中，可采用上述S203计算每个种子词的近义词，所有种子词和其近义词的组合便构成了预先建立的标签词典。

本实施例提供的观点标签的确定方法，描述了获取预先建立的标签词典的可实现方式，为后续根据该标签词典确定观点标签提供了依据。

图4为本发明提供的观点标签的确定装置的实施例一的结构示意图。如图4所述，本实施例提供的观点标签的确定装置，包括：

第一确定模块401，用于根据待处理的评论数据，确定待处理的关键词；

第二确定模块402，用于根据所述待处理的关键词和word2vec模型，确定所述待处理的关键词对应的词向量；

第三确定模块403，用于根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签。

本实施例提供的观点标签的确定装置，可用于执行图1所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图5为本发明提供的观点标签的确定装置的实施例二的结构示意图。如图5所述，在上述实施例的基础上，本实施例提供的观点标签的确定装置，第一确定模块401，包括：

处理模块501，用于对所述待处理的评论数据进行分词处理，得到候选关键词；

第一确定单元502，用于根据所述候选关键词，确定所述待处理的关键词。

可选的，本实施例提供的观点标签的确定装置，还包括：

获取模块503，用于获取所述预先建立的标签词典。

可选的，获取模块503包括：

获取单元504，用于获取预设数量的种子词，所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语；

第二确定单元505，用于根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量；

第三确定单元506，根据每个种子词对应的词向量，确定每个种子词的近义词；

建立模块507，用于根据每个种子词的近义词，建立所述预先建立的标签词典。

可选的，所述第二确定单元505，具体用于对每个种子词进行独热编码，得到每个种子词的独热编码信息；

获取训练每个种子词的维度信息；

可选的，所述第三确定单元506，具体用于根据余弦距离公式，计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离；

根据所述距离，确定所述目标种子词的近义词。

可选的，所述第三确定模块403，具体用于将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配，得到匹配结果；

本实施例提供的观点标签的确定装置，可用于执行图2-图4所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图6为本发明提供的服务器的硬件结构示意图。如图6所示，本实施例的服务器可以包括：

存储器601，用于存储程序指令。

所述处理器602，用于在所述程序指令被执行时实现上述任一实施例描述的方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的观点标签的确定方法。

本发明还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器实施上述任意实施例所述的观点标签的确定方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种观点标签的确定方法，其特征在于，包括：

根据待处理的评论数据，确定待处理的关键词；

根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签；

所述根据所述词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签之前，还包括：

根据每个种子词对应的词向量，确定每个种子词的近义词；

根据每个种子词的近义词，建立所述预先建立的标签词典。

2.根据权利要求1所述的方法，其特征在于，所述根据待处理的评论数据，确定待处理的关键词，包括：

对所述待处理的评论数据进行分词处理，得到候选关键词；

根据所述候选关键词，确定所述待处理的关键词。

3.根据权利要求1所述的方法，其特征在于，所述根据所述种子词和所述word2vec模型，确定每个种子词对应的词向量，包括：

获取训练每个种子词的维度信息；

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个种子词对应的词向量，确定每个种子词的近义词，包括：

根据所述距离，确定所述目标种子词的近义词。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据的观点标签，包括：

6.一种观点标签的确定装置，其特征在于，包括：

第三确定模块，用于根据所述待处理的关键词对应的词向量和预先建立的标签词典，确定所述待处理的评论数据对应的观点标签；

所述观点标签的确定装置，还包括：

获取模块，用于获取所述预先建立的标签词典；

所述获取模块，包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。

8.一种服务器，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来实现权利要求1-5任一项所述的方法。