CN109241529B - 观点标签的确定方法和装置 - Google Patents

观点标签的确定方法和装置 Download PDF

Info

Publication number
CN109241529B
CN109241529B CN201810993285.1A CN201810993285A CN109241529B CN 109241529 B CN109241529 B CN 109241529B CN 201810993285 A CN201810993285 A CN 201810993285A CN 109241529 B CN109241529 B CN 109241529B
Authority
CN
China
Prior art keywords
word
determining
processed
seed
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810993285.1A
Other languages
English (en)
Other versions
CN109241529A (zh
Inventor
赵慧
魏进武
刘颖慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810993285.1A priority Critical patent/CN109241529B/zh
Publication of CN109241529A publication Critical patent/CN109241529A/zh
Application granted granted Critical
Publication of CN109241529B publication Critical patent/CN109241529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种观点标签的确定方法和装置。该方法包括:根据待处理的评论数据,确定待处理的关键词;根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。上述方法可批量地为评论数据打标签,和现有技术中通过人工方式逐条打标签的方法相比,大大地提高了打标签的效率。

Description

观点标签的确定方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种观点标签的确定方法和装置。
背景技术
通常,消费者在对某件商品做出是否购买的决策时,会参考已经购买,及已经有使用体验的购买者对该商品的评论。然而,购买者对商品的评论数据相当庞大,动辄就上千甚至上万,如何为该成千上万的评论打上观点标签是目前各商家面临的主要问题。
现有技术是通过人工的方式来分析提取评论数据中的评价观点,并根据提取到的观点为评论数据打标签。然而,通过人工的方式逐条打标签的方法人工成本高,且效率低下。
发明内容
本发明提供一种观点标签的确定方法和装置,用以提高为评论数据打标签的效率。
第一方面,本发明提供一种观点标签的确定方法,包括:
根据待处理的评论数据,确定待处理的关键词;
根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;
根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。
可选的,所述根据待处理的评论数据,确定待处理的关键词,包括:
对所述待处理的评论数据进行分词处理,得到候选关键词;
根据所述候选关键词,确定所述待处理的关键词。
可选的,所述根据所述词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签之前,还包括:
获取所述预先建立的标签词典。
可选的,所述获取所述预先建立的标签词典,包括:
获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
根据每个种子词对应的词向量,确定每个种子词的近义词;
根据每个种子词的近义词,建立所述预先建立的标签词典。
可选的,所述根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量,包括:
对每个种子词进行独热编码,得到每个种子词的独热编码信息;
获取训练每个种子词的维度信息;
根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。
可选的,所述根据所述每个种子词对应的词向量,确定每个种子词的近义词,包括:
根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;
根据所述距离,确定所述目标种子词的近义词。
可选的,所述根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据的观点标签,包括:
将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待处理的评论数据的观点标签。
第二方面,本发明提供一种观点标签的确定装置,包括:
第一确定模块,用于根据待处理的评论数据,确定待处理的关键词;
第二确定模块,用于根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;
第三确定模块,用于根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。
可选的,所述第一确定模块,包括:
处理模块,用于对所述待处理的评论数据进行分词处理,得到候选关键词;
第一确定单元,用于根据所述候选关键词,确定所述待处理的关键词。
可选的,所述观点标签的确定装置,还包括:
获取模块,用于获取所述预先建立的标签词典。
可选的,所述获取模块包括:
获取单元,用于获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
第二确定单元,用于根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
第三确定单元,根据每个种子词对应的词向量,确定每个种子词的近义词;
建立模块,用于根据每个种子词的近义词,建立所述预先建立的标签词典。
可选的,所述第二确定单元,具体用于对每个种子词进行独热编码,得到每个种子词的独热编码信息;
获取训练每个种子词的维度信息;
根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。
可选的,所述第三确定单元,具体用于根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;
根据所述距离,确定所述目标种子词的近义词。
可选的,所述第三确定模块,具体用于将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待处理的评论数据的观点标签。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述观点标签的确定方法。
第四方面,本发明提供一种服务器,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现上述观点标签的确定方法。
本实施例提供的观点标签的确定方法和装置,首先根据待处理的评论数据,确定待处理的关键词;然后通过word2vec模型,确定所述待处理的关键词对应的词向量;最后根据该词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签;上述方法可批量地为成千上万的评论数据打标签,和现有技术中通过人工方式逐条打标签的方法相比,大大地提高了打标签的效率。
附图说明
图1为本发明提供的观点标签的确定方法的实施例一的流程示意图;
图2为本发明提供的观点标签的确定方法的实施例二的流程示意图;
图3为本发明提供的观点标签的确定方法的实施例二的另一流程示意图;
图4为本发明提供的观点标签的确定装置的实施例一的结构示意图;
图5为本发明提供的观点标签的确定装置的实施例二的结构示意图;
图6为本发明提供的服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为商品打标签可以让消费者快速了解所要购买的商品,进而帮助消费者做出购买决策,现有技术中,是通过人工的方式来分析提取评论数据中的评论观点,并根据提取到的观点为评论数据打标签。然而,通过人工的方式逐条打标签的方法无疑会带来人工成本高,且效率低下的问题。
本发明提供一种观点标签的确定方法和装置。预先建立一个标签词典。在有待处理的评论数据时,先根据待处理的评论数据确定待处理的关键词,然后将该待处理的关键词输入word2vec模型,得到待处理的关键词对应的词向量,最后将该词向量和上述标签词典中包含的词语的词向量进行匹配,将匹配成功时对应的标签词典中的词语作为该待处理的评论数据的观点标签。采用本发明的上述方法可对商品的所有评论数据批量打上观点标签,和现有技术中通过人工方式逐条打标签的方法相比,提高了效率。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明提供的观点标签的确定方法的实施例一的流程示意图。如图1所示,本实施例提供的观点标签的确定方法,包括:
S101、根据待处理的评论数据,确定待处理的关键词。
可选的,S101的一种可实现的方式为:
对所述待处理的评论数据进行分词处理,得到候选关键词;根据所述候选关键词,确定所述待处理的关键词。
具体的,待处理的评论数据往往是句子的形式,在这种情况下,需要对评述数据进行分词处理,以得到候选关键词。
具体的,上述候选关键词可能会包含很多停用词和低频词。该停用词指的是“啊”“呀”“的”“地”等不具有实际意义的词;低频词指的是在所有的评论数据中出现次数很少的词。可将候选关键词中的上述停用词和低频词去掉,得到待处理的关键词。
S102、根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量。
可选的,在S101中得到待处理的关键词后,可通过如下步骤确定上述待处理的关键词对应的词向量:
步骤A:对待处理的关键词进行独热编码,得到独热编码后的关键词;
步骤B:人工选择用来描述该待处理的关键词的维度值;
步骤C:将上述独热编码后的关键词和维度值输入word2vec模型;
步骤D:将上述word2vec模型输出的向量作为上述待处理的关键词对应的词向量。
S103、根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。
可选的,可通过如下方式确定观点标签:
将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;根据所述匹配结果,确定所述待处理的评论数据的观点标签。
举例来说,假设S101得到的关键词是关键词A,S102得到的关键词A对应的词向量为
Figure BDA0001781288750000061
将词向量
Figure BDA0001781288750000062
和标签词典中所有词语对应的词向量进行匹配,若标签词典中词语B对应的词向量和上述词向量
Figure BDA0001781288750000063
能够匹配成功,则将词语B确定为待处理的评论数据对应的观点标签。
可选的,上述匹配成功指的是:词向量
Figure BDA0001781288750000064
和词语B对应的词向量之间的距离在预设距离范围内。
可选的,标签词典中所有词语对应的词向量可通过S102获得。
本实施例提供的观点标签的确定方法,首先根据待处理的评论数据,确定待处理的关键词;然后通过word2vec模型,确定所述待处理的关键词对应的词向量;最后根据该词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签;上述方法可批量地为成千上万的评论数据打标签,和现有技术中通过人工方式逐条打标签的方法相比,大大地提高了打标签的效率。
图2为本发明提供的观点标签的确定方法的实施例二的流程图。如图2所述,本实施例提供的观点标签的确定方法,在S103之前,还包括:
S200、获取所述预先建立的标签词典。
具体的,如图3所示,获取所述预先建立的标签词典的一种可实现的方式可以为:
S201、获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
其中,种子词可以是描述一件商品时经常用到的词。举例来说,描述一家餐厅时经常用到的词可能有:菜品、饮品、点心、分量、价格、卫生或者环境等,因此,可将这几个词作为种子词。
S202、根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
可选的,S202的一种可实现的方式为:
步骤a、对每个种子词进行独热编码,得到每个种子词的独热编码信息;
步骤b、获取训练每个种子词的维度信息;
步骤c、根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。
S203、根据所述每个种子词对应的词向量,确定每个种子词的近义词;
可选的,S203的一种可实现的方式为:
步骤a、根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离,
步骤b、根据所述距离,确定所述目标种子词的近义词。
举例来说,假设S201中人工提供的种子词为:菜品、饮品、点心、分量和价格。通过S202计算这几个种子词中每个种子词对应的词向量。其中,菜品对应的词向量为
Figure BDA0001781288750000071
饮品对应的词向量为
Figure BDA0001781288750000072
点心对应的词向量为
Figure BDA0001781288750000073
分量对应的词向量为
Figure BDA0001781288750000074
价格对应的词向量为
Figure BDA0001781288750000075
假设目标种子词为菜品,则分别计算
Figure BDA0001781288750000076
Figure BDA0001781288750000077
Figure BDA0001781288750000078
Figure BDA0001781288750000079
Figure BDA00017812887500000710
Figure BDA00017812887500000711
Figure BDA00017812887500000712
Figure BDA00017812887500000713
的距离,可选的,可将上述计算得到的所有距离中,按照从小到大的顺序排在前两位的词向量对应的种子词作为目标种子词的近义词,假设排在前两位的种子词是饮品和点心,则可将饮品和点心作为目标种子词(菜品)的近义词。
S204、根据每个种子词的近义词,建立所述预先建立的标签词典。
其中,可采用上述S203计算每个种子词的近义词,所有种子词和其近义词的组合便构成了预先建立的标签词典。
本实施例提供的观点标签的确定方法,描述了获取预先建立的标签词典的可实现方式,为后续根据该标签词典确定观点标签提供了依据。
图4为本发明提供的观点标签的确定装置的实施例一的结构示意图。如图4所述,本实施例提供的观点标签的确定装置,包括:
第一确定模块401,用于根据待处理的评论数据,确定待处理的关键词;
第二确定模块402,用于根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;
第三确定模块403,用于根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签。
本实施例提供的观点标签的确定装置,可用于执行图1所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图5为本发明提供的观点标签的确定装置的实施例二的结构示意图。如图5所述,在上述实施例的基础上,本实施例提供的观点标签的确定装置,第一确定模块401,包括:
处理模块501,用于对所述待处理的评论数据进行分词处理,得到候选关键词;
第一确定单元502,用于根据所述候选关键词,确定所述待处理的关键词。
可选的,本实施例提供的观点标签的确定装置,还包括:
获取模块503,用于获取所述预先建立的标签词典。
可选的,获取模块503包括:
获取单元504,用于获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
第二确定单元505,用于根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
第三确定单元506,根据每个种子词对应的词向量,确定每个种子词的近义词;
建立模块507,用于根据每个种子词的近义词,建立所述预先建立的标签词典。
可选的,所述第二确定单元505,具体用于对每个种子词进行独热编码,得到每个种子词的独热编码信息;
获取训练每个种子词的维度信息;
根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。
可选的,所述第三确定单元506,具体用于根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;
根据所述距离,确定所述目标种子词的近义词。
可选的,所述第三确定模块403,具体用于将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待处理的评论数据的观点标签。
本实施例提供的观点标签的确定装置,可用于执行图2-图4所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图6为本发明提供的服务器的硬件结构示意图。如图6所示,本实施例的服务器可以包括:
存储器601,用于存储程序指令。
所述处理器602,用于在所述程序指令被执行时实现上述任一实施例描述的方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的观点标签的确定方法。
本发明还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器实施上述任意实施例所述的观点标签的确定方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种观点标签的确定方法,其特征在于,包括:
根据待处理的评论数据,确定待处理的关键词;
根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;
根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签;
所述根据所述词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签之前,还包括:
获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
根据每个种子词对应的词向量,确定每个种子词的近义词;
根据每个种子词的近义词,建立所述预先建立的标签词典。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理的评论数据,确定待处理的关键词,包括:
对所述待处理的评论数据进行分词处理,得到候选关键词;
根据所述候选关键词,确定所述待处理的关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量,包括:
对每个种子词进行独热编码,得到每个种子词的独热编码信息;
获取训练每个种子词的维度信息;
根据所述独热编码信息和所述维度信息,采用word2vec模型确定每个种子词对应的词向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个种子词对应的词向量,确定每个种子词的近义词,包括:
根据余弦距离公式,计算所述预设数量的种子词中目标种子词对应的词向量和其余种子词对应的词向量之间的距离;
根据所述距离,确定所述目标种子词的近义词。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据的观点标签,包括:
将所述待处理的关键词对应的词向量和所述预先建立的标签词典包含的词语对应的词向量进行匹配,得到匹配结果;
根据所述匹配结果,确定所述待处理的评论数据的观点标签。
6.一种观点标签的确定装置,其特征在于,包括:
第一确定模块,用于根据待处理的评论数据,确定待处理的关键词;
第二确定模块,用于根据所述待处理的关键词和word2vec模型,确定所述待处理的关键词对应的词向量;
第三确定模块,用于根据所述待处理的关键词对应的词向量和预先建立的标签词典,确定所述待处理的评论数据对应的观点标签;
所述观点标签的确定装置,还包括:
获取模块,用于获取所述预先建立的标签词典;
所述获取模块,包括:
获取单元,用于获取预设数量的种子词,所述种子词用于指示为建立所述预先建立的标签词典通过人工方式提供的词语;
第二确定单元,用于根据所述种子词和所述word2vec模型,确定每个种子词对应的词向量;
第三确定单元,根据每个种子词对应的词向量,确定每个种子词的近义词;
建立模块,用于根据每个种子词的近义词,建立所述预先建立的标签词典。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。
8.一种服务器,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现权利要求1-5任一项所述的方法。
CN201810993285.1A 2018-08-29 2018-08-29 观点标签的确定方法和装置 Active CN109241529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810993285.1A CN109241529B (zh) 2018-08-29 2018-08-29 观点标签的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993285.1A CN109241529B (zh) 2018-08-29 2018-08-29 观点标签的确定方法和装置

Publications (2)

Publication Number Publication Date
CN109241529A CN109241529A (zh) 2019-01-18
CN109241529B true CN109241529B (zh) 2023-05-02

Family

ID=65068876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993285.1A Active CN109241529B (zh) 2018-08-29 2018-08-29 观点标签的确定方法和装置

Country Status (1)

Country Link
CN (1) CN109241529B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222709B (zh) * 2019-04-29 2022-01-25 上海暖哇科技有限公司 一种多标签智能打标方法及***
CN110097407A (zh) * 2019-05-10 2019-08-06 宁波奥克斯电气股份有限公司 一种用户标签的生成方法及***
CN110188203B (zh) * 2019-06-10 2022-08-26 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2045737A2 (en) * 2007-10-05 2009-04-08 Fujitsu Limited Selecting tags for a document by analysing paragraphs of the document
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及***
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
EP3220289A1 (en) * 2014-11-10 2017-09-20 Beijing Bytedance Network Technology Co. Ltd. Social platform-based data mining method and device
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及***
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化***和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及***
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2045737A2 (en) * 2007-10-05 2009-04-08 Fujitsu Limited Selecting tags for a document by analysing paragraphs of the document
EP3220289A1 (en) * 2014-11-10 2017-09-20 Beijing Bytedance Network Technology Co. Ltd. Social platform-based data mining method and device
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及***
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及***
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化***和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
元海霞 ; .基于Word2Vec和HowNet的情感词典构建方法.《现代计算机(专业版)》.2018,(第04期),全文. *
成昊."基于word2vec的中文文件检索技术研究及***实现".《中国优秀硕士论文全文数据库》.2017,全文. *
郁可人.基于神经网络语言模型的分布式词向量研究进展.《华东师范大学学报》.2017,全文. *

Also Published As

Publication number Publication date
CN109241529A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109241529B (zh) 观点标签的确定方法和装置
CN110008973B (zh) 一种模型训练方法、基于模型确定目标用户的方法及装置
CN110334162B (zh) 地址识别方法及装置
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN110287330A (zh) 词向量的在线字典扩展
CN115512763B (zh) 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN111651674B (zh) 双向搜索方法、装置及电子设备
KR20210032691A (ko) 네트워크 기반 상품 추천 방법 및 장치
US20200082210A1 (en) Generating and augmenting transfer learning datasets with pseudo-labeled images
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN106651408B (zh) 一种数据分析方法及装置
CN117611272A (zh) 商品推荐方法、装置及电子设备
US10810497B2 (en) Supporting generation of a response to an inquiry
CN112784861A (zh) 相似度的确定方法、装置、电子设备和存储介质
CN116010707A (zh) 商品价格异常识别方法、装置、设备和存储介质
CN110827101A (zh) 一种店铺推荐的方法和装置
US20230100172A1 (en) Item matching and recognition system
CN114897099A (zh) 基于客群偏差平滑优化的用户分类方法、装置及电子设备
CN114297235A (zh) 风险地址识别方法、***及电子设备
US20110208738A1 (en) Method for Determining an Enhanced Value to Keywords Having Sparse Data
JP6979902B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113393250A (zh) 一种信息处理方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant