CN110135690A - 产品评论数据分析方法、装置、计算机设备和存储介质 - Google Patents
产品评论数据分析方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110135690A CN110135690A CN201910295664.8A CN201910295664A CN110135690A CN 110135690 A CN110135690 A CN 110135690A CN 201910295664 A CN201910295664 A CN 201910295664A CN 110135690 A CN110135690 A CN 110135690A
- Authority
- CN
- China
- Prior art keywords
- product
- data
- comment
- model
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012552 review Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 152
- 238000004458 analytical method Methods 0.000 claims abstract description 82
- 230000005484 gravity Effects 0.000 claims abstract description 32
- 238000007405 data analysis Methods 0.000 claims abstract description 19
- 230000000877 morphologic effect Effects 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 102
- 230000002996 emotional effect Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 230000002349 favourable effect Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 6
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 239000000047 product Substances 0.000 description 371
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及大数据技术领域,提供了一种产品评论数据分析方法、装置、计算机设备和存储介质。方法包括:根据产品选择信息,确定待分析产品,根据获取的待分析产品的发行数据,确定产品特征标签,并查找与产品特征标签匹配的目标语言处理模型,获取待分析产品的评论数据并输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据的比重数据,根据比重数据以及目标语言处理模型的加权参数,得到评论数据分析结果。考虑待分析产品的发行数据来选择对应的目标语言处理模型,在进行评论数据褒贬分析的同时,结合了发行数据的影响,提高评论数据分析结果的准确性。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种产品评论数据分析方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的不断发展,电子商务正在发展成一个繁荣的商业模式,尤其是对于金融产品中的P2P理财产品,收益高风险也高,用户在购买消费之后,经常会就购买的产品发表他们的看法或评论意见,对于想要购买这类金融产品的用户,往往会想要根据已发表看法和评论来进行整体的评估,决定是否购买该产品。
但由于同一产品的评论数据众多,信息零散,导致分析难度大,且不同的产品的发行企业以及地域政策等,也会对产品的评估分析造成不同的影响,传统的对于理财类的产品的评论数据分析方法,对产品分析的分析结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高分析准确性的产品评论数据分析方法、装置、计算机设备和存储介质。
一种产品评论数据分析方法,所述方法包括:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
在其中一个实施例中,所述获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签包括:
获取所述发行数据中的发行企业信息与发行地域信息;
获取所述发行企业信息中的守信数据与失信数据,根据所述守信数据与所述失信数据,确定发行企业风险等级;
获取所述发行地域信息中的地域已发行产品数目与地域风险产品数目,根据所述地域已发行产品数目与所述地域风险产品数目,确定发行地域风险等级;
根据所述发行企业风险等级和所述发行地域风险等级,确定所述待分析产品的产品特征标签。
在其中一个实施例中,所述根据所述产品特征标签,查找预设模型群中的目标语言处理模型之前,还包括:
根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,并获取所述样本产品集合中样本产品的评论样本数据;
建立所述样本产品集合与初始语言处理模型的关联关系;
根据所述关联关系,将所述评论样本数据输入对应的初始语言处理模型,对所述初始语言处理模型进行训练,得到训练完成的语言处理模型;
将所述样本产品集合对应所述发行数据的风险等级,标记为所述语言处理模型的模型特征标签;
根据携带有所述模型特征标签的各所述语言处理模型,构建所述预设模型群。
在其中一个实施例中,所述评论样本数据中包括领域专有词和情绪特征词;所述根据所述关联关系,将所述评论样本数据输入对应的初始语言处理模型,对所述初始语言处理模型进行训练,得到训练完成的语言处理模型包括:
根据所述评论样本数据携带的评价标签,对所述评论样本数据中的所述领域专有词与所述情绪特征词进行褒贬词性标记,所述评价标签包括好评标签和差评标签;
根据所述关联关系,将标记有所述褒贬词性的所述评论样本数据输入对应的初始语言处理模型;
根据所述样本产品集合的期望分析结果,以及所述初始语言处理模型输出分析结果,对所述初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
在其中一个实施例中,所述根据所述产品特征标签,查找预设模型群中的目标语言处理模型包括:
根据所述产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同所述发行企业风险等级信息的模型特征标签时,获取携带有所述模型特征标签的目标语言处理模型。
在其中一个实施例中,所述根据所述产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签之后,还包括:
当未匹配到包含相同所述发行企业风险等级信息的模型特征标签时,根据所述产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同所述发行地域风险等级信息的模型特征标签时,获取携带有所述模型特征标签的目标语言处理模型。
在其中一个实施例中,所述获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据之前,还包括:
检索所述待分析产品的评论网页,并提取所述评论网页中与所述待分析产品关联的文本;
根据预设标点符号,对所述文本进行语句划分;
根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将所述目标语句标记为所述待分析产品的评论数据。
一种产品评论数据分析装置,所述装置包括:
待分析产品确定模块,用于根据产品分析请求携带的产品选择信息,确定待分析产品;
特征标签确定模块,用于获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
模型查找模块,用于根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
评论数据获取与处理模块,用于获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
评论数据分析结果获得模块,用于将根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
上述产品评论数据分析方法、装置、计算机设备和存储介质,根据产品分析请求携带的产品选择信息,确定待分析产品,可根据需求实时获取到待分析产品的评论数据,获取待分析产品的发行数据,确定待分析产品的产品特征标签,根据包含有多个语言处理模型的预设模型群,匹配待分析产品的产品特征标签与各语言处理模型的模型特征标签,查找得到待分析产品适用的目标语言处理模型,考虑产品的发行数据来选择对应的目标语言处理模型,在进行评论数据的褒贬性以及褒贬比重分析的同时,结合了发行数据的影响,可以提高待分析产品对应分析结果的准确性。
附图说明
图1为一个实施例中产品评论数据分析方法的应用场景图;
图2为一个实施例中产品评论数据分析方法的流程示意图;
图3为另一个实施例中产品评论数据分析方法的流程示意图;
图4为另一个实施例中产品评论数据分析方法的流程示意图;
图5为另一个实施例中产品评论数据分析方法的流程示意图;
图6为另一个实施例中产品评论数据分析方法的流程示意图;
图7为一个实施例中产品评论数据分析装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的产品评论数据分析方法,可以应用于如图1所示的应用环境中。用于对金融产品中的理财产品进行分析为例进行说明,可以理解,该方法也可以应用于保险产品、贷款产品等其他可能存在发行数据的其他金融产品。其中,终端102与服务器104通过网络进行通信。用户通过触发终端102的产品选择界面的选择功能键选择想要了解的产品,终端102根据用户触发的功能键对应的产品,实时发送该产品对应的产品分析请求至服务器104,服务器104根据产品分析请求携带的产品选择信息,确定待分析产品,获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签,根据产品特征标签,查找预设模型群中的目标语言处理模型,目标语言处理模型携带有与产品特征标签匹配的模型特征标签,获取待分析产品的评论数据,将评论数据输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据,根据各类别评论数据褒贬评论的比重数据以及目标语言处理模型的加权参数,得到待分析产品的评论数据分析结果,并将分析结果推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种产品评论数据分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S200,根据产品分析请求携带的产品选择信息,确定待分析产品。
产品分析请求是指终端发送至服务器,用于使服务器对用户选择的产品进行评论分析得到风险情况等分析结果的请求消息。产品选择信息是指用户通过触发终端的产品选择界面对产品进行选择而生成的信息,其中,选择选择界面提供的产品可以是理财类产品,待分析产品是指用户选择的需要进行评论分析的产品,产品按照其发布数据例如发布企业和发布地域等分为不同的类别。用户通过触发终端的产品选择界面的选择功能键选择想要了解的产品,终端根据用户触发的功能键对应的产品,实时发送该产品对应的产品分析请求至服务器,以使服务器通过对用户选择的该产品进行评论分析,并反馈该产品的分析结果至用户,分析结果可以为用户提供购买建议并辅助用户对该产品的整体评估状况进行进一步了解。
步骤S300,获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签。
发行数据包括发行产品的企业的相关数据和发行地的相关数据。在实施例中,发行企业的相关数据可以用于表征该产品的发行企业的背景信息,包括企业的信用与风险等多维度信息,称为发行企业信息。发行企业的相关数据可以从国家企业信用信息公示***,以及预先记录有企业相关信息的数据库中获取。发行地的相关数据可以用于表征该产品的发行地的整天风险状况,称为发行地域信息,以P2P(peer to peer lending,互联网金融点对点借贷平台)理财产品为例,P2P理财产品的发行企业信息包括的企业信用动态、历史变更信息、失信记录以及企业信用报告等,发行地域信息包括该地域中风险理财产品占总发行产品的比例,例如杭州多家P2P理财产品发行公司出现“爆雷”现象,风险理财产品占比较高,所以杭州等出现问题较多的地域的风险性较高。根据发行企业信息和发行地域信息,可以确定待分析产品的特征,得到待分析产品的产品特征标签。
步骤S400,根据产品特征标签,查找预设模型群中的目标语言处理模型,目标语言处理模型携带有与产品特征标签匹配的模型特征标签。
预设模型群是指多个语言处理模型构成的模型集合,各语言处理模型携带有模型特征标签,模型特征标签是指根据模型的训练样本的特征类别进行标记的标签,模型特征标签与产品特征标签的数据类别具有对应关系,可便于通过待分析产品携带的产品特征标签查找到对应的目标语言处理模型。在实施例中,不同的语言处理模型是具有不同的加权参数,加权参数是在模型训练中根据样本产品的评价样本数据和期望分析结果进行调整得到的,不同的评论数据类别对应有不同的比重的加权参数,样本的期望分析结果与产品发行企业与产品发行地域相关联,产品发行企业与产品发行地域的风险等级越高,对应的期望分析结果的风险参数值也越高。
步骤S500,获取待分析产品的评论数据,将评论数据输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据。
待分析产品的评论数据是用户发表的用于评价待分析产品的相关文本数据,评论数据可以是文本中的多个语句构成的文本集合,文本集合可以通过网络爬虫算法实时搜索获得多个与待分析产品相关的表达评论意见的文本,通过对文本进行语句拆分和语句筛选,将筛选后的语句构成文本集合。在实施例中,文本集合可以按照语句中的领域专有词进行分类,包含有多个子集,具体来说,根据设定的标点符号,对搜索获得的文本进行语句划分,根据预设的关键字库,筛选包含有关键字的语句作为待分析语句,将关键字作为待分析语句的标签,将多个文本中包含相同标签的待分析语句进行分类,构建包含有多个子集的文本集合。其中,关键字可以包括领域专有词和情绪特征词,根据对领域专有词和情绪特征词的识别和词法分析,可以分析得到各评论数据的褒贬性,类别标签是指根据评论数据中的领域专有词可以对评论数据进行类别划分得到的结果,具体的类别标签可以以领域专有词来命名,比重数据是指各类别的评价数据中褒义评论与贬义评论分别所占的比重大小,根据类别标签进行分类的评论数据,依据其词法分析获得的褒贬性结果,可以确定各类别评论数据褒贬评论的比重数据。
步骤S600,根据各类别评论数据褒贬评论的比重数据以及目标语言处理模型的加权参数,得到待分析产品的评论数据分析结果。
语言处理模型用于对输入的评论数据进行词法分析,确定待分析产品各评论数据的褒贬性,按评论数据的所属类别确定各类评论数据褒贬评论的比重,计算得到各类别的评论数据的评分数据,并根据各类别的评分数据以及语言处理模型中各类别对应的加权参数,计算得到待分析产品的综合评分结果,根据各类别的评分结果以及综合评分结果,获取待分析产品对应的评论数据分析结论,输出综合评分结果和分析结论,作为待分析产品的评论数据分析结果。其中,评分结果可以是以数字形式展示的具体评分数值,分析结论可以是以文字形式展示的推荐性结论。
上述产品评论数据分析方法,根据产品分析请求携带的产品选择信息,确定待分析产品,可根据需求实时获取到待分析产品的评论数据,获取待分析产品的发行数据,确定待分析产品的产品特征标签,根据包含有多个语言处理模型的预设模型群,匹配待分析产品的产品特征标签与各语言处理模型的模型特征标签,查找得到待分析产品适用的目标语言处理模型,考虑产品的发行数据来选择对应的目标语言处理模型,在进行评论数据的褒贬性以及褒贬比重分析的同时,结合了发行数据的影响,可以提高待分析产品对应分析结果的准确性。
在一个实施例中,如图3所示,步骤S300,获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签包括:
步骤S310,获取发行数据中的发行企业信息与发行地域信息。
步骤S320,获取发行企业信息中的守信数据与失信数据,根据守信数据与失信数据,确定发行企业风险等级。
步骤S330,获取发行地域信息中的地域已发行产品数目与地域风险产品数目,根据地域已发行产品数目与地域风险产品数目,确定发行地域风险等级。
步骤S340,根据发行企业风险等级和发行地域风险等级,确定待分析产品的产品特征标签。
发行企业的信用数据包括的企业信用动态、历史变更信息、失信记录、企业信用报告,可分为守信数据和失信数据,信用数据可以从国家企业信用信息公示***,或是从预先记录有企业相关信息的数据库中获取。根据守信数据与失信数据中的失信次数占失信数据与守信数据总和的比重,确定发行企业风险等级。地域已发行产品是指该地域的企业发布的可以用于购买的产品,地域风险产品是指该地域已经出现了企业违约情况的产品,根据地域风险产品数目在地域已发行产品数目中的占比,确定发行地域风险等级。发行企业风险等级和发行地域风险等级,可以表征该产品的发布特征,作为待分析产品的产品特征标签。
在一个实施例中,如图4所示,步骤S400,根据产品特征标签,查找预设模型群中的目标语言处理模型之前,还包括:
步骤S350,根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,以及样本产品集合中样本产品的评论样本数据。
步骤S360,建立样本产品集合与初始语言处理模型的关联关系。
步骤S370,根据关联关系,将评论样本数据输入对应的初始语言处理模型,对初始语言处理模型进行训练,得到训练完成的语言处理模型。
步骤S380,将样本产品集合对应发行数据的风险等级,标记为语言处理模型的模型特征标签。
步骤S390,根据携带有模型特征标签的各语言处理模型,构建预设模型群。
根据发行数据的风险等级,对样本产品进行分类,得到多个样本产品,将各样本产品集合与各初始语言处理模型建立关联关系,可以利用样本产品集合中的各个样本产品的评论样本数据,对关联的各个初始语言处理模型进行训练,得到各个语言处理模型,同时,将样本产品集合对应发行数据的风险等级,作为语言处理模型的模型特征标签进行标记,将携带有模型特征标签的各语言处理模型构建模型群,便于在待分析产品进行评论分析时,根据产品特征标签对应的发行数据的风险等级,查找到预设模型群中对应的目标语言处理模型。不同的产品,采用不同的目标语言处理模型进行评论分析,分析结果更为精准有效。
在一个实施例中,评论样本数据中包括领域专有词和情绪特征词。步骤S370,根据关联关系,将评论样本数据输入对应的初始语言处理模型,对初始语言处理模型进行训练,得到训练完成的语言处理模型包括:
根据评论样本数据携带的评价标签,对评论样本数据中的领域专有词与情绪特征词进行褒贬词性标记,评价标签包括好评标签和差评标签。
根据关联关系,将标记有褒贬词性的评论样本数据输入对应的初始语言处理模型。
根据样本产品集合的期望分析结果,以及初始语言处理模型输出分析结果,对初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
评价标签包括好评标签和差评标签,领域专有词是指产品所属领域的专有名词,如金融产品的领域专有词包括收益、风险、分期利率以及额度等。情绪特征词是指用于表达相对语义的褒贬性词语,例如高、低、长、短等,但在不同的语境中,同一个情绪特征词可能表达不同的含义,例如收益高和风险高,虽然都包含情绪特征词“高”,但收益高是褒义词,这类评价可定义为好评,但是风险高是贬义词,可定义为差评,但风险和收益都是领域专有词,在实施例中,通过定义并标记领域专有词和情绪特征词的褒贬词性,构建领域专有词库和情绪特征词库,通过领域专有词和情绪特征词的组合形式,来确定各语境中的褒义和贬义,从而来确定待分析产品的评价数据属于好评还是差评。好评是指对产品的看法或评论属于积极言论的文本,好评中一般包含有褒义表达,例如收益高、期限短等,差评则相反,好评与差评的表达由产品领域专有词汇和情绪特征词结合得到的。依次将标记有褒贬词性的评论样本数据输入对应的初始语言处理模型,可以训练模型对好评和差评的区分程度,当模型对好评与差评的识别准确度达到设定要求时,可以根据样本产品集合的期望分析结果,对模型的加权参数进行调整,加权参数用于将评论样本数据中各个子集的评价结果进行加权计算,当输出分析结果不满足期望分析结果的要求时,调整初始语言处理模型的加权参数;当输出分析结果满足期望分析结果的要求时,确定加权参数的参数值,构建得到上述语言处理模型。
在一个实施例中,如图5所示,步骤S400,根据产品特征标签,查找预设模型群中的目标语言处理模型包括:
步骤S420,根据产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签。
步骤S430,当匹配到包含相同发行企业风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
发行数据中的发行企业风险等级信息和发行地域风险等级信息都可以表征待分析产品的产品特征,其中,由于发行地域风险等级信息是该地域中的多个发行企业风险等级信息的综合结果,可以设置发行企业的优先级高于发行地域。在进行产品特征标签与模型特征标签的匹配时,先进行发行企业的匹配,将发行企业风险等级信息匹配成功的模型特征标签对应的语言处理模型作为目标C语言处理模型。
在一个实施例中,步骤S420,根据产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签之后,还包括:
步骤S440,当未匹配到包含相同发行企业风险等级信息的模型特征标签时,根据产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签。
步骤S450,当匹配到包含相同发行地域风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
当发行数据中的发行企业为新成立的企业时,可能能获取到的企业信息不够全面,无法完整表征发行企业信息,此时,可能存在未匹配到包含相同发行企业风险等级信息的模型特征标签的情况,根据产品特征标签中的发行地域风险等级信息,匹配对应的模型特征标签,获取携带有该模型特征标签的目标语言处理模型。
在一个实施例中,如图6所示,步骤S500,获取待分析产品的评论数据,将评论数据输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据之前,还包括:
步骤S460,检索待分析产品的评论网页,并提取评论网页中与待分析产品关联的文本。
步骤S470,根据预设标点符号,对文本进行语句划分。
步骤S480,根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将目标语句标记为待分析产品的评论数据。
通过网络爬虫算法,检索包含待分析产品的评论数据的评论网页,去除网页中的广告和其他无关数据,提取评论网页中与待分析产品关联的文本,根据预设标点符号,对文本进行语句划分,预设标点符号是指句号、问号、感叹号以及省略号等表征语句结束的标点符号,确保划分的语句为完整的句子。预设领域专有词包括金融领域的各专有词,例如金融产品中理财类的年化、收益率、期限、起购金额;网贷类的额度、分期、抵押、担保、放款时间等,情绪特征词包括高低、长短、多少等,领域专有词和情绪特征词组合出现,例如,风险低、收益高、放款时间短等,通过这类组合中领域专有词和情绪特征词的预设褒贬词性,去确定评论数据为好评还是差评,同时还可以根据领域专有词对各个评论数据进行归类。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种产品评论数据分析装置,包括:
待分析产品确定模块200,用于根据产品分析请求携带的产品选择信息,确定待分析产品;
特征标签确定模块300,用于获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签;
模型查找模块400,用于根据产品特征标签,查找预设模型群中的目标语言处理模型,目标语言处理模型携带有与产品特征标签匹配的模型特征标签;
评论数据获取与处理模块500,用于获取待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
评论数据分析结果获得模块600,用于根据各类别评论数据褒贬评论的比重数据以及目标语言处理模型的加权参数,得到待分析产品的评论数据分析结果。
在一个实施例中,特征标签确定模块300,还用于获取发行数据中的发行企业信息与发行地域信息,获取发行企业信息中的守信数据与失信数据,根据守信数据与失信数据,确定发行企业风险等级,获取发行地域信息中的地域已发行产品数目与地域风险产品数目,根据地域已发行产品数目与地域风险产品数目,确定发行地域风险等级,根据发行企业风险等级和发行地域风险等级,确定待分析产品的产品特征标签。
在一个实施例中,产品评论数据分析装置还包括模型构建模块,用于根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,以及样本产品集合中样本产品的评论样本数据,建立样本产品集合与初始语言处理模型的关联关系,根据关联关系,将评论样本数据输入对应的初始语言处理模型,对初始语言处理模型进行训练,得到训练完成的语言处理模型,将样本产品集合对应发行数据的风险等级,标记为语言处理模型的模型特征标签,根据携带有模型特征标签的各语言处理模型,构建预设模型群。
在一个实施例中,评论样本数据中包括领域专有词和情绪特征词;模型构建模块,还用于根据评论样本数据携带的评价标签,对评论样本数据中的领域专有词与情绪特征词进行褒贬词性标记,评价标签包括好评标签和差评标签,根据关联关系,将标记有褒贬词性的评论样本数据输入对应的初始语言处理模型,根据样本产品集合的期望分析结果,以及初始语言处理模型输出分析结果,对初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
在一个实施例中,模型查找模块400,还用于根据产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签,当匹配到包含相同发行企业风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在其中一个实施例中,模型查找模块400,还用于当未匹配到包含相同发行企业风险等级信息的模型特征标签时,根据产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签,当匹配到包含相同发行地域风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在一个实施例中,产品评论数据分析装置还包括评论语句标记模块,用于检索待分析产品的评论网页,并提取评论网页中与待分析产品关联的文本,根据预设标点符号,对文本进行语句划分,根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将目标语句标记为待分析产品的评论数据。
上述产品评论数据分析装置,根据产品分析请求携带的产品选择信息,确定待分析产品,可根据需求实时获取到待分析产品的评论数据,获取待分析产品的发行数据,确定待分析产品的产品特征标签,根据包含有多个语言处理模型的预设模型群,匹配待分析产品的产品特征标签与各语言处理模型的模型特征标签,查找得到待分析产品适用的目标语言处理模型,考虑产品的发行数据来选择对应的目标语言处理模型,在进行评论数据的褒贬性以及褒贬比重分析的同时,结合了发行数据的影响,可以提高待分析产品对应分析结果的准确性。
关于产品评论数据分析装置的具体限定可以参见上文中对于产品评论数据分析方法的限定,在此不再赘述。上述产品评论数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储产品分析数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种产品评论数据分析方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签;
根据产品特征标签,查找预设模型群中的目标语言处理模型,目标语言处理模型携带有与产品特征标签匹配的模型特征标签;
获取待分析产品的评论数据,将评论数据输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据各类别评论数据褒贬评论的比重数据以及目标语言处理模型的加权参数,得到待分析产品的评论数据分析结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取发行数据中的发行企业信息与发行地域信息;
获取发行企业信息中的守信数据与失信数据,根据守信数据与失信数据,确定发行企业风险等级;
获取发行地域信息中的地域已发行产品数目与地域风险产品数目,根据地域已发行产品数目与地域风险产品数目,确定发行地域风险等级;
根据发行企业风险等级和发行地域风险等级,确定待分析产品的产品特征标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,以及样本产品集合中样本产品的评论样本数据;
建立样本产品集合与初始语言处理模型的关联关系;
根据关联关系,将评论样本数据输入对应的初始语言处理模型,对初始语言处理模型进行训练,得到训练完成的语言处理模型;
将样本产品集合对应发行数据的风险等级,标记为语言处理模型的模型特征标签;
根据携带有模型特征标签的各语言处理模型,构建预设模型群。
在一个实施例中,评论样本数据中包括领域专有词和情绪特征词;处理器执行计算机程序时还实现以下步骤:
根据评论样本数据携带的评价标签,对评论样本数据中的领域专有词与情绪特征词进行褒贬词性标记,评价标签包括好评标签和差评标签;
根据关联关系,将标记有褒贬词性的评论样本数据输入对应的初始语言处理模型;
根据样本产品集合的期望分析结果,以及初始语言处理模型输出分析结果,对初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同发行企业风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当未匹配到包含相同发行企业风险等级信息的模型特征标签时,根据产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同发行地域风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
检索待分析产品的评论网页,并提取评论网页中与待分析产品关联的文本;
根据预设标点符号,对文本进行语句划分;
根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将目标语句标记为待分析产品的评论数据。
上述用于实现产品评论数据分析方法的计算机设备,根据产品分析请求携带的产品选择信息,确定待分析产品,可根据需求实时获取到待分析产品的评论数据,获取待分析产品的发行数据,确定待分析产品的产品特征标签,根据包含有多个语言处理模型的预设模型群,匹配待分析产品的产品特征标签与各语言处理模型的模型特征标签,查找得到待分析产品适用的目标语言处理模型,考虑产品的发行数据来选择对应的目标语言处理模型,在进行评论数据的褒贬性以及褒贬比重分析的同时,结合了发行数据的影响,可以提高待分析产品对应分析结果的准确性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取待分析产品的发行数据,根据发行数据,确定待分析产品的产品特征标签;
根据产品特征标签,查找预设模型群中的目标语言处理模型,目标语言处理模型携带有与产品特征标签匹配的模型特征标签;
获取待分析产品的评论数据,将评论数据输入目标语言处理模型进行词法分析,确定各评论数据的褒贬性,并根据评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据各类别评论数据褒贬评论的比重数据以及目标语言处理模型的加权参数,得到待分析产品的评论数据分析结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取发行数据中的发行企业信息与发行地域信息;
获取发行企业信息中的守信数据与失信数据,根据守信数据与失信数据,确定发行企业风险等级;
获取发行地域信息中的地域已发行产品数目与地域风险产品数目,根据地域已发行产品数目与地域风险产品数目,确定发行地域风险等级;
根据发行企业风险等级和发行地域风险等级,确定待分析产品的产品特征标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,以及样本产品集合中样本产品的评论样本数据;
建立样本产品集合与初始语言处理模型的关联关系;
根据关联关系,将评论样本数据输入对应的初始语言处理模型,对初始语言处理模型进行训练,得到训练完成的语言处理模型;
将样本产品集合对应发行数据的风险等级,标记为语言处理模型的模型特征标签;
根据携带有模型特征标签的各语言处理模型,构建预设模型群。
在一个实施例中,评论样本数据中包括领域专有词和情绪特征词;计算机程序被处理器执行时还实现以下步骤:
根据评论样本数据携带的评价标签,对评论样本数据中的领域专有词与情绪特征词进行褒贬词性标记,评价标签包括好评标签和差评标签;
根据关联关系,将标记有褒贬词性的评论样本数据输入对应的初始语言处理模型;
根据样本产品集合的期望分析结果,以及初始语言处理模型输出分析结果,对初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同发行企业风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当未匹配到包含相同发行企业风险等级信息的模型特征标签时,根据产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同发行地域风险等级信息的模型特征标签时,获取携带有模型特征标签的目标语言处理模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
检索待分析产品的评论网页,并提取评论网页中与待分析产品关联的文本;
根据预设标点符号,对文本进行语句划分;
根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将目标语句标记为待分析产品的评论数据。
上述用于实现产品评论数据分析方法的计算机可读存储介质,根据产品分析请求携带的产品选择信息,确定待分析产品,可根据需求实时获取到待分析产品的评论数据,获取待分析产品的发行数据,确定待分析产品的产品特征标签,根据包含有多个语言处理模型的预设模型群,匹配待分析产品的产品特征标签与各语言处理模型的模型特征标签,查找得到待分析产品适用的目标语言处理模型,考虑产品的发行数据来选择对应的目标语言处理模型,在进行评论数据的褒贬性以及褒贬比重分析的同时,结合了发行数据的影响,可以提高待分析产品对应分析结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种产品评论数据分析方法,所述方法包括:
根据产品分析请求携带的产品选择信息,确定待分析产品;
获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签包括:
获取所述发行数据中的发行企业信息与发行地域信息;
获取所述发行企业信息中的守信数据与失信数据,根据所述守信数据与所述失信数据,确定发行企业风险等级;
获取所述发行地域信息中的地域已发行产品数目与地域风险产品数目,根据所述地域已发行产品数目与所述地域风险产品数目,确定发行地域风险等级;
根据所述发行企业风险等级和所述发行地域风险等级,确定所述待分析产品的产品特征标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述产品特征标签,查找预设模型群中的目标语言处理模型之前,还包括:
根据发行数据的风险等级,对样本产品进行分类,获得多个样本产品集合,并获取所述样本产品集合中样本产品的评论样本数据;
建立所述样本产品集合与初始语言处理模型的关联关系;
根据所述关联关系,将所述评论样本数据输入对应的初始语言处理模型,对所述初始语言处理模型进行训练,得到训练完成的语言处理模型;
将所述样本产品集合对应所述发行数据的风险等级,标记为所述语言处理模型的模型特征标签;
根据携带有所述模型特征标签的各所述语言处理模型,构建所述预设模型群。
4.根据权利要求3所述的方法,其特征在于,所述评论样本数据中包括领域专有词和情绪特征词;所述根据所述关联关系,将所述评论样本数据输入对应的初始语言处理模型,对所述初始语言处理模型进行训练,得到训练完成的语言处理模型包括:
根据所述评论样本数据携带的评价标签,对所述评论样本数据中的所述领域专有词与所述情绪特征词进行褒贬词性标记,所述评价标签包括好评标签和差评标签;
根据所述关联关系,将标记有所述褒贬词性的所述评论样本数据输入对应的初始语言处理模型;
根据所述样本产品集合的期望分析结果,以及所述初始语言处理模型输出分析结果,对所述初始语言处理模型中的加权参数进行调整,得到训练完成的语言处理模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述产品特征标签,查找预设模型群中的目标语言处理模型包括:
根据所述产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同所述发行企业风险等级信息的模型特征标签时,获取携带有所述模型特征标签的目标语言处理模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述产品特征标签中的发行企业风险等级信息,匹配预设模型群各语言处理模型的模型特征标签之后,还包括:
当未匹配到包含相同所述发行企业风险等级信息的模型特征标签时,根据所述产品特征标签中的发行地域风险等级信息,匹配预设模型群各语言处理模型的模型特征标签;
当匹配到包含相同所述发行地域风险等级信息的模型特征标签时,获取携带有所述模型特征标签的目标语言处理模型。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据之前,还包括:
检索所述待分析产品的评论网页,并提取所述评论网页中与所述待分析产品关联的文本;
根据预设标点符号,对所述文本进行语句划分;
根据预设领域专有字库和预设情绪特征词库,筛选划分的各语句中包括领域专有词和情绪特征词的目标语句,并将所述目标语句标记为所述待分析产品的评论数据。
8.一种产品评论数据分析装置,其特征在于,所述装置包括:
待分析产品确定模块,用于根据产品分析请求携带的产品选择信息,确定待分析产品;
特征标签确定模块,用于获取所述待分析产品的发行数据,根据所述发行数据,确定所述待分析产品的产品特征标签;
模型查找模块,用于根据所述产品特征标签,查找预设模型群中的目标语言处理模型,所述目标语言处理模型携带有与所述产品特征标签匹配的模型特征标签;
评论数据获取与处理模块,用于获取所述待分析产品的评论数据,将所述评论数据输入所述目标语言处理模型进行词法分析,确定各所述评论数据的褒贬性,并根据所述评论数据携带的类别标签,获得各类别评论数据褒贬评论的比重数据;
评论数据分析结果获得模块,用于根据所述各类别评论数据褒贬评论的比重数据以及所述目标语言处理模型的加权参数,得到所述待分析产品的评论数据分析结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295664.8A CN110135690A (zh) | 2019-04-12 | 2019-04-12 | 产品评论数据分析方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295664.8A CN110135690A (zh) | 2019-04-12 | 2019-04-12 | 产品评论数据分析方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135690A true CN110135690A (zh) | 2019-08-16 |
Family
ID=67569777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910295664.8A Pending CN110135690A (zh) | 2019-04-12 | 2019-04-12 | 产品评论数据分析方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135690A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026661A (zh) * | 2019-12-06 | 2020-04-17 | 广东省科技基础条件平台中心 | 一种软件易用性全面测试方法及*** |
CN114519631A (zh) * | 2022-01-17 | 2022-05-20 | 广东企数标普科技有限公司 | 基于产品匹配的融资数据处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198757A1 (en) * | 2009-02-02 | 2010-08-05 | Microsoft Corporation | Performance of a social network |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
WO2018015986A1 (ja) * | 2016-07-22 | 2018-01-25 | 株式会社Fronteo | 顧客評価データ分類システム、方法、プログラムおよびその記録媒体 |
US20180114093A1 (en) * | 2016-10-20 | 2018-04-26 | Fronteo, Inc. | Data analysis system, method for controlling data analysis system, and recording medium |
CN108256005A (zh) * | 2018-01-02 | 2018-07-06 | 深圳壹账通智能科技有限公司 | 互联网产品监控方法及终端设备 |
CN108595562A (zh) * | 2018-04-12 | 2018-09-28 | 西安邮电大学 | 基于准确性判定的用户评价数据分析方法 |
CN108665355A (zh) * | 2018-05-18 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、设备和计算机存储介质 |
CN109359865A (zh) * | 2018-10-17 | 2019-02-19 | 深圳壹账通智能科技有限公司 | 产品评估方法、装置、计算机设备和存储介质 |
-
2019
- 2019-04-12 CN CN201910295664.8A patent/CN110135690A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198757A1 (en) * | 2009-02-02 | 2010-08-05 | Microsoft Corporation | Performance of a social network |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
WO2018015986A1 (ja) * | 2016-07-22 | 2018-01-25 | 株式会社Fronteo | 顧客評価データ分類システム、方法、プログラムおよびその記録媒体 |
US20180114093A1 (en) * | 2016-10-20 | 2018-04-26 | Fronteo, Inc. | Data analysis system, method for controlling data analysis system, and recording medium |
CN108256005A (zh) * | 2018-01-02 | 2018-07-06 | 深圳壹账通智能科技有限公司 | 互联网产品监控方法及终端设备 |
CN108595562A (zh) * | 2018-04-12 | 2018-09-28 | 西安邮电大学 | 基于准确性判定的用户评价数据分析方法 |
CN108665355A (zh) * | 2018-05-18 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、设备和计算机存储介质 |
CN109359865A (zh) * | 2018-10-17 | 2019-02-19 | 深圳壹账通智能科技有限公司 | 产品评估方法、装置、计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026661A (zh) * | 2019-12-06 | 2020-04-17 | 广东省科技基础条件平台中心 | 一种软件易用性全面测试方法及*** |
CN111026661B (zh) * | 2019-12-06 | 2023-09-19 | 广东省科技基础条件平台中心 | 一种软件易用性全面测试方法及*** |
CN114519631A (zh) * | 2022-01-17 | 2022-05-20 | 广东企数标普科技有限公司 | 基于产品匹配的融资数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489520A (zh) | 基于知识图谱的事件处理方法、装置、设备和存储介质 | |
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN109360105A (zh) | 产品风险预警方法、装置、计算机设备和存储介质 | |
Bauer et al. | Quantitive evaluation of Web site content and structure | |
CN109767318A (zh) | 贷款产品推荐方法、装置、设备及存储介质 | |
CN108885624B (zh) | 信息推荐***及方法 | |
CN108874992A (zh) | 舆情分析方法、***、计算机设备和存储介质 | |
CN109800976A (zh) | 项目投资决策方法、装置、计算机设备和存储介质 | |
CN109670837A (zh) | 债券违约风险的识别方法、装置、计算机设备和存储介质 | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN110135694A (zh) | 产品风险评估方法、装置、计算机设备和存储介质 | |
CN110264342B (zh) | 一种基于机器学习的业务审核方法及装置 | |
CN109299094A (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
CN109087205A (zh) | 舆情指数的预测方法及装置、计算机设备和可读存储介质 | |
CN113743981B (zh) | 素材投放成本预测方法、装置、计算机设备及存储介质 | |
US11682060B2 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
CN110135690A (zh) | 产品评论数据分析方法、装置、计算机设备和存储介质 | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
Huang et al. | Using social network sentiment analysis and genetic algorithm to improve the stock prediction accuracy of the deep learning-based approach | |
CN110209944B (zh) | 一种股票分析师推荐方法、装置、计算机设备和存储介质 | |
CN112084376A (zh) | 基于图谱知识的推荐方法、推荐***及电子装置 | |
KR102609681B1 (ko) | 사용자의 피드백 반영 제품계획 결정 방법 및 그 장치 | |
CN112149413A (zh) | 基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质 | |
CN116881554A (zh) | 一种医疗处方推荐方法、装置、电子设备和可读存储介质 | |
JP2018067215A (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |