CN110705303A

CN110705303A - 一种基于大数据的产品形象效果评估***

Info

Publication number: CN110705303A
Application number: CN201910667289.5A
Authority: CN
Inventors: 程博
Original assignee: Guangdong Ding Ding Technology Co Ltd
Current assignee: Guangdong Ding Ding Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2020-01-17

Abstract

本发明公开了一种基于大数据的产品形象效果评估***，包括：输入模块，用于获取目标产品的形象语料数据；形象及情感倾向提取模块，用于通过语义挖掘技术对所述输入模块获取的数据进行各类形象词提取并判断情感倾向；词向量化模块，所述词向量模块包括预先训练完成的词向量模型，所述词向量化模型用于将所述各类形象词转化为向量；形象对喜好度作用量化模块，用于建立概率预测模型，量化每个形象词对喜爱度的影响数值，还可以利用这个模型模拟如果某车型具有某组形象时对应的喜好度；本发明通过获得形象词和与其相连的情感倾向，再建立情感倾向和形象词之间的量化关系，评估宣传某形象组合时可能达到的喜好度，提高广告宣传准确度。

Description

一种基于大数据的产品形象效果评估***

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于大数据的产品形象效果评估***。

背景技术

在广告宣传策略制定时，宣传什么形象一直是困扰广告界的难题，目前并未有很好的解决方案，主要是没有量化的标准去测量树立某形象会产生的影响；随着网络舆情大数据可得性的增加和语义挖掘技术的日臻成熟，利用数学工具测量消费者因为什么形象而喜爱或者反感某产品成为可能，一旦解决了“什么形象可以有效的激起消费者的喜爱”这个问题，制定广宣策略时应该宣传什么形象的问题就迎刃而解了；企业可以权衡打造一个形象的投入和因为树立这个形象提升了消费者喜好度而得到的收益，并基于此做出决定。

本发明是基于网络舆情大数据和语义挖掘技术获得形象词和与其相连的情感倾向，再建立情感倾向和形象词之间的量化关系，测量每个形象激起消费者喜爱的能力，从而评估宣传某形象组合时可能达到的喜好度。

发明内容

本发明提供了一种基于大数据的产品形象效果评估***，以解决目前广告宣传产品时无法判断应该宣传该产品的哪方面形象的技术问题。基于网络舆情大数据和语义挖掘技术获得形象词和与其相连的情感倾向，再建立情感倾向和形象词之间的量化关系，测量每个形象激起消费者喜爱的能力，进而评估/预估宣传某形象组合时可能达到的喜好度，提高广告宣传准确度。

为了解决上述技术问题，本发明实施例提供了一种基于大数据的产品形象效果评估***，包括：

输入模块，用于获取目标产品的形象语料数据；

形象及情感倾向提取模块，用于通过语义挖掘技术对所述输入模块获取的数据进行各类形象词提取并判断情感倾向；

词向量化模块，所述词向量模块包括预先训练完成的词向量模型，所述词向量化模型用于将所述各类形象词转化为向量；

形象对喜好度作用量化模块，用于建立概率预测模型，量化每个形象词对喜爱度的影响数值。

作为优选方案，所述输入模块包括输入原始语料子模块和输入模拟形象子模块；

所述输入原始语料子模块用于输入反应消费者真实想法的对于所述目标产品或者同类产品的评论语料；

所述输入模拟形象子模块用于输入待模拟的形象组合以及该组合中每个形象的占比数据。

作为优选方案，所述形象及情感倾向提取模块包括词库和情感识别模型；

所述词库用于储存各种词汇，是分词工具的基础。分词工具基于词库可以对句子进行词语切分，提取关键词；

所述情感识别模型用于提取所述语料库里每个短句的情感倾向；所述情感倾向包括正向、中性和负向。

作为优选方案，所述词库包括经典词库和行业词库，所述经典词库用于储存日常经典形象词；所述行业词库用于储存目标产品相关的术语和基于行业语料提取的常用词。

作为优选方案，所述情感识别模型在提取情感倾向之前，还可以自动更新模型：根据分类算法训练模型，提取每个短句的关键信息并用分类算法训练出所述关键信息与情感倾向的关系，完成建模或者模型更新。

作为优选方案，所述分类算法包括SVM算法、神经网络算法、逻辑回归算法和朴素贝叶斯算法。

作为优选方案，所述形象及情感倾向提取模块还包括加工子模块，所述加工子模块用于切割所述输入原始语料子模块输入的语料数据，以使所述语料数据被切割为多个带有情感倾向标签的短句。

作为优选方案，所述加工子模块包括分词单元和标签单元，所述分词单元用于通过分词技术将原始语料切割成多个词，并识别出里面的形象词；所述标签单元用于将原始语料拆分成短句，每个短句作为情感模型的输入，再通过所述情感模型在每个短句上建立情感倾向的标签。

作为优选方案，所述正向情感倾向和负向情感倾向分别分为多个等级，以区分正向情感或负向情感的强度。

作为优选方案，所述形象对喜好度作用量化模块包括模拟子模块和建模子模块；

所述模拟子模块用于获取所述输入模拟形象子模块输入的形象组合，结合当前产品的舆情评论，模拟在各个形象词的提及百分比达到输入水平时，消费者对于具有该组形象的车型的喜好度；

所述建模子模块用于获取经过所述形象及情感倾向提取模块提取情感标签的短句，以及经所述词向量模块生成的短句中形象词的词向量，并对所述概率预测模型进行模型更新，在原有权重基础上叠加新数据训练得到更新的权重。

相比于现有技术，本发明实施例具有如下有益效果：

基于网络舆情大数据和语义挖掘技术获得形象词和与其相连的情感倾向，再建立情感倾向和形象词之间的量化关系，测量每个形象激起消费者喜爱的能力，解决目前广告宣传产品时无法准确判断应该宣传该产品的哪方面形象的技术问题，评估宣传某形象组合时可能达到的喜好度，提高广告宣传准确度，更好的避免了调研中的各种问题的干扰和人为决策中主观性过强的问题，使得选择宣传的形象时可以更客观，更准确。

附图说明

图1：为本发明实施例的***结构示意图；

图2：为本发明实施例的数据交互示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1和图2，本发明优选实施例提供了一种基于大数据的产品形象效果评估***，包括：

输入模块，用于获取目标产品或者类似产品的形象语料数据；

在本实施例中，所述输入模块包括输入原始语料子模块和输入模拟形象子模块；

在本实施例中，所述形象及情感倾向提取模块包括词库和情感识别模型；

所述情感识别模型用于提取所述语料里每个短句的情感倾向；所述情感倾向包括正向、中性和负向。

在本实施例中，所述词库包括经典词库和行业词库，所述经典词库用于储存日常经典形象词；所述行业词库用于储存目标产品相关的术语和基于行业语料提取的常用词。

在本实施例中，所述情感识别模型在提取情感倾向之前，还可以自动更新模型：根据分类算法训练模型，提取每个短句的关键信息并用分类算法训练出所述关键信息与情感倾向的关系，完成建模或者模型更新。

在本实施例中，所述分类算法包括SVM算法、神经网络算法、逻辑回归算法和朴素贝叶斯算法等。

在本实施例中，所述形象及情感倾向提取模块还包括加工子模块，所述加工子模块用于切割所述输入原始语料子模块输入的语料数据，以使所述语料数据被切割为多个带有情感倾向标签的短句。

在本实施例中，所述加工子模块包括分词单元和标签单元，所述分词单元用于通过分词技术将原始语料切割成多个词，并识别出里面的形象词；所述标签单元用于将原始语料拆分成短句，每个短句作为情感模型的输入，再通过所述情感模型在每个短句上建立情感倾向的标签。

在本实施例中，所述正向情感倾向和负向情感倾向分别分为多个等级，以区分正向情感或负向情感的强度。

在本实施例中，所述形象对喜好度作用量化模块包括模拟子模块和建模子模块；

下面结合具体的实施例，对本发明进行详细说明。

实施例一

在本实施例中，该***由四个部分组成，使用时按照下列步骤顺序执行：

输入模块：有两个输入功能，可以互相切换。不同功能下后面模块的运行情况不同。1)原始语料输入：各种来源的评论或者得分数据用于自动更新模型；2)模拟输入：输入要做模拟的一组形象组合。

形象及情感倾向提取模块：如果第一步输入的是模拟用的形象组合，这一步就跳过。如果第一步输入的是原始语料则输入的语料信息将被两个部分加工：提取各类形象&识别情感倾向。两个加工部分分别是词库和情感模型。词库收集了汽车行业相关的各种关键词并提取词性&建立了词之间的关系。情感模型可以通过输入的语句判断句子的情感倾向并为句子打上情感标签。

词向量化模块：如果第一步输入的是模拟用的形象组合，这一步就负责给出每个形象词的词向量。如果第一步输入的是原始语料则输入的语料可用于更新词向量模型。

形象对喜好度作用量化模块：这个模块也分为两个部分，建模和模拟。如果第一步输入的是模拟用的形象组合，则该模块利用已有模型结果，结合当前产品的舆情评论，模拟如果认为某个形象为“是”的百分比提升对于喜好度的提升的百分比。如果第一步输入的是原始语料，则该模块自动进行模型更新：利用每句话中包含的形象和情感标签，量化某人认为某车型不具有某形象到认为具有该形象时，对于某车型情感标签改变的概率。

意义及特点：1)掌握消费者喜欢的车型形象：帮助厂家了解消费者喜欢哪些形象的车型并辨识每个形象的重要性。使得厂家可以在产品设计及推广期间更好的匹配消费者需求。2)模拟改变车型形象对喜好度提升情况：提升喜好度可以增加潜客群，带来更多的销量。因此量化某形象对喜好度的提升，可以帮助厂家判断提升该形象时的投入产出情况，并基于此决定是否要投入去提升该形象，为广宣决策提供客观支持。

实施例二

在本实施例中，***分四个部分说明：

a)输入模块：有两个输入功能，可以互相切换。不同功能下后面模块的运行情况不同；

i.输入原始语料：反应消费者真实想法的对于本产品或者同类产品的评论语料。如果语料有相配套的可以反应情感倾向的得分，则该得分也将同时被输入。

ii.输入模拟用的一组形象组合：输入在广宣过后希望消费者认知的形象组合以及该组合中每个形象的占比。例如希望某产品的复合形象为(好看，运动)，这两种形象的权重为(30％，70％)。

b)形象及情感倾向提取模块：包括两个部分“词库”和“情感识别模型”。词库既包括行业专有词库也包括普适性的词库。情感识别模型可以提取原始语料里每个短句的情感倾向，例如正向，中性和负向。有些情况还可以给正向和负向分级。如果第一步输入的是模拟用的形象组合，这一步就跳过。如果第一步输入的是原始语料则输入的语料信息将被这两个部分加工。首先利用词库和分词技术，将原始语料切成词，并识别出里面的形象词。其次原始语料被拆成短句，每个短句作为情感模型的输入，再由情感模型为该短句打上情感倾向的标签。词库和情感模型需要定期维护。词库收集了涉及到的行业相关的各种关键词，需要定期补入新的关键词，并且将使用频率非常低的词或者失去相关意义的词加入停用词词库。情感模型是预先训练好的模型，可以直接使用，但模型需要定期更新。

c)词向量化模块：由预先训练好的词向量模型组成。当输入一个形象词时，输出是一个向量。这个模块最大的功能就是将词数值化并用于下一部分模型的建立。词向量模型也需要定期加入新的原始语料进行维护和更新，以确保准确性。

d)形象对喜好度作用量化模块：这个模块分为两个部分，建模和模拟。如果第一步输入的是模拟用的形象组合，则该模块利用模型结果，结合当前某产品的舆情评论，模拟如果认为某个形象例如“智能”为“是”的百分比得到提升时，对好感度的影响情况。如果第一步输入的是原始语料，则该模块自动进行模型更新，在原有权重基础上叠加新数据训练得到更新的权重。

在本实施例中，将情感和形象量化关联起来是本发明的关键技术创新点。因为有了这个关联，就可以测量树立某种形象可以在消费者心理引起什么样的反应。

实施例三

在本实施例中，对各模块中模型/参数/数据来源说明：

a)输入模块：负责读入数据，不包含模型或者参数。

b)形象及情感倾向提取模块：

词库：

数据来源1：经典词库；

数据来源2：自己维护的行业词库，包括产品相关的术语、基于行业语料提取的常用词。每次更新此词库时，先用切词软件基于行业语料进行分词，再统计高频词并和当前词库比对，最后利用行业经验筛选而得；

情感识别模型：利用SVM、神经网络、逻辑回归和朴素贝叶斯等方法，训练模型。输入为经过切词的短句和该短句包含的情感倾向。模型根据短句里面的关键信息例如关键词、词性、词的组合、词的逻辑、修饰词距离关键词的位置等，训练出这些信息与情感倾向的联系，完成建模。

c)词向量化模块：由预先训练好的词向量模型组成。当输入一个形象词时，输出是一个向量。利用Word2Vec等模型，用大量的原始语料，根据每个词出现的语境，找到合适的向量使得向量之间的距离可以反映词之间的相似度。

d)形象对喜好度作用量化模块：这个模块有两个功能，建模和模拟。如果第一步输入的是模拟用的形象组合，则该模块利用模型结果，结合当前产品的舆情评论，模拟如果认为某个形象例如“智能”为“是”的百分比得到提升(看广告前为状态0，看广告后提升到状态1)，对于喜好度的提升的百分比。如果用公式表达，则输出为如下比例：

这里i＝1,…,n，代表n个消费者，A0＝(a0_1,…,a0_n)代表状态是0的时候每个消费者在“智能”这个上的认知(认知为“是”代表消费者认为这个产品有“智能“的元素，如果为“否”代表消费者认为这个产品没有“智能”的形象)，A1＝(a1_1,…,a1_n)代表状态是1的时候每个消费者在“智能”这个上的认知，是训练好的权重。

在本实施例中，如果第一步输入的是原始语料，则该模块自动进行模型更新，输出的是更新后的权重

更新过程如下：已知

所有输入的n个消费者的情感倾向(喜欢_i＝Yes or No)、以及X(代表对各类形象的认知)，在原有权重基础上叠加训练得到权重

实施例四

在本实施例中，对***的自动更新功能进行说明：

步骤一：输入模块读入一定量的新的原始语料，将语料的段落切分成短句，每个短句将作为一条输入。

步骤二：根据现有词库利用切词工具把每个短句进行分词，得到组成该短句的所有非停用词并对每个词打上词性的标签。

步骤三：如果原始输入有每个短句相应的情感标签，则在第三步可以做两件事。第一是根据关键词、词性、词的组合、词的逻辑、修饰词距离关键词的位置等以及情感标签对情感模型进行更新。第二是利用更新后的模型为所有存在的原始短句打上情感标签。如果原始输入的短句没有配套的情感标签的输入，则该步就只做第二件事，利用原有模型为新加入的原始短句打上情感标签。

步骤四：利用已有词向量模型结果将每个形象词转化成向量。至此每个短句可以被完全数值化，短句的情感(正，中性，负)可以用哑元变量表示，短句中的每个形象词都是一个词向量。

步骤五：将数值化好的短句都输入到形象对喜好度作用量化模块中，对于喜好度模型体系进行更新。

在本实施例中，喜好度模型是由多个子模型构成的模型体系。因为树立相同的形象在不同人群中起到的作用不同，因此对每一类人群需要针对性的开发相应的子模型。每个子类喜好度模型的函数形式可以不同，也可以相同。函数形式包括参数形式的sigmoid，softmax，或者非参数形式的神经网络等。当新的语料进入，首先利用已有的判别方法，将每个短语对应的消费者归入相应的人群。其次对于有足够新语料的每类人群激活自动更新过程，自动更新模型。

实施例五

在本实施例中，对***的情景模拟功能进行说明：

输入模块：通过输入模块输入目标形象组合和每种形象的权重。例如：(智能：30％，耐用：70％)。也可以给定对每一类人群的目标形象组合和每种形象的权重。同时模块将从已有语料库中寻找最相似产品相关的所有短句。

形象及情感倾向提取模块：对于已有短句做切词，并统计“智能”和“耐用”在其中的占比情况。

词向量化模块：将每个短句中的所有关键词转化为向量(不止是“智能”和“耐用”)。

形象对喜好度作用量化模块：1)判断每个短句所属的子类，然后将每个短句作为一条输入，输入该子类对应的子模型，得到每个短句是正向情感的概率。2)如已有短句中“智能”的占比为d％，低于30％，则随机选取(30％-d％)的句子，***“智能”这一形象，变成新句子。如d％大于30％，则随机选取d％-30％的句子删除“智能”这一形象，变成新句子。对于“耐用”做同样处理。如果输入是分类的，则上述过程在相应的类中进行。3)用新句子作为输入带入相应的子类的模型，用模型计算新句子的正向情感概率。4)用新句子正向情感概率除以原有句子的正向情感概率，例如：

即可得到模拟结果。

应当理解的是，在以上实施例中，列举的函数仅仅是用了简单的情况示意。因此凡是思路类似，仅仅变换函数或者变量形式的，都在本专利保护范围之内。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的产品形象效果评估***，其特征在于，包括：

输入模块，用于获取目标产品的形象语料数据；

2.如权利要求1所述的***，其特征在于，所述输入模块包括输入原始语料子模块和输入模拟形象子模块；

3.如权利要求2所述的***，其特征在于，所述形象及情感倾向提取模块包括词库和情感识别模型；

4.如权利要求3所述的***，其特征在于，所述词库包括经典词库和行业词库，所述经典词库用于储存日常经典形象词；所述行业词库用于储存目标产品相关的术语和基于行业语料提取的常用词。

5.如权利要求3所述的***，其特征在于，所述情感识别模型在提取情感倾向之前，还可以自动更新模型：根据分类算法训练模型，提取每个短句的关键信息并用分类算法训练出所述关键信息与情感倾向的关系，完成建模或模型自动更新。

6.如权利要求5所述的***，其特征在于，所述分类算法包括SVM算法、神经网络算法、逻辑回归算法和朴素贝叶斯算法等。所有分类算法均在本专利保护范围。

7.如权利要求3所述的***，其特征在于，所述形象及情感倾向提取模块还包括加工子模块，所述加工子模块用于切割所述输入原始语料子模块输入的语料数据，以使所述语料数据被切割为多个带有情感倾向标签的短句。

8.如权利要求7所述的***，其特征在于，所述加工子模块包括分词单元和标签单元，所述分词单元用于通过分词技术将原始语料切割成多个词，并识别出里面的形象词；所述标签单元用于将原始语料拆分成短句，每个短句作为情感模型的输入，再通过所述情感模型在每个短句上建立情感倾向的标签。

9.如权利要求3所述的***，其特征在于，所述正向情感倾向和负向情感倾向分别分为多个等级，以区分正向情感或负向情感的强度。

10.如权利要求2所述的***，其特征在于，所述形象对喜好度作用量化模块包括模拟子模块和建模子模块；