CN102402717A - 数据分析设备和方法 - Google Patents
数据分析设备和方法 Download PDFInfo
- Publication number
- CN102402717A CN102402717A CN2010102829251A CN201010282925A CN102402717A CN 102402717 A CN102402717 A CN 102402717A CN 2010102829251 A CN2010102829251 A CN 2010102829251A CN 201010282925 A CN201010282925 A CN 201010282925A CN 102402717 A CN102402717 A CN 102402717A
- Authority
- CN
- China
- Prior art keywords
- business
- client
- unit
- complaint
- topics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据分析设备,包括:识别单元,基于语义知识和语言模型,从客户的投诉/咨询数据中识别出业务、主题和子主题;隐含特征计算单元,基于语义知识和情绪字典,根据所识别的业务、主题和子主题来计算客户的隐含特征;以及隐含需求获取单元,将客户的隐含特征汇总以获取客户的隐含需求。本发明还提供了一种数据分析方法。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种应用于客户服务中心的数据分析设备和方法。
背景技术
电信、网店、银行、保险等多个行业都具有各自的客服中心。客服中心经常接收到客户对企业服务/产品的投诉及咨询,这些投诉/咨询往往是自然语言的形式,例如“如何开通GPRS?”、“我的GPRS上网怎么这么慢,你们也太过分了!”。
客服中心可以针对客户自然语言形式的投诉/咨询数据,挖掘出客户对服务/产品的意见。通过对客户的投诉/咨询数据的分析,可以帮助企业发现哪些客户对服务/产品感兴趣或不感兴趣,从而满足客户个性化需求,为客户提供更好的服务。
当前,已经存在一些相关的数据分析方法。其中一些方法可以从客户的投诉/咨询数据中分析出客户的显式需求(即,客户在问什么)。例如,从“GPRS还有流量,为什么还要扣费”中分析出“业务=GPRS,问题=扣费”。但是,当前的方法不能分析客户的隐含需求并基于分析结果提供进一步的个性化业务。另一些方法可以基于客户的购买历史/基本信息等结构化数据提供个性化业务,但不能基于客户的投诉/咨询数据提供个性化业务。
T.Nasukawa在IBM SYSTEMS JOURNAL发表的论文中提到了一种从客户的投诉/咨询数据中分析客户显式需求的方法,但不能分析客户的隐含需求并基于分析结果来提供个性化业务。
专利文献WO2002073331A2描述了一种从客户的投诉/咨询数据中分析客户显式需求的方法,但同样不能分析客户的隐含需求并基于分析结果来提供个性化业务。
专利文献US7536002B1描述了一种基于客户的账户/行为数据来进行个性化业务的方法,但不能基于客户的投诉/咨询数据来提供个性化业务。
因此,存在对来自客户的投诉/咨询数据进行分析以获取用户的隐含需求、并提供个性化业务的需求。
发明内容
为了解决上述问题,本发明提出了一种对客户的投诉/咨询数据进行分析以获得客户的隐含需求,并可以提供进一步的个性化业务的数据分析设备和方法。
在本发明中,“隐含需求”的定义与现有技术中的“显式需求”有所不同。“显式需求”是指仅理解用户表面上的需求,即与用户在咨询或投诉的业务有关的需求;而“隐含需求”是指用户的咨询/投诉背后所隐藏的信息,如用户对所投诉的业务的价格敏感度、接受度等等,下文对此有更加详细的描述。即,“隐含需求”能够更加准确和深入的信息。
根据本发明的一个方面,提供了一种数据分析设备,包括:识别单元,基于语义知识和语言模型,从客户的投诉/咨询数据中识别出业务、主题和子主题;隐含特征计算单元,基于语义知识和情绪字典,根据所识别的业务、主题和子主题来计算客户的隐含特征;以及隐含需求获取单元,将客户的隐含特征汇总以获取客户的隐含需求。
优选地,该隐含特征计算单元包括:敏感度计算子单元,计算客户的价格敏感度和质量敏感度;使用水平计算子单元,计算客户对所识别的业务的使用水平;接受度计算子单元,计算客户对所识别的业务的接受度;以及不满原因获取子单元,获取客户对所识别的业务的不满原因。
优选地,该数据分析设备还包括:隐含需求统计单元,对客户的隐含需求进行统计。更优选地,该隐含需求统计单元进行以下至少一项统计:业务接受度统计、业务不满原因统计和客户分群统计。
优选地,该数据分析设备还包括:个性化业务推荐单元,根据客户的隐含需求,向客户推荐个性化业务。更优选地,个性化业务推荐单元提供以下至少一项业务:更高质量的业务、价格更实惠的业务、升级现有业务、语义相关业务、提升现有业务价值和挽留业务。
优选地,该数据分析设备还包括:个性化业务效果评价单元,根据客户对个性化业务推荐单元推荐的业务的反馈,评价个性化业务推荐的效果。
根据本发明的另一个方面,提供了一种数据分析方法,包括:基于语义知识和语言模型,从客户的投诉/咨询数据中识别出业务、主题和子主题;基于语义知识和情绪字典,根据所识别的业务、主题和子主题来计算客户的隐含特征;以及将客户的隐含特征汇总以获取客户的隐含需求。
优选地,隐含特征包括:客户的价格敏感度和质量敏感度、客户对所识别的业务的使用水平、客户对所识别的业务的接受度和客户对所识别的业务的不满原因。
优选地,该数据分析方法还包括:对客户的隐含需求进行统计。更优选地,该统计包括以下至少一项:业务接受度统计、业务不满原因统计和客户分群统计。
优选地,该数据分析方法还包括:根据客户的隐含需求,向客户推荐个性化业务。更优选地,个性化业务包括以下至少一项业务:更高质量的业务、价格更实惠的业务、升级现有业务、语义相关业务、提升现有业务价值和挽留业务。
优选地,该数据分析方法还包括:根据客户对所推荐的个性化业务的反馈,评价个性化业务推荐的效果。
根据本发明的数据分析设备和方法可以根据来自客户的投诉/咨询数据准确地理解客户的隐含需求。此外,还可以根据客户的隐含需求,向客户推荐个性化业务。因此,本发明能够更加准确地识别客户的需求并提供具有针对性的服务,从而极大地提升了客户的使用感受。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1是示出了根据本发明第一实施例的数据分析设备的框图;
图2是示出了投诉/咨询数据的具体示例的示意图;
图3是示出了根据本发明第一实施例的本体库单元中存储的语义知识的示例的示意图;
图4是示出了根据本发明第一实施例的语言库单元中存储的语言模型的示例的示意图;
图5是示出了根据本发明第一实施例的情绪字典单元中存储的关系表的示例的示意图;
图6是详细示出图1中的隐含特征计算单元的内部结构的框图;
图7是示出了根据本发明第一实施例的识别单元执行业务、主题和子主题识别的示意图;
图8是示出了根据本发明第一实施例的敏感度计算子单元计算客户的敏感度的示意图;
图9是示出了根据本发明第一实施例的使用水平计算子单元计算客户的使用水平的示意图;
图10是示出了根据本发明第一实施例的接受度计算子单元计算客户的接受度的示意图;
图11是示出了根据本发明第一实施例的不满原因获取子单元获取客户的不满原因的示意图;
图12是示出了根据本发明第一实施例的隐含需求获取单元获取隐含需求的示意图;
图13是示出了根据本发明第二实施例的数据分析设备的框图;
图14是示出了根据本发明第二实施例的隐含需求统计单元执行隐含需求统计的示意图;
图15是示出了根据本发明第三实施例的数据分析设备的框图;
图16是示出了根据本发明第三实施例的个性化业务推荐单元所推荐的个性化业务的示意图;
图17是示出了根据本发明第三实施例的个性化业务推荐单元推荐个性化业务的示意图;
图18是示出了根据本发明第四实施例的数据分析设备的框图;
图19是示出了根据本发明第四实施例的个性化业务效果评价单元执行个性化业务推荐效果评价的示意图;以及
图20是示出了根据本发明的一个实施例的数据分析方法的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了对公知元件的描述。
首先,结合附图1-18来描述根据本发明的若干实施例的数据分析设备。
第一实施例
图1是示出了根据本发明第一实施例的数据分析设备1的框图。如图1所示,本实施例中的数据分析设备1包括:识别单元210、隐含特征计算单元200和隐含需求获取单元260。识别单元210输入是来自客户的投诉/咨询数据,该数据至少包括客户的投诉/咨询时间、客户编号和投诉/咨询的内容。其中,投诉/咨询的内容是以自然语言的形式描述的。例如,图2示出了投诉/咨询数据的一个具体示例,其中某条投诉/咨询数据是:“2010/06/0518:20:15,客户135XXXX1234提交了一条投诉/咨询,内容是’怎么飞信经常无法成功登陆呢’”。
如图1所示,在本实施例中,存储设备10包括:本体库单元110,用于存储企业客服中心的语义知识;语言库单元120,用于存储理解投诉/咨询数据的语言模型;以及情绪字典单元130,用于存储各个情绪词语及其属于各种情绪的概率关系表。下面结合附图3-5详细说明各个单元的结构和功能。
本体库单元110存储客服中心的语义知识。其中,语义知识包括两部分:类别树和主题树。类别树是存储所有的服务或产品的树状结构,由类别和实例组成。其中,实例是叶子结点,类别是非叶子结点。每个实例属于一个类别,小类别还可以属于一个大类别。图3中示出了某个电信行业的客服中心类别树的例子,其包括某电信运营商的所有业务及业务类别。例如,如图3上半部分所示,所有业务分为上网类业务、彩铃类业务等,其中上网类业务进一步包括GPRS、G3上网等业务。
主题树是存储所有服务或产品的相关主题和子主题的树状结构,由类别、主题和子主题组成。每个类别可以定义一组主题,用来描述该类别的各个方面。一个主题又可以进一步细分为多个子主题。属于某类别的所有子类别或实例可以继承该类别的主题和子主题。图3中示出了某个电信行业客服中心主题树的例子,其包括某电信运营商各业务类别的主题及子主题。例如,如图3下半部分所示,上网类业务包括的主题有“使用”、“资费”、“优惠”等,“资费”进一步包括的子主题有“资费标准”和“错误扣费”,这些主题和子主题可以适用于所有的上网类业务,如GPRS、G3上网等。
本体库单元110中存储的信息可以手工地生成,或采用本领域中其他的公知方法生成。为了简便起见,本文省略了对本体库单元110的具体生成过程的描述。
语言库单元120存储用于分析投诉/咨询内容的语言模型,具体包括两部分:业务术语映射规则和子主题提取规则。
客户的投诉/咨询数据中可能不直接出现业务的名称,而是以其他术语出现。例如“充100送30”对应的业务是“充值优惠”,“短号网”对应的业务是“短号集群网”。业务术语映射规则使用灵活的文法方式来描述各业务术语与业务的对应关系。每条业务术语映射规则由术语文法和业务名称组成,其含义为“当业务术语和某术语文法匹配时,则为该术语文法对应的业务”。在术语文法中,定义了一些特殊的符号:
“<X>”指此处可以出现的词;
“<X1|X2|…>”指此处可以出现X1,X2等词之一;
“<?数字>”指此处可以是任意数字;
“[m-n]”指的是此处可以出现介于m到n之间的任意一个字符;
{k}指的是前面的词需要出现k遍。
图4示出了客服中心业务术语映射规则的例子。例如,业务术语“充100送30”可以与规则“<充><?数字><赠|送><?数字>→充值优惠”匹配,其对应的业务是“充值优惠”。业务术语“GS13661209810”可以与规则“GS[1-9][0-9]{10}→查询归属地”匹配,其对应的业务是“查询归属地”。
子主题提取规则由特征词序列和子主题组成,其含义为“当客户的投诉/咨询内容中出现某特征词序列时,则为该特征词序列对应的子主题”。在特征词序列中定义了一些特殊的符号:
“<X>”此处可以出现的词;
“<X1|X2|…>”指此处可以出现X1,X2等词之一;
“;”是不同特征词之间的间隔符;
“[]”指的是在“[”和“]”中间的内容可有可无。
图4示出了某个电信行业客服中心子主题提取规则的例子。例如,客户投诉/咨询内容“GPRS上网怎么这么慢”可以与“<上网>;<慢|不快>→上网速度”匹配,其对应的子主题是“上网速度”。
语言库单元120中存储的信息可以手工地生成,或采用本领域中其他的公知方法生成。为了简便起见,本文省略了对语言库单元120的具体生成过程的描述。
情绪字典单元130存储各个情绪词及其属于各种情绪类型的概率的关系表。图5示出了情绪字典单元130的例子。例如,如图5所示,情绪词“过分”属于愤怒的概率是0.8,属于失望的概率是0.2,而情绪词“满意”属于高兴的概率是1。
情绪字典单元130中存储的信息可以手工地生成,或采用本领域中其他的公知方法生成。为了简便起见,本文省略了对情绪字典单元130的具体生成过程的描述。
回到图1,识别单元210基于本体库单元110和语言库单元120中存储的信息,从每条投诉/咨询数据中识别出业务、主题和子主题的名称。具体地,识别单元210首先从投诉/咨询数据中提取出业务术语,其关键在于确定业务术语在投诉/咨询数据中的左右边界。例如,其具体过程可以包括:首先收集一组投诉/咨询数据作为训练语料,并进行分词,转换成CRF模型可训练的文件格式,人工标注每个词的标签(B_NP代表术语的开始,I_NP代表术语的中间或结尾,NN代表非术语词);然后用CRF工具训练出一个模型;接下来,对投诉/咨询数据进行分词,基于训练模型得到各词的标签;最后,根据各词的标签,得到业务术语(依据:业务术语中各词的标签序列是“B_NP I_NP I_NP…I_NP”)。
接下来,识别单元210从投诉/咨询内容中识别出业务名称。例如,其具体过程可以包括:将业务术语与语言库单元120中各个业务映射规则的术语文法进行匹配,匹配方法是检查业务术语中包含的各词是否在术语文法的相应位置;若匹配了某项映射规则,则将该规则的业务名称作为业务识别结果。
然后,识别单元210从投诉/咨询内容中识别出子主题名称。具体过程可以包括:将投诉/咨询数据与语言库单元120中各个子主题提取规则的特征词序列进行匹配,匹配方法是检查特征词序列中的各个特征词是否出现在投诉/咨询数据中,然后得到所有候选的子主题提取规则;当匹配到多个子主题提取规则时,通过如下步骤从所有候选的子主题提取规则中挑选出最优规则:基于词性和词长来计算投诉/咨询内容中各词的权重(例如,词长度越大,则权重越高;名词和动词的权重大于形容词和副词;等等),计算每个候选子主题提取规则的匹配度(匹配度=投诉咨询数据与候选规则的特征词序列匹配上的各特征词的权重之和/投诉咨询数据中各词的权重之和),以及选取匹配度最高的候选子主题提取规则作为最优规则,然后将最优规则的子主题作为子主题识别结果。
最后,识别单元210根据业务识别结果和子主题识别结果,从本体库单元110中找到关联的主题。
图7示出了由识别单元210执行业务、主题和子主题识别的例子。对于客户的投诉/咨询数据“集群怎么取消失败?”,识别单元210首先执行分词,得到“集/名词群/名词怎么/疑问词取消/动词失败/动词”,根据训练模型可知“集群”是一个业务术语,然后和业务术语映射规则“<短号网|集群>→短号集群网”匹配成功,从而识别出业务“短号集群网”。然后,识别单元210通过与子主题提取规则匹配,找到两条候选规则“<怎么|如何>;<取消|退订>→取消方法”和“[<怎么|如何>];<取消|退订>;<失败|不了>→取消失败”,经过匹配度计算发现第二条规则的匹配度要高于第一条规则,因此将“取消失败”作为子主题。最后,识别单元210通过查找本体库单元110得到“类别=所有业务,主题=取消,子主题=取消失败”,从而将“取消”作为主题。
下面,结合附图6-11详细描述图1中所示的隐含特征计算单元200的结构和功能。
图6详细示出了图1所示的隐含特征计算单元200的内部结构图。如图6所示,隐含特征计算单元200包括敏感度计算子单元220、使用水平计算子单元230、接受度计算子单元240以及不满原因获取子单元250。下面分别对这些单元和子单元进行详细描述。
隐含特征计算单元200基于存储设备10(本体库单元110、语言库单元120和情绪字典单元130)中存储的信息,针对每个客户的投诉/咨询数据,提取每个客户的隐含特征。例如,隐含特征可以包括敏感度(包括价格敏感度和质量敏感度)、对具体业务的使用水平、对具体业务的接受度以及对具体业务的不满原因。
敏感度计算子单元220基于本体库单元110和情绪字典单元130中存储的信息,根据每个客户的投诉/咨询历史及业务、主题、子主题识别结果,计算该客户的价格敏感度和质量敏感度。具体地,敏感度计算子单元220基于情绪字典单元130以及投诉/咨询数据是否与价格相关,针对客户的投诉/咨询历史中的每条记录,计算价格敏感度:如果投诉/咨询数据与价格不相关,则价格敏感值为0;否则,价格敏感值等于该客户的情绪值。
投诉/咨询数据与价格相关的判断准则是:主题为“资费”或“优惠”,或者子主题中包含“资费”、“优惠”、“扣费”、“话费”或“收费”,或者业务中包含“优惠”、“资费”、“话费”、“欠费”或“套餐”。客户情绪值的计算准则是:首先基于情绪字典单元130找到投诉/咨询数据中出现的所有情绪词,然后利用程度词对情绪词加权重(例如“太过分”比“过分”属于“愤怒”的概率更大),接下来根据否定词转变情绪词的情绪类型(例如“满意”属于“高兴”,但“不满意”属于“愤怒”),然后通过累加投诉/咨询数据中所有情绪词属于每种情绪类型的概率,得到投诉/咨询内容属于每种情绪类型的概率,最后选择概率最大的情绪类型并赋予一个相应的分值(例如:无情绪为1,失望为2,愤怒为3,威胁为4),作为客户情绪值。
敏感度计算子单元220把客户投诉/咨询历史中每条记录的价格敏感值乘以一个时间衰减参数(时间衰减参数的值域为[0-1],其中记录的时间离现在时间越远,时间衰减参数值越小),然后求和得到总体价格敏感值,最后根据总体价格敏感值的大小依次划分为“低度敏感”、“中度敏感”和“高度敏感”,以获得价格敏感度。
另一方面,敏感度计算子单元220计算质量敏感度,其过程类似于价格敏感度的计算:首先,基于情绪字典单元130以及投诉/咨询数据是否与质量相关,针对客户投诉/咨询历史中的每条记录计算质量敏感值。具体地,如果投诉/咨询与质量不相关,则质量敏感值为0;否则质量敏感值等于该客户的情绪值。
投诉/咨询与质量相关的判断准则是:主题为“使用”,或者子主题中包含“质量”。此外,客户情绪值的计算与价格敏感度中的计算过程相同。
敏感度计算子单元220把对客户投诉/咨询历史中每条记录的质量敏感值乘以一个时间衰减参数(时间衰减参数的值域为[0-1],其中记录的时间离现在时间越远,时间衰减参数值越小),然后求和得到总体质量敏感值,最后根据值大小依次划分为“低度敏感”、“中度敏感”和“高度敏感”,以获得质量敏感度。
图8示出了敏感度计算子单元220计算客户的敏感度的例子。如图8中所示,某客户曾经投诉/咨询过“怎么飞信经常无法成功登陆呢”、“我的GPRS还有流量,为什么还要扣我费?”和“GPRS上网怎么这么慢,你们也太过分了!”。其中第一条投诉/咨询的主题是“使用”,因此与质量相关,另外投诉/咨询内容中出现了情绪词“成功”属于高兴情绪,但前面的否定词“无法”和程度词“经常”使“经常无法成功”变成了愤怒情绪,因此质量敏感值为3。第二条投诉/咨询的主题是“资费”,因此与价格相关,另外投诉/咨询内容中出现了情绪词“为什么”和“扣”,这两个情绪词属于失望情绪的概率之和最高(0.2+0.8=1),因此价格敏感值为2。第三条投诉/咨询的主题是“使用”,因此与质量相关,另外投诉/咨询内容中出现了情绪词“慢”(前面的程度词为“这么”,“这么慢”为愤怒情绪)和“过分”(前面的程度词为“太”,“太过分”为愤怒情绪),因此质量敏感值为3。最后,敏感度计算子单元220对这三条投诉/咨询数据进行处理,得到该客户的价格敏感度是中度敏感,质量敏感度是高度敏感。
使用水平计算子单元230基于本体库单元110中存储的信息,根据每个客户对每个业务的投诉/咨询历史及业务、主题、子主题识别结果,计算出该客户对该业务的使用水平。具体地,使用水平计算子单元230执行以下计算:
●子主题基础性计算:使用水平计算子单元230基于本体库单元110,计算某客户对某业务投诉/咨询过的每个子主题的基础性。子主题的基础性可以通过有该子主题的业务数量来衡量:越多的业务有共同的子主题,则该子主题越基础。子主题基础性的计算准则为:本体库中有该子主题的业务的个数/本体库中所有业务的个数。
●子主题典型性计算:使用水平计算子单元230基于所有用户的投诉/咨询历史及业务、主题、子主题识别结果,计算某客户对某业务投诉/咨询过的每个子主题的典型性。子主题的典型性可以通过所有客户咨询过该子主题的次数来衡量:某子主题被投诉/咨询过的次数越多,则该子主题越典型。子主题典型性的计算准则为:所有客户投诉/咨询过该子主题的次数/所有客户的投诉/咨询总数。
●业务的使用水平计算:使用水平计算子单元230针对某客户对某业务投诉/咨询过的所有子主题的基础性和典型性,求平均得到客户对该业务的使用水平值,然后根据使用水平值大小将使用水平依次划分为“初级”、“中等”和“熟练”。
图9示出了使用水平计算子单元230计算客户对业务的使用水平的例子。如图9所示,某客户对GPRS业务曾经投诉/咨询过“我的GPRS还有流量,为什么还要扣我费?”、“GPRS上网怎么这么慢,你们也太过分了!”子主题分别为“错误扣费”和“上网速度”。图9的本体库单元中包括4个业务,其中3个业务具有子主题“错误扣费”,2个业务具有子主题“上网速度”;因此,使用水平计算子单元230计算出“错误扣费”的基础性为3/4=0.75,“上网速度”的基础性为2/4=0.5。另外,图9的所有客户投诉/咨询历史中包括3条记录,其中2条的子主题是“错误扣费”,1条是“上网速度”,因此使用水平计算子单元230计算出“错误扣费”的典型性为2/3=0.67,“上网速度”的典型性为1/3=0.33。最后,使用水平计算子单元230将上述各个子主题的基础性和典型性求平均,得到该客户对GPRS的使用水平为(0.75+0.5+0.67+0.33)/4=0.56,为“中等”使用水平。
接受度计算子单元240基于情绪字典单元130中存储的信息,根据每个客户对每个业务的投诉/咨询历史及业务、主题、子主题识别结果,计算出该客户对该业务的接受度。具体地,接受度计算子单元240执行以下计算:
●各个投诉/咨询数据的接受度计算:每条投诉/咨询数据的接受度可以基于情绪字典单元130和本体库单元110来计算。首先,接受度计算子单元240基于情绪字典单元130计算客户情绪值,计算方法与上文中描述的价格敏感度的计算相同,此处不再详述。其次,接受度计算子单元240判断投诉/咨询数据的主题是否为“取消”。最后,结合客户情绪值以及主题是否为取消,接受度计算子单元240计算每条投诉/咨询数据的接受度。客户情绪值越高,则客户对该业务的接受度越差;主题若为取消,说明客户准备取消该业务,则客户对该业务的接受度很差。每条投诉/咨询数据的接受度计算准则例如可以是:1/(客户情绪值+取消值),其中取消值可人为设定,例如当主题为取消时为10,否则为0。
●客户对业务的接受度计算:接受度计算子单元240把上述各个投诉/咨询数据的接受度乘以一个时间衰减参数(时间衰减参数的值域为[0-1],记录的时间离现在时间越远,时间衰减参数值越小),然后求平均得到总体接受度。最后,接受度计算子单元240根据总体接受度值的大小将接受度依次划分为“拒绝”、“弱接受”和“强接受”。
图10示出了接受度计算子单元240计算客户对业务的接受度的例子。如图10中所示,某客户对GPRS业务曾经投诉/咨询过“我的GPRS还有流量,为什么还要扣我费?”、“GPRS上网怎么这么慢,你们也太过分了!”、“如何取消GPRS”,其中第一条数据的客户情绪值为3(愤怒),主题不为取消,因此接受度为1/3=0.33,类似地第二条和第三条数据的接受度分别为1/3=0.33和1/10=0.1。假设2010年6月和2010年7月的时间衰减参数分别为2/3和1,则对各个数据的接受度求和平均得到总体接受度为(0.33*2/3+0.33*1+0.1*1)/3=0.2(拒绝)。
不满原因获取子单元250基于情绪字典单元130中存储的信息,根据每个客户对每个业务的投诉/咨询历史及业务、主题、子主题识别结果,获取该客户对该业务的不满原因。具体地,不满原因获取子单元250执行以下处理:
●各个投诉/咨询数据的投诉/咨询分类:首先,不满原因获取子单元250基于情绪字典单元130来计算客户情绪值,该计算过程与上文描述的价格敏感度的计算相同,此处不再详述。其次,不满原因获取子单元250按情绪值大小,将其依次分类为“咨询”或“投诉”。
●客户对业务不满原因的获取:针对分类为“投诉”的各个投诉/咨询数据,不满原因获取子单元250获取其子主题作为客户对该业务的不满原因。
图11示出了不满原因获取子单元250获取客户对业务的不满原因的例子。如图11所示,某客户对GPRS业务曾经投诉/咨询过“我的GPRS还有流量,为什么还要扣我费?”、“GPRS上网怎么这么慢,你们也太过分了!”、“如何取消GPRS”,不满原因获取子单元250将这些投诉/咨询数据分别被归类为“投诉”、“投诉”和“咨询”。因此,该客户对GPRS的不满原因为:错误扣费、上网速度。
返回图1,隐含需求获取单元260将隐含特征计算单元200所计算得到的客户的隐含特征加以汇总,以获取客户的隐含需求。图12示出了隐含需求获取单元获取隐含需求的一个具体示例。将客户135XXXX1234的敏感度计算结果“价格敏感度:中度敏感;质量敏感度:高度敏感”、使用水平计算结果“客户对GPRS的使用水平:0.56(中等)”、接受度计算结果“客户对GPRS的接受度:0.2(拒绝)”和不满原因获取结果“客户对GPRS的不满原因:错误扣费、上网速度”合并到一起,生成隐含需求。
第二实施例
图13示出了根据本发明第二实施例的数据分析设备2的框图。如图13所示,本实施例中的数据分析设备2与第一实施例中的数据分析设备1的不同之处在于:还包含隐含需求统计单元300。由于第二实施例中除了隐含需求统计单元300之外的其他组件与第一实施例中的相同,因此这里不再对其进行详细描述。
隐含需求统计单元300根据隐含特征计算单元200的输出,针对所有客户的隐含需求,进行各方面的统计。例如,这些统计结果可以为企业客服中心提供决策支持。在本实施例中,统计功能包括以下至少一项:业务接受度统计、业务不满原因统计、客户分群。具体地,
●业务接受度统计:隐含需求统计单元300根据所有客户对每个业务的接受度,统计得到每个业务的接受客户比例(例如,该比例的计算准则是:接受度不为“拒绝”的客户的个数/所有客户的个数)。
●业务不满原因统计:隐含需求统计单元300根据所有客户的不满原因,统计得到每个业务及每种不满原因的不满客户的个数。
●客户分群:隐含需求统计单元300根据所有客户的价格敏感度和质量敏感度,对所有客户进行分群。例如价格高度敏感客户群、价格低度敏感客户群、质量高度敏感客户群等。
图14是示出了根据本发明第二实施例的隐含需求统计单元执行隐含需求统计的示意图。在业务接受度统计中,有76%的客户对GPRS的接受度为“强接受”或“弱接受”,24%的客户对GPRS的接受度为“拒绝”,因此GPRS的接受客户比例为76%。在业务不满原因统计中,135XXXX1234等512个客户的不满原因中有GPRS的上网速度,因此GPRS的上网速度的不满客户数为512。在客户分群中,客户135XXXX1234和135XXXX9120的价格敏感度为中度敏感,因此分到价格中度敏感客户群。
第三实施例
图15示出了根据本发明第三实施例的数据分析设备3的框图。如图15所示,本实施例中的数据分析设备3与第一实施例中的数据分析设备1的不同之处在于:还包含个性化业务推荐单元400。由于第三实施例中除了个性化业务推荐单元400之外的其他组件与第一实施例中的相同,因此这里不再对其进行详细描述。
个性化业务推荐单元400基于客户的隐含需求,查找推荐策略库从而找到适合的推荐策略,然后向该客户推荐个性化业务。
如图16所示,推荐个性化业务包括以下至少一项:
●推荐更高质量的业务:若客户对质量敏感,而且客户对某业务的接受度差,而且可以分析出客户对该业务的不满原因,则向该客户推荐一个在客户不满方面有更高满意度的同类业务。其中,两个业务是否同类需要查找本体库得到,业务在不满方面是否有更高满意度需要根据业务不满原因统计结果得到。推荐类型设为“更高质量业务”。
●推荐价格更实惠的业务:若客户对价格的敏感度很高,则基于外部的价格数据库,向该客户推荐价格更加实惠的业务。推荐类型设为“价格实惠业务”。
●升级现有业务:若客户对某业务的接受度很高,则基于外部的业务数据库,当该业务出现了升级业务时,向客户推荐升级业务。推荐类型设为“升级现有业务”。
●推荐语义相关业务:若客户对某业务的接受度很高,则基于外部的业务数据库,向该客户推荐与当前业务语义相关的其他业务。推荐类型设为“语义相关业务”。
●提升现有业务价值:若客户对某业务的使用水平很低,则基于外部的业务数据库,给该客户发送该业务的深入介绍,以帮助客户熟练使用该业务。推荐类型设为“提升现有业务价值”。
●提供挽留业务:若客户对某业务的接受度很差,则基于外部的挽留策略数据库,对该客户进行促销、赠送等挽留策略。推荐类型设为“挽留”。
图17示出了根据本发明第三实施例的个性化业务推荐单元推荐个性化业务的例子。某客户的质量敏感度为高度敏感,对GPRS业务的接受度为0.2(拒绝),对GPRS业务的不满原因是上网速度。从业务不满原因统计结果中发现G3上网业务的上网速度的不满客户数很少,因此,个性化业务推荐单元向该客户推荐G3上网业务。
第四实施例
图18示出了根据本发明第四实施例的数据分析设备4的框图。如图18所示,本实施例中的数据分析设备4与第三实施例中的数据分析设备3的不同之处在于:还包括个性化业务效果评价单元500。由于第四实施例中除了个性化业务效果评价单元500之外的组件与第三实施例中的相同,因此这里不再对其进行详细描述。
在本实施例中,个性化业务效果评价单元500根据客户对个性化业务推荐单元400所推荐的业务的反馈,评价个性化业务推荐的效果。
具体地,客户在收到推荐的个性化业务后,通常会做出一些反馈动作(例如,是否使用该业务)。根据所有客户的反馈,可以对以下效果进行自动评价:
●推荐业务的效果:统计各个推荐业务的推荐次数、成功次数(例如,推荐成功判定方式可以是:客户收到推荐业务后不久就开通了该业务)、成功率。
●推荐类型的效果:统计各个推荐类型的推荐次数、成功次数(例如,推荐成功判定方式可以是:客户收到***使用推荐类型所产生的推荐业务后不久就开通了该业务)、成功率。
图19示出了根据本发明第四实施例的个性化业务效果评价单元执行个性化业务推荐效果评价的例子。如图19所示,通过对所有客户的反馈历史进行统计,个性化业务效果评价单元500可以得到各个推荐业务及各个推荐类型的推荐效果。
下面,结合附图20来描述根据本发明的一个实施例的数据分析方法。
图20是示出了根据本发明的一个实施例的数据分析方法19的流程图。例如,该方法19可以由上文描述的根据本发明的数据分析设备来执行。
最初,方法19从步骤S1900开始。
在步骤S1901,基于语义知识、语言模型等已存储的信息,从客户的投诉/咨询数据中识别业务、主题和子主题的名称。该步骤例如可以由上文描述的根据本发明的数据分析设备中的识别单元来执行。具体过程可参见上文的相应描述,此处不再重复说明。
在步骤S1902-S1905,基于步骤S1901的结果,计算客户的隐含特征,具体包括:计算客户的价格敏感度和质量敏感度、计算客户对所识别的业务的使用水平、计算客户对所识别的业务的接受度并获取客户对所识别的业务的不满原因。隐含特征的计算例如可以由上文描述的根据本发明的数据分析设备中的隐含特征计算单元来执行。具体过程可参见上文的相应描述,此处不再重复说明。
需要指出,虽然步骤S1902-S1905在附图20中是依次示出的,然而可以理解的是,这些步骤不一定全部执行,而且不一定按照附图19中所示的顺序来执行。例如,可以根据实际需要仅执行所示步骤S1902-S1905中的一个或更多个步骤,而且可以按照不同的顺序来执行或者以并行的方式来执行。
接下来,在步骤S1906处,可根据需要决定是否执行对客户的隐含需求的统计。如果要执行统计,则方法进行至步骤S1907。在步骤S1907,可以执行业务接受度统计、业务不满原因统计和客户分群统计,等等。这些统计例如可以由上文描述的根据本发明的数据分析设备中的隐含需求统计单元来执行。具体过程可参见上文的相应描述,此处不再重复说明。之后,方法进行至步骤S1908。
否则,如果不需要执行统计,则方法直接来到步骤S1908。在步骤S1908,判断是否向客户推荐个性化业务。如果是,则方法进行至步骤S1909。在步骤S1909,根据客户的隐含需求,向客户推荐个性化业务,包括更高质量的业务、价格更实惠的业务、升级现有业务、语义相关业务、提升现有业务价值和挽留业务,等等。可选地,还可接收客户对所推荐的个性化业务的反馈,以评价个性化业务推荐的效果。步骤S1909例如可以由上文描述的根据本发明的数据分析设备中的个性化业务推荐单元和个性化业务效果评价单元来执行。具体过程可参见上文的相应描述,此处不再重复说明。在此之后,方法进行至步骤S1910并结束。
否则,如果不需要推荐个性化业务,则该方法在步骤S1908后直接进行到步骤S1910并结束。
综上所述,根据本发明的数据分析设备和方法可以根据来自客户的投诉/咨询数据准确地理解客户的隐含需求。此外,还可以根据客户的隐含需求,向客户推荐个性化业务。因此,本发明能够极大地提升客户的使用感受。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (14)
1.一种数据分析设备,包括:
识别单元,基于语义知识和语言模型,从客户的投诉/咨询数据中识别出业务、主题和子主题;
隐含特征计算单元,基于语义知识和情绪字典,根据所识别的业务、主题和子主题来计算客户的隐含特征;以及
隐含需求获取单元,将客户的隐含特征汇总以获取客户的隐含需求。
2.如权利要求1所述的数据分析设备,其中,所述隐含特征计算单元包括:
敏感度计算子单元,计算客户的价格敏感度和质量敏感度;
使用水平计算子单元,计算客户对所识别的业务的使用水平;
接受度计算子单元,计算客户对所识别的业务的接受度;以及
不满原因获取子单元,获取客户对所识别的业务的不满原因。
3.如权利要求1所述的数据分析设备,还包括:
隐含需求统计单元,对客户的隐含需求进行统计。
4.如权利要求3所述的数据分析设备,其中,所述隐含需求统计单元进行以下至少一项统计:业务接受度统计、业务不满原因统计和客户分群统计。
5.如权利要求1所述的数据分析设备,还包括:
个性化业务推荐单元,根据客户的隐含需求,向客户推荐个性化业务。
6.如权利要求5所述的数据分析设备,其中,所述个性化业务推荐单元提供以下至少一项业务:更高质量的业务、价格更实惠的业务、升级现有业务、语义相关业务、提升现有业务价值和挽留业务。
7.如权利要求5所述的数据分析设备,还包括:
个性化业务效果评价单元,根据客户对所述个性化业务推荐单元推荐的业务的反馈,评价个性化业务推荐的效果。
8.一种数据分析方法,包括:
基于语义知识和语言模型,从客户的投诉/咨询数据中识别出业务、主题和子主题;
基于语义知识和情绪字典,根据所识别的业务、主题和子主题来计算客户的隐含特征;以及
将客户的隐含特征汇总以获取客户的隐含需求。
9.如权利要求8所述的数据分析方法,其中,所述隐含特征包括:客户的价格敏感度和质量敏感度、客户对所识别的业务的使用水平、客户对所识别的业务的接受度和客户对所识别的业务的不满原因。
10.如权利要求8所述的数据分析方法,还包括:
对客户的隐含需求进行统计。
11.如权利要求10所述的数据分析方法,其中,所述统计包括以下至少一项:业务接受度统计、业务不满原因统计和客户分群统计。
12.如权利要求8所述的数据分析方法,还包括:
根据客户的隐含需求,向客户推荐个性化业务。
13.如权利要求12所述的数据分析方法,其中,所述个性化业务包括以下至少一项业务:更高质量的业务、价格更实惠的业务、升级现有业务、语义相关业务、提升现有业务价值和挽留业务。
14.如权利要求12所述的数据分析方法,还包括:
根据客户对所推荐的个性化业务的反馈,评价个性化业务推荐的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102829251A CN102402717A (zh) | 2010-09-13 | 2010-09-13 | 数据分析设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102829251A CN102402717A (zh) | 2010-09-13 | 2010-09-13 | 数据分析设备和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102402717A true CN102402717A (zh) | 2012-04-04 |
Family
ID=45884900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102829251A Pending CN102402717A (zh) | 2010-09-13 | 2010-09-13 | 数据分析设备和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102402717A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699955A (zh) * | 2013-09-06 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 基于自定义分类规则的业务模型分析方法和装置 |
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及*** |
CN106022676A (zh) * | 2016-05-09 | 2016-10-12 | 华南理工大学 | 一种对物流客户的投诉意愿评级的方法及装置 |
CN106296278A (zh) * | 2016-08-04 | 2017-01-04 | 上海携程商务有限公司 | 优惠券发放方法及*** |
CN106408106A (zh) * | 2015-08-03 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN107391480A (zh) * | 2017-06-23 | 2017-11-24 | 广州市万隆证券咨询顾问有限公司 | 一种基于股民市场情绪的股民个性特质分析方法及*** |
CN109189890A (zh) * | 2018-09-12 | 2019-01-11 | 张连祥 | 招商引资投诉协调智能办理***及方法 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN117764459A (zh) * | 2024-02-22 | 2024-03-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理***及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021927A (zh) * | 2007-03-20 | 2007-08-22 | ***通信集团江苏有限公司 | 基于对用户行为和习惯分析的统一营销支撑***及其方法 |
CN101226621A (zh) * | 2008-01-25 | 2008-07-23 | 昆明布斯特通讯有限公司 | 客户情报***及其应用方法和其相应的市场调查机 |
-
2010
- 2010-09-13 CN CN2010102829251A patent/CN102402717A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021927A (zh) * | 2007-03-20 | 2007-08-22 | ***通信集团江苏有限公司 | 基于对用户行为和习惯分析的统一营销支撑***及其方法 |
CN101226621A (zh) * | 2008-01-25 | 2008-07-23 | 昆明布斯特通讯有限公司 | 客户情报***及其应用方法和其相应的市场调查机 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699955A (zh) * | 2013-09-06 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 基于自定义分类规则的业务模型分析方法和装置 |
CN104794169A (zh) * | 2015-03-30 | 2015-07-22 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及*** |
CN104794169B (zh) * | 2015-03-30 | 2018-11-20 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及*** |
CN106408106A (zh) * | 2015-08-03 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN106022676A (zh) * | 2016-05-09 | 2016-10-12 | 华南理工大学 | 一种对物流客户的投诉意愿评级的方法及装置 |
CN106296278A (zh) * | 2016-08-04 | 2017-01-04 | 上海携程商务有限公司 | 优惠券发放方法及*** |
CN107391480A (zh) * | 2017-06-23 | 2017-11-24 | 广州市万隆证券咨询顾问有限公司 | 一种基于股民市场情绪的股民个性特质分析方法及*** |
CN109189890A (zh) * | 2018-09-12 | 2019-01-11 | 张连祥 | 招商引资投诉协调智能办理***及方法 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN109918645B (zh) * | 2019-01-28 | 2022-12-02 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN117764459A (zh) * | 2024-02-22 | 2024-03-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理***及方法 |
CN117764459B (zh) * | 2024-02-22 | 2024-04-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102402717A (zh) | 数据分析设备和方法 | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
Rose et al. | Low cost text mining as a strategy for qualitative researchers | |
US20170243125A1 (en) | Bayesian classification algorithm modification for sentiment estimation | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN111782793A (zh) | 智能客服处理方法和***及设备 | |
Just et al. | AI-based novelty detection in crowdsourced idea spaces | |
CN117668205B (zh) | 智慧物流客服处理方法、***、设备及存储介质 | |
Candaş et al. | Automated identification of vagueness in the FIDIC Silver Book conditions of contract | |
Kochuieva et al. | Usage of Sentiment Analysis to Tracking Public Opinion. | |
KR20210001649A (ko) | 기업 부실 예측 프로그램 | |
CN109446318A (zh) | 一种确定汽车维修文档主题的方法及相关设备 | |
CN110737749B (zh) | 创业计划评价方法、装置、计算机设备及存储介质 | |
Kameswari et al. | Predicting Election Results using NLTK | |
Iren et al. | Leveraging business process improvement with natural language processing and organizational semantic knowledge | |
van Dalen et al. | Profiling dutch authors on twitter: Discovering political preference and income level | |
Deshpande et al. | BI and sentiment analysis | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
KR20210001686A (ko) | 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 | |
KR20210001693A (ko) | 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 기록매체 | |
KR20210001707A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 장치 | |
KR20210001670A (ko) | 기업 부실 예측 프로그램 | |
CN111753541A (zh) | 一种对于合同文本数据进行自然语言处理nlp的方法及*** | |
Mustansir et al. | Sentiment analysis of user feedback on business processes | |
KR20190104745A (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120404 |