CN105005552B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN105005552B
CN105005552B CN201410162861.XA CN201410162861A CN105005552B CN 105005552 B CN105005552 B CN 105005552B CN 201410162861 A CN201410162861 A CN 201410162861A CN 105005552 B CN105005552 B CN 105005552B
Authority
CN
China
Prior art keywords
clause
training sample
mark
sentiment orientation
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410162861.XA
Other languages
English (en)
Other versions
CN105005552A (zh
Inventor
杨海军
安涛
安华明
叶强
赵月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN201410162861.XA priority Critical patent/CN105005552B/zh
Publication of CN105005552A publication Critical patent/CN105005552A/zh
Application granted granted Critical
Publication of CN105005552B publication Critical patent/CN105005552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息处理方法及装置,涉及信息处理领域。其中方法包括下列步骤:将产品的在线评论数据按照一预设标准进行初步筛选;将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由。本发明的方案解决了传统生成的推荐理由未能体现用户点评数据的实际价值,所生成的推荐理由表达的情感倾向性不强,不能够很好的吸引用户问题。

Description

一种信息处理方法及装置
技术领域
本发明涉及信息处理领域,特别是指一种信息处理方法及装置。
背景技术
随着电子信息技术的创新和发展,网络成为了一种不可或缺的技术服务平台,以网络为基础的工具和产品层出不穷。为了提升电子商务中产品的可信度以及完善产品服务,逐渐引入了用户交互设计和用户评论的在线口碑体系。用户的在线口碑很大程度上能够反应用户的真实感受和客观需求,相比于商家的主观评论和功能介绍,口碑数据的信息更容易让用户信服。
目前,在线口碑的应用侧重在数据的量化分析上,常用直接抽取以往的在线评论作为推荐理由,但是未能体现用户点评数据的实际价值,所生成的推荐理由表达的情感倾向性不强,不能够很好的吸引用户。
发明内容
本发明要解决的技术问题是提供一种信息处理方法及装置,实现推荐理感情表达更具有真实性,能够很好的吸引用户。
为达到上述目的,本发明的实施例提供一种信息处理方法,包括下列步骤:
将产品的在线评论数据按照一预设标准进行初步筛选;
将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由。
其中,从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注的步骤具体为:
分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
其中,获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注的步骤包括:
获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注的步骤包括:
根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,对所述训练样本集进行校正的步骤包括:
提取标注存在差异的所述测试样本集中的子句;
获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
本发明的实施例还提供了一种信息处理装置,包括:
评论初筛模块,用于将产品的在线评论数据按照一预设标准进行初步筛选;
子句拆分模块,用于将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
情感分类模块,用于从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
推荐理由组合模块,用于删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由。
其中,所述情感分类模块包括:
样本集建立子模块,用于分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
情感标注子模块,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
训练样本集优化子模块,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
其中,所述情感标注子模块包括:
第一情感分类单元,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第一概率获取单元,用于逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第一情感标注单元,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,所述训练样本集优化子模块包括:
第二情感分类单元,用于根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第二概率获取单元,用于逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第二情感标注单元,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,所述训练样本集优化子模块还包括:
提取单元,用于提取标注存在差异的所述测试样本集中的子句;
添加单元,用于获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
第三情感标注单元,用于根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
训练样本集优化单元,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
本发明的上述技术方案的有益效果如下:
本发明实施例的信息处理方法,在将用户对产品的在线评论数据按照一预设标准进行初步筛选后,将保留的在线评论数据以符号为节点进行子句拆分,建立子句集,并从中随机抽取一预设数量的子句建立训练样本集,再在完成对训练样本集中的子句的情感倾向进行标注后,根据训练样本集的标注对子句集的所有子句进行标注,最终删除子句集中标注为第一值的子句,并将子句集中的剩余子句按照一预设模式组合,得到推荐理由。其中,第一值代表该子句带有负面情感倾向。如此,得到的推荐理由感情表达更具有真实性,而且按照正面情感倾向内容和中性情感倾向内容组合,能够很好的吸引用户。
附图说明
图1表示本发明实施例的信息处理方法的步骤流程图;
图2表示本发明实施例的信息处理方法的步骤13的具体步骤流程图;
图3表示本发明实施例的信息处理方法的步骤132的具体步骤流程图;
图4本发明实施例的信息处理方法的步骤133的具体步骤流程图一;
图5本发明实施例的信息处理方法的步骤133的具体步骤流程图二;
图6本发明实施例的信息处理装置的结构图;
图7本发明实施例的信息处理装置的情感分类模块的结构图;
图8本发明实施例的信息处理装置的情感标注子模块的结构图;
图9本发明实施例的信息处理装置的训练样本集优化子模块的结构图一;
图10本发明实施例的信息处理装置的训练样本集优化子模块的结构图二。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的生成的推荐理由未能体现用户点评数据的实际价值,所生成的推荐理由表达的情感倾向性不强,不能够很好的吸引用户问题,提供一种信息处理方法及装置,实现推荐理由感情表达更具有真实性,按照正面情感倾向内容和中性情感倾向内容组合,能够很好的吸引用户。
如图1所示,本发明实施例的一种信息处理方法,包括下列步骤:
步骤11,将产品的在线评论数据按照一预设标准进行初步筛选;
步骤12,将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
步骤13,从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
步骤14,删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由。
通过上述步骤,在将用户对产品的在线评论数据按照一预设标准进行初步筛选后,将保留的在线评论数据以符号为节点进行子句拆分,建立子句集,并从中随机抽取一预设数量的子句建立训练样本集,再在完成对训练样本集中的子句的情感倾向进行标注后,根据训练样本集的标注对子句集的所有子句进行标注最终删除子句集中标注为第一值的子句,并将子句集中的剩余子句按照一预设模式组合,得到推荐理由。其中,第一值代表该子句带有负面情感倾向。如此,得到的推荐理由感情表达更具有真实性,而且按照正面情感倾向内容和中性情感倾向内容组合,能够很好的吸引用户。
在本发明的实施例中,将产品的在线口碑数据按照产品序号、点评人名称、评论量化星级、评论内容的形式进行数据存储。在步骤11中,初步筛选的预设标准可以是按照自定义的评论星级标准进行筛选。当然,也可以是按照信誉或其他内容进行筛选。
初步筛选完成后,根据步骤12,以符号为节点对筛选得到的评论段落进行子句拆分,完成数据的处理工作。例如,评论段落为“第一次去,感觉还可以,东西挺多的,本人不挑剔,所以觉得味道不错;当然有的合口味,有的也不合口味。海鲜类的感觉不怎么好……螃蟹都没肉&空壳,这个价格有点贵”,按符号拆分得到11个子句,分别为“第一次去”、“感觉还可以”、“东西挺多的”、“本人不挑剔”、“所以觉得味道不错”、“当然有的合口味”、“有的也不合口味”、“海鲜类的感觉不怎么好”、“螃蟹都没肉”、“空壳”、“这个价格有点贵”。
在将初步筛选得到的评论段落进行子句拆分后,从获得的子句集中随机抽取一预设数量的子句建立训练样本集,再在完成对训练样本集中的子句的情感倾向进行标注后,根据训练样本集的标注对子句集的所有子句进行标注,即步骤13。那么步骤13的步骤具体为:
步骤131,分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
步骤132,获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
步骤133,比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
在本发明实施例中,训练样本集是情感标注的基础和模板,以训练样本集作为整体情感匹配的基础,辨别所有子句实际的情感倾向,测试样本集是为了判断训练样本集情感倾向的准确程度,保证训练样本集达到预设的精度。随后通过优化的训练样本集对初选拆分的全部子句进行情感倾向的标注。
在本发明实施例中,按照感情分类需要,对子句划分为褒义、中性和贬义三个等级,分别用1,0,-1进行标注,当然,根据具体需要也可以进行细化。
根据步骤131,132,133,下面给出一具体实施例,分别在筛选拆分后得到的子句集中随机抽取其中的1%-5%的子句建立训练样本集和测试样本集,然后获取测试样本集和训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注。其中,第一次标注的结果是人为标注的每个子句的情感倾向,然后以训练样本集为基础标注测试集子句,这样测试样本集中的每条子句将得到两个标注,分别是人工标注和以训练集为基础的标注。随后获得两种标注方式不同即错误概率。如错误概率大于5%,则需要对训练样本集进行校正,不断优化直至达到错误率保持在5%以下,并通过优化的训练样本集对初选拆分的全部子句进行情感倾向的标注;如错误概率小于5%,则直接通过训练样本集对初选拆分的全部子句进行情感倾向的标注。
其中,随机抽取子句建立训练样本集和测试样本集的预设数量和错误率的设定可以根据实际需要进行自定义。
在本发明实施例的中,步骤132包括:
步骤1321,获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
步骤1322,逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
步骤1323,比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
下面结合具体实例说明上述步骤:
在本发明的实施例中,情感分类应用有监督学习的N-gram算法,其中,N值是默认子句与其相邻的N个子句相关联,例如N取4,表示相邻4个子句容易具有同时出现的关联关系。较为常用的N值选取为4或8,考虑到效率和实际需求,本发明的实施例中优选N为4。依照步骤1321,并延续上述按照感情分类需要,对子句划分为褒义、中性和贬义三个等级进行标注,训练样本集中的子句按照其情感倾向分为褒义、中性和贬义三个集合,在这些集合中以词和相邻小于4个的词与词的连接形式存储,例如,训练样本集中的一个句子为“这家包子铺很好吃”,并且该句的标注为1,则褒义集中存储的“这家”、“这家包子铺”、“这家包子铺很”、“这家包子铺很好”、“包子铺很好吃”出现的次数均增加1。
在进行测试样本集的子句标注时,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,P(T)表示该句子出现的概率,P(wn)表示该词语出现的概率。继续沿用子句拆分的例子,评论段落为“第一次去,感觉还可以,东西挺多的,本人不挑剔,所以觉得味道不错;当然有的合口味,有的也不合口味。海鲜类的感觉不怎么好……螃蟹都没肉&空壳,这个价格有点贵”,按符号拆分得到11个子句,分别为“第一次去”、“感觉还可以”、“东西挺多的”、“本人不挑剔”、“所以觉得味道不错”、“当然有的合口味”、“有的也不合口味”、“海鲜类的感觉不怎么好”、“螃蟹都没肉”、“空壳”、“这个价格有点贵”。取其中子句“海鲜类的感觉不怎么好”作为待标注子句,w1,w2…w6分别为“海鲜类”、“的”、“感觉”、“不”、“怎么”、“好”,根据步骤1323的公式带入后得到:
P(“海鲜…怎么好”)=P(“海鲜类”“的”…“怎么”“好”)=P(“海鲜类”)P(“的”|“海鲜类”)…P(“好”|“感觉”“不”“怎么”)
P(“好”|“感觉”“不”“怎么”)=C(“感觉”“不”“怎么”“好”)/C(“感觉”“不”“怎么”)
而其中的C(“感觉”“不”“怎么”“好”)和C(“感觉”“不”“怎么”)在训练集的褒义集合、中性集合和贬义集合中分别能够得到相应的数值。从而能够计算出,对于这三类不同的集合,该子句出现的频次。然后根据步骤1323判读得到待标注子句的标注值。如在三个集合中,句子“海鲜类的感觉不怎么好”出现的频次分别为P(T)=0.5,P(T)=0.34,P(T)=0.67,则该句子在训练样本集中的贬义集合中出现的频次最高,所以将该句子标注为-1。
同样的,步骤133中根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注的步骤包括:
步骤1331,根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
步骤1332,逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)==P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
步骤1333,比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
上述步骤1331,1332,1333与步骤1321,1322,1323的标注方法相同,仅是标注对象不同,步骤1331,1332,1333是对步骤12拆分后的子句集中的子句进行标注,在此就不再进行详细描述。
在本发明的实施例中,训练样本集是情感标注的基础和模板,只有保证了训练样本集的准确程度,才能获得其他子句更准确的情感标注。因此,在步骤133中,比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率大于预设阈值,还需要对所述训练样本集进行校正,直至错误率小于预设阈值。那么,对所述训练样本集进行校正的步骤包括:
步骤1334,提取标注存在差异的所述测试样本集中的子句;
步骤1335,获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
步骤1336,根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
步骤1337,比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
其中,获取所述子句第三次标注的结果是由人为标注的。首先提取测试样本集中标注存在差异的子句,获取其经人为确认标注的结果,并将确认后的子句和标注添加进训练样本集中,用生成的训练样本集测试新的测试样本集,若错误率小于预设阈值,则根据训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对训练样本集继续进行校正,不断优化重复上述步骤,直至错误率小于预设阈值。
本发明实施例的信息处理方法,最终要得到的是满足需要的推荐理由,因此,在标注完所有待标注子句后,根据步骤14,删除子句集中标注为第一值的子句,即存在负面情感倾向的子句,并将子句集中的剩余子句按照一预设模式组合,组合成正面情感倾向和中性情感倾向子句组合的模式,得到推荐理由。
其中,预设模式设定可以褒义子句前为中性子句用逗号连接,相邻褒义子句用逗号连接,褒义子句后中性子句和贬义子句略除并用省略号代替。如原评论段落组合结构为1101-10011-1,则生成如1,1…1…1,1…的句子(该例子中数字表示该情感类型所对应的子句内容)。最终提取推荐理由长度也可自定义,默认长度为25-30范围,当然上述设定并不是唯一的组合模式,在此不一一列举。
综上,本发明实施例的信息处理方法,存在以下优势:1)可以通过自定义满足多种形式推荐理由需求;2)推荐理由可从符合条件数据库中动态更新,针对每一产品的满足星级要求的每条评论段落都会生成一条推荐理由,即每一产品可用推荐理由有很多条,更新即为从其中抽选出一条作为呈现;3)当产品的口碑数据出现大量增加时,由于产品的自身特征和优势没有发生较大变化,此时希望生成新的全部的推荐理由时,不需要对训练样本集进行更改,只需以原有的训练样本集为基础,重新运行,对新得到的在线评论数据进行推荐理由生成即可;4)采用了多线程的处理方式,很大限度的提高了信息处理的效率。
如图6所示,本发明实施例还提供了一种信息处理装置,包括:
评论初筛模块10,用于将产品的在线评论数据按照一预设标准进行初步筛选;
子句拆分模块20,用于将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
情感分类模块30,用于从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
推荐理由组合模块40,用于删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由。
其中,如图7所示,所述情感分类模块30包括:
样本集建立子模块301,用于分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
情感标注子模块302,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
训练样本集优化子模块303,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
其中,如图8所示,所述情感标注子模块302包括:
第一情感分类单元3021,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第一概率获取单元3022,用于逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第一情感标注单元3023,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,如图9所示,所述训练样本集优化子模块303包括:
第二情感分类单元3031,用于根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第二概率获取单元3032,用于逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第二情感标注单元3033,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
其中,如图10所示,所述训练样本集优化子模块303还包括:
提取单元3034,用于提取标注存在差异的所述测试样本集中的子句;
添加单元3035,用于获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
第三情感标注单元3036,用于根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
训练样本集优化单元3037,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
当然,本发明实施例的信息处理装置还包括:自定义模块。通过自定义模块设置初步筛选的预设标准,训练样本集和测试样本集的预设数量,推荐理由的预设模式,错误率的预设阈值等。
需要说明的是,该信息处理装置是应用了上述信息处理方法的装置,上述信息处理方法的实现方式应用于该装置中也能达到相同的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括下列步骤:
将产品的在线评论数据按照一预设标准进行初步筛选;
将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由;其中,
从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注的步骤包括:
分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
通过所述测试样本集判断所述训练样本集情感倾向标注的准确程度,若使用错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;所述使用错误率是由所述测试样本集两次标注的结果得到的第二次标注的错误率,且所述第二次标注是根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行的标注。
2.根据权利要求1所述的信息处理方法,其特征在于,通过所述测试样本集判断所述训练样本集情感倾向标注的准确程度,若使用错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注的步骤具体为:
获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
3.根据权利要求2所述的信息处理方法,其特征在于,获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注的步骤包括:
获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
4.根据权利要求2所述的信息处理方法,其特征在于,根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注的步骤包括:
根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
5.根据权利要求2所述的信息处理方法,其特征在于,对所述训练样本集进行校正的步骤包括:
提取标注存在差异的所述测试样本集中的子句;
获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
6.一种信息处理装置,其特征在于,包括:
评论初筛模块,用于将产品的在线评论数据按照一预设标准进行初步筛选;
子句拆分模块,用于将筛选后保留的所述在线评论数据以符号为节点进行子句拆分,建立子句集;
情感分类模块,用于从所述子句集中随机抽取一预设数量的子句建立训练样本集,并对所述训练样本集中的子句的情感倾向进行标注,根据所述训练样本集的标注对所述子句集的所有子句进行标注;
推荐理由组合模块,用于删除所述子句集中所述标注为第一值的子句,并将所述子句集中的剩余子句按照一预设模式组合,得到推荐理由;其中,
所述情感分类模块用于分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;通过所述测试样本集判断所述训练样本集情感倾向标注的准确程度,若使用错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;所述使用错误率是由所述测试样本集两次标注的结果得到的第二次标注的错误率,且所述第二次标注是根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行的标注。
7.根据权利要求6所述的信息处理装置,其特征在于,所述情感分类模块包括:
样本集建立子模块,用于分别从所述子句集中随机抽取一预设数量的子句建立测试样本集和训练样本集;
情感标注子模块,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果,根据所述训练样本集的第一次标注的结果对所述测试样本集中的子句进行第二次标注;
训练样本集优化子模块,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第二次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的当前标注结果对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集进行校正,直至错误率小于预设阈值。
8.根据权利要求7所述的信息处理装置,其特征在于,所述情感标注子模块包括:
第一情感分类单元,用于获取所述测试样本集和所述训练样本集中子句的第一次标注的结果后,将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第一概率获取单元,用于逐一选择所述测试样本集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(T):
P(T)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,T表示测试样本集中的子句,wn表示在T表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第一情感标注单元,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
9.根据权利要求7所述的信息处理装置,其特征在于,所述训练样本集优化子模块包括:
第二情感分类单元,用于根据所述训练样本集的当前标注结果将所述训练样本集中的子句按照其标注分为情感倾向不同的集合;
第二概率获取单元,用于逐一选择所述子句集中的子句,通过下列公式获取当前选中子句相对所述训练样本集中情感倾向不同的集合中的概率P(t):
P(t)=P(w1w2w3…wn)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)≈P(w1)P(w2|w1)P(w3|w1w2)…P(wn|wn-3wn-2wn-1);
P(wn|w1w2...wn-1)=C(w1w2…wn)/C(w1w2...wn-1);
其中,t表示子句集中的子句,wn表示在t表示的子句中的第n个词语,按照最大似然法计算,C(wn-i-1wn-i…)表示该序列词语在所述训练样本集中情感倾向不同的集合中出现的次数;
第二情感标注单元,用于比较当前选择的子句相对所述训练样本集中情感倾向不同的集合中的各个概率,标注当前子句的情感倾向与获得最大概率的集合的情感倾向相同。
10.根据权利要求7所述的信息处理装置,其特征在于,所述训练样本集优化子模块还包括:
提取单元,用于提取标注存在差异的所述测试样本集中的子句;
添加单元,用于获取所述子句第三次标注的结果后,重新添加已标注的所述子句到训练样本集中;
第三情感标注单元,用于根据所述训练样本集的再次标注的结果对所述测试样本集中的子句进行第四次标注;
训练样本集优化单元,用于比较所述测试样本集两次标注的结果,获取所述测试样本集第四次标注的错误率,若错误率小于预设阈值,则根据所述训练样本集的标注对所述子句集的所有子句进行标注;若错误率大于预设阈值,对所述训练样本集继续进行校正,直至错误率小于预设阈值。
CN201410162861.XA 2014-04-22 2014-04-22 一种信息处理方法及装置 Active CN105005552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410162861.XA CN105005552B (zh) 2014-04-22 2014-04-22 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410162861.XA CN105005552B (zh) 2014-04-22 2014-04-22 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN105005552A CN105005552A (zh) 2015-10-28
CN105005552B true CN105005552B (zh) 2019-01-08

Family

ID=54378228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410162861.XA Active CN105005552B (zh) 2014-04-22 2014-04-22 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN105005552B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776568A (zh) * 2016-12-26 2017-05-31 成都康赛信息技术有限公司 基于用户评价的推荐理由生成方法
CN107609960A (zh) * 2017-10-18 2018-01-19 口碑(上海)信息技术有限公司 推荐理由生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其***
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102929860A (zh) * 2012-10-12 2013-02-13 浙江理工大学 一种基于上下文语境的中文分句情感极性判别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其***
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102929860A (zh) * 2012-10-12 2013-02-13 浙江理工大学 一种基于上下文语境的中文分句情感极性判别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于情感本体的主题网络舆情倾向性分析;王兰成等;《信息与控制》;20130228;第42卷(第1期);第46-52页
基于用户生成内容的产品搜索模型;王海雷等;《中文信息学报》;20130731;第27卷(第4期);第89-95页
情感标签抽取相关技术研究;刘鸿宇;《中国优秀硕士学位论文全文数据库》;20110515(第05期);第1-45页

Also Published As

Publication number Publication date
CN105005552A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
Hausmann et al. The atlas of economic complexity: Mapping paths to prosperity
CN107609960A (zh) 推荐理由生成方法及装置
CN109165350A (zh) 一种基于深度知识感知的信息推荐方法和***
WO2019056628A1 (zh) 关注点文案的生成
CN110008338A (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN110008335A (zh) 自然语言处理的方法及装置
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN109410913B (zh) 一种语音合成方法、装置、设备及存储介质
CN108153856A (zh) 用于输出信息的方法和装置
CN108415972A (zh) 文本情感处理方法
CN109388715A (zh) 用户数据的分析方法及装置
CN107301200A (zh) 一种基于情感倾向分析的文章评估方法和***
CN108182597A (zh) 一种基于决策树和逻辑回归的点击率预估方法
CN108280164A (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN106649334A (zh) 关联词语集合的处理方法及装置
CN108256970A (zh) 一种基于购物需求进行产品推荐的方法
CN109992781A (zh) 文本特征的处理、装置、存储介质和处理器
CN105005552B (zh) 一种信息处理方法及装置
CN103903163B (zh) 一种基于耦合主题模型的协同滤波方法
Lubis et al. Indonesian millennials’ behavior intention to online shopping through instagram
CN107193806A (zh) 一种词汇义原的自动预测方法及装置
CN109885776A (zh) 开源社区pr评审者可解释推荐模型
CN109522487A (zh) 一种基于评论的餐厅个性化推荐方法
CN108733652A (zh) 基于机器学习的影评情感倾向性分析的测试方法
CN108170685A (zh) 文本情感分析方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant