CN104615608B - 一种数据挖掘处理***及方法 - Google Patents

一种数据挖掘处理***及方法 Download PDF

Info

Publication number
CN104615608B
CN104615608B CN201410174489.4A CN201410174489A CN104615608B CN 104615608 B CN104615608 B CN 104615608B CN 201410174489 A CN201410174489 A CN 201410174489A CN 104615608 B CN104615608 B CN 104615608B
Authority
CN
China
Prior art keywords
data
seed words
customer relationship
vector
indicative character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410174489.4A
Other languages
English (en)
Other versions
CN104615608A (zh
Inventor
余建兴
高瀚
司徒志远
黄华伟
高岩
贺鹏
陈川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410174489.4A priority Critical patent/CN104615608B/zh
Publication of CN104615608A publication Critical patent/CN104615608A/zh
Application granted granted Critical
Publication of CN104615608B publication Critical patent/CN104615608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据挖掘处理***及方法,其中,所述***包括:数据获取单元、数据分类单元、数据处理单元;其中,数据获取单元,用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;所述数据分类单元,用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元;所述数据处理单元,用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。

Description

一种数据挖掘处理***及方法
技术领域
本发明涉及互联网通讯的挖掘技术,尤其涉及一种数据挖掘处理***及方法。
背景技术
本申请发明人在实现本申请实施例技术方案的过程中,至少发现相关技术中存在如下技术问题:
随着互联网技术的飞速发展以及社会结构的变迁,越来越多的人在网络上,手机里寻求沟通,联系和交往,并由此产生海量的人与人之间的交互行为,基于这种交互行为能得到用户间多种类型的关系链。用户间多种类型的关系链可以应用于社会生活的方方面面,服务提供商通过各种应用,比如手机客户端的预约订餐应用来为用户提供服务。
通过对用户间多种类型的关系链可以更好的分析用户需求,从而为用户提供更好的服务,比如,推荐用户需要的用于购物的APP应用,帮助用户进行所需物品的导购指引,又如,为用户推荐所需的餐厅及餐厅特色服务,或者保健产品等等,总之,一旦能精确地获得该用户间多种类型的关系链,就能基于该用户间多种类型的关系链所得到的数据库为用户提供最好的服务,实现为用户精准地推荐各种实用应用的目的,同时,在提供服务的过程中,服务提供商也能通过这种推荐及用户购买力的评估来更新自身应用的数据库。
用户间多种类型的关系链中存在一些具有指示特征的用户关系,举例来说,比如指示某种亲戚关系,亲戚关系的用户可能会对同一个或同一类应用所能提供的服务感兴趣,因此,采用这种亲戚关系对于改善应用自身的数据库以及经过这种数据库的改善为用户精准地推荐信息起到了决定性作用。可见,如果能挖掘出用户关系链中这种具有指示特征的用户关系,就能将其作为有效数据来提高数据有效性,以避免无效数据大量占用在数据库导致数据冗余,从而通过这种数据有效性的提高能实现为用户精准地推荐信息的目的。如何挖掘出该具有指示特征的用户关系以提高为用户推荐信息的准确度是要解决的技术问题。
然而,要从浩瀚的互联网通讯的数据中挖掘出该具有指示特征的用户关系看似简单,实际操作起来并不容易,而且还要确保挖掘出的该具有指示特征的用户关系的准确度就更不容易做到了,仍以所述具有指示特征的用户关系为某种亲戚关系为例,目前的现有技术是通过简单的关键字匹配来实现,比如,在通讯录里面为某一个用户备注为“爸爸”,为另一个用户备注为“姑姑”,则这两个用户之间可能是亲戚关系;另外,表达亲戚关系的词语很多,譬如“爸爸”就有“爹”,“父亲”等表述,上述关键字匹配的方式很难把所有可能的关键词都全部枚举,可见,相关技术中并未存在解决上述问题的有效方案。
发明内容
有鉴于此,本发明实施例希望提供一种数据挖掘处理***及方法,能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的具有指示特征的用户关系,以提高为用户推荐信息的准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例的一种数据挖掘处理***,所述***包括:数据获取单元、数据分类单元、数据处理单元;其中,
所述数据获取单元,用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;
所述数据分类单元,用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元;
所述数据处理单元,用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
优选地,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
优选地,所述数据分类单元,包括:
策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略;
策略执行子单元,用于采用所述第一策略对所述短文本数据进行所述具有指示特征的用户关系的识别时,随机提取种子词,所述种子词能表征具有指示特征的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
优选地,所述策略执行子单元,包括:
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
优选地,所述策略执行子模块,包括:
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
优选地,所述数据分类单元,包括:
策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略;
策略执行子单元,用于采用所述第二策略对所述长文本数据进行所述具有指示特征的用户关系的识别时,将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
优选地,所述策略执行子单元,包括:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词;
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
优选地,所述策略执行子单元,包括:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词;
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
优选地,所述***还包括:数据扩散单元,所述数据扩散单元位于所述数据分类单元和所述数据处理单元之间;
所述数据扩散单元,用于根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
本发明实施例的一种数据挖掘处理方法,所述方法包括:
获取数据,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;
对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系;
根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
优选地,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
优选地,所述对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,包括:
解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略;
执行所述第一策略,随机提取种子词,所述种子词能表征具有指示特征的用户关系;
将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
优选地,所述对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,包括:
解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略;
执行所述第二策略,将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词;
将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
优选地,所述将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词,包括:
将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词。
优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
优选地,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
优选地,所述方法还包括:
根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
本发明实施例的数据挖掘处理***包括:数据获取单元、数据分类单元、数据处理单元;其中,数据获取单元用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;所述数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元;所述数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
附图说明
图1为本发明***实施例的一组成结构示意图;
图2为本发明***实施例的一组成结构示意图;
图3为本发明***实施例的一组成结构示意图;
图4为应用本发明***实施例的一应用场景示意图;
图5为本发明***实施例的一组成结构示意图;
图6为图5中策略执行子单元的组成结构示意图;
图7为应用图6中各模块的一应用场景示意图;
图8为一分割平面将不同数据点分离实现分类的示意图;
图9为图5中策略执行子单元的组成结构示意图;
图10为应用图9中各模块的一应用场景示意图;
图11为应用图4中亲戚关系扩展单元各功能模块的一实现示意图;
图12为正反关系扩散示意图;
图13为传递关系扩散示意图;
图14为本发明方法实施例的实现流程图;
图15为本发明方法实施例的实现流程图;
图16为本发明方法实施例的实现流程图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
***实施例一:
本发明实施例的一种数据挖掘处理***,如图1所示,所述***包括:数据获取单元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
在本发明实施例一优选实施方式中,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
在本发明实施例一优选实施方式中,如图2所示,所述***还包括:数据扩散单元,所述数据扩散单元位于所述数据分类单元和所述数据处理单元之间,所述数据扩散单元用于根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
在本发明实施例一优选实施方式中,如图3所示,所述***还包括:数据输出单元,数据输出单元位于所述数据扩散单元和所述数据处理单元之间,所述数据输出单元用于将根据数据分类单元得到的所述具有指示特征的用户关系,以及将进一步根据数据扩散单元得到的与所述具有指示特征的用户关系相关的用户信息输出给数据处理单元进行处理。
如图4所示为应用本发明***实施例的一应用场景示意图,图4中包括数据获取单元、亲戚关系分类单元(图3中数据分类单元的具体实现)、亲戚关系扩散单元(图3中数据扩散单元的具体实现)、亲戚关系输出单元(图3中数据输出单元的具体实现)、及数据处理单元。数据获取单元从多个数据源获取用以分析所述具有指示特征的用户关系的数据,本应用场景中,所述具有指示特征的用户关系以亲戚关系为例,经过亲戚关系分类单元-亲戚关系扩散单元-亲戚关系输出单元,将识别出的所述亲戚关系送至数据处理单元进行处理,数据处理单元根据所述亲戚关系收集信息以更新N个应用的数据库,根据对所述信息的分析结果,采用不同应用来发送推荐信息,必然能提高为用户推荐信息的准确度。其中,所述N个应用包括:IM好友推荐应用,IM好友亲密度估计应用及各种广告推荐平台如广点通。
本应用场景中的多个数据源包括:
数据类型一:即时通讯(IM)应用的离线数据;
数据类型二:本地通讯应用如手机通讯录中的联系人数据;
数据类型三:各大论坛、互动平台如搜狗问问、微博如新浪微博等用户间交互时产生的互动数据。
其中,数据类型一和数据类型二通常表征用户个人属性,比如在IM应用的用户联系人上备注有用户个人属性为“爸爸”、“妈妈”、“姑姑”等,则通过这种备注就能知道某几个用户间是否存在亲戚关系;同理,数据类型二也可以采用这种备注,且数据类型二由于能备注的项目和文字量比数据类型一要大,还可以备注用户个人属性为:用户家庭地址,邮编号等,如果某几个用户备注一样的家庭住址,就说明这些用户间存在亲戚关系,或者通过邮编号知道某几个用户在同一个地区或者同一个街道等,也可以为亲戚关系的判断起到影响作用。总的来说,数据类型一和数据类型二都属于数据量大,文本内容短的数据类型,也可以说,二者都属于短文本类型。
数据类型三:由于是各大论坛、互动平台如搜狗问问、微博如新浪微博等用户间交互时产生的互动数据,比如,“爸爸去哪儿了”,“几点回家吃饭”等等,属于数据量不大,文本内容长的数据类型,也可以说,数据类型三属于长文本类型。
另外,数据类型一-数据类型三都能揭示出用户社交拓扑结构。
就上述数据源举例来说,能通过上述数据获取单元接入多个数据源的数据,包括IM好友的离线数据,手机IM通讯录的联系人库,IM空间的互动说说(包括评论转发)。其中,IM好友的离线数据有IM用户个人属性(譬如好友备注,好友分组等),IM的圈子信息,IM群的信息(譬如群名称),IM社交关系链等。这些数据在不同维度上指示亲戚关系,譬如一个IM群名叫"亲人群",那么里面每个群友很可能相互之间是亲戚。
综上所述,由于用以分析所述具有指示特征的用户关系的数据,比如分析亲戚关系的数据来自于多个数据源,每个数据源对应一种数据类型,因此,所述数据被划分为多种数据类型。所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型,由于能有效综合地考虑用户的个人属性特征,社交拓扑结构,以及社交网络互动的信息,因此,具备多种数据类型的所述数据能从不同维度上表征用户关系链中具有指示特征的用户关系,从而,采用本发明实施例,基于所述数据分析所述具有指示特征的用户关系,是一种综合分析,能确保识别所述具有指示特征的用户关系足够精确,本发明实施例区别于现有技术用关键字这种单一匹配机制,更加优越。
以所述具有指示特征的用户关系为亲戚关系为例,看一下用现有技术关键字这种单一匹配机制的缺点如下:
一、未能综合考虑并合理分析各种能判断亲戚关系的因素:
影响是否存在亲戚关系的因素有很多,譬如用户被IM好友备注为"爸爸";用户加入一个名叫"亲人"的群;在社交拓扑结构上面亲戚的亲戚可能也是亲戚等。要准确分析每个影响因素,分析的方法需要有针对性。简单根据关键字匹配来对各类不同性质的数据判断亲戚关系太粗暴,效果不好。譬如在IM空间用户的互动中,关键字匹配会错误地判断互动帖子"爸爸去哪儿"对应的用户存在亲戚关系。另外,每个影响亲戚关系的因素的指示作用也不一样。譬如在手机通讯录里面备注为"爸爸"的好友,比在IM空间用户的互动中提到"爸爸"的好友,更加有可能是用户的亲戚。现有关键字匹配的单一机制并不能综合考虑各种影响因素。
二、挖掘亲戚关系的覆盖率不足:
表达亲戚关系的词语很多,譬如"爸爸"就有"爹","父亲",甚至是"爸比","老豆"等表述。现有关键字匹配的单一机制很难把所有可能的关键词都全部枚举。特别是在互动中有些用语可能没有亲戚的关键词出现,但它们却能指示亲戚关系,譬如在IM空间互动帖子,如"什么时候回来吃饭呢"的双方比较可能存在亲戚关系。
而本发明实施例由于是综合各种数据类型的数据,数据能从不同维度上表征用户关系链中具有指示特征的用户关系,采用综合分析机制,能规避上述现有技术存在的缺点,从而能精准识别出具有指示特征的用户关系,如亲戚关系,能为提高推送信息的准确度提供保证。
因为,用户间的各种社交互动关系隐含着大量的信息推荐可能性,譬如每逢节假日,亲戚朋友之间都会产生大量的相互祝福行为。另一方面,参与社交交互的有各种类型的人,譬如包括自己的亲戚,老师,同学,同事,陌生人,甚至是中介推销等。在这些人群中,亲戚关系的用户具有很大的信息推荐可能性,譬如广告商(e.g.餐馆,保健用品)可以有针对性地投放给有亲戚关系的用户,帮助他们更容易找到合适的应用、产品、或者服务;可以给用户推荐其亲戚,辅助其扩展已有用户关系链,增加用户黏性,为用户推荐信息,提高用户体验。
后续实施例也存在上述***实施例一中的各种组合可能,为了简化描述,不做赘述。
***实施例二:
本发明实施例的一种数据挖掘处理***,如图5所示,所述***包括:数据获取单元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
这里需要指出的是,所述数据分类单元包括:策略选择子单元和策略执行子单元。其中,策略选择子单元用于解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略。策略执行子单元用于采用所述第一策略对所述短文本数据进行所述具有指示特征的用户关系的识别时,随机提取种子词,所述种子词能表征具有指示特征的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
而且,数据分类单元细分为策略选择子单元和策略执行子单元,策略选择子单元对应不同的数据选择不同的分类策略,本实施例以***实施例一提及的短文本类型为例,短文本类型属于数据量大且文本内容短的数据类型,也可以说其特征参数用于表征所述数据量大且文本内容短的特性,策略选择子单元能解析出该特征参数,通过与预设的阈值进行比对,判断出为所述短文本类型,则选择第一策略作为分类策略,通过策略执行子单元来执行所述第一策略,所述第一策略即为:随机提取种子词,所述种子词能表征具有指示特征的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
如图6所示为图5中策略执行子单元的组成结构示意图,所述策略执行子单元包括以下两种实现方案,第一种实现方案:向量生成模块不是采用固定维度,第二种实现方案:向量生成模块采用固定维度。
所述策略执行子单元的第一种实现方案为:
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数。
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
所述策略执行子单元的第二种实现方案为:
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到。
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
如图7所示为应用图6中策略执行子单元的一应用场景示意图,包括:语义向量生成模块(图6中向量生成模块的具体实现)、分类训练模块、预测亲戚关系输出模块(图6中分析结果输出模块的具体实现)。
以所述具有指示特征的用户关系为亲戚关系为例说明,如图5所示的由策略选择子单元和策略执行子单元构成的数据分类单元,可以具体为图4中的亲戚关系分类模块,该亲戚关系分类模块可以根据多种数据源分别预测用户的亲戚关系,由于不同数据源的数据特性不一样,需要采用不同的操作逻辑来有针对性地处理具有不同性质的数据源,如针对***实施例一提及的数据类型一和数据类型二这种短文本类型采取一种处理逻辑(第一策略作为分类策略),对针对***实施例一提及的数据类型三这种长文本类型采取另一种处理逻辑(第二策略为分类策略)。本实施例是针对第一策略执行的,针对第二策略的描述请见后续***实施例三的描述,这里不做赘述。
本实施例针对第一策略,最大的特点是随机采取一个种子词。对于数据为:IM好友的离线数据和手机IM通讯录的联系人,譬如IM用户个人属性(好友备注,好友分组等),IM的圈子名称,IM群名称,考虑到这类数据文本很短(一般只有若干个词语),属于所述短文本类型,随机采取一个亲戚的种子词输入分类训练模块进行分类训练,这里需要指出的是,所述分类训练模块可以为基于支持向量机(SVM)技术的训练分类器,利用所述亲戚的种子词来识别这两种数据类型的数据所存在的亲戚关系。
首先利用语义向量生成模块,将数据以向量空间中的向量表示,之后用分类训练模块对数据所存在的亲戚关系进行识别分类。具体地,语义向量生成模块基于向量空间模型(VSM),用0/1表示方式把数据表示成向量空间中的空间向量(可以是点向量),然后用分类训练模块在向量空间中找出一个分割平面。
0/1表示方式是让数据如一条文本中的每个词作为向量的一个元素(也可以称为向量的一个维度),向量的总维度为全部文本的总词数。当把某一条文本表示成向量时,向量的每一维度对应的词若在该文本出现,则该维度的值就为1,否则为0。对于0/1表示方式,举例来说,如一条文本“爸爸什么时候回家”,经过分词可以得到“爸爸"、"什么"、"时候"、"回家”四个词,如果将该文本以向量表示,该向量具有四个维度。0/1表示方式是将所有的中文词做属性,如果中文词有10万维,那么这个文本表示出来的向量为[0,0,0,1,….,..,1,...,0,...,1,...,1,0,0],且这个向量只有在"爸爸"、"什么"、"时候"、"回家”这四个词对应的维度上面的值为1,其他都是为0。对于海量数据的短文本类型,如果运用0/1方式的向量表示,那么维度会非常大(因为向量的维度为文本的总词量)。
由于上述0/1向量表示方式的维度很大,计算困难,而且不能反映同义或者意思相近的文本间的相似性,超高维度会严重损害分类训练模块的处理效率以及性能,而且,基于0/1表示方法,语义上相近的词不能用其对应的向量的余弦夹角反应出来。譬如用0/1表示方法把"爸爸"跟"父亲"表示成向量,这两个语义相似的词的余弦夹角却为0,这会非常负面地影响分类的效果。
考虑到上述0/1向量表示方式的缺点,改进方案是:采用固定维度的语义向量表示方式,而不是用全部文本的总词数作为向量的总维度。
对于这种改进方案,首先学习数据的文本,得出每个词的一个固定维度(比如200维)的语义向量。以下描述如何建立语义向量。
比如文本“爸爸什么时候回家”,经过分词可以有“爸爸","什么","时候”,"回家"四个词,每个词对应一个语义向量,譬如“爸爸"对应[0.1,0.2,0.1,...,0.5],“什么"对应[0.2,0.1,0.3,...,0.3];“时候"对应[0.1,0.2,0.2,...,0.1];“回家"对应[0.0,0.1,0.0,...,0.1],那么整个文本“爸爸什么时候回家”就表示成一个语义向量,这个语义向量就是把文本中每个词的语义向量加起来,比如[0.1,0.2,0.1,...,0.5]+[0.2,0.1,0.3,...,0.3]+[0.1,0.2,0.2,...,0.1]+[0.0,0.1,0.0,...,0.1]=[0.4,0.6,0.6,...,1]。经过归一化后,将[0.4,0.6,0.6,...,1]变成[0.2,0.3,0.3,...,0.5]表示。
可见:对于同一个文本,用上述0/1表示方式表示成一个10万多维向量[0,0,0,1,….,..,1,...,0,...,1,...,1,0,0],变成了一个固定维度(譬如200维的向量)[0.2,0.3,0.3,...,0.5],维度减少了很多,计算量随之减少很多,从而提高了分类训练模块的处理效率以及性能。另外,由于语义向量能更好地度量词之间的上下文语境,其能更好地计算相似度,譬如能识别出"爸爸"跟"老豆"在某个语境下面是相似的,那么就能更好计算“爸爸什么时候回家”,"老豆什么时候回家"这两个文本的相似度。
概括地说,语义向量是利用神经网络为每个词寻找一个连续向量空间中的表示。它考虑到词在上下文的语境,利用词之间在同一语境共同出现的频率刻画词的相关性特征,譬如"猫"跟"狗"经常在同一语境中共同出现,那么其基于语义向量的距离就小于"猫"跟"苹果"对应的距离。
具体地,语义向量需要能涵盖词的上下文语境信息。这样语义相似的词,
其对应向量的余弦夹角值会比较大。我们用条件概率P来刻画词的上下文语境,也就是每个词的概率只受前面出现过的词的影响,即P(wi|w1,...,wi-1)。为了简化计算,一般只考虑每个词受其前n-1个词的影响,即P(wi|wi-n+1,...,wi-1)。一个好的语义向量应该能极大化每一个词的条件概率P(wi|wi-n+1,...,wi-1)。我们用一个三层的神经网络模型来优化出此概率的最值。该神经网络的输入层是上文n-1个词,每个词对应一个语义向量,记住C(wi-n+1),...,C(wi-1),其中C是所有词向量的集合,每个向量的维度为m。把这n-1个向量首尾相接拼起来,形成一个(n-1)m维的向量,记作x。接着用一个非线性的隐含层为x建模,即tanh(Hx+d),其中d为偏置项,tanh为激活函数。神经网络的输出层是一个|V|维的预测结果,其中V是词的集合,参考以下公式(1):
y=softmax(U·tanh(Hx+d)+Wx+b) (1)
其中softmax是激活函数,U(|V|×h的矩阵,h是隐含层的层数)是隐含层到输出层的参数;W(|V|×(n-1)m的矩阵)是从输入层直接到输出层的一个线性变换。这个预测结果y的第i维度yi表示下一个词为i的概率,即yi=P(wi|wi-n+1,...,wi-1)。
用反向传播(Back Propagation)算法求解这个神经网络,进而得到词的语义向量集合C(词wi对应的语义向量就是C(wi))。在求解过程中,需要统计每个词前面(n-1)个语境词以及其相关的频率信息,我们用IM空间说说的数据做语料库来统计相关频率信息。
本发明实施例采用将文本以向量来表示的好处是:
现有技术通过关键字来匹配,是针对文本处理,且需要找很多的关键词,不仅费劲而且可能找不全导致准确率不能得到保证;而本发明实施例为了分类更精确,不是简单通过文本进行分类,而是将文本表示成为数学上可分析处理的向量形式,需要先对文本进行词条切分,得到构成文本的各个词后再处理。通过VSM将文本表示为向量形式,所述VSM是一个统计模型,主要用于将数据中的文本映射为由一组规范化正交词条矢量张成的向量空间中的一个数据点(点向量)。在将文本表示成数学上可分析处理的向量形式后,在此基础上,基于概率和基于距离进行分类,比如,基于距离,将文本看成向量空间中的一个数据点,通过计算数据点之间的距离进行分类,分类的过程是一个机器学***面,如图8所示为一个分割平面,将不同类的数据点分离开以实现数据分类,最好是能够把这些数据点通过一个n-1维的超平面分开,通常这个被称为线性分类器,不限于本发明实施例的SVM,有很多分类器都符合这个要求。如果能找到一个分类最佳的平面(最大间隔超平面),即使得属于两个不同类的数据点间隔最大的那个面,分类效果就更好了。
***实施例三:
本发明实施例的一种数据挖掘处理***,如图5所示,所述***包括:数据获取单元、数据分类单元、数据处理单元。其中,数据获取单元用于获取数据,输出所述数据给所述数据分类单元,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。数据分类单元用于对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元。数据处理单元用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
这里需要指出的是,所述数据分类单元包括:策略选择子单元和策略执行子单元。其中,策略选择子单元用于解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略。策略执行子单元用于采用所述第二策略对所述长文本数据进行所述具有指示特征的用户关系的识别时,将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
而且,数据分类单元细分为策略选择子单元和策略执行子单元,策略选择子单元对应不同的数据选择不同的分类策略,本实施例以***实施例一提及的长文本类型为例,长文本类型属于数据量小且文本内容长的数据类型,也可以说其特征参数用于表征所述数据量小且文本内容长的特性,策略选择子单元能解析出该特征参数,通过与预设的阈值进行比对,判断出为所述长文本类型,则选择第二策略作为分类策略,通过策略执行子单元来执行所述第二策略,所述第二策略即为:将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
如图9所示为图5中策略执行子单元的组成结构示意图,所述策略执行子单元包括以下两种实现方案,第一种实现方案:向量生成模块不是采用固定维度,第二种实现方案:向量生成模块采用固定维度。
所述策略执行子单元的第一种实现方案为:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词。
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数。
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
所述策略执行子单元的第二种实现方案为:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词时,将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词;
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
如图10所示为应用图9中策略执行子单元的一应用场景示意图,包括:语义向量生成模块(图9中向量生成模块的具体实现)、分类训练模块、预测亲戚关系输出模块(图9中分析结果输出模块的具体实现),还包括高自信度亲戚关系抽取模块(图9中种子词构造模块的具体实现)。
以所述具有指示特征的用户关系为亲戚关系为例说明,如图5所示的由策略选择子单元和策略执行子单元构成的数据分类单元,可以具体为图4中的亲戚关系分类模块,该亲戚关系分类模块可以根据多种数据源分别预测用户的亲戚关系,由于不同数据源的数据特性不一样,需要采用不同的操作逻辑来有针对性地处理具有不同性质的数据源,如针对***实施例一提及的数据类型一和数据类型二这种短文本类型采取一种处理逻辑(第一策略作为分类策略),对针对***实施例一提及的数据类型三这种长文本类型采取另一种处理逻辑(第二策略为分类策略)。本实施例是针对第二策略执行的。
本实施例针对第二策略,最大的特点是不是随机采取一个种子词,而是将采用第一策略对所述短文本数据(数据类型一和数据类型二)进行识别得到的所述具有指示特征的用户关系(如亲戚关系)来构造种子词。
对于数据为:论坛的互动数据,比如对于IM空间的互动说说数据,其文本长(平均有54个字),而且含有的噪音词比较多,其亲戚类别的概率分布跟***实施例二描述中提及的IM好友离线数据和手机IM通讯录对应的概率分布不一样。为此,采用所述第二策略来更有效地识别IM空间互动说说数据中的亲戚关系。关键点是在用于种子词的选取不是随机的,而是基于IM好友离线数据和手机IM通讯录识别得到的亲戚关系作为种子词,将该种子词经高自信度亲戚关系抽取模块选取后得到正样本种子词和负样本种子词,输入分类训练模块进行分类训练,这里需要指出的是,所述分类训练模块可以为基于支持向量机(SVM)技术的训练分类器。
训练分类器的正、负样本种子词构造如下:
根据基于图6生成的前面两类数据(IM好友离线数据和手机IM通讯录)的亲戚关系识别结果,抽取那些在多个维度同时预测为亲戚关系的用户关系对,比如在IM好友备注,IM好友分组等多个维度的文字同时被预测为亲戚的关系对。这些亲戚关系对具有高自信度。这些关系对在IM空间说说数据中的互动记录(评论转发用词)可以被看成是正样本种子词。相应地,我们从图6生成的亲戚关系识别结果中抽取那些没有在任何一个维度被预测为亲戚的关系对,用他们的互动记录作为负样本种子词。基于语义向量生成模块生成语义向量,对正负样本产生对应的语义向量输入训练分类器进行分类训练。
首先利用语义向量生成模块,将数据以向量空间中的向量表示,之后用分类训练模块对数据所存在的亲戚关系进行识别分类。具体地,语义向量生成模块基于向量空间模型(VSM),用0/1表示方式把数据表示成向量空间中的空间向量(可以是点向量),然后用分类训练模块在向量空间中找出一个分割平面。
0/1表示方式是让数据如一条文本中的每个词作为向量的一个元素(也可以称为向量的一个维度),向量的总维度为全部文本的总词数。当把某一条文本表示成向量时,向量的每一维度对应的词若在该文本出现,则该维度的值就为1,否则为0。对于0/1表示方式,举例来说,如一条文本“爸爸什么时候回家”,经过分词可以得到“爸爸"、"什么"、"时候"、"回家"四个词,如果将该文本以向量表示,该向量具有四个维度。0/1表示方式是将所有的中文词做属性,如果中文词有10万维,那么这个文本表示出来的向量为[0,0,0,1,….,..,1,...,0,...,1,...,1,0,0],且这个向量只有在"爸爸"、"什么"、"回家”这四个词对应的维度上面的值为1,其他都是为0。对于海量数据的短文本类型,如果运用0/1方式的向量表示,那么维度会非常大(因为向量的维度为文本的总词量)。
由于上述0/1向量表示方式的维度很大,计算困难,而且不能反映同义或者意思相近的文本间的相似性,超高维度会严重损害分类训练模块的处理效率以及性能,而且,基于0/1表示方法,语义上相近的词不能用其对应的向量的余弦夹角反应出来。譬如用0/1表示方法把"爸爸"跟"父亲"表示成向量,这两个语义相似的词的余弦夹角却为0,这会非常负面地影响分类的效果。
考虑到上述0/1向量表示方式的缺点,改进方案是:采用固定维度的语义向量表示方式,而不是用全部文本的总词数作为向量的总维度。
对于这种改进方案,首先学习数据的文本,得出每个词的一个固定维度(比如200维)的语义向量。以下描述如何建立语义向量。
比如文本“爸爸什么时候回家”,经过分词可以有"爸爸","什么","时候”,"回家"四个词,每个词对应一个语义向量,譬如“爸爸"对应[0.1,0.2,0.1,...,0.5],“什么"对应[0.2,0.1,0.3,...,0.3];“时候"对应[0.1,0.2,0.2,...,0.1];“回家"对应[0.0,0.1,0.0,...,0.1],那么整个文本“深圳豪放花园”就表示成一个语义向量,这个语义向量就是把文本中每个词的语义向量加起来,比如[0.1,0.2,0.1,...,0.5]+[0.2,0.1,0.3,...,0.3]+[0.1,0.2,0.2,...,0.1]+[0.0,0.1,0.0,...,0.1]=[0.4,0.6,0.6,...,1]。经过归一化后,将[0.4,0.6,0.6,...,1]变成[0.2,0.3,0.3,...,0.5]表示。
可见:对于同一个文本,用上述0/1表示方式表示成一个10万多维向量[0,0,0,1,…,..,1,...,0,...,1,...,1,0,0],变成了一个固定维度(譬如200维的向量)[0.2,0.3,0.3,...,0.5],维度减少了很多,计算量随之减少很多,从而提高了分类训练模块的处理效率以及性能。另外,由于语义向量能更好地度量词之间的上下文语境,其能更好地计算相似度,譬如能识别出"爸爸"跟"老豆"在某个语境下面是相似的,那么就能更好计算“爸爸什么时候回家”,"老豆什么时候回家"这两个文本的相似度。
概括地说,语义向量是利用神经网络为每个词寻找一个连续向量空间中的表示。它考虑到词在上下文的语境,利用词之间在同一语境共同出现的频率刻画词的相关性特征,譬如"猫"跟"狗"经常在同一语境中共同出现,那么其基于语义向量的距离就小于"猫"跟"苹果"对应的距离。
具体地,语义向量需要能涵盖词的上下文语境信息。这样语义相似的词,其对应向量的余弦夹角值会比较大。我们用条件概率P来刻画词的上下文语境,也就是每个词的概率只受前面出现过的词的影响,即P(wi|w1,...,wi-1)。为了简化计算,一般只考虑每个词受其前n-1个词的影响,即P(wi|wi-n+1,...,wi-1)。一个好的语义向量应该能极大化每一个词的条件概率P(wi|wi-n+1,...,wi-1)。我们用一个三层的神经网络模型来优化出此概率的最值。该神经网络的输入层是上文n-1个词,每个词对应一个语义向量,记住C(wi-n+1),...,C(wi-1),其中C是所有词向量的集合,每个向量的维度为m。把这n-1个向量首尾相接拼起来,形成一个(n-1)m维的向量,记作x。接着用一个非线性的隐含层为x建模,即tanh(Hx+d),其中d为偏置项,tanh为激活函数。神经网络的输出层是一个|V|维的预测结果,其中V是词的集合,参考以下公式(1):
y=softmax(U·tanh(Hx+d)+Wx+b) (1)
其中softmax是激活函数,U(|V|×h的矩阵,h是隐含层的层数)是隐含层到输出层的参数;W(|V|×(n-1)m的矩阵)是从输入层直接到输出层的一个线性变换。这个预测结果y的第i维度yi表示下一个词为i的概率,即yi=P(wi|wi-n+1,...,wi-1)。
用反向传播(Back Propagation)算法求解这个神经网络,进而得到词的语义向量集合C(词wi对应的语义向量就是C(wi))。在求解过程中,需要统计每个词前面(n-1)个语境词以及其相关的频率信息,我们用IM空间说说的数据做语料库来统计相关频率信息。
本发明实施例采用将文本以向量来表示的好处是:
现有技术通过关键字来匹配,是针对文本处理,且需要找很多的关键词,不仅费劲而且可能找不全导致准确率不能得到保证;而本发明实施例为了分类更精确,不是简单通过文本进行分类,而是将文本表示成为数学上可分析处理的向量形式,需要先对文本进行词条切分,得到构成文本的各个词后再处理。通过VSM将文本表示为向量形式,所述VSM是一个统计模型,主要用于将数据中的文本映射为由一组规范化正交词条矢量张成的向量空间中的一个数据点(点向量)。在将文本表示成数学上可分析处理的向量形式后,在此基础上,基于概率和基于距离进行分类,比如,基于距离,将文本看成向量空间中的一个数据点,通过计算数据点之间的距离进行分类,分类的过程是一个机器学***面,如图8所示为一个分割平面,将不同类的数据点分离开以实现数据分类,最好是能够把这些数据点通过一个n-1维的超平面分开,通常这个被称为线性分类器,不限于本发明实施例的SVM,有很多分类器都符合这个要求。如果能找到一个分类最佳的平面(最大间隔超平面),即使得属于两个不同类的数据点间隔最大的那个面,分类效果就更好了。
基于上述***实施例一至三,所述***还包括的数据扩散单元用于根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息,以所述具有指示特征的用户关系为亲戚关系举例描述如下:
如图11所示为图4中亲戚关系扩展单元中各自功能模块的一具体实现示意图,亲戚关系扩散单元用于通过扩散关系得到亲戚的亲戚。一个扩散关系表如以下表1所示。
父亲 兄弟 表兄弟 姨妈 儿子 舅母
父亲 爷爷 叔伯 表叔 亲戚 兄弟 亲戚
兄弟 父亲 兄弟 表兄弟 姨妈 侄子 舅母
表兄弟 亲戚 表兄弟 0 0 表侄 0
姨妈 外公 舅舅 0 0 表兄弟 0
儿子 夫妻 子女 亲戚 亲戚 亲戚 亲戚
舅母 0 0 0 0 表兄弟 0
表1
表1也可以成为扩散关系矩阵,采用图4中的亲戚关系分类单元,可以根据用户的个人属性信息,还有用户间互动的语言用词来判断是否存在亲戚关系。然而,考虑到有些用户的信息缺失,有些存在亲戚关系的用户没有在IM空间中互动,因此,进一步通过图4的亲戚关系扩散单元来扩散用户的亲戚关系链,以得到亲戚的亲戚。该亲戚关系扩散单元根据亲戚关系分类单元所识别出来的亲戚关系,结合用户的社交网络拓扑结构来做亲戚关系的扩散,以提高亲戚识别的覆盖率,亲戚关系扩散模块的具体实现如图11所示,包括IM用户关系链抽取模块,前后向关系扩散模块,一般关系扩散模块,基于自信度对亲戚识别结果剪枝模块,IM用户关系链抽取模块用于从已经识别出的亲戚关系中提取亲戚关系;所述前后向关系扩散模块用于根据表1所示的扩散关系表采用正反关系来扩散亲戚的亲戚;所述一般关系扩散模块,用于根据表1所示的扩散关系表采用传递关系来扩散亲戚的亲戚;所述基于自信度对亲戚识别结果剪枝模块用于对扩散结果基于高自信度规则进行优化,以降低误判率。
对于正反关系(前后向关系)来说,如图12一个示例所示,正反关系扩散是对有亲戚关系的双方进行扩散,譬如用户A是用户B的亲戚,那么通过扩散后可得用户B是用户A的亲戚。对于传递关系(二度关系扩散)来说,如图13一个示例所示,传递关系是亲戚关系的传递,譬如用户A是用户B的"爸爸",用户B是用户C的"弟弟",用户A跟用户C就存在亲戚关系。
对于所述基于自信度对亲戚识别结果剪枝模块而言,由于亲戚关系的扩散可能会带来准确率的下降,比如用户A是用户B的"表弟",用户B是用户C的"堂哥",用户A可能跟用户C没有亲戚关系,或者仅仅有非常疏远的关系;特别地,亲戚关系分类模块可能会误判用户B是用户C为亲戚关系,那么作二度关系扩散后,错误就会被叠加,即会进一步误判用户A跟用户C为亲戚。为了提高亲戚识别的准确率,用一个基于自信度规则的方法对亲戚识别结果进行优化。比如在扩散中,用户A跟用户C同姓氏,或者在同一地区,这种扩散的自信度会得到加权;比如用户A跟用户C同时在IM好友备注,IM分组名,IM圈子名等多个维度同时被判断为亲戚,那么该关系为亲戚关系的自信度也会加权。
这里需要指出的是:以下方法项的描述,与上述***项的描述是类似的,同***项的有益效果描述,不做赘述。对于本发明方法实施例中未披露的技术细节,请参照本发明***实施例的描述。
方法实施例一:
本发明实施例的数据挖掘处理方法,如图14所示,所述方法包括:
步骤101、获取数据,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。
步骤102、对所述多种数据类型按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系。
步骤103、根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
在本发明实施例一优选实施方式中,所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
方法实施例二:
本发明实施例的数据挖掘处理方法,如图15所示,所述方法包括:
步骤201、获取数据,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。
步骤202、解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略。
步骤203、执行所述第一策略,随机提取种子词,所述种子词能表征具有指示特征的用户关系。
步骤204、将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
步骤205、根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
而且,通过步骤202确定所述数据类型为短文本数据,选择第一策略作为所述分类策略,通过步骤203-204,随机选取的种子词来识别数据中的所述具有指示特征的用户关系。
在本发明实施例一优选实施方式中,步骤204具体包括:
步骤2041a:根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
步骤2041b:根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
在本发明实施例一优选实施方式中,步骤204具体还包括:
步骤2042a:根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
步骤2042b:根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
方法实施例三:
本发明实施例的数据挖掘处理方法,如图16所示,所述方法包括:
步骤301、获取数据,所述数据分为多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系。
步骤302、解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略。
步骤303、执行所述第二策略,将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词。
步骤304、将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
步骤305、根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息。
采用本发明实施例,由于获取的所述数据具有多种数据类型,且这些数据类型能从不同维度上表征用户关系链中具有指示特征的用户关系,也就是说,数据通过不同数据类型来划分得到的数据本身是一个综合指标,再通过对具有多种数据类型的数据按照分类策略进行综合分析,以从所述数据中分析得到具有指示特征的用户关系,因此,不仅能从浩瀚的互联网通讯的数据中挖掘出用户关系链中特定的该具有指示特征的用户关系,势必也能提高识别该具有指示特征的用户关系的准确度,那么根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息,必然能提高为用户推荐信息的准确度。
而且,通过步骤302确定所述数据类型为长文本数据,选择第二策略作为所述分类策略,通过步骤303-304,随机选取的种子词来识别数据中的所述具有指示特征的用户关系。
在本发明实施例一优选实施方式中,步骤303具体包括:
将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词。
在本发明实施例一优选实施方式中,步骤304具体包括:
步骤3041a:根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
步骤3041b:根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
在本发明实施例一优选实施方式中,步骤304具体包括:
步骤3042a:根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
步骤3042b:根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
基于本发明方法实施例一至三,所述方法还包括:根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式,所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘存储器、CD-ROM、光学存储器等。
本申请是根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
相应的,本发明实施例还提供一种计算机存储介质,其中存储有计算机程序,该计算机程序用于执行本发明实施例的数据挖掘处理***及方法。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (17)

1.一种数据挖掘处理***,其特征在于,所述***包括:数据获取单元、数据分类单元、数据处理单元;其中,
所述数据获取单元,用于从多个数据源获取数据,输出所述数据给所述数据分类单元,所述数据分为用于揭示用户社交拓扑结构的多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;
所述数据分类单元,用于对所述多种数据类型按照分类策略进行综合分析,对短文本数据进行所述具有指示特征的用户关系的识别时,以随机提取种子词的方式或构造种子词的方式,从所述数据中分析得到具有指示特征的用户关系,输出所述具有指示特征的用户关系给所述数据处理单元,其中,所述构造种子词的方式包括:将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词,以向量空间中的向量来表示所述正样本种子词和所述负样本种子词,生成正样本种子词和负样本种子词分别对应的语义向量,将正样本种子词和负样本种子词分别对应的语义向量输入训练分类器进行分类训练后对用户关系进行识别分类,识别出具有指示特征的用户关系;其中,所述短文本数据包括:表征用户个人属性的数据中,数据量大,文本内容短的数据类型;
所述数据处理单元,用于根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息;
所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
2.根据权利要求1所述的***,其特征在于,所述数据分类单元,包括:
策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略;
策略执行子单元,用于采用所述第一策略对所述短文本数据进行所述具有指示特征的用户关系的识别时随机提取所述种子词,所述种子词能表征具有指示特征的用户关系,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
3.根据权利要求2所述的***,其特征在于,所述策略执行子单元,包括:
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
4.根据权利要求2所述的***,其特征在于,所述策略执行子单元,包括:
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
分类训练模块,用于根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
5.根据权利要求1所述的***,其特征在于,所述数据分类单元,包括:
策略选择子单元,用于解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略;
策略执行子单元,用于采用所述第二策略对所述长文本数据进行所述具有指示特征的用户关系的识别时,将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造所述种子词,将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
6.根据权利要求5所述的***,其特征在于,所述策略执行子单元,包括:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造所述种子词时,得到所述正样本种子词和所述负样本种子词;
向量生成模块,用于根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
7.根据权利要求5所述的***,其特征在于,所述策略执行子单元,包括:
种子词构造模块,用于采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造所述种子词时,得到所述正样本种子词和所述负样本种子词;
向量生成模块,用于根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
分类训练模块,用于根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系;
分析结果输出模块,输出识别出的所述具有指示特征的用户关系。
8.根据权利要求1至7任一项所述的***,其特征在于,所述***还包括:数据扩散单元,所述数据扩散单元位于所述数据分类单元和所述数据处理单元之间;
所述数据扩散单元,用于根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
9.一种数据挖掘处理方法,其特征在于,所述方法包括:
从多个数据源获取数据,所述数据分为用于揭示用户社交拓扑结构的多种数据类型,能从不同维度上表征用户关系链中具有指示特征的用户关系;
对所述多种数据类型按照分类策略进行综合分析,对短文本数据进行所述具有指示特征的用户关系的识别时,以随机提取种子词的方式或构造种子词的方式,从所述数据中分析得到具有指示特征的用户关系,其中,所述构造种子词的方式包括:将在多个维度同时识别为具有指示特征的用户关系形成的用户关系数据对作为正样本种子词,将没有在任何一个维度识别为具有指示特征的用户关系形成的用户关系数据对作为负样本种子词,以向量空间中的向量来表示所述正样本种子词和所述负样本种子词,生成正样本种子词和负样本种子词分别对应的语义向量,将正样本种子词和负样本种子词分别对应的语义向量输入训练分类器进行分类训练后对用户关系进行识别分类,识别出具有指示特征的用户关系;其中,所述短文本数据包括:表征用户个人属性的数据中,数据量大,文本内容短的数据类型;
以根据所述具有指示特征的用户关系收集信息,以根据对所述信息的分析结果来发送推荐信息;
所述多种数据类型包括表征用户个人属性、表征用户社交拓扑结构、表征用户互动行为中的至少两种数据类型。
10.根据权利要求9所述的方法,其特征在于,所述对所述多种数据类型按照分类策略进行综合分析,包括:
解析所述多种数据类型的特性参数,当所述多种数据类型中每一种数据类型的特征参数皆低于预设的阈值时,确定所述数据类型为短文本数据,选择第一策略作为所述分类策略;
执行所述第一策略时随机提取所述种子词,所述种子词能表征具有指示特征的用户关系;
将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
11.根据权利要求10所述的方法,其特征在于,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
12.根据权利要求10所述的方法,其特征在于,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
根据所述向量与所述种子词对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
13.根据权利要求9所述的方法,其特征在于,所述对所述多种数据类型按照分类策略进行综合分析,包括:
解析所述多种数据类型的特性参数,当所述多种数据类型中部分数据类型的特征参数低于预设的阈值时,确定所述数据类型为短文本数据,部分数据类型的特征参数高于预设的阈值时,确定所述数据类型为长文本数据,选择第二策略作为所述分类策略;
执行所述第二策略时将采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造所述种子词;
将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:采用第一策略对所述短文本数据进行识别得到的所述具有指示特征的用户关系来构造种子词时,得到所述正样本种子词和所述负样本种子词。
15.根据权利要求14所述的方法,其特征在于,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据向量空间模型将所述数据表示为向量空间中的向量;所述数据中的每一个词作为所述向量的一个维度,所述向量的总维度为所述数据的总词数;
根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
16.根据权利要求14所述的方法,其特征在于,所述将所述种子词作为参考基准,将具有所述多种数据类型的所述数据作为待分析的训练样本与所述种子词进行相似度比对来实现分类训练,以从所述数据中识别出所述具有指示特征的用户关系,包括:
根据预设的固定维度和向量空间模型将所述数据表示为向量空间中的向量;所述固定维度基于所述数据中每个词的上下文语境信息得到;
根据所述向量与所述正样本种子词和所述负样本种子词所对应的向量在所述向量空间中的分布位置确定出分割平面,以识别出所述具有指示特征的用户关系。
17.根据权利要求9至16任一项所述的方法,其特征在于,所述方法还包括:
根据正反关系和传递关系,对所述具有指示特征的用户关系进一步分析,得到与所述具有指示特征的用户关系相关的用户信息。
CN201410174489.4A 2014-04-28 2014-04-28 一种数据挖掘处理***及方法 Active CN104615608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410174489.4A CN104615608B (zh) 2014-04-28 2014-04-28 一种数据挖掘处理***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410174489.4A CN104615608B (zh) 2014-04-28 2014-04-28 一种数据挖掘处理***及方法

Publications (2)

Publication Number Publication Date
CN104615608A CN104615608A (zh) 2015-05-13
CN104615608B true CN104615608B (zh) 2018-05-15

Family

ID=53150057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410174489.4A Active CN104615608B (zh) 2014-04-28 2014-04-28 一种数据挖掘处理***及方法

Country Status (1)

Country Link
CN (1) CN104615608B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453030B (zh) * 2015-08-12 2019-10-11 大连民族学院 一种获取社交关系链的方法及装置
CN106557942B (zh) 2015-09-30 2020-07-10 百度在线网络技术(北京)有限公司 一种用户关系的识别方法和装置
CN105468723B (zh) * 2015-11-20 2019-08-20 小米科技有限责任公司 信息推荐方法及装置
CN106157114A (zh) * 2016-07-06 2016-11-23 商宴通(上海)网络科技有限公司 基于用户用餐行为建模的首页推荐算法
CN107800608A (zh) * 2016-09-05 2018-03-13 腾讯科技(深圳)有限公司 一种用户信息的处理方法及装置
CN106547856B (zh) * 2016-10-19 2020-03-17 天脉聚源(北京)科技有限公司 一种应用共享数据的方法及装置
CN108874821B (zh) * 2017-05-11 2021-06-15 腾讯科技(深圳)有限公司 一种应用推荐方法、装置及服务器
CN107392781B (zh) * 2017-06-20 2021-11-02 挖财网络技术有限公司 用户关系的识别方法、对象关系的识别方法及装置
CN107464141B (zh) * 2017-08-07 2021-09-07 北京京东尚科信息技术有限公司 用于信息推广的方法、装置、电子设备及计算机可读介质
CN107741953B (zh) * 2017-09-14 2020-01-21 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN109767278B (zh) * 2017-11-09 2021-03-30 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN107948255B (zh) * 2017-11-13 2019-09-03 苏州达家迎信息技术有限公司 App的推送方法及计算机可读存储介质
CN108170725A (zh) * 2017-12-11 2018-06-15 仲恺农业工程学院 集成多特征信息的社交网络用户关系强度计算方法和装置
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN108737506A (zh) * 2018-04-27 2018-11-02 苏州达家迎信息技术有限公司 一种应用推送方法、设备、存储介质及***
CN109241048A (zh) * 2018-06-29 2019-01-18 深圳市彬讯科技有限公司 用于数据统计的数据处理方法、服务器及存储介质
CN112514358B (zh) * 2018-09-26 2022-04-12 深圳市欢太科技有限公司 一种游戏页面的切换方法及相关产品
CN110751284B (zh) * 2019-06-06 2020-12-25 北京嘀嘀无限科技发展有限公司 一种异构信息网络嵌入方法、装置、电子设备及存储介质
CN110880013A (zh) * 2019-08-02 2020-03-13 华为技术有限公司 识别文本的方法及装置
CN110851491B (zh) * 2019-10-17 2023-06-30 天津大学 基于多重邻居节点的多重语义影响的网络链接预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN103425686A (zh) * 2012-05-21 2013-12-04 微梦创科网络科技(中国)有限公司 一种信息发布方法和装置
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN103425686A (zh) * 2012-05-21 2013-12-04 微梦创科网络科技(中国)有限公司 一种信息发布方法和装置
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法

Also Published As

Publication number Publication date
CN104615608A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
CN104615608B (zh) 一种数据挖掘处理***及方法
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
Schouten et al. Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data
CN107609101B (zh) 智能交互方法、设备及存储介质
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN105005594B (zh) 异常微博用户识别方法
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN103678670B (zh) 一种微博热词与热点话题挖掘***及方法
CN104574192B (zh) 在多个社交网络中识别同一用户的方法及装置
CN103455545A (zh) 社交网络用户的位置估计的方法和***
CN108090607A (zh) 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN107515873A (zh) 一种垃圾信息识别方法及设备
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN106354845A (zh) 基于传播结构的微博谣言识别方法和***
KR101869815B1 (ko) 집단지성을 이용한 뉴스 판단 방법 및 장치
CN110990683A (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN110472057B (zh) 话题标签的生成方法及装置
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
JP2008203933A (ja) カテゴリ作成方法および装置、文書分類方法および装置
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230705

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right