CN106980639A

CN106980639A - 短文本数据聚合***及方法

Info

Publication number: CN106980639A
Application number: CN201611242641.3A
Authority: CN
Inventors: 郑建宾; 华锦芝; 周钰
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-07-25
Anticipated expiration: 2036-12-29
Also published as: CN106980639B

Abstract

本发明涉及一种短文本数据聚合***，包括：数据获取模块，用于获取短文本数据的第一集合、待聚合短文本数据；数据抽取模块，用于形成第一字段属性数据的第二集合以及第二字段属性数据；以及数据聚合模块，包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元；其中，候选数据查询单元从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据，相似度计算单元计算每一第一字段属性数据与第二字段属性数据之间的相似度，短文本数据聚合单元将相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。基于该***的数据聚合过程匹配准确率高、***执行效率高。该***逻辑简单、配置方便。

Description

短文本数据聚合***及方法

技术领域

本发明涉及数据融合技术领域，更具体地说，涉及一种短文本数据聚合***及方法。

背景技术

目前，社交媒体、移动互联网、大数据分析、云计算、物联网这些行业不是孤立发展的，而是在相互融合，进而实现高速协同发展。作为智能决策的支持手段，大数据在金融机构、企业、事业、政府、社会管理和发展领域内的应用是研发人员努力的方向。

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析，分析人员对数据的来源和结构有一定的控制和深层的了解。而在大数据时代，数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据，将它们梳理后进行挖掘和分析。

将来源不同的数据进行归类、分析，其中涉及两个技术瓶颈。一、各类数据来源不同、结构不同，在数据聚类融合之前，需要提取其中共同的字段；二、数据聚类融合技术的准确率制约着该技术的应用广度和深度。现有技术中，就短文本数据之间的聚类融合而言，存在许多应用技术，但其中，往往以短文本中关键词出现的词频作为数据聚合的首要依据，这容易造成决策的片面性，进而严重影响数据聚合的准确率。此外，在需要处理海量数据的场合，数据聚合的执行效率是本领域技术人员格外重视的技术问题。

发明内容

本发明的目的在于提供一种聚合准确率高、执行效率高的短文本数据聚合***。

为实现上述目的，本发明提供一种技术方案如下：

一种短文本数据聚合***，包括：数据获取模块，其包括内部数据加载单元和外部数据获取单元，内部数据加载单元从***的数据存储模块获取短文本数据的第一集合，外部数据获取单元从***的外部获取待聚合短文本数据；数据抽取模块，与数据获取模块耦合，其包括字段抽取单元，字段抽取单元从第一集合中分别抽取各短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合，并从待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据；以及数据聚合模块，与数据抽取模块耦合，其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元；其中，候选数据查询单元从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据，以形成第一字段属性数据的第三集合，相似度计算单元计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度，短文本数据聚合单元将第三集合中、与第二字段属性数据相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。

优选地，数据聚合模块还包括倒排表构造单元，倒排表构造单元对第二字段属性数据构造倒排表，候选数据查询单元根据倒排表来从第二集合中查询相关的若干个第一字段属性数据。

优选地，数据抽取模块还包括数据过滤单元，数据过滤单元从第二集合中滤除与第二字段属性数据无法匹配的第一字段属性数据。

优选地，候选数据查询单元计算第二集合中各第一字段属性数据与第二字段属性数据之间的相关度，并以相关度大于相关度阈值的第一字段属性数据形成第三集合。

优选地，相关度以第一字段属性数据的分词序列与第二字段属性数据的分词序列之间相同的分词词语的个数为计算因子。

优选地，该***还包括序列化单元、反序列化单元，序列化单元用于将内存数据序列化以供存储于磁盘上，反序列化单元用于将磁盘文件转换为内存数据。

本发明还公开一种短文本数据聚合方法，其包括如下步骤：a)、从数据存储模块获取短文本数据的第一集合，从外部获取待聚合短文本数据；b)、从第一集合中分别抽取各短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合，并从待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据；c)、从第二集合中查询与第二字段属性数据之间的相关度满足相关度阈值的若干个第一字段属性数据，以形成第一字段属性数据的第三集合；d)、计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度；e)、将第三集合中、与第二字段属性数据相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。

本发明提供的短文本数据聚合***及方法，实现了一种匹配准确率高、***执行效率高的数据聚合过程。通过多批次的过滤或匹配，在对海量外部数据进行处理时，其耗时显著缩短。该***逻辑简单、配置方便、实施成本低，便于在行业内推广应用。

附图说明

图1示出本发明一实施例的短文本数据聚合***的模块结构示意图。

具体实施方式

如图1所示，本发明一实施例提供一种短文本数据聚合***，其包括数据获取模块10、数据抽取模块20、数据聚合模块30以及数据存储模块40。

其中，数据获取模块10包括内部数据加载单元101和外部数据获取单元102，内部数据加载单元101从数据存储模块40获取短文本数据的第一集合，外部数据获取单元102从***的外部获取输入，即，待聚合短文本数据或待聚合短文本数据的集合。

考虑到数据存储模块40中储存的短文本数据可能相当大，该***还可包括序列化单元、反序列化单元(附图未示出)，序列化单元用于将内存数据序列化以供存储于磁盘上，而反序列化单元则用于将磁盘文件转换为内存数据。

数据抽取模块20与数据获取模块10相耦合，数据抽取模块20至少包括字段抽取单元201，字段抽取单元201从第一集合中分别抽取各短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合；并从待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据。

其中，字段抽取单元201可包括一字段配置表，供用户对参与聚合的字段进行配置或定义。用户配置完成后，字段抽取单元201直接加载该字段配置表，并依照其进行字段抽取动作。

进一步地，数据抽取模块20还可以包括数据过滤单元(附图未示出)，数据过滤单元从第二集合中滤除与第二字段属性数据明显无法匹配的第一字段属性数据。作为示例，若第二集合中存在一数据元素(第一字段属性数据)，其各字段与待聚合短文本数据的各字段没有任何交集，则可从第二集合中滤除该数据元素。

数据聚合模块30与数据抽取模块耦合20相耦合，数据聚合模块30包括候选数据查询单元301、相似度计算单元302以及短文本数据聚合单元303，其中，候选数据查询单元301耦合至相似度计算单元302，相似度计算单元302耦合至短文本数据聚合单元303。

具体地，候选数据查询单元301从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据，以形成第一字段属性数据的第三集合，相似度计算单元302计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度，短文本数据聚合单元303将第三集合中相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合，并以聚合的结果形成***的输出。

其中，候选数据查询单元301计算第二集合中各第一字段属性数据与第二字段属性数据之间的相关度，并以相关度大于相关度阈值的第一字段属性数据形成第三集合。

其中，相似度计算单元302可采用如下算法其中一项或多项的组合来计算相似度：Jaro-Winkler相似度算法；Levenshetin相似度算法；最长公共子串算法；短语相似度算法；以及余弦相似度算法。

作为优选实施方式，数据聚合模块30还包括倒排表构造单元(附图未示出)，倒排表构造单元对第二字段属性数据构造倒排表，候选数据查询单元301将根据倒排表来从第二集合中查询相关的若干个第一字段属性数据。

具体地，对外部数据，即，待聚合短文本数据进行倒排训练，在产生的倒排表的基础上，在***存储的内部数据范围内(即，第一字段属性数据的第二集合)查询与第二字段属性数据相关的第一字段属性数据，以产生第一字段属性数据的第三集合。第三集合中的数据元素经历了内部数据同外部数据的一一映射，这相比于直接将第二集合中的每一数据元素同第二字段属性数据进行相似度计算，第三集合在规模上要远远小于第二集合，利用内外部数据之间的某些相关性，可以避免计算那些完全无关联的数据，从而大大降低了运算量，提升了计算效率。

关于候选数据查询单元301进行的相关度计算，作为示例，以下说明一种相关度计算方法：对每一对数据，即，待聚合短文本数据和第一集合中的任一短文本数据，分别经字段抽取单元201抽取出参与聚合的字段后，形成第二字段属性数据和第二集合中的一个数据元素(第一字段属性数据)，对第二字段属性数据构造倒排表，然后统计该倒排表中与该数据元素相同的分词词语的个数count，按照如下公式计算相关度：

其中，len(termsA)表示第一字段属性数据的分词序列A的长度，len(termsB)表示第二字段属性数据的分词序列B的长度。

接着，对相关度按照从大到小降序排序，再选取，例如，topN(相关度最高的N个)第二集合中的数据元素(第一字段属性数据)形成第三集合，以供相似度计算单元302进行后续处理选。选取topN而不是处理整个第二集合，这主要是从实际执行效率与准确度平衡的角度进行考虑的。从相关度的定义来看，其保证了内部数据与外部数据相似点(相同的分词词语)越多，则相关度也就相应越高，而且，将第二集合缩小到第三集合却把正确(最适合与待聚合短文本数据进行数据聚合)的数据元素排除掉的可能性是十分低的。

上述实施例提供的短文本数据聚合***，通过进行数据抽取、过滤、相关度计算以及相似度计算，整个数据聚合过程匹配准确率高，***执行效率高。该***逻辑简单、配置方便。优选情况下，可按照云计算***来部署该***，便于***的升级、维护、在行业内的推广应用。

本发明又一实施例提供一种短文本数据聚合方法，其包括如下步骤：步骤S10、从数据存储模块获取短文本数据的第一集合，从外部获取待聚合短文本数据。

步骤S20、从第一集合中分别抽取各短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合，并从待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据。

步骤S30、从第二集合中查询与第二字段属性数据之间的相关度满足相关度阈值的若干个第一字段属性数据，以形成第一字段属性数据的第三集合。

具体地，相关度阈值可以静态设置，也可以根据相关度的计算结果来动态设置。相关度的计算公式为：

其中，len(termsA)表示第一字段属性数据的分词序列A的长度，len(termsB)表示第二字段属性数据的分词序列B的长度，count为第一字段属性数据的分词序列A与第二字段属性数据的分词序列B之间相同的分词词语的个数。

步骤S40、计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度。

具体地，可采用如下算法其中一项或多项的组合来计算相似度：Jaro-Winkler相似度算法；Levenshetin相似度算法；最长公共子串算法；短语相似度算法；以及余弦相似度算法。

步骤S50、将第三集合中、与第二字段属性数据相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。

作为本发明上述实施例的一种具体应用，以下给出针对商户数据的聚合示例。

外部商户数据来自于各外部互联网平台，比如大众点评网、携程网、艺龙网等网站。这些第三方的公共数据平台一方面能够包含社会上许多商户的***息，具备多样的数据来源；另一方面，许多第三方公共数据平台是可交互的，用户可以根据自己的喜好对各个商户进行评价打分，这样就形成了潜在的、对商户信用等级的社会化评价，有助于对商户的实际价值做出适当的评估。

在该具体应用的第一阶段，利用网络爬虫从上述三个网站获取部分商户信息，以大众点评网为例，爬取字段如下表所示:

字段信息	样例
		商户ID	2209663
城市	上海
		行政区	浦东新区
店销名称	王品台塑牛排
		店铺别名	NA
分店信息	华润时低店
		分店数目	5
所属分类	{西餐-牛排}
		所属商贸	八佰伴
地址	浦东新区张杨路500号华润时代广场7楼(近浦东南路)
		营业时间	{11.5-14，17.5-21}
人均消费	323元
		总体评分	4.5
重要标签	{情侣约会：1418，可以刷卡：543，朋友聚餐：534，商务宴请：484}
		评分详情	{531，699，187，22，6}
默认点评	2815
		签到短评	698
全部点评	3224
		团购点评	4
口味评分(细分A)	8.3
		环境评分(细分B)	8.8
服务评分(细分C)	9.1
		收藏数	1895
浏览数	643919
		最近一周浏览	2328
还浏览过	百万庄园(广安门店)，万楼福风味菜馆，馋人小馆，新疆兵团食府…
		地理信息	116.37707，39.89292
时间戳	2014-3-14 15：43
		交通信息	riek_mam：停车在胡同里，比较费劲(13-08-14)，芳菲四季：免费停车.

从外部获取的商户数据包含了大量的字段，这些字段有些是离散信息，对商户的特征进行了文字描述，而有些字段则是连续信息，对商户的价值进行了数值描述。显然，这些字段并不是所有都需要应用到聚合过程中的，不仅某些字段对数据聚合过程没有起到任何作用，而且还会增加聚合过程的数据吞吐量和处理量，进而导致***的执行效率下降。

作为聚合的另一方，内部商户数据的获取相对容易。然而内部数据由于涉及到商户个体的具体信息，直接操作容易导致错误发生。因此对于内部商户数据采用导出再处理的做法，这样既可以隔离原数据，又可以将内部商户数据按照外部商户数据的格式进行组织。

在该具体应用的第二阶段，参与聚合的字段主要例如包括：

在字段抽取单元201抽取外部商户数据时，即可根据上表中的各字段来抽取，形成第二字段属性数据。在字段抽取单元201抽取内部商户数据时，抽取的数据字段至少包括如下三个字段：

字段	说明
		商户ID	唯一标识内部商户个体的ID.方便后续时行回溯：
商户名称	聚合的核心字段：
		商户MCC	商户的类型：

以上2个表仅示出若干字段，但是可以理解，根据需要，对于内部商户数据和外部商户数据，都可以配置按照字段配置表来抽取任何数量、任何类别的字段。

在分别抽取内外部商户数据形成第一字段属性数据的第二集合(对应于内部商户数据)及第二字段属性数据(对应于外部商户数据)之后，这些数据是否适合聚合还需要进行进一步验证。由于大众点评网、携程和艺龙是第三方公共数据平台，其关注的商户数据是存在一定的倾向性的，例如携程主要关注的是酒店信息。所以内部商户数据不一定全部都能够实现聚合，只有通过增加不同的数据源，才能保证内部商户数据尽可能多地与外部商户数据进行聚合。

由于大量内部商户数据需要参与相关度、相似度计算，对第二集合尽可能地进行过滤以提高***执行效率是有益的。主要过滤的目标例如包括：

过虑目标	过滤规则
		ATM	内部名称中包含“ATM”，“取款机”这类字符串时，这类商户需被剔除；
POS机	内部名称中包含“POS”这类字符串时，这类商户需被剔除；
		个体户	内部名称中包含“个体户”，“个体”这类字符串时，这类商户需被剔除：
特殊类(MCC)	若内部商户的MCC是“特殊类”的时候也需要滤掉；
		名称长度	若内部商户名称太短，信息量不足也是不能参加聚合的

从上述过滤的目标来看，过滤的内容包含了两种模式：

一、类别模式。通过对内部商户数据的MCC检查后发现，“特殊类”是一个比较特殊的MCC，里面包含了很多清算内容，而非真正的商户信息，不适宜加入到聚合过程中，需要剔除掉这类商户；

二、包含模式。通过商户名称中所包含的某些关键字来剔除掉某些商户或者通过名称长度来过滤掉信息量太少的商户。

因此这类过滤所采用的配置文件需要包含两个部分：在包含模式中可以增加相关关键字，这样只要商户名称中包含了这些关键字就会被过滤掉；在类别模式中则指定MCC，只要是该MCC的商户都会被滤除。

在通过字段提取和异常数据筛选之后，我们就可以得到符合聚合条件的内部及外部商户数据。此时这些数据需要在HDFS平台上进行存储，作为聚合的实际操作数据使用；而过滤掉的数据虽然被从源数据中去除，但是不应当丢弃而是将这些数据进行适当的存储，以供后续的分析和评估。

在该具体应用的第三阶段，候选数据查询单元301对每一对商户数据(具体地，为一特定的第二字段属性数据和第二集合中的任一第一字段属性数据)，按照如上所述的相关度计算公式，来计算相关度。随后，按相关度降序排列，候选数据查询单元301从第二集合中选取与第二字段属性数据的分词序列相关度最高的、top1000条(个)第一字段属性数据，形成第三集合，以供进行下一步的相似度计算算法。

相似度计算单元302针对第三集合中的每一数据元素(第一字段属性数据)，分别计算其与该特定的第二字段属性数据之间的相似度，计算相似度时采用Jaro-Winkler相似度算法。可以理解，相似度计算也可以采用基于编辑距离(Levenshtein)相似度计算、最长公共子串(LCS)算法、短语相似度计算方法或余弦相似度计算方法等。

短文本数据聚合单元303对前述步骤计算出的各相似度进行降序排序，将相似度最高的第一字段属性数据所对应的内部商户数据与该特定的第二字段属性数据所对应的外部商户数据进行数据聚合，形成聚合商户数据并输出。

以商户数据作为聚合对象进行测试，通过对北京和上海地区银联(内部)商户数据和大众点评网(外部)商户数据的测试验证抽样结果表明，内外部商户数据的整体平均匹配率为27.5％；聚合模型的最优匹配准确率(匹配结果集中正确匹配的条数在匹配结果集中的占比)可以达到75％左右，而召回率(结果集中正确匹配的条数除以测试集中存在匹配项的条数)可以达到85％左右。

上述说明仅针对于本发明的优选实施例，并不在于限制本发明的保护范围。本领域技术人员可作出各种变形设计，而不脱离本发明的思想及附随的权利要求。

Claims

1.一种短文本数据聚合***，包括：

数据获取模块，其包括内部数据加载单元和外部数据获取单元，所述内部数据加载单元从所述***的数据存储模块获取短文本数据的第一集合，所述外部数据获取单元从所述***的外部获取待聚合短文本数据；

数据抽取模块，与所述数据获取模块耦合，其包括字段抽取单元，所述字段抽取单元从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合，并从所述待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据；以及

数据聚合模块，与所述数据抽取模块耦合，其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元；

其中，所述候选数据查询单元从所述第二集合中查询与所述第二字段属性数据相关的若干个所述第一字段属性数据，以形成所述第一字段属性数据的第三集合，所述相似度计算单元计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度，所述短文本数据聚合单元将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。

2.根据权利要求1所述的***，其特征在于，所述数据聚合模块还包括倒排表构造单元，所述倒排表构造单元对所述第二字段属性数据构造倒排表，所述候选数据查询单元根据所述倒排表来从所述第二集合中查询所述相关的若干个所述第一字段属性数据。

3.根据权利要求1所述的***，其特征在于，所述数据抽取模块还包括数据过滤单元，所述数据过滤单元从所述第二集合中滤除与所述第二字段属性数据无法匹配的所述第一字段属性数据。

4.根据权利要求1所述的***，其特征在于，所述候选数据查询单元计算所述第二集合中各所述第一字段属性数据与所述第二字段属性数据之间的相关度，并以所述相关度大于相关度阈值的所述第一字段属性数据形成所述第三集合。

5.根据权利要求4所述的***，其特征在于，所述相关度以所述第一字段属性数据的分词序列与所述第二字段属性数据的分词序列之间相同的分词词语的个数为计算因子。

6.根据权利要求1所述的***，其特征在于，所述相似度计算单元采用如下算法其中一项或多项的组合来计算所述相似度：

Jaro-Winkler相似度算法；

Levenshetin相似度算法；

最长公共子串算法；

短语相似度算法；以及

余弦相似度算法。

7.根据权利要求1所述的***，其特征在于，所述字段抽取单元包括字段配置表，供用户对所述参与聚合的字段进行配置。

8.根据权利要求1至7中任一项所述的***，其特征在于，所述***还包括序列化单元、反序列化单元，所述序列化单元用于将内存数据序列化以供存储于磁盘上，所述反序列化单元用于将磁盘文件转换为内存数据。

9.根据权利要求8所述的***，其特征在于，所述***按照云计算***来部署。

10.一种短文本数据聚合方法，包括如下步骤：

a)、从数据存储模块获取短文本数据的第一集合，从外部获取待聚合短文本数据；

b)、从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段，以形成第一字段属性数据的第二集合，并从所述待聚合短文本数据中抽取参与聚合的字段，以形成第二字段属性数据；

c)、从所述第二集合中查询与所述第二字段属性数据之间的相关度满足相关度阈值的若干个所述第一字段属性数据，以形成所述第一字段属性数据的第三集合；

d)、计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度；

e)、将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。

11.如权利要求10所述的方法，其特征在于，在所述步骤c)中，所述相关度的计算公式为：其中，len(termsA)表示第一字段属性数据的分词序列A的长度，len(termsB)表示第二字段属性数据的分词序列B的长度，count为所述第一字段属性数据的分词序列A与所述第二字段属性数据的分词序列B之间相同的分词词语的个数。

12.根据权利要求10所述的方法，其特征在于，在所述步骤d)中，采用如下算法其中一项或多项的组合来计算所述相似度：

Jaro-Winkler相似度算法；Levenshetin相似度算法；最长公共子串算法；短语相似度算法；以及，余弦相似度算法。