CN107066623A

CN107066623A - 一种文章合并方法及装置

Info

Publication number: CN107066623A
Application number: CN201710335322.5A
Authority: CN
Inventors: 赵海兵
Original assignee: Hunan Zingrow Information Technology Co Ltd
Current assignee: Hunan Zingrow Information Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-08-18

Abstract

本发明实施例公开了一种文章合并方法，先通过预设词性库以及专业词数据库对多篇待合并的文章进行分词，提取各自的目标词集；然后对各个目标词集利用预设的算法求取哈希码，利用第一预设函数依次对满足预设时间条件的各目标文章对应的哈希码计算其之间的距离；当判定各目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。准确的获取相似文章的核心关键性，提高了对文章相似度判断的准确性；可有效的避免由于使用模板而错把不同内容的文章进行合并，有利于提高文章合并的准确度，还有利于提高文章合并的速率。此外，本发明实施例还提供了相应的实现装置，进一步使得所述方法更具有实用性，所述装置具有相应的优点。

Description

一种文章合并方法及装置

技术领域

本发明实施例涉及文本信息处理技术领域，特别是涉及一种文章合并方法及装置。

背景技术

随着计算机技术以及互联网技术的发展，用户越来越依赖网络，从查阅新闻、学习新知识、掌握新技能等都通过网络来获取资源。网络中各类文献资料越来越多，且文献资料的来源也越来越广。同一篇文章可能会在网络中经过多个人进行转发多次，或者在同一篇文章上稍作改动，然后生成另外一篇文章，等等。这种相似文章不仅占据了大量网络空间，而且会导致用户在进行搜索时出现多个相同的网络资源，给用户带来不便。

现有技术中，虽有对相似文章的合并技术，但是由于对文章核心部位提取不准确，或者是不具备针对性，合并文章出现错误，准确率较低，将不同文章错认为相似文章进行合并。举例来说，对于有固定模板的某些文章，例如新闻以及发布公告，现有技术往往会将使用同一类模板的不同文章进行合并，例如同一个主题的多篇新闻，由于文中的涉及到事件发生的时间不同，现有技术会默认这多篇新闻为相似文章，从而进行合并，这就导致某些年份发生事件的新闻无法在网络上查询得到。

发明内容

本发明实施例的目的是提供一种文章合并方法及装置，提高了文章合并的准确性。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种文章合并方法，包括：

获取多篇待合并的文章；

根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集；所述预设词性库为所述目标词集中的各目标词的词性，所述专业词数据库包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组；

对各所述目标词集利用预设的算法求取哈希码，选取满足预设时间条件的目标文章；利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离；

当判定各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。

可选的，在所述对各所述目标词集利用预设的算法求取哈希码之后还包括：

根据所述专业词数据库对各所述哈希码进行加维降维。

可选的，所述对各所述目标词集利用预设的算法求取哈希码为：

调用simhash(test，64)对各所述目标词集求取64位哈希码。

可选的，所述根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集为：

根据所述预设词性库以及所述专业词数据库提取各所述文章中的目标词组；

根据各所述文章对应的行业类型，对所述目标词组进行归一化处理，以生成各自对应的目标词集。

可选的，所述各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并包括：

将各所述目标文章间距离不大于预设距离阈值对应的目标文章选取出来，并向用户进行展示；

接收用户对选取的目标文章相似度判断的指令，根据所述指令将目标文章进行合并。

可选的，所述第一预设函数为getDis函数。

可选的，在所述对各所述目标词集利用预设的算法求取哈希码之后，还包括：

将各所述哈希码保存至哈希服务器中。

可选的，所述选取满足预设时间条件的目标文章为：

获取各所述目标文章的发表时间；

当判定两篇所述目标文章的发表时间不超过15天时，则将其选取出来。

可选的，所述预设距离阈值为3.5。

本发明实施例另一方面提供了一种文章合并装置，包括：

获取模块，用于获取多篇待合并的文章；

分词模块，用于根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集；所述预设词性库为所述目标词集中的各目标词的词性，所述专业词数据库包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组；

计算模块，用于对各所述目标词集利用预设的算法求取哈希码，选取满足预设时间条件的目标文章；利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离；

合并模块，用于当判定各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。

本发明实施例提供了一种文章合并方法，先通过预设词性库以及专业词数据库对多篇待合并的文章进行分词，提取各自的目标词集；然后对各个目标词集利用预设的算法求取哈希码，利用第一预设函数依次对满足预设时间条件的各目标文章对应的哈希码计算其之间的距离；当判定各目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。

本申请提供的技术方案的优点在于，利用预设词库以及专业词库对待合并文章进行分词，有利于准确获取相似文章的核心关键性，提高了对文章相似度判断的准确性；此外，从待合并文章中选取满足时间预设条件的目标文章进行比较相似度，可有效的避免由于使用模板而错把不同内容的文章进行合并，有利于提高文章合并的准确度，还有利于提高文章合并的速率。

此外，本发明实施例还针对文章合并方法提供了相应的实现装置，进一步使得所述方法更具有实用性，所述装置具有相应的优点。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文章合并方法的流程示意图；

图2为本发明实施例提供的另一种文章合并方法的流程示意图；

图3为本发明实施例提供的再一种文章合并方法的流程示意图；

图4为本发明实施例提供的文章合并装置的一种具体实施方式结构图；

图5为本发明实施例提供的文章合并装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种文章合并方法的流程示意图，本发明实施例可包括以下内容：

S101：获取多篇待合并的文章。

可利用爬虫自动从网页上获取各类内容，然后可利用ETL(ExtractionTransformation Loading，数据抽取)从获取的各类内容中采集相应的文本数据。最后可通过strToken模块调用stringToken(text)函数来获取待合并文章。

S102：根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集。

分词即是将文章的文本切分为一个个独立的词语。

预设词性库可为目标词集中的各目标词的词性，例如可包括名词、动词、副动词、名动词、趋向动词、形式动词、内动词、惯性用语、动词性语素、机构团体名、其他专名、新词等。即在文章进行词组切分时，将预设词库中的词性对应的词组保留下来，放于目标词集中。

专业词数据库可包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组。用户业务需求词组根据不同的用户或同一用户不同的业务进行确定一些业务常用词，有利于提高对某一领域中的文章的核心关键词的获取的准确率。由于文章一般可从现有新闻、公告、微博、微信中获取，故可从新闻、公告、微博、微信中的数据进行逆文档频率词的提取。专业词数据库为自定义词库，可既包括用户业务需求词组和逆文档频率词组，也可包括其中之一，这均不影响本申请的实现。

在一种具体的实施方式中，可先对待合并文章根据预设词性库进行分词，获取初级目标词集，再利用专业词数据库对初级目标词集进行筛选，去除部分词，作为最终的目标词集。

为了进一步提高提取的核心关键词，即目标词集中的词组的准确率，在另外一些具体实施方式中，S102可具体包括：

根据预设词性库以及专业词数据库提取各文章中的目标词组；

举例来说，文章的行业类型例如娱乐新闻、财经评论、体育文章、教育类文章，不同行业领域，同一个意思用的词往往不同，为了提高相似度判断的准确性，可对提取出来的词组进行归一化处理。所述的归一化即利用同一行业领域的专有词更改提取出来的目标词集中的非专业词。

S103：对各所述目标词集利用预设的算法求取哈希码，选取满足预设时间条件的目标文章；利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离。

可调用simhash(test，64)对各目标词集求取64位哈希码，当然，也可采用其他算法，这均不影响本申请的实现。

Simhash为处理海量文本去重的算法。simhash就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是<n(根据经验这个n一般取值为3)，就可以判断两个文档是否相似。

对于采用固定模板的文章，例如新闻，通知公告，举例来说，A新闻公告为2015股东大会召开，B新闻为2016股东大会召开。因2篇新闻为上市公司公告，文章有基础的模板，只是编写者修正了年份，以及部分区域内容，如果关键词提取不当，则会导致文章合并在一起。考虑到使用相同模板的这类文章，一般都有限期，例如新闻具有时效性，故鉴于上述情况，可选的，在进行比较哈希码的距离之前，还可包括：

获取各所述目标文章的发表时间；

若两篇文章的发表时间超过15天，则不对其进行比较。可选的，可优先对7天之内的文章进行比较。通过时间的限制，不仅提高了相似度判断的准确性，还提高了相似性比较的速率。

第一预设函数可为getDis函数，getDis(String hashCode，int diffDay)函数根据7天到15内数据进行比较，一方面提高比较性能，另一方面提高准确率。当然，也可采用其他函数，这均不影响本申请的实现。

S104：当判定各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。

预设距离阈值可为3.5，当然，也可为其他值，这均不影响本申请的实现。

在本发明实施例提供的技术方案中，利用预设词库以及专业词库对待合并文章进行分词，有利于准确获取相似文章的核心关键性，提高了对文章相似度判断的准确性；此外，从待合并文章中选取满足时间预设条件的目标文章进行比较相似度，可有效的避免由于使用模板而错把不同内容的文章进行合并，有利于提高文章合并的准确度，还有利于提高文章合并的速率。

在一种具体的实施方式中，当待合并文章较多时，为了提高哈希码比较的速率，基于上述实施例，在对各目标词集利用预设的算法求取哈希码之后，还可包括：

根据所述专业词数据库对各所述哈希码进行加维降维。

SimHash为指纹生成算法或者叫指纹提取算法，被广泛应用在亿级的网页去重的工作中，其主要思想是降维。举例来说，一篇若干数量的文本内容，经过simhash降维后，可能仅仅得到一个长度为32或64位的二进制由01组成的字符串，相似身份证，通过SimHash算法，可使复杂的事物，能够通过降维来简化。SimHash的工作原理为准备一篇文本；过滤清洗，提取n个特征关键词；特征加权；对关键词进行hash降维01组成的签名(上述是6位)；然后向量加权，对于每一个6位的签名的每一位，如果是1，hash和权重正相乘，如果为0，则hash和权重负相乘，至此就能得到每个特征值的向量；合并所有的特征向量相加，得到一个最终的向量，然后降维，对于最终的向量的每一位如果大于0则为1，否则为0，这样就能得到最终的simhash的指纹签名。

对哈希码进行降维处理处理，有利于提高合并速率。

考虑到***自动合并文章，会出现误把不同内容的文章进行合并，鉴于此，本申请还提供了另外一个实施例，请参阅图2，可包括：

S201-S203：具体的，与上述实施例的S101-S103所描述一致，此处不再赘述。

S204：将各所述目标文章间距离不大于预设距离阈值对应的目标文章选取出来，并向用户进行展示；

S205：接收用户对选取的目标文章相似度判断的指令，根据所述指令将目标文章进行合并。

***将疑似相似的文章，即满足文章间距离不大于预设距离阈值的文章，选取出来，可生成一个列表，向用户进行展示。用户通过对疑似文章进行进一步判断，将选取的相似文章发送一个合并指令，***根据指令对相似文章进行合并，而对***自动判断的其他疑似文章不进行合并。

经过用户的进一步确认，提高了文章合并的准确率。

由于突然断电，或发生其他设备坏掉的情况，导致计算出的哈希码丢失，为了避免重新进行重复的操作，基于上述实施例，请参阅图3，还可包括：

S206：将各所述哈希码保存至哈希服务器中。

可选的，可通过哈希服务器管理计算得到Hash码，然后可将比较完的哈希码以队列先进后出的方式存入哈希服务器中。

通过将哈希码进行保存，提高了***的稳定性以及可靠性，有利于提高文章合并的速率。

本发明实施例还针对文章合并方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的文章合并装置进行介绍，下文描述的文章合并装置与上文描述的文章合并方法可相互对应参照。

参见图4，图4为本发明实施例提供的文章合并装置在一种具体实施方式下的结构图，该装置可包括：

获取模块401，用于获取多篇待合并的文章。

分词模块402，用于根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集；所述预设词性库为所述目标词集中的各目标词的词性，所述专业词数据库包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组。

计算模块404，用于对各所述目标词集利用预设的算法求取哈希码，选取满足预设时间条件的目标文章；利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离。

合并模块404，用于当判定各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并。

可选的，在本实施例的一些实施方式中，请参阅图5，所述装置例如还可以包括：

哈希码处理模块405，用于根据所述专业词数据库对各所述哈希码进行加维降维。

在一些具体的实施方式中，所述分词模块402可为根据预设词性库以及专业词数据库提取各所述文章中的目标词组；根据各所述文章对应的行业类型，对所述目标词组进行归一化处理，以生成各自对应的目标词集的模块。

在另外一些具体实施方式中，所述合并模块404可为将各所述目标文章间距离不大于预设距离阈值对应的目标文章选取出来，并向用户进行展示；接收用户对选取的目标文章相似度判断的指令，根据所述指令将目标文章进行合并的模块。

可选的，在本实施例的另一些实施方式中，请参阅图5，所述装置例如还可以包括：

存储模块406，用于将各所述哈希码保存至哈希服务器中。

在本实施例中的一些实施方式中，所述计算模块403可为获取各所述目标文章的发表时间；当判定两篇所述目标文章的发表时间不超过15天时，则将其选取出来的模块。

本发明实施例所述文章合并装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例利用预设词库以及专业词库对待合并文章进行分词，有利于准确获取相似文章的核心关键性，提高了对文章相似度判断的准确性；此外，从待合并文章中选取满足时间预设条件的目标文章进行比较相似度，可有效的避免由于使用模板而错把不同内容的文章进行合并，有利于提高文章合并的准确度，还有利于提高文章合并的速率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种文章合并方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种文章合并方法，其特征在于，包括：

获取多篇待合并的文章；

2.根据权利要求1所述的方法，其特征在于，在所述对各所述目标词集利用预设的算法求取哈希码之后还包括：

根据所述专业词数据库对各所述哈希码进行加维降维。

3.根据权利要求2所述的方法，其特征在于，所述对各所述目标词集利用预设的算法求取哈希码为：

调用simhash(test，64)对各所述目标词集求取64位哈希码。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述根据预设词性库以及专业词数据库对多篇所述文章进行分词，以获得各自的目标词集为：

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述各所述目标文章间的距离不大于预设距离阈值时，则将对应的目标文章进行合并包括：

将各所述目标文章间距离不大于所述预设距离阈值对应的目标文章选取出来，并向用户进行展示；

6.根据权利要求5所述的方法，其特征在于，所述第一预设函数为getDis函数。

7.根据权利要求6所述的方法，其特征在于，在所述对各所述目标词集利用预设的算法求取哈希码之后，还包括：

将各所述哈希码保存至哈希服务器中。

8.根据权利要求7所述的方法，其特征在于，所述选取满足预设时间条件的目标文章为：

获取各所述目标文章的发表时间；

9.根据权利要求8所述的方法，其特征在于，所述预设距离阈值为3.5。

10.一种文章合并装置，其特征在于，包括：

获取模块，用于获取多篇待合并的文章；