CN106909669A

CN106909669A - 一种推广信息的检测方法及装置

Info

Publication number: CN106909669A
Application number: CN201710113764.5A
Authority: CN
Inventors: 张德斌
Original assignee: Beijing Time Ltd By Share Ltd
Current assignee: Beijing time Ltd.
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-06-30
Anticipated expiration: 2037-02-28
Also published as: CN106909669B

Abstract

本发明公开了一种推广信息的检测方法及装置，其涉及文本过滤处理技术领域，该方法包括：获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元；统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元；针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元；根据已确定的推广特征单元检测文档中包含的推广信息。由此可见，本发明能够有效且准确地过滤广告信息或垃圾推广信息的效果，使得采用机器抓取方法也能提取到纯净的新闻内容，极大地提高了汇编自媒体平台新闻的效率。

Description

一种推广信息的检测方法及装置

技术领域

本发明涉及文本过滤处理技术领域，具体涉及一种推广信息的检测方法及装置。

背景技术

随着互联网技术的发展，自媒体时代已经到来。与传统新闻媒体不同，自媒体平台的新闻具有更好的及时性和来源的广泛性，且自媒体平台本身的开放性使得每一个平台用户既可以成为新闻的阅读者，也可以成为新闻的生产者和发布者。就目前的情况而言，越来越多的突发新闻通过微信、微博等自媒体平台得以及时发布，且人们也越来越***台获取自己感兴趣的新闻内容。与此同时，通过用户之间的相互转发，自媒体平台的新闻也得到了有效的传播。

但是，发明人在实现本发明的过程中，发现在现有技术中至少存在如下问题：为了汇编自媒体平台的新闻，方便用户阅读，可以采用机器抓取的方法搜集自媒体平台的新闻内容。但是，因为自媒体平台的新闻内容中往往夹杂有广告信息或者垃圾推广信息，所以采用现有技术进行新闻内容抓取时，无法准确地过滤广告信息或者垃圾推广信息，使得无法抓取到纯净的新闻内容。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的推广信息的检测方法及装置。

根据本发明的一个方面，提供了一种推广信息的检测方法，包括：获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元；统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元；针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元；根据已确定的推广特征单元检测文档中包含的推广信息。

根据本发明的另一方面，提供了一种推广信息的检测装置，包括：信息单元提取模块，用于获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元；候选单元确定模块，用于统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元；推广单元确定模块，用于针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元；检测模块，用于根据已确定的推广特征单元检测文档中包含的推广信息。

由此可见，本发明提供了一种推广信息的检测方法及装置，通过提取预设样本集合中的信息单元，并根据信息单元在样本集合中的出现次数来确定信息单元中的候选特征单元，然后根据候选特征单元在各个文档中位置的分布情况确定候选特征单元中的推广特征单元，最后根据筛选出的推广特征单元检测目标文档中包含的推广信息，从而实现了在采用机器抓取方法提取自媒体平台新闻的过程中有效且准确过滤广告信息或垃圾推广信息的效果，使得采用机器抓取方法也能提取到纯净的新闻内容，极大地提高了汇编自媒体平台新闻的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一提供的一种推广信息的检测方法的流程图；

图2为本发明实施例二提供的一种推广信息的检测方法的流程图；

图3为本发明实施例三提供的一种推广信息的检测装置的结构示意图；

图4为本发明实施例四提供的一种推广信息的检测装置的结构示意图；

图5为本发明实施例中与时间相关联的候选特征单元在文档中的位置分布情况直方图；

图6为本发明实施例中与广告信息或垃圾推广信息关联的候选特征单元在文档中的位置分布情况直方图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明提供的一种推广信息的检测方法，该方法包括：

步骤S110：获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元。

为了方便计算机对样本新闻内容进行识别，首先需要根据一定的规则，对预设的包含广告信息或垃圾推广信息的样本新闻内容进行分割，并从中提取出各个样本所包含的信息单元。其中，预设的样本集合是指包含广告信息或垃圾推广信息并且具有一定代表性的自媒体新闻内容，该样本集合一般由本领域技术人员根据经验进行选择和设定。而上述的信息单元是组成样本新闻内容的基础单元，其形式一般可以是样本新闻内容被分割后产生的特征短语，也可以是具有一定特征的字词。对于预设样本集合的具体设定规则和上述信息单元的具体形式，本发明不作具体限定，本领域技术人员可以根据实际情况灵活设定。

步骤S120：统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元。

因为广告信息和垃圾推广信息是每个自媒体平台的每个新闻发布者刻意重复的信息，因此，来自同一个新闻发布者的不同新闻内容中一般包含相同的广告信息或垃圾推广信息。对步骤S110提取出的信息单元进行在样本集合中出现次数的统计，当某个信息单元的出现次数超过预设的第一阈值时，说明该信息单元有极大的嫌疑属于广告信息或垃圾推广信息，因此，将该信息单元确定为候选特征单元。

其中，预设的第一阈值是根据广告信息或垃圾推广信息在来自同一个新闻发布者的样本新闻内容中重复次数的总体情况确定的，当某个信息单元高于该重复次数时，就将该信息单元确定为具有广告信息或垃圾推广信息嫌疑的候选特征单元。该第一阈值的具体确定规则，本发明不作具体限定，本领域技术人员可以根据试验数据和经验灵活确定。

步骤S130：针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元。

通过步骤S120的初步筛选后，大部分包含广告信息或垃圾推广信息的信息单元都会被确定为候选特征单元，但是某些重复次数超过第一阈值的包含正常新闻内容的信息单元也会被确定为候选特征单元。

本发明的发明人通过大量试验和反复比较发现，包含正常新闻内容的候选特征单元因为是新闻发布者非刻意重复的内容，所以在样本中的位置分布情况一般会比较均匀；而包含广告信息或垃圾推广信息的候选特征单元属于新闻发布者刻意重复的内容，所以在样本中的位置分布情况会比较集中。根据这一发现，本发明采用候选特征单元在样本中的位置分布情况来对候选特征单元进行进一步的筛选，将位置分布比较集中的候选特征单元确定为推广特征单元。

步骤S140：根据已确定的推广特征单元检测文档中包含的推广信息。

通过上述步骤的处理，可以得到从预设的样本集合中归纳提取出的推广特征单元，然后通过上述推广特征单元对机器抓取方法获得的待检测文档进行识别，从而有效地筛选出待监测文档中包含的对应的推广信息，最后从待检测文档中去除筛选出的推广信息，就可以得到相对纯净的新闻内容。

由此可见，本发明提供的一种推广信息的检测方法，通过提取预设样本集合中的信息单元，并根据信息单元在样本集合中的出现次数来确定信息单元中的候选特征单元，然后根据候选特征单元在各个文档中位置的分布情况确定候选特征单元中的推广特征单元，最后根据筛选出的推广特征单元检测目标文档中包含的推广信息，从而实现了在采用机器抓取方法提取自媒体平台新闻的过程中有效且准确过滤广告信息或垃圾推广信息的效果，使得采用机器抓取方法也能提取到纯净的新闻内容，极大地提高了自媒体平台新闻汇编的效率。

实施例二

图2示出了本发明提供的一种推广信息的检测方法，该方法包括：

步骤S210：获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元。

为了方便计算机对样本新闻内容进行识别，首先需要根据一定的规则，对预设的包含广告信息或垃圾推广信息的样本新闻内容进行分割，并从中提取出各个样本所包含的信息单元。因为存在同一篇新闻被重复多次的情况，所以在获取预设的样本集合前进行消重处理，可以有效减少获取样本集合的计算量，提高获取效率，故获取预设的样本集合的步骤具体包括对多个候选样本进行消重处理，根据消重处理后的候选样本得到样本集合。

具体的消重处理包括计算各个候选样本的标题之间的相似度，针对标题之间的相似度大于预设的相似度阈值的候选样本进行消重；针对标题之间的相似度不大于预设的相似度阈值的候选样本，查询各个候选样本对应的关键词集合，若两个候选样本所对应的关键词集合中包含的相同关键词的数量大于预设的数量阈值，则针对两个候选样本进行消重。其中，优选地，通过最大公共子序列算法计算各个候选样本的标题之间的相似度，且各个候选样本所对应的关键词集合根据对候选样本进行分词处理后得到的各个词汇的逆向文件频率(IDF)确定，上述数量阈值根据杰卡德相似度算法确定。

为了方便理解上述内容，下面以一个具体例子来详细阐述消重处理过程：1、对所有样本文章的标题和正文内容进行中文分词和去停用词操作；2、以分布式计算方式统计每篇样本文章中的各个词的词频(TF)并计算对应的逆向文件频率(IDF)，之后计算每个词的TF*IDF分数；3、提取标题分词结果中的前20个词(该关键词数量仅为本具体例子中的具体取值，在其他实施例中，本领域技术人员可以根据实际情况设定该关键词数量)，构成关键词集合，当标题分词结果少于20个词时，余下关键词由正文中TF*IDF分数从高到低排列结果中的高分词依次补充；4、用所有文章的关键词集合建立分桶(Bucket Table，是一种更为细粒度的数据范围划分方式，分桶可以给表加上额外的结构，使处理查询操作时可以利用该结构，从而获得更高的查询处理效率)，其中，每个桶的主键是关键词集合中的一个唯一的关键词，这样桶内的文章才有可能是相似的；5、在计算每篇文章的相似度时，先找到该篇文章对应的20个分桶(因为每个分桶对应于一个关键词，由于每篇文章具有20个关键词，所以，每篇文章对应于20个分桶)，然后利用最大公共子序列算法对该篇文章和桶内所有文章的标题进行相似度计算，当标题相似度超过0.75(0.75为本具体例子中预设的相似度阈值，该阈值由本领域技术人员根据实际情况设定)时，即判定两篇文章为内容相同的样本文章，进行消重操作；6、当标题相似度不大于0.75时，两两比较每篇文章中20个关键词的相似度，当相似的关键词数量超过16个(16为本具体例子中通过杰卡德相似度算法确定的预设的数量阈值，即各自20个词，相同的词数量为x，杰卡德相似度为x/(20-x+20-x+x)＝0.66，所以为16)时，即可判定两篇文章为内容相同的样本文字，进行消重操作。

上述的具体例子中，在比较两两文章相似度时，先比较标题相似度，再比较关键词相似度，是因为一方面标题的计算量小，运算速度快，同时通常情况下，内容相似的文章标题大部分都是相似的；另一方面，如果只用关键词进行相似度比较，或者只用标题进行相似度比较，会存在比较瓶颈，比较结果不够准确，因此，本发明采用先比较标题后比较关键词的方式计算相似度，两种方式相辅相成，互为补充。

在实现本发明的过程中发明人发现，通过关键词集合建立分桶可以有效减小数据计算量。当不建立分桶直接计算关键词相似度时，算法复杂度为O(n^2)，其中n为样本文章总数，当根据关键词建立分桶时，算法复杂度为O(k*m^2)，其中k为样本关键词总数，m为每个关键词分桶下文章的平均数，k<<n且m<<n，当n为一亿时(即样本文章数量为一亿时)，对应的k只有几万，因此建立分桶后的算法复杂度更低。同时，因为每个分桶的主键为关键词集合中一个唯一的关键词，因此在同一分桶内的文章才可能具有相似性，不在同一分桶内的文章必然没有任何相似的关键词，可以直接予以排除，进一步减小了计算量。另外，因为只要两两文章的关键词相似度超过预设数量阈值即可判定为相似文章并停止计算而后进行消重处理，采用建立分桶的方式可以更快更早的找到相似文章，提前停止计算，即采用建立分桶方式的算法更容易倾向于最优复杂度，而非最大复杂度O(k*m^2)。

在实现本发明的过程中发明人还发现，在计算关键词的杰卡德相似度时，可以采用一种数据结构，以空间换时间，优化计算速度：首先构建一个大小为65536位的索引(因为根据中文编码规则，65536个位可以表示所有中文汉字)，将每篇文章的关键词集合中的每一个词的首字作为索引位置的序号，其他字作为该索引位置的属性值，每一个父索引可以有多个子索引，每个子索引有一个属性值表示该父索引属于哪一篇文章(此处子索引的属性值采用一个二进制数表示，即有M篇文章该二进制数就有M位，该父索引属于哪一篇文章，那一篇文章对应的二进制位为1)。当需要计算两两文章的关键词相似度时，不再需要两两计算，而是只要在同一分桶的关键词数据结构中查找重复的词。使用一个同样M位的数组(数组的每一位对应一篇文章，即M篇文章对应M位数组)，该数组中各个位数的初始值均为0，将同一父索引下的所有子索引进行比较，如果存在相似的子索引，取出该子索引中表示从属于文章的二进制数，然后在对应文章的数组位置加1，并判断该数组中每一位数值是否大于16(即上文所述的预设的数量阈值)，当数组的某一位数值大于16时，即说明该数值对应的文章为相似文章，可以停止计算并进行消重处理。以前需要两组20个词一一比较，那么一个分桶内M篇文章最差需要计算M*400次；改进后，只需要快速查询20次，比较20个父索引下的子索引是否有相似的，此时最差只需查询20*M次，而实际情况下，每个父索引下的子索引数量远小于M，所以计算量也会成倍数地减小，这种算法能够更早更快地找到重复文章。

在完成上述消重处理后，提取样本集合中的各个样本所包含的信息单元。具体地，在本实施例中，可以通过标点符号和换行空白对文章内容进行分割，从而得到样本中的信息单元。例如“按住二维码‘识别’关注，更多惊喜等着你哦”可以分割得到两个信息单元，分别为“按住二维码‘识别’关注”和“更多惊喜等着你哦”。在其他实施例中，也可以采用其他规则对文章内容进行分割提取信息单元，本发明对此不作具体限定，本领域技术人员可以灵活设定。

步骤S220：统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元。

在实现本发明的过程中，本发明人发现，通过对历史数据的分析可知，每个新闻发布者在一段时间内发布的文章中包含的广告信息或垃圾推广信息基本是相同的，那么与广告信息或垃圾推广信息关联的信息单元也必然是高频重复的。通过大量统计分析可以得出与广告信息或垃圾推广信息关联的信息单元与普通信息单元相区别的重复次数的临界值，该临界值即上述预设的第一阈值。通过该预设的第一阈值对所有的信息单元进行筛选，将出现次数大于该预设的第一阈值的信息单元确定为候选特征单元。

但是因为预设的第一阈值是经验阈值，并不能滤除掉所有的正常重复内容，所以后面考虑正常重复的新闻短语的位置分布和广告短语的位置分布特点，采用L0范数约束，更精确的滤除掉正常内容，得到准确的新闻广告短语和位置分布重复次数等权重，最后用这些数据构建新闻推广信息识别模型。

步骤S230：针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元。

通过步骤S220的筛选，可以粗略筛选掉大部分的正常内容的信息单元，但是余下的信息单元(即候选特征单元)中，除了与广告信息或垃圾推广信息关联的信息单元，还可能存在正常新闻中包含的与时间相关联的信息单元。发明人通过统计分析发现，在候选特征单元中，与时间相关联的候选特征单元因为并非人为刻意重复的内容，所以在文档中的位置分布情况比较均匀(如图5所示)；而与广告信息或垃圾推广信息关联的候选特征单元是人为刻意重复的内容，所以在文档中的位置分布情况比较集中(如图6所示)。因此，通过统计候选特征单元在各个文档位置的分布情况可以有效的进一步筛选出推广特征单元。

具体地，可以通过分布的L0范数约束进行进一步筛选。首先，根据预设的位置划分规则将文档内容划分为多个文档位置，其中，预设的位置划分规则包括基于段落粒度的划分规则、以及基于句子粒度的划分规则；然后，设置用于表示该候选特征单元在各个文档位置的分布情况的向量，其中，向量中的各个元素分别对应于各个文档位置；若该候选特征单元在指定文档位置的分布数量大于预设的分布阈值，则该指定文档位置所对应的元素的元素值非零，若该候选特征单元在指定文档位置的分布数量不大于预设的分布阈值，则该指定文档位置所对应的元素的元素值为零，其中，候选特征单元在指定文档位置的分布数量包括候选特征单元在指定文档位置的出现次数、和/或出现概率；最后，当向量中非零元素的个数大于预设的元素阈值时，确定该候选特征单元为推广特征单元。

在实现本发明的过程中，发明人考虑过四种位置划分规则，分别是段落粒度分布百分比、句子粒度分布百分比、段落粒度正负排序和句子粒度正负排序。通过大量试验，发明人发现类似公众号文章，推广信息主要集中在文章头部或尾部；不同内容文章，段落或句子总量是多态的，同样出现在第一段或最后几段，百分比会有很大差异；同样的尾部推广信息，内容如果相似，那么段落数几乎一致；尾部推广信息常常喜欢用非常短的段落，在这种情况下，采用段落粒度正负排序规则的效果最佳。在具体应用中，因为信息发布者常常将推广信息放置在文章开头醒目位置(即第一段的前几句)或者集中排版在文章的尾部。由此，同一编辑排版的两篇文章，推广信息的位置如果在文章头部(例如第一段)，则候选特征单元位置分布情况可以采用正向排序计数，即集中于第一段可以记为+1；同理，当编辑***而已)。由此可见，在本实施例中，采用段落粒度正负排序规则能够进一步提升准确率。

上述预设的分布阈值和预设的元素阈值均需要通过大量试验确定，具体而言，需要分别取不同的分布阈值和元素阈值，并比较不同取值时，正常内容对应的候选特征单元与广告信息对应的候选特征单元的分离效果，最后将分离效果最好的取值确定为预设的分布阈值和预设的元素阈值。在本发明实施过程中，发明人通过大量试验发现，当步骤S220中的预设的第一阈值为20时，预设的分布阈值为10，预设的元素阈值为3时，正常内容对应的候选特征单元与广告信息对应的候选特征单元的分离效果最佳。此时，当一个候选特征单元在文章中某位置的出现次数超过10时，该位置对应的向量元素值不为0，反之，该位置为0。这样就得到不同候选特征单元对应的映射(x<10,y＝0；x>10,y＝x)的L0范数值n，n是向量y0，y1…yi，中不为0的个数。当n>＝3(即元素阈值为3)时，判定该候选特征单元为推广特征单元。

步骤S240：根据已确定的推广特征单元检测文档中包含的推广信息。

具体地，根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型，根据文档检测模型检测文档中包含的推广信息。

其中，根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型的步骤具体包括根据已确定的推广特征单元及其在各个文档位置的出现概率以及预设的位置权重，设置文档检测模型中包含的模型参数以及各个模型参数所对应的权重值。上述的出现概率的计算公式为p＝k/n，其中n是该推广特征单元在文档中出现的总次数，k是该推广特征单元在该位置出现的次数。因为广告信息或垃圾推广信息常常出现在文章的特定位置，所以需要对推广特征单元在文档中出现的不同位置赋予不同的位置权值，需要注意的是，具体的位置权重需要通过大量试验确定，且广告信息或垃圾推广信息常常出现的特定位置的位置权重应该要高于文中其他位置的位置权重，这样才能减少误删正常内容的概率。

其中，根据文档检测模型检测文档中包含的推广信息的步骤具体包括从待检测的文档所包含的各个信息单元中查找与文档检测模型中包含的模型参数相匹配的信息单元；针对查找到的每个信息单元，根据该信息单元在所述待检测的文档中的文档位置和/或与该信息单元相匹配的模型参数的权重值，确定该信息单元的分值，根据分值确定该信息单元是否为推广信息。上述分值的计算公式为信息单元在各个文档位置的出现概率乘以预设的位置权重，因为广告信息或垃圾推广信息常常出现的特定位置对应的位置权重较高，因此，最后分数较高的信息单元极有可能是推广信息。

步骤S250：根据检测到的推广信息所在的文档位置，对文档进行删减。

其中，当检测到的推广信息所在的文档位置属于文档的首部时，对所述推广信息及其之前的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的尾部时，对所述推广信息及其之后的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的中部时，对所述推广信息所在的语句进行删减。通过上述的删减操作，可以有效去除机器抓取的新闻内容中包含的广告信息或垃圾推广信息，从而获取到纯净的新闻内容，方便了对自媒体平台新闻的汇编。

步骤S260：根据检测到的文档中包含的推广信息更新文档检测模型。

其中，文档检测模型包括深度学习模型，尤其可以采用深度学习模型中的卷积神经网络模型，在具体应用中，还可以根据每一次的推广信息实际检测结果，对该卷积神经网络模型进行反馈，从而不断更新文档检测模型，使其能够不断提高识别准确性，提高推广信息的识别效率。

由此可见，本发明提供的一种推广信息的检测方法，先通过对样本数据进行消重处理，简化了本方法的一定运算量，然后通过提取预设样本集合中的信息单元，并根据信息单元在样本集合中的出现次数来确定信息单元中的候选特征单元，然后根据候选特征单元在各个文档中位置的分布情况，采用L0范数约束算法，从而确定候选特征单元中的推广特征单元，最后根据筛选出的推广特征单元建立文档检测模型，并利用该文档检测模型对检测目标文档中包含的推广信息进行检测，从而获取到目标文档中的推广信息。利用获取到的推广信息，可以对机器抓取到的目标文档进行删减，以获得纯净的新闻内容，从而方便自媒体平台的新闻汇编工作。而且当文档检测模型采用深度学习模型时，还可以将每一次的推广信息实际检测结果反馈给文档检测模型，使该模型能不断学习不断更新，以适应发展，提高推广信息的准确性。

实施例三

图3示出了本发明提供的一种推广信息的检测装置，该装置包括：信息单元提取模块310、候选单元确定模块320、推广单元确定模块330和检测模块340。

信息单元提取模块310，用于获取预设的样本集合，提取样本集合中的各个样本所包含的信息单元。

为了方便检测装置对样本新闻内容进行识别，信息单元提取模块310首先需要根据一定的规则，对预设的包含广告信息或垃圾推广信息的样本新闻内容进行分割，并从中提取出各个样本所包含的信息单元。其中，预设的样本集合是指包含广告信息或垃圾推广信息并且具有一定代表性的自媒体新闻内容，该样本集合一般由本领域技术人员根据经验进行选择和设定。而上述的信息单元是组成样本新闻内容的基础单元，其形式一般可以是样本新闻内容被分割后产生的特征短语，也可以是具有一定特征的字词。对于预设样本集合的具体设定规则和上述信息单元的具体形式，本发明不作具体限定，本领域技术人员可以根据实际情况灵活设定。

候选单元确定模块320，用于统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元。

因为广告信息和垃圾推广信息是每个自媒体平台的每个新闻发布者刻意重复的信息，因此，来自同一个新闻发布者的不同新闻内容中一般包含相同的广告信息或垃圾推广信息。候选单元确定模块320对信息单元提取模块310提取出的信息单元进行在样本集合中出现次数的统计，当某个信息单元的出现次数超过预设的第一阈值时，说明该信息单元有极大的嫌疑属于广告信息或垃圾推广信息，因此，将该信息单元确定为候选特征单元。

推广单元确定模块330，用于针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元。

通过候选单元确定模块320的初步筛选后，大部分包含广告信息或垃圾推广信息的信息单元都会被确定为候选特征单元，但是某些重复次数超过第一阈值的包含正常新闻内容的信息单元也会被确定为候选特征单元。

本发明的发明人通过大量试验和反复比较发现，包含正常新闻内容的候选特征单元因为是新闻发布者非刻意重复的内容，所以在样本中的位置分布情况一般会比较均匀；而包含广告信息或垃圾推广信息的候选特征单元属于新闻发布者刻意重复的内容，所以在样本中的位置分布情况会比较集中。根据这一发现，推广单元确定模块330采用候选特征单元在样本中的位置分布情况来对候选特征单元进行进一步的筛选，将位置分布比较集中的候选特征单元确定为推广特征单元。

检测模块340，用于根据已确定的推广特征单元检测文档中包含的推广信息。

通过推广单元确定模块330的处理，可以得到从预设的样本集合中归纳提取出的推广特征单元，然后检测模块340通过上述推广特征单元对机器抓取方法获得的待检测文档进行识别，从而有效地筛选出待监测文档中包含的对应的推广信息，最后从待检测文档中去除筛选出的推广信息，就可以得到相对纯净的新闻内容。

关于上述各个模块的具体结构和工作原理可参照方法实施例中相应部分的描述，此处不再赘述。

由此可见，本发明提供的一种推广信息的检测装置，通过提取预设样本集合中的信息单元，并根据信息单元在样本集合中的出现次数来确定信息单元中的候选特征单元，然后根据候选特征单元在各个文档中位置的分布情况确定候选特征单元中的推广特征单元，最后根据筛选出的推广特征单元检测目标文档中包含的推广信息，从而实现了在采用机器抓取方法提取自媒体平台新闻的过程中有效且准确过滤广告信息或垃圾推广信息的效果，使得采用机器抓取方法也能提取到纯净的新闻内容，极大地提高了自媒体平台新闻汇编的效率。

实施例四

图4示出了本发明提供的一种推广信息的检测装置，该装置包括：信息单元提取模块410、候选单元确定模块420、推广单元确定模块430、检测模块440、更新模块450和删减模块460，其中，推广单元确定模块430进一步包括向量子模块431、确定子模块432和文档划分子模块433。

信息单元提取模块410，用于用于获取预设的样本集合，提取所述样本集合中的各个样本所包含的信息单元。

为了方便检测装置对样本新闻内容进行识别，首先需要根据一定的规则，对预设的包含广告信息或垃圾推广信息的样本新闻内容进行分割，并从中提取出各个样本所包含的信息单元。因为存在同一篇新闻被重复多次的情况，所以在获取预设的样本集合前进行消重处理，可以有效减少获取样本集合的计算量，提高获取效率，故信息单元提取模块410需要对多个候选样本进行消重处理，根据消重处理后的候选样本得到样本集合。

具体而言，信息单元提取模块410需要计算各个候选样本的标题之间的相似度，针对标题之间的相似度大于预设的相似度阈值的候选样本进行消重；针对标题之间的相似度不大于预设的相似度阈值的候选样本，查询各个候选样本对应的关键词集合，若两个候选样本所对应的关键词集合中包含的相同关键词的数量大于预设的数量阈值，则针对两个候选样本进行消重。其中，优选地，通过最大公共子序列算法计算各个候选样本的标题之间的相似度，且各个候选样本所对应的关键词集合根据对候选样本进行分词处理后得到的各个词汇的逆向文件频率(IDF)确定，上述数量阈值根据杰卡德相似度算法确定。

在完成上述消重处理后，信息单元提取模块410提取样本集合中的各个样本所包含的信息单元。具体地，在本实施例中，可以通过标点符号和换行空白对文章内容进行分割，从而得到样本中的信息单元。例如“按住二维码‘识别’关注，更多惊喜等着你哦”可以分割得到两个信息单元，分别为“按住二维码‘识别’关注”和“更多惊喜等着你哦”。在其他实施例中，也可以采用其他规则对文章内容进行分割提取信息单元，本发明对此不作具体限定，本领域技术人员可以灵活设定。

候选单元确定模块420，用于统计每个信息单元在样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元。

在实现本发明的过程中，本发明人发现，通过对历史数据的分析可知，每个新闻发布者在一段时间内发布的文章中包含的广告信息或垃圾推广信息基本是相同的，那么与广告信息或垃圾推广信息关联的信息单元也必然是高频重复的。通过大量统计分析可以得出与广告信息或垃圾推广信息关联的信息单元与普通信息单元相区别的重复次数的临界值，该临界值即上述预设的第一阈值。候选单元确定模块420通过该预设的第一阈值对所有的信息单元进行筛选，将出现次数大于该预设的第一阈值的信息单元确定为候选特征单元。

推广单元确定模块430，用于针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元。

通过候选单元确定模块420的筛选，可以粗略筛选掉大部分的正常内容的信息单元，但是余下的信息单元(即候选特征单元)中，除了与广告信息或垃圾推广信息关联的信息单元，还可能存在正常新闻中包含的与时间相关联的信息单元。发明人通过统计分析发现，在候选特征单元中，与时间相关联的候选特征单元因为并非人为刻意重复的内容，所以在文档中的位置分布情况比较均匀(如图5所示)；而与广告信息或垃圾推广信息关联的候选特征单元是人为刻意重复的内容，所以在文档中的位置分布情况比较集中(如图6所示)。因此，通过统计候选特征单元在各个文档位置的分布情况可以有效的进一步筛选出推广特征单元。

具体地，推广单元确定模块430包括向量子模块431、确定子模块432和文档划分子模块433，其中，向量子模块431用于设置用于表示该候选特征单元在各个文档位置的分布情况的向量；其中，向量中的各个元素分别对应于各个文档位置；若该候选特征单元在指定文档位置的分布数量大于预设的分布阈值，则该指定文档位置所对应的元素的元素值非零；若该候选特征单元在指定文档位置的分布数量不大于预设的分布阈值，则该指定文档位置所对应的元素的元素值为零；确定子模块432用于当向量中非零元素的个数大于预设的元素阈值时，确定该候选特征单元为推广特征单元；文档划分子模块433用于根据预设的位置划分规则将文档内容划分为多个文档位置；其中，上述的预设的位置划分规则包括：基于段落粒度的划分规则、以及基于句子粒度的划分规则；且上述候选特征单元在指定文档位置的分布数量包括：候选特征单元在指定文档位置的出现次数、和/或出现概率。

检测模块440，用于根据已确定的推广特征单元检测文档中包含的推广信息。

具体地，检测模块440需要根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型，根据文档检测模型检测文档中包含的推广信息。进一步地，检测模块440需要根据已确定的推广特征单元及其在各个文档位置的出现概率以及预设的位置权重，设置文档检测模型中包含的模型参数以及各个模型参数所对应的权重值；然后从待检测的文档所包含的各个信息单元中查找与文档检测模型中包含的模型参数相匹配的信息单元；针对查找到的每个信息单元，根据该信息单元在待检测的文档中的文档位置和/或与该信息单元相匹配的模型参数的权重值，确定该信息单元的分值，根据分值确定该信息单元是否为推广信息。

本发明可以包括更新模块450，用于根据检测到的文档中包含的推广信息更新文档检测模型。其中，文档检测模型包括深度学习模型，尤其可以采用深度学习模型中的卷积神经网络模型，在具体应用中，更新模块450还可以根据每一次的推广信息实际检测结果，对该卷积神经网络模型进行反馈，从而不断更新文档检测模型，使其能够不断提高识别准确性，提高推广信息的识别效率。

本发明还可以包括删减模块460，用于根据检测到的推广信息所在的文档位置，对文档进行删减。其中，当检测到的推广信息所在的文档位置属于文档的首部时，对所述推广信息及其之前的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的尾部时，对所述推广信息及其之后的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的中部时，对所述推广信息所在的语句进行删减。通过删减模块460，可以有效去除机器抓取的新闻内容中包含的广告信息或垃圾推广信息，从而获取到纯净的新闻内容，方便了对自媒体平台新闻的汇编。

由此可见，本发明提供的一种推广信息的检测装置，先通过对样本数据进行消重处理，简化了本方法的一定运算量，然后通过提取预设样本集合中的信息单元，并根据信息单元在样本集合中的出现次数来确定信息单元中的候选特征单元，然后根据候选特征单元在各个文档中位置的分布情况，采用L0范数约束算法，从而确定候选特征单元中的推广特征单元，最后根据筛选出的推广特征单元建立文档检测模型，并利用该文档检测模型对检测目标文档中包含的推广信息进行检测，从而获取到目标文档中的推广信息。利用获取到的推广信息，可以对机器抓取到的目标文档进行删减，以获得纯净的新闻内容，从而方便自媒体平台的新闻汇编工作。而且当文档检测模型采用深度学习模型时，还可以将每一次的推广信息实际检测结果反馈给文档检测模型，使该模型能不断学习不断更新，以适应发展，提高推广信息的准确性。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的推广信息的检测装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种推广信息的检测方法，包括：

获取预设的样本集合，提取所述样本集合中的各个样本所包含的信息单元；

统计每个信息单元在所述样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元；

针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元；

根据已确定的推广特征单元检测文档中包含的推广信息。

A2.根据A1所述的方法，其中，所述分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元的步骤具体包括：

设置用于表示该候选特征单元在各个文档位置的分布情况的向量；其中，所述向量中的各个元素分别对应于各个文档位置；

若该候选特征单元在指定文档位置的分布数量大于预设的分布阈值，则该指定文档位置所对应的元素的元素值非零；若该候选特征单元在指定文档位置的分布数量不大于预设的分布阈值，则该指定文档位置所对应的元素的元素值为零；

当所述向量中非零元素的个数大于预设的元素阈值时，确定该候选特征单元为推广特征单元。

A3.根据A2所述的方法，其中，所述设置用于表示该候选特征单元在各个文档位置的分布情况的向量的步骤之前，进一步包括步骤：根据预设的位置划分规则将文档内容划分为多个文档位置；其中，所述预设的位置划分规则包括：基于段落粒度的划分规则、以及基于句子粒度的划分规则；

且所述候选特征单元在指定文档位置的分布数量包括：所述候选特征单元在指定文档位置的出现次数、和/或出现概率。

A4.根据A1-A3任一所述的方法，其中，所述获取预设的样本集合的步骤具体包括：

对多个候选样本进行消重处理，根据消重处理后的候选样本得到所述样本集合。

A5.根据A4所述的方法，其中，所述对多个候选样本进行消重处理的步骤具体包括：

计算各个候选样本的标题之间的相似度，针对标题之间的相似度大于预设的相似度阈值的候选样本进行消重；

针对标题之间的相似度不大于预设的相似度阈值的候选样本，查询各个候选样本所对应的关键词集合，若两个候选样本所对应的关键词集合中包含的相同关键词的数量大于预设的数量阈值，则针对所述两个候选样本进行消重。

A6.根据A5所述的方法，其中，所述计算各个候选样本的标题之间的相似度的步骤具体包括：通过最大公共子序列算法计算各个候选样本的标题之间的相似度；

且各个候选样本所对应的关键词集合根据对候选样本进行分词处理后得到的各个词汇的逆向文件频率确定；所述数量阈值根据杰卡德相似度算法确定。

A7.根据A1-A6任一所述的方法，其中，所述根据已确定的推广特征单元检测文档中包含的推广信息的步骤具体包括：

根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型，根据所述文档检测模型检测文档中包含的推广信息。

A8.根据A7所述的方法，其中，所述根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型的步骤具体包括：

根据所述已确定的推广特征单元及其在各个文档位置的出现概率以及预设的位置权重，设置所述文档检测模型中包含的模型参数以及各个模型参数所对应的权重值。

A9.根据A8所述的方法，其中，所述根据所述文档检测模型检测文档中包含的推广信息的步骤具体包括：

从待检测的文档所包含的各个信息单元中查找与所述文档检测模型中包含的模型参数相匹配的信息单元；

针对查找到的每个信息单元，根据该信息单元在所述待检测的文档中的文档位置和/或与该信息单元相匹配的模型参数的权重值，确定该信息单元的分值，根据分值确定该信息单元是否为推广信息。

A10.根据A8或A9所述的方法，其中，所述方法进一步包括步骤：根据检测到的文档中包含的推广信息更新所述文档检测模型；其中，所述文档检测模型包括：深度学习模型。

A11.根据A1-A10任一所述的方法，其中，所述根据已确定的推广特征单元检测文档中包含的推广信息的步骤之后，进一步包括步骤：

根据检测到的推广信息所在的文档位置，对所述文档进行删减；

其中，当检测到的推广信息所在的文档位置属于文档的首部时，对所述推广信息及其之前的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的尾部时，对所述推广信息及其之后的段落内容进行删减；当检测到的推广信息所在的文档位置属于文档的中部时，对所述推广信息所在的语句进行删减。

本发明还公开了：B12.一种推广信息的检测装置，包括：

信息单元提取模块，用于获取预设的样本集合，提取所述样本集合中的各个样本所包含的信息单元；

候选单元确定模块，用于统计每个信息单元在所述样本集合中的出现次数，将出现次数大于预设的第一阈值的信息单元确定为候选特征单元；

推广单元确定模块，用于针对每个候选特征单元，分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元；

检测模块，用于根据已确定的推广特征单元检测文档中包含的推广信息。

B13.根据B12所述的装置，其中，所述推广单元确定模块具体包括：

向量子模块，用于设置用于表示该候选特征单元在各个文档位置的分布情况的向量；其中，所述向量中的各个元素分别对应于各个文档位置；若该候选特征单元在指定文档位置的分布数量大于预设的分布阈值，则该指定文档位置所对应的元素的元素值非零；若该候选特征单元在指定文档位置的分布数量不大于预设的分布阈值，则该指定文档位置所对应的元素的元素值为零；

确定子模块，用于当所述向量中非零元素的个数大于预设的元素阈值时，确定该候选特征单元为推广特征单元。

B14.根据B13所述的装置，其中，所述推广单元确定模块进一步包括：

文档划分子模块，用于根据预设的位置划分规则将文档内容划分为多个文档位置；

其中，所述预设的位置划分规则包括：基于段落粒度的划分规则、以及基于句子粒度的划分规则；且所述候选特征单元在指定文档位置的分布数量包括：所述候选特征单元在指定文档位置的出现次数、和/或出现概率。

B15.根据B12-B14任一所述的装置，其中，所述信息单元提取模块进一步用于：

B16.根据B15所述的装置，其中，所述信息单元提取模块具体用于：

B17.根据B16所述的装置，其中，所述信息单元提取模块具体用于：通过最大公共子序列算法计算各个候选样本的标题之间的相似度；

B18.根据B12-B18任一所述的装置，其中，所述检测模块具体用于：

B19.根据B18所述的装置，其中，所述检测模块具体用于：

B20.根据B19所述的装置，其中，所述检测模块具体用于：

B21.根据B19或B20所述的装置，其中，所述装置进一步包括：

更新模块，用于根据检测到的文档中包含的推广信息更新所述文档检测模型；其中，所述文档检测模型包括：深度学习模型。

B22.根据B12-B21任一所述的装置，其中，所述装置进一步包括：

删减模块，用于根据检测到的推广信息所在的文档位置，对所述文档进行删减；

Claims

1.一种推广信息的检测方法，包括：

根据已确定的推广特征单元检测文档中包含的推广信息。

2.根据权利要求1所述的方法，其中，所述分别统计该候选特征单元在各个文档位置的分布情况，根据统计结果确定该候选特征单元是否为推广特征单元的步骤具体包括：

3.根据权利要求2所述的方法，其中，所述设置用于表示该候选特征单元在各个文档位置的分布情况的向量的步骤之前，进一步包括步骤：根据预设的位置划分规则将文档内容划分为多个文档位置；其中，所述预设的位置划分规则包括：基于段落粒度的划分规则、以及基于句子粒度的划分规则；

4.根据权利要求1-3任一所述的方法，其中，所述获取预设的样本集合的步骤具体包括：

5.根据权利要求4所述的方法，其中，所述对多个候选样本进行消重处理的步骤具体包括：

6.根据权利要求5所述的方法，其中，所述计算各个候选样本的标题之间的相似度的步骤具体包括：通过最大公共子序列算法计算各个候选样本的标题之间的相似度；

7.根据权利要求1-6任一所述的方法，其中，所述根据已确定的推广特征单元检测文档中包含的推广信息的步骤具体包括：

8.根据权利要求7所述的方法，其中，所述根据已确定的推广特征单元及其在各个文档位置的分布情况，设置对应的文档检测模型的步骤具体包括：

9.根据权利要求8所述的方法，其中，所述根据所述文档检测模型检测文档中包含的推广信息的步骤具体包括：

10.一种推广信息的检测装置，包括：