CN111259218B

CN111259218B - 一种原创新闻信息识别方法

Info

Publication number: CN111259218B
Application number: CN202010022507.2A
Authority: CN
Inventors: 高山; 汪高翔
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-10-27
Anticipated expiration: 2040-01-09
Also published as: CN111259218A

Abstract

本发明公开了一种原创新闻信息识别方法，包括如下步骤，S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；S2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；S3、计算每个目标新闻网页的SimHash；S4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；S5、分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻。优点是：对新闻页面进行准确的分类和抽取，增加了文本的价值性；通过SimHash算法，对分词后的新闻页面进行计算和聚合，对相似新闻进行原创新闻算法的比较和识别，提高了识别的效率，减少了干扰项。

Description

一种原创新闻信息识别方法

技术领域

本发明涉及新闻信息识别领域，尤其涉及一种原创新闻信息识别方法。

背景技术

近年来，网络新闻快速发展，网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。相比于传统媒体新闻，网络新闻具有快速、灵活、便捷等优点。正是这些优点，让网络原创新闻如何在假新闻、机器自动生成新闻以及转载新闻中得到保护显得尤为迫切和重要。利用一定的提取识别技术自动地对大量新闻进行爬取，在保证新闻覆盖面的同时，如何有效快速的进行原创新闻的筛选，准确的保护原创新闻的版权，从而保护创新的积极性是当前研究的主要困难。原创新闻识别涉及页面核心内容准确提取、相似新闻聚合、高质量新闻鉴别等多个技术方面的方法，在保护原创新闻、优化信息检索等领域有着广泛的需求和应用前景。

现有网络新闻领域，对假新闻的识别算法比较丰富和完善，对原创新闻的识别还比较落后。无论是从页面提取不够精细，还是原创新闻潜在数据源获取以及打分鉴别等方面，都不够细致和全面，最终都会干扰到原创新闻的识别质量，影响原创的积极性。

发明内容

本发明的目的在于提供一种原创新闻信息识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种原创新闻信息识别方法，所述方法包括如下步骤，

S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页；

S2、对所有的目标新闻网页进行内容解析，抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息；

S3、计算每个目标新闻网页的SimHash；

S4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；

S5、分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻。

优选的，步骤S1具体包括如下内容，

S11、利用爬虫爬取新闻网页，并将所有新闻网页集合起来组成新闻库；

S12、判断新闻库中的一个新闻网页的网页类型是否是内容页，若是，则执行步骤S12；若否，则将该新闻网页直接丢弃；

S13、判断该新闻网页的文本长度是否小于设定文本长度，若是，则将该新闻网页丢弃；若否，则执行步骤S13；

S14、判断该新闻网页是否具有实质性内容，若是，则判定该新闻网页为目标新闻网页；若否，则丢弃该新闻网页；

S15、重复步骤S12至S14，以遍历所述新闻库中所有的新闻网页，获取所有目标新闻网页。

优选的，步骤S3具体包括如下内容，

S31、对其中一个目标新闻网页的标题和正文进行分词，获取该目标新闻网页的分词结果集，所述分词结果集包括多个分词结果；

S32、计算分词结果集中各个分词结果的64位的hash值，并将64位的hash值对应为64维数组；

S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集，获取待判定数组；

S34、依次判断所述待判定数组中的每个维度是否大于0，若是，则记为1；若否，则记为0；以获取64维的结果数组，所述64维的结果数组为该目标新闻网页的SimHash；

S34、重复步骤S31至S33，以遍历所有目标新闻网页，获取所有目标新闻网页的SimHash。

优选的，所述步骤S4具体包括如下内容，

S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页，并将SimHash 相同的目标新闻网页集合在一起，以获取多个具有不同SimHash的目标新闻网页集；

S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值，若是，则判定目标新闻网页集中的目标新闻网页为原创新闻；若否，则执行步骤S43；

S43、判断目标新闻网页集中各个目标新闻网页的来源，若超过半数的目标新闻网页的来源指向同一处，且该来源处于所述目标新闻网页集中，则目标新闻网页集中的目标新闻网页为原创新闻；否则，执行步骤S44；

S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权，以获取加权得分最高的目标新闻网页，该目标新闻网页即为原创新闻；

S45、重复步骤S42至S44，遍历所有具有不同SimHash的目标新闻网页集，以获取所有为原创新闻的，目标新闻网页。

优选的，步骤S44中，对目标新闻网页集中的每个目标新闻网页的来源分别进行加权，以获取各目标新闻网页的来源权值。

优选的，步骤S44中，对目标新闻网页集中的每个目标新闻网页的发布时间进行加权，以获取各目标新闻网页的时间权值；若目标新闻网页没有发布时间，则使用其抓取时间；时间权值依据发布时间由早到晚递减。

优选的，步骤S44中，各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。

优选的，步骤S44中，根据各目标新闻网页的转发、喜欢和点赞的数量，获取各目标新闻网页的传播力权值；若站点提供评论功能，则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量，获取各目标新闻网页的传播力权值。

优选的，步骤S44中，根据各目标新闻网页中的有效图片和视频的数量，获取各目标新闻网页的视频音频权值；所述视频音频权值依据有效图片和视频的数量由多到少递减。

本发明的有益效果是：1、对新闻页面进行准确的分类和抽取，大大增加了文本的价值性。2、通过SimHash算法，对分词后的新闻页面进行计算和聚合，对相似新闻进行原创新闻算法的比较和识别，大大提高了识别的效率，并减少了干扰项。3、通过完善的原创新闻识别算法，基于准确的信息提取，包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判，极大的减少了原创新闻误判的情况出现，增加准确性。

附图说明

图1是本发明实施例中所述方法的流程示意图；

图2是本发明实施例中目标新闻网页的SimHash计算流程示意图；

图3是本发明实施例中原创新闻判定流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例中提供了一种原创新闻信息识别方法，所述方法包括如下步骤，

S3、计算每个目标新闻网页的SimHash；

本实施例中，步骤S1中需要对爬虫抓取的新闻库中的新闻网页进行网页类型识别，如果页面类型不是内容页，或者文本长度较短，没有实质内容等，予以丢弃不再进行下一步计算；若符合要求，则进行步骤S2。步骤S1具体包括如下内容，

本实施例中，对筛选出的符合要求的新闻内容页进行内容解析，抽取出标题、正文、来源、作者、发布时间、评论、转发、点赞等信息；为后续的处理做准备。

本实施例中，计算每个符合要求的新闻网页的SimHash。步骤S3具体包括如下内容，

S31、对其中一个目标新闻网页的标题和正文进行分词，获取该目标新闻网页的分词结果集，所述分词结果集包括多个分词结果；其中，分词结果集表示为T＝{t₁,t₂,…,t_n}；t_i为分词结果集中的第i个分词结果；i＝1,2,…,n，n为分词结果集中的分析结果个数。

S32、计算分词结果集中各个分词结果t_i的64位的hash值，并将64位的hash 值对应为64维数组；该64维数组表示为h_i＝[b_i,0,b_i,1,…,b_i,63]，其中b_i,j为0或1， i＝1,2,…,n，j＝0,1,…,63，n为分词结果集中的分析结果个数；

S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集，获取待判定数组；所述判定数组表示为

其中w_i为t_i的逆文本频率。

S34、依次判断所述待判定数组中的每个维度是否大于0，若是，则记为1；若否，则记为0；以获取64维的结果数组，所述64维的结果数组为该目标新闻网页的SimHash；也就是说，目标新闻网页的SimHash的第j位为

本实施例中，对所有内容页计算完成SimHash后，对于所有具有某一相同 SimHash的目标新闻网页集S＝{s₁,s₂,…,s_k}(k为集合中的文章数)；开始分析，以下的计算流程涉及各种权重，本实施例中，设置来源权值ω，发布时间权值η，权威度权值λ，传播力权值ξ，图片视频权值υ。所述步骤S4具体包括如下内容，

本实施例中，对目标新闻网页来源分析，如果目标新闻网页有来源，且超过半数的来源指向同一处，且源url在集合S中，则该目标新闻网页被判定为原创新闻，结束；如果不满足上述条件，则对每个目标新闻网页的来源在集合S中的进行加权。

本实施例中，步骤S44中，对目标新闻网页集中的每个目标新闻网页的来源分别进行加权，以获取各目标新闻网页的来源权值。

本实施例中，步骤S44中，对目标新闻网页集中的每个目标新闻网页的发布时间进行加权，以获取各目标新闻网页的时间权值；若目标新闻网页没有发布时间，则使用其抓取时间。按照发布时间先后排序，时间权值η依据发布时间由早到晚递减。

本实施例中，步骤S44中，各目标新闻网页的站点权威度权值λ由历史原创新闻站点打分积累所得。

本实施例中，步骤S44中，根据各目标新闻网页的评论、转发、喜欢和点赞的数量，获取各目标新闻网页的传播力权值ξ。如果站点提供评论功能，则将评论也纳入传播力权值的计算范围。

本实施例中，步骤S44中，根据各目标新闻网页中的有效图片和视频的数量，获取各目标新闻网页的视频音频权值υ；基于以下假设，原创新闻正文中的图片数量或视频数量不会少于转载后文章，因此，所述视频音频权值依据有效图片和视频的数量由多到少递减。

本实施例中，所述方法对通过对非新闻报道属性的网页进行初步过滤，对通过初步过滤的新闻网页计算SimHash；对拥有相同SimHash的新闻网页通过分析来源关系、判定站点权威性、传播力检测以及图片视频检测找出原创新闻，或者给出未找到原创新闻的结果。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种原创新闻信息识别方法，本方法对新闻页面进行准确的分类和抽取，大大增加了文本的价值性；通过SimHash算法，对分词后的新闻页面进行计算和聚合，对相似新闻进行原创新闻算法的比较和识别，大大提高了识别的效率，并减少了干扰项。本方法通过完善的原创新闻识别算法，基于准确的信息提取，包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判，极大的减少了原创新闻误判的情况出现，增加准确性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种原创新闻信息识别方法，其特征在于：所述方法包括如下步骤，

S3、计算每个目标新闻网页的S imHash；

S4、将具有相同SimHash的新闻网页组成目标新闻网页集，以获取多个具有不同SimHash的目标新闻网页集；分析每个目标新闻网页集中的目标新闻网页，最终获取每个目标新闻网页集中的原创新闻；

所述步骤S4具体包括如下内容，

S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页，并将SimHash相同的目标新闻网页集合在一起，以获取多个具有不同S imHash的目标新闻网页集；

2.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S1具体包括如下内容，

S12、判断新闻库中的一个新闻网页的网页类型是否是内容页，若是，则执行步骤S13；若否，则将该新闻网页直接丢弃；

S13、判断该新闻网页的文本长度是否小于设定文本长度，若是，则将该新闻网页丢弃；若否，则执行步骤S14；

3.根据权利要求2所述的原创新闻信息识别方法，其特征在于：步骤S3具体包括如下内容，

4.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S44中，对目标新闻网页集中的每个目标新闻网页的来源分别进行加权，以获取各目标新闻网页的来源权值。

5.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S44中，对目标新闻网页集中的每个目标新闻网页的发布时间进行加权，以获取各目标新闻网页的时间权值；若目标新闻网页没有发布时间，则使用其抓取时间；时间权值依据发布时间由早到晚递减。

6.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S44中，各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。

7.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S44中，根据各目标新闻网页的转发、喜欢和点赞的数量，获取各目标新闻网页的传播力权值；若站点提供评论功能，则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量，获取各目标新闻网页的传播力权值。

8.根据权利要求1所述的原创新闻信息识别方法，其特征在于：步骤S44中，根据各目标新闻网页中的有效图片和视频的数量，获取各目标新闻网页的视频音频权值；所述视频音频权值依据有效图片和视频的数量由多到少递减。