CN112579800A

CN112579800A - 一种融媒体新闻原创作品及首发媒体自动识别方法

Info

Publication number: CN112579800A
Application number: CN202010884929.0A
Authority: CN
Inventors: 王凤美; 刘帆; 李新花
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2021-03-30

Abstract

本发明公开了一种融媒体新闻原创作品及首发媒体自动识别方法，包括如下步骤：媒体机构信息、原创作品知识库配置管理，维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息；通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品，抽取发布媒体、发布位置、标题、记者、电头、原创标记等；按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品；逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。本发明不仅扩大了识别的新闻类型范围，还大大提高了识别的效率和准确性，解决了融媒体多渠道分发场景下首发媒体难以判断的问题，为融媒体中心绩效考核提供依据。

Description

一种融媒体新闻原创作品及首发媒体自动识别方法

技术领域

本发明属于媒体融合新闻信息处理技术领域，具体涉及一种融媒体新闻原创作品及首发媒体自动识别方法。

背景技术

随着媒体融合业务的深度发展，互联网新闻传播形态发生了巨大改变。网站、移动新闻客户端、微博、微信、自媒体平台等新媒体传播渠道的兴起，融媒体新闻形态从传统的图文稿件衍生出图集、音视频、H5、互动图表、数据新闻等新形态，这一改变迫使媒体单位越来越重视对优质原创作品版权的保护。现有的基于文章特征的原创新闻识别方法不再适用于复杂多样的融媒体新闻传播形态。如何利用大数据分析处理技术，实现不同传播形态的新闻内容的原创作品识别，是当前迫切需要解决的问题。

另外，原创作品量是衡量媒体传播影响力以及采编人员业绩的一个重要指标，为了满足融媒体中心的绩效考核需求并提升考评人员工作效率，精确识别媒体单位旗下每个媒体采编人员的首发原创作品也是当前面临的一个困难，这也是当前基于文章特征和关键词库的原创新闻评估方法和***无法满足的。

发明内容

本发明的目的在于提供一种融媒体新闻原创作品及首发媒体自动识别方法，以解决上述背景技术中提出的问题。

为实现上述目的本发明采用以下技术方案：一种融媒体新闻原创作品及首发媒体自动识别方法，包括如下步骤：

S1媒体机构信息、原创作品知识库配置管理，维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息；

S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品，抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记等；

S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品；

S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。

作为本发明进一步的方案，所述步骤S1具体包括如下内容：

S11媒体机构信息配置，维护各级媒体机构信息，包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息；

S12构建媒体机构原创作品传播知识库，按照不同类型的融媒体新闻初始化原创作品传播知识信息，数字报类新闻稿件包括电头、记者、作者、来源、正文，网站类新闻包括发布位置、来源、编辑、作者、正文，APP类新闻包括发布位置、来源、编辑、作者、正文，微博类新闻包括原创标记，微信类新闻包括原创标记、来源、编辑、作者、正文。

作为本发明进一步的方案，步骤S3具体包含如下内容：

S31判断目标融媒体新闻的类型；

S32根据目标融媒体新闻的类型匹配其原创作品知识库；

S33判断目标融媒体新闻的原创作品是否存在原创标记字段，若是将其标记为原创，若否则执行S34；

S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配，若能够匹配的柜子数大于指定的阈值，则将目标融媒体新闻作品标记为原创作品，否则则判为转载；

S35重复步骤S31至S35，以遍历目标媒体机构发布的所有融媒体新闻作品，获取该目标媒体机构的所有的融媒体原创新闻作品。

作为本发明进一步的方案，步骤S4具体包含如下内容：

S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度，得到若干相似融媒体新闻原创作品集；

S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品，判断发布时间最早作品数量是否小于设定的阈值，若是则该作品为媒体机构下设媒体的首发作品，若否则执行S43；

S43判断目标融媒体新闻原创作品的发布媒体的权重，权重高的媒体为首发媒体；

S44重复步骤S41至S43，以遍历所有相似融媒体新闻原创作品集，以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。

与现有技术相比，本发明的有益效果是：本发明通过媒体机构信息、原创作品知识库，按照各个类型融媒体新闻作品原创知识库来判断是否原创，不仅扩大了识别的新闻类型范围，还大大提高了识别的效率和准确性。

本发明通过融媒体新闻原创作品相似度计算获取融媒体新闻原创作品集，基于准确的首发媒体判断模型，影响因子包括但不限于发布时间、媒体权重来判断，解决了融媒体多渠道分发场景下首发媒体难以判断的问题，为融媒体中心绩效考核提供依据。

附图说明

图1为本发明实施例公开的一种融媒体新闻原创作品自动识别方法的流程示意图；

图2为本发明实施例公开的照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品示意图；

图3为判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的阐述。

如图1所示，一种融媒体新闻原创作品及首发媒体自动识别方法，包括如下步骤：

2、如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法，其特征在于，所述步骤S1具体包括如下内容：

如图2所示，步骤S3具体包含如下内容：

S31判断目标融媒体新闻的类型；

S32根据目标融媒体新闻的类型匹配其原创作品知识库；

如图3所示，步骤S4具体包含如下内容：

步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度，得到若干相似融媒体新闻原创作品集。首先对目标相似融媒体新闻原创作品集进行数据清洗，获取目标融媒体新闻原创作品的发布媒体、发布位置、标题、正文，来源、编辑、作者、电头、记者等信息，去除特殊符号、html标签、标点符号等无用字符。

本实施例中，步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度，得到若干相似融媒体新闻原创作品集。定义计算融媒体新闻原创作品相似度的两项指标：字符相似度Ss＝Cs.length/min(A.length，B.length)和序列相似度Sz＝Cz.length/min(A.length，B.length)，其中Cs为最大公共子字符串，Cz为最大公共子序列。

本实施例中，步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度，得到若干相似融媒体新闻原创作品集。待计算相似度的两篇融媒体新闻原创作品A、B，其相似度表示为(Ss＞Ts||Sz＞Tz)，其中Ts为字符相似度阈值，Tz为序列相似度阈值；若(Ss＞Ts||Sz＞Tz)＝＝true，则A、B相似，否则不相似。

以上所述为本发明较佳实施例，对于本领域的普通技术人员而言，根据本发明的教导，在不脱离本发明的原理与精神的情况下，对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims

1.一种融媒体新闻原创作品及首发媒体自动识别方法，其特征在于，包括如下步骤：

S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品，抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记；

2.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法，其特征在于，所述步骤S1具体包括如下内容：

3.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法，其特征在于，步骤S3具体包含如下内容：

S31判断目标融媒体新闻的类型；

S32根据目标融媒体新闻的类型匹配其原创作品知识库；

4.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法，其特征在于，步骤S4具体包含如下内容：