CN112579800A - 一种融媒体新闻原创作品及首发媒体自动识别方法 - Google Patents

一种融媒体新闻原创作品及首发媒体自动识别方法 Download PDF

Info

Publication number
CN112579800A
CN112579800A CN202010884929.0A CN202010884929A CN112579800A CN 112579800 A CN112579800 A CN 112579800A CN 202010884929 A CN202010884929 A CN 202010884929A CN 112579800 A CN112579800 A CN 112579800A
Authority
CN
China
Prior art keywords
media
news
works
original
organization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010884929.0A
Other languages
English (en)
Inventor
王凤美
刘帆
李新花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiji Computer Corp Ltd
Original Assignee
Taiji Computer Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiji Computer Corp Ltd filed Critical Taiji Computer Corp Ltd
Priority to CN202010884929.0A priority Critical patent/CN112579800A/zh
Publication of CN112579800A publication Critical patent/CN112579800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、记者、电头、原创标记等;按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。本发明不仅扩大了识别的新闻类型范围,还大大提高了识别的效率和准确性,解决了融媒体多渠道分发场景下首发媒体难以判断的问题,为融媒体中心绩效考核提供依据。

Description

一种融媒体新闻原创作品及首发媒体自动识别方法
技术领域
本发明属于媒体融合新闻信息处理技术领域,具体涉及一种融媒体新闻原创作品及首发媒体自动识别方法。
背景技术
随着媒体融合业务的深度发展,互联网新闻传播形态发生了巨大改变。网站、移动新闻客户端、微博、微信、自媒体平台等新媒体传播渠道的兴起,融媒体新闻形态从传统的图文稿件衍生出图集、音视频、H5、互动图表、数据新闻等新形态,这一改变迫使媒体单位越来越重视对优质原创作品版权的保护。现有的基于文章特征的原创新闻识别方法不再适用于复杂多样的融媒体新闻传播形态。如何利用大数据分析处理技术,实现不同传播形态的新闻内容的原创作品识别,是当前迫切需要解决的问题。
另外,原创作品量是衡量媒体传播影响力以及采编人员业绩的一个重要指标,为了满足融媒体中心的绩效考核需求并提升考评人员工作效率,精确识别媒体单位旗下每个媒体采编人员的首发原创作品也是当前面临的一个困难,这也是当前基于文章特征和关键词库的原创新闻评估方法和***无法满足的。
发明内容
本发明的目的在于提供一种融媒体新闻原创作品及首发媒体自动识别方法,以解决上述背景技术中提出的问题。
为实现上述目的本发明采用以下技术方案:一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记等;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
作为本发明进一步的方案,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
作为本发明进一步的方案,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
作为本发明进一步的方案,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
与现有技术相比,本发明的有益效果是:本发明通过媒体机构信息、原创作品知识库,按照各个类型融媒体新闻作品原创知识库来判断是否原创,不仅扩大了识别的新闻类型范围,还大大提高了识别的效率和准确性。
本发明通过融媒体新闻原创作品相似度计算获取融媒体新闻原创作品集,基于准确的首发媒体判断模型,影响因子包括但不限于发布时间、媒体权重来判断,解决了融媒体多渠道分发场景下首发媒体难以判断的问题,为融媒体中心绩效考核提供依据。
附图说明
图1为本发明实施例公开的一种融媒体新闻原创作品自动识别方法的流程示意图;
图2为本发明实施例公开的照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品示意图;
图3为判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述。
如图1所示,一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记等;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
2、如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
如图2所示,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
如图3所示,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。首先对目标相似融媒体新闻原创作品集进行数据清洗,获取目标融媒体新闻原创作品的发布媒体、发布位置、标题、正文,来源、编辑、作者、电头、记者等信息,去除特殊符号、html标签、标点符号等无用字符。
本实施例中,步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。定义计算融媒体新闻原创作品相似度的两项指标:字符相似度Ss=Cs.length/min(A.length,B.length)和序列相似度Sz=Cz.length/min(A.length,B.length),其中Cs为最大公共子字符串,Cz为最大公共子序列。
本实施例中,步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。待计算相似度的两篇融媒体新闻原创作品A、B,其相似度表示为(Ss>Ts||Sz>Tz),其中Ts为字符相似度阈值,Tz为序列相似度阈值;若(Ss>Ts||Sz>Tz)==true,则A、B相似,否则不相似。
以上所述为本发明较佳实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理与精神的情况下,对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims (4)

1.一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
2.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
3.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
4.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
CN202010884929.0A 2020-08-28 2020-08-28 一种融媒体新闻原创作品及首发媒体自动识别方法 Pending CN112579800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884929.0A CN112579800A (zh) 2020-08-28 2020-08-28 一种融媒体新闻原创作品及首发媒体自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884929.0A CN112579800A (zh) 2020-08-28 2020-08-28 一种融媒体新闻原创作品及首发媒体自动识别方法

Publications (1)

Publication Number Publication Date
CN112579800A true CN112579800A (zh) 2021-03-30

Family

ID=75119437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884929.0A Pending CN112579800A (zh) 2020-08-28 2020-08-28 一种融媒体新闻原创作品及首发媒体自动识别方法

Country Status (1)

Country Link
CN (1) CN112579800A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658887A (zh) * 2022-09-28 2023-01-31 丽水市广播电视总台 一种基于云平台的广播融媒体信息采编发布管理***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235821A (zh) * 2013-04-27 2013-08-07 百度在线网络技术(北京)有限公司 原创内容的搜索方法和搜索服务器
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析***
CN108628833A (zh) * 2018-05-11 2018-10-09 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN108959515A (zh) * 2018-06-28 2018-12-07 网易传媒科技(北京)有限公司 原创数据保护方法、介质、装置和计算设备
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和***
CN110956021A (zh) * 2019-11-14 2020-04-03 微民保险代理有限公司 一种原创文章的生成方法、装置、***及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235821A (zh) * 2013-04-27 2013-08-07 百度在线网络技术(北京)有限公司 原创内容的搜索方法和搜索服务器
CN107577688A (zh) * 2017-04-25 2018-01-12 上海市互联网信息办公室 基于媒体信息采集的原创文章影响力分析***
CN108628833A (zh) * 2018-05-11 2018-10-09 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN108959515A (zh) * 2018-06-28 2018-12-07 网易传媒科技(北京)有限公司 原创数据保护方法、介质、装置和计算设备
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和***
CN110956021A (zh) * 2019-11-14 2020-04-03 微民保险代理有限公司 一种原创文章的生成方法、装置、***及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658887A (zh) * 2022-09-28 2023-01-31 丽水市广播电视总台 一种基于云平台的广播融媒体信息采编发布管理***
CN115658887B (zh) * 2022-09-28 2024-04-26 丽水市广播电视总台 一种基于云平台的广播融媒体信息采编发布管理***

Similar Documents

Publication Publication Date Title
JP6342951B2 (ja) ビデオインターバルへの注釈
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
CN102349087B (zh) 自动提供与捕获的信息例如实时捕获的信息关联的内容
CN112183036B (zh) 一种格式文档生成方法、装置、设备及存储介质
KR102156440B1 (ko) 시각언어 기반의 영상주석 자동 생성 장치 및 방법
WO2013070802A1 (en) System and method for indexing and annotation of video content
CN104035993B (zh) 电子书的存储检索方法、电子书管理***、阅读***
CN103632388A (zh) 图像语义标注的方法、装置和客户端
CN108710860B (zh) 一种视频新闻分割方法和装置
CN102457817A (zh) 一种手机报中新闻内容的抽取方法及***
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及***
CN113360661B (zh) 多租户的媒体大数据应用云服务平台
CN112579800A (zh) 一种融媒体新闻原创作品及首发媒体自动识别方法
CN113887191A (zh) 文章的相似性检测方法及装置
CN109783784A (zh) 一种基于最小表单组合的数据处理方法和表单生成器
CN113569119A (zh) 一种基于多模态机器学习的新闻网页正文抽取***及方法
JP6603929B1 (ja) 動画編集サーバおよびプログラム
CN110008314B (zh) 一种意图解析方法及装置
JP2011096078A (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN100336061C (zh) 多媒体对象检索设备和方法
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN111159411A (zh) 一种融合知识图谱的文本立场分析方法、***及存储介质
CN110210927A (zh) 一种基于协同过滤算法的it书籍推荐***设计
CN105718575A (zh) 基于爬虫的贴音乐标签方法及***
CN108228884B (zh) 一种面向阅读难度的搜索结果预览***及预览方法

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice

Addressee: Lu Liheng

Document name: Notification of passing the preliminary examination of patent application for invention

DD01 Delivery of document by public notice
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210330

RJ01 Rejection of invention patent application after publication