CN112579800A - 一种融媒体新闻原创作品及首发媒体自动识别方法 - Google Patents
一种融媒体新闻原创作品及首发媒体自动识别方法 Download PDFInfo
- Publication number
- CN112579800A CN112579800A CN202010884929.0A CN202010884929A CN112579800A CN 112579800 A CN112579800 A CN 112579800A CN 202010884929 A CN202010884929 A CN 202010884929A CN 112579800 A CN112579800 A CN 112579800A
- Authority
- CN
- China
- Prior art keywords
- media
- news
- works
- original
- organization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000008520 organization Effects 0.000 claims abstract description 51
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000002844 melting Methods 0.000 claims description 30
- 230000008018 melting Effects 0.000 claims description 30
- 230000007480 spreading Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000155 melt Substances 0.000 abstract 1
- 230000004927 fusion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010257 thawing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、记者、电头、原创标记等;按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。本发明不仅扩大了识别的新闻类型范围,还大大提高了识别的效率和准确性,解决了融媒体多渠道分发场景下首发媒体难以判断的问题,为融媒体中心绩效考核提供依据。
Description
技术领域
本发明属于媒体融合新闻信息处理技术领域,具体涉及一种融媒体新闻原创作品及首发媒体自动识别方法。
背景技术
随着媒体融合业务的深度发展,互联网新闻传播形态发生了巨大改变。网站、移动新闻客户端、微博、微信、自媒体平台等新媒体传播渠道的兴起,融媒体新闻形态从传统的图文稿件衍生出图集、音视频、H5、互动图表、数据新闻等新形态,这一改变迫使媒体单位越来越重视对优质原创作品版权的保护。现有的基于文章特征的原创新闻识别方法不再适用于复杂多样的融媒体新闻传播形态。如何利用大数据分析处理技术,实现不同传播形态的新闻内容的原创作品识别,是当前迫切需要解决的问题。
另外,原创作品量是衡量媒体传播影响力以及采编人员业绩的一个重要指标,为了满足融媒体中心的绩效考核需求并提升考评人员工作效率,精确识别媒体单位旗下每个媒体采编人员的首发原创作品也是当前面临的一个困难,这也是当前基于文章特征和关键词库的原创新闻评估方法和***无法满足的。
发明内容
本发明的目的在于提供一种融媒体新闻原创作品及首发媒体自动识别方法,以解决上述背景技术中提出的问题。
为实现上述目的本发明采用以下技术方案:一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记等;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
作为本发明进一步的方案,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
作为本发明进一步的方案,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
作为本发明进一步的方案,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
与现有技术相比,本发明的有益效果是:本发明通过媒体机构信息、原创作品知识库,按照各个类型融媒体新闻作品原创知识库来判断是否原创,不仅扩大了识别的新闻类型范围,还大大提高了识别的效率和准确性。
本发明通过融媒体新闻原创作品相似度计算获取融媒体新闻原创作品集,基于准确的首发媒体判断模型,影响因子包括但不限于发布时间、媒体权重来判断,解决了融媒体多渠道分发场景下首发媒体难以判断的问题,为融媒体中心绩效考核提供依据。
附图说明
图1为本发明实施例公开的一种融媒体新闻原创作品自动识别方法的流程示意图;
图2为本发明实施例公开的照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品示意图;
图3为判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述。
如图1所示,一种融媒体新闻原创作品及首发媒体自动识别方法,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记等;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
2、如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
如图2所示,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
如图3所示,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。首先对目标相似融媒体新闻原创作品集进行数据清洗,获取目标融媒体新闻原创作品的发布媒体、发布位置、标题、正文,来源、编辑、作者、电头、记者等信息,去除特殊符号、html标签、标点符号等无用字符。
本实施例中,步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。定义计算融媒体新闻原创作品相似度的两项指标:字符相似度Ss=Cs.length/min(A.length,B.length)和序列相似度Sz=Cz.length/min(A.length,B.length),其中Cs为最大公共子字符串,Cz为最大公共子序列。
本实施例中,步骤S41中计算获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集。待计算相似度的两篇融媒体新闻原创作品A、B,其相似度表示为(Ss>Ts||Sz>Tz),其中Ts为字符相似度阈值,Tz为序列相似度阈值;若(Ss>Ts||Sz>Tz)==true,则A、B相似,否则不相似。
以上所述为本发明较佳实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理与精神的情况下,对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。
Claims (4)
1.一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,包括如下步骤:
S1媒体机构信息、原创作品知识库配置管理,维护各媒体机构旗下媒体相关信息、原创作品传播知识库信息;
S2通过互联网公开数据采集技术实时获取媒体机构旗下媒体发布的融媒体新闻作品,抽取发布媒体、发布位置、标题、正文、发布时间、来源、作者、编辑、记者、电头、原创标记;
S3按照融媒体新闻作品类型逐条判断媒体机构发布的新闻是否为原创作品;
S4逐条判断所获取的媒体机构发布的融媒体新闻原创作品的首发媒体。
2.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,所述步骤S1具体包括如下内容:
S11媒体机构信息配置,维护各级媒体机构信息,包括媒体机构名称、所属地域、所属行业、旗下媒体或旗下新媒体矩阵及其权重信息;
S12构建媒体机构原创作品传播知识库,按照不同类型的融媒体新闻初始化原创作品传播知识信息,数字报类新闻稿件包括电头、记者、作者、来源、正文,网站类新闻包括发布位置、来源、编辑、作者、正文,APP类新闻包括发布位置、来源、编辑、作者、正文,微博类新闻包括原创标记,微信类新闻包括原创标记、来源、编辑、作者、正文。
3.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,步骤S3具体包含如下内容:
S31判断目标融媒体新闻的类型;
S32根据目标融媒体新闻的类型匹配其原创作品知识库;
S33判断目标融媒体新闻的原创作品是否存在原创标记字段,若是将其标记为原创,若否则执行S34;
S34将目标融媒体新闻作品的特征与其所属分类的融媒体新闻原创作品知识库中的知识规则做匹配,若能够匹配的柜子数大于指定的阈值,则将目标融媒体新闻作品标记为原创作品,否则则判为转载;
S35重复步骤S31至S35,以遍历目标媒体机构发布的所有融媒体新闻作品,获取该目标媒体机构的所有的融媒体原创新闻作品。
4.如权利要求1所述的一种融媒体新闻原创作品及首发媒体自动识别方法,其特征在于,步骤S4具体包含如下内容:
S41计算步骤S3获取的目标媒体机构下的所有融媒体新闻原创作品相似度,得到若干相似融媒体新闻原创作品集;
S42获取每一个相似融媒体新闻原创作品集中发布时间最早的作品,判断发布时间最早作品数量是否小于设定的阈值,若是则该作品为媒体机构下设媒体的首发作品,若否则执行S43;
S43判断目标融媒体新闻原创作品的发布媒体的权重,权重高的媒体为首发媒体;
S44重复步骤S41至S43,以遍历所有相似融媒体新闻原创作品集,以获得目标媒体机构下设媒体的所有融媒体新闻原创作品的首发媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884929.0A CN112579800A (zh) | 2020-08-28 | 2020-08-28 | 一种融媒体新闻原创作品及首发媒体自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884929.0A CN112579800A (zh) | 2020-08-28 | 2020-08-28 | 一种融媒体新闻原创作品及首发媒体自动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579800A true CN112579800A (zh) | 2021-03-30 |
Family
ID=75119437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010884929.0A Pending CN112579800A (zh) | 2020-08-28 | 2020-08-28 | 一种融媒体新闻原创作品及首发媒体自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579800A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235821A (zh) * | 2013-04-27 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 原创内容的搜索方法和搜索服务器 |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析*** |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN108959515A (zh) * | 2018-06-28 | 2018-12-07 | 网易传媒科技(北京)有限公司 | 原创数据保护方法、介质、装置和计算设备 |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和*** |
CN110956021A (zh) * | 2019-11-14 | 2020-04-03 | 微民保险代理有限公司 | 一种原创文章的生成方法、装置、***及服务器 |
-
2020
- 2020-08-28 CN CN202010884929.0A patent/CN112579800A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235821A (zh) * | 2013-04-27 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 原创内容的搜索方法和搜索服务器 |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析*** |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN108959515A (zh) * | 2018-06-28 | 2018-12-07 | 网易传媒科技(北京)有限公司 | 原创数据保护方法、介质、装置和计算设备 |
CN109213845A (zh) * | 2018-09-06 | 2019-01-15 | 杭州凡闻科技有限公司 | 基于文章特征的原创新闻评估方法和*** |
CN110956021A (zh) * | 2019-11-14 | 2020-04-03 | 微民保险代理有限公司 | 一种原创文章的生成方法、装置、***及服务器 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
CN115658887B (zh) * | 2022-09-28 | 2024-04-26 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6342951B2 (ja) | ビデオインターバルへの注釈 | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
CN102349087B (zh) | 自动提供与捕获的信息例如实时捕获的信息关联的内容 | |
CN112183036B (zh) | 一种格式文档生成方法、装置、设备及存储介质 | |
KR102156440B1 (ko) | 시각언어 기반의 영상주석 자동 생성 장치 및 방법 | |
WO2013070802A1 (en) | System and method for indexing and annotation of video content | |
CN104035993B (zh) | 电子书的存储检索方法、电子书管理***、阅读*** | |
CN103632388A (zh) | 图像语义标注的方法、装置和客户端 | |
CN108710860B (zh) | 一种视频新闻分割方法和装置 | |
CN102457817A (zh) | 一种手机报中新闻内容的抽取方法及*** | |
CN107451120B (zh) | 一种公开文本情报的内容冲突检测方法及*** | |
CN113360661B (zh) | 多租户的媒体大数据应用云服务平台 | |
CN112579800A (zh) | 一种融媒体新闻原创作品及首发媒体自动识别方法 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN109783784A (zh) | 一种基于最小表单组合的数据处理方法和表单生成器 | |
CN113569119A (zh) | 一种基于多模态机器学习的新闻网页正文抽取***及方法 | |
JP6603929B1 (ja) | 動画編集サーバおよびプログラム | |
CN110008314B (zh) | 一种意图解析方法及装置 | |
JP2011096078A (ja) | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 | |
CN100336061C (zh) | 多媒体对象检索设备和方法 | |
CN107491530B (zh) | 一种基于文件自动标记信息的社会关系挖掘分析方法 | |
CN111159411A (zh) | 一种融合知识图谱的文本立场分析方法、***及存储介质 | |
CN110210927A (zh) | 一种基于协同过滤算法的it书籍推荐***设计 | |
CN105718575A (zh) | 基于爬虫的贴音乐标签方法及*** | |
CN108228884B (zh) | 一种面向阅读难度的搜索结果预览***及预览方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DD01 | Delivery of document by public notice |
Addressee: Lu Liheng Document name: Notification of passing the preliminary examination of patent application for invention |
|
DD01 | Delivery of document by public notice | ||
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210330 |
|
RJ01 | Rejection of invention patent application after publication |