CN111241383B - 一种智能处理图文方法以及处理图文*** - Google Patents

一种智能处理图文方法以及处理图文*** Download PDF

Info

Publication number
CN111241383B
CN111241383B CN201811436923.6A CN201811436923A CN111241383B CN 111241383 B CN111241383 B CN 111241383B CN 201811436923 A CN201811436923 A CN 201811436923A CN 111241383 B CN111241383 B CN 111241383B
Authority
CN
China
Prior art keywords
module
image
processing
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811436923.6A
Other languages
English (en)
Other versions
CN111241383A (zh
Inventor
潘卫
徐阆平
钱浩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Heyou Information Technology Co ltd
Original Assignee
Shanghai Heyou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Heyou Information Technology Co ltd filed Critical Shanghai Heyou Information Technology Co ltd
Priority to CN201811436923.6A priority Critical patent/CN111241383B/zh
Publication of CN111241383A publication Critical patent/CN111241383A/zh
Application granted granted Critical
Publication of CN111241383B publication Critical patent/CN111241383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种智能处理图文方法,包括以下步骤:步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;步骤三:提取该图文数据中文章的语义进行频道的分配;步骤四:对分配好的文章进行过滤;步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;步骤七:对该图文处理数据进行审核与分类;步骤八:依据分类后的图文数据推荐至相应的用户端。

Description

一种智能处理图文方法以及处理图文***
技术领域
本发明涉及媒体领域,具体涉及一种智能处理图文方法以及处理图文***。
背景技术
如何将媒体领域涉及到图文的自动处理过程组合成一套自动化的装置一直是比较欠缺的,现有的同类产品往往只能实现某一个特定功能,效率比较低,且个别步骤需人力协助完成,造成不必要的资金浪费,同时,由于人工存在一定的误差及错误率,致使处理后的内容在精确度及错误率上,误差较大。
发明内容
本发明要解决的技术问题是提供一种智能处理图文方法,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量,用以解决现有技术导致的缺陷。
本发明还提供一种智能处理图文***。
为解决上述技术问题本发明提供以下的技术方案:一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
一种智能处理图文***,其中,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
上述的一种智能处理图文***,其中,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
依据上述本发明一种智能处理图文方法以及处理图文***提供的技术方案效果是:将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
附图说明
图1为本发明一种智能处理图文方法的流程图;
图2为本发明一种智能处理图文***结构示意图。
其中,附图标记如下:爬虫模块101、存储模块102、处理模块103、审核模块104。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。
本发明的一较佳实施例是提供一种智能处理图文方法以及处理图文***,目的是将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
如图1所示,一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
如图2所示,一种智能处理图文***,包括爬虫模块101、存储模块102、处理模块103、审核模块104,其中处理模块103为人工智能处理模块103;
爬虫模块101用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,图文数据所为原始数据传输至存储模块102;
存储模块102用于接收、存储图文数据并将图文数据传输至处理模块103;
处理模块103用于接收、处理图文数据并生成分别传输至审核模块104、存储模块102的图文处理数据;
审核模块104用于接收、审核图文处理数据,并上线传输至用户端。
本实施例提供的一种智能处理图文***,采用的处理模块103包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
去重模块用于删除图文数据中重复的文章;
关键词提取模块用于提取文章中的关键词;
相似度标记模块用于标记每篇文章之间的相似度值;
分配模块用于依据文章中的语义进行分配:
过滤模块用于对文章进行过滤;
封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
加水印模块用于对文章中的图片进行加水印;
整合模块用于将关键词、文章、封面、图片整合形成图文处理数据。
综上,本发明的一种智能处理图文方法以及处理图文***,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。

Claims (3)

1.一种智能处理图文方法,其特征在于,
包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
2.一种执行权利要求1所述的智能处理图文方法的智能处理图文***,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
3.根据权利要求2所述的智能处理图文***,其特征在于,
所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
CN201811436923.6A 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文*** Active CN111241383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436923.6A CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436923.6A CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Publications (2)

Publication Number Publication Date
CN111241383A CN111241383A (zh) 2020-06-05
CN111241383B true CN111241383B (zh) 2023-08-04

Family

ID=70873990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436923.6A Active CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Country Status (1)

Country Link
CN (1) CN111241383B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN105049320A (zh) * 2015-05-22 2015-11-11 广西天海信息科技有限公司 一种同时管理多个微信公众账号的***及方法
CN106708963A (zh) * 2016-12-01 2017-05-24 武汉大思想信息股份有限公司 一种人工智能模式下的网站编辑器文章录入方法及***
CN108509584A (zh) * 2018-03-29 2018-09-07 北京百度网讯科技有限公司 封面图的选择方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN105049320A (zh) * 2015-05-22 2015-11-11 广西天海信息科技有限公司 一种同时管理多个微信公众账号的***及方法
CN106708963A (zh) * 2016-12-01 2017-05-24 武汉大思想信息股份有限公司 一种人工智能模式下的网站编辑器文章录入方法及***
CN108509584A (zh) * 2018-03-29 2018-09-07 北京百度网讯科技有限公司 封面图的选择方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
寿思聪 ; 姚从磊 ; 李晓明 ; .发现***文章相关图片.计算机科学与探索.2011,(07),全文. *

Also Published As

Publication number Publication date
CN111241383A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US10373073B2 (en) Creating deep learning models using feature augmentation
US20190080206A1 (en) Refining Synthetic Data With A Generative Adversarial Network Using Auxiliary Inputs
MX2020014293A (es) Generación de metadatos de secuenciación basada en inteligencia artificial.
DE112016005912T5 (de) Technologien zur satzende-detektion unter verwendung von syntaktischer kohärenz
CN109857803B (zh) 数据同步方法、装置、设备、***及计算机可读存储介质
WO2021129466A1 (zh) 检测水印的方法、装置、终端及存储介质
CN110704649B (zh) 一种用于构建流量图像数据集的方法及***
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN104750673B (zh) 文本匹配过滤方法及装置
CN105354228A (zh) 相似图搜索方法及装置
CN111241383B (zh) 一种智能处理图文方法以及处理图文***
CN105930391A (zh) 超解像***中图像样本数据库的更新方法及图像服务器
CN103886352A (zh) 一种二维码处理的方法与设备
CN103916677B (zh) 一种广告视频识别方法和装置
CN110704407B (zh) 一种数据去重的方法和***
CN103503469B (zh) 分阶段元素的分类***
CN116542687A (zh) 数字藏品属性信息分析处理方法及装置
CN105046217A (zh) 一种人脸识别大数据量并发方案处理方法
CN104935647B (zh) 一种文件分享方法及装置
CN111241365B (zh) 表格图片解析方法及***
CN112132031A (zh) 车款识别方法、装置、电子设备及存储介质
CN107886527A (zh) 一种图像处理***和方法
KR20200140543A (ko) 빅데이터 분석에 의한 개인 맞춤형 한국어 학습 콘텐츠를 제공하는 콘텐츠 큐레이션 시스템
CN105488183B (zh) 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置
KR102283585B1 (ko) 인공지능을 이용한 이미지에 포함된 컬러 코드 업데이트 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230626

Address after: 201411 building 4, No. 686, Nanfeng Road, Fengcheng Town, Fengxian District, Shanghai

Applicant after: Shanghai Heyou Information Technology Co.,Ltd.

Address before: 201799 Room 285, Area I, Floor 2, Building 29, Lot 67, No. 5, Lane 3841, Huqingping Road, Qingpu District, Shanghai

Applicant before: SHANGHAI HUASHI ELECTRONIC COMMERCE CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant