CN111241383A - 一种智能处理图文方法以及处理图文*** - Google Patents

一种智能处理图文方法以及处理图文*** Download PDF

Info

Publication number
CN111241383A
CN111241383A CN201811436923.6A CN201811436923A CN111241383A CN 111241383 A CN111241383 A CN 111241383A CN 201811436923 A CN201811436923 A CN 201811436923A CN 111241383 A CN111241383 A CN 111241383A
Authority
CN
China
Prior art keywords
image
module
text
processing
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811436923.6A
Other languages
English (en)
Other versions
CN111241383B (zh
Inventor
潘卫
徐阆平
钱浩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Heyou Information Technology Co ltd
Original Assignee
Shanghai Huashi Electronic Commerce Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huashi Electronic Commerce Co ltd filed Critical Shanghai Huashi Electronic Commerce Co ltd
Priority to CN201811436923.6A priority Critical patent/CN111241383B/zh
Publication of CN111241383A publication Critical patent/CN111241383A/zh
Application granted granted Critical
Publication of CN111241383B publication Critical patent/CN111241383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种智能处理图文方法,包括以下步骤:步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;步骤三:提取该图文数据中文章的语义进行频道的分配;步骤四:对分配好的文章进行过滤;步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;步骤七:对该图文处理数据进行审核与分类;步骤八:依据分类后的图文数据推荐至相应的用户端。

Description

一种智能处理图文方法以及处理图文***
技术领域
本发明涉及媒体领域,具体涉及一种智能处理图文方法以及处理图文***。
背景技术
如何将媒体领域涉及到图文的自动处理过程组合成一套自动化的装置一直是比较欠缺的,现有的同类产品往往只能实现某一个特定功能,效率比较低,且个别步骤需人力协助完成,造成不必要的资金浪费,同时,由于人工存在一定的误差及错误率,致使处理后的内容在精确度及错误率上,误差较大。
发明内容
本发明要解决的技术问题是提供一种智能处理图文方法,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量,用以解决现有技术导致的缺陷。
本发明还提供一种智能处理图文***。
为解决上述技术问题本发明提供以下的技术方案:一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
一种智能处理图文***,其中,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
上述的一种智能处理图文***,其中,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
依据上述本发明一种智能处理图文方法以及处理图文***提供的技术方案效果是:将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
附图说明
图1为本发明一种智能处理图文方法的流程图;
图2为本发明一种智能处理图文***结构示意图。
其中,附图标记如下:爬虫模块101、存储模块102、处理模块103、审核模块104。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。
本发明的一较佳实施例是提供一种智能处理图文方法以及处理图文***,目的是将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
如图1所示,一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
如图2所示,一种智能处理图文***,包括爬虫模块101、存储模块102、处理模块103、审核模块104,其中处理模块103为人工智能处理模块103;
爬虫模块101用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,图文数据所为原始数据传输至存储模块102;
存储模块102用于接收、存储图文数据并将图文数据传输至处理模块103;
处理模块103用于接收、处理图文数据并生成分别传输至审核模块104、存储模块102的图文处理数据;
审核模块104用于接收、审核图文处理数据,并上线传输至用户端。
本实施例提供的一种智能处理图文***,采用的处理模块103包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
去重模块用于删除图文数据中重复的文章;
关键词提取模块用于提取文章中的关键词;
相似度标记模块用于标记每篇文章之间的相似度值;
分配模块用于依据文章中的语义进行分配:
过滤模块用于对文章进行过滤;
封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
加水印模块用于对文章中的图片进行加水印;
整合模块用于将关键词、文章、封面、图片整合形成图文处理数据。
综上,本发明的一种智能处理图文方法以及处理图文***,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。

Claims (3)

1.一种智能处理图文方法,其特征在于,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
2.一种智能处理图文***,其特征在于,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
3.如权利要求2所述的一种智能处理图文***,其特征在于,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
CN201811436923.6A 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文*** Active CN111241383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436923.6A CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436923.6A CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Publications (2)

Publication Number Publication Date
CN111241383A true CN111241383A (zh) 2020-06-05
CN111241383B CN111241383B (zh) 2023-08-04

Family

ID=70873990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436923.6A Active CN111241383B (zh) 2018-11-28 2018-11-28 一种智能处理图文方法以及处理图文***

Country Status (1)

Country Link
CN (1) CN111241383B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN105049320A (zh) * 2015-05-22 2015-11-11 广西天海信息科技有限公司 一种同时管理多个微信公众账号的***及方法
CN106708963A (zh) * 2016-12-01 2017-05-24 武汉大思想信息股份有限公司 一种人工智能模式下的网站编辑器文章录入方法及***
CN108509584A (zh) * 2018-03-29 2018-09-07 北京百度网讯科技有限公司 封面图的选择方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN105049320A (zh) * 2015-05-22 2015-11-11 广西天海信息科技有限公司 一种同时管理多个微信公众账号的***及方法
CN106708963A (zh) * 2016-12-01 2017-05-24 武汉大思想信息股份有限公司 一种人工智能模式下的网站编辑器文章录入方法及***
CN108509584A (zh) * 2018-03-29 2018-09-07 北京百度网讯科技有限公司 封面图的选择方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
寿思聪;姚从磊;李晓明;: "发现***文章相关图片" *

Also Published As

Publication number Publication date
CN111241383B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN110489395A (zh) 自动获取多源异构数据知识的方法
CN103473263B (zh) 一种面向新闻事件演变过程的可视化展现方法
CN103559193B (zh) 一种基于选择单元的主题建模方法
EP3822842A3 (en) Method and apparatus for generating semantic representation model, electronic device, and storage medium
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN109033433A (zh) 一种基于卷积神经网络的评论数据情感分类方法及***
CN112529615A (zh) 自动生成广告的方法、装置、设备和计算机可读存储介质
CN103632387A (zh) 毛笔字帖的生成方法和***
CN103942274B (zh) 一种基于lda的生物医疗图像的标注***及方法
CN102737045A (zh) 一种相关度计算方法和装置
EP1622040A3 (en) Apparatus and method for processing text data
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
CN111241383A (zh) 一种智能处理图文方法以及处理图文***
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及***
CN113177478A (zh) 一种基于迁移学习的短视频语义标注方法
CN106598979A (zh) 数据写入方法和装置
CN109783616A (zh) 一种文本主题提取方法、***和存储介质
CN116611417B (zh) 一种文章自动生成方法、***、计算机设备和存储介质
CN110619070B (zh) 文章生成方法和装置
CN102760156B (zh) 一种用于生成与关键词相对应的发布信息的方法、装置与设备
CN107544951A (zh) 一种基于数据案例库管理模块的多媒体课件生成方法
CN111611457B (zh) 一种页面分类方法、装置、设备及存储介质
CN110020296A (zh) 一种提取新闻网页正文的方法及装置
CN116012918A (zh) 一种人脸识别模型的训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230626

Address after: 201411 building 4, No. 686, Nanfeng Road, Fengcheng Town, Fengxian District, Shanghai

Applicant after: Shanghai Heyou Information Technology Co.,Ltd.

Address before: 201799 Room 285, Area I, Floor 2, Building 29, Lot 67, No. 5, Lane 3841, Huqingping Road, Qingpu District, Shanghai

Applicant before: SHANGHAI HUASHI ELECTRONIC COMMERCE CO.,LTD.

GR01 Patent grant
GR01 Patent grant