CN107729401A - 基于人工智能的高质量文章挖掘方法、装置及存储介质 - Google Patents

基于人工智能的高质量文章挖掘方法、装置及存储介质 Download PDF

Info

Publication number
CN107729401A
CN107729401A CN201710862013.3A CN201710862013A CN107729401A CN 107729401 A CN107729401 A CN 107729401A CN 201710862013 A CN201710862013 A CN 201710862013A CN 107729401 A CN107729401 A CN 107729401A
Authority
CN
China
Prior art keywords
article
high quality
filtering
microblogging
quality articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710862013.3A
Other languages
English (en)
Inventor
黄俊衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710862013.3A priority Critical patent/CN107729401A/zh
Publication of CN107729401A publication Critical patent/CN107729401A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于人工智能的高质量文章挖掘方法、装置及存储介质,其中方法包括:根据获取到的微博博文进行文章挖掘;过滤掉挖掘到的文章中不符合预定要求的文章;将剩余的文章划分为正样本和负样本;根据正样本和负样本训练得到高质量文章识别模型;根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。应用本发明所述方案,能够有效地挖掘出大量的高质量文章,且成本低下,具备创新性。

Description

基于人工智能的高质量文章挖掘方法、装置及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的高质量文章挖掘方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
在互联网用户生成信息爆发的时代,如何从微博用户生成的数据中挖掘出可靠、高质量的文章具有巨大的商业价值。
然而,微博是一种注重时效性和随意性的分享和交流的平台,这种随意性造就了低质量数据的泛滥,所述低质量数据可包括广告数据及日常交流数据等,从而为高质量文章的挖掘带来了很大的困难。
而针对这一问题,现有技术中还没有一种有效的解决方式。
现有技术中,为获取高质量文章,通常采用以下处理方式:
1)依赖自媒体或雇佣写手去编写文章;
2)利用半自动化的形式,加一些人工干预,去构造文章,例如,按一定模板去生成体育报道。
但上述各方式在实际应用中均会存在一定的问题,如:采用方式1),由于依赖于自媒体或写手,因此产出的文章量少且成本高,采用方式2),会造成文章质量不高,且缺乏创新性,这是因为模板数量有限,且覆盖的范围一定,因而依赖模板生成的文章往往千篇一律,缺乏创新性。
【发明内容】
有鉴于此,本发明提供了基于人工智能的高质量文章挖掘方法、装置及存储介质,能够有效地挖掘出大量的高质量文章,且成本低下,具备创新性。
具体技术方案如下:
一种基于人工智能的高质量文章挖掘方法,包括:
根据获取到的微博博文进行文章挖掘;
过滤掉挖掘到的文章中不符合预定要求的文章;
将剩余的文章划分为正样本和负样本;
根据所述正样本和所述负样本训练得到高质量文章识别模型;
根据所述高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
根据本发明一优选实施例,所述根据获取到的微博博文进行文章挖掘包括:
从微博博文中获取文章的短链;
将所述短链恢复为长链;
获取所述长链对应的文章。
根据本发明一优选实施例,所述过滤掉挖掘到的文章中不符合预定要求的文章包括:
针对每篇文章,分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则确定所述文章为不符合预定要求的文章。
根据本发明一优选实施例,所述针对每篇文章,分别对其进行广告过滤和黄色过滤包括:
采用规则过滤的方式,对所述文章进行广告过滤;
采用关键字过滤的方式,对所述文章进行黄色过滤。
根据本发明一优选实施例,该方法进一步包括:
分别获取每篇微博博文的转发、评论和点赞次数;
针对每篇文章,分别确定出其对应的最有影响力的微博博文,所述最有影响力的微博博文为包含所述文章的微博博文中转发、评论、点赞次数之和最大的微博博文;
所述过滤掉挖掘到的文章中不符合预定要求的文章进一步包括:
针对每篇文章,分别确定出所述文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则确定所述文章为不符合预定要求的文章。
根据本发明一优选实施例,所述根据所述正样本和所述负样本训练得到高质量文章识别模型包括:
分别对所述正样本和所述负样本进行特征提取,提取出的特征中包括:能够反应文章热度的特征;
根据提取出的特征训练得到所述高质量文章识别模型。
一种基于人工智能的高质量文章挖掘装置,包括:预处理单元以及挖掘单元;
所述预处理单元,用于根据获取到的微博博文进行文章挖掘;过滤掉挖掘到的文章中不符合预定要求的文章;将剩余的文章划分为正样本和负样本;根据所述正样本和所述负样本训练得到高质量文章识别模型;
所述挖掘单元,用于根据所述高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
根据本发明一优选实施例,所述预处理单元中包括:获取子单元、过滤子单元以及训练子单元;
所述获取子单元,用于从微博博文中获取文章的短链,将所述短链恢复为长链,获取所述长链对应的文章;
所述过滤子单元,用于过滤掉不符合预定要求的文章;
所述训练子单元,用于将剩余的文章划分为正样本和负样本,根据所述正样本和所述负样本训练得到高质量文章识别模型。
根据本发明一优选实施例,所述过滤子单元针对每篇文章,分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则确定所述文章为不符合预定要求的文章。
根据本发明一优选实施例,所述过滤子单元采用规则过滤的方式,对所述文章进行广告过滤;
所述过滤子单元采用关键字过滤的方式,对所述文章进行黄色过滤。
根据本发明一优选实施例,所述获取子单元进一步用于,
分别获取每篇微博博文的转发、评论和点赞次数;
针对每篇文章,分别确定出其对应的最有影响力的微博博文,所述最有影响力的微博博文为包含所述文章的微博博文中转发、评论、点赞次数之和最大的微博博文;
所述过滤子单元进一步用于,
针对每篇文章,分别确定出所述文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则确定所述文章为不符合预定要求的文章。
根据本发明一优选实施例,所述训练子单元分别对所述正样本和所述负样本进行特征提取,提取出的特征中包括:能够反应文章热度的特征,根据提取出的特征训练得到所述高质量文章识别模型。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可首先根据获取到的微博博文进行文章挖掘,并过滤掉挖掘到的文章中不符合预定要求的文章,之后可将剩余的文章划分为正样本和负样本,并根据正样本和负样本训练得到高质量文章识别模型,这样,后续即可根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,从而得到识别出的高质量文章,相比于现有技术,本发明中所述方案中可从微博博文中挖掘高质量文章,而微博博文的数据量非常之大,从而可获取到大量的高质量文章,而且无需雇佣写手等,成本低下,另外,从微博博文中可挖掘到各种各样的高质量文章,不受模板的限制,具有足够的创新性。
【附图说明】
图1为本发明所述基于人工智能的高质量文章挖掘方法实施例的流程图。
图2为本发明所述基于人工智能的高质量文章挖掘装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种基于人工智能的高质量文章挖掘方式,从微博平台实时接入微博数据,实时挖掘其中的高质量文章。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的高质量文章挖掘方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,根据获取到的微博博文进行文章挖掘。
在102中,过滤掉挖掘到的文章中不符合预定要求的文章。
在103中,将剩余的文章划分为正样本和负样本。
在104中,根据正样本和负样本训练得到高质量文章识别模型。
在105中,根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
可以看出,上述实施例中,可首先训练得到一个高质量文章识别模型,之后,可利用该高质量文章识别模型,实时地从微博博文中进行高质量文章的挖掘。
其中,训练得到高质量文章识别模型的过程主要包括文章挖掘、文章过滤以及模型训练等子过程,以下分别进行详细说明。
1)文章挖掘
可根据获取到的微博博文进行文章挖掘。
具体地,可从微博博文中获取文章的短链,并将短链恢复为长链,进而获取长链对应的文章。
微博博文中可能会引用或转发某一文章,那么可从微博博文中获取文章的短链,并按照现有技术将短链恢复为长链,进而利用长链来获取包括全部内容的文章,实现文章补全,并存入文章数据库。其中,可利用抓取工具,来抓取长链对应的文章内容等。
另外,还可分别获取每篇微博博文的转发、评论和点赞次数等,并可针对每篇文章,分别确定出其对应的最有影响力的微博博文,最有影响力的微博博文为包含该文章的微博博文中转发、评论、点赞次数之和最大的微博博文。
比如,针对某一文章,首先确定出哪些微博博文中引用或转发了该文章,进而可从这些微博博文中选出转发、评论、点赞次数之和最大的微博博文,将选出的微博博文作为该文章对应的最有影响力的微博博文。
2)文章过滤
针对保存在文章数据库中的各文章,可进一步对其进行过滤,从而过滤掉不符合预定要求的文章,如明显的低质量文章。
比如,针对每篇文章,可分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则确定该文章为不符合预定要求的文章。
其中,可采用规则过滤的方式,对每篇文章进行广告过滤,可采用关键字过滤的方式,对每篇文章进行黄色过滤。
较佳地,广告过滤的流程可为:文章白名单—>标题黑名单—>内容黑名单。比如,针对某一文章,可首先获取该文章的前后各N段的内容,N为正整数,具体取值可根据实际需要而定,然后确定获取到的内容中是否包括文章白名单中规定的内容、表述方式等,如记者报道等,如果是,则可确定该文章的广告过滤通过,继续保留该文章,否则,可进一步确定该文章的标题中是否包含标题黑名单中规定的内容,如果是,则可将该文章过滤掉,否则,可进一步确定该文章的内容中是否包含内容黑名单中规定的内容,如售价为多少等,如果是,则可将该文章过滤掉,否则,可确定该文章的广告过滤通过,继续保留该文章。
对于黄色过滤,如果某一文章的标题或内容中包括所设定的黄色关键字,那么则可将该文章过滤掉,否则,可确定该文章的黄色过滤通过,继续保留该文章。
另外,除上述通过进行广告过滤和黄色过滤来过滤掉挖掘到的文章中不符合预定要求的文章之外,还可针对每篇文章,分别确定出该文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则可确定该文章为不符合预定要求的文章。
所述阈值的具体取值可根据实际需要而定,比如,可取值为10000,粉丝数大于该阈值的博主通常为大V用户,其权威性相对较高,因此,可保留对应的最有影响力的微博博文的博主为大V用户的文章。
3)模型训练
经过上述过滤处理之后,可将剩余的文章划分为正样本和负样本,进而根据划分出的正样本和负样本训练得到高质量文章识别模型。
在实际应用中,可针对每篇文章,分别采用人工标注的方式,将该文章标注为高质量文章或低质量文章,如果标注为高质量文章,该文章则为正样本,否则,为负样本。
针对得到的正样本和负样本,可分别对其进行特征提取,进而根据提取出的特征训练得到高质量文章识别模型。
提取出的特征中可包括能够反应文章热度的特征,即反应文章内容是否为热点事件,此外,还可进一步包括一些其它特征,如段落数等,具体包括哪些特征可根据实际需要而定。
能够反应文章热度的特征可为点赞差值特征,针对每篇文章,可分别利用该文章对应的最有影响力的微博博文,利用现有的百度自然语言处理(NLP,Natural LanguageProcessing)点赞预估模型,对该微博博文未来的点赞数等进行预估,进而可计算出点赞差值,通过点赞差值可反应出文章的热度,比如,该微博博文当前的点赞数是100,一天后将变成1000,那么则说明热度较大,反之,该微博博文当前的点赞数是100,一天后将变为110,那么则说明热度较小,点赞差值越大,说明热度越大。
高质量文章识别模型具体为何种模型不作限制,如可为神经网络模型等,基于上述介绍,如何训练得到高质量文章识别模型为现有技术。
在得到高质量文章识别模型之后,即可利用高质量文章识别模型,实时地从微博博文中进行高质量文章的挖掘。
4)高质量文章挖掘
可实时地从微博平台获取微博博文,并且,考虑到获取速度会大于后续的处理速度,因此,可先将获取到的微博博文进行缓存。
比如,可先将获取到微博博文protobuf化,转换为二进制流,然后将转换后的二进制流传入kafka消息队列中,从而便于进行存取,相应地,可读取并解析kafka消息队列中的数据。
可按照1)-2)中所述方式,根据微博博文进行文章挖掘和文章过滤等,对于过滤后保留下的文章,可分别通过高质量文章识别模型,确定出该文章是否为高质量文章,具体实现不再赘述。
总之,采用上述方法实施例所述方案,可首先根据获取到的微博博文进行文章挖掘,并过滤掉挖掘到的文章中不符合预定要求的文章,之后可将剩余的文章划分为正样本和负样本,并根据正样本和负样本训练得到高质量文章识别模型,这样,后续即可根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,从而得到识别出的高质量文章,相比于现有技术,上述方法实施例所述方案中可从微博博文中挖掘高质量文章,而微博博文的数据量非常之大,从而可获取到大量的高质量文章,而且无需雇佣写手等,成本低下,另外,从微博博文中可挖掘到各种各样的高质量文章,不受模板的限制,具有足够的创新性。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述基于人工智能的高质量文章挖掘装置实施例的组成结构示意图。如图2所示,包括:预处理单元201以及挖掘单元202。
预处理单元201,用于根据获取到的微博博文进行文章挖掘;过滤掉挖掘到的文章中不符合预定要求的文章;将剩余的文章划分为正样本和负样本;根据正样本和负样本训练得到高质量文章识别模型。
挖掘单元202,用于根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
如图2所示,预处理单元201中可具体包括:获取子单元2011、过滤子单元2012以及训练子单元2013。
获取子单元2011,用于从微博博文中获取文章的短链,将短链恢复为长链,获取长链对应的文章。
过滤子单元2012,用于过滤掉不符合预定要求的文章。
训练子单元2013,用于将剩余的文章划分为正样本和负样本,根据正样本和负样本训练得到高质量文章识别模型。
获取子单元2011可从微博博文中获取文章的短链,并按照现有技术将短链恢复为长链,进而利用长链来获取包括全部内容的文章,实现文章补全,并存入文章数据库。
另外,获取子单元2011还可分别获取每篇微博博文的转发、评论和点赞次数等,并可针对每篇文章,分别确定出其对应的最有影响力的微博博文,最有影响力的微博博文为包含该文章的微博博文中转发、评论、点赞次数之和最大的微博博文。
针对保存在文章数据库中的各文章,可进一步对其进行过滤,从而过滤掉不符合预定要求的文章,如明显的低质量文章。
比如,针对每篇文章,过滤子单元2012可分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则可确定该文章为不符合预定要求的文章。
其中,可采用规则过滤的方式,对每篇文章进行广告过滤,可采用关键字过滤的方式,对每篇文章进行黄色过滤。
较佳地,广告过滤的流程可为:文章白名单—>标题黑名单—>内容黑名单。
除上述通过进行广告过滤和黄色过滤来过滤掉挖掘到的文章中不符合预定要求的文章之外,过滤子单元2012还可针对每篇文章,分别确定出该文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则可确定该文章为不符合预定要求的文章。
所述阈值的具体取值可根据实际需要而定,比如,可取值为10000,粉丝数大于该阈值的博主通常为大V用户,其权威性相对较高,因此,可保留对应的最有影响力的微博博文的博主为大V用户的文章。
经过上述过滤处理之后,训练子单元2013可将剩余的文章划分为正样本和负样本,进而根据划分出的正样本和负样本训练得到高质量文章识别模型。
在实际应用中,可针对每篇文章,分别采用人工标注的方式,将该文章标注为高质量文章或低质量文章,如果标注为高质量文章,该文章则为正样本,否则,为负样本。
针对得到的正样本和负样本,训练子单元2013可分别对其进行特征提取,进而根据提取出的特征训练得到高质量文章识别模型。
提取出的特征中可包括能够反应文章热度的特征,即反应文章内容是否为热点事件,此外,还可进一步包括一些其它特征,如段落数等,具体包括哪些特征可根据实际需要而定。
能够反应文章热度的特征可为点赞差值特征,针对每篇文章,可分别利用该文章对应的最有影响力的微博博文,利用现有的百度NLP点赞预估模型,对该微博博文未来的点赞数等进行预估,进而可计算出点赞差值,通过点赞差值可反应出文章的热度,比如,该微博博文当前的点赞数是100,一天后将变成1000,那么则说明热度较大,反之,该微博博文当前的点赞数是100,一天后将变为110,那么则说明热度较小,点赞差值越大,说明热度越大。
在得到高质量文章识别模型之后,挖掘单元202即可利用高质量文章识别模型,实时地从微博博文中进行高质量文章的挖掘。
图2所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
总之,采用上述装置实施例所述方案,可首先根据获取到的微博博文进行文章挖掘,并过滤掉挖掘到的文章中不符合预定要求的文章,之后可将剩余的文章划分为正样本和负样本,并根据正样本和负样本训练得到高质量文章识别模型,这样,后续即可根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,从而得到识别出的高质量文章,相比于现有技术,上述装置实施例所述方案中可从微博博文中挖掘高质量文章,而微博博文的数据量非常之大,从而可获取到大量的高质量文章,而且无需雇佣写手等,成本低下,另外,从微博博文中可挖掘到各种各样的高质量文章,不受模板的限制,具有足够的创新性。
图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图3显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即根据获取到的微博博文进行文章挖掘,过滤掉挖掘到的文章中不符合预定要求的文章,将剩余的文章划分为正样本和负样本,根据正样本和负样本训练得到高质量文章识别模型,根据高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种基于人工智能的高质量文章挖掘方法,其特征在于,包括:
根据获取到的微博博文进行文章挖掘;
过滤掉挖掘到的文章中不符合预定要求的文章;
将剩余的文章划分为正样本和负样本;
根据所述正样本和所述负样本训练得到高质量文章识别模型;
根据所述高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
2.根据权利要求1中所述的方法,其特征在于,
所述根据获取到的微博博文进行文章挖掘包括:
从微博博文中获取文章的短链;
将所述短链恢复为长链;
获取所述长链对应的文章。
3.根据权利要求1所述的方法,其特征在于,
所述过滤掉挖掘到的文章中不符合预定要求的文章包括:
针对每篇文章,分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则确定所述文章为不符合预定要求的文章。
4.根据权利要求3所述的方法,其特征在于,
所述针对每篇文章,分别对其进行广告过滤和黄色过滤包括:
采用规则过滤的方式,对所述文章进行广告过滤;
采用关键字过滤的方式,对所述文章进行黄色过滤。
5.根据权利要求3所述的方法,其特征在于,
该方法进一步包括:
分别获取每篇微博博文的转发、评论和点赞次数;
针对每篇文章,分别确定出其对应的最有影响力的微博博文,所述最有影响力的微博博文为包含所述文章的微博博文中转发、评论、点赞次数之和最大的微博博文;
所述过滤掉挖掘到的文章中不符合预定要求的文章进一步包括:
针对每篇文章,分别确定出所述文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则确定所述文章为不符合预定要求的文章。
6.根据权利要求1所述的方法,其特征在于,
所述根据所述正样本和所述负样本训练得到高质量文章识别模型包括:
分别对所述正样本和所述负样本进行特征提取,提取出的特征中包括:能够反应文章热度的特征;
根据提取出的特征训练得到所述高质量文章识别模型。
7.一种基于人工智能的高质量文章挖掘装置,其特征在于,包括:预处理单元以及挖掘单元;
所述预处理单元,用于根据获取到的微博博文进行文章挖掘;过滤掉挖掘到的文章中不符合预定要求的文章;将剩余的文章划分为正样本和负样本;根据所述正样本和所述负样本训练得到高质量文章识别模型;
所述挖掘单元,用于根据所述高质量文章识别模型,对从微博博文中挖掘出的文章进行质量识别,得到识别出的高质量文章。
8.根据权利要求7中所述的装置,其特征在于,
所述预处理单元中包括:获取子单元、过滤子单元以及训练子单元;
所述获取子单元,用于从微博博文中获取文章的短链,将所述短链恢复为长链,获取所述长链对应的文章;
所述过滤子单元,用于过滤掉不符合预定要求的文章;
所述训练子单元,用于将剩余的文章划分为正样本和负样本,根据所述正样本和所述负样本训练得到高质量文章识别模型。
9.根据权利要求8所述的装置,其特征在于,
所述过滤子单元针对每篇文章,分别对其进行广告过滤和黄色过滤,若任一过滤未通过,则确定所述文章为不符合预定要求的文章。
10.根据权利要求9所述的装置,其特征在于,
所述过滤子单元采用规则过滤的方式,对所述文章进行广告过滤;
所述过滤子单元采用关键字过滤的方式,对所述文章进行黄色过滤。
11.根据权利要求9所述的装置,其特征在于,
所述获取子单元进一步用于,
分别获取每篇微博博文的转发、评论和点赞次数;
针对每篇文章,分别确定出其对应的最有影响力的微博博文,所述最有影响力的微博博文为包含所述文章的微博博文中转发、评论、点赞次数之和最大的微博博文;
所述过滤子单元进一步用于,
针对每篇文章,分别确定出所述文章对应的最有影响力的微博博文的博主的粉丝数是否大于预定阈值,若否,则确定所述文章为不符合预定要求的文章。
12.根据权利要求8所述的装置,其特征在于,
所述训练子单元分别对所述正样本和所述负样本进行特征提取,提取出的特征中包括:能够反应文章热度的特征,根据提取出的特征训练得到所述高质量文章识别模型。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201710862013.3A 2017-09-21 2017-09-21 基于人工智能的高质量文章挖掘方法、装置及存储介质 Pending CN107729401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710862013.3A CN107729401A (zh) 2017-09-21 2017-09-21 基于人工智能的高质量文章挖掘方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710862013.3A CN107729401A (zh) 2017-09-21 2017-09-21 基于人工智能的高质量文章挖掘方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN107729401A true CN107729401A (zh) 2018-02-23

Family

ID=61206735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710862013.3A Pending CN107729401A (zh) 2017-09-21 2017-09-21 基于人工智能的高质量文章挖掘方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107729401A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292134A (zh) * 2020-02-25 2020-06-16 上海昌投网络科技有限公司 一种微信公众号是否可投广告的判断方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036784A1 (en) * 2008-08-07 2010-02-11 Yahoo! Inc. Systems and methods for finding high quality content in social media
CN103970801A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 微博广告博文识别方法及装置
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036784A1 (en) * 2008-08-07 2010-02-11 Yahoo! Inc. Systems and methods for finding high quality content in social media
CN103970801A (zh) * 2013-02-05 2014-08-06 腾讯科技(深圳)有限公司 微博广告博文识别方法及装置
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
莫祖英: "微博信息内容质量评价及其对用户", 《中国博士学位论文全文数据库信息科技辑》 *
薛国林: "《政府官员开微博的16个要诀》", 30 June 2013 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292134A (zh) * 2020-02-25 2020-06-16 上海昌投网络科技有限公司 一种微信公众号是否可投广告的判断方法及装置

Similar Documents

Publication Publication Date Title
CN108170792A (zh) 基于人工智能的问答引导方法、装置和计算机设备
CN108170773A (zh) 新闻事件挖掘方法、装置、计算机设备和存储介质
CN107085730A (zh) 一种字符验证码识别的深度学习方法及装置
CN107240395A (zh) 一种声学模型训练方法和装置、计算机设备、存储介质
CN107766371A (zh) 一种文本信息分类方法及其装置
CN107767870A (zh) 标点符号的添加方法、装置和计算机设备
WO2006078912A3 (en) Automatic dynamic contextual data entry completion system
CN107220355A (zh) 基于人工智能的新闻质量判断方法、设备及存储介质
CN103678269A (zh) 一种信息处理方法和装置
CN107808307A (zh) 业务员画像形成方法、电子装置及计算机可读存储介质
CN104866308A (zh) 一种场景图像的生成方法及装置
CN108682414A (zh) 语音控制方法、语音***、设备和存储介质
CN108563655A (zh) 基于文本的事件识别方法和装置
CN108491421A (zh) 一种生成问答的方法、装置、设备和计算存储介质
CN108510096A (zh) 商户流失预测方法、装置、设备及存储介质
CN107346229A (zh) 语音输入方法及装置、计算机装置及可读存储介质
CN108153719A (zh) 合并电子表格的方法和装置
CN102915493A (zh) 信息处理装置和方法
CN104267922A (zh) 一种信息处理方法及电子设备
CN108171189A (zh) 一种视频编码方法、视频编码装置及电子设备
CN106777336A (zh) 一种基于深度学习的公司名成分抽取***和方法
CN110046637A (zh) 一种合同段落标注模型的训练方法、装置及设备
CN107908796A (zh) 电子政务查重方法、装置以及计算机可读存储介质
CN106462933A (zh) 使用内容结构来社交地连接用户
CN112328735A (zh) 热点话题确定方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223

RJ01 Rejection of invention patent application after publication