CN107491432B - 基于人工智能的低质量文章识别方法及装置、设备及介质 - Google Patents

基于人工智能的低质量文章识别方法及装置、设备及介质 Download PDF

Info

Publication number
CN107491432B
CN107491432B CN201710469542.7A CN201710469542A CN107491432B CN 107491432 B CN107491432 B CN 107491432B CN 201710469542 A CN201710469542 A CN 201710469542A CN 107491432 B CN107491432 B CN 107491432B
Authority
CN
China
Prior art keywords
article
training
low
quality
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710469542.7A
Other languages
English (en)
Other versions
CN107491432A (zh
Inventor
乔超
黄波
李大任
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710469542.7A priority Critical patent/CN107491432B/zh
Publication of CN107491432A publication Critical patent/CN107491432A/zh
Priority to US16/013,162 priority patent/US11645554B2/en
Application granted granted Critical
Publication of CN107491432B publication Critical patent/CN107491432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于人工智能的低质量文章识别方法及装置、设备及介质。其方法包括:获取新闻推荐***中的待识别的文章的用户反馈行为特征;根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。本实施例的技术方案,能够根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。

Description

基于人工智能的低质量文章识别方法及装置、设备及介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的低质量文章识别方法及装置、设备及介质。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
随着移动互联网技术的发展以及移动终端的使用普及,为了更加方便用户通过移动终端能够及时浏览各种最新的新闻资源,市面上逐步涌现出了很多的新闻推荐***。新闻推荐***可以根据对用户的自画像,了解用户的兴趣,从而根据用户的兴趣有针对性地向用户推荐的用户感兴趣的文章。但是现有技术中,新闻推荐***中包括的文章良莠不齐,可能包括一些权威性的高质量的文章,也可能包括一些粗俗、虚假新闻、或者故意吸引用户眼球的、诽谤事实的一些低质量的文章。为了防止低质量的文章继续在网络环境中污染网络资源,新闻推荐***中会对新闻推荐***的文章库中包括的所有文章进行人工审核,以识别出低质量的文章,并加以屏蔽或者其他处理。
但是,现有技术中通过人工审核的方式对新闻推荐***的文章库中的所有文章进行审核,导致低质量文章的识别过程非常的费时费力,低质量文章的识别效率非常低。
【发明内容】
本发明提供了一种基于人工智能的低质量文章识别方法及装置、设备及介质,用于提高低质量文章的识别效率。
本发明提供一种基于人工智能的低质量文章识别方法,所述方法包括:
获取新闻推荐***中的待识别的文章的用户反馈行为特征;
根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,还包括:
获取新闻推荐***中的待识别的文章的特征;
对应地,根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,具体还包括:
根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章之前,所述方法还包括:
采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各所述训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
根据所述数条训练数据,训练所述低质量文章识别模型。
进一步可选地,如上所述的方法中,各条所述训练数据中还包括对应的所述训练文章的特征。
进一步可选地,如上所述的方法中,若所述待识别的文章的用户反馈行为特征包括用户评论,所述低质量文章识别模型包括第一分类器模型时,根据所述用户反馈行为特征和预先训练的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,具体包括:
根据所述待识别的文章的所述用户评论和预先训练的初级低质量文章识别模型,对所述待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
对所述待识别的文章的所述用户评论进行分词处理;
检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到所述待识别的文章的所述用户评论的主体特征词表达;各所述主体特征词为预先采集的、用于评论低质量文章的评论主体;
检测分词处理得到的各所述分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到所述待识别的文章的所述用户评论的评论内容特征词表达,各所述评论内容特征词为预先采集的、用于评论低质量文章的词语;
将所述初级预测结果、所述主体特征词表达以及所述评论内容特征词表达,输入至预先训练的所述第一分类器模型中,使得所述第一分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据所述数条训练数据,训练所述低质量文章识别模型,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述用户评论;
对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果;
对于各所述训练文章的所述用户评论,根据所述主体特征词库,获取对应的所述训练文章的所述用户评论对应的主体特征词表达;
对于各所述训练文章的所述用户评论,根据所述评论内容特征词词典,获取对应的所述训练文章的所述用户评论对应的评论内容特征词表达;
利用各所述训练文章的所述用户评论对应的所述初级预测结果、所述主体特征词表达、所述评论内容特征词表达以及各所述训练文章的已知类别,训练所述第一分类器模型。
进一步可选地,如上所述的方法中,对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果之前,所述方法还包括:
使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型;
使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型,具体包括:
依次将各所述训练文章对应的所述用户评论输入至所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型预测出对应的训练文章的预测类别;判断所述训练文章的预测类别与已知的类别是否一致;若不一致,调整所述初级低质量文章识别模型的参数,使得所述初级低质量文章识别模型预测所述训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各所述训练文章的所述用户评论对所述初级低质量文章识别模型进行训练,直到所述初级低质量文章识别模型收敛,确定所述初级低质量文章识别模型的参数,从而确定所述初级低质量文章识别模型。
进一步可选地,如上所述的方法中,若所述待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,所述待识别的文章的特征包括展现次数,所述低质量文章识别模型包括第二分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数,输入至预先训练的所述第二分类器模型中,使得所述第二分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述点击打开次数以及所述点击不喜欢的次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数以及各所述训练文章的已知类别,训练所述第二分类器模型。
进一步可选地,如上所述的方法中,若所述待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,所述待识别的文章的特征包括所述待识别的文章的长度及包括的图片的数量,所述低质量文章识别模型包括第三分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述阅读进度、所述阅读时长、所述待识别的文章的长度及包括的图片的数量,输入至预先训练的所述第三分类器模型中,使得所述第三分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述阅读进度以及所述阅读时长;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的长度及包括的图片的数量;
利用各所述训练文章的所述阅读进度、所述阅读时长、所述长度及包括的图片的数量以及各所述训练文章的已知类别,训练所述第三分类器模型。
进一步可选地,如上所述的方法中,若所述待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,所述待识别的文章的特征包括所述待识别的文章的展现次数,所述低质量文章识别模型包括第四分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述收藏次数、所述分享次数以及所述展现次数,输入至预先训练的所述第四分类器模型中,使得所述第四分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述收藏次数以及所述分享次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述收藏次数、所述分享次数、所述展现次数以及各所述训练文章的已知类别,训练所述第四分类器模型。
进一步可选地,如上所述的方法中,若所述低质量文章识别模型包括至少两个预先训练的分类器模型时,根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
根据所述待识别的文章的所述用户反馈行为特征,或者根据所述待识别的文章的所述用户反馈行为特征和所述待识别的文章的特征,并结合预先训练的各所述分类器模型,获取各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果;
根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的方法中,根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章之前,所述方法还包括:
接收用户设置的各所述分类器模型的权重。
进一步可选地,如上所述的方法中,根据所述数条训练数据,训练所述低质量文章识别模型,具体包括:
第1轮训练时,根据各所述训练数据的采样概率,从采集得到的所述数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,所述D’为所述D的子集;所述第1轮训练时各所述训练数据的初始采样概率相同;
利用所述训练数据子集D’中的各所述训练数据分别训练多个预选的分类器模型;
根据对所述多个预选的所述分类器模型进行训练的结果,计算第1轮训练时各所述分类器模型的训练误差;
根据各所述分类器模型的训练误差,获取所述训练误差最小的所述分类器模型作为本轮训练选定的第1轮分类器模型;
根据所述第1轮分类器模型的训练误差,设置所述第1轮分类器模型的权重;
根据所述第1轮分类器模型对所述训练数据子集中的各所述训练数据的训练结果,更新所述训练数据子集中各所述训练数据的采样概率,使得本轮训练时预测结果错误的所述训练数据的所述采样概率增大,而预测结果正确的所述训练数据的所述采样概率减小;
重复执行上述步骤,进行第2至N轮训练,分别得到第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
本发明提供一种基于人工智能的低质量文章识别装置,所述装置包括:
特征获取模块,用于获取新闻推荐***中的待识别的文章的用户反馈行为特征;
识别模块,用于根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,所述特征获取,还用于获取新闻推荐***中的待识别的文章的特征;
所述识别模块,具体用于根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,还包括:
采集模块,用于采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各所述训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
训练模块,用于根据所述数条训练数据,训练所述低质量文章识别模型。
进一步可选地,如上所述的装置中,各条所述训练数据中还包括对应的所述训练文章的特征。
进一步可选地,如上所述的装置中,若所述待识别的文章的用户反馈行为特征包括用户评论,所述低质量文章识别模型包括第一分类器模型时,所述识别模块,具体用于:
根据所述待识别的文章的所述用户评论和预先训练的初级低质量文章识别模型,对所述待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
对所述待识别的文章的所述用户评论进行分词处理;
检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到所述待识别的文章的所述用户评论的主体特征词表达;各所述主体特征词为预先采集的、用于评论低质量文章的评论主体;
检测分词处理得到的各所述分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到所述待识别的文章的所述用户评论的评论内容特征词表达,各所述评论内容特征词为预先采集的、用于评论低质量文章的词语;
将所述初级预测结果、所述主体特征词表达以及所述评论内容特征词表达,输入至预先训练的所述第一分类器模型中,使得所述第一分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述用户评论;
对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果;
对于各所述训练文章的所述用户评论,根据所述主体特征词库,获取对应的所述训练文章的所述用户评论对应的主体特征词表达;
对于各所述训练文章的所述用户评论,根据所述评论内容特征词词典,获取对应的所述训练文章的所述用户评论对应的评论内容特征词表达;
利用各所述训练文章的所述用户评论对应的所述初级预测结果、所述主体特征词表达、所述评论内容特征词表达以及各所述训练文章的已知类别,训练所述第一分类器模型。
进一步可选地,如上所述的装置中,所述训练模块,还用于使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型;
所述训练模块,具体用于依次将各所述训练文章对应的所述用户评论输入至所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型预测出对应的训练文章的预测类别;判断所述训练文章的预测类别与已知的类别是否一致;若不一致,调整所述初级低质量文章识别模型的参数,使得所述初级低质量文章识别模型预测所述训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各所述训练文章的所述用户评论对所述初级低质量文章识别模型进行训练,直到所述初级低质量文章识别模型收敛,确定所述初级低质量文章识别模型的参数,从而确定所述初级低质量文章识别模型。
进一步可选地,如上所述的装置中,若所述待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,所述待识别的文章的特征包括展现次数,所述低质量文章识别模型包括第二分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数,输入至预先训练的所述第二分类器模型中,使得所述第二分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述点击打开次数以及所述点击不喜欢的次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数以及各所述训练文章的已知类别,训练所述第二分类器模型。
进一步可选地,如上所述的装置中,若所述待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,所述待识别的文章的特征包括所述待识别的文章的长度及包括的图片的数量,所述低质量文章识别模型包括第三分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述阅读进度、所述阅读时长、所述待识别的文章的长度及包括的图片的数量,输入至预先训练的所述第三分类器模型中,使得所述第三分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述阅读进度以及所述阅读时长;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的长度及包括的图片的数量;
利用各所述训练文章的所述阅读进度、所述阅读时长、所述长度及包括的图片的数量以及各所述训练文章的已知类别,训练所述第三分类器模型。
进一步可选地,如上所述的装置中,若所述待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,所述待识别的文章的特征包括所述待识别的文章的展现次数,所述低质量文章识别模型包括第四分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述收藏次数、所述分享次数以及所述展现次数,输入至预先训练的所述第四分类器模型中,使得所述第四分类器模型预测出所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述收藏次数以及所述分享次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述收藏次数、所述分享次数、所述展现次数以及各所述训练文章的已知类别,训练所述第四分类器模型。
进一步可选地,如上所述的装置中,若所述低质量文章识别模型包括至少两个预先训练的分类器模型时,所述识别模块,具体用于:
根据所述待识别的文章的所述用户反馈行为特征,或者根据所述待识别的文章的所述用户反馈行为特征和所述待识别的文章的特征,并结合预先训练的各所述分类器模型,获取各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果;
根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章。
进一步可选地,如上所述的装置中,还包括:
接收模块,用于接收用户设置的各所述分类器模型的权重。
进一步可选地,如上所述的装置中,所述训练模块,具体用于:
第1轮训练时,根据各所述训练数据的采样概率,从采集得到的所述数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,所述D’为所述D的子集;所述第1轮训练时各所述训练数据的初始采样概率相同;
利用所述训练数据子集D’中的各所述训练数据分别训练多个预选的分类器模型;
根据对所述多个预选的所述分类器模型进行训练的结果,计算第1轮训练时各所述分类器模型的训练误差;
根据各所述分类器模型的训练误差,获取所述训练误差最小的所述分类器模型作为本轮训练选定的第1轮分类器模型;
根据所述第1轮分类器模型的训练误差,设置所述第1轮分类器模型的权重;
根据所述第1轮分类器模型对所述训练数据子集中的各所述训练数据的训练结果,更新所述训练数据子集中各所述训练数据的采样概率,使得本轮训练时预测结果错误的所述训练数据的所述采样概率增大,而预测结果正确的所述训练数据的所述采样概率减小;
重复执行上述步骤,进行第2至N轮训练,分别得到第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于人工智能的低质量文章识别方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于人工智能的低质量文章识别方法。
本发明的基于人工智能的低质量文章识别方法及装置、设备及介质,通过获取新闻推荐***中的待识别的文章的用户反馈行为特征;根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。本实施例的技术方案,能够根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
【附图说明】
图1为本发明的基于人工智能的低质量文章识别方法实施例一的流程图。
图2为本发明的基于人工智能的低质量文章识别方法实施例二的流程图。
图3为本发明的基于人工智能的低质量文章识别方法的一种应用架构示例图。
图4为本发明的基于人工智能的低质量文章识别方法实施例三的流程图。
图5为本发明的基于人工智能的低质量文章识别方法实施例四的流程图。
图6为本发明的基于人工智能的低质量文章识别方法实施例五的流程图。
图7为本发明的基于人工智能的低质量文章识别方法实施例六的流程图。
图8为本发明的基于人工智能的低质量文章识别方法的另一种应用架构示例图。
图9为本发明的基于人工智能的低质量文章识别装置实施例一的结构图。
图10为本发明的基于人工智能的低质量文章识别装置实施例二的结构图。
图11为本发明的计算机设备实施例的结构图。
图12为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的基于人工智能的低质量文章识别方法实施例一的流程图。如图1所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
100、获取新闻推荐***中的待识别的文章的用户反馈行为特征;
101、根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。
本实施例的基于人工智能的低质量文章识别方法的执行主体为基于人工智能的低质量文章识别装置。该基于人工智能的低质量文章识别装置可以为一个独立的电子装置,也可以为采用软件集成的、运行在其他硬件设备的装置。
在新闻推荐***中,用户对于新闻资源的反馈信息十分重要。尤其是对于低质资源的识别中,用户的反馈行为能够直接反映出最真实的用户体验,是判断新闻资源是否低质时的重要参考。同时,相比与纯粹利用新闻的内容本身来对文章质量进行评价,利用用户对新闻资源的反馈行为,能够解决一些从新闻内容本身难以发现的问题,例如:虚假新闻,不利用背景知识的前提下,仅从新闻内容上很难判断一条新闻是否为假新闻,而利用用户的反馈行为,则可以从后验的角度解决这类问题。
实际应用中,用户的反馈行为可以分为显式和隐式两种,其中显示反馈行为包括:用户评论和不喜欢点击;隐式反馈行为包括:点击打开、阅读时长、点击查看原文、收藏和分享情况等。本实施例便是要利用用户对新闻资源的多种反馈行为,对低质的新闻资源进行识别,以克服现有技术中人工审核的方式对低质量文章的识别效率低的技术问题。
具体地,本实施例中,对于新闻推荐***中的待识别的文章,可以获取新闻推荐***中的待识别的文章的用户反馈行为特征。然后将待识别的文章的用户反馈行为特征输入至预先确定的低质量文章识别模型中,预先确定的低质量文章识别模型可以预测出该待识别的文章是否为低质量的文章,从而可以对待识别的文章是否为低质量的文章进行识别。
本实施例的基于人工智能的低质量文章识别方法,通过获取新闻推荐***中的待识别的文章的用户反馈行为特征;根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。本实施例的技术方案,能够根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
进一步可选地,在上述图1所示实施例的技术方案的基础上,还可以包括:获取新闻推荐***中的待识别的文章的特征。
此时对应地步骤101“根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章”,具体可以包括:根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,并结合待识别的文章的特征,识别待识别的文章是否为低质量的文章。
也就是说,有些场景下,可以根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,而在另一些场景下,还可以根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,并结合待识别的文章的特征,识别待识别的文章是否为低质量的文章。详细如下述方法实施例的记载。
且进一步可选地,在上述实施例的技术方案的基础上,步骤101“根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章”之前,还可以包括如下步骤:
(a1)采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
(a2)根据数条训练数据,训练低质量文章识别模型。
本实施例中,采集的数条训练数据可以包括正例和负例两方面的数据,即包括低质量的文章和非低质量的文章。其中采集低质资源即低质量的文章时,这部分数据主要来自两方面:一方面利用新闻推荐***中,人工审核不通过的数据;另一方面,收集用户点击不喜欢较多的资源,作为疑似低质资源,通过进行人工标注。
采集非低质资源即非低质量的文章时:这部分数据的收集也分为两方面:一方面进行作者粒度的标注,标注出文章质量较好的新闻作者,然后认为该类作者的文章也属于非低质文章;另一方面,收集用户点击打开次数比较多以及有分享、收藏行为的文章,进行人工标注。新闻推荐***向用户推送文章时,用户若有兴趣,会执行点击打开的操作,点击打开的次数的统计,便是对文章的点击打开次数的统计。
本实施例中采集的数条训练数据主要包括已知类别为低质量文章的用户行为反馈特征,以及已知类别为非低质量的用户行为反馈特征。每一条训练数据对应一片训练文章的数据。然后根据各训练数据中的用户行为反馈特征以及已知类别,训练低质量文章识别模型。
进一步可选地,若根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章时,还需要结合待识别的文章的特征,此时对应地,步骤(a1)中采集的各条训练数据中还需要包括对应的训练文章的特征。
本实施例的低质量文章识别模型具体可以为神经网络模型。详细如下述方法实施例的记载。
图2为本发明的基于人工智能的低质量文章识别方法实施例二的流程图。本实施例的基于人工智能的低质量文章识别方法中,以待识别的文章的用户反馈行为特征包括用户评论、低质量文章识别模型包括第一分类器模型为例描述本发明的技术方案。如图2所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
200、采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的用户评论,作为训练数据,得到数条训练数据;
本实施例中,以用户反馈行为特征仅包括用户评论为例,低质量文章识别模型包括一个第一分类器模型,以根据用户评论识别待识别的文章是否为低质量的文章为例。实际应用中,不同的分类器模型也可以共用相同的训练数据,此时采集的数条训练数据集中除了第一分类器模型识别低质量文章所需要的用户评论之外,还可以采集各条训练数据的其他的用户反馈行为特征,如点击打开次数、点击不喜欢的次数、阅读进度、阅读时长、收藏次数以及分享次数等等。
实际应用中,采集的训练数据的条数可以一定量级的数据,如20万到30 万或者以上,采集的训练数据的条数越多,利用训练数据训练的第一分类器模型越准确。后续跟进第一分类器模型识别的待识别的文章是否为低质量的文章越准确。
201、从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的用户评论;
例如,若数条训练数据的各训练文章的用户反馈行为特征中除了包括用户评论之外,还包括点击打开次数,点击不喜欢的次数、阅读进度、阅读时长、收藏次数以及分享次数等等,本实施例中,仅从中获取用户评论即可。
202、对于各训练文章的用户评论,将对应的用户评论输入至预先训练的初级低质量文章识别模型中,使得初级低质量文章识别模型输出对对应的训练文章是否为低质量的文章的初级预测结果;
本实施例的初级低质量文章识别模型具体可以采用卷积神经网络(Convolutional Neural Networks;CNN)模型的结构,该初级低质量文章识别模型为根据用户评论到是否为低质量文章的识别的端到端的模型。由于该初级低质量文章识别模型的识别结果的准确度不是非常高,但是其输出的初级预测结果可以为第一分类器模型的输入,以使得第一分类器模型可以对待识别文章是否为低质量文章进行更加准确地预测。
本实施例的初级低质量文章识别模型也需要进行预先训练得到。例如该步骤202之前,还可以包括:使用各训练文章对应的用户评论和各训练文章的已知的类别,训练初级低质量文章识别模型;例如,训练该初级低质量文章识别模型的过程,具体可以包括如下步骤:
依次将各训练文章对应的用户评论输入至初级低质量文章识别模型中,使得初级低质量文章识别模型预测出对应的训练文章的预测类别;判断训练文章的预测类别与已知的类别是否一致;若不一致,调整初级低质量文章识别模型的参数,使得初级低质量文章识别模型预测训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各训练文章的用户评论对初级低质量文章识别模型进行训练,直到初级低质量文章识别模型收敛,确定初级低质量文章识别模型的参数,从而确定初级低质量文章识别模型。
具体地,训练之前,该初级低质量文章识别模型的参数设置有初始值,将第一条训练数据的用户评论输入至该初级低质量文章识别模型中时,该初级低质量文章识别模型根据输入的用户评论,结合初级低质量文章识别模型的参数的初始值,可以预测出该训练数据的训练文章是否为低质量的文章,即预测训练文章的类别,训练文章的类别包括低质量文章或者非低质量文章。若预测的类别与已知的训练数据中该训练文章的类别一致,暂不调整初级低质量文章识别模型的参数。则继续使用下一条训练数据按照上述方式输入至该初级低质量文章识别模型中进行训练。否则若预测的类别与已知的训练数据中该训练文章的类别不一致,此时可以调整初级低质量文章识别模型的参数,使得初级低质量文章识别模型预测训练文章的预测类别与已知的类别趋于一致。然后保存该初级低质量文章识别模型的参数,继续使用下一条训练数据按照上述方式输入至该初级低质量文章识别模型中进行训练。以此类推,使用各条训练数据训练初级低质量文章识别模型,直到初级低质量文章识别模型收敛,即多次输入训练数据,预测得到的训练数据对应的训练文章的类别与已知类别一致,此时对初级低质量文章识别模型训练完毕,此时初级低质量文章识别模型的参数便确定,进而确定了初级低质量文章识别模型。
203、对于各训练文章的用户评论,根据主体特征词库,获取对应的训练文章的用户评论对应的主体特征词表达;
例如,对于每一篇训练文章的用户评论,可以先对用户评论进行分词处理,即切词,得到最小单元的多个分词,具体可以参考相关切词技术来实现,在此不再赘述。然后检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到该训练文章的用户评论的主体特征词表达。
本实施例的主体特征词库中包括多个主体特征词,各主体特征词为预先采集的、用于评论低质量文章的评论主体。
例如,若用户评论为负面评论时,需要区分该用户评论是对文章质量或文章作者的,还是对文章内的事件或实体进行的评论。例如,对于明星新闻下的负面评论,要区分用户是不喜欢该明星,对明星的负面评论,还是新闻的内容质量做出的负面评论。例如,本实施例中,可以预先通过人工审核的方式,过滤出一些用户对新闻内容质量的负面评论,即过滤出低质量文章的用户评论。然后采集这些负面的用户评论中的评论主体,作为评论低质量文章的评论主体,即主体特征词。并将这些主体特征词存储在一个主体特征词库中。
使用时,对于每一个训练文章的用户评论,对用户评论分词后,判断分词得到的各分词对主体特征词库中各主体特征词的命中情况,例如若命中可以标识为1,未命中,可以标识为0。这样,可以得到该训练文章的用户评论对应的主体特征词表达;该主体特征词表达具体可以为一个向量的形式,其向量中仅包括0和1两种数字,向量的维度等于主体特征词库中包括的主体特征词的数量。
204、对于各训练文章的用户评论,根据评论内容特征词词典,获取对应的训练文章的用户评论对应的评论内容特征词表达;
对于每一篇训练文章的用户评论,同理可以先对用户评论进行分词处理,即切词,得到最小单元的多个分词。然后检测分词处理得到的各分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到该训练文章的用户评论的评论内容特征词表达。
本实施例的评论内容特征词词典中包括多个评论内容特征词,各评论内容特征词为预先采集的、用于评论低质量文章的词语。
同理,本实施例中,也可以预先通过人工审核的方式,过滤出一些用户对新闻内容质量的负面评论,即过滤出低质量文章的用户评论。然后采集这些负面的用户评论中比较典型的评论内容特征词,作为评论低质量文章的评论内容特征词。例如可以对采集的所有低质量文章的用户评论进行分词,然后统计分词之后的各词在所有低质量文章的用户评论中出现的频次,获取出现频率较高的top N个词语作为评论内容特征词。并将这些评论内容特征词存储在一个评论内容特征词词典中。
也就是说,本实施例的评论内容特征词词典挖掘了各种低质量类别下的评论内容特征词。例如标题党类的新闻下面的评论出现较多有:“骗流量”、“牛头不对马嘴”等,可以作为评论内容特征词。
或者,本实施例的评论内容特征词词典还可以采用如下方式生成:用户可以采集多个评论低质量文章的用户评论,生成评论语料集。然后对评论语料集中的各用户评论进行现有的分词技术进行分词,然后由于网络的发展之神速,用户评论中还会经常出现一些网络中新出现的词语,此时还需要进行一些新词发现。在新词发现时,可以根据词语中字与字之间的凝固度、信息熵以及该词语在评论语料集中出现的词频,当某个词语的凝固度、信息熵以及词频均大于各自对应的阈值,该词语可以作为新发现的词语。然后可以将新发现的词语以及对评论语料集中的各用户评论进行现有的分词技术进行分词得到的词语放在一起,生成一个词库。然后可以由用户设置多个用于评价低质量文章的种子词。用户还可以将低质量文章的评价分成多个类别,如骗流量、或者扭曲事实,或者其他类别的低质量文章。然后可以按照类别分别设置各类别种子词。然后在新发现的词语以及分词得到的词语构成的词库中筛选在评论语料集中与各类别种子词共现的词语。可以从共现的词语中取出top N个共现频率最大的词语,然后将top N个共现频率最大的词语与各种类种子词分别作为评论内容特征词,一起构成评论内容特征词词典。
使用时,对于每一个训练文章的用户评论,对用户评论分词后,判断分词得到的各分词对评论内容特征词词典中各评论内容特征词的命中情况,例如若命中可以标识为1,未命中,可以标识为0。这样,可以得到该训练文章的用户评论对应的评论内容特征词表达;该评论内容特征词表达具体也可以为一个向量的形式,其向量中仅包括0和1两种数字,向量的维度等于评论内容特征词词典中包括的评论内容特征词的数量。
205、利用各训练文章的用户评论对应的初级预测结果、主体特征词表达、评论内容特征词表达以及各训练文章的已知类别,训练第一分类器模型;
训练时,对于每条训练数据,根据上述步骤202、203以及204分别可以得到该条训练数据的初级预测结果、主体特征词表达以及评论内容特征词表达,然后将该条训练数据的初级预测结果、主体特征词表达以及评论内容特征词表达,一起输入至第一分类器模型中。
对于首次训练时,第一分类器模型的参数可以设置有初始值,将第一条训练数据的初级预测结果、主体特征词表达以及评论内容特征词表达,输入至第一分类器模型中之后,第一分类器模型根据参数的初始值以及输入的参数,可以预测该训练数据是否为低质量文章。若预测的类别与已知类别一致,继续使用下一条训练数据训练,否则若预测的类别与已知类别不一致,则调整第一分类器模型的参数,使得第一分类器模型预测训练文章的预测类别与已知的类别趋于一致。然后保存该第一分类器模型的参数,继续使用下一条训练数据按照上述方式输入至该第一分类器模型中进行训练。以此类推,使用各条训练数据训练第一分类器模型,直到第一分类器模型收敛,即多次输入训练数据,预测得到的训练数据对应的训练文章的类别与已知类别一致,此时对第一分类器模型训练完毕,可以确定第一分类器模型的参数,从而确定了初级低质量文章识别模型。本实施例的第一分类器模型可以采用梯度提升决策树(Gradient Boosting Decision Tree;GBDT)模型。
本实施例的上述训练第一分类模型可以为线下预先训练得到的,下面步骤利用第一分类器模型对待识别的文章进行在线检测。
206、获取待识别的文章的用户评论;
207、根据待识别的文章的用户评论和预先训练的初级低质量文章识别模型,对待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
即将待识别文章的评论输入至初级低质量文章识别模型中,由初级低质量文章识别模型输出初级预测结果。
208、对待识别的文章的用户评论进行分词处理;
209、检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到待识别的文章的用户评论的主体特征词表达;
详细可以参考上述步骤203的实施,在此不再赘述。
210、检测分词处理得到的各分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到待识别的文章的用户评论的评论内容特征词表达;
详细可以参考上述步骤204的实施,在此不再赘述。
211、将初级预测结果、主体特征词表达以及评论内容特征词表达,输入至预先训练的第一分类器模型中,使得第一分类器模型预测出待识别的文章是否为低质量的文章。
最后,将初级预测结果、主体特征词表达以及评论内容特征词表达,输入至预先训练的第一分类器模型如GBDT模型中,使得第一分类器模型预测出待识别的文章是否为低质量的文章。例如,该第一分类器模型可以输入为一个置信度值,若该置信度值大于或者一定置信度阈值,可认为该训练数据为低质量文章,可以输出-1,表示该待识别的文章为低质量的文章。若该置信度值小于置信度阈值,可认为该训练数据为非低质量文章,可以输出1,表示该待识别的文章为非低质量的文章。训练时的实现方式同理,不再赘述。
另外,可选地,若某待识别的文章的用户反馈行为特征中未包括用户评论,此时,步骤206获取到用户评论为空,该GBDT模型可以直接输出0,表示放弃投票。
图3为本发明的基于人工智能的低质量文章识别方法的一种应用架构示例图。根据图3所示的架构,具体可以采用上述图2所示实施例的流程实现基于人工智能的低质量文章识别方法,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的基于人工智能的低质量文章识别方法,通过采用上述技术方案,能够根据待识别的文章的用户评论和预先确定的低质量文章识别模型自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
图4为本发明的基于人工智能的低质量文章识别方法实施例三的流程图。如图4所示,本实施例的基于人工智能的低质量文章识别方法中,以待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,待识别的文章的特征包括展现次数,低质量文章识别模型包括第二分类器模型为例描述本发明的技术方案。如图4所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
300、采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的点击打开次数、点击不喜欢的次数以及展现次数,作为训练数据,得到数条训练数据;
本实施例中,以用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,文章的特征包括展现次数,低质量文章识别模型包括一个第二分类器模型,以根据用户评论识别待识别的文章是否为低质量的文章为例。实际应用中,不同的分类器模型也可以共用相同的训练数据,此时采集的数条训练数据集中可以包括所有的表征用户反馈行为特征的信息。详细参考上述图2所示实施例的步骤200的解释,在此不再赘述。
301、从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的点击打开次数以及点击不喜欢的次数;从数条训练数据的各训练文章的特征中,获取各训练文章的展现次数;
本实施例的展现次数为网络推荐***中的文章向用户展现的次数。例如,某文章共展现了200次,该200次中可能部分次数会有向同一用户的展现,也可能均向不同的用户展现,即向200各用户各展现一次。本实施例中不考虑用户,仅表示该文章被展现过200次。而多其中100次被点击打开了,则100表示点击打开次数。50次被点击不喜欢了,50为点击不喜欢次数。被收藏了120 次,120为收藏次数,被分享了30次,30便为分享次数。
302、利用各训练文章的点击打开次数、点击不喜欢的次数以及展现次数以及各训练文章的已知类别,训练第二分类器模型;
本实施例中利用各训练文章的点击打开次数、点击不喜欢的次数以及展现次数以及各训练文章的已知类别,训练第二分类器模型,与上述图2所示实施例的步骤205中,利用各训练文章的用户评论对应的初级预测结果、主体特征词表达、评论内容特征词表达以及各训练文章的已知类别,训练第一分类器模型的过程的区别仅在于:将上述步骤205中各训练文章的用户评论对应的初级预测结果、主体特征词表达、评论内容特征词表达,替换为本步骤中的各训练文章的点击打开次数、点击不喜欢的次数以及展现次数,训练过程中的实现原理相同,详细可以参考上述图2所示实施例的步骤205的解释,在此不再赘述。
本实施例的第二分类器模型,具体可以采用逻辑(Logistic)回归分类模型。
同理,本实施例的上述训练第二分类模型可以为线下预先训练得到的,下面步骤利用第二分类器模型对待识别的文章进行在线检测。
303、获取待识别的文章的用户反馈行为特征中的点击打开次数和点击不喜欢的次数,以及待识别的文章的特征中的展现次数;
304、将待识别的文章的点击打开次数、点击不喜欢的次数以及展现次数,输入至预先训练的第二分类器模型中,使得第二分类器模型预测出待识别的文章是否为低质量的文章。
最后,将待识别的文章的点击打开次数、点击不喜欢的次数以及展现次数,输入至第二分类器模型如逻辑(Logistic)回归分类模型中,使得第二分类器模型预测出待识别的文章是否为低质量的文章,例如,若识别待识别的文章为低质量的文章,输出为-1、否则根据这些参数无法确定是否为非低质,可以放弃投票,输出为0。
本实施例的基于人工智能的低质量文章识别方法,通过采用上述技术方案,能够根据待识别的文章的点击打开次数、点击不喜欢的次数以及展现次数,结合预先确定的低质量文章识别模型,自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
图5为本发明的基于人工智能的低质量文章识别方法实施例四的流程图。如图5所示,本实施例的基于人工智能的低质量文章识别方法中,以待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,待识别的文章的特征包括待识别的文章的长度及包括的图片的数量,低质量文章识别模型包括第三分类器模型为例描述本发明的技术方案。如图5所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
400、采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的阅读进度、阅读时长以及各训练文章包括待识别的文章的长度及包括的图片的数量,作为训练数据,得到数条训练数据;
401、从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的阅读进度以及阅读时长;从数条训练数据的各训练文章的特征中,获取各训练文章的长度及包括的图片的数量;
402、利用各训练文章的阅读进度、阅读时长、长度及包括的图片的数量以及各训练文章的已知类别,训练第三分类器模型;
403、获取待识别的文章的阅读进度、阅读时长、待识别的文章的长度及包括的图片的数量;
404、将待识别的文章的阅读进度、阅读时长、待识别的文章的长度及包括的图片的数量,输入至预先训练的第三分类器模型中,使得第三分类器模型预测出待识别的文章是否为低质量的文章。
与上述图4所示实施例的区别在于:本实施例的用户反馈行为特征包括阅读进度和阅读时长,而文章的特征包括文章的长度及包括的图片的数量,其中阅读进度可以采用阅读的百分数来标识,阅读时长可以采用分钟来标识,文章的长度可以采用字数来标识。而图4所示实施例的用户反馈行为特征包括点击打开次数和点击不喜欢的次数;而文章的特征包括文章的展现次数。其余实现原理相同详细可以参考上述图4所示实施例的记载,在此不在赘述。
同理,本实施例的第三分类器模型,具体也可以采用逻辑(Logistic)回归分类模型。本实施例中,第三分类器模型是根据阅读进度和阅读时长以及文章的长度及包括的图片的数量来预测文章是否为低质量。如阅读进度越长,阅读时长越长,文章为非低质可能性越大;而阅读进度越短,阅读时长越短,文章为低质的可能性越大。若第三分类器模型识别待识别的文章为低质量的文章,输出为-1、否则若未识别到该待识别文章为低质量文章,可以认为该待识别文章为非低质量文章,此时可以输出为1。
本实施例的基于人工智能的低质量文章识别方法,通过采用上述技术方案,能够根据待识别的文章的阅读进度、阅读时长、待识别的文章的长度及包括的图片的数量,结合预先确定的低质量文章识别模型,自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
图6为本发明的基于人工智能的低质量文章识别方法实施例五的流程图。如图6所示,本实施例的基于人工智能的低质量文章识别方法中,以待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,待识别的文章的特征包括待识别的文章的展现次数,低质量文章识别模型包括第四分类器模型为例描述本发明的技术方案。如图6所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
500、采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的收藏次数、分享次数以及各训练文章的展现次数,作为训练数据,得到数条训练数据;
501、从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的收藏次数以及分享次数;从数条训练数据的各训练文章的特征中,获取各训练文章的展现次数;
502、利用各训练文章的收藏次数、分享次数、展现次数以及各训练文章的已知类别,训练第四分类器模型;
503、获取待识别的文章的用户反馈行为特征中的收藏次数和分享次数,以及待识别的文章的展现次数;
504、将待识别的文章的收藏次数、分享次数、待识别的文章的展现次数,输入至预先训练的第四分类器模型中,使得第四分类器模型预测出待识别的文章是否为低质量的文章。
与上述图4所示实施例的区别在于:本实施例的用户反馈行为特征包括收藏次数和分享次数,而文章的特征包括文章的展现次数。而图4所示实施例的用户反馈行为特征包括点击打开次数和点击不喜欢的次数;而文章的特征包括文章的展现次数。其余实现原理相同详细可以参考上述图4所示实施例的记载,在此不在赘述。
同理,本实施例的第四分类器模型,具体也可以采用逻辑(Logistic)回归分类模型。本实施例中,第四分类器模型是根据收藏次数和分享次数以及文章的展现次数来识别,若收藏次数和分享次数越多,表示用户越喜欢,文章为非低质的可能性较大。因此,若第四分类器模型识别待识别的文章为非低质量的文章,输出为1、否则无法确定该待识别文章是否为非低质,此时可以输出为0,放弃投票。
本实施例的基于人工智能的低质量文章识别方法,通过采用上述技术方案,能够根据待识别的文章的收藏次数、分享次数以及展现次数,结合预先确定的低质量文章识别模型,自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
需要说明的是,上述图2、图4、图5和图6所示实施例以低质量文章识别模型以分别包括一个分类器模型为例。实际应用中,低质量文章识别模型中也可以包括至少两个预先训练的分类器模型,例如可以包括上述图2、图4-图6 中的第一分类器模型、第二分类器模型、第三分类器模型以及第四分类模型中的至少两个。例如若低质量文章识别模型包括至少两个预先训练的分类器模型时,此时上述实施例中的步骤“根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,并结合待识别的文章的特征,识别待识别的文章是否为低质量的文章”,具体可以包括如下步骤:
(b1)根据待识别的文章的用户反馈行为特征、或者根据待识别的文章的用户反馈行为特征和待识别的文章的特征,并结合预先训练的各分类器模型,获取各分类器模型对待识别的文章是否为低质量的文章的预测结果;
也就是说,本实施例中包括两种方案。第一种可以根据待识别的文章的用户反馈行为特征,并结合预先训练的各分类器模型,获取各分类器模型对待识别的文章是否为低质量的文章的预测结果;第二种可以为根据待识别的文章的用户反馈行为特征和待识别的文章的特征,并结合预先训练的各分类器模型,获取各分类器模型对待识别的文章是否为低质量的文章的预测结果。其中第一种对应上述图2所示实施例的技术方案。第二种对应上述图4-图6任一种技术方案。步骤的实施,详细可以根据上述实施例的记载,获取相应的用户反馈行为特征,或者户反馈行为特征和待识别的文章的特征,并结合预先训练的各分类器模型,获取各分类器模型对待识别的文章是否为低质量的文章的预测结果,在此不再赘述。
(b2)根据各分类器模型对待识别的文章是否为低质量的文章的预测结果以及预先确定的各分类器模型的权重,预测待识别的文章是否为低质量的文章。
也就是说,本实施例中,是根据各个分类器的权重,将各分类器的预测结果乘以权重之后相加,并根据相加之后的结果来预测待识别的文章是否为低质量的文章。本实施例中,可以将预测较为准确的分类器模型的权重设置的较大,而将准确性较差的分类器模型的权重设置的较小,例如,每个分类器的权重可以由用户设置的。可选地,该步骤(b2)之前,还可以包括:接收用户设置的各分类器模型的权重。本实施例中的各分类器的训练,可以参考上述相关实施例的记载,在此不再赘述。
图7为本发明的基于人工智能的低质量文章识别方法实施例六的流程图。如图7所示,本实施例的基于人工智能的低质量文章识别方法中以采用Boosting 方法融合多个分类器模型为例来描述本发明的技术方案。如图7所示,本实施例的基于人工智能的低质量文章识别方法,具体可以包括如下步骤:
600、采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的用户反馈行为特征和训练文章的特征,作为训练数据,得到数条训练数据;
本实施例中,采集的训练数据中的各训练文章对应的用户反馈行为特征和训练文章的特征,以包括上述图2、图4-图6所示实施例的所有用户反馈行为特征和训练文章的特征为例,详细参考上述相关实施例的记载,在此不再赘述。
601、进行第n轮训练时,根据各训练数据的采样概率,从采集得到的数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,D’为D的子集;
初次训练时,将n值设置为1,即从n=1开始进行训练。其中第1轮训练时各训练数据的初始采样概率相同;以后每轮训练采用上一轮训练调整的训练数据的采样概率来选择训练数据子集。本实施例中n的最大训练轮数为N,N为大于1的正整数。假设本实施例的训练数据子集可以表示为D={x1,y1;…xi,yi;…;xm,ym},xi表示训练时的输入数据,yi为训练时应该输出的数据;m表示训练数据的条数。因此在n=1时,即进行第1轮训练时,第i条训练数据的采样概率可以表示为
Figure BDA0001326728800000291
实际上,第1轮训练时,每条训练数据的采样概率都相等。每轮训练的时候,都要利用每条训练数据的采样概率
Figure BDA0001326728800000296
选取训练数据子集D’。
602、利用训练数据子集D’中的各训练数据分别训练多个预选的分类器模型;
本实施例中的多个预选的分类器模型可以包括上述图2所示实施例的第一分类器模型表示为
Figure BDA0001326728800000292
图4所示实施例的第二分类器模型表示为
Figure BDA0001326728800000293
上述图5 所示实施例的第三分类器模型表示为
Figure BDA0001326728800000294
以及图6所示实施例的第四分类器模型表示为
Figure BDA0001326728800000295
本实施例的训练与上述图2、图4-图6的训练的原理相同。
603、根据对多个预选的分类器模型进行训练的结果,计算第n轮训练时各分类器模型的训练误差;
在训练过程中,每个分类器模型会有预测正确的时候,也会有预测不正确的时候;可以利用每轮训练的结果,计算第n轮训练时各分类器模型的训练误差。
604、根据各分类器模型的训练误差,获取训练误差最小的分类器模型作为本轮训练选定的第n轮分类器模型;
例如,第n轮训练时,从
Figure BDA0001326728800000301
以及
Figure BDA0001326728800000302
中选择误差最小的,作为本轮训练表现最好的分类器模型,可以表示为
Figure BDA0001326728800000303
然后将其作为本轮选定的第n 轮分类器模型。且第n轮的分类器模型
Figure BDA0001326728800000304
的训练误差可以表示为En
605、根据第n轮分类器模型的训练误差,设置第n轮分类器模型的权重;
例如,本实施例中,可以设置第n轮分类器模型En的权重αn可以表示为αn=1/2*ln(1-En)/En
606、根据第n轮分类器模型对训练数据子集中的各训练数据的训练结果,更新训练数据子集中各训练数据的采样概率,使得本轮训练时预测结果错误的训练数据的采样概率增大,而预测结果正确的训练数据的采样概率减小;
例如更新后的训练数据子集中各训练数据的采样概率可以表示为
Figure BDA0001326728800000305
其中hn(xi)为第n轮的分类器模型
Figure BDA0001326728800000306
对xi的预测结果。
经过更新采样概率之后,可以本轮训练中预测结果错误的训练数据的采样概率增大,这样,可以提升其在下次训练时被选中的概率,以提高训练效率。而预测结果正确的训练数据的采样概率减小,这样,由于该训练数据已经可以预测正确,可以降低其在下次训练时被选中的概率,以提高训练效率。
607、判断n是否等于N,若等于,执行步骤608;否则若不等于,将n累加1,返回步骤601;
608、确定进行完N轮训练,得到第1轮分类器模型、第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重;执行步骤609;
其中N为大于1的正整数,根据上述方式可以重复执行上述步骤601-605 共N次,进行N轮训练,分别得到第1轮分类器模型、第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
需要说明的是,上述经过N轮训练选定的N个分类器模型中可以包括相同的分类器模型结构,例如可以包括两个第一分类器模型,但是这两个第一分类器模型是在训练的不同轮选定的,所以参数并不相同。
609、获取待识别的文章的用户反馈行为特征和待识别文章的特征;
610、根据待识别的文章的用户反馈行为特征和待识别文章的特征,分别结合上述选定的N个分类器模型,获取N个分类器模型对待识别的文章是否为低质量的文章的预测结果;
该步骤的实施例,详细可以根据各分类器模型预测时所需要的用户反馈行为特征,或者用户反馈行为特征和待识别文章的特征,对待识别的文章是否为低质量的文章进行预测。具体地用户反馈行为特征采用哪些参数以及文章的特征采用哪些参数,详细可以参考上述图2、图4-图6相关实施例的记载,在此不再赘述。
611、根据各分类器模型对待识别的文章是否为低质量的文章的预测结果以及预先确定的各分类器模型的权重,预测待识别的文章是否为低质量的文章。
例如,可以最后可以将各分类器模型的预测结果与其对应的权重相乘之后,求和,作为最终的预测结果。例如可以为
Figure BDA0001326728800000311
本实施例,通过采用Boosting的方法融合了多个权重不同的分类器模型,可以更加准确地对待识别的文章是否属于低质量文章进行识别。
图8为本发明的基于人工智能的低质量文章识别方法的另一种应用架构示例图。根据图8所示的架构,具体可以采用上述图7所示实施例的流程实现基于人工智能的低质量文章识别方法,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的基于人工智能的低质量文章识别方法,通过采用上述技术方案,能够根据待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型自动地对待识别的文章是否为低质量的文章进行识别,从而克服现有技术中人工审核待识别的文章是否为低质量的文章,费时费力且识别效率低的技术问题,不仅能够大大地节省对待识别的文章是否为低质量的文章进行识别的时间,还能够有效节省识别时消耗的人力成本,进而大大地提高对低质量文章的识别效率。
图9为本发明的基于人工智能的低质量文章识别装置实施例一的结构图。如图9所示,本实施例的基于人工智能的低质量文章识别装置,具体可以包括:
特征获取模块10用于获取新闻推荐***中的待识别的文章的用户反馈行为特征;
识别模块11用于根据特征获取模块10获取的待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。
本实施例的基于人工智能的低质量文章识别装置,通过采用上述模块实现基于人工智能的低质量文章识别的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图10为本发明的基于人工智能的低质量文章识别装置实施例二的结构图。如图10所示,本实施例的基于人工智能的低质量文章识别装置,在上述图9所示实施例的基础上,进一步还可以包括如下技术方案。
本实施例的基于人工智能的低质量文章识别装置中,特征获取10还用于获取新闻推荐***中的待识别的文章的特征;
识别模块11具体用于根据特征获取10获取的待识别的文章的用户反馈行为特征和预先确定的低质量文章识别模型,并结合特征获取10获取的待识别的文章的特征,识别待识别的文章是否为低质量的文章。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,还包括:
采集模块12用于采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
训练模块13用于根据采集模块12采集的数条训练数据,训练低质量文章识别模型。
对应地,识别模块11用于根据特征获取模块10获取的待识别的文章的用户反馈行为特征和训练模块13预先确定的低质量文章识别模型,识别待识别的文章是否为低质量的文章。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,各条训练数据中还包括对应的训练文章的特征。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,若待识别的文章的用户反馈行为特征包括用户评论,低质量文章识别模型包括第一分类器模型时,识别模块12具体用于:
根据待识别的文章的用户评论和预先训练的初级低质量文章识别模型,对待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
对待识别的文章的用户评论进行分词处理;
检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到待识别的文章的用户评论的主体特征词表达;各主体特征词为预先采集的、用于评论低质量文章的评论主体;
检测分词处理得到的各分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到待识别的文章的用户评论的评论内容特征词表达,各评论内容特征词为预先采集的、用于评论低质量文章的词语;
将初级预测结果、主体特征词表达以及评论内容特征词表达,输入至预先训练的第一分类器模型中,使得第一分类器模型预测出待识别的文章是否为低质量的文章。
进一步可选地,此时对应地,训练模块13具体用于:
从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的用户评论;
对于各训练文章的用户评论,将对应的用户评论输入至预先训练的初级低质量文章识别模型中,使得初级低质量文章识别模型输出对对应的训练文章是否为低质量的文章的初级预测结果;
对于各训练文章的用户评论,根据主体特征词库,获取对应的训练文章的用户评论对应的主体特征词表达;
对于各训练文章的用户评论,根据评论内容特征词词典,获取对应的训练文章的用户评论对应的评论内容特征词表达;
利用各训练文章的用户评论对应的初级预测结果、主体特征词表达、评论内容特征词表达以及各训练文章的已知类别,训练第一分类器模型。
进一步可选地,训练模块13还用于使用各训练文章对应的用户评论和各训练文章的已知的类别,训练初级低质量文章识别模型;
训练模块,具体用于依次将各训练文章对应的用户评论输入至初级低质量文章识别模型中,使得初级低质量文章识别模型预测出对应的训练文章的预测类别;判断训练文章的预测类别与已知的类别是否一致;若不一致,调整初级低质量文章识别模型的参数,使得初级低质量文章识别模型预测训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各训练文章的用户评论对初级低质量文章识别模型进行训练,直到初级低质量文章识别模型收敛,确定初级低质量文章识别模型的参数,从而确定初级低质量文章识别模型。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,若待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,待识别的文章的特征包括展现次数,低质量文章识别模型包括第二分类器模型时,识别模块11具体用于将待识别的文章的点击打开次数、点击不喜欢的次数以及展现次数,输入至预先训练的第二分类器模型中,使得第二分类器模型预测出待识别的文章是否为低质量的文章。
进一步可选地,此时对应地,训练模块13具体用于:
从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的点击打开次数以及点击不喜欢的次数;从数条训练数据的各训练文章的特征中,获取各训练文章的展现次数;
利用各训练文章的点击打开次数、点击不喜欢的次数以及展现次数以及各训练文章的已知类别,训练第二分类器模型。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,若待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,待识别的文章的特征包括待识别的文章的长度及包括的图片的数量,低质量文章识别模型包括第三分类器模型时,识别模块11具体用于将待识别的文章的阅读进度、阅读时长、待识别的文章的长度及包括的图片的数量,输入至预先训练的第三分类器模型中,使得第三分类器模型预测出待识别的文章是否为低质量的文章。
进一步可选地,此时对应地,训练模块13具体用于:
从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的阅读进度以及阅读时长;从数条训练数据的各训练文章的特征中,获取各训练文章的长度及包括的图片的数量;
利用各训练文章的阅读进度、阅读时长、长度及包括的图片的数量以及各训练文章的已知类别,训练第三分类器模型。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,若待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,待识别的文章的特征包括待识别的文章的展现次数,低质量文章识别模型包括第四分类器模型时,识别模块11具体用于将待识别的文章的收藏次数、分享次数以及展现次数,输入至预先训练的第四分类器模型中,使得第四分类器模型预测出待识别的文章是否为低质量的文章。
进一步可选地,此时对应地,训练模块13具体用于:
从数条训练数据的各训练文章的用户反馈行为特征中,获取各训练文章的收藏次数以及分享次数;从数条训练数据的各训练文章的特征中,获取各训练文章的展现次数;
利用各训练文章的收藏次数、分享次数、展现次数以及各训练文章的已知类别,训练第四分类器模型。
进一步可选地,本实施例的基于人工智能的低质量文章识别装置中,若低质量文章识别模型包括至少两个预先训练的分类器模型时,识别模块11具体用于:
根据待识别的文章的用户反馈行为特征,或者根据待识别的文章的用户反馈行为特征和待识别的文章的特征,并结合预先训练的各分类器模型,获取各分类器模型对待识别的文章是否为低质量的文章的预测结果;
根据各分类器模型对待识别的文章是否为低质量的文章的预测结果以及预先确定的各分类器模型的权重,预测待识别的文章是否为低质量的文章。
可选地,如图10所示,本实施例的基于人工智能的低质量文章识别装置中,还包括:
接收模块14用于接收用户设置的各分类器模型的权重。
此时对应地,识别模块11根据各分类器模型对待识别的文章是否为低质量的文章的预测结果以及接收模块14接收的各分类器模型的权重,预测待识别的文章是否为低质量的文章。
进一步可选地,此时对应地,训练模块13还可以具体用于:
第1轮训练时,根据各训练数据的采样概率,从采集得到的数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,D’为D的子集;第1 轮训练时各训练数据的初始采样概率相同;
利用训练数据子集D’中的各训练数据分别训练多个预选的分类器模型;
根据对多个预选的分类器模型进行训练的结果,计算第1轮训练时各分类器模型的训练误差;
根据各分类器模型的训练误差,获取训练误差最小的分类器模型作为本轮训练选定的第1轮分类器模型;
根据第1轮分类器模型的训练误差,设置第1轮分类器模型的权重;
根据第1轮分类器模型对训练数据子集中的各训练数据的训练结果,更新训练数据子集中各训练数据的采样概率,使得本轮训练时预测结果错误的训练数据的采样概率增大,而预测结果正确的训练数据的采样概率减小;
重复执行上述步骤,进行第2至N轮训练,分别得到第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
本实施例的基于人工智能的低质量文章识别装置,通过采用上述模块实现基于人工智能的低质量文章识别的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图11为本发明的计算机设备实施例的结构图。如图11所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器 30执行,使得一个或多个处理器30实现如上图1-图8所示实施例的基于人工智能的低质量文章识别方法。图11所示实施例中以包括多个处理器30为例。
例如,图12为本发明提供的一种计算机设备的示例图。图12示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图12显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,计算机设备12a以通用计算设备的形式表现。计算机设备 12a的组件可以包括但不限于:一个或者多个处理器16a,***存储器28a,连接不同***组件(包括***存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28a可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34a可以用于读写不可移动的、非易失性磁介质(图12未显示,通常称为“硬盘驱动器”)。尽管图12中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。***存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图10各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如***存储器28a中,这样的程序模块42a包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图10各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备 12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN) 和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a 与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16a通过运行存储在***存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的基于人工智能的低质量文章识别方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的基于人工智能的低质量文章识别方法。
本实施例的计算机可读介质可以包括上述图12所示实施例中的***存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储***34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN) 或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (34)

1.一种基于人工智能的低质量文章识别方法,其特征在于,所述方法包括:
获取新闻推荐***中的待识别的文章的用户反馈行为特征,所述用户反馈行为特征为多种,所述用户反馈行为特征包括非用户评论和用户评论;
根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,所述低质量文本识别模型包括多个分类器,各分类器对应一种用户反馈行为特征;
所述根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,包括:
采用各分类器对一种用户反馈行为特征进行处理,以得到各分类器的预测结果,所述预测结果包括对应放弃投票的结果;
根据各分类器的预测结果和权重,预测待识别的文章是否为低质量的文章;
对应所述用户评论的分类器的预测结果基于所述用户评论对应的主体特征词表达获取,所述主体特征词表达对应所述文章质量或文章作者。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取新闻推荐***中的待识别的文章的特征;
对应地,根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,具体还包括:
根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章。
3.根据权利要求2所述的方法,其特征在于,根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章之前,所述方法还包括:
采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各所述训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
根据所述数条训练数据,训练所述低质量文章识别模型。
4.根据权利要求3所述的方法,其特征在于,各条所述训练数据中还包括对应的所述训练文章的特征。
5.根据权利要求3所述的方法,其特征在于,若所述待识别的文章的用户反馈行为特征包括用户评论,所述低质量文章识别模型包括第一分类器模型时,根据所述用户反馈行为特征和预先训练的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,具体包括:
根据所述待识别的文章的所述用户评论和预先训练的初级低质量文章识别模型,对所述待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
对所述待识别的文章的所述用户评论进行分词处理;
检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到所述待识别的文章的所述用户评论的主体特征词表达;各所述主体特征词为预先采集的、用于评论低质量文章的评论主体;
检测分词处理得到的各所述分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到所述待识别的文章的所述用户评论的评论内容特征词表达,各所述评论内容特征词为预先采集的、用于评论低质量文章的词语;
将所述初级预测结果、所述主体特征词表达以及所述评论内容特征词表达,输入至预先训练的所述第一分类器模型中,使得所述第一分类器模型预测出所述待识别的文章是否为低质量的文章。
6.根据权利要求5所述的方法,其特征在于,根据所述数条训练数据,训练所述低质量文章识别模型,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述用户评论;
对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果;
对于各所述训练文章的所述用户评论,根据所述主体特征词库,获取对应的所述训练文章的所述用户评论对应的主体特征词表达;
对于各所述训练文章的所述用户评论,根据所述评论内容特征词词典,获取对应的所述训练文章的所述用户评论对应的评论内容特征词表达;
利用各所述训练文章的所述用户评论对应的所述初级预测结果、所述主体特征词表达、所述评论内容特征词表达以及各所述训练文章的已知类别,训练所述第一分类器模型。
7.根据权利要求6所述的方法,其特征在于,对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果之前,所述方法还包括:
使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型;
使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型,具体包括:
依次将各所述训练文章对应的所述用户评论输入至所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型预测出对应的训练文章的预测类别;判断所述训练文章的预测类别与已知的类别是否一致;若不一致,调整所述初级低质量文章识别模型的参数,使得所述初级低质量文章识别模型预测所述训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各所述训练文章的所述用户评论对所述初级低质量文章识别模型进行训练,直到所述初级低质量文章识别模型收敛,确定所述初级低质量文章识别模型的参数,从而确定所述初级低质量文章识别模型。
8.根据权利要求4所述的方法,其特征在于,若所述待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,所述待识别的文章的特征包括展现次数,所述低质量文章识别模型包括第二分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数,输入至预先训练的所述第二分类器模型中,使得所述第二分类器模型预测出所述待识别的文章是否为低质量的文章。
9.根据权利要求8所述的方法,其特征在于,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述点击打开次数以及所述点击不喜欢的次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数以及各所述训练文章的已知类别,训练所述第二分类器模型。
10.根据权利要求4所述的方法,其特征在于,若所述待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,所述待识别的文章的特征包括所述待识别的文章的长度及包括的图片的数量,所述低质量文章识别模型包括第三分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述阅读进度、所述阅读时长、所述待识别的文章的长度及包括的图片的数量,输入至预先训练的所述第三分类器模型中,使得所述第三分类器模型预测出所述待识别的文章是否为低质量的文章。
11.根据权利要求10所述的方法,其特征在于,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述阅读进度以及所述阅读时长;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的长度及包括的图片的数量;
利用各所述训练文章的所述阅读进度、所述阅读时长、所述长度及包括的图片的数量以及各所述训练文章的已知类别,训练所述第三分类器模型。
12.根据权利要求4所述的方法,其特征在于,若所述待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,所述待识别的文章的特征包括所述待识别的文章的展现次数,所述低质量文章识别模型包括第四分类器模型时,根据所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
将所述待识别的文章的所述收藏次数、所述分享次数以及所述展现次数,输入至预先训练的所述第四分类器模型中,使得所述第四分类器模型预测出所述待识别的文章是否为低质量的文章。
13.根据权利要求12所述的方法,其特征在于,根据所述数条训练数据,训练所述低质量文章识别模,具体包括:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述收藏次数以及所述分享次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述收藏次数、所述分享次数、所述展现次数以及各所述训练文章的已知类别,训练所述第四分类器模型。
14.根据权利要求4所述的方法,其特征在于,若所述低质量文章识别模型包括至少两个预先训练的分类器模型时,根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章,具体包括:
根据所述待识别的文章的所述用户反馈行为特征,或者根据所述待识别的文章的所述用户反馈行为特征和所述待识别的文章的特征,并结合预先训练的各所述分类器模型,获取各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果;
根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章。
15.根据权利要求14所述的方法,其特征在于,根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章之前,所述方法还包括:
接收用户设置的各所述分类器模型的权重。
16.根据权利要求14所述的方法,其特征在于,根据所述数条训练数据,训练所述低质量文章识别模型,具体包括:
第1轮训练时,根据各所述训练数据的采样概率,从采集得到的所述数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,所述D’为所述D的子集;所述第1轮训练时各所述训练数据的初始采样概率相同;
利用所述训练数据子集D’中的各所述训练数据分别训练多个预选的分类器模型;
根据对所述多个预选的所述分类器模型进行训练的结果,计算第1轮训练时各所述分类器模型的训练误差;
根据各所述分类器模型的训练误差,获取所述训练误差最小的所述分类器模型作为本轮训练选定的第1轮分类器模型;
根据所述第1轮分类器模型的训练误差,设置所述第1轮分类器模型的权重;
根据所述第1轮分类器模型对所述训练数据子集中的各所述训练数据的训练结果,更新所述训练数据子集中各所述训练数据的采样概率,使得本轮训练时预测结果错误的所述训练数据的所述采样概率增大,而预测结果正确的所述训练数据的所述采样概率减小;
重复执行上述步骤,进行第2至N轮训练,分别得到第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
17.一种基于人工智能的低质量文章识别装置,其特征在于,所述装置包括:
特征获取模块,用于获取新闻推荐***中的待识别的文章的用户反馈行为特征,所述用户反馈行为特征为多种,所述用户反馈行为特征包括非用户评论和用户评论;
识别模块,用于根据所述待识别的文章的所述用户反馈行为特征和预先确定的低质量文章识别模型,识别所述待识别的文章是否为低质量的文章,所述低质量文本识别模型包括多个分类器,各分类器对应一种用户反馈行为特征;
所述识别模块具体用于:
采用各分类器对一种用户反馈行为特征进行处理,以得到各分类器的预测结果,所述预测结果包括对应放弃投票的结果;
根据各分类器的预测结果和权重,预测待识别的文章是否为低质量的文章;
对应所述用户评论的分类器的预测结果基于所述用户评论对应的主体特征词表达获取,所述主体特征词表达对应所述文章质量或文章作者。
18.根据权利要求17所述的装置,其特征在于:
所述特征获取,还用于获取新闻推荐***中的待识别的文章的特征;
所述识别模块,具体用于根据所述待识别的文章的所述用户反馈行为特征和预先确定的所述低质量文章识别模型,并结合所述待识别的文章的特征,识别所述待识别的文章是否为低质量的文章。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
采集模块,用于采集已知类别为低质量的文章或非低质量的文章的数篇训练文章中各所述训练文章对应的用户反馈行为特征,作为训练数据,得到数条训练数据;
训练模块,用于根据所述数条训练数据,训练所述低质量文章识别模型。
20.根据权利要求19所述的装置,其特征在于,各条所述训练数据中还包括对应的所述训练文章的特征。
21.根据权利要求19所述的装置,其特征在于,若所述待识别的文章的用户反馈行为特征包括用户评论,所述低质量文章识别模型包括第一分类器模型时,所述识别模块,具体用于:
根据所述待识别的文章的所述用户评论和预先训练的初级低质量文章识别模型,对所述待识别的文章是否为低质量的文章进行初级预测,得到初级预测结果;
对所述待识别的文章的所述用户评论进行分词处理;
检测分词处理得到的各分词对预先采集的主体特征词库中各主体特征词的命中情况,得到所述待识别的文章的所述用户评论的主体特征词表达;各所述主体特征词为预先采集的、用于评论低质量文章的评论主体;
检测分词处理得到的各所述分词对预先采集的评论内容特征词词典中各评论内容特征词的命中情况,得到所述待识别的文章的所述用户评论的评论内容特征词表达,各所述评论内容特征词为预先采集的、用于评论低质量文章的词语;
将所述初级预测结果、所述主体特征词表达以及所述评论内容特征词表达,输入至预先训练的所述第一分类器模型中,使得所述第一分类器模型预测出所述待识别的文章是否为低质量的文章。
22.根据权利要求21所述的装置,其特征在于,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述用户评论;
对于各所述训练文章的所述用户评论,将对应的所述用户评论输入至预先训练的所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型输出对对应的所述训练文章是否为低质量的文章的初级预测结果;
对于各所述训练文章的所述用户评论,根据所述主体特征词库,获取对应的所述训练文章的所述用户评论对应的主体特征词表达;
对于各所述训练文章的所述用户评论,根据所述评论内容特征词词典,获取对应的所述训练文章的所述用户评论对应的评论内容特征词表达;
利用各所述训练文章的所述用户评论对应的所述初级预测结果、所述主体特征词表达、所述评论内容特征词表达以及各所述训练文章的已知类别,训练所述第一分类器模型。
23.根据权利要求22所述的装置,其特征在于,所述训练模块,还用于使用各所述训练文章对应的所述用户评论和各所述训练文章的已知的类别,训练所述初级低质量文章识别模型;
所述训练模块,具体用于依次将各所述训练文章对应的所述用户评论输入至所述初级低质量文章识别模型中,使得所述初级低质量文章识别模型预测出对应的训练文章的预测类别;判断所述训练文章的预测类别与已知的类别是否一致;若不一致,调整所述初级低质量文章识别模型的参数,使得所述初级低质量文章识别模型预测所述训练文章的预测类别与已知的类别趋于一致;按照上述步骤重复利用各所述训练文章的所述用户评论对所述初级低质量文章识别模型进行训练,直到所述初级低质量文章识别模型收敛,确定所述初级低质量文章识别模型的参数,从而确定所述初级低质量文章识别模型。
24.根据权利要求20所述的装置,其特征在于,若所述待识别的文章的用户反馈行为特征包括点击打开次数以及点击不喜欢的次数,所述待识别的文章的特征包括展现次数,所述低质量文章识别模型包括第二分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数,输入至预先训练的所述第二分类器模型中,使得所述第二分类器模型预测出所述待识别的文章是否为低质量的文章。
25.根据权利要求24所述的装置,其特征在于,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述点击打开次数以及所述点击不喜欢的次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述点击打开次数、所述点击不喜欢的次数以及所述展现次数以及各所述训练文章的已知类别,训练所述第二分类器模型。
26.根据权利要求20所述的装置,其特征在于,若所述待识别的文章的用户反馈行为特征包括阅读进度以及阅读时长,所述待识别的文章的特征包括所述待识别的文章的长度及包括的图片的数量,所述低质量文章识别模型包括第三分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述阅读进度、所述阅读时长、所述待识别的文章的长度及包括的图片的数量,输入至预先训练的所述第三分类器模型中,使得所述第三分类器模型预测出所述待识别的文章是否为低质量的文章。
27.根据权利要求26所述的装置,其特征在于,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述阅读进度以及所述阅读时长;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的长度及包括的图片的数量;
利用各所述训练文章的所述阅读进度、所述阅读时长、所述长度及包括的图片的数量以及各所述训练文章的已知类别,训练所述第三分类器模型。
28.根据权利要求20所述的装置,其特征在于,若所述待识别的文章的用户反馈行为特征包括收藏次数以及分享次数,所述待识别的文章的特征包括所述待识别的文章的展现次数,所述低质量文章识别模型包括第四分类器模型时,所述识别模块,具体用于将所述待识别的文章的所述收藏次数、所述分享次数以及所述展现次数,输入至预先训练的所述第四分类器模型中,使得所述第四分类器模型预测出所述待识别的文章是否为低质量的文章。
29.根据权利要求28所述的装置,其特征在于,所述训练模块,具体用于:
从所述数条训练数据的各所述训练文章的用户反馈行为特征中,获取各所述训练文章的所述收藏次数以及所述分享次数;从所述数条训练数据的各所述训练文章的特征中,获取各所述训练文章的所述展现次数;
利用各所述训练文章的所述收藏次数、所述分享次数、所述展现次数以及各所述训练文章的已知类别,训练所述第四分类器模型。
30.根据权利要求20所述的装置,其特征在于,若所述低质量文章识别模型包括至少两个预先训练的分类器模型时,所述识别模块,具体用于:
根据所述待识别的文章的所述用户反馈行为特征,或者根据所述待识别的文章的所述用户反馈行为特征和所述待识别的文章的特征,并结合预先训练的各所述分类器模型,获取各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果;
根据各所述分类器模型对所述待识别的文章是否为低质量的文章的预测结果以及预先确定的各所述分类器模型的权重,预测所述待识别的文章是否为低质量的文章。
31.根据权利要求30所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收用户设置的各所述分类器模型的权重。
32.根据权利要求30所述的装置,其特征在于,所述训练模块,具体用于:
第1轮训练时,根据各所述训练数据的采样概率,从采集得到的所述数条训练数据构成的训练数据集合D中采样获取到训练数据子集D’,所述D’为所述D的子集;所述第1轮训练时各所述训练数据的初始采样概率相同;
利用所述训练数据子集D’中的各所述训练数据分别训练多个预选的分类器模型;
根据对所述多个预选的所述分类器模型进行训练的结果,计算第1轮训练时各所述分类器模型的训练误差;
根据各所述分类器模型的训练误差,获取所述训练误差最小的所述分类器模型作为本轮训练选定的第1轮分类器模型;
根据所述第1轮分类器模型的训练误差,设置所述第1轮分类器模型的权重;
根据所述第1轮分类器模型对所述训练数据子集中的各所述训练数据的训练结果,更新所述训练数据子集中各所述训练数据的采样概率,使得本轮训练时预测结果错误的所述训练数据的所述采样概率增大,而预测结果正确的所述训练数据的所述采样概率减小;
重复执行上述步骤,进行第2至N轮训练,分别得到第2轮分类器模型、……第N轮分类器模型以及各轮分类器模型的权重。
33.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-16中任一所述的方法。
34.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-16中任一所述的方法。
CN201710469542.7A 2017-06-20 2017-06-20 基于人工智能的低质量文章识别方法及装置、设备及介质 Active CN107491432B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710469542.7A CN107491432B (zh) 2017-06-20 2017-06-20 基于人工智能的低质量文章识别方法及装置、设备及介质
US16/013,162 US11645554B2 (en) 2017-06-20 2018-06-20 Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710469542.7A CN107491432B (zh) 2017-06-20 2017-06-20 基于人工智能的低质量文章识别方法及装置、设备及介质

Publications (2)

Publication Number Publication Date
CN107491432A CN107491432A (zh) 2017-12-19
CN107491432B true CN107491432B (zh) 2022-01-28

Family

ID=60642523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710469542.7A Active CN107491432B (zh) 2017-06-20 2017-06-20 基于人工智能的低质量文章识别方法及装置、设备及介质

Country Status (2)

Country Link
US (1) US11645554B2 (zh)
CN (1) CN107491432B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108912A (zh) * 2018-01-10 2018-06-01 百度在线网络技术(北京)有限公司 互动低质量用户的判别方法、装置、服务器及存储介质
CN108549708B (zh) * 2018-04-19 2021-08-31 聊城市中芯智能科技有限公司 一种图文匹配方法及***
CN109525480B (zh) * 2018-09-14 2021-09-10 阿里巴巴(中国)有限公司 用户问题收集***和方法
CN109388696B (zh) * 2018-09-30 2021-07-23 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
EP3906508B1 (en) * 2018-12-31 2024-03-13 Intel Corporation Securing systems employing artificial intelligence
CN109829165A (zh) * 2019-02-11 2019-05-31 杭州乾博科技有限公司 一种自媒体文章价值评估方法及***
WO2020221460A1 (en) * 2019-05-02 2020-11-05 Moresophy Gmbh Method for training an artificial intelligence model and computer-implemented method for automatically determining a product quality
CN110287412B (zh) * 2019-06-10 2023-10-24 腾讯科技(深圳)有限公司 内容推荐方法、推荐模型生成方法、设备、和存储介质
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110347800B (zh) * 2019-07-15 2022-06-10 中国工商银行股份有限公司 文本处理方法和装置、以及电子设备和可读存储介质
CN110442714B (zh) * 2019-07-25 2022-05-27 北京百度网讯科技有限公司 Poi名称规范性评估方法、装置、设备和存储介质
CN110598046B (zh) * 2019-09-17 2021-03-02 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
US11341203B2 (en) 2019-10-02 2022-05-24 Snapwise Inc. Methods and systems to generate information about news source items describing news events or topics of interest
US11295398B2 (en) 2019-10-02 2022-04-05 Snapwise Inc. Methods and systems to generate information about news source items describing news events or topics of interest
CN111159572B (zh) * 2019-12-18 2023-05-23 北京百度网讯科技有限公司 推荐内容的审核方法、装置、电子设备及存储介质
CN111401637B (zh) * 2020-03-16 2023-06-16 湖南大学 融合用户行为和表情数据的用户体验质量预测方法
CN113971400B (zh) * 2020-07-24 2023-07-25 抖音视界有限公司 一种文本检测方法、装置、电子设备及存储介质
CN113407663B (zh) * 2020-11-05 2024-03-15 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN112906387B (zh) * 2020-12-25 2023-08-04 北京百度网讯科技有限公司 风险内容识别方法、装置、设备、介质和计算机程序产品
CN113011167B (zh) * 2021-02-09 2024-04-23 腾讯科技(深圳)有限公司 基于人工智能的作弊识别方法、装置、设备及存储介质
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质
CN115099239B (zh) * 2022-06-16 2023-10-31 北京百度网讯科技有限公司 一种资源识别方法、装置、设备以及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类***和方法
CN102298583B (zh) * 2010-06-22 2016-04-27 深圳市世纪光速信息技术有限公司 一种电子公告板网页质量评价方法和***
US9779385B2 (en) * 2011-06-24 2017-10-03 Facebook, Inc. Inferring topics from social networking system communications
CN103810162B (zh) * 2012-11-05 2017-12-12 腾讯科技(深圳)有限公司 推荐网络信息的方法和***
CN103324745B (zh) * 2013-07-04 2017-04-05 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和***
US10706367B2 (en) * 2013-09-10 2020-07-07 Facebook, Inc. Sentiment polarity for users of a social networking system
US20170061286A1 (en) * 2015-08-27 2017-03-02 Skytree, Inc. Supervised Learning Based Recommendation System
CN105243087B (zh) * 2015-09-09 2018-08-31 浙江网新恒天软件有限公司 It资讯聚合阅读个性化推荐方法
CN105282565A (zh) * 2015-09-29 2016-01-27 北京奇艺世纪科技有限公司 一种视频推荐方法和装置
CN106844632B (zh) * 2017-01-20 2020-02-21 清华大学 基于改进支持向量机的产品评论情感分类方法及装置

Also Published As

Publication number Publication date
US11645554B2 (en) 2023-05-09
CN107491432A (zh) 2017-12-19
US20180365574A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
US10936906B2 (en) Training data acquisition method and device, server and storage medium
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN109087135B (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN107608964B (zh) 基于弹幕的直播内容的筛选方法、装置、设备及存储介质
CN108550065B (zh) 评论数据处理方法、装置及设备
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
CN110968695A (zh) 基于弱监督技术主动学***台
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN111737479B (zh) 数据获取方法、装置、电子设备及存储介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN111385659B (zh) 一种视频推荐方法、装置、设备及存储介质
CN107908649B (zh) 一种文本分类的控制方法
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN112200602B (zh) 用于广告推荐的神经网络模型训练方法及装置
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN113052635A (zh) 人口属性标签预测方法、***、计算机设备和存储介质
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant