CN110598211A

CN110598211A - 文章的识别方法和装置、存储介质及电子装置

Info

Publication number: CN110598211A
Application number: CN201910824416.8A
Authority: CN
Inventors: 徐宗瑜; 刘琦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-12-20
Anticipated expiration: 2039-09-02
Also published as: CN110598211B

Abstract

本发明公开了一种文章的识别方法和装置、存储介质及电子装置，其中，该方法包括：识别出所述文章中的文本信息，其中，所述文本信息包括所述文章中自带的文字信息和/或由所述文章中的图片信息转换得到的文字信息；将所述文本信息中的文字信息与预设的关键信息进行比较；根据关键信息在所述文本信息的占比确定出所述文章的类型；文章为第一类型的情况下，对文章中的关键信息进行删除，并推送删除关键信息后的文章。通过本发明，解决了相关技术中通过语义特征对含有广告的内容进行过滤导致在过滤包含广告垃圾的内容的同时也会打击含有导流广告的优质内容的问题。

Description

文章的识别方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种文章的识别方法和装置、存储介质及电子装置。

背景技术

目前针对广告内容会进行识别和打击处理的方式为，先建立海量广告样本库和规则模板，过滤明显的广告内容和手机号、微信、微博、网址、二维码等导流信息。传统机器学习模型通常根据内容特征工程，特征输入分类器进行分类，分类器包括：SVM(SupportVector Machine，支持向量机)，LR(Logistic Regression，逻辑回归)等。深度学习模型通常根据内容的文本、内容中的图片的OCR(Optical Character Recognition，光学字符识别)结果，通过卷积神经网络CNN(Convolutional Neural Networks，卷积神经网络)的语义建模，得到广告文案的语义特征表示，最后通过分类完成广告的识别，命中广告进行过滤打击。

现有通过分类器评估内容是否为广告内容，在过滤大量广告垃圾内容的同时，也一样会打击很多含有导流广告信息的优质内容。对于平台来说，这样含有导流广告信息的优质内容被打击，是比较可惜的。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种文章的识别方法和装置、存储介质及电子装置，以至少解决相关技术中通过语义特征对含有广告的内容进行过滤导致在过滤包含广告垃圾的内容的同时也会打击含有导流广告的优质内容的技术问题。

根据本发明实施例的一个方面，提供了一种文章的识别方法，包括：识别出所述文章中的文本信息，其中，所述文本信息包括所述文章中自带的文字信息和/或由所述文章中的图片信息转换得到的文字信息；将所述文本信息中的文字信息与预设的关键信息进行比较，其中，所述关键信息包括关键词，多个所述关键词的组合和关键句；根据关键信息在所述文本信息的占比确定出所述文章的类型；在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除，并推送删除所述关键信息后的文章。

根据本发明实施例的另一方面，还提供了一种文章的识别装置，包括：识别模块，用于识别出所述文章中的文本信息，其中，所述文本信息包括所述文章中自带的文字信息和/或由所述文章中的图片信息转换得到的文字信息；第一比较模块，用于将所述文本信息中的文字信息与预设的关键信息进行比较，其中，所述关键信息包括关键词，多个所述关键词的组合和关键句；第一确定模块，用于根据关键信息在所述文本信息的占比确定出所述文章的类型；处理模块，用于在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除，并推送删除所述关键信息后的文章。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的方法。

在本发明实施例中，识别出文章中的文本信息后，将文本信息中的文字信息与预设的关键信息进行比较，并根据关键信息在文本信息的占比确定出文章的类型，对该占比小于预设阈值的述文章中的关键信息进行删除，并推送删除关键信息后的文章，从而实现了对文章的类型的精准识别，避免了对含有导流广告信息的优质文章进行删除，从而解决了相关技术中通过语义特征对含有广告的内容进行过滤导致在过滤包含广告垃圾的内容的同时也会打击含有导流广告的优质内容的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种文章的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种的文章的识别方法的流程示意图；

图3是根据本发明实施例的一种可选的文章的识别方法的流程示意图；

图4是根据本发明实施例的另一种可选的文章的识别方法的流程示意图；

图5是根据本发明实施例的一种的文章中导流广告删除的示意图；

图6是根据本发明实施例的一种文章的识别装置的示意图；

图7是根据本发明实施例的另一种可选的文章的识别装置的结构示意图；

图8是根据本发明实施例的又一种可选的文章的识别装置的结构示意图；

图9是根据本发明实施例的再一种可选的文章的识别装置的结构示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

首先，对本发明实施例中的术语进行相应的解释；

人审智能调度：是指内容的人工审核环节，基于内容各方面的特征属性动态智能地调整审核顺序。

人审通过率：指人工审核通过量/人工审核总量。

全篇广告内容：指识别全文都是广告相关内容，通篇基本没有可用性内容。

含导流广告内容：指文章的小部分(常在文章头尾)存在广告导流信息，除去导流广告部分、文章仍有可用内容。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种文章的识别方法。可选地，上述文章的识别方法可以但不限于应用于如图1所示的应用环境中。如图1所示，终端102将文章的内容通过网络104发送给服务器106。服务器106对该文章的内容进行识别，以确定该文章是全篇广告内容的文章和导流广告内容的文章。

可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一：PC机及其他用于计算服务的设备。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，如图2所示，上述文章的识别方法可以包括：

S202，识别出文章中的文本信息，其中，文本信息包括文章中自带的文字信息和/或由文章中的图片信息转换得到的文字信息；

S204，将文本信息中的文字信息与预设的关键信息进行比较，其中，关键信息包括关键词，多个关键词的组合和关键句；

S206，根据关键信息在文本信息的占比确定出文章的类型；

S208，在文章为第一类型的情况下，对文章中的关键信息进行删除，并推送删除关键信息后的文章。

可选地，上述本发明实施例中的文章可以是各种电子类文章，例如，时事新闻类的文章，娱乐新闻类的文章，体育新闻类的文章，科研类文章等。各种电子类文章基本上都有文字信息和图片信息组成，但由于文章类型的不同，文章中文字信息和图片信息的比重不相当，如在时事新闻类和科研类文章中通常文字信息会多一点，而在娱乐新闻类的文章和体育新闻类的文章会通过图文结合的方式进行报道，通常为了更加说明情况，图片的占比会比文字更多一点。

可选地，本发明实施例中的关键词和关键句可以包含广告类的关键词或关键句，或包含政治色彩类的关键词或关键句，或包含敏感类的关键词或关键句等等。也即关键词可以根据实际情况进行相应的设置，在本发明实施例中并限定其类型。

例如，以关键词和关键句为包含广告类的关键词或关键句为例，假设终端将一篇包含有广告的娱乐新闻类的文章通过网络发送到服务器，服务器对该文章的内容进行识别，识别的方式是将该文章的内容与包含广告类的关键词或关键句进行匹配，从而确定该鱼类新闻类的文章的类型，从而实现了对文章内容的精准识别。

需要说明的是，在相关技术中，深度学习模型通常根据内容的文本、内容中的图片的OCR结果，通过卷积神经网络CNN的语义建模，得到广告文案的语义特征表示，最后通过分类完成广告的识别，命中广告进行过滤打击。而采用该方式，在过滤大量广告垃圾内容的同时，也一样会打击很多含有导流广告信息的优质内容。而在本发明实施例中，识别出文章中的文本信息后，将文本信息中的文字信息与预设的关键信息进行比较，并根据关键信息在文本信息的占比确定出文章的类型，对该占比小于预设阈值的述文章中的关键信息进行删除，并推送删除关键信息后的文章，从而实现了对文章的类型的精准识别，避免了对含有导流广告信息的优质文章进行清洗，从而解决了相关技术中通过语义特征对含有广告的内容进行过滤导致在过滤包含广告垃圾的内容的同时也会打击含有导流广告的优质内容的问题。

可选地，在本发明实施例的可选实施方式中，如图3所示，在识别出文章中的文本信息之前，本发明实施例的方法步骤还包括：

S102，获取发布文章的账号信息；

S104，判断账号信息是否在预设的白名单中；

S106，在判断结果为是的情况下，提示禁止执行识别与账号信息对应的文章的步骤。

可见，通过上述步骤S102至S106，在执行识别出文章中的文本信息之前可以通过该文章的账号信息是否在白名单中，以确定是否要执行识别与账号信息对应的文章的步骤。需要说明的是，白名单中的账号信息是预先确定的经常发布优质文章的账号信息，例如，第一用户经常通过账号A发布自己在观看体育赛事后关于体育赛事的评论的文章，该账号A发布的文章得到了很多其他用户的关注，并且有很多用户给出了比较积极的评论。虽然，第一用户会在通过账号A发布文章的同时携带少量的广告信息，但对文章的整体阅读性并不影响，因此，这类文章的账号信息被设置在白名单中。当然，在白名单还可以是将一些公益性组织的账号信息，或者政府，企事业单位的账号信息也设置在白名单中。例如，被认证为某公益组织通过其社交账号发布了一篇发起公益行动文章，整篇文章都是为了这次公益行动进行宣传和介绍，当然也对本次公益行动的赞助方进行了介绍，即对赞助方进行相应的宣传，即使是文章中包含有广告信息，但只要是该公益组织通过其社交账号发布的文章均为优质文章。可见，通过白名单，可以直接确定该账号信息发布的文章为优质文章，而无需对该类文章进行识别。

可选地，在本发明实施例的可选实施方式中，在将文本信息中的文字信息与预设的关键信息进行比较之前，如图4所示，本发明实施例的方法步骤还可以包括：

步骤S112，将文本信息中的文字信息与预设的黑名单中的信息进行比较；

步骤S114，在文本信息中的文字信息出现黑名单中的信息的情况下，确定文章为不合格文章；

步骤S116，在文本信息中的文字信息未出现黑名单中的信息的情况下，触发执行将文本信息中的文字信息与预设的关键信息进行比较的步骤。

可见，通过上述步骤S112至步骤S116，在文章的文本信息中的文字信息出现了与黑名单中的信息的情况下，则直接将该文章确定为不合格的文章，该类文章是需要被清洗掉的，在黑名单中词包括：带有反动色彩词的文章，带有种族歧视类的词的文章，带有色情暴力类的词的文章，带有邪教宣传语的文章等。例如，第二用户通过账户B发布了一篇文章，将该文章的内容与黑名单中的词或句进行比较，如果在该文章中识别出黑名单中的词或句，如出现了带有种族歧视类的词，则会将该文章直接确定为不合格的文章，是需要被清洗掉的。

可选地，在本发明实施例中步骤S204中将文本信息中的文字信息与预设的关键信息进行比较的方式，进一步可以包括：

步骤S204-11，将文本信息中的文字信息与关键信息中的关键词，以及多个关键词的组合进行比较，得到第一比较结果，其中，第一比较结果用于指示关键词和多个关键词的组合在文本信息的占比；

步骤S204-12，将文本信息中的文字信息与关键信息中的关键句进行比较，得到第二比较结果，其中，第二比较结果用于指示关键句在文本信息的占比。

可见，基于本发明实施例中的步骤S204中的方式，可以对文章内容进行关键词和关键句的匹配，得到关键句与关键词在该文章内容中的占比，例如关键词和关键句是包含广告类的关键词和关键句，广告类的关键词包括：关键词A，关键词B，关键词C以及关键词C，关键词的组合为四个关键词的任意组合；广告类的关键句包括：关键句A，关键句B，关键句C以及关键句D。例如，在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为1％，则说明该篇文章所包含的广告内容较少；如果在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为80％，则说明该篇文章包含的广告内容非常多。

可选地，基于上述步骤S204-11和步骤S204-12，对于上述步骤S206中根据关键信息在文本信息的占比确定出文章的类型的方式包括：

步骤S206-11，将第一比较结果与第一权重相乘得到第一乘积结果；

步骤S206-12，将第二比较结果与第二权重相乘得到第二乘积结果；

步骤S206-13，在第一乘积结果与第二乘积结果的和值小于预设阈值的情况下，确定出文章的类型为第一类型；

步骤S206-14，在第一乘积结果与第二乘积结果的和值大于或等于预设阈值的情况下，确定出文章的类型为第二类型。

可见，通过上述步骤S206-11至步骤S206-14，对于第一比较结果和第二比较结果分别对应有相应的权重，需要与相应的权重相乘之后才能确定最后，关键词和/或关键句的占比，设置权重的目的是为了最终得到的结果更加准确，在通常情况下，同一个关键词在不同的语境中表现出不同的含义。以包含广告类的关键词为例，即使识别出文章内容中有该关键词，但该关键词在这篇文章中的含义并不一定就是其广告作用的，也有可能是其他正常的含义。而关键句即使在不同的语境中所表达的含义基本上是不会变的。因此，可以第一比较结果的第一权重设置的相对于第二比较结果的第二权重要低，这样得到的关键词和关键词组合，以及关键句的占比相对来说会比较准确。

在本发明实施例中预设阈值可以根据实际情况进行相应的设置，例如，将该预设阈值设置为60％，且在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为1％，如果第一权重为0.8，第二权重为1.2，则最后关键词和关键句的占比为5％*0.8+1％*1.2＝5.2％，则说明该篇文章所包含的广告的内容小于预设阈值，即广告内容较少，可以将该篇文章称之为含导流广告内容，即第一类型；如果在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为60％，则最后关键词和关键句的占比为5％*0.8+80％*1.2＝76％，则说明该篇文章所包含的广告的内容大于预设阈值，说明该篇文章包含的广告内容非常多，可以将该篇文章称之为全篇广告内容，即第二类型。

基于上述方式，对于全篇广告内容的文章，作为内容负向特征，在人审智能调度环节降权，少审/不审该类内容，调优人力资源分配。对于含导流广告内容的文章，识别出具体的导流信息及位置，提示人工可进行删除，提升内容分发后的前端用户体验。这样的针对性处理方式，改变了平台对于含广告内容一刀切拦截的处理方式，使得含广告的优质内容也能得到很好的利用。

可选地，对于本申请步骤S208中涉及到的在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除的方式，进而可以是在对文本信息中的文字信息与关键词及其组合进行匹配的过程中，对文本信息中的文字信息出现的与关键信息中的关键词，以及多个关键词的组合匹配的信息进行标记；也就是说，在文章确定为第一类型的情况下，对带有标记的文字信息进行删除。

在本申请的另一个实施方式中，在文章为第二类型的情况下，将所述文章标记为不用审核的文章，并推送标记后的文章。在具体应用场景中，如果关键信息是与广告内容相关的信息，则说明该第二类型的文章中包括了大量的广告内容，则不用对该类文章进行审核，提高了对文章审核的内容。当然，该关键信息也可以是其他类型的内容，可以根据实际需求对关键信息进行相应的设置，例如要筛选出含有大量游戏内容的文章等。

可选地，以上述关键词为包含广告类的词为例，在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为1％，如果第一权重为0.8，第二权重为1.2，则最后关键词和关键句的占比为5％*0.8+1％*1.2＝5.2％，则说明该篇文章所包含的广告的内容小于预设阈值，即广告内容较少，可以将该篇文章称之为含导流广告内容，即第一类型。在此基础上对文章内容出现的关键词及其组合进行标记，进而可以提示根据标记对其进行删除，如图5所示，从而提升阅读体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述文章的识别方法的文章的识别装置，如图6所示，该装置包括：

(1)识别模块62，用于识别出文章中的文本信息，其中，文本信息包括文章中自带的文字信息和/或由文章中的图片信息转换得到的文字信息；

(2)第一比较模块64，用于将文本信息中的文字信息与预设的关键信息进行比较，其中，关键信息包括关键词，多个关键词的组合和关键句；

(3)第一确定模块66，用于根据关键信息在文本信息的占比确定出文章的类型；

(4)处理模块68，用于在文章为第一类型的情况下，对文章中的关键信息进行删除，并推送删除所述关键信息后的文章。

需要说明的是，在相关技术中，深度学习模型通常根据内容的文本、内容中的图片的OCR结果，通过卷积神经网络CNN的语义建模，得到广告文案的语义特征表示，最后通过分类完成广告的识别，命中广告进行过滤打击。而采用该方式，在过滤大量广告垃圾内容的同时，也一样会打击很多含有导流广告信息的优质内容。而在本发明实施例中，识别出文章中的文本信息后，将文本信息中的文字信息与预设的关键信息进行比较，并根据关键信息在文本信息的占比确定出文章的类型，从而实现了对文章的类型的精准识别，避免了对含有导流广告信息的优质文章进行删除，从而解决了相关技术中通过语义特征对含有广告的内容进行过滤导致在过滤包含广告垃圾的内容的同时也会打击含有导流广告的优质内容的问题。

如图7所示，本发明实施例的装置还可以包括：

(1)获取模块72，用于在识别出文章中的文本信息之前，获取发布文章的账号信息；

(2)判断模块74，用于判断账号信息是否在预设的白名单中；

(3)提示模块76，用于在判断结果为是的情况下，提示禁止执行识别与账号信息对应的文章的步骤。

可见，在执行识别出文章中的文本信息之前可以通过该文章的账号信息是否在白名单中，以确定是否要执行识别与账号信息对应的文章的步骤。需要说明的是，白名单中的账号信息是预先确定的经常发布优质文章的账号信息，例如，第一用户经常通过账号A发布自己在观看体育赛事后关于体育赛事的评论的文章，该账号A发布的文章得到了很多其他用户的关注，并且有很多用户给出了比较积极的评论。虽然，第一用户会在通过账号A发布文章的同时携带少量的广告信息，但对文章的整体阅读性并不影响，因此，这类文章的账号信息被设置在白名单中。当然，在白名单还可以是将一些公益性组织的账号信息，或者政府，企事业单位的账号信息也设置在白名单中。例如，被认证为某公益组织通过其社交账号发布了一篇发起公益行动文章，整篇文章都是为了这次公益行动进行宣传和介绍，当然也对本次公益行动的赞助方进行了介绍，即对赞助方进行相应的宣传，即使是文章中包含有广告信息，但只要是该公益组织通过其社交账号发布的文章均为优质文章。可见，通过白名单，可以直接确定该账号信息发布的文章为优质文章，而无需对该类文章进行识别。

如图8所示，本发明实施例中的装置还包括：

第二比较模块82，用于在将文本信息中的文字信息与预设的关键信息进行比较之前，将文本信息中的文字信息与预设的黑名单中的信息进行比较；

第二确定模块84，用于在文本信息中的文字信息出现黑名单中的信息的情况下，确定文章为不合格文章；

触发模块86，用于在文本信息中的文字信息未出现黑名单中的信息的情况下，触发执行将文本信息中的文字信息与预设的关键信息进行比较的步骤。

可见，在文章的文本信息中的文字信息出现了与黑名单中的信息的情况下，则直接将该文章确定为不合格的文章，该类文章是需要被删除掉的，在黑名单中词包括：带有反动色彩词的文章，带有种族歧视类的词的文章，带有色情暴力类的词的文章，带有邪教宣传语的文章等。例如，第二用户通过账户B发布了一篇文章，将该文章的内容与黑名单中的词或句进行比较，如果在该文章中识别出黑名单中的词或句，如出现了带有种族歧视类的词，则会将该文章直接确定为不合格的文章，是需要被删除掉的。

可选地，本发明实施例中的第一比较模块64包括：

(1)第一比较单元，用于将文本信息中的文字信息与关键信息中的关键词，以及多个关键词的组合进行比较，得到第一比较结果，其中，第一比较结果用于指示关键词和多个关键词的组合在文本信息的占比；

(2)第二比较单元，用于将文本信息中的文字信息与关键信息中的关键句进行比较，得到第二比较结果，其中，第二比较结果用于指示关键句在文本信息的占比。

可见，可以对文章内容进行关键词和关键句的匹配，得到关键句与关键词在该文章内容中的占比，例如关键词和关键句是包含广告类的关键词和关键句，广告类的关键词包括：关键词A，关键词B，关键词C以及关键词C，关键词的组合为四个关键词的任意组合；广告类的关键句包括：关键句A，关键句B，关键句C以及关键句D。例如，在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为1％，则说明该篇文章所包含的广告内容较少；如果在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为80％，则说明该篇文章包含的广告内容非常多。

可选地，本发明实施例中的第一确定模块66包括：

(1)第一乘积单元，用于将第一比较结果与第一权重相乘得到第一乘积结果；

(2)第二乘积单元，用于将第二比较结果与第二权重相乘得到第二乘积结果；

(3)第一确定单元，用于在第一乘积结果与第二乘积结果的和值小于预设阈值的情况下，确定出文章的类型为第一类型；

(4)第二确定单元，用于在第一乘积结果与第二乘积结果的和值大于或等于预设阈值的情况下，确定出文章的类型为第二类型。

对于第一比较结果和第二比较结果分别对应有相应的权重，需要与相应的权重相乘之后才能确定最后，关键词和/或关键句的占比，设置权重的目的是为了最终得到的结果更加准确，在通常情况下，同一个关键词在不同的语境中表现出不同的含义。以包含广告类的关键词为例，即使识别出文章内容中有该关键词，但该关键词在这篇文章中的含义并不一定就是其广告作用的，也有可能是其他正常的含义。而关键句即使在不同的语境中所表达的含义基本上是不会变的。因此，可以第一比较结果的第一权重设置的相对于第二比较结果的第二权重要低，这样得到的关键词和关键词组合，以及关键句的占比相对来说会比较准确。

可选地，本发明实施例中的处理模块包括：

(1)标记单元，用于对文本信息中的文字信息出现的与关键信息中的关键词，以及多个关键词的组合匹配的信息进行标记；

(2)删除单元，用于在文章确定为第一类型的情况下，提示对带有标记的文字信息进行删除。

以上述关键词为包含广告类的词为例，在某一篇文章中A，关键词B，关键词C以及关键词C及其组合的占比为5％，而对于关键句的占比为1％，如果第一权重为0.8，第二权重为1.2，则最后关键词和关键句的占比为5％*0.8+1％*1.2＝5.2％，则说明该篇文章所包含的广告的内容小于预设阈值，即广告内容较少，可以将该篇文章称之为含导流广告内容，即第一类型。在此基础上对文章内容出现的关键词及其组合进行标记，进而可以提示根据标记对其进行删除，如图5所示，从而提升阅读体验。

如图9所示，本发明实施例中的装置还包括：标记模块82，用于在文章为所述第二类型的情况下，将文章标记为不用审核的文章，并推送标记后的文章。

在具体应用场景中，如果关键信息是与广告内容相关的信息，则说明该第二类型的文章中包括了大量的广告内容，则不用对该类文章进行审核，提高了对文章审核的内容。当然，该关键信息也可以是其他类型的内容，可以根据实际需求对关键信息进行相应的设置，例如要筛选出含有大量游戏内容的文章等。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，识别出文章中的文本信息，其中，文本信息包括文章中自带的文字信息和/或由文章中的图片信息转换得到的文字信息；

S2，将文本信息中的文字信息与预设的关键信息进行比较，其中，关键信息包括关键词，多个关键词的组合和关键句；

S3，根据关键信息在文本信息的占比确定出文章的类型；

S4，在文章为第一类型的情况下，对文章中的关键信息进行删除，并推送删除关键信息后的文章。

S1，将文本信息中的文字信息与关键信息中的关键词，以及多个关键词的组合进行比较，得到第一比较结果，其中，第一比较结果用于指示关键词和多个关键词的组合在文本信息的占比；

S2，将文本信息中的文字信息与关键信息中的关键句进行比较，得到第二比较结果，其中，第二比较结果用于指示关键句在文本信息的占比。

S1，将第一比较结果与第一权重相乘得到第一乘积结果；

S2，将第二比较结果与第二权重相乘得到第二乘积结果；

S3，在第一乘积结果与第二乘积结果的和值小于预设阈值的情况下，确定出文章的类型为第一类型；

S4，在第一乘积结果与第二乘积结果的和值大于或等于预设阈值的情况下，确定出文章的类型为第二类型。

S1，对文本信息中的文字信息出现的与关键信息中的关键词，以及多个关键词的组合匹配的信息进行标记；

S2，在文章确定为第一类型的情况下，提示对带有标记的文字信息进行删除。

S1，将文本信息中的文字信息与预设的黑名单中的信息进行比较；

S2，在文本信息中的文字信息出现黑名单中的信息的情况下，确定文章为不合格文章；

S3，在文本信息中的文字信息未出现黑名单中的信息的情况下，触发执行将文本信息中的文字信息与预设的关键信息进行比较的步骤。

S1，在获取发布文章的账号信息；

S2，判断账号信息是否在预设的白名单中；

S3，在判断结果为是的情况下，提示禁止执行识别与账号信息对应的文章的步骤。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述文章的识别方法的电子装置，如图10所示，该电子装置包括：处理器1002、存储器1004、显示器1006、用户接口1008、传输装置1010、等。该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S3，根据关键信息在文本信息的占比确定出文章的类型；

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1004可用于存储软件程序以及模块，如本发明实施例中的文章的识别方法和装置对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述文章的识别方法。存储器1004可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1010包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1010为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文章的识别方法，其特征在于，包括：

识别出所述文章中的文本信息，其中，所述文本信息包括所述文章中自带的文字信息和/或由所述文章中的图片信息转换得到的文字信息；

将所述文本信息中的文字信息与预设的关键信息进行比较，其中，所述关键信息包括关键词，多个所述关键词的组合和关键句；

根据所述关键信息在所述文本信息的占比确定出所述文章的类型；

在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除，并推送删除所述关键信息后的文章。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本信息中的文字信息与预设的关键信息进行比较，包括：

将所述文本信息中的文字信息与所述关键信息中的关键词，以及所述多个关键词的组合进行比较，得到第一比较结果，其中，所述第一比较结果用于指示所述关键词和所述多个关键词的组合在所述文本信息的占比；

将所述文本信息中的文字信息与所述关键信息中的关键句进行比较，得到第二比较结果，其中，所述第二比较结果用于指示所述关键句在所述文本信息的占比。

3.根据权利要求2所述的方法，其特征在于，所述根据关键信息在所述文本信息的占比确定出所述文章的类型，包括：

将所述第一比较结果与第一权重相乘得到第一乘积结果；

将所述第二比较结果与第二权重相乘得到第二乘积结果；

在所述第一乘积结果与所述第二乘积结果的和值小于预设阈值的情况下，确定出所述文章的类型为第一类型；

在所述第一乘积结果与所述第二乘积结果的和值大于或等于所述预设阈值的情况下，确定出所述文章的类型为第二类型。

4.根据权利要求3所述的方法，其特征在于，在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除包括：

对所述文本信息中的文字信息出现的与所述关键信息中的关键词，以及所述多个关键词的组合匹配的信息进行标记；

对带有标记的文字信息进行删除。

5.根据权利要求3所述的方法，其特征在于，包括：

在所述文章为所述第二类型的情况下，将所述文章标记为不用审核的文章，并推送标记后的文章。

6.根据权利要求1所述的方法，其特征在于，在所述将所述文本信息中的文字信息与预设的关键信息进行比较之前，所述方法还包括：

将所述文本信息中的文字信息与预设的黑名单中的信息进行比较；

在所述文本信息中的文字信息出现所述黑名单中的信息的情况下，确定所述文章为不合格文章；

在所述文本信息中的文字信息未出现所述黑名单中的信息的情况下，触发执行将所述文本信息中的文字信息与预设的关键信息进行比较的步骤。

7.根据权利要求1所述的方法，其特征在于，在识别出所述文章中的文本信息之前，所述方法还包括：

获取发布所述文章的账号信息；

判断所述账号信息是否在预设的白名单中；

在判断结果为是的情况下，提示禁止执行识别与所述账号信息对应的文章的步骤。

8.一种文章的识别装置，其特征在于，包括：

识别模块，用于识别出所述文章中的文本信息，其中，所述文本信息包括所述文章中自带的文字信息和/或由所述文章中的图片信息转换得到的文字信息；

第一比较模块，用于将所述文本信息中的文字信息与预设的关键信息进行比较，其中，所述关键信息包括关键词，多个所述关键词的组合和关键句；

第一确定模块，用于根据关键信息在所述文本信息的占比确定出所述文章的类型；

处理模块，用于在所述文章为第一类型的情况下，对所述文章中的关键信息进行删除，并推送删除所述关键信息后的文章。

9.根据权利要求8所述的装置，其特征在于，所述第一比较模块包括：

第一比较单元，用于将所述文本信息中的文字信息与所述关键信息中的关键词，以及所述多个关键词的组合进行比较，得到第一比较结果，其中，所述第一比较结果用于指示所述关键词和所述多个关键词的组合在所述文本信息的占比；

第二比较单元，用于将所述文本信息中的文字信息与所述关键信息中的关键句进行比较，得到第二比较结果，其中，所述第二比较结果用于指示所述关键句在所述文本信息的占比。

10.根据权利要求9所述的装置，其特征在于，所述第一确定模块包括：

第一乘积单元，用于将所述第一比较结果与第一权重相乘得到第一乘积结果；

第二乘积单元，用于将所述第二比较结果与第二权重相乘得到第二乘积结果；

第一确定单元，用于在所述第一乘积结果与所述第二乘积结果的和值小于预设阈值的情况下，确定出所述文章的类型为第一类型；

第二确定单元，用于在所述第一乘积结果与所述第二乘积结果的和值大于或等于所述预设阈值的情况下，确定出所述文章的类型为第二类型。

11.根据权利要求10所述的装置，其特征在于，所述处理模块包括：

标记单元，用于对所述文本信息中的文字信息出现的与所述关键信息中的关键词，以及所述多个关键词的组合匹配的信息进行标记；

删除单元，用于对带有标记的文字信息进行删除。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二比较模块，用于在所述将所述文本信息中的文字信息与预设的关键信息进行比较之前，将所述文本信息中的文字信息与预设的黑名单中的信息进行比较；

第二确定模块，用于在所述文本信息中的文字信息出现所述黑名单中的信息的情况下，确定所述文章为不合格文章；

触发模块，用于在所述文本信息中的文字信息未出现所述黑名单中的信息的情况下，触发执行将所述文本信息中的文字信息与预设的关键信息进行比较的步骤。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

获取模块，用于在识别出所述文章中的文本信息之前，获取发布所述文章的账号信息；

判断模块，用于判断所述账号信息是否在预设的白名单中；

提示模块，用于在判断结果为是的情况下，提示禁止执行识别与所述账号信息对应的文章的步骤。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。