CN112231484A - 一种新闻评论审核方法、***、装置和存储介质 - Google Patents
一种新闻评论审核方法、***、装置和存储介质 Download PDFInfo
- Publication number
- CN112231484A CN112231484A CN202011305016.5A CN202011305016A CN112231484A CN 112231484 A CN112231484 A CN 112231484A CN 202011305016 A CN202011305016 A CN 202011305016A CN 112231484 A CN112231484 A CN 112231484A
- Authority
- CN
- China
- Prior art keywords
- comment
- picture
- comments
- elements
- illegal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种新闻评论审核方法、***、装置和存储介质。包括获取用户端发起的评论,识别评论中的文本和图片;提取图片中的文字和元素,识别并判断元素是否包含违规元素,若是,则移除所述图片;对文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定评论为违规评论,移除所述评论,并记录评论至数据库中;若无法判断评论是否为违规评论,则获取发表评论用户的用户情况,根据用户情况对评论做进一步判断,以确定评论是否违规。本申请具有加大审核效率,减少不正当评论的通过率的效果。
Description
技术领域
本申请涉及评论审核的领域,尤其是涉及一种新闻评论审核方法、***、装置和存储介质。
背景技术
随着信息化时代的发展,网络传播速度越来越快,上网刷帖、看新闻、刷微博等已成为当代人的流行活动,同时,当代人也热衷于帖子、新闻或微博留言评论、表达观点。
但是与此同时,网上出现了控评、恶意刷屏、评论政治等不正当评论,对新闻内容和信息传播造成不好的影响。
现有的新闻评论审核一般为后台管理人员人工审核,当审核评论内容过多或者评论内容量超重时,会导致很多非法或者反动黄色的评论内容被当成正常评论,通过管理员的审核,从而显示在用户端界面,造成极大的社会安全和内容安全隐患。
发明内容
为了加大审核力度,减少不正当评论的通过率,本申请提供一种新闻评论审核方法、***、装置和存储介质。
第一方面,本申请提供的一种新闻评论审核方法,采用如下的技术方案:
一种新闻评论审核方法,包括:
获取用户端发起的评论,识别所述评论中的文本和图片;
提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
通过采用上述技术方案,当用户对新闻内容进行评论后,服务器获取用户发起的评论,并识别评论中的文本部分和图片部分,识别图片中包含的元素部分,对元素进行判断,若图片中包含违规的元素,例如具有政治导向的元素或具有色情暴力的元素等,则判定该图片为违规图片,则应把这张图片删除,避免该图片出现在新闻评论中,出现不好的影响;再提取图片中的文字部分和评论中的文字部分,对该文字进行语义监测,若该评论的文字部分出现为敏感评论、灌水评论或过激评论,则删除该评论,并将该条评论记录至数据库中,避免下次有类似的评论,无需再对评论进行判定,直接删除即可,从而避免违规评论出现在新闻内容的评论区,若出现服务器无法判定的评论,则根据发表这条评论的用户本身,对这条评论进行判定,若该用户近期大多评论均为违规评论,则判定该条评论也为违规评论,避免该条评论出现在新闻内容的评论区,从而导致不好的舆论影响,也能够进一步加强对评论的审核力度和效率,减少不正当评论的通过率。
本发明在一较佳示例中可以进一步配置为:所述对所述文本和图片文字进行语义监测包括:
对各类情感词语准备对应的预设数量的样本词语,并标定每一样本词语对应的情感类别;
利用所述样本词语对识别模型进行训练;
将所述文本和所述图片文字进行分词处理;
将所述分词处理后的文本和图片文字输入至所述识别模型中进行识别,并输出第一识别结果。
通过采用上述技术方案,先根据多个样本词语进行训练,并标记每个词语的情感类别,其中包括正常评论、正面评论、负面评论和过激评论,其中过激评论为违规评论,对评论中的文本和图片文字部分进行分词处理,将分出的词输入至识别模型中,得出这条评论文本部分和图片文字部分的情感类别,若情感类别为过激评论,则该评论为违规评论,则需对该评论进行删除,避免该评论出现在新闻内容的评论区,造成不好的影响。
本发明在一较佳示例中可以进一步配置为:所述对所述文本和图片文字进行语义监测还包括:
将所述分出的各个词与所述样本词语匹配;
识别匹配成功的词语,获取所述匹配成功的词语的情感类别;
获取出现次数最多的情感类别,并输出第二识别结果;
若第一识别结果与第二识别结果不一致,则发送所述评论至审核员端,以使审核员利用所述审核员端对所述评论进行审核。
通过采用上述技术方案,将分出的词与样本词语匹配,由于样本词语每个都标记了对应的情感类别,选出匹配成功的词语的情感类别,获取其中情感类别最多的情感类别,则判定该情感类别为该评论的第二识别结果,再将第一识别结果与第二识别结果比对,如果第一识别结果和第二识别结果不一致,则还需对该评论进行人工审核,通过第一识别结果和第二识别结果的比对,使该评论的准确性更高,通过人工审核,使对该评论的情感判定进一步精确,避免出现过多误删的情况,造成用户不好的体验。
本发明在一较佳示例中可以进一步配置为:所述发送所述评论至审核员端包括:
发送所述评论至审核员端,以使审核员端对所述评论进行人工审核;
若判定所述评论为过激评论,获取所述审核员端标记的情感类别为过激的词语;
将所述词语补充至所述识别模型中,并移除所述评论。
通过采用上述技术方案,当第一识别结果和第二识别结果不一致时,还需要审核员利用审核员端对评论再做判定,以增强该评论情感判定的准确性,若该评论中出现过激词语,审核员提取该过激词语,并将该过激词语补充至识别模型中,进一步对识别模型进行训练,从而使识别模型的识别效果更为精准,从而减小识别出错的几率。
本发明在一较佳示例中可以进一步配置为:所述对所述文本和图片文字进行语义监测包括:
对所述评论进行分词处理;
提取所有的分词与数据库的历史评论匹配;
若匹配数量超过预设值,则判定所述评论为灌水评论。
通过采用上述技术方案,将评论与数据库的历史评论匹配,若该评论中的词语与历史评论中的其中一条评论的词语匹配数量较多,超过预设值,则说明这条评论与之前发表的评论较为相似,则判定该评论为灌水评论,需对该评论进行删除,避免出现用户对新闻内容进行恶意刷评论的现象。
本发明在一较佳示例中可以进一步配置为:准备足够多包含各类元素的训练图片,对所述训练图片标注类别;
利用所述训练图片对识别模型进行训练,以使所述识别模型根据所述训练图片输出对应的所述类别;
将所述图片输入至所述识别模型中,识别所述图片包含的元素的类别;
识别所述元素之间的对应关系,判断所述元素是否为违规元素,若是,则移除所述图片。
通过采用上述技术方案,评论中含有图片时,服务器通过对识别模型进行大量训练,以提高识别模型的识别准确率,从而识别图片中包含的各个元素的类别,若图片中包含的元素包含政治诱导元素,则需对该图片进行删除,避免造成不好的舆论影响;同时,若该图片中出现的元素组合,具有政治诱导的效果,也许对该图片进行删除,避免该图片出现在评论区,造成不好的舆论影响。
本发明在一较佳示例中可以进一步配置为:所述获取发表所述评论用户的用户情况,根据所述用户情况对所述评论进一步判断包括:
获取发表所述评论的用户情况,用户情况包括所述评论近期发表的评论;
提取所述用户近期评论的监测结果,选出所述监测结果中出现次数最多的类别;
若所述出现次数最多的类别为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,并移除所述评论。
通过采用上述技术方案,若出现评论出现无法判定的情况,则根据该用户近期发表的评论的情感类别,判断该条评论的情感类别,若该用户近期发表的评论大多为过激评论,则判断该条评论也为过激评论,使用该方法对评论进行进一步的判定,提高评论审核的力度,减少不正当评论的通过率。
第二方面,本申请提供的一种新闻评论审核***,采用如下的技术方案:
一种新闻评论审核***,包括:
获取装置,获取用户端发起的评论,识别所述评论中的文本和图片;
识别装置,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
监测装置,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
判断装置,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
通过采用上述技术方案,当用户对新闻内容进行评论后,服务器获取用户发起的评论,并识别评论中的文本部分和图片部分,识别图片中包含的元素部分,对元素进行判断,若图片中包含违规的元素,例如具有政治导向的元素或具有色情暴力的元素等,则判定该图片为违规图片,则应把这张图片删除,避免该图片出现在新闻评论中,出现不好的影响;再提取图片中的文字部分和评论中的文字部分,对该文字进行语义监测,若该评论的文字部分出现为敏感评论、灌水评论或过激评论,则删除该评论,并将该条评论记录至数据库中,避免下次有类似的评论,无需再对评论进行判定,直接删除即可,从而避免违规评论出现在新闻内容的评论区,若出现服务器无法判定的评论,则根据发表这条评论的用户本身,对这条评论进行判定,若该用户近期大多评论均为违规评论,则判定该条评论也为违规评论,避免该条评论出现在新闻内容的评论区,从而导致不好的舆论影响,也能够进一步加强对评论的审核力度和效率,减少不正当评论的通过率。
第三方面,本申请提供的一种新闻评论审核装置,采用如下的技术方案;
一种新闻评论审核装置,包括:
获取模块,获取用户端发起的评论,识别所述评论中的文本和图片;
识别模块,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
监测模块,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
判断模块,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
通过采用上述技术方案,当用户对新闻内容进行评论后,服务器获取用户发起的评论,并识别评论中的文本部分和图片部分,识别图片中包含的元素部分,对元素进行判断,若图片中包含违规的元素,例如具有政治导向的元素或具有色情暴力的元素等,则判定该图片为违规图片,则应把这张图片删除,避免该图片出现在新闻评论中,出现不好的影响;再提取图片中的文字部分和评论中的文字部分,对该文字进行语义监测,若该评论的文字部分出现为敏感评论、灌水评论或过激评论,则删除该评论,并将该条评论记录至数据库中,避免下次有类似的评论,无需再对评论进行判定,直接删除即可,从而避免违规评论出现在新闻内容的评论区,若出现服务器无法判定的评论,则根据发表这条评论的用户本身,对这条评论进行判定,若该用户近期大多评论均为违规评论,则判定该条评论也为违规评论,避免该条评论出现在新闻内容的评论区,从而导致不好的舆论影响,也能够进一步加强对评论的审核力度和效率,减少不正当评论的通过率。
第四方面,本申请提供的一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种新闻评论审核方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
1.本方案中,服务器获取用户发起的评论,并对该评论进行语义分析,对该评论中的图片进行识别,若图片违规,则删除图片,若评论中的文本部分违规,则移除评论,从而加强评论的审核力度,减小违规评论的出现,且该***是在评论经过审核后再显示,避免违规评论显示评论区之后再对该评论进行删除,减小违规评论造成的负面影响;
2.本方案中,服务器对评论进行语义分析时,对该评论的情感类别进行两次不同的分析,并对两次不同的分析结果进行比对,从而进一步加强对该评论情感分析的准确度;
3.本方案中,若该评论的情感类别无法准确判断时,则分析该评论的用户近期评论的情感类别,通过该用户近期评论中最多的情感类别,对该评论进行判断,进一步加大审核力度。
附图说明
图1是本申请其中第一实施例中的流程示意图。
图2是本申请其中第二实施例中的结构框图。
图3是本申请其中第三实施例中的***示意图。
具体实施方式
以下结合附图1-3对本申请作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例作出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
实施例一:
一种新闻评论审核方法,参考图1,包括:
101、获取用户端发起的评论,识别所述评论中的文本和图片。
具体的,当用户在用户端发起评论后,服务器获取该评论,该评论中至少包括文本部分。服务器获取评论后,识别该评论中的文本部分,若该评论中含有图片,则同时获取该评论中的图片部分。优选的,设置用户端发布评论的字数要求,即评论的文字至少为5个以上,从而减少无意义评论的数量。其中,用户端可为手机端或电脑端。
102、提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片。
具体的,服务器提取图片中的文字和元素,先对图片进行预处理,预处理主要包括灰度化、二值化、噪声取出、倾斜校正等;再对图片进行分隔,将倾斜校正后的文字投影到Y轴,并将所有值累加,即可得到一个在Y轴上的直方图;想图片分隔成多个小块的图片,把每一部分的图片扫描的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出图片中的文字部分,以便服务器对图片中的文字部分进行情感类别分析,从而判断该图片是否删除。
进一步的,准备足够多包含各类元素的训练图片,对所述训练图片标注类别;
利用所述训练图片对识别模型进行训练,以使所述识别模型根据所述训练图片输出对应的所述类别;
将所述图片输入至所述识别模型中,识别所述图片包含的元素的类别;
识别所述元素之间的对应关系,判断所述元素是否为违规元素,若是,则移除所述图片。
具体的,服务器通过对识别模型进行大量训练,具体为预先准备包含各类元素的训练图片,元素具体可为具有政治诱导因素的元素和可能组成政治诱导因素的子元素,例如包含元素为火把和国旗,若该火把元素与国旗元素位置重合,则判定该组合元素为具有政治诱导因素的元素;进一步的,元素具体还可以是具有色情元素、暴力元素或二维码因素等。
对所有训练样本标注类别,类别可为“国旗”、“色情”、“暴力”、“二维码”、“火把”等。训练图片数量具体至少为各个类别1000张,进一步的,若在评论图片中出现新的违规元素,则可将该图片作为训练图片,对识别模型进一步训练,以提高训练准确度。
将评论中的图片输入至识别模型中,识别该图片中的元素,具体应用可为YOLO算法,将图片分成网格,并预测每个网格的类概率和边界框,例如,以一个100x100的图像为例,把它分为网格,比如7x7;对于每个网格,网络都会预测一个边界框于每个元素(“国旗”、“色情”、“暴力”、“二维码”、“火把”等)相对应的概率。
再根据各个元素的位置关系,即元素是否重叠,进一步对图片元素进行判断,若“火把”元素与“国旗”元素位置重合,则判定该图片中元素为违规元素,并移除该图片。除了对图片的基本元素进行判定,同时还对图片中多个元素的组合进行判定,进一步加强对图片的审核力度,避免该图片出现在评论区,造成不好的舆论影响。
103、对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中。
具体的,提取图片中的文字部分和评论中的文本,并对图片文字和文本进行语义监测,语义监测具体为对文本进行情感分析、对文本进行相似度分析和对文本进行敏感词监测。其中,敏感词监测主要为对问题进行敏感词和红标词的监测,敏感词表示国家领导人姓名、国家重要机构领导人、省市县歌曲领导和机构领导人、某些敏感事件等,红标词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明词等。
具体的,建立监测词列表,对监测词列表里进行监测词补充,其中监测词具体可从大量新闻文本数据、小说文本数据和杂志文本数据中提取;将评论中的文本内容做分词处理,并与监测词列表内的监测词进行匹配,若出现监测词列表内的监测词,则判定该评论为敏感评论,需移除评论,并将该评论记录至数据库中,以备之后若出现类似评论,则可直接判定该评论为违规评论,进一步的,把该违规评论记录到数据库后,能够对发表该评论的用户进行标记,即表示该用户发表过一次违规评论,。
进一步的,对各类情感词语准备对应的预设数量的样本词语,并标定每一样本词语对应的情感类别;
利用所述样本词语对识别模型进行训练;
将所述文本和所述图片文字进行分词处理;
将所述分词处理后的文本和图片文字输入至所述识别模型中进行识别,并输出第一识别结果。
具体的,服务器获取预设数量的各类情感词语的样本词语,具体每类情感词语为一千个,情感词语的类别可为“正面评论”、“负面评论”、“过激评论”、“普通评论”,且样本词语可不断补充,样本词语越多,则识别准确率相对越高;对所有样本词语的类别进行标定;利用这些样本词语不断训练识别模型,使识别模型的识别结果不断精确,服务器将评论中的文本和图片文字进行分词处理,再将分词后的文本和图片文字输入至识别模型中,对文本和图片文字的类别进行识别,并输出第一识别结果,第一识别结果为该评论的文本和图片文字的的情感类别。
其中,对图片的格式不加以限定。
进一步的,将所述分出的各个词与所述样本词语匹配;
识别匹配成功的词语,获取所述匹配成功的词语的情感类别;
获取出现次数最多的情感类别,并输出第二识别结果;
若第一识别结果与第二识别结果不一致,则发送所述评论至审核员端,以使审核员利用所述审核员端对所述评论进行审核。
具体的,对评论的文本和图片文字进行分词后,将所有分词与样本词语匹配,选出各个词语的情感类别,筛选出出现次数最多的情感类别,则该情感类别即为第二识别结果,第二识别结果为对该评论的文本和图片文字的情感类别的在一次判定;对比第二识别结果和第二识别结果,若一致,则判定该评论文本和图片文字的情感类别即为识别结果,若不一致,则还需对该评论进行再次判定,即发送至审核员端,以使审核员对该评论进行人工审核。其中,审核员端具体可为电脑端或手机端。
进一步的,发送所述评论至审核员端,以使审核员端对所述评论进行人工审核;
若判定所述评论为过激评论,获取所述审核员端标记的情感类别为过激的词语;
将所述词语补充至所述识别模型中,并移除所述评论。
具体的, 当第一识别结果和第二识别结果不一致时,服务器将该评论发送至审核员端,以使审核员利用审核员端对该评论进行人工审核,若判定该评论为“正面评论”、“负面评论”或 “普通评论”,则将该评论显示至新闻内容的评论区;若判定该评论为“过激评论”,则提取该评论中情感类别为“过激”的词语,并将该词语补充至识别模型中,以使识别模型根据该词语进行训练,从而进一步提高识别模型的识别准确率,减小审核端的工作量,进一步提高服务器的智能化。
进一步的,对所述评论进行分词处理;
提取所有的分词与数据库的历史评论匹配;
若匹配数量超过预设值,则判定所述评论为灌水评论。
具体的,对评论进行分词处理,每个用户拥有自己对应的账号,每个账号的历史评论则记录在数据库中,对新评论的分词与数据库中的历史评论进行匹配,若匹配数量超过预设值,具体为,若该评论分词呈10个词语,若该评论中10个词语中有80%的词语与历史评论中的至少一条评论相同,则判定该评论为灌水评论,需对该评论进行移除,避免出现用户对新闻内容进行恶意刷屏,增加用户阅读体验。
104、若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
具体的,若无法判断该评论是否为违规评论,则获取该用户的用户情况,用户情况具体为该用户的近期评论、该用户的注册日期和该用户的社区动态,若该用户的近期评论均为违规评论,则判定该用户的这条评论也为违规评论,用户近阶段处于过激或暴力的情绪,难以突然转***度,以正面或正常的心态评论,进一步的,可对该用户进行封号处理,禁止该用户发表评论,封号时间可根据该用户的评论类别评定,若该用户近期多为灌水评论,则认定该用户是恶意刷屏,封禁该用户1年时间;若该用户近期多为过激评论,免责认定该用户近期心态不好,封禁该用户1礼拜时间,使该用户冷静一段时间;若该用户近期为敏感评论,则认定该用户具有不正常的政治想法,永久封禁该用户账号,避免该用户评论造成不好的舆论影响。进一步的,同时可根据该用户的注册IP地址,电脑端的IP地址固定不变,若该用户用该电脑端申请账号,则对该IP地址申请的所有账号同时进行封禁,避免该用户创造多个账号对新闻内容进行违规评论。
进一步的,获取发表所述评论的用户情况,用户情况包括所述评论近期发表的评论;
提取所述用户近期评论的监测结果,选出所述监测结果中出现次数最多的类别;
若所述出现次数最多的类别为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,并移除所述评论。
具体的,获取该评论的用户情况,其中具体可为该用户近期发表的评论,该用户的近期评论均记录在数据库中,从数据库中调取该用户的近期评论,并提取这些近期评论的监测结果,监测结果具体为“过激评论”、“正面评论”、“负面评论”、“普通评论”、“灌水评论”或“敏感评论”,选出这些近期评论中监测结果出现次数最多的监测结果,若出现次数最多的类别为“过激评论”、“灌水评论”或“敏感评论”,则判定该用条品论为违规评论,并将该评论移除。从而进一步加大审核力度,避免出现违规评论出现在评论区,评论区具体可为电脑端界面或手机端界面中新闻内容下方的显示区域。
本实施例的实施原理为:
当用户对新闻内容进行评论后,服务器获取用户发起的评论,并识别评论中的文本部分和图片部分,识别图片中包含的元素部分,对元素进行判断,若图片中包含违规的元素,例如具有政治导向的元素或具有色情暴力的元素等,则判定该图片为违规图片,则应把这张图片删除,避免该图片出现在新闻评论中,出现不好的影响;
再提取图片中的文字部分和评论中的文字部分,对该文字进行语义监测,若该评论的文字部分出现为敏感评论、灌水评论或过激评论,则删除该评论,并将该条评论记录至数据库中,避免下次有类似的评论,无需再对评论进行判定,直接删除即可,从而避免违规评论出现在新闻内容的评论区;
若出现服务器无法判定的评论,则根据发表这条评论的用户本身,对这条评论进行判定,若该用户近期大多评论均为违规评论,则判定该条评论也为违规评论,避免该条评论出现在新闻内容的评论区,从而导致不好的舆论影响,也能够进一步加强对评论的审核力度和效率,减少不正当评论的通过率。
实施例二:
一种新闻评论审核***,参考图2,包括:
获取装置201,获取用户端发起的评论,识别所述评论中的文本和图片。
识别装置202,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片。
进一步的,准备足够多包含各类元素的训练图片,对所述训练图片标注类别;
利用所述训练图片对识别模型进行训练,以使所述识别模型根据所述训练图片输出对应的所述类别;
将所述图片输入至所述识别模型中,识别所述图片包含的元素的类别;
识别所述元素之间的对应关系,判断所述元素是否为违规元素,若是,则移除所述图片。
监测装置203,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中。
进一步的,对各类情感词语准备对应的预设数量的样本词语,并标定每一样本词语对应的情感类别;
利用所述样本词语对识别模型进行训练;
将所述文本和所述图片文字进行分词处理;
将所述分词处理后的文本和图片文字输入至所述识别模型中进行识别,并输出第一识别结果。
进一步的,将所述分出的各个词与所述样本词语匹配;
识别匹配成功的词语,获取所述匹配成功的词语的情感类别;
获取出现次数最多的情感类别,并输出第二识别结果;
若第一识别结果与第二识别结果不一致,则发送所述评论至审核员端,以使审核员利用所述审核员端对所述评论进行审核。
进一步的,发送所述评论至审核员端,以使审核员端对所述评论进行人工审核;
若判定所述评论为过激评论,获取所述审核员端标记的情感类别为过激的词语;
将所述词语补充至所述识别模型中,并移除所述评论。
进一步的,对所述评论进行分词处理;
提取所有的分词与数据库的历史评论匹配;
若匹配数量超过预设值,则判定所述评论为灌水评论。
判断装置204,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
进一步的,获取发表所述评论的用户情况,用户情况包括所述评论近期发表的评论;
提取所述用户近期评论的监测结果,选出所述监测结果中出现次数最多的类别;
若所述出现次数最多的类别为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,并移除所述评论。
实施例三:
一种新闻评论审核***,参考图3,包括:
获取模块301,获取用户端发起的评论,识别所述评论中的文本和图片。
识别模块302,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片。
准备足够多包含各类元素的训练图片,对所述训练图片标注类别;
利用所述训练图片对识别模型进行训练,以使所述识别模型根据所述训练图片输出对应的所述类别;
将所述图片输入至所述识别模型中,识别所述图片包含的元素的类别;
识别所述元素之间的对应关系,判断所述元素是否为违规元素,若是,则移除所述图片。
监测模块303,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中。
进一步的,对各类情感词语准备对应的预设数量的样本词语,并标定每一样本词语对应的情感类别;
利用所述样本词语对识别模型进行训练;
将所述文本和所述图片文字进行分词处理;
将所述分词处理后的文本和图片文字输入至所述识别模型中进行识别,并输出第一识别结果。
进一步的,将所述分出的各个词与所述样本词语匹配;
识别匹配成功的词语,获取所述匹配成功的词语的情感类别;
获取出现次数最多的情感类别,并输出第二识别结果;
若第一识别结果与第二识别结果不一致,则发送所述评论至审核员端,以使审核员利用所述审核员端对所述评论进行审核。
进一步的,发送所述评论至审核员端,以使审核员端对所述评论进行人工审核;
若判定所述评论为过激评论,获取所述审核员端标记的情感类别为过激的词语;
将所述词语补充至所述识别模型中,并移除所述评论。
进一步的,对所述评论进行分词处理;
提取所有的分词与数据库的历史评论匹配;
若匹配数量超过预设值,则判定所述评论为灌水评论。
判断模块304,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
进一步的,获取发表所述评论的用户情况,用户情况包括所述评论近期发表的评论;
提取所述用户近期评论的监测结果,选出所述监测结果中出现次数最多的类别;
若所述出现次数最多的类别为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,并移除所述评论。
需要说明的是:上述实施例提供的新闻评论审核的装置和***在执行新闻评论审核方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备和设备的内部构造划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种新闻评论审核方法、***和装置实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。
易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。
上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述新闻评论审核方法的程序执行的集成电路。该处理模块和该存储模块可以解耦,分别设置在不同的物理设备上,通过有线或者无线的方式连接来实现该处理模块和该存储模块的各自的功能,以支持该***芯片实现上述实施例中的各种功能。或者,该处理模块和该存储器也可以耦合在同一个设备上。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种新闻评论审核方法,其特征在于,包括:
获取用户端发起的评论,识别所述评论中的文本和图片;
提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本和图片文字进行语义监测包括:
对各类情感词语准备对应的预设数量的样本词语,并标定每一样本词语对应的情感类别;
利用所述样本词语对识别模型进行训练;
将所述文本和所述图片文字进行分词处理;
将所述分词处理后的文本和图片文字输入至所述识别模型中进行识别,并输出第一识别结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本和图片文字进行语义监测还包括:
将所述分出的各个词与所述样本词语匹配;
识别匹配成功的词语,获取所述匹配成功的词语的情感类别;
获取出现次数最多的情感类别,并输出第二识别结果;
若第一识别结果与第二识别结果不一致,则发送所述评论至审核员端,以使审核员利用所述审核员端对所述评论进行审核。
4.根据权利要求3所述的方法,其特征在于,所述发送所述评论至审核员端包括:
发送所述评论至审核员端,以使审核员端对所述评论进行人工审核;
若判定所述评论为过激评论,获取所述审核员端标记的情感类别为过激的词语;
将所述词语补充至所述识别模型中,并移除所述评论。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本和图片文字进行语义监测包括:
对所述评论进行分词处理;
提取所有的分词与数据库的历史评论匹配;
若匹配数量超过预设值,则判定所述评论为灌水评论。
6.根据权利要求1所述的方法,其特征在于,所述提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片包括:
准备足够多包含各类元素的训练图片,对所述训练图片标注类别;
利用所述训练图片对识别模型进行训练,以使所述识别模型根据所述训练图片输出对应的所述类别;
将所述图片输入至所述识别模型中,识别所述图片包含的元素的类别;
识别所述元素之间的对应关系,判断所述元素是否为违规元素,若是,则移除所述图片。
7.根据权利要求1所述的方法,其特征在于,所述获取发表所述评论用户的用户情况,根据所述用户情况对所述评论进一步判断包括:
获取发表所述评论的用户情况,用户情况包括所述评论近期发表的评论;
提取所述用户近期评论的监测结果,选出所述监测结果中出现次数最多的类别;
若所述出现次数最多的类别为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,并移除所述评论。
8.一种新闻评论审核***,其特征在于,包括:
获取装置,获取用户端发起的评论,识别所述评论中的文本和图片;
识别装置,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
监测装置,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
判断装置,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
9.一种新闻评论审核装置,其特征在于,包括:
获取模块,获取用户端发起的评论,识别所述评论中的文本和图片;
识别模块,提取所述图片中的文字和元素,识别并判断所述元素是否包含违规元素,若是,则移除所述图片;
监测模块,对所述文本和图片文字进行语义监测,若监测结果为敏感评论、灌水评论或过激评论,则判定所述评论为违规评论,移除所述评论,并记录所述评论至所述数据库中;
判断模块,若无法判断所述评论是否为违规评论,则获取发表所述评论用户的用户情况,根据所述用户情况对所述评论做进一步判断,以确定所述评论是否违规。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011305016.5A CN112231484B (zh) | 2020-11-19 | 2020-11-19 | 一种新闻评论审核方法、***、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011305016.5A CN112231484B (zh) | 2020-11-19 | 2020-11-19 | 一种新闻评论审核方法、***、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231484A true CN112231484A (zh) | 2021-01-15 |
CN112231484B CN112231484B (zh) | 2022-11-08 |
Family
ID=74123839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011305016.5A Active CN112231484B (zh) | 2020-11-19 | 2020-11-19 | 一种新闻评论审核方法、***、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231484B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010708A (zh) * | 2021-03-11 | 2021-06-22 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN113132368A (zh) * | 2021-04-12 | 2021-07-16 | 海南晨风科技有限公司 | 聊天数据的审核方法、装置及计算机设备 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
CN113592465A (zh) * | 2021-09-29 | 2021-11-02 | 飞狐信息技术(天津)有限公司 | 待审核内容的分流方法、装置、服务器及计算机存储介质 |
CN115641063A (zh) * | 2022-08-10 | 2023-01-24 | 中国民用航空飞行学院 | 中小机场航空情报原始资料智能审核*** |
CN116204748A (zh) * | 2022-12-28 | 2023-06-02 | 河北省气象服务中心(河北省气象影视中心) | 一种数据处理方法 |
CN116822496A (zh) * | 2023-06-02 | 2023-09-29 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、***及存储介质 |
CN117556146A (zh) * | 2024-01-10 | 2024-02-13 | 石家庄邮电职业技术学院 | 一种网络数据信息处理***、方法、设备及介质 |
CN117725909A (zh) * | 2024-02-18 | 2024-03-19 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915673A (zh) * | 2014-03-11 | 2015-09-16 | 株式会社理光 | 一种基于视觉词袋模型的目标分类方法和*** |
CN107807966A (zh) * | 2017-10-13 | 2018-03-16 | 深圳市迅雷网络技术有限公司 | 一种敏感信息屏蔽方法和服务端 |
CN109977403A (zh) * | 2019-03-18 | 2019-07-05 | 北京金堤科技有限公司 | 恶意评论信息识别方法及装置 |
KR20200084506A (ko) * | 2019-01-03 | 2020-07-13 | 조규상 | 정보 표시순위 결정시스템 및 방법 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
-
2020
- 2020-11-19 CN CN202011305016.5A patent/CN112231484B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915673A (zh) * | 2014-03-11 | 2015-09-16 | 株式会社理光 | 一种基于视觉词袋模型的目标分类方法和*** |
CN107807966A (zh) * | 2017-10-13 | 2018-03-16 | 深圳市迅雷网络技术有限公司 | 一种敏感信息屏蔽方法和服务端 |
KR20200084506A (ko) * | 2019-01-03 | 2020-07-13 | 조규상 | 정보 표시순위 결정시스템 및 방법 |
CN109977403A (zh) * | 2019-03-18 | 2019-07-05 | 北京金堤科技有限公司 | 恶意评论信息识别方法及装置 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010708B (zh) * | 2021-03-11 | 2023-08-25 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN113010708A (zh) * | 2021-03-11 | 2021-06-22 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN113132368A (zh) * | 2021-04-12 | 2021-07-16 | 海南晨风科技有限公司 | 聊天数据的审核方法、装置及计算机设备 |
CN113132368B (zh) * | 2021-04-12 | 2022-11-04 | 海南晨风科技有限公司 | 聊天数据的审核方法、装置及计算机设备 |
CN113239674A (zh) * | 2021-06-15 | 2021-08-10 | 中国银行股份有限公司 | 用户评论管理方法及装置 |
CN113592465A (zh) * | 2021-09-29 | 2021-11-02 | 飞狐信息技术(天津)有限公司 | 待审核内容的分流方法、装置、服务器及计算机存储介质 |
CN115641063A (zh) * | 2022-08-10 | 2023-01-24 | 中国民用航空飞行学院 | 中小机场航空情报原始资料智能审核*** |
CN116204748A (zh) * | 2022-12-28 | 2023-06-02 | 河北省气象服务中心(河北省气象影视中心) | 一种数据处理方法 |
CN116822496A (zh) * | 2023-06-02 | 2023-09-29 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、***及存储介质 |
CN116822496B (zh) * | 2023-06-02 | 2024-04-19 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、***及存储介质 |
CN117556146A (zh) * | 2024-01-10 | 2024-02-13 | 石家庄邮电职业技术学院 | 一种网络数据信息处理***、方法、设备及介质 |
CN117556146B (zh) * | 2024-01-10 | 2024-03-22 | 石家庄邮电职业技术学院 | 一种网络数据信息处理***、方法、设备及介质 |
CN117725909A (zh) * | 2024-02-18 | 2024-03-19 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
CN117725909B (zh) * | 2024-02-18 | 2024-05-14 | 四川日报网络传媒发展有限公司 | 一种多维度的评论审核方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112231484B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231484B (zh) | 一种新闻评论审核方法、***、装置和存储介质 | |
US11361570B2 (en) | Receipt identification method, apparatus, device and storage medium | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
KR100815530B1 (ko) | 유해성 컨텐츠 필터링 방법 및 시스템 | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
WO2019218699A1 (zh) | 欺诈交易判断方法、装置、计算机设备和存储介质 | |
CN111310446B (zh) | 裁判文书的信息抽取方法及装置 | |
CA3117374C (en) | Sensitive data detection and replacement | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
US20070294784A1 (en) | Identifying content of interest | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
CN111695357A (zh) | 文本标注方法及相关产品 | |
CN112800771B (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
CN112989167A (zh) | 搬运账号的识别方法、装置、设备及计算机可读存储介质 | |
CN117195319A (zh) | 保函文件电子件的验真方法、装置、电子设备和介质 | |
CN115690819A (zh) | 一种基于大数据的识别方法及其*** | |
CN115687754A (zh) | 一种基于智能对话的主动式网络信息挖掘方法 | |
CN105868271B (zh) | 一种姓名统计方法及装置 | |
CN113297482A (zh) | 基于多模型的搜索引擎数据的用户画像刻画方法及*** | |
Aggarwal et al. | Geo-localized public perception visualization using GLOPP for social media | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 | |
CN117333800B (zh) | 一种基于人工智能的跨平台内容运营优化方法及*** | |
CN117745237A (zh) | 内容审查方法、装置、设备以及存储介质 | |
CN107943781B (zh) | 关键词识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |