CN114399670A

CN114399670A - 一种5g消息中图片内文字实时提取的管控方法

Info

Publication number: CN114399670A
Application number: CN202210038976.2A
Authority: CN
Inventors: 黄书涵; 陈淼生; 郑仲嵩
Original assignee: China Telecom Fufu Information Technology Co Ltd
Current assignee: China Telecom Fufu Information Technology Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-26

Abstract

本发明公开一种5G消息中图片内文字实时提取的管控方法，引入基于图形学的预处理，针对5G消息垃圾图片的特征进行优化，以图形学运算的少量时间代价获得光学字符识别阶段的大量效率提升。本发明可以根据图片变体现状控制样本图片灵活选择模型训练的方向，提高识别准确率。在预处理算法、识别模型上进行合理优化，将速度和准确度提高到合理的阈值，实现实时图片鉴权要求。提取出的文本，交由普通文本过滤环节处理，返回最终判定结果，以实现对该类垃圾图片消息的管控。

Description

一种5G消息中图片内文字实时提取的管控方法

技术领域

本发明涉及5G技术应用领域，尤其涉及一种5G消息中图片内文字实时提取的管控方法。

背景技术

随着5G时代来临，各运营商纷纷推出基于RCS(富媒体通信)的5G消息，以期在传统短彩信通信外的拓展更丰富的消息类业务。然而垃圾信息是一个从短信彩信到5G消息都无法根除的问题。完善垃圾信息管控平台是运营商与发送者间的长期赛跑。

有别于IM软件，5G消息的弱客户端特性导致信息管控能力需在设备端实现。而5G消息的实时场景又要求管控具备低时延。5G消息支持的媒体类型中，文本实时监控技术已很成熟；流媒体在目前的算力下很难做到实时过滤；而图片实时通信在5G消息之前主要是彩信，目前各运营商彩信业务量很低，低负荷使得设备资源可较好应付实时图片处理；且彩信很少处在实时交互的场景中，故对处理速度的要求不苛刻。

发明内容

本发明的目的在于提供一种5G消息中图片内文字实时提取的管控方法。

本发明采用的技术方案是：

一种5G消息中图片内文字实时提取的管控方法，其包括以下步骤：

步骤1，图形学处理在opencv框架下对图片进行预处理；具体包括以下步骤：

步骤1-1，图片灰度化；灰度图是一幅只含亮度信息不含色彩信息的单通道图像,每个像素就是其亮度值；

步骤1-2，灰度图片阈值分割和二值化；

鉴于不同图片的灰度构成不同，如对所有图片二值化都使用一个固定阈值，那么有可能出现主体被融入背景或噪声被突出显示等干扰情况。所以需要对划分阈值进行计算。

步骤1-3，对二值化后的图片进行降噪处理；

通过大量样本分析发现垃圾图片的噪点多为孤立的小点，大量分布在图片的非主体区域中。该情况通常是制造者使用算法为图片加入各类噪音，为信息监控方制造障碍。所以需要使用降噪算法有效去除独立噪点。

步骤1-4，进行边缘检测得到文字轮廓，并在形态学上膨胀和腐蚀后获得文本区块；

二值图中对无用的图形信息干扰文字识别的效率和准确性；同时cnocr的分行识别能力很容易受到文本在图中复杂的布局影响而变得不准确。所以首先对二值图进行边缘检测获得文字的边缘高亮图；随后从形态学上进行腐蚀和膨胀以平整色块区域；

步骤1-5，获得文本区块外缘所占据的最大矩形的四角坐标，在二值图中获得各个文本块；

识别色块轮廓的像素坐标；再用获得的矩形区域坐标到原二值图上取出对应部分子图。因cnocr对图片进行扫描以文件为单位，故而我们对扫描获得的子图还需要拼成一个整齐的分行大图，这样速度和识别率最优。

步骤1-6，将各个文本块整齐拼接为一个图片；

步骤2，光学字符识别在cnocr套件下根据5G消息垃圾图片特征训练好模型；提高光学字符识别对非规范文字和垃圾信息图片常见字体的识别，以提升管控效果。

步骤3，管控业务流程将提取出的文本进行关键词匹配并实时返回管控结果；同时将文本送统计模块进行自然语言识别以发现嫌疑和生成推荐策略。

进一步地，步骤1-2中阈值分割采用OTSU法。

进一步地，步骤1-3中采用八邻域算法进行降噪处理；或采用八邻域算法结合连通域算法进行降噪处理。

进一步地，步骤1-4中采用Sobel算子进行边缘检测。

进一步地，步骤1的预处理还根据分析特征数据，将明显不具备含文本特征的图片剔除出处理流程，以减轻处理负荷。

进一步地的，步骤2的训练包含以下流程:

步骤2-1，选取大量样本图片统一二值化处理；

步骤2-2，生成训练集和测试集并转换二进制文件；

步骤2-3，使用训练脚本执行训练集；

步骤2-4，使用测试脚本在测试集上验证效果并导入新模型。

本发明采用以上技术方案，引入基于图形学的预处理，针对5G消息垃圾图片的特征进行优化，以图形学运算的少量时间代价获得光学字符识别阶段的大量效率提升。本发明可以根据图片变体现状控制样本图片灵活选择模型训练的方向，提高识别准确率。

本发明与现有技术相比，主要优势在于：1.识别速度快，在有GPU硬件支持的条件下可以通过架构优化支持大量并发的实时处理。在非GPU的条件下也可做到大量并发的准实时处理和小业务量***的实时处理。2.光学字符识别建立在国产开源套件上，中文识别率远高于业界通用的Tesseract。3.根据大量现有的样本图片案例进行模型训练，对非标准字体的识别率较高。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种5G消息中图片内文字实时提取的管控方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

在5G消息里，图片将以类似IM的方式直接发送和融入交互场景。且5G消息不像IM一样维护通信实体的名单，5G消息的受话方是可以基于号码的。故在管控不能位于终端的限制下，平台对图片监控的实时性准确率需求较彩信有了巨大的提高。

根据彩信平台和IM平台数据反馈显示，实时通信中的垃圾图片信息主要是以图片的方式固化相关文本，并在图中添加干扰因子以逃避平台监控。对该类垃圾信息，本发明提出了一套基于opencv图像预处理和cnocr光学字符识别的文字提取方法，并在预处理算法、识别模型上进行合理优化，将速度和准确度提高到合理的阈值，实现实时图片鉴权要求。提取出的文本，交由普通文本过滤环节处理，返回最终判定结果，以实现对该类垃圾图片消息的管控。

OpenCV是一套基于BSD许可的开源的计算机视觉库，利用它提供的接口和函数可以很方便地对图像进行处理，是业界应用最广泛的视觉库之一。

cnocr是一款基于循环神经网络(CNN)和卷积神经网络(RNN)的国产轻量级开源OCR库，预置了对GPU硬件的支持，且在中文的识别和模型训练上要优于业界使用较多的谷歌开源库Tesseract。

如图1所示，本发明公开了一种5G消息中图片内文字实时提取的管控方法，其包括以下步骤：

步骤1，图形学处理在opencv框架下使用自写算法和封装函数。主要有以下流程:

步骤1-1，灰度化处理。灰度值区间为[0,255]，表示从最暗到最亮。从RGB到灰度图转换可调用cvtColor()得到灰度化的结果。

步骤1-2，二值化处理。OTSU法首先统计灰度级中每个像素在整幅图像中的个数ω_1；计算每个像素在整幅图像的概率分布ω_2；再对灰度级进行遍历搜索获得背景平均灰度μ_1和前景平均灰度μ_2，计算当前灰度值下前景背景类间概率；最后通过目标函数计算类间方差g，即目标阈值。公式为：

g＝ω1*ω2*(μ1-μ2)2

获得的阈值作为调用thouhold()的参数

步骤1-3，降噪。八邻域降噪原理是遍历图中所有非白色点，计算其周围8个点中非白点个数如小于某阈值，则判定为噪点并置为白色。该法时间复杂度仅为O(MN)，是一个有效和简便的预处理方法。

步骤1-4，边缘检测。使用索贝尔算子(sobel operator)获取图像一阶梯度的方法进行边缘检测。用两个3*3的矩阵去和原图做卷积运算，求得某一点横向和纵向的梯度值，

通过以上卷积后，计算横纵梯度值平方和的开方，如大于阈值，则认为该点为边缘点。

步骤1-5，形态学处理。膨胀操作可以直接调用dilate()来实现,腐蚀操作的函数为erode()。

步骤1-6，文本区域划定。剔除面积过小和长宽比明显不符合的区块，对剩余区块使用标准矩形Rect类的boundingRect函数可获得包含该区块的最小矩形的四个角像素坐标。剔除比例不对的区块后，可以获得各块的四角坐标。

步骤1-7，区块的拼接。在原二值图上使用ROI法根据四角坐标裁剪出对应子图,并拼接出整齐分行图。

步骤2，光学字符识别在cnocr套件下实现。具体识别流程不做改动，主要根据5G消息垃圾图片特征做出对应的模型训练。训练包含以下流程:

步骤2-1，选取样本图片，裁剪出单行文字保存，文件名统一编号。将其二值化处理，作为图片数据源。

步骤2-2，编写一个程序，根据图片文件名和对应的正确文字以及文字在Label文件里的索引，生成训练集和测试集。

步骤2-3，使用人工智能套件mxnet的recordio把数据转成二进制格式。因为mxnet为提高IO效率,不会直接读取图片文件,而是先将图片列表和标签转换为RecordIO格式的二进制文件,训练时就可以顺序读取数据,大大提高了IO速率。调用脚本im2rec.py生成.lst文件，再生成.idx和.rec文件。

步骤2-4，使用cnocr提供的训脚本cnocr_train.py训练出模型。为了提高速度，可以配置使用GPU训练。

步骤2-5，cnocr提供了评估工具cnocr_evaluate.py，可测试新模型在测试集上的识别效果。

步骤2-6，将新的模型文件导入，即可在程序中使用ocr()指定使用新模型进行处理。

步骤3，管控业务流程将图片通过协议解析出，并输入以上流程；对提取出的文本进行关键词匹配并实时返回管控结果；同时将文本送统计模块进行自然语言识别以发现嫌疑和生成推荐策略。

下面就本发明的具体效果展开说明：

本发明以jpg图片测试集，以是否带底噪和干扰色块，以及字数50或150两个条件，分为四组每组20张。以普通CPU服务器作为测试硬件。对测试集经预处理并使用自训模型ocr，计算各环节的耗时，结果如下表，时间单位毫秒。

	50无干扰	50带干扰	150无干扰	150带干扰
					预处理耗时	17	101	58	133
OCR耗时	37	151	111	205
					准确率	98.9％	94.5％	97.3％	94.5％
直接OCR耗时	605	866	973	1380
					准确率	44.5％	<10％	26％	<10％

可以看出经本发明处理，单个普通图片文字提取速度已达到原图直接OCR的6倍以上，准确率由基本不可用改进至95％左右，如果能使用带GPU的集群架构进行部署，则基本可以满足5G消息实时和准实时鉴权的要求。故而本发明提出的综合处理方案是有效的。

本发明将来可能的应用场景：1.在以5G消息业务为代表的多媒体通信中进行实时或者准实时图片内文字管控。2.各类图片大数据类业务***中图片水印和文字标识的识别。

本发明为5G消息实时通信提供了图片管控的能力，提高了业务整体安全性。让图文识别能力不依赖于专业公司提供的实时鉴权接口，节约了接口使用的经济成本，***所在的网络也不用与专业公司的网络联通，提高了***总体的安全性。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.一种5G消息中图片内文字实时提取的管控方法，其特征在于：其包括以下步骤：

步骤1-2，灰度图片阈值分割和二值化；

步骤1-3，对二值化后的图片进行降噪处理有效去除独立噪点；

步骤1-4，进行边缘检测得到文字的边缘高亮图，并从形态学上膨胀和腐蚀后获得文本区块；

步骤1-6，将各个文本块整齐拼接为一个图片；

步骤2，光学字符识别在cnocr套件下根据5G消息垃圾图片特征训练好模型；提高光学字符识别对非规范文字和垃圾信息图片常见字体的识别；

2.根据权利要求1所述的一种5G消息中图片内文字实时提取的管控方法，其特征在于：步骤1-2中阈值分割采用OTSU法。

3.根据权利要求1所述的一种5G消息中图片内文字实时提取的管控方法，其特征在于：步骤1-3中采用八邻域算法进行降噪处理；或采用八邻域算法结合连通域算法进行降噪处理。

4.根据权利要求1所述的一种5G消息中图片内文字实时提取的管控方法，其特征在于：步骤1-4中采用Sobel算子进行边缘检测。

5.根据权利要求1所述的一种5G消息中图片内文字实时提取的管控方法，其特征在于：步骤1的预处理还根据分析特征数据，将明显不具备含文本特征的图片剔除出处理流程，以减轻处理负荷。

6.根据权利要求1所述的一种5G消息中图片内文字实时提取的管控方法，其特征在于：步骤2的训练包含以下流程:

步骤2-1，选取大量样本图片统一二值化处理；

步骤2-2，生成训练集和测试集并转换二进制文件；

步骤2-3，使用训练脚本执行训练集；

步骤2-4，使用测试脚本在测试集上验证效果并导入新模型。