CN106709474A

CN106709474A - 一种手写电话号码识别、校验及信息发送***

Info

Publication number: CN106709474A
Application number: CN201710048843.2A
Authority: CN
Inventors: 王想实; 周薇; 李萍; 叶晓霖
Original assignee: Wuxi Institute of Technology
Current assignee: Wuxi Institute of Technology
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2017-05-24

Abstract

本发明一种手写电话号码识别、校验及信息发送***涉及神经网络识别领域，尤其是一种适用于快递、物流配送流程中使用的手写电话号码识别。包括图像采集器和***总机，***总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块；图像采集器与图像识别模块通过无线方式相联；手写电话号码识别方法包括1）手机号码数字显著性提取；2）图像分割；3）特征提取；4）神经网络识别。本发明可广泛应用在物流行业中，对于收件人取件信息的发送无需人工手动输入和核对，手机号码通过模糊识别由后台数据库信息管理***自动校验发送相应的取件信息，无需人工干预，可极大提高工作效率。

Description

一种手写电话号码识别、校验及信息发送***

技术领域

本发明一种手写电话号码识别、校验及信息发送***涉及神经网络识别领域，尤其是一种适用于快递、物流配送流程中使用的手写电话号码识别。

背景技术

目前在物流配送领域，货物在经过取件、分拨发货、中转等多个环节后，最终到达目的地区域营业部，该站点负责通知取件人到相应的目的地取件。其发送取件消息多数通过短消息或电话等方式通知用户取件，主要联系方式为取件人的手机号码，其书写构成主要有手写体和印刷体。

当前取件信息的发送主要有以下三类：

1、通过手动输入取件人的手机号和对应单号，通过GSM或语音电话方式将信息发出。这类数据信息的发送主要存在以下缺点，

大批量数据信息全部手动输入，极易造成数据漏输、错输和少输；

整个数据输入全部依赖人工，造成人工成本上升；

对于模糊数据，需要人工肉眼辨别，增加了手机号码数据录入的复杂性，降低了录入效率；

2、二是通过光学字符识别（OCR），主要应用图像识别技术，将采集到的数字图像通过图像识别方法，识别出图像中的数字。这类软件一般集成在手机端，通过手机APP扫描印刷体手机号码获得手机号码，进行取件消息构造。主要存在以下几个方面缺点：

这类软件运行速度慢，延时严重，不及手工录入效率高，不适合实时应用；

这类软件与手机绑定，耗电量大，不能长时间进行持续作业；

主要只针对印刷体手机号码识别，，且识别后的结果需要人工进一步验证正确性，这都极大地降低了快递投递工作效率；

对于手写体手机号码，识别率是主要瓶颈，且识别速度慢，功耗大；

3、三是通过专有装置扫描二维码，通过二维码检索手机号，这类处理方式的主要弊端是不能识别手写体号码，同时通过二维码检索手机号出错率比较高，且人工现场无法核对正确性，是一种模糊的盲处理方式，容易发送误取件消息。

发明内容

本发明的目的是针对上述不足之处提供一种手写电话号码识别、校验及信息发送***，将用户的手写体手机号码通过神经网络***识别后，自动发送取件信息给用户，用户无需频繁地对识别后的号码进行校验其正确性，整个号码的正确性由后台数据库信息管理***自动完成，无需人工干预。同时依据手机号段11位编码规则，在后台数据量稳定的基础上，采用手机号码部分识别策略，提高了整个识别速度和正确率，满足快递投递领域自动发送取件消息，极大提高工作效率。

本发明是采取以下技术方案实现的：

手写电话号码识别、校验及信息发送***包括图像采集器和***总机，***总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块；图像采集器与图像识别模块通过无线方式相联；

图像采集器完成快递单中手写号码区域的图像采集任务，并通过无线方式上传到***总机；

图像识别模块采用手写体数字图像分类器，是本***的核心部分，完成手机号码的识别功能，通过BP神经网络的学习，修正误差，得到期望输出的神经网络，用以识别出手写手机号码；

信息校验及管理模块具有手机号码/收件人信息管理器和无线通信模块；对图像识别模块识别后的结果，通过后动态生成的数据库，对校验结果核对其正确性，减少人工干预，提高识别的准确率；

短消息发送模块采用GSM MODEM方式，完成快递取件消息的发送功能，构建短消息数据包，通过识别后的手机号码将取件信息发送给取件人。

图像采集器包括光学***、镜头、相机和相机驱动模块；所述光学***实现光源控制。

光学***采用紧凑结构、高分辨率、像差校正达到衍射极限的光学***，实现精确定位，在约束空间中成像***具有高分辨率和小识别误差；采用短的工作距离和大数值孔径（NA），提高成像对比度；采用高分辨率平场复消色差的衍射极限光学***对色差、高级像差进行校正。

为了提高识别速度，所述短消息发送模块依据手机号段编码规则，采用部分识别和后台检索双重机制来提高识别的速度。

手写电话号码识别、校验及信息发送***的手写电话号码识别方法，包括如下步骤：

1）手机号码数字显著性提取，图像的显著性是人类视觉***选择和当前任务有关联的特定感兴趣区域作为处理对象，而忽略其它无关信息比如背景边界等信息，自动判别有效目标的所在范围，从精度，速度上都会起到至关重要的作用。基于订单中显著性目标是简单背景下的单色数字，采用鲁棒性背景优先的显著性优化方法，将目标号码从背景中分离出来，得到手机号码二值图像，便于后续分割处理；

具体的是将图像划分为N个超像素块，N是不为零的自然数，通过在颜色空间计算块与边界块的颜色距离，在空间上计算块与边界块的绝对距离，通过这两个距离和的加权来判断块的显著性值，从而判断某个块是否属于目标区域；

所述显著性值的定义公式为，

其中为处理的图像基本区域，单个像素或经分割后的像素集合块；pi为第i个处理的图像基本区域；

定义为块间在CIE-Lab空间中的平均颜色距离；

为块间的空间距离，计算公式为，

，

其中表示任意两点间的欧拉距离；

表示区域的权值比重，通过计算两点间在颜色空间中的最短距离确定；源于图像背景具有面积大且同质的特性，利用与背景区域的最短距离来判断显著性目标；

2）图像分割

图像分割是对显著性检测后得到手机号码二值图像进行切分，分别分割出11位手机号码数字；显著图中前景目标数字区域和背景区域的分界线明显，图像灰度直方图具有显著的双峰形态，从双峰间波谷即可判断数字分割位置；图像分割的具体步骤为，

2-1) 将手机号码二值图像垂直投影，生成投影向量以及对应的投影曲线；

2-2）将投影曲线的波谷作为数字分割位置，进行区域分割；

2-3）将步骤2-2）中所述分割图像进行区域图像归一化后，得到标准形式图像；

3）特征提取

采用粗网格提取方法实现特征提取；

所述粗网格提取方法的具体过程为，

3-1）提取经过步骤2）图像分割后的数字的轮廓特征；

3-2）依据周边轮廓特征对经过步骤2）得到的图像边界进行裁剪；

3-3）将经过步骤3-2）裁剪后的每个数字图像按黑像素占总像素的比率提取其特征值，从而形成特征向量库；

4）神经网络识别

4-1）将来自步骤3）的特征向量库作为神经网络的训练输入的特征量，根据神经网络文件中设定的参数对待测图像进行识别，计算每个图像的隐含层和输出层实际值；

4-2）根据输出层与数字的对应关系，将神经网络的测试结果和识别结果的置信度存储到文件，将识别结果反馈到信息校验及管理模块，进行识别结果的校验和取件消息的处理。

步骤4）中所述神经网络采用BP 神经网络，BP神经网络的算法流程如下：

a）准备训练数据集；将来自步骤3）的特征向量库转换为输入层特征向量训练集合，并将样本的标签保存到输入层的类别向量，即为输出层维度；

b）初始化BP神经网络；

c）迭代训练BP神经网络，计算出隐含层的输出结果和输出层的实际输出结果；

d）将步骤c）的输出层的实际输出结果与步骤a）中的类别向量对比，计算每个图像的误差，然后求所有样本的误差平均值；

d-1）当误差平均值小于预定误差，训练结束，将神经网络的参数保存到文件；

d-2）当误差平均值大于预定误差，则需调整神经网络参数；在此基础上，判断迭代次数，如果次数小于预定的最大迭代次数，将继续进行步骤c）的神经网络的训练；否则直接将网络参数保存到文件中，神经网络训练结束。

步骤3-3）中具体的方法是：把每个数字图像定义成一个5*5像素的模板，将每个样品数字图像的长度和宽度5等分，平均有*5个等分，对每一等分进行像素个数统计，除以每一份的面积总数即得特征值，从而形成特征向量库，作为后续神经网络的训练输入的特征量。

步骤3）中的特征提取是从高维的像素空间映射到低维特征向量空间的过程，因手写体数字的笔画相对固定，特征差异较大，***采用粗网格特征，将数字点阵划分为5*5=25个局部区域，将区域中的点阵密度作为特征描述，统计每个区域中图像像素所占的百分比作为特征数据，如：针对16*16像素的点阵，将划分为5*5像素的小区域，得到十六维粗网格特征；该方法有效抑制图像噪声，提高***的识别率。

步骤3）中所述的轮廓特征的提取是将数字字形加上外接矩形边框，然后分别从上、下、左、右四个方向依次扫描数字点阵直至碰到第一个黑象素或对面的边框为止，记录下每次扫描所经过的白象素数，从而得到周边轮廓特征；所得到的周边轮廓特征稳定性强、较易提取、维数较低、减少计算量。

步骤1）的显著性值的定义公式中的表示区域的边界权值比重。具体计算过程如下：

。

其中：

这里表示边界点集合，表示点对点总长的分量长度，使用长度的平方根来实现规模不变性，保证了不同分辨率图像块之间的稳定性。这里关键是给出，位了区别目标区域与背景区域连接度的不同，这里规定当点，同属于一类区域时，则分量长度接近1，反之则为0。由此给出具体实施过程如下：首先在构造像素结点间的无向带权图，权值为相邻超像素点在CIE-Lab空间中的平均颜色距离，任意两点间在无向图上颜色空间最短路径权值之和记为。点对点长度分量记为：

（2）

为权重控控制因子，设置为10,；分量长度值域为（0，1）中。从中可以看出，当与在同一类区域域时，，分量长度，点对点的总长的贡献量为1，反之则接近为0。

本发明的优点：

本发明提供一种快速基于区域手机号码（手写体或印刷体）识别***，解决了目前市场上存在的单一只针对印刷体手机号码慢速识别的弊端，满足物流、快递等领域需要批量手动手机号码快速识别和应用的需求；提供了一种快速识别手机号码识别的方法，将反向神经网络BP数字识别与后期识别结果自动进行校验相集成，可以快速精确地识别出手写体数字；可以对手机号码的识别结果进行自动校验，无需人工干预；提供一种快速选择确定目标号码识别范围的方法，通过动态设置前导线索，对同一视场下存在的多个手机号码，可以快速识别目标号码所在的位置，避免人工手动矫正识别范围，减少人工干预，提高识别速度；通过建立数据库信息管理***，集中存储区域手机号码，对二次识别的号码提供校验检测，提高识别的速速和精确性。

附图说明

以下将结合附图对本发明作进一步说明：

图1是本发明***架构图；

图2是本发明的图像采集器的图像采集原理框图；

图3是本发明的图像识别模块的原理框图；

图4是本发明的图像识别模块的手机号码数字显著性提取流程图；

图5是本发明的图像识别模块的图像分割流程简图；

图6是本发明的图像识别模块的图像分割流程详图；

图7是本发明的图像识别模块的数字特征向量生成流程图；

图8是本发明的图像识别模块的神经网络识别流程图；

图9是本发明的信息校验及管理模块的结构示意图；

图10是本发明的短消息发送模块的结构示意图；

图11是本发明的短消息发送模块的发送流程图。

具体实施方式

参照附图1~11，本发明手写电话号码识别、校验及信息发送***包括图像采集器和***总机，***总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块；图像采集器与图像识别模块通过无线方式相联；

短消息发送模块采用GSM MODEM方式，完成快递取件消息的发送功能，构建短消息数据包，通过识别后的手机号码将取件信息发送给取件人（参照附图11）。

图像采集器包括光学***、镜头、相机和相机驱动模块；所述光学***实现光源控制（参照附图2）。图像采集器可采用Euresys公司的Picolo2图像采集卡，采集速度快，可以缩短图像识别的整体时间。

光学***采用紧凑结构、高分辨率、像差校正达到衍射极限的光学***，实现精确定位，在约束空间中成像***具有高分辨率和小识别误差；采用短的工作距离和大数值孔径（NA），提高成像对比度；采用高分辨率平场复消色差的衍射极限光学***对色差、高级像差进行校正；

所述显著性值的定义公式为，

定义为块间在CIE-Lab空间中的平均颜色距离；

为块间的空间距离，计算公式为，

，

其中表示任意两点间的欧拉距离；

2）图像分割

2-2）将投影曲线的波谷作为数字分割位置，进行区域分割；

3）特征提取

采用粗网格提取方法实现特征提取；

所述粗网格提取方法的具体过程为，

3-1）提取经过步骤2）图像分割后的数字的轮廓特征；

4）神经网络识别

b）初始化BP神经网络；

本发明中信息校验及管理模块完成手机号码识别结果的自动校验任务，提高识别的自适应性度，手机号码信息校验管理器将识别出的手机号码在***数据库中进行检索，如果存在则表示识别正确，无需人工后验；当数据库中不存在该手机号码时，表示该号码是新识别出的数据，需要人工复核该号码的正确性，最后将正确号码存入数据库中，以备该号码下次再识别后，手机号码/收件人信息管理器自动验证其正确性。

目前通过主机向客户手机端发送消息主要有三种方式，一是通过运营商短信网管，适合大型网络通讯公司。二是通过专有网站提供的短消息服务功能直接实现,对第三方依赖性较大，不适合长期应用。三是通过GSM MODEM方式，可扩张性强。本***使用GSMMODEM方式，其硬件构成如图9所示，首先将SIM卡***GSM MODEM的通信插卡槽上，其次将GSM MODEM通过红外线与***所在PC机相连接，提供数据通信的物理链路，构建一个虚拟串口。***通过串口将命令以PDU模式编译成GSM MODEM可以发送的传输码，发送到客户端。

短消息发送模块在构造消息包的基础上，通过识别后的手机号码将信息发送给取件人。为了提高识别速度，依据手机号段编码规则，采用部分识别和后台检索双重机制来提高识别的速度。依据我国目前使用的手机号码为11位，其中各段的编码构成以及含义为：

前3位—网络识别号；

第4-7位—地区编码；

第8-11位—用户号码；

在人流量集中的某个封闭区域中，用户号段基本是唯一的，即不同用户的用户号段不会出现相同的情况，应用手机号码区域集中的特点，所以在识别过程中，优先检测手机后四位码识别取件号码，同时在线检索后台数据字典，当用户号码在后台数据库中有对应匹配的用户号码，则无需识别后续7位号码，不仅提高识别速度，同时提高准确度。

本发明可广泛应用在物流行业中，对于收件人取件信息的的发送无需人工手动输入和核对，手机号码通过模糊识别后，整个号码的正确性由后台数据库信息管理***自动完成并发送相应的取件信息，无需人工干预，提高了整个识别速度和正确率，满足快递投递领域需求，可极大提高工作效率。

Claims

1.一种手写电话号码识别、校验及信息发送***，其特征在于：包括图像采集器和***总机，***总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块；图像采集器与图像识别模块通过无线方式相联；

2.根据权利要求1所述的手写电话号码识别、校验及信息发送***，其特征在于：图像采集器包括光学***、镜头、相机和相机驱动模块；所述光学***实现光源控制。

3.根据权利要求1所述的手写电话号码识别、校验及信息发送***，其特征在于：所述光学***采用平场复消色差光学***。

4.根据权利要求1所述的手写电话号码识别、校验及信息发送***，其特征在于：所述短消息发送模块依据手机号段编码规则，采用部分识别和后台检索双重机制来提高识别的速度。

5.一种手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，包括如下步骤：

1）手机号码数字显著性提取，采用鲁棒性背景优先的显著性优化方法，将目标号码从背景中分离出来，得到手机号码二值图像，便于后续分割处理；

所述显著性值的定义公式为，

定义为块间在CIE-Lab空间中的平均颜色距离；

为块间的空间距离，计算公式为，

，

其中表示任意两点间的欧拉距离；

2）图像分割

2-2）将投影曲线的波谷作为数字分割位置，进行区域分割；

3）特征提取

采用粗网格提取方法实现特征提取；

所述粗网格提取方法的具体过程为，

3-1）提取经过步骤2）图像分割后的数字的轮廓特征；

4）神经网络识别

6.根据权利要求5所述的手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，所述步骤4）中所述神经网络采用BP 神经网络，BP神经网络的算法流程如下：

b）初始化BP神经网络；

7.根据权利要求5所述的手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，步骤3-3）中具体的方法是：把每个数字图像定义成一个5*5像素的模板，将每个样品数字图像的长度和宽度5等分，平均有*5个等分，对每一等分进行像素个数统计，除以每一份的面积总数即得特征值，从而形成特征向量库，作为后续神经网络的训练输入的特征量。

8.根据权利要求5所述的手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，步骤3）中的特征提取是从高维的像素空间映射到低维特征向量空间的过程，因手写体数字的笔画相对固定，特征差异较大，***采用粗网格特征，将数字点阵划分为5*5=25个局部区域，将区域中的点阵密度作为特征描述，统计每个区域中图像像素所占的百分比作为特征数据；抑制图像噪声，提高***的识别率。

9.根据权利要求5所述的手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，步骤3）中所述的轮廓特征的提取是将数字字形加上外接矩形边框，然后分别从上、下、左、右四个方向依次扫描数字点阵直至碰到第一个黑象素或对面的边框为止，记录下每次扫描所经过的白象素数，从而得到周边轮廓特征；所得到的周边轮廓特征稳定性强、较易提取、维数较低、减少计算量。

10.根据权利要求5所述的手写电话号码识别、校验及信息发送***的手写电话号码识别方法，其特征在于，步骤1）的显著性值的定义公式中的表示区域的边界权值比重，具体计算过程如下：

，

其中，

这里表示边界点集合，表示点对点总长的分量长度，使用长度的平方根来实现规模不变性，保证了不同分辨率图像块之间的稳定性；这里关键是给出，位了区别目标区域与背景区域连接度的不同，这里规定当点，同属于一类区域时，则分量长度接近1，反之则为0；由此给出具体实施过程如下，首先在构造像素结点间的无向带权图，权值为相邻超像素点在CIE-Lab空间中的平均颜色距离，任意两点间在无向图上颜色空间最短路径权值之和记为；点对点长度分量记为：

，

为权重控控制因子，设置为10；分量长度值域为（0，1）中；从中可以看出，当与在同一类区域域时，，分量长度，点对点的总长的贡献量为1，反之则接近为0。