一种基于多样化信息协同的邮件分拣***
技术领域
本发明属于邮件自动分拣技术领域,特别涉及一种基于多样化信息协同的邮件分拣新***。
背景技术
传统的普通邮件自动分拣,如图1所示。该种分拣方式是单机作业,依靠OCR技术对邮件表面的邮编和地址信息进行识别,根据识别结果进行分拣。这种分拣方式会受到邮编地址打印质量、邮件表面污损等情况限制,造成分拣效率不高。
对于挂号邮件、速递、快递邮件,这些邮件的收寄信息由收寄单位进行录入并推送到邮件信息综合网、并用唯一条码进行标识。在自动分拣***中,依靠OBR技术扫描邮件表面的条码,再通过条码在邮件信息综合网中进行检索,得到收寄单位录入的邮编地址信息,从而实现邮件的分拣,也是邮件网络化分拣的一个突破,如图2所示。但是在实际操作过程中,邮件寄递信息录入环节会不可避免出现录入差错、寄递信息推送会有迟于邮件分拣环节现象,造成一定比例的邮件不能按时自动分拣。
另外在实际分拣过程中,邮件从收寄至投递可能经过3至4次分拣机自动处理,目前分拣***中,每级分拣机对该邮件的处理信息是相对独立的,互相之间没有任何交互,使得现有的***的分拣效率没有充分利用。
发明内容
本发明的目的是提供一种基于多样化信息协同的邮件分拣***,以解决现有邮件分拣***中,各种分拣信息分散,没有有效利用,导致分拣效率下降的问题。
本发明的技术方案是,一种基于多样化信息协同的邮件分拣***,被分拣的邮件可以是具有扫描识别码的邮件,也可以是没有扫描识别码的邮件,所述邮件分拣***包括至少2个分拣环节,所述各分拣环节具有先后处理顺序,该邮件分拣***将关于被分拣邮件的分拣信息定义为3种,分别是:
来自邮件信息综合网邮件信息库DSe中的录入信息se、
来自上一级分拣环节推送的邮件信息库DSl中的识别信息sl、以及
当前分拣环节对被分拣邮件进行邮件图像识别后获取的以邮编+地址的方式表示的信息sr,
其中,具有扫描识别码的邮件在收件时产生的录入信息se被存入邮件信息综合网邮件信息库DSe,
所述邮件分拣***对于邮件分拣的步骤包括:
A1,获取被分拣邮件的邮件图像,搜索定位扫描识别码,如果邮件图像中有扫描识别码,则对该扫描识别码进行识别,识别结果即为该邮件的唯一标识码,
如果定位扫描识别码失败,则对邮件图像进行指纹特征描述提取,形成该邮件的唯一标识码;其中指纹特征的用可变长虚拟码表示,具体将邮件图像表示为一系列块对象的集合,针对每个对象的视觉特性和对象间的空间位置关系对邮件图像进行虚拟码描述。
A2,完成被分拣邮件的唯一标识码后,对所述邮件图像进行版面分析,定位提取该邮件的邮编和地址区域,并对邮件的邮编和地址进行识别,得到信息sr;
A3,信息sr存入邮件信息库DSl供当前分拣环节对下一环节推送;
A4,如果被分拣邮件没有扫描识别码,则即se=″″,且根据由邮件图像指纹特征形成的唯一标识码在上一级分拣环节推送的邮件信息库DSl中获得识别信息sl,其中
当被分拣邮件处于第一个分拣环节时,sl=″″;
A5,对所述被分拣邮件的三个信息源sr、se和sl,用专家分析决策方法进行分析处理,获得最大可能的邮编地址字符串s;具体首先基于动态规划对三个邮编地址串进行对齐,然后基于统计语言模型对地址的最优路径进行选择,得到多个地址的融合结果。
A6,当前分拣环节根据邮编地址字符串s进行邮件的分拣。
进一步的,所述扫描识别码是条形码。
本发明针对现有的邮件自动分拣***的不足,提出基于多样化信息协同的邮件分拣新方式,具体体现在:改变单机单源信息作业的现状,将普通邮件与挂号、速递、快递邮件的分拣方式相融合,将预先录入的邮件信息与基于识别的邮件信息协同作业,通过专家分析决策算法实现邮件的分拣。
该***中邮件的多样化信息包括:(1)预先录入的邮件信息(挂号、速递、快递邮件)、(2)前一次分拣时由分拣机识别***得到的邮件信息(普通邮件,挂号、速递、快递邮件)(3)本机识别***得到的邮件信息(普通邮件,挂号、速递、快递邮件)。可见,对于普通邮件主要是两类信息协同:上一级分拣机识别信息,本机识别信息。对于挂号、速递、快递邮件,有三类信息协同:邮件预录信息,上一级分拣机识别信息,本机识别信息。
对于普通邮件,如果邮件每经过一级分拣机分拣后,能将该分拣机的相应邮编地址识别信息推送到下一级分拣机,与下一级分拣机协同作业,有效提高分拣效率;另一方面,对于挂号、速递、快递邮件,除了根据条码从邮件信息综合网中提取录入的邮件信息这一渠道外,还能对该类邮件进行邮编地址的识别,得到基于识别的邮编地址信息,并将该识别信息共享给下一级分拣设备,从而提高邮件的处理效率。该***将普通邮件和挂号、速递、快递邮件的分拣方式融为一体,是一种邮件分拣的新方法。
附图说明
图1现有技术中普通邮件分拣方式示意图。
图2现有技术中挂号、速递、快递邮件分拣方式示意图。
图3本发明基于多样化信息协同的邮件分拣***示意图。
图4本发明实施例中基于多样化信息协同的邮件处理全过程图例。
图5本发明实施例中基于多样化信息协同的邮件分拣具体实施方式示意图。
具体实施方式
本发明的邮件多样化信息协同提升邮件分拣效率的过程中,需要对每个邮件进行唯一标识,实现同一邮件多样化信息的筛选和匹配。对于挂号、速递和快递邮件,邮件上的条形码是一种唯一标识码,可以实现对同一邮件的追踪匹配。而普通邮件没有条形码,为实现同一邮件多种识别信息的协同作业,本***对邮件图像进行“指纹”特征(Signature)提取,作为邮件的唯一标识码,在邮件分拣过程中满足对邮件的检索匹配。因此,得到邮件图像后,首先搜索定位条形码,如果邮件图像中有条形码,对条形码进行识别,识别结果即为该邮件的唯一标识码。如果定位条形码失败,则对邮件图像进行“指纹”特征描述,完成该邮件的唯一标识。通过邮件的唯一标识码匹配,提取同一邮件的多样化信息,然后通过专家分析决策算法得到表决后的邮件邮编和地址,实现多样化信息的协同,从而对邮件进行分拣。图3是基于多样化信息协同的邮件分拣***框图。
图4给出邮件处理的全过程示例,邮件经过第一个分拣机时除了获得本机识别信息外,还获得邮件信息综合网推送的预录文本信息,两个信息源的协同结果作为分拣的依据。从第二个分拣机开始,进一步增加了前一级分拣机推送的共享识别信息,这三个信息源的协同结果作为本机分拣的依据。
对于一个邮件分拣***,邮件首先经过图像采集设备得到邮件图像,然后根据对邮件图像的分析识别,提取用于分拣的信息从而实现对邮件的自动分拣。本***是应用邮件收寄时预录的邮件信息,上一级分拣机对该邮件的识别信息及本分拣机对邮件的识别信息三个信息源,并且对三个信息源进行专家分析决策,使得多样化的信息协同处理,从而对邮件进行分拣,具体实施方式如图5所示。
在基于多样化信息协同的邮件分拣方式中,每个邮件具有唯一标识是对同一邮件的多样化信息进行检索和匹配的前提,包裹、挂号信等邮件上的条形码是一种唯一标识码。而普通邮件没有条形码,为协同同一邮件在不同机器上的识别信息,本项目对邮件图像进行“指纹”特征(Signature)提取,作为邮件的唯一标识码。因此,得到邮件图像后,首先搜索定位条形码,如果邮件图像中有条形码,对条形码进行识别,识别结果即为该邮件的唯一标识码。如果定位条形码失败,则对邮件图像进行“指纹”特征描述,完成该邮件的唯一标识。其中指纹特征的用可变长虚拟码表示,具体将邮件图像表示为一系列块对象的集合,针对每个对象的视觉特性和对象间的空间位置关系对邮件图像进行虚拟码描述。
完成邮件的唯一性标识后,对邮件图像进行版面分析,定位提取邮件的邮编和地址区域,并对邮件的邮编和地址进行识别,得到本机的邮编地址识别结果,可用邮编+地址的方式,表示为sr。得到sr后,一方面作为本机的识别结果,另外一方面,将sr存入本机的缓存邮件信息库,供该级分拣***定时根据邮件分拣路向向下一级分拣***进行信息推送。
将该分拣***得到的该邮件的唯一标识与邮件信息综合网的信息库DSe及上一级分拣机推送的邮件信息库DSl进行匹配,得到该邮件的多源信息。如果该邮件有条码信息,则搜索邮件信息综合网的邮件信息库DSe中的条码,匹配得到相同的条码,即可提取DSe中的邮件录入信息se,然后搜索上一级分拣机推送的邮件信息库DSl,匹配条码,找到对应的上一级分拣机的识别信息sl。如果该邮件没有条码信息,则不搜索邮件信息综合网的邮件信息库DSe,即se=″″,将本分拣***提取的邮件的指纹特征与上一级分拣机推送的邮件信息库DSl中的指纹特征进行匹配运算,得到相对应的上一级分拣机对邮件的识别信息sl。如此得到该邮件的三个信息源:sr,se,sl,注:当正在处理的分拣机是该邮件经过的第一个分拣机时sl=″″。
对该邮件的三个信息源sr,se,sl,用专家分析决策算法进行分析处理,实现信息协同,包括多字符串的动态规划对齐,根据对齐结果生成候选路径链路,并最终形成最大可能的邮编地址字符串s。
最后该分拣***根据邮编地址s进行邮件的分拣,从而完成基于多样化信息协同的邮件自动化分拣。
这种基于多样化信息协同的邮件分拣新方式,可以有效降低只靠单信息进行分拣时的分拣错误率,提高分拣效率和分拣深度。