CN111047261B - 一种仓储物流委托单识别方法及*** - Google Patents
一种仓储物流委托单识别方法及*** Download PDFInfo
- Publication number
- CN111047261B CN111047261B CN201911269946.7A CN201911269946A CN111047261B CN 111047261 B CN111047261 B CN 111047261B CN 201911269946 A CN201911269946 A CN 201911269946A CN 111047261 B CN111047261 B CN 111047261B
- Authority
- CN
- China
- Prior art keywords
- order
- area
- identified
- format
- warehouse logistics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种仓储物流委托单识别方法及***。所述方法包括训练委托单版式分类模型;将待识别仓储物流委托单输入委托单版式分类模型中,确认待识别委托单的所属版式类型:若为固定版式,则对待识别委托书进行固定区域框选,从框选的固定区域中识别关键字;若为包括关键特征值的非固定版式,则根据关键特征值在待识别委托单上的相对位置动态进行区域框选,从框选的动态区域中识别关键字;若为不包括关键特征值的非固定版式,则依据文字分块处理原则对文字分块区域进行框选,从框选的文字分块区域中识别关键字;将识别出的关键字依据适配规则进行编码对照和数据清洗,汇总适配结果。减少人工录入的工作量和失误,实现仓储物流管理的自动化。
Description
技术领域
本申请涉及仓储管理的技术领域,尤其涉及一种仓储物流委托单识别方法及***。
背景技术
在物流运输环节,特别是国际进出口物流业务中,业务过程中产生大量的仓储物流委托单,然而由于来自全球各地的空运及海运单据的类型非常多,所以行业内对客户单据没有统一格式标准,一般客户都会依据自家公司需求填写各种格式复杂多变的委托单。
针对小一些的物流公司可能有几十上百中格式的物流文档;中型和大型的物流公司的客户可能有上万个,每天需要处理上万份文档的流转,需要处理的文档的格式之多,录入工作程序繁琐,需要大量的消耗大量的人力。同时人工处理容易出错,出错后排查错误的过程异常艰辛。因此亟需一种能够自动识别各种版式仓储物流委托单的方法,减少人工处理的繁琐,提高信息录入的效率。
发明内容
本申请提供一种仓储物流委托单识别方法,包括:
预先使用大量仓储物流委托单训练委托单版式分类模型;
当获取到待识别仓储物流委托单时,将待识别仓储物流委托单输入所述委托单版式分类模型中,确认所述待识别委托单的所属版式类型:
若确认待识别委托单的所属版式类型为固定版式,则对待识别委托书进行固定区域框选,从框选的固定区域中识别关键字;
若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,则根据关键特征值在待识别委托单上的相对位置动态进行区域框选,从框选的动态区域中识别关键字;
若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则依据文字分块处理原则对文字分块区域进行框选,从框选的文字分块区域中识别关键字;
将识别出的关键字依据适配规则进行编码对照和数据清洗,汇总适配结果。
如上所述的仓储物流委托单识别方法,其中预先使用大量仓储物流委托单训练委托单版式分类模型,具体为:通过预先存储的大量仓储物流委托单和/或从邮箱中识别邮件中委托书附件的方式,输入卷积神经网络中训练能够识别各种版式类型的委托单版式分类模型。
如上所述的仓储物流委托单识别方法,其中训练委托单版式分类模型,具体包括如下子步骤:
将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络进行预处理;
提取各种版式类型的委托单中的局部版式特征,汇总得到多维度的局部版式特征;
对多维度的局部版式特征进行降维处理,进一步提取出各类委托单中的版式特征;
对各类委托单中的版式特征进行分类,得到识别各种版式类型的委托单版式分类模型。
如上所述的仓储物流委托单识别方法,其中若确认待识别委托单的所属版式类型为固定版式,则采用该类委托单对应的预先设置的固定区域进行框选,从框选的固定区域中识别关键字。
如上所述的仓储物流委托单识别方法,其中若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,执行如下操作:
步骤S1、获取委托单中的首个关键特征值作为当前关键特征值;
步骤S2、识别委托单中当前关键特征值的下一特征值;
步骤S3、将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选区域;
步骤S4、从框选区域中识别关键字,并将当前关键特征值的下一特征值作为当前关键特征值,返回执行步骤S2。
如上所述的仓储物流委托单识别方法,其中所述步骤S3具体包括如下子步骤:
根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上下边缘;
将当前关键特征值所在位置向左偏移预定位移的位置作为矩形框选区域的左边缘;
将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位置作为矩形框选区域的右边缘。
如上所述的仓储物流委托单识别方法,其中若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则从委托单中获取当前行区域,对当前行区域相邻的四个方向进行识别,确定关键段落区域的矩形边缘位置,具体包括:
上边缘:从首行区域开始识别,关键段落框选的矩形上边缘即为首行区域的上边缘;在识别出某一关键段落之后,下一关键段落框选的上边缘即为上一关键段落框选的下边缘;
下边缘:获取当前行区域向下方向的下一行,确定下一行与当前行的间距,若超过预设距离,则确定关键段落框选的矩形下边缘即为当前行区域的下边缘;若在预设距离之内则将当前行区域的下一行作为当前行区域,继续再向下获取直至行间距超过预设距离时确定关键段落框选的矩形下边缘;
左边缘:在矩形上下边缘的区域内若不存在已经框选过的矩形区域,则将该区域最左侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘,若存在已经框选过的矩形区域,则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左边缘;
右边缘:在矩形框选区域的上下边缘内,检测每一行中每个字符的间距,若存在字符间距超过预定宽度且超过值最小的行,将该行超过预定宽度前的字符所在位置向右偏移约定位移后的位置作为矩形框选区域的右边缘;若右侧没有字符则直接将最右侧字符所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。
如上所述的仓储物流委托单识别方法,其中将识别出的关键字依据适配规则进行编码对照和数据清洗,具体包括如下子步骤:
将识别出的特定关键字进行编码对照,将特定关键字转化为唯一的编码标识;
将识别出的符合正则表达式的关键字进行数据清洗,从中提取数值。
本申请还提供一种仓储物流委托单识别***,包括仓储物流委托单识别子***、邮件提取委托单子***和适配结果管理子***;
所述仓储物流委托单识别子***执行上述任一项所述的仓储物流委托单识别方法;
所述邮件提取委托单子***用于自动收取邮件并自动从邮件中提取待识别委托单附件,将待识别委托单输入所述仓储物流委托单识别子***进行识别处理;
所述适配结果管理子***用于将适配结果存入数据库中,或对接客户业务***提供的API接口,将适配结果直接录入业务***中。
如上所述的仓储物流委托单识别***,其中所述仓储物流委托单识别子***还用于将来自邮件提取委托单子***的委托单重新输入卷积神经网络中训练委托单版式分类模型。
本申请实现的有益效果如下:
(1)采用本申请提供的仓储物流委托单识别方法及***既能够识别出具有标准版式的委托单,而且能够识别出各种没有标准规格的仓储物流委托单;
(2)对于识别出的不同版式的委托单采用不同的处理方法能够准确识别其中的关键字,提高关键信息提取的准确率;
(3)本申请从委托单的邮件收取->版式识别->关键信息提取->关键信息汇总管理的一系列操作全部为自动化处理,减少了人工录入的繁琐工作量,降低了人工录入的错误,且提高了处理大量委托单的效率,实现仓储物流管理的自动化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种仓储物流委托单识别方法流程图;
图2为训练委托单版式分类模型的具体操作流程图;
图3为固定版式类型的委托单示例图;
图4为包括关键特征值的非固定版式类型的委托单示例图;
图5为不包括关键特征值的非固定版式类型的委托单示例图;
图6为本申请实施例二提供的一种仓储物流委托单识别***示意图。
具体实施方式
实施例一
由于在现有的物流运输业务中,仓储物流委托单的种类非常非常多,而且客户提供的单据又没有统一的标准格式,各家都是按照自己的撰写习惯和需求来填写格式复杂的委托单。本申请的申请人研究发现,虽然委托单的格式不尽相同但是会存在一定的规律可循,例如,有些客户的委托单格式比较固定,有些客户虽然委托单格式不固定但是一般委托单里会写明发件人信息、收件人信息、港口信息、货物信息等常用信息,也有些客户虽然委托单中没有常用的关键词但是每个信息之间书写规格基本相似。
因此针对现有的大量不同格式的仓储物流委托单,本申请实施例一提供一种仓储物流委托单识别方法,如图1所述,包括如下步骤:
步骤110、基于卷积神经网络预先使用大量仓储物流委托单训练委托单版式分类模型;
在本申请实施例中,通过预先存储的大量仓储物流委托单和/或从邮箱中识别邮件中委托书附件的方式,输入卷积神经网络中以训练能够识别各种版式类型的委托单版式分类模型;此外当通过邮件等方式接收到新的客户委托单时将委托单输入卷积神经网络中作进一步训练,以提高分类模型的准确率;
具体地,训练委托单版式分类模型,如图2所示,具体包括如下子步骤:
步骤210、将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络进行预处理;
本申请以客户的唯一名称/标识以及客户的各种委托书版式类型作为卷积神经网络待训练的特征,通过卷积神经网络的训练能够识别出不同客户的不同版式类型。
步骤220、提取各种版式类型的委托单中的局部版式特征,汇总得到多维度的局部版式特征;
其中,版式特征包括但不限于文字方向梯度直方图特征、行间分布特征与行内字符间特征等;
本申请实施例中,由委托单中的信息构建向量矩阵D,然后在卷积神经网络的卷积层利用一维卷积核w∈Ra*h对向量矩阵D进行特征提取,获得特征值Cn,其中a表示向量的维度,h表示一维卷积核窗口的大小;
具体地,利用如下公式在卷积层中提取版式特征:
其中,n表示卷积运算的次数,m表示卷积核的个数,h表示一维卷积核的窗口大小,n:n+h-1表示n到n+h-1,f(·)表示非线性激活函数,·表示卷积核的共享权重和向量矩阵的对应运算,x表示向量矩阵的输入值,w表示权重,b表示偏差值。
步骤230、对多维度的局部版式特征进行降维处理,进一步提取出各类委托单中的版式特征;
本申请实施例中,将卷积层提取出的版式特征输入卷积神经网络的池化层,池化层的作用是对特征作进一步提取,将特征映射的最大值作为最重要的特征提取出来,从而获得委托单中的版式特征,对所有的特征映射池化降维后得到一个一维向量。
具体地,在池化层中用如下公式进一步提取特征值:
pv=max[Cn] (公式2)
其中n表示卷积运算的次数;通过池化层的采样,将通过卷积获得的特征进一步分类,防止过拟合并增强结构的鲁棒性。
步骤240、对各类委托单中的版式特征进行分类,得到识别各种版式类型的委托单版式分类模型;
本申请实施例中,将池化层输出的各类委托单的版式特征输入卷积神经网络的全连接层进行特征分类,并引入损失函数来提高模型的预测精准度和使用效率,输出识别各种版式类型的委托单版式分类模型;
可选地,本实施例的分类模型采用先识别出委托单所属客户,然后再识别委托单版式类型的方式进行训练和识别,其中识别出的委托单版式大体分为两大类,即固定版式类型和非固定版式类型,且固定版式类型和非固定版式类型下均包括多种版式子类;
其中,固定版式类型指的是关键特征值位置固定且格式固定的委托单,固定版式类型包括多种固定版式子类;如图3所示,图3为某一客户的其中一种固定版式类型委托单,从图中可见Shipper发货人、Consignee收货人、Notify Party被通知人、Place of Receipt收货地、Port of Loading(装货港)、Place of Delivery(交货地点)等加粗字体均为委托单中的关键特征值,该客户的此类委托单的版式是固定的。
非固定版式类型具体可以分为两类,即包括关键特征值的非固定版式类型和不包括关键特征值的非固定版式类别;
图4为某一客户的其中一种包括关键特征值的非固定版式类型,如图4所示,虽然图4没有像图3的委托书一样具有固定格式,但是图4的委托书中均包括类似SHIPPPER、CNEE、NOTIFY PARTY、PORT OF LOADING、DESCRIPTION等关键特征值;
图5为某一客户的其中一种不包括关键特征值的非固定版式类型,如图5所示,虽然图5没有像图3的委托书一样具有固定格式,也没有像图4的委托书一样具有关键特征值,但图5的委托单中的关键段落是按照较大间隔来区分的,而且根据日常委托单形式可知每个关键段落的含义;
另外需要说明的是,委托单中的关键特征值并非固定字符,在训练模型时对于不同描述的关键特征值也进行训练,例如关键特征值Consignee或CNEE等字符经模型训练均作为含义为“收货人”的关键特征值;而且对于新委托单中出现的新的关键特征值在输入卷积神经网络后也可训练为可以识别的关键特征值。
返回参见图1,步骤120、当获取到待识别仓储物流委托单时,将待识别仓储物流委托单输入所述委托单版式分类模型中,确认所述待识别委托单的所属版式类型:
具体地,当待识别仓储物流委托单输入委托单版式分类模型之后,识别出该委托单的所属客户和该客户下的所属版式类型,具体包括如下几种情形:
(1)若确认待识别委托单的所属版式类型为固定版式,则对待识别委托书进行固定区域框选,从框选的固定区域中识别关键字,执行步骤130;
对于确定出版式类型比较固定的委托单,采用该类委托单对应的预先设置的固定区域进行框选,从框选的固定区域中识别关键字,例如识别出A客户的A-1类固定版式的委托单,采用预先为该类客户的该类版式设置的固定区域进行关键段落框选,然后利用OCR技术从框选的区域中识别出关键字;对于如图3的固定版式委托单,按照预先设定的长宽确定的矩形对关键段落进行框选,即图上虚线框,然后从每个虚线框里识别内部关键字。需要说明的是,对于识别出的不同客户的不同固定版式,预先设置长宽不同的矩形框进行关键段落框选。
(2)若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,则根据关键特征值在待识别委托单上的相对位置动态进行区域框选,从框选的动态区域中识别关键字,执行步骤130;
具体地,关键特征值包括但不限于发件人、收件人、港口信息、货物信息等委托单常用关键词;对于识别出委托单版式类型为包括关键特征值的非固定版式时,执行如下操作:
步骤S1、利用OCR技术获取委托单中的首个关键特征值作为当前关键特征值;
步骤S2、继续利用OCR技术识别委托单中当前关键特征值的下一特征值;
其中,当前关键特征值的下一特征值包括当前关键特征值向下方向的下一特征值和当前关键特征值向右方向的下一特征值。
步骤S3、将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选区域;
具体地,先根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上下边缘;然后确定矩形框选区域的左右边缘:按照书写习惯一般在上一行与下一行具有关联关系时行左侧位置差距一般不超过预定值(如50mm),将当前关键特征值所在位置作为矩形框选区域的左边缘,并将当前关键特征值的向右方向的下一特征值所在位置作为矩形框选区域的右边缘;
可选地,为了防止出现框选区域不能框全文字,优选当前关键特征值向左偏移预定位移(该预设位移可根据实际需要设置为0~50mm的任一数据)的位置作为矩形框选区域的左边缘,将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位置作为矩形框选区域的右边缘。
步骤S4、从框选区域中识别关键字,并将当前关键特征值的下一特征值作为当前关键特征值,返回执行步骤S2;
例如,图4所示的包括关键特征值的非固定版式,先识别出首个关键特征值SHIPPER,然后再依序识别出下一个关键特征值CNEE,然后就可以确定发货人的关键段落所在矩形框的上下边缘在SHIPPER和CNEE之间(如图中虚线所示),然后将当前关键特征值SHIPPER向左偏移预定位移的位置作为矩形框选区域的左边缘,然后确定当前关键特征值SHIPPER向右方向的下一关键特征值为DEMAND,将DEMAND所在位置向左偏移约定位移的置位作为矩形框选区域的右边缘;图4中其他关键特征值采用上述同样方式确定矩形框选区域,图上未示出在此不作赘述。
(3)若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则依据文字分块处理原则对文字分块区域进行框选,从框选的文字分块区域中识别关键字,执行步骤130;
经研究发现的普遍情况是某一客户在撰写没有关键特征值的委托单时,委托单上的段落代表的含义均是根据习惯设定好的,例如第一段落为发货人信息,第二段落为收货人信息,第三段落为港口信息…等,因此在大量委托单输入卷积神经网络进行训练学习时对于此类不包括关键特征值的非固定版式的委托单能够识别出各段落位置代表的实际含义。
具体地,对于没有关键特征值的委托单,从委托单中获取当前行区域(先识别委托单的首行区域作为当前行区域,识别出关键段落后再将下一段落的首行作为当前行区域),然后对当前行区域相邻的四个方向进行识别,确定该关键段落区域的矩形边缘位置,具体包括:
上边缘:从首行区域开始识别,关键段落框选的矩形上边缘即为首行区域的上边缘;在识别出某一关键段落之后,下一关键段落框选的上边缘即为上一关键段落框选矩形的下边缘;
下边缘:获取当前行区域向下方向的下一行,确定下一行与当前行的间距,若超过预设距离,则确定关键段落框选的矩形下边缘即为当前行区域的下边缘;若在预设距离之内则将当前行区域的下一行作为当前行区域,继续返回再向下获取直至行间距超过预设距离时确定关键段落框选的矩形下边缘;
左边缘:按照书写习惯一般在上一行与下一行具有关联关系时行左侧位置差距一般不超过预定值(如100mm),在矩形上下边缘的区域内若不存在已经框选过的矩形区域,则将该区域最左侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘,若存在已经框选过的矩形区域,则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左边缘;
右边缘:在矩形框选区域的上下边缘内,检测每一行中每个字符的间距,若存在字符间距超过预定宽度并且从超过预定宽度的行中找超过值最小的行,将该行超过预定宽度前的字符所在位置向右偏移约定位移后的位置作为矩形框选区域的右边缘;若右侧没有字符则直接将最右侧字符所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。
例如,图5所示的不包括关键特征值的非固定版式,先识别出首行“E company请订T船公司”,然后向下识别出行间距大于预定距离的行“F company”,由此确定矩形框的上边缘为行“E company请订T船公司”之上、下边缘为行“F company”之上(如图中虚线所示);之后在该区域内不存在已经框选的矩形区域,故确定本次框选的矩形区域的左边缘为该区域最左字符“Q”所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘;之后确定本次矩形框的右边缘,即找到该区域内每一行的字符间距超过预定距离而且超过值最小的行,即行“SHANDONG,CHINA”,然后将该行的最后字符“A”所在位置向右偏移约定位移后的位置作为矩形框选区域的右边缘。在确定该矩形框(此处称为第一矩形框)之后,该第一矩形框向右的区域由于检测到之前存在第一矩形框,故右区域确定的矩形(此处称为第二矩形框)左边缘为第一矩形框的右边缘,第二矩形框的右侧没有字符故直接将最右侧字符“港”所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。图5中其他区域采用上述同样方式确定矩形框选区域,图上未示出在此不作赘述。
此外,进一步地,除上述对版式的处理外,本申请对委托单中出现的其他重要信息也需要进行特殊识别,例如识别委托单中的“FREIGHTPREPAID(运费预付)”、“不显示在提单上面”等重要信息,在识别到委托单上有客户特殊需求时需要依据客户特殊需求进行特定业务处理。另外对于委托单中识别出的类似“:”等具有解释含义的字符时可以将该字符前后的信息进行对应存储。
返回参见图1,步骤130、将识别出的关键字依据适配规则进行编码对照和数据清洗,汇总适配结果;
可选地,由于本申请所述的委托单中在应用在港口货运时委托单中会包括类似港口名称的专用词汇,而港口名称在文字描述时可能会存在差异,因此在识别出类似港口名称的关键字后,需要对关键字进行编码对照,将关键字转化为唯一的编码标识;
另外,对于委托单中的货物信息一般会包括有箱型、箱量、箱重等信息,例如1x40RH 50kg,表示40尺50kg的1个冷藏柜,通常需要将此类信息依据适配规则进行数据清洗,从货物信息对应的正则表达式“.*\d+X\d{2}'[A-Z]{2}.*”中提取出其中的数值,得到箱量为1、箱型为40HQ、箱重(单位kg)为50;
对于适配结果本申请可以依据实际应用场景进行数据分配,例如可以将汇总结果存入数据库中,或者也可以对接客户业务***提供的API接口,直接将适配结果录入业务***中。
实施例二
本申请实施例二提供一种仓储物流委托单识别***,如图6所示,包括仓储物流委托单识别子***610、邮件提取委托单子***620和适配结果管理子***630;
仓储物流委托单识别子***610执行实施例一所述的仓储物流委托单识别方法;
邮件提取委托单子***620用于自动收取邮件并自动从邮件中提取待识别委托单附件,将待识别委托单输入所述仓储物流委托单识别子***进行识别处理;
适配结果管理子***630用于将适配结果存入数据库中,或对接客户业务***提供的API接口,将适配结果直接录入业务***中。
具体地,仓储物流委托单识别子***610具体包括:
委托单版式分类模型训练模块611,用于预先使用大量仓储物流委托单训练委托单版式分类模型;
委托单版式识别处理模块612,用于当获取到待识别仓储物流委托单时,将待识别仓储物流委托单输入所述委托单版式分类模型中,确认所述待识别委托单的所属版式类型:
若确认待识别委托单的所属版式类型为固定版式,则对待识别委托书进行固定区域框选,从框选的固定区域中识别关键字;
若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,则根据关键特征值在待识别委托单上的相对位置动态进行区域框选,从框选的动态区域中识别关键字;
若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则依据文字分块处理原则对文字分块区域进行框选,从框选的文字分块区域中识别关键字;
适配结果管理模块613,用于将识别出的关键字依据适配规则进行编码对照和数据清洗,汇总适配结果。
进一步地,邮件提取委托单子***620中从邮件中识别委托单具体为自动收取邮件,然后从邮件中自动识别具有“委托书”、“委托单”等字样的邮件,然后从该邮件中查找附件,从中提取委托单,然后邮件提取委托单子***将提取的委托单发送至仓储物流委托单识别子***610中进行训练和识别;
对应地,仓储物流委托单识别子***610在识别确定邮件中的委托单为合法委托单时,还用于将来自邮件提取委托单子***的委托单重新输入卷积神经网络(即委托单版式分类模型训练模块611)中训练委托单版式分类模型。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。虽然本申请公开的是委托单的识别方法和***,但是对于具有不同版式的其他物流单据均可以通过本申请的识别方法进行识别,显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种仓储物流委托单识别方法,其特征在于,包括:
预先使用大量仓储物流委托单训练委托单版式分类模型;
当获取到待识别仓储物流委托单时,将待识别仓储物流委托单输入所述委托单版式分类模型中,确认所述待识别委托单的所属版式类型:
若确认待识别委托单的所属版式类型为固定版式,则对待识别委托书进行固定区域框选,从框选的固定区域中识别关键字;
若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,则根据关键特征值在待识别委托单上的相对位置动态进行区域框选,从框选的动态区域中识别关键字;
若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则依据文字分块处理原则对文字分块区域进行框选,从框选的文字分块区域中识别关键字;
对识别出的关键字依据适配规则进行编码对照和数据清洗,汇总适配结果;
若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式,执行如下操作:
步骤S1、获取委托单中的首个关键特征值作为当前关键特征值;
步骤S2、识别委托单中当前关键特征值的下一特征值;
步骤S3、将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选区域;
步骤S4、从框选区域中识别关键字,并将当前关键特征值的下一特征值作为当前关键特征值,返回执行步骤S2。
2.如权利要求1所述的仓储物流委托单识别方法,其特征在于,预先使用大量仓储物流委托单训练委托单版式分类模型,具体为:通过预先存储的大量仓储物流委托单和/或从邮箱中识别邮件中委托书附件的方式,输入卷积神经网络中训练能够识别各种版式类型的委托单版式分类模型。
3.如权利要求1或2所述的仓储物流委托单识别方法,其特征在于,训练委托单版式分类模型,具体包括如下子步骤:
将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络进行预处理;
提取各种版式类型的委托单中的局部版式特征,汇总得到多维度的局部版式特征;
对多维度的局部版式特征进行降维处理,进一步提取出各类委托单中的版式特征;
对各类委托单中的版式特征进行分类,得到识别各种版式类型的委托单版式分类模型。
4.如权利要求1所述的仓储物流委托单识别方法,其特征在于,若确认待识别委托单的所属版式类型为固定版式,则采用该类委托单对应的预先设置的固定区域进行框选,从框选的固定区域中识别关键字。
5.如权利要求1所述的仓储物流委托单识别方法,其特征在于,所述步骤S3具体包括如下子步骤:
根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上下边缘;
将当前关键特征值所在位置向左偏移预定位移的位置作为矩形框选区域的左边缘;
将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位置作为矩形框选区域的右边缘。
6.如权利要求1所述的仓储物流委托单识别方法,其特征在于,若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式,则从委托单中获取当前行区域,对当前行区域相邻的四个方向进行识别,确定关键段落区域的矩形边缘位置,具体包括:
上边缘:从首行区域开始识别,关键段落框选的矩形上边缘即为首行区域的上边缘;在识别出某一关键段落之后,下一关键段落框选的上边缘即为上一关键段落框选的下边缘;
下边缘:获取当前行区域向下方向的下一行,确定下一行与当前行的间距,若超过预设距离,则确定关键段落框选的矩形下边缘即为当前行区域的下边缘;若在预设距离之内则将当前行区域的下一行作为当前行区域,继续再向下获取直至行间距超过预设距离时确定关键段落框选的矩形下边缘;
左边缘:在矩形上下边缘的区域内若不存在已经框选过的矩形区域,则将该区域最左侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘,若存在已经框选过的矩形区域,则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左边缘;
右边缘:在矩形框选区域的上下边缘内,检测每一行中每个字符的间距,若存在字符间距超过预定宽度且超过值最小的行,将该行超过预定宽度前的字符所在位置向右偏移约定位移后的位置作为矩形框选区域的右边缘;若右侧没有字符则直接将最右侧字符所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。
7.如权利要求1所述的仓储物流委托单识别方法,其特征在于,将识别出的关键字依据适配规则进行编码对照和数据清洗,具体包括如下子步骤:
将识别出的特定关键字进行编码对照,将特定关键字转化为唯一的编码标识;
将识别出的符合正则表达式的关键字进行数据清洗,从中提取数值。
8.一种仓储物流委托单识别***,其特征在于,包括仓储物流委托单识别子***、邮件提取委托单子***和适配结果管理子***;
所述仓储物流委托单识别子***执行如权利要求1-7中任一项所述的仓储物流委托单识别方法;
所述邮件提取委托单子***用于自动收取邮件并自动从邮件中提取待识别委托单附件,将待识别委托单输入所述仓储物流委托单识别子***进行识别处理;
所述适配结果管理子***用于将适配结果存入数据库中,或对接客户业务***提供的API接口,将适配结果直接录入业务***中。
9.如权利要求8所述的仓储物流委托单识别***,其特征在于,所述仓储物流委托单识别子***还用于将来自邮件提取委托单子***的委托单重新输入卷积神经网络中训练委托单版式分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269946.7A CN111047261B (zh) | 2019-12-11 | 2019-12-11 | 一种仓储物流委托单识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269946.7A CN111047261B (zh) | 2019-12-11 | 2019-12-11 | 一种仓储物流委托单识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111047261A CN111047261A (zh) | 2020-04-21 |
CN111047261B true CN111047261B (zh) | 2023-06-16 |
Family
ID=70235798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911269946.7A Active CN111047261B (zh) | 2019-12-11 | 2019-12-11 | 一种仓储物流委托单识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047261B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680679A (zh) * | 2020-06-03 | 2020-09-18 | 重庆数道科技有限公司 | 一种基于ocr的单据自动识别方法 |
CN112488646A (zh) * | 2020-11-25 | 2021-03-12 | 华南中外运供应链管理有限公司 | 一种驳运管理方法、***和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069452A (zh) * | 2015-08-07 | 2015-11-18 | 武汉理工大学 | 基于局部结构分析的直线移除方法 |
CN105631393A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息识别方法及装置 |
CA3017430A1 (en) * | 2015-04-16 | 2016-10-20 | Docauthority Ltd. | Structural document classification |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信***集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN107766809A (zh) * | 2017-10-09 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110427853A (zh) * | 2019-07-24 | 2019-11-08 | 北京一诺前景财税科技有限公司 | 一种智能票据信息提取处理的方法 |
-
2019
- 2019-12-11 CN CN201911269946.7A patent/CN111047261B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631393A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息识别方法及装置 |
CA3017430A1 (en) * | 2015-04-16 | 2016-10-20 | Docauthority Ltd. | Structural document classification |
CN105069452A (zh) * | 2015-08-07 | 2015-11-18 | 武汉理工大学 | 基于局部结构分析的直线移除方法 |
CN107766809A (zh) * | 2017-10-09 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
WO2019071662A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信***集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110008944A (zh) * | 2019-02-20 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110427853A (zh) * | 2019-07-24 | 2019-11-08 | 北京一诺前景财税科技有限公司 | 一种智能票据信息提取处理的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111047261A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210365678A1 (en) | Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal | |
US7801392B2 (en) | Image search system, image search method, and storage medium | |
CN111931774B (zh) | 药品数据的入库方法及*** | |
US20190005050A1 (en) | Regularities and trends discovery in a flow of business documents | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
US20100284623A1 (en) | System and method for identifying document genres | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及*** | |
CN111047261B (zh) | 一种仓储物流委托单识别方法及*** | |
WO2010114478A1 (en) | Apparatus and methods for analysing goods cartons | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
US20220375245A1 (en) | System for Information Extraction from Form-Like Documents | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US11615244B2 (en) | Data extraction and ordering based on document layout analysis | |
US10699112B1 (en) | Identification of key segments in document images | |
KR101942468B1 (ko) | 정형 및 비정형 데이터 추출 시스템 및 방법 | |
GB2487600A (en) | System for extracting data from an electronic document | |
CN114169301A (zh) | 电子面单汇聚取号方法、装置、设备及存储介质 | |
WO2022111247A1 (zh) | 一种报表分析方法及装置 | |
CN114912417A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
CN113553393A (zh) | 结合rpa和ai报关信息的处理方法和处理装置 | |
CN113255498A (zh) | 基于区块链技术的财务报销***管理方法 | |
CN113159246A (zh) | 基于二维码标签的钢厂货物识别方法、装置及计算机设备 | |
CN108364155A (zh) | 利用订单编号及物料名称管理仓储物料的方法 | |
CN111414917A (zh) | 一种低像素密度文本的识别方法 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、***、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |