CN110348439A - 一种自动识别价签的方法、计算机可读介质及*** - Google Patents

一种自动识别价签的方法、计算机可读介质及*** Download PDF

Info

Publication number
CN110348439A
CN110348439A CN201910591642.6A CN201910591642A CN110348439A CN 110348439 A CN110348439 A CN 110348439A CN 201910591642 A CN201910591642 A CN 201910591642A CN 110348439 A CN110348439 A CN 110348439A
Authority
CN
China
Prior art keywords
price tag
image
character image
text
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910591642.6A
Other languages
English (en)
Other versions
CN110348439B (zh
Inventor
张发恩
高达辉
秦永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Qizhi (nanjing) Technology Co Ltd
Original Assignee
Innovation Qizhi (nanjing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Qizhi (nanjing) Technology Co Ltd filed Critical Innovation Qizhi (nanjing) Technology Co Ltd
Priority to CN201910591642.6A priority Critical patent/CN110348439B/zh
Publication of CN110348439A publication Critical patent/CN110348439A/zh
Application granted granted Critical
Publication of CN110348439B publication Critical patent/CN110348439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种自动识别价签的方法,该方法包括以下步骤:步骤S1:获取包含价签的图片;步骤S2:检测并截取出图片中的价签图像;步骤S3:检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及步骤S4:提取文字图像中的文字结构特征进行文字识别,以获得商品信息,以实现自动检测商品名称、价格及价格波动。本发明还提供一种计算机可读介质。本发明还提供一种***。

Description

一种自动识别价签的方法、计算机可读介质及***
【技术领域】
本发明涉及零售商品领域,尤其涉及一种自动识别价签的方法、计算机可读介质及***。
【背景技术】
目前的零售商品价格监控方式分为两种,一种为采用开放式的价格管控,通过出厂时的定价来约束市场分销终端的销售价格,这种方式无法了解和控制终端销售的最终价格;另一种则是通过业务代表手动录入分销终端的销售价格进行监控,这种方式的效率低下,而且难以保证录入价格的准确性和客观性。
【发明内容】
为克服现有技术存在的问题,本发明提供一种自动识别价签的方法、计算机可读介质及***。
本发明解决技术问题的方案是提供一种自动识别价签的方法,该方法包括以下步骤:步骤S1:获取包含价签的图片;步骤S2:检测并截取出图片中的价签图像;步骤S3:检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及步骤S4:提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
优选地,步骤S3检测价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐,进一步包括以下步骤:步骤S31:使用深度学习模型结合包含文字图像的图片训练一文字检测模型;步骤S32:使用文字检测模型检测图片中文字图像的位置;步骤S33:根据文字图像的位置,使用矩形截取文字图像;步骤S34:根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及步骤S35:将调整后的文字图案组合为文字图像集。
优选地,步骤S32使用文字检测模型检测图片中文字图像的位置,之前还包括以下步骤:步骤S321:对价签图像进行预处理,消除噪点干扰,并获得文字图像的有效区域;步骤S322:检测文字图像轮廓信息,并根据文字图像的有效区域过滤文字图像轮廓信息;步骤S323:将文字图像与价签图像进行融合;及步骤S324:提取文字图像的多个不同尺度的特征,并采用特征对齐和通道组合的方法融合不同尺度的特征。
优选地,步骤S2检测并截取出图片中的价签图像,进一步包括以下步骤:步骤S21:使用深度学习模型结合包含价签图像的图片训练一价签检测模型;步骤S22:使用价签检测模型检测图片中价签图像的位置;及步骤S23:根据价签图像的位置截取价签图像,并将截取的价签图像组合为价签图像集。
优选地,步骤S4提取文字图像中的文字结构特征进行文字识别,以获得商品信息,进一步包括以下步骤:步骤S41:使用深度学习模型结合文字的结构特征训练一文字识别模型;步骤S42:使用文字识别模型提取文字的结构特征;步骤S43:按照结构特征的位置逐点通过一个特征通道间的双线性耦合,提取双线性特征;步骤S44:将双线性特征根据位置序列转换为特征向量;步骤S45:根据特征向量输出文字识别结果;及步骤S46:获得商品信息。
优选地,步骤S45输出文字识别结果,进一步包括以下步骤:步骤S451:根据特征向量获得文字概率信息;及步骤S452:根据文字概率信息及其对应的位置信息输出文字识别结果。
优选地,步骤S46获得商品信息,进一步包括以下步骤:步骤S461:使用深度学习模型结合文字语义特征训练一个解释模块;步骤S462:将文字识别结果输入至解释模块;及步骤S463:根据文字语义特征解析出商品名称、价格及价格波动信息。
本发明还提供一种计算机可读介质,所述计算机可读介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述的自动识别价签的方法。
本发明还提供一种识别价签的***,所述***包括:读取模块,被配置为读取包含价签的图片;价签检测模块,被配置为检测并截取出图片中的价签图像;文字检测模块,被配置为检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及文字识别模块,被配置为提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
优选地,文字检测模块中进一步包括:训练单元,被配置为使用深度学习模型结合包含文字图像的图片训练一文字检测模型;检测单元,被配置为使用文字检测模型检测图片中文字图像的位置;截取单元,被配置为根据文字图像的位置,使用矩形截取文字图像;调整单元,被配置为根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及组合单元,被配置为将调整后的文字图案组合为文字图像集。
与现有技术相比,本发明的自动识别价签的方法、计算机可读介质及***具有以下优点:
1.通过获取包含价签的图片,然后检测并截取出价签图像,再从价签图像中检测出文字图像,并对文字图像进行姿态矫正和尺寸对齐,最后从文字图像中识别文字,并获得商品信息,以实现自动检测商品名称、价格及价格波动。
2.通过对矩形截取文字图像,进而根据矩形的坐标信息调整文字图像的大小、角度、位置及方向,以便于文字识别模块识别文字,进而增加文字识别的准确率。
3.通过对价签图像进行预处理,然后加强价签图像上的文字纹理,以消除价签图像上的噪点干扰,并使文字更清晰,以提升文字识别的准确率。
4.通过将检测出的价签图像从获取的图片中提取出来,以便于文字检测模型从价签图像中检测文字,避免由于背景图像而影响文字检测的准确率。
5.通过将检测出的文字图像从价签图像中提取出来,以便于文字识别模型从文字图像中识别文字,避免由于价签背景图像而影响文字识别的准确率。
6.将自动识别价签的方法存储于计算机程序中,以便于计算机可读介质运行该计算机程序,以够获得商品信息。
7.在识别价签的***中设置读取模块、价签检测模块、文字检测模块及文字识别模块,以使***能够获得商品信息。
【附图说明】
图1是本发明第一实施例自动识别价签的方法的流程示意图。
图2是本发明第一实施例自动识别价签的方法中步骤S2的流程示意图。
图3是本发明第一实施例自动识别价签的方法中步骤S3的流程示意图。
图4是本发明第一实施例自动识别价签的方法中步骤S32的流程示意图。
图5是本发明第一实施例自动识别价签的方法中截取的价签图像示意图。
图6是本发明第一实施例自动识别价签的方法中对价签图像进行预处理的示意图。
图7是本发明第一实施例自动识别价签的方法中融合不同尺度特征后的示意图。
图8是本发明第一实施例自动识别价签的方法中使用矩形截取文字图像的示意图。
图9是本发明第一实施例自动识别价签的方法中根据矩形调整文字图像的示意图。
图10是本发明第一实施例自动识别价签的方法中步骤S4的流程示意图。
图11是本发明第一实施例自动识别价签的方法中步骤S45的流程示意图。
图12是本发明第一实施例自动识别价签的方法中步骤S46的流程示意图。
图13是本发明第三实施例识别价签的***的模块示意图。
图14是本发明第三实施例识别价签的***中文字检测模块的模块示意图。
附图标记说明:1、识别价签的***;11、读取模块;12、价签检测模块;13、文字检测模块;14、文字识别模块;131、训练单元;132、检测单元;133、截取单元;134、调整单元;135、组合单元。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种自动识别价签的方法,该方法包括以下步骤:
步骤S1:获取包含价签的图片;
步骤S2:检测并截取出图片中的价签图像;
步骤S3:检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及
步骤S4:提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
首先,基于手机、摄像机或监控等摄像设备获取包含价签的图片,即获取的图片中包含有背景图像和价签图像;然后,在获取的图片中检测价签图像,并截取出价签图像,即价签图像中包含有价签背景图像和文字图像;进而,在价签图像中检测文字图像,并截取出文字图像,继而对截取出的文字图像进行姿态矫正和尺寸对齐,以调整文字图像的大小和方向,并根据尺寸将调整的文字图像对齐;最后根据截取的文字图像识别出文字,进而获得文字所表达的商品信息。
可以理解,价签即为商品的价格标签,背景图像即为获取的图片中除价签图像以外的图像,价签背景图像即为价签图像中除文字图像以外的图像,文字图像包括商品价格文字和商品名称文字;截取价签图像和截取文字图像的方法为使用图像裁切函数进行截取;商品信息为根据商品价格文字和商品名称文字中所检测的商品价格和商品名称,并根据商品价格和商品名称检测出商品的价格波动信息。
在一些应用场景中,如商场的货架上摆放多种商品,不同的商品对应有不同的价签,价签中可能会存在一些非文字图像,如脏点、阴影、曝光等形成在价签上的图像以及价签上的空白区域。
使用本发明的识别价签方法时,首先,基于摄像设备获取包含价签的图片,获取的图片中包含有商品、货架等及至少一个价签;然后,从获取的图片中截取出价签图像,在截取价签图像时,判定价签图像以外的图像为背景图像,即商品和货架等均为背景图像;进而,从价签图像中截取出文字图像,在截取文字图像时,判定文字图像以外的图像为文字背景图像,即脏点、阴影、曝光以及价签上的空白区域为文字背景图像;最后根据截取的文字图像识别出文字,进而获得文字所表达的商品信息,即检测出商品价格、商品名称以及商品在一段时间内的价格波动信息。
请参阅图2,步骤S2检测并截取出图片中的价签图像,进一步包括以下步骤:
步骤S21:使用深度学习模型结合包含价签图像的图片训练一价签检测模型;
步骤S22:使用价签检测模型检测图片中价签图像的位置;及
步骤S23:根据价签图像的位置截取价签图像,并将截取的价签图像组合为价签图像集。
首先,使用深度学习模型结合包含价签图像的图片训练一价签检测模型,即使用大量包含价签图像的图片输入至深度学习模型中进行训练,先对价签图像的部分进行标记,并根据价签图像的标记检测价签图像的位置,然后使用图像裁切函数结合价签图像的位置,将价签图像截取出来,进而使用组合训练数据将截取的价签图像组合为价签图像集(batch),以作为深度学习模型的输出,最后保存深度学习模型的结构,也即完成价签检测模型的训练。
训练好价签检测模型之后,将上述步骤S1中获取的图片输入至价签检测模型中,进而通过价签检测模型检测图片中价签图像的位置,进而根据价签图像的位置截取价签图像,并将截取的价签图像组合为价签图像集。
可以理解,深度学习模型包括但不限于卷积神经网络RCNN(RegionConvolutional Neural Network)和循环神经网络RNN(Recurrent Neural Network)等;当图片中只截取了一个价签图像时,则组合后的价签图像集为截取的价签图像,当图片中截取了两个及以上的价签图像时,则组合后的价签图像即为截取的所有价签图像的组合。
请参阅图3,步骤S3检测价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐,进一步包括以下步骤:
步骤S31:使用深度学习模型结合包含文字图像的图片训练一文字检测模型;
步骤S32:使用文字检测模型检测图片中文字图像的位置;
步骤S33:根据文字图像的位置,使用矩形截取文字图像;
步骤S34:根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及
步骤S35:将调整后的文字图案组合为文字图像集。
首先,使用深度学习模型结合包含文字图像的价签图像训练一文字检测模型,即使用大量包含文字图像的价签图像输入至深度学习模型中进行训练,先对文字图像的部分进行标记,并根据文字图像的标记检测文字图像的位置,然后使用图像裁切函数结合文字图像的位置,将文字图像用矩形截取出来,然后根据矩形的坐标信息调整文字图像的大小、角度、位置及方向,进而使用组合训练数据将截取的文字图像组合为文字图像集(batch),以作为深度学习模型的输出,最后保存深度学习模型的结构,也即完成文字检测模型的训练。
训练好价签检测模型之后,将上述步骤S23中获得的价签图像集输入至价签检测模型中,进而通过文字检测模型检测图片中文字图像的位置;进而根据文字图像的位置,使用矩形截取文字图像;然后根据矩形的坐标信息调整文字图像的大小、角度、位置及方向,以使截取的文字图像尺寸一致,且根据文字图像的尺寸、角度和位置对齐文字图像;最后将调整后的文字图案组合为文字图像集。
可以理解,深度学习模型包括但不限于卷积神经网络RCNN(RegionConvolutional Neural Network)和循环神经网络RNN(Recurrent Neural Network)等;在文字图像检测模型中,根据文字图像的标记检测文字图像的位置时,由于各文字图像之间的距离不同,因此标记文字图像时结合文字图像之间的距离进行标记,其距离由人为设定一阈值,当两个文字图像的距离大于阈值时,则结合两个文字图像进行标记,当两个文字图像的间距小于阈值时,则分别对两个文字图像进行标记,进而根据标记的文字图像检测文字图像的位置。
请参阅图4,步骤S32使用文字检测模型检测图片中文字图像的位置,之前还包括以下步骤:
步骤S321:对价签图像进行预处理,消除噪点干扰,并获得文字图像的有效区域;
步骤S322:检测文字图像轮廓信息,并根据文字图像的有效区域过滤文字图像轮廓信息;
步骤S323:将文字图像与价签图像进行融合;及
步骤S324:提取文字图像的多个不同尺度的特征,并采用特征对齐和通道组合的方法融合不同尺度的特征。
首先,对使用图像二值化、膨胀、腐蚀及连通域检测等方法对价签图像进行预处理,消除部分噪声,即消除价签图像中的噪点干扰,获得文字图像有效区域;然后,将消除干扰后的价签图像输入至文字检测模型中,对文字图像进行轮廓检测,并根据文字图像有效区域过滤轮廓信息,将过滤轮廓信息后的文字图像与消除干扰的价签图像进行融合;最后,提取文字图像的多个不同尺度的特征,并采用特征对齐和通道组合的方法融合不同尺度的特征,以加强价签图像上的文字纹理。
可以理解,噪点干扰包括但不限于价签图像中的光线阴影、脏点等;特征对齐即为将过滤轮廓信息后的文字图像与消除干扰的价签图像中,相同的特征进行重叠对齐;不同尺度的特征即为深度学习模型中多个不同的卷积层在文字图像中提取的特征;通道组合即为将图像的颜色通道进行组合,其中通道分别为红色(Red)、绿色(Green)、蓝色(Blue)三个通道;文字纹理即为文字图像中文字线条的明暗程度。
请参阅图5-图9,在一些应用场景中,价签图像上有“苹果售价8元/斤”的文字图像,其中“苹果”的距离小于阈值,“售价8元/斤”的距离小于阈值,“果售”的距离大于阈值,同时由于光线、脏点等在价签图像上形成干扰。
请参阅图6,进行文字图像检测时,首先,可先对价签图像进行二值化、膨胀、腐蚀及连通域检测等方法,以对价签图像进行预处理,消除价签图像上的光线、脏点等干扰,以获得文字图像有效区域;
然后,将消除干扰后的价签图像输入至文字检测模型中,检测文字图像的轮廓,并根据文字图像有效区域过滤轮廓信息,将过滤轮廓信息后的文字图像与消除干扰的价签图像进行融合,即先将过滤轮廓信息后的文字图像与消除干扰的价签图像进行特征对齐和通道组合的方法融合不同尺度的特征,以进行融合操作,实现加强价签图像上的文字纹理,如图7所示;
进而,根据经过加强文字纹理处理的价签图像,检测文字图像及其标记获得的位置,根据各文字图像之间的距离,标记“售价8元/斤”为一个文字图像,标记“售价8元/斤”为一个文字图像,并使用矩形截取标记出文字图像,如图8所示;
进而,根据矩形的坐标信息调整文字图像的大小、角度、位置及方向,如图9所示,将调整“苹果”的文字图像和“售价8元/斤”的文字图像的大小、角度、位置及方向,以使两个文字图像的大小相等,且根据文字图像的大小、角度和位置对齐文字图像,完成对文字图像的姿态矫正和尺寸对齐;最后,将调整后的文字图案组合为文字图像集。
作为一种变形,步骤S321可以省略。
请参阅图10,步骤S4提取文字图像中的文字结构特征进行文字识别,以获得商品信息,进一步包括以下步骤:
步骤S41:使用深度学习模型结合文字的结构特征训练一文字识别模型;
步骤S42:使用文字识别模型提取文字的结构特征;
步骤S43:按照结构特征的位置逐点通过一个特征通道间的双线性耦合,提取双线性特征;
步骤S44:将双线性特征根据位置序转换为特征向量;
步骤S45:根据特征向量输出文字识别结果;及
步骤S46:获得商品信息。
首先,使用深度学习模型结合包含文字的结构特征训练一文字识别模型,即使用大量包含文字的图片输入至深度学习模型中进行训练,先标记文字的结构特征,然后根据结构特征的标记提取文字的结构特征,进一步根据结构特征的位置逐点通过一个特征通道间的双线性耦合,提取双线性特征,进而将双线性特征根据位置序列转换为特征向量,然后根据特征向量输出文字识别结果,最后保存深度学习模型的结构,也即完成文字识别模型的训练。
可以理解,深度学习模型包括但不限于卷积神经网络RCNN(RegionConvolutional Neural Network)和循环神经网络RNN(Recurrent Neural Network)等;在文字识别模型中,文字的结构特征即为文字的笔画组合,如横、竖、撇、捺、点等的组合,双线性耦合即为对结构特征作外积运算,进而实现对文字结构特征的降维处理,以提升文字识别的准确率。
训练好文字识别模型之后,将上述步骤S35中获得的文字图像集输入至文字识别模型中,进而通过文字识别模型提取文字图像集中文字的结构特征,然后根据结构特征的位置逐点通过一个特征通道间的双线性耦合,提取双线性特征,也即对结构特征进行外积运算,以提取双线性特征,进而将双线性特征根据位置序列转换为特征向量,也即对文字的结构特征进行降维处理,然后根据特征向量输出文字识别结果,最后,根据输出文字识别结果获得商品信息。
请参阅图11,步骤S45输出文字识别结果,进一步包括以下步骤:
步骤S451:根据特征向量获得文字概率信息;及
步骤S452:根据文字概率信息及其对应的位置信息输出文字识别结果。
首先根据特征向量获得文字概率信息,然后根据文字概率信息及其对应的位置输出文字识别结果。
可以理解,在文字中,有些文字相似度较高,如“元”和“无”、“果”和“呆”等文字,而相似度较高的文字很容易出现识别错误,因此先根据特征向量获得文字概率信息,然后结合文字的概率及其对应的位置输出最终识别的文字。
在上述的应用场景中,识别“苹果”文字图像中的文字时,识别“苹”的字符概率为100%,识别“果”的字符概率为50%,剩余50%的字符概率为“呆”,进而结合“苹”和“果”的字符概率及对应的位置关系,得出文字识别的结果为“苹果”。
请参阅图12,步骤S46获得商品信息,进一步包括以下步骤:
步骤S461:使用深度学习模型结合文字语义特征训练一个解释模块;
步骤S462:将文字识别结果输入至解释模块;及
步骤S463:根据文字语义特征解析出商品名称、价格及价格波动信息。
首先,使用深度学习模型结合文字语义特征训练一个解释模块,即使用大量字段输入至一深度学习模型中进行训练,并根据字段的含义对字段进行分类和解释,进而保存深度学习模型的结构,也即完成解释模块的训练。
然后,将识别出的文字结果输入至解释模块;最后解析出文字的语义,也即识别出商品名称和价格,并根据价格获得其价格的波动信息。
其中,所述深度学习模型包括但不限于卷积神经网络RCNN(RegionConvolutional Neural Network)和循环神经网络RNN(Recurrent Neural Network)等。
本发明第二实施例提供一种计算机可读介质,计算机可读介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的自动识别价签的方法。
根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
请参阅图13,本发明第三实施例提供一种识别价签的***1,包括读取模块11、价签检测模块12、文字检测模块13及文字识别模块14;
读取模块11被配置为获取包含价签的图片;价签检测模块12被配置为检测并截取出图片中的价签图像;文字检测模块13被配置为检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及文字识别模块14被配置为提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
请参阅图14,文字检测模块13中进一步包括训练单元131、检测单元132、截取单元133、调整单元134、组合单元135;
训练单元131被配置为使用深度学习模型结合包含文字图像的图片训练一文字检测模型;检测单元132被配置为使用文字检测模型检测图片中文字图像的位置;截取单元133被配置为根据文字图像的位置,使用矩形截取文字图像;调整单元134被配置为根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及组合单元135被配置为将调整后的文字图案组合为文字图像集。
第一实施例中的相关限定内容同样适用于本实施例。
与现有技术相比,本发明的自动识别价签的方法、计算机可读介质及***具有以下优点:
1.通过获取包含价签的图片,然后检测并截取出价签图像,再从价签图像中检测出文字图像,并对文字图像进行姿态矫正和尺寸对齐,最后从文字图像中识别文字,并获得商品信息,以实现自动检测商品名称、价格及价格波动。
2.通过对矩形截取文字图像,进而根据矩形的坐标信息调整文字图像的大小、角度、位置及方向,以便于文字识别模块识别文字,进而增加文字识别的准确率。
3.通过对价签图像进行预处理,然后加强价签图像上的文字纹理,以消除价签图像上的噪点干扰,并使文字更清晰,以提升文字识别的准确率。
4.通过将检测出的价签图像从获取的图片中提取出来,以便于文字检测模型从价签图像中检测文字,避免由于背景图像而影响文字检测的准确率。
5.通过将检测出的文字图像从价签图像中提取出来,以便于文字识别模型从文字图像中识别文字,避免由于价签背景图像而影响文字识别的准确率。
6.将自动识别价签的方法存储于计算机程序中,以便于计算机可读介质运行该计算机程序,以够获得商品信息。
7.在识别价签的***中设置读取模块、价签检测模块、文字检测模块及文字识别模块,以使***能够获得商品信息。
以上所述仅为本发明较佳实施例而已,并不用以限制本发明,凡在本发明原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (10)

1.一种自动识别价签的方法,其特征在于:该方法包括以下步骤:
步骤S1:获取包含价签的图片;
步骤S2:检测并截取出图片中的价签图像;
步骤S3:检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及
步骤S4:提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
2.如权利要求1所述的自动识别价签的方法,其特征在于:步骤S3检测价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐,进一步包括以下步骤:
步骤S31:使用深度学习模型结合包含文字图像的图片训练一文字检测模型;
步骤S32:使用文字检测模型检测图片中文字图像的位置;
步骤S33:根据文字图像的位置,使用矩形截取文字图像;
步骤S34:根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及
步骤S35:将调整后的文字图案组合为文字图像集。
3.如权利要求2所述的自动识别价签的方法,其特征在于:步骤S32使用文字检测模型检测图片中文字图像的位置,之前还包括以下步骤:
步骤S321:对价签图像进行预处理,消除噪点干扰,并获得文字图像的有效区域;
步骤S322:检测文字图像轮廓信息,并根据文字图像的有效区域过滤文字图像轮廓信息;
步骤S323:将文字图像与价签图像进行融合;及
步骤S324:提取文字图像的多个不同尺度的特征,并采用特征对齐和通道组合的方法融合不同尺度的特征。
4.如权利要求1所述的自动识别价签的方法,其特征在于:步骤S2检测并截取出图片中的价签图像,进一步包括以下步骤:
步骤S21:使用深度学习模型结合包含价签图像的图片训练一价签检测模型;
步骤S22:使用价签检测模型检测图片中价签图像的位置;及
步骤S23:根据价签图像的位置截取价签图像,并将截取的价签图像组合为价签图像集。
5.如权利要求1所述的自动识别价签的方法,其特征在于:步骤S4提取文字图像中的文字结构特征进行文字识别,以获得商品信息,进一步包括以下步骤:
步骤S41:使用深度学习模型结合文字的结构特征训练一文字识别模型;
步骤S42:使用文字识别模型提取文字的结构特征;
步骤S43:按照结构特征的位置逐点通过一个特征通道间的双线性耦合,提取双线性特征;
步骤S44:将双线性特征根据位置序列转换为特征向量;
步骤S45:根据特征向量输出文字识别结果;及
步骤S46:获得商品信息。
6.如权利要求5所述的自动识别价签的方法,其特征在于:步骤S45输出文字识别结果,进一步包括以下步骤:
步骤S451:根据特征向量获得文字概率信息;及
步骤S452:根据文字概率信息及其对应位置信息输出文字识别结果。
7.如权利要求5所述的自动识别价签的方法,其特征在于:步骤S46获得商品信息,进一步包括以下步骤:
步骤S461:使用深度学习模型结合文字语义特征训练一个解释模块;
步骤S462:将文字识别结果输入至解释模块;及
步骤S463:根据文字语义特征解析出商品名称、价格及价格波动信息。
8.一种计算机可读介质,其特征在于:所述计算机可读介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一项中所述的自动识别价签的方法。
9.一种识别价签的***,其特征在于:所述***包括:
读取模块,被配置为获取包含价签的图片;
价签检测模块,被配置为检测并截取出图片中的价签图像;
文字检测模块,被配置检测并截取价签图像中的文字图像,并对文字图像进行姿态矫正和尺寸对齐;及
文字识别模块,被配置为提取文字图像中的文字结构特征进行文字识别,以获得商品信息。
10.如权利要求9所述的***,其特征在于:文字检测模块中进一步包括:
训练单元,被配置为使用深度学习模型结合包含文字图像的图片训练一文字检测模型;
检测单元,被配置为使用文字检测模型检测图片中文字图像的位置;
截取单元,被配置为根据文字图像的位置,使用矩形截取文字图像;
调整单元,被配置为根据矩形的坐标信息调整文字图像的大小、角度、位置及方向;及
组合单元,被配置为将调整后的文字图案组合为文字图像集。
CN201910591642.6A 2019-07-02 2019-07-02 一种自动识别价签的方法、计算机可读介质及*** Active CN110348439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910591642.6A CN110348439B (zh) 2019-07-02 2019-07-02 一种自动识别价签的方法、计算机可读介质及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910591642.6A CN110348439B (zh) 2019-07-02 2019-07-02 一种自动识别价签的方法、计算机可读介质及***

Publications (2)

Publication Number Publication Date
CN110348439A true CN110348439A (zh) 2019-10-18
CN110348439B CN110348439B (zh) 2021-10-12

Family

ID=68177506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910591642.6A Active CN110348439B (zh) 2019-07-02 2019-07-02 一种自动识别价签的方法、计算机可读介质及***

Country Status (1)

Country Link
CN (1) CN110348439B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079749A (zh) * 2019-12-12 2020-04-28 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和***
CN111275046A (zh) * 2020-01-10 2020-06-12 中科鼎富(北京)科技发展有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111783645A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111931674A (zh) * 2020-08-18 2020-11-13 创新奇智(成都)科技有限公司 物品识别管理方法、装置、服务器及可读存储介质
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、***、电子设备及存储介质
CN113627411A (zh) * 2021-10-14 2021-11-09 广州市玄武无线科技股份有限公司 一种基于超分辨率的商品识别与价格匹配方法及***
CN117275011A (zh) * 2023-10-11 2023-12-22 广州市玄武无线科技股份有限公司 一种商品识别与商品价签匹配方法、***、终端及介质
CN117291587A (zh) * 2023-11-27 2023-12-26 福建超汇信息技术有限公司 一种移动支付方法及其设备
US11915192B2 (en) 2019-08-12 2024-02-27 Walmart Apollo, Llc Systems, devices, and methods for scanning a shopping space

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260057A1 (en) * 2014-12-24 2016-09-08 International Business Machines Corporation Product identification via image analysis
US20160260051A1 (en) * 2015-03-04 2016-09-08 Xerox Corporation System and method for retail store promotional price tag detection and maintenance via heuristic classifiers
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
CN107766862A (zh) * 2017-10-19 2018-03-06 成都博智维讯信息技术股份有限公司 商品价格标签数字识别方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108364005A (zh) * 2018-03-07 2018-08-03 上海扩博智能技术有限公司 价格标签的自动识别方法、***、设备及存储介质
WO2018144651A1 (en) * 2017-01-31 2018-08-09 Focal Systems, Inc. Out-of-stock detection based on images
CN108647553A (zh) * 2018-05-10 2018-10-12 上海扩博智能技术有限公司 模型训练用图像的快速扩充方法、***、设备及存储介质
CN109325722A (zh) * 2018-10-25 2019-02-12 深圳市万普拉斯科技有限公司 商品清单生成方法、装置、移动终端和计算机存储介质
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达***工程股份有限公司 一种基于深度学习的ocr方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260057A1 (en) * 2014-12-24 2016-09-08 International Business Machines Corporation Product identification via image analysis
US20160260051A1 (en) * 2015-03-04 2016-09-08 Xerox Corporation System and method for retail store promotional price tag detection and maintenance via heuristic classifiers
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
WO2018144651A1 (en) * 2017-01-31 2018-08-09 Focal Systems, Inc. Out-of-stock detection based on images
CN107766862A (zh) * 2017-10-19 2018-03-06 成都博智维讯信息技术股份有限公司 商品价格标签数字识别方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108364005A (zh) * 2018-03-07 2018-08-03 上海扩博智能技术有限公司 价格标签的自动识别方法、***、设备及存储介质
CN108647553A (zh) * 2018-05-10 2018-10-12 上海扩博智能技术有限公司 模型训练用图像的快速扩充方法、***、设备及存储介质
CN109325722A (zh) * 2018-10-25 2019-02-12 深圳市万普拉斯科技有限公司 商品清单生成方法、装置、移动终端和计算机存储介质
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达***工程股份有限公司 一种基于深度学习的ocr方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
M. N. A. HUSSIN 等: "Price Tag Recognition using HSV Color Space", 《JOURNAL OF TELECOMMUNICATION, ELECTRONIC AND COMPUTER ENGINEERING》 *
丁明宇 等: "基于深度学习的图片中商品参数识别方法", 《软件学报》 *
谢锋明 等: "基于多尺度特征提取的场景文本检测新方法", 《化工自动化及仪表》 *
陈斯祺: "基于双线性卷积网络的细粒度图像定位", 《电脑与电信》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12014320B2 (en) 2019-08-12 2024-06-18 Walmart Apollo, Llc Systems, devices, and methods for estimating stock level with depth sensor
US11915192B2 (en) 2019-08-12 2024-02-27 Walmart Apollo, Llc Systems, devices, and methods for scanning a shopping space
CN111079749B (zh) * 2019-12-12 2023-12-22 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和***
CN111079749A (zh) * 2019-12-12 2020-04-28 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和***
CN111275046A (zh) * 2020-01-10 2020-06-12 中科鼎富(北京)科技发展有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111275046B (zh) * 2020-01-10 2024-04-16 鼎富智能科技有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111783645A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111931674A (zh) * 2020-08-18 2020-11-13 创新奇智(成都)科技有限公司 物品识别管理方法、装置、服务器及可读存储介质
CN111931674B (zh) * 2020-08-18 2024-04-02 创新奇智(成都)科技有限公司 物品识别管理方法、装置、服务器及可读存储介质
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、***、电子设备及存储介质
CN113627411A (zh) * 2021-10-14 2021-11-09 广州市玄武无线科技股份有限公司 一种基于超分辨率的商品识别与价格匹配方法及***
CN117275011A (zh) * 2023-10-11 2023-12-22 广州市玄武无线科技股份有限公司 一种商品识别与商品价签匹配方法、***、终端及介质
CN117291587A (zh) * 2023-11-27 2023-12-26 福建超汇信息技术有限公司 一种移动支付方法及其设备

Also Published As

Publication number Publication date
CN110348439B (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
CN110348439A (zh) 一种自动识别价签的方法、计算机可读介质及***
CN100550038C (zh) 图片内容识别方法及识别***
CN108846365B (zh) 视频中打架行为的检测方法、装置、存储介质及处理器
US10769499B2 (en) Method and apparatus for training face recognition model
CN111797791A (zh) 人体姿态识别方法及装置
CN110472870A (zh) 一种基于人工智能的收银台服务规范检测***
CN110163096B (zh) 人物识别方法、装置、电子设备和计算机可读介质
CN102750555B (zh) 一种基于即时通讯工具的表情识别装置
CN109063587A (zh) 数据处理方法、存储介质和电子设备
CN112307886A (zh) 行人重识别方法和装置
CN108563559A (zh) 一种验证码的测试方法、装置、终端设备及存储介质
CN106709518A (zh) 基于Android平台的盲道识别***
CN113807276A (zh) 基于优化的YOLOv4模型的吸烟行为识别方法
CN110349201A (zh) 一种基于神经网络的衣服尺寸测量方法、***及电子设备
CN109948450A (zh) 一种基于图像的用户行为检测方法、装置和存储介质
CN110020643A (zh) 一种压板识别方法与设备
CN113378764B (zh) 基于聚类算法的视频人脸采集方法、装置、设备及介质
CN111027456A (zh) 基于图像识别的机械水表读数识别方法
CN109766891A (zh) 获取设备设施信息的方法及计算机可读存储介质
CN108170751B (zh) 用于处理图像的方法和装置
CN103927518B (zh) 一种用于人脸分析***的人脸特征提取方法
CN109903308A (zh) 用于获取信息的方法及装置
CN112396060A (zh) 基于身份证分割模型的身份证识别方法及其相关设备
CN111079749A (zh) 一种带姿态校正的端到端商品价签文字识别方法和***
CN107330470B (zh) 识别图片的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant