CN107016387B

CN107016387B - 一种识别标签的方法及装置

Info

Publication number: CN107016387B
Application number: CN201610061356.5A
Authority: CN
Inventors: 常江龙; 陈雪峰; 叶进进; 刘裕峰; 冯玉玺; 杨现; 张侦
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Nanjing Suning Electronic Information Technology Co ltd; Shenzhen Yunwangwandian Technology Co ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2020-02-28
Anticipated expiration: 2036-01-28
Also published as: CN107016387A

Abstract

本发明实施例公开了一种识别标签的方法及装置，涉及图像识别技术领域，能够提高识别的准确率。本发明包括：读取拍摄得到的标签图像，并从所述标签图像中提取待筛选区域；根据文本特征在所述待筛选区域中确定单文本行区域，所述文本特征包括其中至少一项：文本行的长度、文本面积占比、梯度占比和文本在单文本行区域的相对位置；识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。本发明适用于印刷标签的识别。

Description

一种识别标签的方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种识别标签的方法及装置。

背景技术

不论是在实体店内，还是在网购时展现的商品照片中，商品表面印刷的价签、商标图案等商品标签都是用于显示商品信息的重要渠道，为顾客了解商品起着最为直观的作用。并且，随着比价插件、拍照检索等标签检索技术的大规模应用，为用户提供了方便快捷的信息查询手段，其中对标签识别的准确率决定了查询结果的准确与否。

目前常用的标签中往往包含有商品的条形码或者二维码等信息，以便于通过智能设备扫描这类信息获得商品信息。但由于不同商品或是不同厂商提供的标签在格式上存在非常大的差异，很多标签并不包含有条形码或二维码等信息，只有文字或图案。而对于标签上的文字，主要是利用OCR(Optical Character Recognition，光学字符识别)技术进行文字提取和识别。

但是，OCR技术主要适用在拍摄条件较为标准的标签图像上，难以解析/识别具有复杂的线框，或是文字存在畸变、残缺、污染、断裂、光照不均、黏连等问题的标签。尤其是在超市、菜场等需要用户自行拍摄的场景中，由于拍摄水平的高低有别、实物商品标签的复杂程度不一、标签污损等问题，导致目前的标签识别方案在实际使用过程中识别的准确率很低。

发明内容

本发明的实施例提供一种识别标签的方法及装置，能够提高识别的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种识别标签的方法，包括：

读取拍摄得到的标签图像，并从所述标签图像中提取待筛选区域；

根据文本特征在所述待筛选区域中确定单文本行区域，所述文本特征包括其中至少一项：文本行的长度、文本面积占比、梯度占比和文本在单文本行区域的相对位置；

识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。

结合第一方面，在第一方面的第一种可能的实现方式中，所述从所述标签图像中提取待筛选区域，包括：

对所述标签图像进行边缘检测，得到所述标签图像的轮廓图；

对所述标签图像的轮廓图进行二值化处理，得到边缘二值图，所述二值化处理包括：通过不同颜色分别标记所述轮廓图中的背景和边缘；

对所述边缘二值图进行填充，得到填充边缘二值图，其中，在所述填充边缘二值图中具有同一边缘的区域闭合；

在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域

结合第一方面，在第一方面的第二种可能的实现方式中，所述根据文本特征在所述待筛选区域中确定单文本行区域，包括：

在所述待筛选区域中，检测存在的单字区域，并得到单字区域集合；

过滤单字区域集合中异常区域，所述异常区域包括长宽比、宽度、长度、面积不符合所述文本特征的区域；

在过滤了异常区域的单字区域集合中，根据所述文本特征聚合单字区域，得到单字区域子集，将得到的单字区域子集所在区域确定为所述单文本行区域，其中，各个单字区域子集之间在纵向位置不重叠，且一个单字区域子集构成一个单文本行。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述过滤单字区域集合中异常区域，包括：

根据已完成标签识别的训练样本集合，训练二类分类器，所述二类分类器用于判定是否为所述异常区域；并根据所述文本特征，通过所述二类分类器标记单字区域集合中的异常区域；

或者，根据已完成标签识别的训练样本集合和所述文本特征生成规则集；并根据所述规则集在单字区域集合中筛选正常区域，并将正常区域以外的部分标记为所述异常区域。

结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，所述识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本，包括：

根据所述边缘二值图和字符格式参数，切分所述单文本行区域中的单文本行，得到待识别字符，所述字符格式参数包括字符宽度；

获取字符搜索策略，并根据所述字符搜索策略识别所述待识别字符，得到所述目标字符；

根据预设的语言模型对所述目标字符进行校正，得到所述待输出的标签文本。

第二方面，本发明的实施例提供一种识别标签的方法，包括：

图像预处理模块，用于读取拍摄得到的标签图像，并从所述标签图像中提取待筛选区域；

筛选模块，用于根据文本特征在所述待筛选区域中确定单文本行区域，所述文本特征包括其中至少一项：文本行的长度、文本面积占比、梯度占比和文本在单文本行区域的相对位置；

识别模块，用于识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。

结合第二方面，在第二方面的第一种可能的实现方式中，所述图像预处理模块，具体用于对所述标签图像进行边缘检测，得到所述标签图像的轮廓图；并对所述标签图像的轮廓图进行二值化处理，得到边缘二值图，所述二值化处理包括：通过不同颜色分别标记所述轮廓图中的背景和边缘；再对所述边缘二值图进行填充，得到填充边缘二值图，其中，在所述填充边缘二值图中具有同一边缘的区域闭合；之后在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域。

结合第二方面，在第二方面的第二种可能的实现方式中，所述筛选模块，具体用于在所述待筛选区域中，检测存在的单字区域，并得到单字区域集合；并过滤单字区域集合中异常区域，所述异常区域包括长宽比、宽度、长度、面积不符合所述文本特征的区域；再在过滤了异常区域的单字区域集合中，根据所述文本特征聚合单字区域，得到单字区域子集，将得到的单字区域子集所在区域确定为所述单文本行区域，其中，各个单字区域子集之间在纵向位置不重叠，且一个单字区域子集构成一个单文本行。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述筛选模块，具体还用于：

结合第二方面的第一种可能的实现方式，在第四种可能的实现方式中，所述识别模块，具体用于根据所述边缘二值图和字符格式参数，切分所述单文本行区域中的单文本行，得到待识别字符，所述字符格式参数包括字符宽度；并获取字符搜索策略，并根据所述字符搜索策略识别所述待识别字符，得到所述目标字符；再根据预设的语言模型对所述目标字符进行校正，得到所述待输出的标签文本。

本发明实施例提供的识别标签的方法及装置，从拍摄得到的标签图像中提取待筛选区域，并根据文本特征在所述待筛选区域中确定单文本行区域，再识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。相对于现有技术中的OCR技术等标签识别方案，本发明实施例根据标签这一特殊对象设计了专门的检测和识别框架，解决了线框复杂，或是文字存在畸变、残缺、污染、断裂、光照不均、黏连等问题的标签识别问题。尤其是在超市、菜场等需要用户自行拍摄的场景中，有效提高了识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的电子设备的结构示意图；

图2为本发明实施例提供的识别标签的方法的流程图；

图3为本发明实施例提供的具体实例的示意图；

图4为本发明实施例提供的识别标签的装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明所揭示的识别标签的方法及装置可以在单独一台电子设备上实现，或整合于各种不同的智能设备中，例如：如图1所示为根据本发明具体实施方式实现的电子设备。所述电子设备包括输入单元、处理器单元、输出单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解，图中示出的电子设备的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施方式中，所述电子设备可以是任何移动或便携式的智能电子设备，包括但不限于智能手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、或可穿戴式设备(Wearable Device)等。

输入单元用于实现用户与电子设备的交互和/或信息输入到电子设备中。例如，输入单元可以接收用户输入的数字或字符信息，以产生与用户设置或功能控制有关的信号输入。在本发明具体实施方式中，输入单元可以是触摸屏，也可以是其他人机交互界面，例如实体输入键、麦克风等。还可是其他外部图像信息撷取装置，例如摄像头等。在本实施例中，可以通过图像信息撷取装置拍摄商品表面印刷的标签图像(比如商标的照片、价签的照片等)。

处理器单元为电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储单元内的软件程序和/或模块，以及调用存储在存储单元内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器单元可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器单元可以仅包括中央处理器(Central Processing Unit，简称CPU)，也可以是GPU、数字信号处理器(Digital SignalProcessor，简称DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

所述通信单元用于建立通信信道，使电子设备通过所述通信信道以连接至远程服务器，并从所述远程服务器下媒体数据。在本发明的不同实施方式中，所述通信单元中的各种通信模块一般以集成电路芯片(Integrated Circuit Chip)的形式出现，并可进行选择性组合，而不必包括所有通信模块及对应的天线组。例如，所述通信单元可以仅包括基带芯片、射频芯片以及相应的天线以在一个蜂窝通信***中提供通信功能。经由所述通信单元建立的无线通信连接，例如无线局域网接入或WCDMA接入，所述电子设备可以连接至蜂窝网(Cellular Network)或因特网(Internet)。

输出单元包括但不限于影像输出单元和声音输出单元。影像输出单元用于输出文字、图片和/或视频。所述影像输出单元可包括显示面板，例如采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)、场发射显示器(field emission display，简称FED)等形式来配置的显示面板。或者所述影像输出单元可以包括反射式显示器，例如电泳式(electrophoretic)显示器，或利用光干涉调变技术(Interferometric Modulation of Light)的显示器。所述影像输出单元可以包括单个显示器或不同尺寸的多个显示器。在本发明的具体实施方式中，上述输入单元所采用的触摸屏亦可同时作为输出单元的显示面板。例如，通过触摸屏显示待输出的标签文本，从而将最终识别生成的标签文本向用户呈现。

存储单元可用于存储软件程序以及模块，处理单元通过运行存储在存储单元的软件程序以及模块，从而执行电子设备的各种功能应用以及实现数据处理。存储单元主要包括程序存储区和数据存储区，其中，程序存储区可存储操作***、至少一个功能所需的应用程序，比如声音播放程序、图像播放程序等等；数据存储区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。具体的，所述操作***可以是Android***、iOS***或Windows操作***等，或者是Vxworks这类的嵌入式操作***。

所述应用程序包括安装在电子设备上的任何应用，包括但不限于浏览器、电子邮件、即时消息服务、文字处理、键盘虚拟、窗口小部件(Widget)、加密、数字版权管理、语音识别、语音复制、定位(例如由全球定位***提供的功能)、音乐播放等等。若本实施例提供的识别标签的装置为虚拟装置，并具体实现为了用于标签识别的APP并运行在电子设备上，则安装在电子设备的应用程序包括该用于标签识别的APP，以及具体的二类分类器等应用程序。

电源用于给电子设备的不同部件进行供电以维持其运行。

本发明实施例提供一种识别标签的方法，如图2所示，包括：

S1、读取拍摄得到的标签图像，并从所述标签图像中提取待筛选区域。

在本实施例中，标签图像通过电子设备的摄像头拍摄得到商品表面印刷的标签图像，比如：各种图像格式的商标的照片、价签的照片等图像。标签图像也可以是从已有图像(如电子设备本地保存的或是通过网络下载得到的)中选择得到。且本实施例的处理过程可以是直接在智能手机、PAD等用户终端直接进行，可以是由用户终端发送至移动服务端处理，移动服务端得到最终结果后返回用户终端，也可以是部分处理在用户终端而另一部分处理处理在移动服务端进行，比如：可以将处理的中间结果发送至服务器，服务器处理完毕后再发送回各终端。

通过电子设备的摄像头拍摄得到商品表面印刷的标签图像(比如商标的照片、价签的照片等图像)后，将标签图像读取并导入电子设备的内存，并可以对标签图像进行图像预处理。

其中，图像预处理的过程具体包括：1、调整图像颜色，如:灰度图变换，将彩色图变为灰度图；2、调整图像尺寸，如：将图像缩放裁剪为标准的几种制式之一，具体的缩放裁剪制式可以视图像的具体长宽比而定，并保证对原图像内容不进行不等比的拉伸；3、调整图像朝向，如：若图像具有旋转朝向信息，则将图像旋转，使得图像中的文本符合正常观看方向。调整图像对比度。

S2、根据文本特征在所述待筛选区域中确定单文本行区域。

其中，所述文本特征包括其中至少一项：文本行的长度、文本面积占比、梯度占比和文本在单文本行区域的相对位置。S3、识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。

其中，最终输出的标签文本，可以参照原有标签图像中的排列方式，也可以按照已有的价签模板进行排列。可选的，对于单文本行，可以通过衡量各个单文本行与标签文本的相关关系进行过滤，比如：包括“产地”、“商品编码”等关键词则予以保留，包含有品牌名称或产品名称的予以保留等。

在本实施例中，所述从所述标签图像中提取待筛选区域的具体方式，可以包括S1-1至S1-4的步骤：

S1-1、对所述标签图像进行边缘检测，得到所述标签图像的轮廓图。

其中，具体可以采用不同的边缘检测算子，如Sobel算子和Canny算子，以获取图像中较为明显的边缘，得到原图像(即所述标签图像)的轮廓图(在本实施例中也可称为边缘图)。

S1-2、对所述标签图像的轮廓图进行二值化处理，通过不同颜色分别标记所述轮廓图中的背景和边缘，得到边缘二值图。

在本实施例中，对边缘图进行二值化，目的在于将背景与边缘分开，具体可以通过不同颜色分别标记所述轮廓图中的背景和边缘，其中，优选差异较大的颜色，比如白色和黑色。并可以设定适中的二值化阈值，对轮廓图进行二值化，这样有边缘的图像区域与无边缘的图像区域就用不同的像素来表示，得到边缘二值图。其中，二值化阈值具体可以设定为128，也可以采用电子设备自适应的“阈值”，或者基于之前处理结果的经验值进行设定。

S1-3、对所述边缘二值图进行填充，得到填充边缘二值图。

其中，在所述填充边缘二值图中具有同一边缘的区域闭合。具体可以选取预先设置的参数和预先设置的形态学操作，或者采用其他二值区域填充方法，以对边缘二值图进行填充，使得拥有同一边缘的区域能够闭合，得到填充边缘二值图。

S1-4、在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域。

由于在原始标签图像中包括所述目标字符、非目标字符和噪声等内容，因此在执行S1-3的填充过程之前，会由于图像噪声导致边缘轮廓不闭合，因此再次对填充边缘二值图进行边缘搜索，重新查找闭合的轮廓。具体的查找方式包括：根据填充区域的***点信息，寻找可能的闭合边缘，得到一系列待选可能文字区域；对待选可能文字区域进行过滤，例如：根据已设定的阈值和规则，对待选可能文字区域中的文字进行简单过滤，比如宽度、长度、宽高比、面积等基本特征，得到可能文字区域作为所述待筛选区域。

在本实施例中，还可以对不同比例的标签图像执行S1-1至S1-4的步骤流程后，并得到不同比例的标签图像的可能文字区域，通过综合统计不同比例的标签图像的可能文字区域，最终得到可能文字区域集合作为所述待筛选区域，使得作为所述待筛选区域的可能文字区域集合更加完整且准确度更高的。例如：采用多尺度的方式进行处理，在基准的标签图像上执行S1-1至S1-4的步骤流程之后，又在基准的标签图像的不同比例缩放(比如1：2、1：4等比例)的图像上执行S1-1至S1-4的步骤流程。

在本实施例中，所述根据文本特征在所述待筛选区域中确定单文本行区域的具体方式，可以包括S2-1至S2-3的步骤：

S2-1、在所述待筛选区域中，检测存在的单字区域，并得到单字区域集合。

在本实施例中，对于所述待筛选区域可能包含有多行的文字，可以将文字进一步切分成单文本行。例如：在该区域对应的图像内，检测可能存在的单字区域，常见的检测单字区域的方法有MSER(Maximally Stable Extremal Regions)等，得到可能的单字区域集合。

S2-2、过滤单字区域集合中异常区域。

其中，所述异常区域包括长宽比、宽度、长度、面积不符合预设值的区域。

S2-3、在过滤了异常区域的单字区域集合中，根据所述文本特征聚合单字区域，得到单字区域子集，将得到的单字区域子集所在区域确定为所述单文本行区域。

其中，各个单字区域子集之间在纵向位置不重叠，且一个单字区域子集构成一个单文本行。进一步的，所述文本特征还可以包括：各个单字区域之间相似度规则、排列规则和聚合关系等。

在本实施例中，需要对过滤了异常区域的单字区域集合，进行进一步的筛选和分析处理，得到一系列可能的单文本行区域，每个区域被认为只可能包含单行文字图像。

比如：在过滤了异常区域的单字区域集合中，可以根据相似度和排列关系进行聚合，保留纵向位置上不存在重叠的几个最大子集，这些子集每行最多一个。根据以上得到的单字区域子集，对其外包络构成一个可能的单行文本区域。

进一步的，在得到单行文本区域后，还可以对单行文本区域进行进一步校正，得到较为完整干净的单文本行。例如：如图3所示的单文本行切分校正的实例图，方框301内包含区域为可能单文本行区域，经过S2-3和进一步校正后，得到新的区域包络框302。基于如图3所示的实例，其中的具体过程包括：1、进行水平区域扩展：具体是沿着当前单文本行区域的水平外包络，对外扩展适当的像素范围，看是否将其他文本区域扩展进来。如果有水平相邻的文本区域，则需要判断两个文本区域的朝向、高度、轴心等特征是否相近。相近则将区域进行合并处理，否则停止水平扩展；2、进行水平和竖直方向的去噪校正：具体是得到各个单字符区域，可以使用MSER或其他字符区域检测方法，将其中长宽比与汉字/英文/数字相似的区域抽取出来，形成待选文字区域集合。利用待选文字集合里的文字区域，计算其统一的上边界线和下边界线，并截取其左右边界，得到新的单文本行区域；3、区域旋转：具体是根据当前区域在图像中的偏转程度，将该区域对应的原灰度图进行旋转，使横向的轴心线成为水平，所得的旋转后图像就是单文本行图像。

在本实施例中，在根据基本的文本区域特征进行筛选后，还通过标签文本特征分类或规则进行进一步的筛选，并得到单文本行区域。需要说明的是，本实施例中所提及的印刷于商品表面的，且包括商品名称、价格等有关商品销售的信息的标签，也可称为“价签”。具体提供了至少两种所述述过滤单字区域集合中异常区域的方式：

其一、根据已完成标签识别的训练样本集合，训练二类分类器。并通过所述二类分类器根据所述文本特征，标记单字区域集合中的异常区域。

其中，所述二类分类器用于判定是否为所述异常区域。例如：所提取标签的文本特征，包括该行文本的长度、文本面积占比、梯度占比、在各单行文本区域的相对位置(纵向、横向)等特征。并根据大量已有标签获得训练样本，训练二类分类器(是/否标签中的文本区域)。提取待选区域的标签文本特征，输入该分类器，再得到分类器的输出结果，该输出结果用于标识它是否属于标签中的文本区域。

或者，其二、根据已完成标签识别的训练样本集合和所述文本特征生成规则集。并根据所述规则集在单字区域集合中筛选正常区域，并将正常区域以外的部分标记为所述异常区域。例如：所提取标签的文本特征，包括该行文本的长度、文本面积占比、梯度占比、在各单行文本区域的相对位置(纵向、横向)等特征。并根据大量已有标签和上述文本特征，总结出判断这些区域是否属于标签中文本区域的规则集。提取待选区域的标签文本特征，输入该规则集，得到一个结果，标识它是否属于标签中的文本区域。

在本实施例中，对于单文本行区域的图像，需要识别其中的文字序列，文字序列包括汉字、英文字母、数字等。因此提供了所述识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本的具体方式，可以包括S3-1至S3-3的步骤：

S3-1、根据所述边缘二值图和字符格式参数，切分所述单文本行区域中的单文本行，得到待识别字符。

其中，所述字符格式参数至少包括字符宽度。

S3-2、获取字符搜索策略，并根据所述字符搜索策略识别所述待识别字符，得到所述目标字符。

在本实施例中，对单个文本行中的字符进行识别，其中识别与切分是交替迭代进行的，以步骤S3-1的切分结果作为初始值开始执行S3-2的识别过程。其中，进行字符识别所用的分类器，可以根据字符样本训练得出，比如k紧邻、神经网络模型等，并可以返回代表识别概率的一个分值。

在本实施例中，对于一个图像中的字符执行的字符搜索策略具体包括：对目标图像建立一个状态搜索树。该树中根节点对应着未切分的状态，每个叶子节点状态对应着一种切分完毕状态和对应的识别结果，而不同的分支节点则对应着一种待切分的状态。节点之间的连接对应着切分出的一个字符，其权值和识别概率及局部语言模型概率相关，即识别概率及局部语言模型概率高的切分节点，其与上级节点的连接权重就比较大，识别概率及局部语言模型概率低的切分节点，其与上级节点的连接权重就比较小。在整个树中寻找连接权重和最大的一种路径，就得到了识别概率和局部语言模型概率最优的一种切分，并得到了识别结果。

例如，状态搜索树的形态举例包括：对于“HTC”进行切分，根节点代表着未切分的“HTC”；其第一个子节点为s1＝{“HTC”},为叶子节点，对应的切分为{“HTC”}；第二个子节点为s2＝{“HT”,“C”},为叶子节点，对应的切分为{“HT”,“C”}；第三个子节点为s3＝{“H”,“TC”},为分支节点。s3有两个子节点，子节点s4＝{“H”,“TC”},为叶子节点，对应的切分为{“H”,“TC”}，子节点s5＝{“H”,“T”,“C”}，为叶子节点，对应的切分为{“H”,“T”,“C”}。于是，4个叶子节点对应着4种可能的切分状态。

S3-3、根据预设的语言模型对所述目标字符进行校正，得到所述待输出的标签文本。

其中，语言模型具体是根据标签相关语料库和形近字集合训练得出的，可以是基于单字的模型，可以返回代表匹配概率的一个分值。也可以是参考范围更大的单字语言模型。

通过预先训练的语言模型对目标字符进行校正，例如：根据语言模型的可能匹配结果，通过维特比算法寻找最佳的匹配路径，进而得到相应的校正后文本(即待输出的标签文本)。

本发明实施例提供的识别标签的方法，从拍摄得到的标签图像中提取待筛选区域，并根据文本特征在所述待筛选区域中确定单文本行区域，再识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。相对于现有技术中的OCR技术等标签识别方案，本发明实施例根据标签这一特殊对象设计了专门的检测和识别框架，解决了线框复杂，或是文字存在畸变、残缺、污染、断裂、光照不均、黏连等问题的标签识别问题。尤其是在超市、菜场等需要用户自行拍摄的场景中，有效提高了识别的准确率。

本发明实施例还提供一种如图4所示的识别标签的装置，包括：

在本实施例中，所述图像预处理模块，具体用于对所述标签图像进行边缘检测，得到所述标签图像的轮廓图；并对所述标签图像的轮廓图进行二值化处理，得到边缘二值图，所述二值化处理包括：通过不同颜色分别标记所述轮廓图中的背景和边缘；再对所述边缘二值图进行填充，得到填充边缘二值图，其中，在所述填充边缘二值图中具有同一边缘的区域闭合；之后在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域。

在本实施例中，所述筛选模块，具体用于在所述待筛选区域中，检测存在的单字区域，并得到单字区域集合；并过滤单字区域集合中异常区域，所述异常区域包括长宽比、宽度、长度、面积不符合所述文本特征的区域；再在过滤了异常区域的单字区域集合中，根据所述文本特征聚合单字区域，得到单字区域子集，将得到的单字区域子集所在区域确定为所述单文本行区域，其中，各个单字区域子集之间在纵向位置不重叠，且一个单字区域子集构成一个单文本行。

其中，所述筛选模块，具体还用于：

根据已完成标签识别的训练样本集合，训练二类分类器，所述二类分类器用于判定是否为所述异常区域；并根据所述文本特征，通过所述二类分类器标记单字区域集合中的异常区域；或者，根据已完成标签识别的训练样本集合和所述文本特征生成规则集；并根据所述规则集在单字区域集合中筛选正常区域，并将正常区域以外的部分标记为所述异常区域。

在本实施例中，所述识别模块，具体用于根据所述边缘二值图和字符格式参数，切分所述单文本行区域中的单文本行，得到待识别字符，所述字符格式参数包括字符宽度；并获取字符搜索策略，并根据所述字符搜索策略识别所述待识别字符，得到所述目标字符；再根据预设的语言模型对所述目标字符进行校正，得到所述待输出的标签文本。

本发明实施例提供的识别标签的装置，从拍摄得到的标签图像中提取待筛选区域，并根据文本特征在所述待筛选区域中确定单文本行区域，再识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本。相对于现有技术中的OCR技术等标签识别方案，本发明实施例根据标签这一特殊对象设计了专门的检测和识别框架，解决了线框复杂，或是文字存在畸变、残缺、污染、断裂、光照不均、黏连等问题的标签识别问题。尤其是在超市、菜场等需要用户自行拍摄的场景中，有效提高了识别的准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种识别标签的方法，其特征在于，包括：

识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本；

其中，对于单文本行，通过各个单文本行与标签文本的相关关系进行过滤；

在得到单行文本区域后进行校正，包括：

1)、进行水平区域扩展：沿着当前单文本行区域的水平外包络，对外扩展像素范围，看是否将其他文本区域扩展进来；如果有水平相邻的文本区域，则判断两个文本区域的朝向、高度、轴心等特征是否相近；相近则将区域进行合并处理，否则停止水平扩展；

2)、进行水平和竖直方向的去噪校正：得到各个单字符区域，将其中长宽比与汉字/英文/数字相似的区域抽取出来，形成待选文字区域集合；利用所述待选文字集合里的文字区域，计算统一的上边界线和下边界线，并截取左右边界，得到新的单文本行区域；

3)、区域旋转：根据所述新的单文本行区域在图像中的偏转程度，将新的单文本行区域对应的原灰度图进行旋转，使横向的轴心线成为水平，所得的旋转后图像为单文本行图像。

2.根据权利要求1所述的方法，所述从所述标签图像中提取待筛选区域，包括：

在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域。

3.根据权利要求1所述的方法，其特征在于，所述根据文本特征在所述待筛选区域中确定单文本行区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述过滤单字区域集合中异常区域，包括：

5.根据权利要求2所述的方法，其特征在于，所述识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本，包括：

6.一种识别标签的装置，其特征在于，包括：

识别模块，用于识别所述单文本行区域中的目标字符得到目标字符集合，并根据所述目标字符集合生成待输出的标签文本；

在得到单行文本区域后进行校正，包括：

7.根据权利要求6所述的装置，其特征在于，所述图像预处理模块，具体用于对所述标签图像进行边缘检测，得到所述标签图像的轮廓图；并对所述标签图像的轮廓图进行二值化处理，得到边缘二值图，所述二值化处理包括：通过不同颜色分别标记所述轮廓图中的背景和边缘；再对所述边缘二值图进行填充，得到填充边缘二值图，其中，在所述填充边缘二值图中具有同一边缘的区域闭合；之后在所述填充边缘二值图中进行边缘搜索，得到存在闭合轮廓的区域，并从所述存在闭合轮廓的区域中提取所述待筛选区域。

8.根据权利要求6所述的装置，其特征在于，所述筛选模块，具体用于在所述待筛选区域中，检测存在的单字区域，并得到单字区域集合；并过滤单字区域集合中异常区域，所述异常区域包括长宽比、宽度、长度、面积不符合所述文本特征的区域；再在过滤了异常区域的单字区域集合中，根据所述文本特征聚合单字区域，得到单字区域子集，将得到的单字区域子集所在区域确定为所述单文本行区域，其中，各个单字区域子集之间在纵向位置不重叠，且一个单字区域子集构成一个单文本行。

9.根据权利要求8所述的装置，其特征在于，所述筛选模块，具体还用于：

10.根据权利要求7所述的装置，其特征在于，所述识别模块，具体用于根据所述边缘二值图和字符格式参数，切分所述单文本行区域中的单文本行，得到待识别字符，所述字符格式参数包括字符宽度；并获取字符搜索策略，并根据所述字符搜索策略识别所述待识别字符，得到所述目标字符；再根据预设的语言模型对所述目标字符进行校正，得到所述待输出的标签文本。