CN109190623B

CN109190623B - 一种识别投影仪品牌和型号的方法

Info

Publication number: CN109190623B
Application number: CN201811077053.8A
Authority: CN
Inventors: 李佐勇; 樊好义; 余兆钗; 刘伟霞; 赖桃桃
Original assignee: Minjiang University
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2018-09-15
Filing date: 2018-09-15
Publication date: 2020-12-29
Anticipated expiration: 2038-09-15
Also published as: CN109190623A

Abstract

本发明涉及一种识别投影仪品牌和型号的方法，包括：步骤S1:采集投影仪品牌和型号所处区域的图像；步骤S2:对采集的图像进行预处理，提取得到候选目标区域；步骤S3:采用目标区域筛选策略对候选目标区域进行筛选，得到目标区域；步骤S4:根据得到的目标区域，采用OCR技术对目标区域内的字符进行识别，得到目标区域的字符串；步骤S5:将识别出来的目标区域字符串与品牌和型号数据库中的字符串数据进行匹配,得到品牌和型号的匹配结果。本发明能准确自动地识别出投影仪机身外壳表面的品牌和型号文本信息。

Description

一种识别投影仪品牌和型号的方法

技术领域

本发明涉及一种图像识别技术领域，具体涉及一种识别投影仪品牌和型号的方法。

背景技术

投影仪的工业生产过程中需要对加工好的投影仪进行装箱处理。装箱的大致流程为：检查投影仪的外观是否存在缺损→贴出厂标签→检查投影仪品牌和型号信息是否正确→将投影仪装入塑料袋→再装上保持衬→放入包装箱内。检查投影仪品牌和型号信息的传统做法是依靠流水线上工人的眼睛进行辨识，识别效率低、识别的人工成本高，而且工人长时间工作容易出现视觉疲劳，导致识别准确率的下降。

发明内容

有鉴于此，本发明的目的在于提供一种识别投影仪品牌和型号的方法，能准确自动地识别出投影仪机身外壳表面的品牌和型号文本信息。

为实现上述目的，本发明采用如下技术方案：

一种识别投影仪品牌和型号的方法，包括以下步骤：

步骤S1:采集投影仪品牌和型号所处区域的图像；

步骤S2:对采集的图像进行预处理，提取得到候选目标区域；

步骤S3:采用目标区域筛选策略对候选目标区域进行筛选，得到目标区域；

步骤S4::根据得到的目标区域，采用OCR技术对目标区域内的字符进行识别，得到目标区域的字符串

步骤S5:将识别出来的目标区域字符串与品牌和型号数据库中的字符串数据进行匹配,得到品牌和型号的匹配结果

进一步地，所述步骤S2具体为：

步骤S21:对采集的图像进行图像灰度化处理，得到灰度图像；

步骤S22:对灰度图像进行图像梯度计算，得到梯度图像；

步骤S23:采用形态学运算，消除梯度图像中小的候选目标区域和毛刺，断开较细的候选目标区域连接，平滑候选目标区域,得到平滑后的梯度图像；

步骤S24:对平滑后的梯度图像进行图像二值化处理，得到候选目标区域。

进一步地，所述图像灰度化处理具体为：根据Mat l ab中Image Process i ngToo l box提供的NTSC转化公式，即通过公式(1)将采集的图像I转化为灰度图像I_gray

I_gray＝0.299R+0.587G+0.114B (1)

其中，R、G、B分别代表图像的红色、绿色和蓝色分量。

进一步地，所述图像梯度计算具体为：

采用X(水平)方向和Y(垂直)方向Sobel算子对灰度图像分别进行滤波，以计算两个方向上的图像梯度，其中，X方向和Y方向Sobel算子如公式(2)所示

然后，按公式(3)计算图像的近似梯度

G(i,j)＝Ω(i,j)*S_X+Ω(i,j)*S_Y (3)

其中，Ω(i,j)表示以像素点(i,j)为中心的3*3局部图像窗口，G(i,j)代表图像梯度计算结果中像素点(i,j)处的值。

进一步地，所述形态学运算具体为：

步骤S231:构造矩形结构元素E:

式中，H代表图像矩阵的行数，m和n分别代表结构元素E矩阵的行数和列数；

步骤S232:利用结构元素E对梯度图像执行闭运算，填充候选目标区域的内部孔洞和凹角点，将邻近的候选目标区域连接起来；

步骤S233:执行开运算，消除小的候选目标区域和毛刺，断开较细的候选目标区域连接，平滑候选目标区域，得到平滑后的梯度图像，记为

进一步地，所述图像二值化具体为：

根据平滑后的梯度图像，执行如下的图像阈值分割，得到图像的二值化结果：

其中，

在公式(5)中，

表示形态学处理后的梯度图像，T是经典的阈值分割算法Otsu^[2]确定的最优分割阈值。

进一步地，所述候选目标区域筛选策略具体为:

步骤S31：假定候选文本区域有k个，计算每个候选文本区域(1≤ i≤k)的最小外接矩形R最小外_i的几何属性，包括高度H_i、长度W_i、长宽比 R_i、面积Area_i、面积占比

Area_i＝W_i*H_i (8)

(7)

(8)(9)其中，A代表整幅图像的面积即图像的像素总数；

步骤S32:利用公式(9)对候选目标区域进行筛选，获取目标区域集合Set＝{Set_i}：

其中，参数α表示面积占比限制条件，用于过滤面积较小的噪声区域；参数β表示长宽比限制条件，用于限制文本区域的长宽比。

进一步地，采用Tesseract-OCR引擎进行字符识别。

进一步地，目标区域字符串与品牌和型号数据库中的字符串数据进行匹配的流程如下：

(1)品牌字符串匹配：以空格作为分隔符，分离出目标区域字符识别结果中的一个个字符串，将识别结果中的每个字符串与投影仪品牌和型号数据库中的投影仪品牌字符串进行逐一匹配，直至匹配成功或者全部匹配失败。

(2)型号字符串匹配：如果品牌字符串匹配不成功，无需再进行型号字符串的匹配，输出未匹配到品牌信息的提示，并给出匹配时间。如果品牌字符串匹配成功，则继续将识别结果中的每个字符串与该品牌对应型号数据库中的型号字符串进行逐一匹配，直至匹配成功或者全部匹配失败。如果匹配成功，则输出品牌和型号以及匹配时间信息，以表示匹配成功；否则，输出品牌信息、未匹配到型号信息和匹配失败的提示，并给出匹配时间。

本发明与现有技术相比具有以下有益效果：

1、本发明能准确自动地识别出投影仪机身外壳表面的品牌和型号文本信息。

2、本发明实现自动识别，且提高投影仪机身外壳表面的设备品牌和型号文本信息的识别精度和速度。

附图说明

图1是本发明流程图；

图2是本发明一实施例中图像灰度化；

图3是本发明一实施例中图像梯度计算结果；

图4是本发明一实施例中梯度图像形态学运算结果；

图5是本发明一实施例中梯度图像二值化结果；

图6是本发明一实施例中目标区域定位结果；

图7是本发明一实施例中目标区域字符识别结果；

图8是本发明一实施例中整幅图像OCR字符识别的结果；

图9-图10是本发明实施例中图7-图8所示字符串与品牌和型号数据库中字符串匹配结果；

图11-图14是本发明一实施例中第一至第四组测试样本对应的投影仪品牌和型号识别阶段图；

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种识别投影仪品牌和型号的方法，包括以下步骤：

步骤S1:采集投影仪品牌和型号所处区域的图像；

步骤S2:对采集的图像进行预处理，提取得到候选目标区域；

步骤S5:将识别出来的目标区域字符串与品牌和型号数据库中的字符串数据进行匹配,得到品牌和型号的匹配结果。

在本发明一实施例中，所述步骤S2具体为：

步骤S21:对采集的图像进行图像灰度化处理，得到灰度图像；

步骤S22:对灰度图像进行图像梯度计算，得到梯度图像；

步骤S23:采用形态学运算，消除梯度图像中小的候选目标区域和毛刺，断开较细的候选目标区域连接，平滑候选目标区域,得到平滑的梯度图像；

步骤S24:对平滑的梯度图像进行图像二值化处理，得到候选目标区域。

参照图2，在本发明一实施例中，所述图像灰度化处理具体为：根据Mat l ab中Image Process i ng Too l box提供的NTSC转化公式，即通过公式(1)将采集的图像I转化为灰度图像I_gray

I_gray＝0.299R+0.587G+0.114B (1)

其中，R、G、B分别代表图像的红色、绿色和蓝色分量。

参照图3，在本发明一实施例中，所述图像梯度计算具体为：

然后，按公式(3)计算图像的近似梯度

G(i,j)＝Ω(i,j)*S_X+Ω(i,j)*S_Y (3)

参照图4，在本发明一实施例中，所述形态学运算具体为：

步骤S231：构造矩形结构元素E:

(式中，H代表图像矩阵的行数，m和n分别代表结构元素E矩阵的行数和列数；

步骤S232：利用结构元素E对梯度图像执行闭运算，填充候选目标区域的内部孔洞和凹角点，将邻近的候选目标区域连接起来；

步骤S233：执行开运算，消除小的候选目标区域和毛刺，断开较细的候选目标区域连接，平滑候选目标区域，得到平滑后的梯度图像，记为

参照图5，在本发明一实施例中，所述图像二值化具体为：

其中，

在公式(5)中，

在本发明一实施例中，所述区域筛选策略具体为:

Area_i＝W_i*H_i (8)

其中，A代表整幅图像的面积即图像的像素总数；

(7)

(8)(9)步骤S32:利用公式(9)对候选目标区域进行筛选，获取目标区域集合Set＝{Set_i}：

其中，参数α表示面积占比限制条件，用于过滤面积较小的噪声区域；参数β表示长宽比限制条件，用于限制文本区域的长宽比。本发明将参数α和β分别设置为0.001和4。

在本发明一实施例中，目标区域字符串与品牌和型号数据库中的字符串数据进行匹配的流程如下：

图9给出了图7所示的目标区域字符识别结果中的字符串与品牌和型号数据库中数据进行匹配的结果。图10给出了图8所示的未进行目标区域进行定位而直接对投影仪图像进行OCR字符识别所得结果中字符串与品牌和型号数据库中数据进行匹配的结果。由图9和图 10的匹配结果可见，两种情况下都成功匹配到投影仪的品牌和型号信息，但先进行目标区域定位后进行OCR字符识别所得字符串数量少，匹配时间也更短，未进行目标区域定位而直接进行OCR字符识别所得字符串数量更多，匹配时间略长。品牌和型号数据库数据越多，目标区域定位与否造成的字符串匹配时间差异就越大。如图11所示，此投影仪图像未进行目标区域定位而直接进行OCR字符识别所得字符串也能成功匹配到品牌和型号信息，但并不是所有投影仪图像未进行目标区域定位而直接进行OCR字符识别所得字符串都能成功匹配到品牌和型号信息。

为了让一般技术人员更好地理解本发明的技术方案，以下结合附图11-14对本发明进行详细介绍。

为了验证本发明算法的有效性和泛化能力，我们选用四幅投影仪图像作为测试样本。第一幅图像中的投影仪是本发明算法设计过程中选定的识别对象，是标准的测试数据，图片中的投影仪由日立 (HITACHI)公司生产，设备表面无贴条，干净简洁。第二幅图片中的投影仪也由日立(HITACHI)公司生产，但设备型号不同，且设备表面有粘贴上去的纸条，拍摄也没有第一幅图规范，比如，背景有反光干扰的塑料胶布，设备正面未完全呈现在图像中，这些都可能影响识别结果。第三幅图和第四幅图中的设备是EPSON投影仪。本发明算法采用Python编程，实验运行在2.60GHz的Intel CoreTM i7-4720HQ CPU、8G内存的笔记本电脑上。

图11～图14分别展示了四幅测试图像的实验结果。为了证实目标文本区域定位对投影仪品牌和型号字符识别以及目标字符串匹配的帮助，每幅图都给出了直接对原图进行OCR字符识别、对定位后的目标文本区域进行OCR字符识别的结果以及两者所得字符识别结果对应的品牌和型号字符串匹配结果。从图11中的 (d)可以看到，对目标文本区域定位后的OCR字符识别精确地识别出了投影仪的品牌 HITACHI以及型号CP-EX5001WN。而当直接对图11中的 (a)中原图进行 OCR字符识别时，其对应的识别结果图11中的 (c)中含有大量的无用字符，杂乱无章，无法精确地识别出我们所需的品牌和型号字符串，不利于后续的品牌和型号字符串匹配。从图11中的 (e)～(f)可以看到，有无目标区域定位的情况下均能成功匹配出品牌和型号信息，但目标区域定位后识别出的字符串数量更少，节省了品牌和型号匹配的时间。

图12给出了第二幅测试图像的实验结果。第二幅测试图像和第一幅测试图像中的投影仪均产自相同的厂商日立公司，有着相同的设备品牌HITACHI，但其型号为CP-EX4051WN，与第一幅测试图像中的设备型号CP-EX5001WN不同，且第二幅测试图像中设备表面有粘贴上去的纸条，拍摄没有第一幅测试图像规范，比如，背景有反光干扰的塑料胶布，设备正面未完全呈现在图像中。从图12中的 (b)可见，这些不利因素给图像中目标文本区域的定位造成了一定的干扰，使得型号下方的字符串也被定位成了目标文本区域。从图12中的 (c)～(d)可以看到，对目标文本区域定位后的OCR字符识别所得字符串比直接对投影仪图片进行OCR字符识别所得字符串更少，有利于后续的品牌和型号匹配。从图12中的 (e)～(f)可以看到，有无目标区域定位的情况下均能成功匹配出品牌和型号信息，但目标区域定位后识别出的字符串数量更少，节省了品牌和型号匹配的时间。

图13给出了第三幅测试图像的实验结果。第三幅测试图像与前两幅测试图像中的投影仪产自不同的厂商，其设备品牌为EPSON，其型号为CB-UO5。第三幅测试图像与本发明算法设计过程中选定的待识别投影仪来自不同厂商，两个不同厂商的投影仪设备正面的设计和文字布局差异很大，这些差异给图像中目标文本区域的定位造成了一定的干扰，使得本发明算法在定位出品牌和型号所在文本区域之外，多定位了3个目标文本区域，具体见图13中的 (b)的红色框线标识处。从图13中的 (c)～(d)可以看到，对目标文本区域定位后的OCR字符识别所得字符串比直接对投影仪图片进行OCR字符识别所得字符串更少，有利于后续的品牌和型号匹配。从图13中的 (e)～(f)可以看到，有无目标区域定位的情况下均能成功匹配出品牌和型号信息，但目标区域定位后识别出的字符串数量更少，节省了品牌和型号匹配的时间。

图14给出了第四幅测试图像的实验结果。第四幅测试图像与第一幅和第二幅测试图像中的投影仪产自不同的厂商，与第三幅测试图像中的投影仪具有相同的品牌EPSON，其型号为CB-X18。第四幅测试图像与前两幅图像的投影仪来自不同厂商，两个不同厂商的投影仪设备正面的设计和文字布局差异很大，其与第三幅测试图像虽然来自相同厂商，但其按键布局仍有差异，这些差异给图像中目标文本区域的定位造成了一定的干扰，使得本发明算法在定位出品牌和型号所在文本区域之外，多定位了5个目标文本区域，具体见图14中的 (b)的红色框线标识处。从图14中的 (c)～(d)可以看到，对目标文本区域定位后的OCR字符识别所得字符串比直接对投影仪图片进行OCR字符识别所得字符串更少，有利于后续的品牌和型号匹配。从图14中的 (e)～(f)可以看到，无目标区域定位的情况下OCR字符识别结果所含字符串不仅数量更多，导致后续的品牌和型号匹配时间更长，而且后续品牌和型号匹配时仅成功地匹配出品牌而型号匹配失败；而目标区域定位后识别出的字符串不仅数量更少，节省了后续品牌和型号匹配的时间，而且成功地匹配出了品牌和型号信息。由此可见，本发明算法提出的目标区域定位对投影仪品牌和型号识别的重要性。

此外，为了证实本发明算法提出的目标文本区域定位对投影仪品牌和型号识别速度提升起到的积极作用，表1列出了直接对投影仪设备原图进行OCR字符识别与品牌和型号信息匹配、对原图先进行目标文本区域定位再进行目标区域OCR字符识别与品牌和型号信息匹配时本发明算法所耗费的运行时间。从表1可以看到，对目标文本区域进行定位后再进行OCR字符识别有效地提升本发明算法的速度 3～5倍。

表1投影仪品牌和型号识别运行时间(秒)对比

图像编号	图像大小	直接进行OCR字符识别与匹配	先定位目标区域后进行OCR字符识别与匹配
				1	3264×2448	3.24	0.86
2	4000×3000	4.77	0.96
				3	2448×2448	6.54	1.05
4	3648×2736	5.22	1.51

综上所述，本发明算法能准确识别和匹配出规范拍摄下日立 (HITACHI)投影仪的品牌和型号。此外，本发明算法还能对拍摄不规范，设备表面有粘贴字条，甚至设备正面设计和文字布局差异很大的不同厂家的投影仪，获得准确的品牌和型号识别结果，具有较强的泛化能力。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。