CN111950542B

CN111950542B - 基于ocr识别算法的学习扫描笔

Info

Publication number: CN111950542B
Application number: CN202010826008.9A
Authority: CN
Inventors: 阚德涛; 余佑强
Original assignee: Hunan Niusiman Storage Technology Co ltd
Current assignee: Hunan Niusiman Storage Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-07-09
Anticipated expiration: 2040-08-17
Also published as: CN111950542A

Abstract

本发明提供一种基于OCR识别算法的学习扫描笔，所述学习扫描笔包括：处理器、存储器、摄像头、通信接口、电池、采集单元，该处理器存储器、摄像头、通信接口、采集单元通过总线连接。本机OCR识别算法带深度学习，在线时通过互联网服务器收集用户习惯，用户越多，识别率越高，是一个词典扫描笔。

Description

基于OCR识别算法的学习扫描笔

技术领域

本申请涉及电子技术领域，尤其涉及一种基于OCR识别算法的学习扫描笔。

背景技术

扫描笔又名微型扫描仪或手刮式扫描笔，所谓的扫描笔，即是通过扫描技术，直接将图像，表格或者印刷字体等扫描到笔里存储或者直接传送到电脑，进行存储阅读或者编辑修改等操作。

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个OCR***性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

现有的OCR识别算法的扫描笔的准确率不高，影响了用户的体验度。

发明内容

本申请实施例公开了一种基于OCR识别算法的学习扫描笔，能够OCR识别算法确定的文字信息进行校对，进而提高文字信息识别的准确率，提高用户的体验度。

本申请实施例第一方面公开了一种基于OCR识别算法的学习扫描笔，所述学习扫描笔包括：处理器、存储器、摄像头、通信接口、电池、采集单元，该处理器存储器、摄像头、通信接口、采集单元通过总线连接，

采集单元，用于采集文本资料；

处理器，用于采用OCR识别算法对该文本资料进行识别得到初步文字识别结果，依据所述初步文字识别结果搜索与该初步文字识别结果匹配的文字模板；将初步文字识别结果按符号分成n个初步分段，将文字模板按符号分成n个模板分段，将n个初步分段中的每个初步分段与n个模板分段进行逐一比对，按每个初步分段中每个文字的置信率对初步分段进行调整得到每个分段的最终结果，将该最终结果确定为扫描仪的文字识别结果；

所述n为大于等于2的整数。

通过实施本申请实施例，本申请提供的技术方案在通过OCR识别算法得到初步识别结果后，搜索与该初步识别结果对应的文字模板，然后依据文字模板对该初步识别结果进行调整，由于该调整依据置信率来调整，因此其能够提高初步识别结果的准确率，提高了OCR识别的准确率，提高了用户体验度。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1是本申请实施例提供的一种扫描笔的结构示意图；

图2是本申请实施例提供的一种输入数据与卷积核的示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

扫描笔又称为手持微型扫描仪(Handy Scanner)继承了扫描仪的所有特点：手持微型扫描仪(scanner)其是一种微型扫描仪，是计算机的外部仪器设备，可其扫描笔又可脱离计算机进行扫描工作，其扫描捕获图像通过数据转换成计算机可以显示、编辑、存储和输出的彩色或黑白的JPG的图片格式，直接存储于扫描笔本身的存储设备内(如3R的艾尼提HSA610微型扫描笔内就有TF存储卡)，然后通过读取存储设备(TF)内的JPG数据，可通过计算机进行再编辑，如OCR转换、PS等；扫描笔扫描对象可对照片、文本页面、图纸、美术图画、照相底片、菲林软片、身份证、大型的工程图纸，甚至纺织品、标牌面板、印制板样品等三维对象都可作为扫描对象，提取和将原始的线条、图形、文字、照片、平面实物转换成可以编辑及加入文件中的装置，扫描笔更加追求的随处扫描。

参阅图1，图1提供了一种扫描笔的结构，如图1所示，该扫描笔包括：处理器、存储器、摄像头、通信接口、电池、采集单元，该处理器存储器、摄像头、通信接口、采集单元通过总线连接，电池为该扫描笔供电。该通信接口可以为有线或无线方式。

通信方式可以是：全球移动通讯(Global System of Mobile communication，GSM)***、码分多址(Code Division Multiple Access，CDMA)***、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)***、通用分组无线业务(GeneralPacket Radio Service，GPRS)、长期演进(Long Term Evolution，LTE)***、先进的长期演进(Advanced long term evolution，LTE-A)***、新无线(New Radio，NR)***、NR***的演进***、免授权频谱上的LTE***(LTE-based access to unlicensed spectrum，LTE-U)、免授权频谱上的NR***(NR-based access tounlicensed spectrum，NR-U)、通用移动通信***(Universal Mobile Telecommunication System，UMTS)、下一代通信***或其他通信***等。

通常来说，传统的通信***支持的连接数有限，也易于实现，然而，随着通信技术的发展，移动通信方式将不仅支持传统的通信，还将支持例如，设备到设备(Device toDevice，D2D)通信，机器到机器(Machine to Machine，M2M)通信，机器类型通信(MachineType Communication，MTC)，以及车辆间(Vehicle to Vehicle，V2V)通信等，本申请实施例也可以应用于这些通信***。可选地，本申请实施例中的通信***可以应用于载波聚合(Carrier Aggregation，CA)场景，也可以应用于双连接(Dual Connectivity，DC)场景，还可以应用于独立(Standalone，SA)布网场景。

参阅图1，如图1所示提供了一种基于OCR识别算法的学习扫描笔，其中，该扫描笔还包括采集单元；

采集单元，用于采集文本资料；

处理器，用于采用OCR识别算法对该文本资料进行识别得到初步文字识别结果，依据所述初步文字识别结果搜索与该初步文字识别结果匹配的文字模板；将初步文字识别结果按符号分成n个初步分段，将文字模板按符号分成n个模板分段，将n个初步分段中的每个初步分段与n个模板分段进行逐一比对，按每个初步分段中每个文字的置信率对初步分段进行调整得到每个分段的最终结果，将该最终结果确定为扫描仪的文字识别结果。

本申请提供的技术方案在通过OCR识别算法得到初步识别结果后，搜索与该初步识别结果对应的文字模板，然后依据文字模板对该初步识别结果进行调整，由于该调整依据置信率来调整，因此其能够提高初步识别结果的准确率，提高了OCR识别的准确率，提高了用户体验度。

在一种可选的方案，上述依据所述初步文字识别结果搜索与该初步文字识别结果匹配的文字模板具体可以包括：

处理器，具体用于调用搜索引擎搜索与该初步识别结果匹配度最高搜索结果，将该搜索结果确定为文字模板。因为对于学习扫描笔其扫描的文本资料相对固定，例如诗歌、散文等等，网络均有相应的存储，因此可以进行校对。

上述搜索引擎包括但不限于：百度、***等第三方提供的方法。

在一种可选的方案中，

按每个初步分段中每个文字的置信率对初步分段进行调整得到每个分段的最终结果具体可以包括：

处理器，具体用于对初步分段x进行分词处理得到分词初步分段x，将模板分段x进行分词处理得到分词模板分段x，将初步分段x与分词模板分段x首尾对齐后，将对齐位置的每个词语逐一比对，若初步分段x的第y个词与分词模板分段x的第y个词相同，则确定该最终结果包含第y个词，若初步分段x的第y+1个词与分词模板分段x的第y+1个词不相同，则提取初步分段x的第y+1个词的初步置信率_y+1与分词模板分段x的第y+1个词模板置信率_y+1；若模板置信率_y+1＞初步置信率_y+1且模板置信率_y+1＞置信阈值，确定该最终结果包含该分词模板分段x的第y+1个词，将初步分段x的所有词进行处理即得到分段x的最终分段；遍历所有分段得到最终结果。x、y均为大于等于1的整数。

摄像头，用户采集人脸图片；

处理器还可以包括：AI模块，该AI模块，用于对该人脸图片进行智能识别处理得到该图片的第一身份；处理器，用于对第一身份进行验证，验证通过以后，开启扫描笔。这样避免非验证用户使用扫描笔。

将对该人脸图片进行智能识别处理得到该图片的第一身份具体可以包括：

AI模块，具体用于依据目标对象的人脸图片建立输入数据，将该输入数据输入到人脸识别模型中执行n层卷积运算得到第n层卷积运算结果，将该第n层卷积运算结果输入到全连接层执行全连接运算得到全连接计算结果，将全连接计算结果与预设的人脸模板结果计算差值，若该差值小于差值阈值，确定该目标对象身份为该预设的人脸模板的第一身份。

在一种可选的方案中，

将该输入数据输入到人脸识别模型中执行n层卷积运算得到第n层卷积运算结果具体可以包括：

AI模块包括：分配计算处理电路以及x个计算处理电路，该AI模块获取输入数据的矩阵尺寸CI*CH，若n层卷积运算中的卷积核尺寸为3*3卷积核，则分配计算处理电路将CI*CH按CI方向划分成CI/x数据块(假设CI为x的整数)，将CI/x数据块按顺序分配给x个计算处理电路，x个计算处理电路分别将接收分配到的1个数据块与第i层卷积核执行第i层卷积运算得到第i卷积结果(即将x个计算处理电路的x个结果矩阵(CI/x-2)*(CH-2)按顺序组合起来得到第i卷积结果)，将第i卷积结果的边缘2列(相邻列的结果为不同的计算处理电路计算得到的2列确定为边缘列)的结果发送至分配处理电路，x个计算处理电路将第i层卷积结果与第(i+1)层卷积核执行卷积运算得到第(i+1)卷积结果，将第(i+1)卷积结果发送至分配计算电路，分配计算处理电路将(CI/x－1)个组合数据块与第i层卷积核执行第i层卷积运算得到第i组合结果，将第i结合结果与第i卷积结果的边缘2列的结果拼接(将第i结合结果按卷积运算的数学规则***到边缘2列的中间)得到第(i+1)结合数据块，将第(i+1)结合数据块与第(i+1)卷积核执行卷积运算得到第(i+1)结合结果，将第(i+1)结合结果***到第(i+1)卷积结果边缘列(相邻列的结果为不同的计算处理电路计算得到)之间得到第(i+1)层卷积结果，AI模块依据第(i+1)层卷积结果执行剩余卷积层(i+1层之后的卷积核)运算得到第n层卷积运算结果。上述组合数据块可以为，相邻2个数据块之间的4列数据组成的4*CI矩阵，例如第1个数据块(第1计算处理电路分配的数据块)的最后2列与第2个数据块(第2计算处理电路分配的数据块)前2列数据组成的4*CH矩阵。

上述剩余卷积层的运算也可以参见第i层以及第(i+1)层的计算，该i为≥1的整数且小于等于n，上述n为AI模型的卷积层总层数，i为卷积层的层编号，该CI为矩阵的列值，CH为矩阵的行值。

参阅图2(图2中每个方框代表一个元素值)，图2为一种输入数据的矩阵尺寸CI*CH的示意图以及3*3卷积核示意图，上述技术方案主要是节省分配计算处理电路以及x个计算处理电路之间的传输数据，进而减少数据读取的次数以及IO开销，达到提高计算效率的优点。对于常规的分配-计算结构，例如主-从结构，其计算时，每计算一层的卷积运算需要将所有的第i层卷积结果回传至主结构，然后在将第i层卷积结果分配给从结构执行第i+1层的运算，而本申请的技术方案的执行第i层卷积运算以后，仅仅将相邻2列的结果发送至分配处理电路，剩余部分卷积结果后第i+1层执行卷积运算，因此剩余部分卷积结果无需回传至分配计算处理电路，分配计算处理电路也不会重新划分执行卷积运算，这样分配计算处理电路也能够减少分配的开销，进而对结合部分数据块的数据执行卷积运算以达到完整的卷积运算的目的。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理器中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理器中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于OCR识别算法的学习扫描笔，所述学习扫描笔包括：处理器、存储器、摄像头、通信接口、电池、采集单元，该处理器、存储器、摄像头、通信接口、采集单元通过总线连接，其特征在于，

采集单元，用于采集文本资料；

所述n为大于等于2的整数；

处理器，具体用于对第x个初步分段进行分词处理得到分词初步分段，将第x个模板分段进行分词处理得到分词模板分段，将分词初步分段与分词模板分段首尾对齐后，将对齐位置的每个词语逐一比对，若分词初步分段的第y个词与分词模板分段的第y个词相同，则确定该最终结果包含第y个词，若分词初步分段的第y+1个词与分词模板分段的第y+1个词不相同，则提取分词初步分段的第y+1个词的初步置信率_y+1与分词模板分段的第y+1个词模板置信率_y+1；若模板置信率_y+1＞初步置信率_y+1且模板置信率_y+1＞置信阈值，确定该最终结果包含该分词模板分段的第y+1个词，将分词初步分段的所有词进行处理即得到第x个分段的最终分段；遍历所有分段得到最终结果；

x、y均为大于等于1的整数。

2.根据权利要求1所述的基于OCR识别算法的学习扫描笔，其特征在于，

处理器，具体用于调用搜索引擎搜索与初步识别结果匹配度最高搜索结果，将该搜索结果确定为文字模板。