CN107346629A - 一种智能盲人阅读方法及智能盲人阅读器*** - Google Patents
一种智能盲人阅读方法及智能盲人阅读器*** Download PDFInfo
- Publication number
- CN107346629A CN107346629A CN201710739516.1A CN201710739516A CN107346629A CN 107346629 A CN107346629 A CN 107346629A CN 201710739516 A CN201710739516 A CN 201710739516A CN 107346629 A CN107346629 A CN 107346629A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- usb
- intelligent blind
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004891 communication Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 101000941170 Homo sapiens U6 snRNA phosphodiesterase 1 Proteins 0.000 claims description 6
- 102100031314 U6 snRNA phosphodiesterase 1 Human genes 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- -1 USB3 and USB2 Proteins 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000023886 lateral inhibition Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 201000009487 Amblyopia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/001—Teaching or communicating with blind persons
- G09B21/006—Teaching or communicating with blind persons using audible presentation of the information
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种智能盲人阅读方法及智能盲人阅读器***,通过图像采集模块采集文本的图像信息,由USB分流模块通过通信模块将文本的图像信息上传至云服务器;云服务器采集的图像信息进行预处理、文字分割,文字识别,并将识别结果以文本格式发送给USB分流模块;USB分流模块再发送至中央控制模块,中央控制模块通过语音播报模块的语音处理单元将文本格式的识别结果转化成语音信息,送蓝牙单元,通过蓝牙单元的耳机或者喇叭,将语音播报给阅读者。与现有技术相比,具有实现印刷体汉字中常用的八种字体的识别,实现手写汉字体识别,阅读效率高、阅读准确率高的优点。
Description
技术领域
本发明涉及一种阅读器***,特别是一种智能盲人阅读器识别方法及智能盲人阅读器***。
背景技术
根据世界卫生组织(WHO)在2014年8月更新的第282号实况报道,当今世界范围内视力受损的人数约为2.85亿,其中3900万人患有盲症,2.46亿人为弱视,而发展中国家的视力受损者人数约占全世界的90%。此外,我国在2006年进行了第二次全国残疾人抽样调查,根据调查结果推算,2006年我国各类残疾人的总数为8296万人,其中视力残疾1233万人。根据第六次全国人口普查我国总人口数,及第二次全国残疾人抽样调查我国残疾人占全国总人口的比例和各类残疾人占残疾人总人数的比例,推算2010年末我国残疾人总人数8502万人,其中视力残疾人数约为1263万人。
可以看出,有视力障碍的人群十分庞大,而随着人们生活水平的提高,阅读越来越成为一种强需求,同时随着现代科技的发展,我们的生活进入了一个信息量日益增多,信息传播方式多样化的新时代,这是一个可以称为“信息无障碍”的时代,就是使无论健全人还是残疾人,无论年轻人还是老年人都能够从信息技术中获益,任何人在任何情况下都能平等地、方便地、无障碍地获取信息,利用信息。“信息无障碍”又称“信息可达性”,其目标是要使全社会所有的人,包括残障人士、老年人和儿童,具有均等获取或使用信息的机会。现代科技文明发展的成果,应该惠及每一个人。这其中盲人是一个急需要辅助的群体,他们也有对外界信息迫切的渴望。但是现今盲人学习的方式基本都是靠手指触摸盲文来进行看书,这种方式不仅阅读效率低,而且阅读内容的准确性也不高,这对盲人的学习造成十分重大分困难。现有的智能盲人阅读器不能更好的实现印刷体汉字中常用的八种字体(宋体、楷体、隶书、黑体、幼圆、华文行楷、华文新魏、华文舒体)的识别以及实现手写汉字体识别。
因此,现有的盲人阅读器存无法实现印刷体汉字中常用的宋体、楷体、隶书、黑体、幼圆、华文行楷、华文新魏、华文舒体的识别,无法实现手写汉字体识别,阅读效率低、阅读准确率低的缺点。
发明内容
本发明的目的在于,提供了一种智能盲人阅读器***,本发明具有实现印刷体汉字中常用的宋体、楷体、隶书、黑体、幼圆、华文行楷、华文新魏、华文舒体的识别,实现手写汉字体识别,阅读效率高、阅读准确率高的优点。
本发明的技术方案:一种智能盲人阅读方法,通过图像采集模块采集文本的图像信息,由USB分流模块通过通信模块将文本的图像信息上传至云服务器;云服务器采集的图像信息进行预处理、文字分割,文字识别,并将识别结果以文本格式发送给USB分流模块;USB分流模块再发送至中央控制模块,中央控制模块通过语音播报模块的语音处理单元将文本格式的识别结果转化成语音信息,送蓝牙单元,通过蓝牙单元的耳机或者喇叭,将语音播报给阅读者。
前述的智能盲人阅读方法,所述云服务器是通过图像分析***完成图片预处理、文字分割和文字识别。
前述的智能盲人阅读方法,所述的文字识别,是采用文字训练模型完成,使用深度学习中的卷积神经网络作为单个字符识别的训练模型。
前述的智能盲人阅读方法用的智能盲人阅读器***,包括中央控制模块,中央控制模块分别连接有语音播报模块和USB分流模块,USB分流模块通过通信模块与云服务器连接,USB分流模块还连接有图像采集模块。
前述的智能盲人阅读器***,所述语音播报模块包括语音处理单元,语音处理单元连接有蓝牙单元。
前述的智能盲人阅读器***,所述语音合成单元包括串口收发、语音合成和语音输出线路,所述蓝牙单元包括功率放大器和喇叭;串口收发的输入端与中央控制模块的UART3连接,串口收发的输出端通过语音合成与语音输出线路连接,语音输出线路的输出依次通过蓝牙单元的功率放大器和喇叭连接。
前述的智能盲人阅读器***,所述中央控制模块包括主控芯片,主控芯片通过缓存、处理控制单元分别与UART3和UART2连接,UART2连接有预留串口,缓存、处理控制单元还连接有USB.HOST 2.0,USB.HOST 2.0与USB分流模块的上游端口连接。
前述的智能盲人阅读器***,所述USB分流模块包括多端口收发控制单元,多端口收发控制单元分别连接有上游端口,交换、转换、缓存、处理,USB1、USB3和USB2,USB1与图像采集模块的摄像头连接,USB3与图像采集模块的预留接口连接,USB2与通信模块的USB接口连接。
前述的智能盲人阅读器***,所述通信模块包括4G通信芯片,4G通信芯片分别连接有射频天线、SIM卡和USB接口,射频天线与云服务器连接。
本发明的有益效果:与现有技术相比,本发明结合了机器视觉、数字图像处理、深度学习、计算机网络等前沿技术,不仅可以实现印刷体汉字的识别,而且还可以实现宋体、楷体、隶书、黑体等八种字体识别。此外,还可以实现手写汉字体的识别。打破了传统的盲人阅读书籍需要用手指触摸盲人的局限性,具有实现印刷体汉字中常用的宋体、楷体、隶书、黑体、幼圆、华文行楷、华文新魏、华文舒体的识别,实现手写汉字体识别,阅读效率高、阅读准确率高的优点。
附图说明
图1是本发明***的原理框图;
图2是图1中的核心硬件结构框图;
图3是图1中语音播报模块的工作原理图;
图4是图1中通信模块的工作原理图;
图5是图1中USB分流模块的工作原理图;
图6是本发明的运行流程图;
图7是各种字体对应生成的文字图;
图8是CNN实现模型简化图;
图9是文字模型训练网络模型图;
图10是SoftmaxWithLoss层示意图;
图11是正确率与迭代次数的关系图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例。一种智能盲人阅读方法及智能盲人阅读器***,构成如图1~11所示,一种智能盲人阅读方法,通过图像采集模块采集文本的图像信息,由USB分流模块通过通信模块将文本的图像信息上传至云服务器;云服务器采集的图像信息进行预处理、文字分割,文字识别,并将识别结果以文本格式发送给USB分流模块;USB分流模块再发送至中央控制模块,中央控制模块通过语音播报模块的语音处理单元将文本格式的识别结果转化成语音信息,送蓝牙单元,通过蓝牙单元的耳机或者喇叭,将语音播报给阅读者。
所述云服务器是通过图像分析***完成图片预处理、文字分割和文字识别。
所述的文字识别,是采用文字训练模型完成,使用深度学习中的卷积神经网络作为单个字符识别的训练模型。
所述的智能盲人阅读方法用的智能盲人阅读器***,包括中央控制模块,中央控制模块分别连接有语音播报模块和USB分流模块,USB分流模块通过通信模块与云服务器连接,USB分流模块还连接有图像采集模块。
所述语音播报模块包括语音处理单元,语音处理单元连接有蓝牙单元。
所述语音合成单元包括串口收发、语音合成和语音输出线路,所述蓝牙单元包括功率放大器和喇叭;串口收发的输入端与中央控制模块的UART3连接,串口收发的输出端通过语音合成与语音输出线路连接,语音输出线路的输出依次通过蓝牙单元的功率放大器和喇叭连接。
所述中央控制模块包括主控芯片,主控芯片通过缓存、处理控制单元分别与UART3和UART2连接,UART2连接有预留串口,缓存、处理控制单元还连接有USB.HOST 2.0,USB.HOST 2.0与USB分流模块的上游端口连接。
所述USB分流模块包括多端口收发控制单元,多端口收发控制单元分别连接有上游端口,交换、转换、缓存、处理,USB1、USB3和USB2,USB1与图像采集模块的摄像头连接,USB3与图像采集模块的预留接口连接,USB2与通信模块的USB接口连接。
所述通信模块包括4G通信芯片,4G通信芯片分别连接有射频天线、SIM卡和USB接口,射频天线与云服务器连接。
本发明的软件设计部分主要包括云服务器上的程序设计和盲人阅读器前端的程序设计。云服务器上的软件设计主要是对前端采集的图像进行预处理、文字分割,最后利用已训练好的模型完成文字的识别功能,最后将识别结果再发送至前端主控芯片。盲人阅读器前端的程序设计主要包括摄像头的文本图像采集、通信模块对图像的发送和识别结果的接受、语音播报模块对识别结果的播报和按键中断的配置等功能模块的程序的编写。
本发明的实质在于对图像采集模块采集到的文字图像进行识别。文字识别的关键技术在于对采集的图像进行预处理、文字分割和文字识别三个环节,一个环节对图像处理效果不好将会影响最终的识别效果。
图片预处理:
由于需要对图片文字进行切割,所以图片的行和行间距(列和列间距)的灰度值应该差异比较大,并且噪声尽量小,还有就是行与行(列与列)之间不会有重叠,整个文字不会有倾斜和歪曲。因此在图片预处理技术方面主要包括以下5个方面:灰度化、去噪声、倾斜校正和边缘检测以及对比增强。
灰度化:
图像二值化,也称为灰度化,就是在图像上呈现出明显的黑白效果。正如我们上面介绍过,正常的彩色图像是一种具有RGB3通道的空间模型,对于一个像素点我们需要同时给RGB三通道赋值比如(0,0,0)表示黑色才能确定一个颜色,而对于一个颜色我们很难确定RGB分别是什么,并且三通道的数字运算使得在像素级别的处理效率比较低,而如果是灰度图这种单通道图像,我们就能容易的对于一种颜色确定其像素值。
通过二值化处理我们能将图片转换为灰度图片,这样不仅使得处理效率比较高,并且能够确定唯一的颜色像素值从而使得文字行和间隔行的灰度值差距比较明显。
经过处理后,很明显可以看出文字图片只有灰黑两种颜色,基本达到了行与行间距(列与列间距)之前灰度值差异明显。
去噪声:
现实中的数字图像在传输和数字化过程中往往会受到外部环境与成像设备的噪声干扰等影响,称为含噪图像或者噪声图像。减少数字图像中噪声的这个过程称为图像去噪。去噪可以有效的提高图片的识别效果,去噪的方法有很多,比较常用的主要有均值滤波器、自适应维纳滤波器、中值滤波器、小波去噪等等。
本发明去噪使用主要是中值滤波法,中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。
倾斜校正:
在拍照或者其它获取图片的过程中,或多或少会造成图片文字的部分倾斜,为了提高文字按行分割的准确度,进行倾斜校正有着重要的作用,图片倾斜矫正的关键是如何检测出字符倾斜的方向以及角度,而目前常用的倾斜校正算法主要有以下几种:常规线性检测的方法、基于投影的方法、基于Hough变换的方法以及进行傅里叶变换转换到频域进行分析检测等,经过研究以及测试发现对于OCR识别的这类只含有文字、数字、字母等字符的图像使用Hough变换的方法效果最优。
Hough通过生成图像金字塔取最高层图像然后提取图像边缘等一系列的处理步骤能比较精确的检测出图像的倾斜角度和方向然后进行旋转校正,测试结果显示这种算法精确度最高。
对比增强:
对于灰度值分布比较平均的图像,其视觉效果要比其它分布的图像要好,灰度值不平均的体现是在背景色可能灰度值在一个很大的范围之间,而字符色同样也有很大的范围,对于这种现象我们可以通过直方图均衡的办法来进行处理从而凸显字符和背景的对比度。
图像对比度对于图片分割时的效果有着很大的影响,如果文字行相对于行间距的对比度比较强则在检测时就会明显的出现直方图波峰波谷,反之则可能是一个线性上升然后下降的折线,显然像素值如果会有直方图波峰波谷出现比较平滑,我们就很容易在这些地方进行切割。所以采用对比增强处理的目的就是要增强文字行和行间距的灰度值的差异而减小其自身的灰度差异。
对于图片灰度值分布不均匀的图片进行对比度增强的处理对于提高识别效果的作用很明显。
边缘检测:
边缘检测,是用来标记数字图像中亮度变化明显的点,这也是图像处理和计算机视觉中的基本问题,边缘检测在文字识别领域几乎是必不可少的。
图像边缘检测剔除了与识别不相关的信息,通过大幅度地减少了数据量来节约识别时间,并保留了图像重要的结构属性,提升了朗读器识别导入时文字图片进行按行分割的效率。
文字分割:
经过前面的预处理,我们得到了一个对比度增强的二值化图,下面就可以对该图片进行分割了,图片分割主要分为以下几个步骤:读取灰度图并将其二值化、文字行分割、文字列分割、保存为单个jpg小图。
读取灰度图并将其二值化:
图片在内存中主要是以二维矩阵的形式存储的每一个像素点,由于是灰度图所以此时生成的是单通道二维矩阵。二维矩阵保存着图片的颜色信息,颜色值的取值范围是0-255,黑色对应着0,然后白色对应着255,然后中间均匀的分散着递增的颜色值。在Opencv中可以直接调用imread函数把一张图片读取成mat数组灰度图的mat矩阵。
可以很明显的看出大多数数值要么在0-5,要么在250-255。0-5的数值这表示着背景的颜色值,而中间夹杂着的250-255的值,代表着白色字体的颜色值。之所以这样处理是为后续图片的分割做准备。
文字分割,通过分析,现阶段的图像是黑底白字,而黑色的像素值在0-5之间,白字的像素在250-255之间。为了达到分割字符的目的,需要将像素值为0-5的像素归一化为0,将像素值为250-255的像素归一化为255。这样可以利用行像素和的值对图片进行文字的行分割。如果是黑色背景,一行像素和必然为0,如果出现白色字体,一行的像素和必然大于0。利用此算法可以将文字按行分割出来。
保存按行分割的到的每行文字图像,然后利用列像素和的方法将每个字符分割出来(如果是黑色背景,一列像素和必然为0,如果出现白色字体,一列的像素和必然大于0)。利用此方法可能对左右结构的汉字分割成两个部分,因此在分割之前需要对文字图片进行膨胀处理,然后在进行列分割,然后转换成白底黑字效果。
文字识别:
在完成上述图形预处理、文字分割操作后,接下来需要对分割的文字进行识别。
训练数据的获取:
训练一个好的模型需要足够多的数据。在本设计中,完成了英文字符、***数字和常用汉字的识别。其中,英文字符52种(A-Z,a-z)、***数字10种(0-9)、常用汉字3500种,但是汉字存在宋体、黑体等字体,加大了汉字识别的难度(本设计中只对宋体、楷体、隶书、黑体、幼圆、华文行楷、华文新魏、华文舒体进行训练)。训练数据是利用Python编写程序生成的40*40的单个文字图像,每个字体对应的文字生成5张,总共生成142480张图像数据作为训练集,再随机生成28496张图像作为测试集验证模型的可行性。各种字体对应生成的文字如图3所示。
训练模型的选择:
本发明深度学习中的卷积神经网络(Convolutional Neural Network,CNN)作为单个字符识别的训练模型。CNN(图4)是人工神经网络的一种,但是在网络结构上更类似于生物体的神经网络。相比于传统的人工神经网络,卷积神经网络模型一方面可以直接将原始图像进行输入,自动提取图像特征;另一方面CNN模型具有更好的泛化能力,即使当图像发生变形或者存在噪声时也不会对识别结果造成明显的影响;再一方面其通过局部感知野和共享权值的方法降低网络模型的复杂度,但是比传统模型的精确度更高。
训练网络模型借鉴MNIST手写数字识别的网络,但是汉字具有更为复杂和精细的结构,因此在此基础上进行参数设置、网络模型配置等网络参数的调整,使其更适合于汉字训练和识别。训练网络模型如图5所示。
CNN中相邻层之间的神经单元不是全连接,而是部分连接,神经元之间的连接来自上一层的部分神经元。本识别***所采用的CNN模型使用了ReLU激活函数,其属于非饱和激活函数,由于在神经网络进行误差反向传播时,存在梯度消失问题,即每层都要与激活函数的一阶导数相乘,当网络层数较多时,梯度G就会不断衰减直至[0,+∞)消失。在激活函数方面,本设计采用ReLu函数作为激活函数
与传统的sigmoid、tanh函数相比,ReLu函数很大程度上可以提升模型的效果。
为提高模型泛化能力,加入了LRN层(局部响应归一化层)。该层模仿生物神经***的侧抑制机制,对局部神经元的活动创建竞争机制,使得响应比较大的值相对更大,执行一种“侧抑制”操作,对输入数的局部做归一操作,当前层的输出做平滑处理。该层每个输入值都要除以n为局部尺寸大小:local_size,α为缩放因子,β为指数项,默认值为5,做平滑约束的计算公式即为:
网络中的pooling层以max的模式采用重叠池化,即在计算中选取输入数据一定区域的最大值,记录下最大值在每个小区域中的位置,反向传播时,将残差传递到该最大值位置,其他位置置零。残差计算公式为:
设当前层k为卷积层,k+1层为下一层的子采样层,第k层的第j个特征图的残差公式为:
其中,up(x)是将第k+1层的大小扩展与第k层一样。
经过N层卷积层迭代后,在为防止过拟合,在后几层的pooling层和ReLU层加入dropout层,dropout层随机的让一些节点输出置零,也不更新权重,因此可以避免某些特征只在固定的组合下才生效,有意识的让网络去学习一些普遍的共性,而不是某些训练样本的一些特性。
最后的输出层选用SoftmaxWithLoss分类器,如图6所示。SoftmaxWithLoss实际是Multinomial Logistic Loss Layer(交叉熵代价函数)和Softmax Layer的组合。假设样本数量有m个,每个样本特征数量为b,计算这m个样本在n个类上的概率,计算公式为:
将k维的实向量(a1,a2,a3,...,an)映射为(b1,b2,b3,...,bn),然后bi根据的大小来进行多分类任务(取权重最大的一维)。
图像采集模块采用高清摄像头,将待识别图像送入前端,通过卷积神经网络进行前向传播,前向传播基本原理如下:
从输入单元到第一个隐层H1计算为:其中k取值遍历所有输入层节点,Zk是对前一层所有节点的加权和,f(·)为非线性函数,后层以此类推。
输入信息从输入层经隐层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态,对于网络输出与期望输出的误差,用输出层的非线性作用函数。对于输入层到隐层的权值wij则依然采用BP算法更新权重。输入信息从输入层经隐层处理,具体处理方式为:设置初始权值及门限,将它们都设为较小的随机数。经隐层处理后传向输出层按输入新的输入向量和对应的输出向量传播。
在前向传播阶段,数据源起于数据读取层,经过若干处理层,到达最后一层(损失层或者是特征层),在此阶段,网络中的权值不发生变化,网路路径是一个有向无环图(DAG),从最开始的节点出发,经过若干处理层,不存在循环结构,因此数据流会一直向前推进直至终点。
以数据流分析方法对前向传播过程进行研究,即:从输入数据集中取一个样本(X,Y),其中X为数据,Y为标签。将X送入网络,逐层计算,得到相应的网络处理输出O,网络执行的计算用公式表示为:
O=Fn(...(F2(F1(XW1)W2)...)Wn)
其中,Fi,i-1,2,···,n表示非线性变换,Wi,i=1,2,···,n表示各个权值层权值。O为网络输出,可以用(Y,O)评估网络质量,理想的网络满足Y==O。
在汉字数据集的训练过程中,先经过前向传播将输入信息传递至输出层,对网络输出和误差进行修正,最后一层与目标函数比较得到损失函数,计算误差更新值,调整隐层至输出层的连接权值为:wjk=wjk-α(yk-tk)hj,α为学习率。
调整输入层至隐层的连接权值wij=wij-αWjxi,其中
由于图像特征信息较多,数据繁杂,因此训练过程需要反复迭代训练,直到loss收敛,在训练样本的过程中,保持均匀输入,最终能实现较理想的识别率。
在文本分类任务中,要将其分为3562个目标(常用汉字3500个、英文大小写字母52个、***数字10个)。进过充分训练后,网络结构模型随着迭代次数增加可以达到99%以上的精确度(如图7所示),说明这网络模型结构是可取的。
本发明用到的功能模块有中央控制模块、图像采集模块、语音播报模块、通信模块和USB分流模块;
中央控制模块:该模块要实现对整个盲人阅读器各个部分功能单元所采集到的数据和信息进行汇总分析,并根据数据所反映的场景,对各个功能模块发出相应的控制指令。根据对该设计的功能性分析和论证,要求芯片性能高功耗低,适于做手持电子设备,通讯设备或者医疗应用设备,上网本,学习机,监控视频设备和各种人机界面,可以应用于高清游戏,无线GPS导航,移动视频播放,智能控制,仪器仪表,导航设备,PDA设备,远程监控,游戏开发等开发。核心板能够支持HDMI语音和声卡芯片语音同步输出。核心板要求至少满足3个1G(1G主频,1G内存,1GFLASH)的要求,运行频率可达1GHZ,处理器内部为64/32位总线结构。32/32KB一级缓存,512KB二级缓存。自带3D图形加速引擎(SGX540),2D图形加速器,最大支持8192*8192分辨率。视频编码支持MPEG-4/H.263/H.达到1080@30fps,解码MPEG2/VC1/Xvid视频达到1080p@30fps。同时,在本发明中专门为核心板搭载了LINUX PDA操作***,使各个模块运行效率更高、性能更稳定、实时性能更强。智能盲人阅读核心控制硬件结构框图如图2所示。
图像采集模块:在启动了阅读器开关后,选择相应的按键来选择相应的识别模式,通过1300万的摄像头来拍摄清晰的文字图像传送到盲人阅读器的中央控制模块,然后由安装了linux***的主控芯片来对图像进行压缩,在3g/4g模块联网后,在通过SOCKET程序传到服务器,服务器端对文字图像进行识别,生成相应的文本文件,再次传回前端采集***,最后通过语音播报模块进行播报,生成相应的图片。
摄像头采用MJPGE格式压缩图像,MJPEG是指Motion JPEG,即动态JPEG,按照25帧/秒速度使用JPEG算法压缩视频信号,完成动态视频的压缩。其图像格式是对每一帧进行压缩,通常可达到6:1的压缩率,就像每一帧都是独立的图像一样。动态JPEG能产生高质量、全屏、全运动的视频。这样采集出来的图片像素较高并且清晰。
Socket的采用的是tcp传输协议,TCP(传输控制协议)是一种面向连接的网络传输协议。支持多数据流操作,提供流控和错误控制,乃至对乱序到达报文的重新排序,因此,TCP传输提供了可靠的数据传输服务。这样使得数据传输稳定快速。
语音播报模块:语音播报模块包括语音处理芯片(SYN6288)和其他***电路,该语音处理模块的主要功能就是实现使用者与各种功能模块间的人机交互,当使用者使用盲人阅读器时,对采集到的文本信息进行识别后,将得到的文字信息发送给语音播报模块,该模块则需要将得到的数据进行处理,并通过外放喇叭或耳机设备进行播报,告知使用者文字内弄,完成书籍等印刷文字的阅读。其语音处理芯片的***电路原理图如3所示。
通信模块:通信模块为4G通信模块,网络通信功能的实现,利用了4G模块的无线宽带网络接入功能。***移动电话行动通信标准,指的是***移动通信技术,外语缩写:4G。该技术包括TD-LTE和FDD-LTE两种制式,是集3G与WLAN于一体,并能够快速传输数据、高质量、音频、视频和图像等。4G能够以100Mbps以上的速度下载,比目前的家用宽带ADSL(4兆)快25倍,并能够满足几乎所有用户对于无线服务的要求。此外,4G可以在DSL和有线电视调制解调器没有覆盖的地方部署,然后再扩展到整个地区。
4G模块由USB接口与中央控制模块相连,USB主线总线信号为各模块与***之间的通讯接口。根据Linux3.2.0内核的自带的ECM口驱动对ME3760_V2模块进行加载,使用的是ME3760_V2模块的USB口进行连接,在Linux下,ME3760_V2模块的ECM口被映射成5个接口:ECM、\、AT、Modem、Log,其中“\”也属于ECM口的一部分,为防止ECM功能被覆盖,在进行USB串口初始化时应将其过滤,并加载Linux内核的PPP驱动,使其余的接口初始化为USB串口设备,最后用PPP工具拨号连接4G网络。
本发明使用4G通信模块实现盲人阅读器前端与云服务器之间进行双向通信。一是将摄像头采集的文本图像发送至云服务器来完成文字识别,二是云服务器将识别的结果发送至盲人阅读器前端的主控芯片,通过语音播报模块将识别结果实时告知使用者,完成阅读功能。智能盲人阅读器4G通信模块应用电路原理图如图4所示。
USB分流模块:经USB接口与中央控制模块连接的有两部分,一是摄像头,与USB接口一相连;二是4G通信模块,与USB接口二相连。两部分分别经USB分流模块与中央控制模块连接,进行信息交互传输。
FE1.1s是高度集成,高质量,高性能,低能耗,同时还是USB2.0高速4端口集线的低成本解决方案。它采用单个交换转换器(Single Transaction Translator)(STT)构建以便获得更多的效益。六个而不是两个非周期转换缓存以减少潜在的通信干扰。整个设计基于状态机控制,以减小响应的延迟时间;在此芯片中未使用微型控制器。为保障高质量,整个芯片通过测试扫描链(Test Scan Chain)–即使在高速(480MHz)模式下,使所有的逻辑元件在装运前被充分测试。特别是内建自检(Build-In-Self-Test)模式目的在于使用所有的高速,全速,以及低速模式模拟前端端口(AFE)在封装和测试阶段也是如此。低能耗的实现是通过使用0.18μm技术以及集成的电源/时钟控制机制。大部分引脚不需要计时,除非被用到。USB分流模块工作原理图如图5所示。
本发明的工作原理为:图像采集模块采集文本图像信息,送USB分流模块,USB分流模块通过通信模块将文本图像信息上传至云服务器,云服务器利用数字图形处理技术对采集的图像信息进行预处理、文字分割、文字识别处理,再由已训练好的模型完成文字识别功能,并将识别结果以文本格式发送给USB分流模块,USB分流模块再发送给中央控制模块,中央控制模块通过语音播报模块的语音处理单元将文本格式的识别结果转化成语音信息,语音信息送蓝牙单元,通过蓝牙单元的耳机或者喇叭,将语音播报给阅读者。
Claims (9)
1.一种智能盲人阅读方法,其特征在于:通过图像采集模块采集文本的图像信息, 由USB分流模块通过通信模块将文本的图像信息上传至云服务器;云服务器采集的图像信息进行预处理、文字分割,文字识别,并将识别结果以文本格式发送给USB分流模块;USB分流模块再发送至中央控制模块,中央控制模块通过语音播报模块的语音处理单元将文本格式的识别结果转化成语音信息,送蓝牙单元,通过蓝牙单元的耳机或者喇叭,将语音播报给阅读者。
2.根据权利要求1所述的智能盲人阅读方法,其特征在于:所述云服务器是通过图像分析***完成图片预处理、文字分割和文字识别。
3.根据权利要求2所述的智能盲人阅读方法,其特征在于:所述的文字识别,是采用文字训练模型完成,使用深度学习中的卷积神经网络作为单个字符识别的训练模型。
4.根据权利要求1、2或3所述智能盲人阅读方法用的智能盲人阅读器***,其特征在于:包括中央控制模块,中央控制模块分别连接有语音播报模块和USB分流模块,USB分流模块通过通信模块与云服务器连接,USB分流模块还连接有图像采集模块。
5.根据权利要求4所述的智能盲人阅读器***,其特征在于:所述语音播报模块包括语音处理单元,语音处理单元连接有蓝牙单元。
6.根据权利要求5所述的智能盲人阅读器***,其特征在于:所述语音合成单元包括串口收发、语音合成和语音输出线路,所述蓝牙单元包括功率放大器和喇叭;串口收发的输入端与中央控制模块的UART3连接,串口收发的输出端通过语音合成与语音输出线路连接,语音输出线路的输出依次通过蓝牙单元的功率放大器和喇叭连接。
7.根据权利要求4所述的智能盲人阅读器***,其特征在于:所述中央控制模块包括主控芯片,主控芯片通过缓存、处理控制单元分别与UART3和UART2连接, UART2连接有预留串口,缓存、处理控制单元还连接有USB.HOST 2.0,USB.HOST 2.0与USB分流模块的上游端口连接。
8.根据权利要求4所述的智能盲人阅读器***,其特征在于:所述USB分流模块包括多端口收发控制单元,多端口收发控制单元分别连接有上游端口,交换、转换、缓存、处理,USB1、USB3和USB2,USB1与图像采集模块的摄像头连接,USB3与图像采集模块的预留接口连接,USB2与通信模块的USB接口连接。
9.根据权利要求4所述的智能盲人阅读器***,其特征在于:所述通信模块包括4G通信芯片,4G通信芯片分别连接有射频天线、SIM卡和USB接口,射频天线与云服务器连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710739516.1A CN107346629A (zh) | 2017-08-22 | 2017-08-22 | 一种智能盲人阅读方法及智能盲人阅读器*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710739516.1A CN107346629A (zh) | 2017-08-22 | 2017-08-22 | 一种智能盲人阅读方法及智能盲人阅读器*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107346629A true CN107346629A (zh) | 2017-11-14 |
Family
ID=60257562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710739516.1A Pending CN107346629A (zh) | 2017-08-22 | 2017-08-22 | 一种智能盲人阅读方法及智能盲人阅读器*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107346629A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108363522A (zh) * | 2018-04-24 | 2018-08-03 | 石家庄科达文教用品有限公司 | 同步书写***及其方法 |
CN108551575A (zh) * | 2018-06-25 | 2018-09-18 | 汉字造梦(武汉)文化传播有限公司 | 一种测字交互体验***和方法 |
CN108764261A (zh) * | 2018-05-31 | 2018-11-06 | 努比亚技术有限公司 | 一种图像处理方法、移动终端及存储介质 |
CN109062404A (zh) * | 2018-07-20 | 2018-12-21 | 东北大学 | 一种应用于智能儿童早教机的交互***及方法 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、***和电子设备 |
CN110222684A (zh) * | 2019-04-19 | 2019-09-10 | 黑龙江大学 | 一种盲人“读书”*** |
CN110287830A (zh) * | 2019-06-11 | 2019-09-27 | 广州市小篆科技有限公司 | 智能穿戴终端、云端服务器和数据处理方法 |
CN110334712A (zh) * | 2019-06-11 | 2019-10-15 | 广州市小篆科技有限公司 | 智能穿戴终端、云端服务器和数据处理方法 |
CN110705556A (zh) * | 2019-09-18 | 2020-01-17 | 佛山职业技术学院 | 一种盲文转化仪、转化方法及存储介质 |
CN111027345A (zh) * | 2018-10-09 | 2020-04-17 | 北京金山办公软件股份有限公司 | 一种字体识别方法及装置 |
CN111126341A (zh) * | 2019-12-31 | 2020-05-08 | 中山大学新华学院 | 一种盲人服务*** |
CN111814800A (zh) * | 2020-07-24 | 2020-10-23 | 广州广杰网络科技有限公司 | 基于5G+AIoT技术的老人书报阅读器及其使用方法 |
CN114627730A (zh) * | 2022-03-31 | 2022-06-14 | 北京科技大学 | 一种盲文电子书 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077625A (zh) * | 2013-01-30 | 2013-05-01 | 中国盲文出版社 | 一种盲用电子阅读器和助盲阅读方法 |
CN104966084A (zh) * | 2015-07-07 | 2015-10-07 | 北京奥美达科技有限公司 | 一种基于ocr和tts的低视力阅读助视*** |
CN106341549A (zh) * | 2016-10-14 | 2017-01-18 | 努比亚技术有限公司 | 一种移动终端有声阅读装置及方法 |
CN106406445A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 基于智能眼镜的视障辅助中文文本阅读*** |
CN106408038A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 一种基于卷积神经网络模型的旋转汉字识别方法 |
CN106389078A (zh) * | 2016-11-24 | 2017-02-15 | 贵州大学 | 一种智能导盲眼镜***及其导盲方法 |
-
2017
- 2017-08-22 CN CN201710739516.1A patent/CN107346629A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077625A (zh) * | 2013-01-30 | 2013-05-01 | 中国盲文出版社 | 一种盲用电子阅读器和助盲阅读方法 |
CN104966084A (zh) * | 2015-07-07 | 2015-10-07 | 北京奥美达科技有限公司 | 一种基于ocr和tts的低视力阅读助视*** |
CN106406445A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 基于智能眼镜的视障辅助中文文本阅读*** |
CN106408038A (zh) * | 2016-09-09 | 2017-02-15 | 华南理工大学 | 一种基于卷积神经网络模型的旋转汉字识别方法 |
CN106341549A (zh) * | 2016-10-14 | 2017-01-18 | 努比亚技术有限公司 | 一种移动终端有声阅读装置及方法 |
CN106389078A (zh) * | 2016-11-24 | 2017-02-15 | 贵州大学 | 一种智能导盲眼镜***及其导盲方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304814B (zh) * | 2018-02-08 | 2020-07-14 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108363522A (zh) * | 2018-04-24 | 2018-08-03 | 石家庄科达文教用品有限公司 | 同步书写***及其方法 |
CN108764261A (zh) * | 2018-05-31 | 2018-11-06 | 努比亚技术有限公司 | 一种图像处理方法、移动终端及存储介质 |
CN108551575A (zh) * | 2018-06-25 | 2018-09-18 | 汉字造梦(武汉)文化传播有限公司 | 一种测字交互体验***和方法 |
CN109062404B (zh) * | 2018-07-20 | 2020-03-24 | 东北大学 | 一种应用于智能儿童早教机的交互***及方法 |
CN109062404A (zh) * | 2018-07-20 | 2018-12-21 | 东北大学 | 一种应用于智能儿童早教机的交互***及方法 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、***和电子设备 |
CN111027345A (zh) * | 2018-10-09 | 2020-04-17 | 北京金山办公软件股份有限公司 | 一种字体识别方法及装置 |
CN110222684A (zh) * | 2019-04-19 | 2019-09-10 | 黑龙江大学 | 一种盲人“读书”*** |
CN110334712A (zh) * | 2019-06-11 | 2019-10-15 | 广州市小篆科技有限公司 | 智能穿戴终端、云端服务器和数据处理方法 |
CN110287830A (zh) * | 2019-06-11 | 2019-09-27 | 广州市小篆科技有限公司 | 智能穿戴终端、云端服务器和数据处理方法 |
CN110705556A (zh) * | 2019-09-18 | 2020-01-17 | 佛山职业技术学院 | 一种盲文转化仪、转化方法及存储介质 |
CN111126341A (zh) * | 2019-12-31 | 2020-05-08 | 中山大学新华学院 | 一种盲人服务*** |
CN111814800A (zh) * | 2020-07-24 | 2020-10-23 | 广州广杰网络科技有限公司 | 基于5G+AIoT技术的老人书报阅读器及其使用方法 |
CN114627730A (zh) * | 2022-03-31 | 2022-06-14 | 北京科技大学 | 一种盲文电子书 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107346629A (zh) | 一种智能盲人阅读方法及智能盲人阅读器*** | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN106682569A (zh) | 一种基于卷积神经网络的快速交通标识牌识别方法 | |
CN108875708A (zh) | 基于视频的行为分析方法、装置、设备、***及存储介质 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN106778506A (zh) | 一种融合深度图像和多通道特征的表情识别方法 | |
CN108985217A (zh) | 一种基于深度空间网络的交通标志识别方法及*** | |
CN108806792A (zh) | 深度学习面诊*** | |
CN106951867A (zh) | 基于卷积神经网络的人脸识别方法、装置、***及设备 | |
CN107491726A (zh) | 一种基于多通道并行卷积神经网络的实时表情识别方法 | |
CN108052884A (zh) | 一种基于改进残差神经网络的手势识别方法 | |
CN108764195A (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN110458060A (zh) | 一种基于对抗学习的车辆图像优化方法及*** | |
Teixeira et al. | Address-event imagers for sensor networks: evaluation and modeling | |
CN109817276A (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
CN107704859A (zh) | 一种基于深度学习训练框架的文字识别方法 | |
CN104778466B (zh) | 一种联合多种上下文线索的图像关注区域检测方法 | |
CN110490239A (zh) | 图像质控网络的训练方法、质量分类方法、装置及设备 | |
CN108009548A (zh) | 一种智能路牌识别方法及*** | |
CN112419326B (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN110008961A (zh) | 文字实时识别方法、装置、计算机设备及存储介质 | |
CN109086653A (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN110046544A (zh) | 基于卷积神经网络的数字手势识别方法 | |
CN110968235B (zh) | 信号处理装置及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171114 |