CN110765997B

CN110765997B - 一种互动阅读实现方法

Info

Publication number: CN110765997B
Application number: CN201911097147.6A
Authority: CN
Inventors: 江周平
Original assignee: Shenzhen Yikuai Interactive Network Technology Co ltd
Current assignee: Beijing Anxin Zhitong Technology Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-12-26
Anticipated expiration: 2039-11-11
Also published as: CN110765997A

Abstract

本发明公开了一种互动阅读实现方法，包括以下步骤：获得封面页特征库和内容页特征库；预先在印刷品的原始页面形成多媒体内容库；利用硬件阅读笔的图像采集组件采集封面页的局部图像，处理器对局部图像提取到的特征点与封面页特征库进行匹配，获得印刷品信息；利用阅读笔的图像采集组件采集印刷品内容页上感兴趣区域的区域图像进行特征点提取，将提取到特征点与内容页特征库进行匹配，根据匹配结果获得感兴趣区域的位置信息，获取对应位置预置的多媒体文件并进行播放。达到“想读哪里照哪里”的实用效果。本发明无需在书本上预制编码，摆脱了预制编码的局限性，同时能够确保内容播报的准确性。

Description

一种互动阅读实现方法

技术领域

本发明涉及多媒体教育技术领域，特别涉及一种互动阅读实现方法。

背景技术

点读是利用光学图像识别技术和数字语音技术实现的智能阅读和学习方式，它体现了电子多媒体技术与教育行业的完美融合，实现了科技以人为本的理念。

就现有的点读设备而言，通常需要对书本做预先处理，在书本上印制或黏贴特定的编码，否则将无法识别书本内容。另外，由于编码规则的限制，使得总编码数量有限，对于内容较多的书本来说，读识编码的方式就表现出了明显的局限性。

发明内容

本发明的目的在于提供一种互动阅读实现方法，其无需在书本上预制编码，摆脱了因编码局限性对点读内容的限制。

为实现上述目的，本发明采用以下技术方案：

一种互动阅读实现方法，其基于硬件阅读笔实现，所述阅读笔包括笔主体、感应开关组件、光照提示组件及图像采集组件，所述笔主体内设有处理器和存储器，所述感应开关组件设于所述笔主体上且位于笔身位置，所述图像采集组件设于所述笔主体上且位于笔尖位置，所述光照提示组件设于所述笔主体上且位于图像采集组件附近，所述感应开关组件、图像采集组件、光照提示组件及存储器分别连接所述处理器，该方法包括以下步骤：

S1、预先针对印刷品的封面页和内容页分别进行特征点提取，从而获得封面页特征库和内容页特征库，并存储到所述存储器；

S2、预先在印刷品的原始页面以某些特定区域对应某些多媒体文件的方式形成对应区域播放多媒体内容库；

S3、使用阅读笔照射印刷品封面页，图像采集组件采集封面页的局部图像，处理器对局部图像进行特征点提取，将提取到特征点与封面页特征库进行匹配，获得印刷品信息；

S4、使用阅读笔照射印刷品内容页的页码位置，图像采集组件采集到页码图像，处理器对页码图像中的数字进行OCR识别，获得页码信息；本步骤的目的是缩小感兴趣区域在内容页特征库的搜索范围，提高搜索速度和提高检索的精度。

S5、使用阅读笔照射印刷品内容页上感兴趣的区域，操作者手指操作感应开关组件控制图像采集组件采集到感兴趣区域的区域图像，处理器对区域图像进行特征点提取，将提取到特征点与内容页特征库进行匹配，根据匹配结果获得感兴趣区域位置信息，如在没有通过S4缩小搜索范围的前提下能得到明确可信的匹配结果S4步骤可以跳过。

S6、基于S5的位置信息，获取S2中对应位置预置的多媒体文件，并对多媒体文件进行播放。

进一步地，所述步骤S1、S3及S5中的特征点提取通过以下方法实现：

提取尺度不变、旋转不变、亮度变化鲁棒、噪音和视角变化稳定的特征点。

对特征点进行描述，获得特征描述子。

优选地，如阅读笔内置的处理器算力充足则所述的利用关键点检测算法提取特征点具体为：

将原始图像不断降阶采样，得到一系列大小不一的图像，并进一步对这些图像进行不同尺度的高斯滤波，同一图像的相近尺度高斯滤波后两个图像相减，得到高斯差分图像，进行极值检测，满足曲率条件的极值点即为特征点。

如阅读笔内置的处理器算力受限则所述的利用关键点检测算法提取特征点具体为：

步骤一：从图像中选取一点P，以P为圆心画一个半径为3pixel的圆。圆周上如果有连续n个像素点的灰度值比P点的灰度值大或者小，则认为P为特征点。一般n设置为12。为了加快特征点的提取，快速排出非特征点，首先检测1、9、5、13位置上的灰度值，如果P是特征点，那么这四个位置上有3个或3个以上的的像素值都大于或者小于P点的灰度值。如果不满足，则直接排出此点。

步骤二：使用ID3算法训练一个决策树，将特征点圆周上的16个像素输入决策树中，筛选出最优的特征点。

步骤三：非极大值抑制去除局部较密集特征点。

步骤四：设置一个比例因子和金字塔的层数。将原图像按比例因子缩小成多幅图像，多幅不同比例的图像提取特征点总和作为这幅图像的特征点，来实现特征点的尺度不变性。

步骤五：使用矩计算特征点以r为半径范围内的质心，特征点坐标到质心形成一个向量作为该特征点的方向，来实现特征点的旋转不变性。

当阅读笔内置的处理器算力无法满足特征点提取计算需求则使用无线连接的外部处理器进行特征点提取。

优选地，所述步骤S1具体包括以下分步骤：

S11、针对印刷品的封面页，对封面页图像进行特征点提取，然后对特征描述子进行进行哈希变换、排序，并存储到封面页特征库；

S12、针对印刷品的内容页，先将内容页图像其分割成一组图像块，分割方法包括但不限于均匀分割、选定区域分割，然后对图像块进行特征点提取，最后对特征描述子进行哈希变换、排序，并存储到内容页特征库。

优选地，所述步骤S3中的将提取到特征点与封面页特征库进行匹配具体通过以下方法实现：

将所述局部图像上提取到的特征点对应的特征描述子进行哈希变换、排序，然后将其哈希值与封面页特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配；

统计匹配的特征点数量，若大于预先设定的第二阈值，则认定该局部图像与相应的封面页图像匹配。

优选地，所述步骤S5中的将提取到特征点与内容页特征库进行匹配具体通过以下方法实现：

将所述区域图像上提取到的特征点对应的特征描述子进行哈希变换、排序，然后将其哈希值与内容页特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配；

统计匹配的特征点数量，若大于预先设定的第二阈值，则认定该区域图像与相应的图像块匹配。

优选地，所述哈希变换采用局部敏感哈希函数，将多维度特征映射为单一数值，并且满足多维度空间距离远的点对在映射后数值差距大，距离近的点对在映射后数值差距小。

本技术方案的显著特征是在使用过程中，阅读笔与印刷品之间不产生直接物理接触且阅读笔与印刷品之间的距离可变。光照提示组件在使用过程中会使用光照在印刷品上产生人眼可以辨识的指示光点或光斑，对用户选择感兴趣区域起到指示作用。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明基于图像特征点提取与匹配的方式来实现对感兴趣内容区域的识别，无需在书本上预制编码，摆脱了因编码局限性对点读内容的限制。

2、本发明对封面页、页码、感兴趣区域分别进行识别，实现了“书籍-页码-内容位置”的查询方式，识别匹配过程数据处理量小，处理效率高。

3、本发明在特征点提取操作之后，进行了哈希变换、排序处理，降低了数据量，便于提升后续识别匹配步骤的效率。

附图说明

图1为本发明的工作流程示意图；

图2为本发明使用示意图；

图3为本发明内容页的流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本发明公开了的互动阅读实现方法是其基于硬件阅读笔实现。为便于更好的理解本发明，在对互动阅读实现方法进行详细描述之前，先对阅读笔的结构进行阐述。

如图2示意，本发明涉及的硬件阅读笔包括笔主体、感应开关组件、光照提示组件及图像采集组件，笔主体内设有处理器和存储器，当然处理器和存储器也可以使用外部云服务进行增强，感应开关组件设于笔主体的笔身位置，方便用户使用手指操作，图像采集组件设于笔主体上且位于笔尖位置，光照提示组件在图像采集组件附近，感应开关组件、光照提示组件、图像采集组件及存储器分别连接处理器。

阅读笔使用时，用户将硬件悬空在印刷品上，光照提示组件使用光线照射在印刷品上形成光斑来提示用户调整感兴趣区域的位置和范围大小，感应开关组件检测到手指触控信号并传送给处理器，处理器控制图像采集组件进行拍照。在本实施例中，感应开关组件采用电容触控传感器，图像采集组件采用摄像头。

配合图1-3所示，本发明的点读互动实现方法包括以下步骤：

S1、预先针对印刷品的封面页和内容页分别进行特征点提取，从而获得封面页特征库和内容页特征库，并存储到存储器。该步骤具体包括以下分步骤：

S11、针对印刷品的封面页，对封面页图像进行特征点提取，然后对特征描述子进行哈希变换、排序，并存储到封面页特征库。

S12、针对印刷品的内容页，先将内容页图像其分割成一组图像块，每组图像块可以仅包含一张图片，然后对图像块进行特征点提取，最后对特征描述子进行进行哈希变换、排序，并存储到内容页特征库。

S3、使用阅读笔照射刷品封面页，图像采集组件采集封面页的局部图像，处理器对局部图像进行特征点提取，将提取到特征点与封面页特征库进行匹配，获得印刷品信息(即确定了哪一本书籍)。上述的将提取到特征点与封面页特征库进行匹配具体通过以下方法实现：

将局部图像上提取到的特征点对应的特征描述子进行哈希变换、排序，然后将其哈希值与封面页特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配；

S4、使用阅读笔照射印刷品内容页的页码位置，图像采集组件采集到页码图像，处理器对页码图像中的数字进行OCR识别，获得页码信息。本步骤的目的是缩小感兴趣区域在内容页特征库的搜索范围，提高搜索速度和提高检索的精度。

S5、使用阅读笔照射印刷品内容页上感兴趣的区域，图像采集组件采集到感兴趣区域的区域图像，处理器对区域图像进行特征点提取，将提取到特征点与内容页特征库进行匹配，根据匹配结果获得感兴趣区域位置信息。上述的将提取到特征点与内容页特征库进行匹配具体通过以下方法实现：

将区域图像上提取到的特征点对应的特征描述子进行哈希变换、排序，然后将其哈希值与内容页特征库中所存储特征点的哈希值进行比对，若距离小于预先设定的第一阈值，则认定该对特征点匹配；

如在没有通过S4缩小搜索范围的前提下能得到明确可信的匹配结果S4步骤可以跳过。

步骤S1、S3及S5中涉及的特征点提取得目的是提取尺度不变、旋转不变、亮度变化鲁棒、噪音和视角变化稳定的特征点。

在本实施例中，步骤S1、S3及S5中涉及的特征点提取动作在通过以下方法实现：

当阅读笔内置的处理器算力超过算力阈值二时采用如下算法，本实施例定义算力阈值二为200MIPS。

a.图像灰度化处理。由此采集到图像为彩色图像(以RGB三通道彩色图像为例)，需要先进行灰度化处理，以便于后续步骤的执行。在本实施例中，灰度化的计算公式采用：

Gray＝(R*30+G*59+B*11+50)/100

其中，Gray为灰度值。

b.利用关键点检测算法提取特征点。将原始图像不断降阶采样，得到一系列大小不一的图像，并进一步对这些图像进行不同尺度的高斯滤波，同一图像的相近尺度高斯滤波后两个图像相减，得到高斯差分图像，进行极值检测，满足曲率条件的极值点即为特征点。高斯差分图像D(x,y,σ)操作如下，G(x,y,σ)为高斯滤波函数，I(x,y)对应原始图像，L(x,y,σ)表示经过尺度σ的高斯滤波后图像：

D(x，y，σ)＝(G(x，y，σ(s+1))-G(x，y，σ(s)))*I(x，y)

＝L(x，y，σ(s+1))-L(x，y,σ(s))

c.基于直方图统计进行特征点方向识别。在完成特征点的梯度计算后，使用直方图统计邻域内像素的梯度和方向。梯度直方图将0～360度的方向范围分为18个柱(bins)，其中每柱20度。直方图的峰值方向代表了特征点的主方向。L为关键点所在的尺度空间值，每个像素点的梯度m和方向θ计算公式如下：

θ(x，y)＝tan^-1((L(x，y+1)-L(x，y-1))/L(x+1，y)-L(x-1，y)))

对特征点进行描述，获得特征描述子。对特征点确定一个大小为21×21的邻域，旋转这个邻域到主方向；计算邻域内像素点的水平梯度与垂直梯度，这样每个特征点确定了一个大小为19×19×2＝722维的特征描述子；特征点的描述包括坐标、尺度、方向。在此要说明的是，由于获得特征描述子是高维的(本实施例中是722维)，为便于后续处理所以要做降维和哈希变换，本实施例中，采用主成分分析降维方法进行降维处理,降维处理后为20维，通过局部敏感哈希变换后，即图3中的描述子哈希化，将20维的特征描述子映射为1个32位浮点值。PCA的具体操作如下：

先使用大量采集图像的特征数据构造特征矩阵X，求得矩阵X的特征值，特征值按大小排序，并求得特征值对应的特征向量构成变换矩阵W.已有变换矩阵W情况下,对于任意一幅采集图像的特征数据Y，使得Z＝YW^T,原特征矩阵Y通过投影到矩阵Z，高维度的特征矩阵Y缩减为低维度新特征矩阵Z，且新特征是线性无关的。

当阅读笔内置的处理器算力低于算力阈值二且高于算力阈值一时采用如下算法，本实施例定义算力阈值二为200MIPS，算力阈值一为80MIPS。

1.首先构造尺度金字塔；

金字塔共n层，每层仅有一副图像；第s层的尺度为Scale_s＝Factors，Factor初始尺度(默认为1.2)，原图在第0层；

第s层图像大小:

2.在不同尺度上采用检测特征点；

从图像中选取一点P，以P为圆心画一个半径为3pixel的圆。圆周上如果有连续n个像素点的灰度值比P点的灰度值大或者小，则认为P为特征点。一般n设置为12。为了加快特征点的提取，快速排出非特征点，首先检测1、9、5、13位置上的灰度值，如果P是特征点，那么这四个位置上有3个或3个以上的的像素值都大于或者小于P点的灰度值。如果不满足，则直接排出此点。使用ID3算法训练一个决策树，将特征点圆周上的16个像素输入决策树中，筛选出最优的特征点。非极大值抑制去除局部较密集特征点。

3.在本层上按Harris角点响应值排序特征点响应值排序，取前n个特征点，作为本层的特征点；

4.计算每个特征点的主方向(质心法)；

5.旋转每个特征点的Patch到主方向，采用上述步骤3的选取的最优的256对特征点做τ测试，构成256维描述子；

当阅读笔内置的处理器算力低于算力阈值一时，由通过无线连接的外部处理器进行特征点提取。本实施例定义算力阈值一为80MIPS。

上述的算力阈值一和算力阈值二可根据实际应用调整。

哈希变化采用局部敏感哈希函数LSH的具体操作如下：

(1)选取满足(d1,d2,p1,p2)敏感的局部敏感哈希函数；

(2)根据对查找结果的准确率确定哈希表的个数L，每个表内的哈希函数的个数K，以及跟敏感哈希自身有关的参数；

(3)将所有数据经过局部敏感哈希函数哈希到相应的桶内，构成了一个或多个哈希表；

匹配计算距离过程如下：

计算查询特征点的哈希值与数据库中2L个数据之间的距离，距离定义为但不限于两数差的绝对值，小于设定的第二阈值则判定为该特征点对匹配。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种互动阅读实现方法，其特征在于，其基于硬件阅读笔实现，所述阅读笔包括笔主体、感应开关组件、光照提示组件及图像采集组件，所述笔主体内设有处理器和存储器，所述感应开关组件设于所述笔主体上且位于笔身位置，所述图像采集组件设于所述笔主体上且位于笔尖位置，所述光照提示组件设于所述笔主体上且位于图像采集组件附近，所述感应开关组件、图像采集组件、光照提示组件及存储器分别连接所述处理器，该方法包括以下步骤：

S2、预先在印刷品的原始页面以设定的区域对应多媒体文件的方式形成对应区域播放多媒体内容库；

S4、使用阅读笔照射印刷品内容页的页码位置，图像采集组件采集到页码图像，处理器对页码图像中的数字进行OCR识别，获得页码信息；本步骤的目的是缩小感兴趣区域在内容页特征库的搜索范围，提高搜索速度和提高检索的精度；

S5、使用阅读笔照射印刷品内容页上感兴趣的区域，操作者手指操作感应开关组件控制图像采集组件采集到感兴趣区域的区域图像，处理器对区域图像进行特征点提取，将提取到特征点与内容页特征库进行匹配，根据匹配结果获得感兴趣区域位置信息，如在没有通过S4缩小搜索范围的前提下能得到明确可信的匹配结果S4步骤跳过；

S6、基于S5的位置信息，获取S2中对应位置预置的多媒体文件，并对多媒体文件进行播放；

所述步骤S1、S3及S5中的特征点提取通过以下方法实现：

提取尺度不变、旋转不变、亮度变化鲁棒、噪音和视角变化稳定的特征点；

对特征点进行描述，获得特征描述子；

当阅读笔内置处理器算力超过算力阈值二时利用关键点检测算法提取特征点具体为：

将原始图像不断降阶采样，得到一系列大小不一的图像，并进一步对这些图像进行不同尺度的高斯滤波，同一图像的相近尺度高斯滤波后两个图像相减，得到高斯差分图像，进行极值检测，满足曲率条件的极值点即为特征点；

当阅读笔内置的处理器算力低于算力阈值二且超过算力阈值一时所述的利用关键点检测算法提取特征点具体为：

步骤一：从图像中选取一点P，以P为圆心画一个半径为3pixel的圆，圆周上如果有连续n个像素点的灰度值比P点的灰度值大或者小，则认为P为特征点；

步骤二：使用ID3算法训练一个决策树，将特征点圆周上的16个像素输入决策树中，筛选出最优的特征点；

步骤三：非极大值抑制去除局部较密集特征点；

步骤四：设置一个比例因子和金字塔的层数，将原图像按比例因子缩小成多幅图像，多幅不同比例的图像提取特征点总和作为这幅图像的特征点，来实现特征点的尺度不变性；

步骤五：使用矩计算特征点以r为半径范围内的质心，特征点坐标到质心形成一个向量作为该特征点的方向，来实现特征点的旋转不变性；

所述步骤S1具体包括以下分步骤：

S11、针对印刷品的封面页，对封面页图像进行特征点提取，然后对特征描述子进行哈希变换、排序，并存储到封面页特征库；

S12、针对印刷品的内容页，先将内容页图像其分割成一组图像块，分割方法包括均匀分割及选定区域分割，然后对图像块进行特征点提取，最后对特征描述子进行哈希变换、排序，并存储到内容页特征库；

所述步骤S3中的将提取到特征点与封面页特征库进行匹配具体通过以下方法实现：

统计匹配的特征点数量，若大于预先设定的第二阈值，则认定该局部图像与相应的封面页图像匹配；

所述步骤S5中的将提取到特征点与内容页特征库进行匹配具体通过以下方法实现：

2.如权利要求1所述的一种互动阅读实现方法，其特征在于，所述步骤S3、S4及S5中的图像采集步骤中阅读笔与印刷品之间不产生直接物理接触且阅读笔与印刷品之间的距离可变。

3.如权利要求1所述的一种互动阅读实现方法，其特征在于，所述光照提示组件在使用过程中会使用光照在印刷品上产生人眼辨识的指示光点或光斑，对用户选择感兴趣区域起到指示作用。

4.如权利要求1所述的一种互动阅读实现方法，其特征在于，所述处理器为笔主体内置处理器，或通过无线连接的外部具有计算能力的处理器。

5.如权利要求1所述的一种互动阅读实现方法，其特征在于，所述步骤S1中的特征库存储在笔主体内置的存储设备中，或存储在外部存储设备。

6.如权利要求1所述的一种互动阅读实现方法，其特征在于，步骤S2、S6中的所述的多媒体文件存储在笔主体内置的存储设备中，或存储在外部存储设备中。

7.如权利要求1所述的一种互动阅读实现方法，其特征在于，步骤S6中的所述对多媒体文件进行播放利用集成在阅读笔的显示屏或扬声器进行播放，或通过阅读笔具有的WIFI或者蓝牙功能，连接外部智能终端并利用外部智能终端的屏幕、扬声器进行播放，或利用集成在阅读笔上的投影装置进行播放。

8.如权利要求1所述的一种互动阅读实现方法，其特征在于，当阅读笔内置的处理器算力低于算力阈值算力一时所述的利用关键点检测算法提取特征点具体为：

使用无线连接的外部处理器进行特征点提取。