CN104933068A - 一种信息搜索的方法和装置 - Google Patents

一种信息搜索的方法和装置 Download PDF

Info

Publication number
CN104933068A
CN104933068A CN201410103798.2A CN201410103798A CN104933068A CN 104933068 A CN104933068 A CN 104933068A CN 201410103798 A CN201410103798 A CN 201410103798A CN 104933068 A CN104933068 A CN 104933068A
Authority
CN
China
Prior art keywords
target text
region
witness marker
subimage
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410103798.2A
Other languages
English (en)
Inventor
杜志军
张宇
王卫星
秦剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410103798.2A priority Critical patent/CN104933068A/zh
Publication of CN104933068A publication Critical patent/CN104933068A/zh
Priority to HK15111888.5A priority patent/HK1211018A1/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种信息搜索的方法和装置,其中方法包括:启动包含定位标志的拍摄预览界面;获取用户拍摄的图像;确定利用定位标志从用户拍摄的图像中提取的目标文字区域;确定对目标文字区域进行文字识别后的识别结果;获取利用所述识别结果进行搜索的搜索结果。在本申请中采用定位标识和文字识别技术,能够将用户拍摄的感兴趣的文本自动识别后进行搜索,无需用户手工输入文本,简化了用户操作也提高了搜索效率,带来了更好的用户体验。

Description

一种信息搜索的方法和装置
【技术领域】
本申请涉及计算机应用技术领域,特别涉及一种信息搜索的方法和装置。
【背景技术】
随着互联网技术的迅猛发展,网络搜索已经逐渐成为人们最常使用的信息获取方式之一。然而,传统PC上的搜索操作借助鼠标和键盘很容易实现,但在诸如智能手机、PDA、平板电脑等智能设备上实现一个搜索过程相对困难很多,选择搜索框并输入文字变得很繁琐且效率低下。因此语音输入法成为目前的一个流行方式,但语音识别准确率有限,在一些公共的场合用户也可能不愿意在人群中自言自语。
【发明内容】
有鉴于此,本申请提供了一种信息搜索的方法和装置,以便于简化用户操作,提高搜索效率。
具体技术方案如下:
本申请提供了一种信息搜索的方法,该方法包括:
启动包含定位标志的拍摄预览界面;
获取用户拍摄的图像;
确定利用定位标志从用户拍摄的图像中提取的目标文字区域;
确定对目标文字区域进行文字识别后的识别结果;
获取利用所述识别结果进行搜索的搜索结果。
根据本申请一优选实施方式,所述包含定位标志的拍摄预览界面采用在拍摄界面上叠加绘制有定位标志的画布界面的方式形成。
根据本申请一优选实施方式,所述确定利用定位标志从用户拍摄的图像中提取的目标文字区域包括:
利用定位标志从用户拍摄的图像中提取目标文字区域;或者,
将所述用户拍摄的图像和定位标志的位置发送给服务器端,接收服务器端利用定位标志从用户拍摄的图像中提取目标文字区域后返回的提取结果。
根据本申请一优选实施方式,所述利用定位标志从用户拍摄的图像中提取目标文字区域包括:
利用定位标志的位置获取子图像;
对所述子图像进行二值化处理;
将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用所述定位标志的位置确定目标文字行区域;
将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域,并利用所述定位标志的位置确定目标文字区域。
根据本申请一优选实施方式,如果所述定位标志为横线,则所述利用定位标志的位置获取子图像包括:从横线位置开始向上下分别扩展N像素作为子图像的上下边界;将整个图像的宽度作为子图像的宽度,或者将横线的左端点向左扩展M个像素作为子图像的左边界,将横线的右端点向右扩展M个像素作为子图像的右边界,所述N和M为预设的正整数。
根据本申请一优选实施方式,如果所述定位标志为方框,则所述利用定位标志的位置获取子图像包括:将方框内的图像作为子图像。
根据本申请一优选实施方式,所述将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域包括:将二值化处理后的子图像进行横向投影后,将横向投影值的低谷值点作为各文字行区域的分割处;
所述将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域包括:将目标文字行区域进行纵向投影后,将纵向投影值的低谷值点作为各文字区域的分割处。
根据本申请一优选实施方式,如果所述定位标志为横线,则利用所述定位标志的位置确定目标文字行区域包括:将横线在横向上的位置所落的文字行区域作为目标文字行区域。
根据本申请一优选实施方式,如果所述定位标志为方框,则利用所述定位标志的位置确定目标文字行区域包括:
将完整落在方框上下边界内的文字行区域作为目标文字行区域;或者,
将方框上下边界在横向上的位置所落的文字行区域以及完整落在方框上下边界内的文字行区域作为目标文字行区域;或者,
将靠近方框内部中间位置的文字行区域作为目标文字行区域。
根据本申请一优选实施方式,如果所述定位标志为横线,则利用所述定位标志的位置确定目标文字区域包括:将横线在纵向上的位置所落的文字区域作为目标文字区域。
根据本申请一优选实施方式,如果所述定位标志为方框,则利用所述定位标志的位置确定目标文字区域包括:将完整落在方框左右边界内的文字区域作为目标文字区域;或者,
将方框左右边界在纵向上的位置所落的文字区域以及完整落在方框左右边界内的文字区域作为目标文字区域。
根据本申请一优选实施方式,利用所述识别结果进行搜索包括:
将识别出的目标文字作为搜索词进行搜索;或者,
从识别出的目标文字中提取关键词,将提取的关键词作为搜索词进行搜索。
本发明本申请还提供了一种信息搜索的装置,该装置包括:
拍摄启动单元,启动包含定位标志的拍摄预览界面;
图像获取单元,通过所述拍摄预览界面获取用户拍摄的图像;
区域提取单元,确定利用所述定位标志从所述用户拍摄的图像中提取的目标文字区域;
文字识别单元,确定对所述目标文字区域进行文字识别后的识别结果;
结果获取单元,获取利用所述识别结果进行搜索的搜索结果。
根据本申请一优选实施方式,所述拍摄启动单元,在拍摄预览界面上叠加绘制有定位标志的画布界面。
根据本申请一优选实施方式,所述区域提取单元具体包括:
子图像获取子单元,利用定位标志的位置获取子图像;
二值化处理子单元,对所述子图像进行二值化处理;
文字行区域确定子单元,将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用所述定位标志的位置确定目标文字行区域;
文字区域确定子单元,将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域,并利用所述定位标志的位置确定目标文字区域。
由以上技术方案可以看出,在本申请中采用定位标识和文字识别技术,能够将用户拍摄的感兴趣的文本自动识别后进行搜索,无需用户手工输入文本,简化了用户操作也提高了搜索效率,带来了更好的用户体验。
【附图说明】
图1为本申请实施例一提供的信息搜索方法的流程图;
图2为本申请实施例二提供的信息搜索方法的流程图;
图3a为实施例二提供的一个拍摄预览界面示意图;
图3b为由图3a所示拍摄预览界面所获取图像的子图像示意图;
图3c为由图3a所示拍摄预览界面所获取图像的另一个子图像示意图;
图3d为由图3c所示子图像确定出的目标文字行区域示意图;
图3e为由图3c所示子图像确定出的目标文字区域示意图;
图4为本申请实施例三提供的信息搜索方法的流程图;
图5a为本申请实施例三提供的一个拍摄预览界面示意图;
图5b为由图5a所示拍摄预览界面所获取图像的子图像示意图;
图5c为由图5b所示子图像确定出的目标文字行区域示意图;
图5d为由图5b所示子图像确定出的目标文字区域示意图;
图6为本申请实施例四提供的装置结构图。
【具体实施方式】
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
鉴于视觉识别技术的不断发展,在此搜索技术也能够基于视觉识别来实现,本申请在搜索技术中引入视觉识别,通过文字识别技术从用户所拍摄图片中的文本中提取目标文字,从而实现基于该目标文字的搜索。本申请提供的方法和装置在具有内置摄像头的智能设备中实现。下面通过几个实施例对本申请提供的方法进行详细描述。
实施例一、
图1为本申请实施例一提供的信息搜索方法的流程图,如图1中所示,该方法可以包括以下步骤:
步骤101:启动包含定位标志的拍摄预览界面。
当本申请实施例提供的方法被触发时,开始执行本步骤。通常情况下,本申请实施例提供的方法以智能设备中的APP或者客户端的运行来实现,当该APP或者客户端被用户打开时,触发该方法的执行,或者当该APP或者客户端被用户打开并点击该APP或客户端上的某个功能按钮时,触发该方法的执行。即启动智能设备的摄像头,在拍摄预览界面中包含有定位标志。
该定位标志可以采用在拍摄预览界面上叠加绘制有定位标志的画布界面来形成,其中定位标志可以采用但不限于:直线段、波浪线、特殊标志串、封闭框等等。
另外,拍摄预览界面可以占据整个智能设备的显示屏,也可以仅占据智能设备显示屏的一部分。
步骤102:获取用户拍摄的图像。
当用户对某条文字感兴趣时,可以将摄像头对准该条文字,利用拍摄预览界面中的定位标志来定位该条文字并进行拍摄。
另外,为了更方便用户对准感兴趣的文字,在步骤101中拍摄预览界面中包含的定位标志可以根据用户的操作进行移动和大小的变动,也就是说,用户可以在拍摄预览界面上对定位标志进行诸如拖动、拉伸、缩小等操作。当用户对定位标志进行拖动时,随着用户的拖动操作将定位标志置于用户拖动至的位置。当用户对定位标志进行拉伸时,随着用户的拉伸操作(该拉伸操作可以采用诸如双指向背离方向移动的方式)将定位标志的大小显示成拉伸幅度所对应的大小。当用户对定位标志进行缩小时,随着用户的缩小操作(该缩小操作可以采用诸如双指向相对方向移动的方式)将定位标志的大小显示成缩小幅度所对应的大小。
步骤103:确定利用定位标志从用户拍摄的图像中提取的目标文字区域。
由于用户在拍摄过程中是利用定位标志来定位用户感兴趣的文字,即目标文字,因此在获取到用户拍摄的图像时,为了确定目标文字首先要利用定位标志从用户拍摄的图像中提取目标文字区域,该提取的处理可以在智能设备端实现,也可以在服务器端实现。如果在服务器端实现,则需要智能设备将用户拍摄的图像和定位标志的位置信息发送给服务器,由服务器提取目标文字区域后返回给智能设备。
提取目标文字区域可以具体执行:利用定位标志的位置获取子图像,对子图像进行二值化处理;将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用定位标志的位置确定目标文字行区域;将目标文字行区域进行纵向投影,确定目标文字行区域内的各文字区域,并利用定位标志的位置确定目标文字区域。具体的过程将在后续实施例二和实施例三中举例详细描述。
步骤104:确定对目标文字区域进行文字识别后的识别结果。
在确定出目标文字区域后,需要将图像转化为文本,即通过文字识别的方式识别出目标文字。其中对目标文字区域进行文字识别可以在智能设备端实现,也可以在服务器端实现。如果在服务器端实现,则智能设备将目标文字区域发送给服务器,由服务器进行文字识别后将识别结果返回给智能设备。如果步骤103中提取目标文字区域的处理也在服务器端,且该服务器与文字识别的服务器为一台服务器,则可以在该服务器提取出目标文字区域并进行文字识别后,再将识别结果返回给智能设备。
文字识别可以采用已有技术实现,常见的文字识别方法诸如模板匹配法、几何特征抽取法等。模板匹配法是将待识别文字与给定的各类别标准文字模板进行相关性匹配,计算待识别文字与各模板之间的相似性程度,取相似度最大的模板对应的类别作为识别结果。几何特征抽取法是抽取待识别文字的一些几何特征,例如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。鉴于该部分内容为已有技术,在此不做详细描述。
步骤105:获取利用识别出的目标文字进行搜索的搜索结果。
其中利用识别出的目标文字进行搜索的搜索结果由服务器端完成,即智能设备将识别出的目标文字发送给服务器,服务器利用该目标文字进行搜索后,将搜索结果返回给智能设备进行显示。
需要说明的是,利用目标文字进行的搜索可以是直接将识别出的目标文字作为搜索词进行搜索,例如识别出的目标文字为“蜂蜜柚子茶”,则将该目标文字作为搜索词进行搜索。
但在很多情况下,由于用户进行拍摄时的操作问题目标文字可能是一句话或者是包含多个词语的文本,但用户可能仅仅需要对其中一个词语进行搜索,例如识别出的目标文字为“蜂蜜柚子茶真是好喝呀”,但实际上用户想搜索的仅仅是其中的“蜂蜜柚子茶”,这种情况下可以是从目标文字中进一步提取关键词,将提取的关键词作为搜索词进行搜索。在提取关键词时可以采用但不限于以下方式:
第一种方式:基于搜索频率的方式,将目标文字中搜索频率最高的词语作为关键词。这种方式中,需要预先对各词语的搜索频率进行统计,通常搜索频率高的热门词语满足用户搜索需求的概率越高,因此可以将搜索频率最高的词语作为关键词。
第二种方式:基于词性的方式,将目标文字中满足预设词性要求的词语作为关键词,最多的情况是将其中的名词作为关键词进行搜索,更具体地,可以将其中的命名实体作为关键词进行搜索,例如将其中的人名、商品名、商铺名、机构名、地名等等作为关键词进行搜索。
第三种方式:基于句子成分的方式,将目标文字中满足预设句子成分要求的词语作为关键词,例如将其中作为主语或者宾语的词语作为关键词进行搜索。
第四种方式:根据用户编辑的方式。在本申请实施例中可以将识别出的目标文字提供给用户,用户可以对该目标文字进行删除或修改等编辑操作,将用户对目标文字的编辑结果作为关键词进行搜索。
服务器进行的搜索可以是普通的大搜索,也可以是垂直类搜索,例如在商品信息库中进行的搜索,在地理数据库中进行的搜索,在新闻数据库中进行的搜索等等。
另外,服务器在向智能终端返回搜索结果时,可以先返回前N条搜索结果,N为预设的正整数。当获取到用户想要更多浏览需求的操作时,例如用户在屏幕上向下滑动、下拉或者点击“更多”按钮等,再向智能终端返回更多的搜索结果。
实施例二、
图2为本申请实施例二提供的信息搜索方法的流程图,在本实施例中以一条横线作为定位标志为例,假设该方法用于进行商品比价,如图2中所示,该方法可以包括以下步骤:
步骤201:启动拍摄预览界面,该拍摄预览界面上绘制有一条横线。
在本申请实施例中以一条横线作为定位标志,当用户对某条文字感兴趣时,可以将摄像头对准该条文字,将横线压在感兴趣的文字上并进行拍摄,如图3a中所示,假设用户在报纸上看到一篇关于健康饮品的报道,对其中的蜂蜜柚子茶感兴趣,也想买一罐,则该用户就可以将摄像头对准报纸上的该篇报道,将拍摄预览界面上的横线压在“蜂蜜柚子茶”上,然后触发快门键启动拍摄。当然除了通过触发快门键进行拍摄之外,还可以采用其他方式启动拍摄,例如如果超过一定时间定位标志不再移动,则启动拍摄。
在本步骤中,用户还可以通过对拍摄预览界面上的横线进行拖动、拉伸、缩小等操作,对横线进行位置的移动和长度的变动。
步骤202:获取用户拍摄的图像。
此时用户获取到的图像就是如图3a中所示的在触发快门键时拍摄预览界面中的图像。
步骤203-1:从横线位置开始向上下扩展N像素以获取子图像。
从本步骤开始至步骤203-5为利用横线的位置从用户拍摄的图像中提取目标文字区域的过程。
本步骤首先是从用户拍摄的图像中截取包含目标文字的子图像,在本申请实施例中采用的方式是从横线位置开始向上下扩展N像素,通常该N值的设置会保证获取的子图像至少包含一行文字,N为预设的正整数,N值通常采用经验值,例如取200。至于子图像的左右边界可以采用整个图像的宽度,也可以采用横线的两个端点分别向左和向右扩展M个像素的位置,同样M可以采用经验值。
仍以图3a为例,假设采用从横线的位置向上下扩展200像素作为子图像的上下边界,从横线的左端点向左扩展200像素作为子图像的左边界,从横线的右端点向右扩展200像素作为子图像的右边界,可以得到如图3b所示的子图像。如果采用从横线的位置分别向上下扩展200像素作为子图像的上下边界,将整个图像的左右边界作为子图像的左右边界,那么可以得到如图3c所示的子图像。
步骤203-2:对子图像进行二值化处理。
所谓图像的二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果,二值化是图像处理的基本操作,在本步骤中可以采用现有技术中的任意二值化方法,诸如全局二值化方法、局部自适应二值化方法等,在此不做具体限制。
步骤203-3:将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域。
所谓横向是指与文字行方向一致的方向,所谓纵向指的是与文字行方向垂直的方向。由于子图像进行二值化后,每个像素的值就是1或者0,所谓投影值就是投影点上像素值为1的数目,对于横向投影而言,就是确定横向一行像素值为1的数目。
依据文字行的结构特点,横向投影值的分布状况为:在出现低谷值后投影值又上升,然后又出现低谷值后投影值又上升。其中低谷值通常为文字行与文字行之间的空白间隔,因此可以将横向投影值的低谷值点作为各文字行区域的分割处。
由于子图像内可能恰好仅存在一个文字行,也可能存在多个文字行,通过本步骤的处理就能够将各文字行区域进行分割。
步骤203-4:将横线在横向上的位置所落的文字行区域作为目标文字行区域。
本步骤较容易理解,如果子图像内存在多个文字行区域,就需要确定出目标文字行区域,实际上也就是横线所落的文字行区域,是依靠横线在横向上的位置确定的。
步骤203-5:将目标文字行区域进行纵向投影,确定目标文字行区域内的各文字区域,将横线在纵向上的位置所落的文字区域作为目标文字区域。
本步骤与上述在横向投影和确定目标文字行区域的原理类似,进行纵向投影后,可以将纵向投影值的低谷值点作为各文字区域的分割处,将横线在纵向上的位置所落的文字区域作为目标文字区域。
以图3c所示的子图像为例,在步骤203-4之后能够确定出目标文字行区域如图3d所示,在步骤203-5之后能够确定出目标文字区域如图3e所示。
步骤204同实施例一中步骤104,不再赘述。
步骤205:获取利用识别出的目标文字进行商品信息搜索的搜索结果。
在本实施例中,可以利用识别出的目标文字,例如“蜂蜜柚子茶”到商品信息数据库中进行搜索,从而得到搜索结果。这里的商品信息可以包括但不限于:该商品的商铺信息、价格信息、商品介绍信息、是否有优惠、价格趋势信息等等,从而提供给用户进行参考、比价等。
实施例三、
图4为本申请实施例三提供的信息搜索方法的流程图,在本实施例中以方框作为定位标志为例,假设该方法用于进行商品比价,如图4中所示,该方法可以包括以下步骤:
步骤401:启动拍摄预览界面,该拍摄预览界面上绘制有一个方框。
在本申请实施例中以一个方框作为定位标志,当用户对某条文字感兴趣时,可以将摄像头对准该条文字,将方框框住感兴趣的文字并进行拍摄,如图5a中所示,假设用户在报纸上看到一篇关于健康饮品的报道,对其中的蜂蜜柚子茶感兴趣,也想买一罐,则该用户就可以将摄像头对准报纸上的该篇报道,将拍摄预览界面上的方框框在“蜂蜜柚子茶”上,然后触发快门键启动拍摄。当然除了通过触发快门键进行拍摄之外,还可以采用其他方式启动拍摄,例如如果超过一定时间定位标志不再移动,则启动拍摄。
本步骤中,用户还可以通过对拍摄预览界面上的方框进行拖动、拉伸、缩小等操作,对方框进行位置的移动和大小的变动。
步骤402:获取用户拍摄的图像。
步骤403-1:将方框内的图像作为子图像。
从本步骤开始至步骤403-5为利用方框的位置从用户拍摄的图像中提取目标文字区域的过程。
步骤403-2~403-3同步骤203-2~203-3,不再赘述。
步骤403-4:将完整落在方框上下边界内的文字行区域作为目标文字行区域。
在步骤403-3之后能够确定出子图像中的各文字行区域,在此确定目标文字行区域时,可以采用将完整落在方框上下边界内的文字行区域作为目标文字行区域,仍以图5a所示为例,在经过步骤402之后确定的子图像如图5b所示,在步骤403-4之后确定的目标文字行区域如图5c所示。当然,也可以采用其他策略来确定目标文字行区域,例如将方框上下边界在横向上的位置所落的文字行区域以及完整落在方框上下边界内的文字区域作为目标文字区域,再例如将靠近方框内部中间位置的文字行区域作为目标文字行区域,等等。
步骤403-5:将目标文字行区域进行纵向投影,确定目标文字行区域内的各文字区域,将完整落在方框左右边界内的文字区域作为目标文字区域。
本步骤与上述在横向投影和确定目标文字行区域的原理类似,进行纵向投影后,可以将纵向投影值的低谷值点作为各文字区域的分割处,将完整落在方框左右边界内的文字区域作为目标文字区域,例如将图5c所示的目标文字行区域执行本步骤后,确定出的目标文字区域如图5d中所示。当然,也可以采用其他策略来确定目标文字区域,例如将方框左右边界在纵向上的位置所落的文字区域以及完整落在方框左右边界内的文字区域作为目标文字区域。
步骤404~405同实施例二中步骤204~205,不再赘述。
以上是对本申请所提供的方法进行的详细描述,下面结合实施例四对本申请提供的装置进行详细描述。
实施例四、
图6为本申请实施例四提供的装置结构图,如图6中所示,该装置可以包括:拍摄启动单元00、图像获取单元10、区域提取单元20、文字识别单元30和结果获取单元40。
其中,拍摄启动单元00负责启动包含定位标志的拍摄预览界面。通常情况下,本申请所提供的装置以客户端或者APP的形式实现,当该客户端或者APP被打开或者打开后用户点击某个功能按钮时,触发拍摄启动单元00启动拍摄预览界面,在拍摄预览界面上绘制有定位标志,该定位标志是通过在拍摄预览界面上叠加绘制有定位标志的画布界面形成的。其中,定位标志可以采用但不限于:直线段、波浪线、特殊标志串、封闭框等等。另外,拍摄预览界面可以占据整个智能设备的显示屏,也可以仅占据智能设备显示屏的一部分。
当用户对某条文字感兴趣时,可以将摄像头对准该条文字,利用拍摄预览界面中的定位标志来定位该条文字并进行拍摄,图像获取单元10获取用户拍摄的图像。
由于用户在拍摄过程中是利用定位标志来定位用户感兴趣的文字,即目标文字,因此在获取到用户拍摄的图像时,为了确定目标文字,区域提取单元20需要确定利用定位标志从用户拍摄的图像中提取的目标文字区域。该提取的处理可以在智能设备端实现,也可以在服务器端实现。如果在智能设备端实现,则区域提取单元20利用定位标志从用户拍摄的图像中提取目标文字区域。如果在服务器端实现,则区域提取单元20将用户拍摄的图像和定位标志的位置发送给服务器端,接收服务器端利用定位标志从用户拍摄的图像中提取目标文字区域后返回的提取结果。
如果提取目标文字区域的功能在智能设备端实现,则区域提取单元20具体包括:子图像获取子单元21、二值化处理子单元22、文字行区域确定子单元23和文字区域确定子单元24。
其中,子图像获取子单元21利用定位标志的位置获取子图像;二值化处理子单元22对子图像进行二值化处理;文字行区域确定子单元23将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用定位标志的位置确定目标文字行区域;文字区域确定子单元24将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域,并利用定位标志的位置确定目标文字区域。
下面分别以定位标志为横线和方框作为优选实施方式,对区域提取单元20的具体实现进行详细描述。
如果定位标志为横线,则子图像获取子单元21从横线位置开始向上下分别扩展N像素作为子图像的上下边界;可以将整个图像的宽度作为子图像的宽度,也可以将横线的左端点向左扩展M个像素作为子图像的左边界,将横线的右端点向右扩展M个像素作为子图像的右边界,N和M为预设的正整数,通常取经验值。然后二值化处理子单元22对子图像进行二值化处理。文字行区域确定子单元23将二值化处理后的子图像进行横向投影后,将横向投影值的低谷值点作为各文字行区域的分割处,再将横线在横向上的位置所落的文字行区域作为目标文字行区域。然后文字区域确定子单元24将目标文字行区域进行纵向投影后,将纵向投影值的低谷值点作为各文字区域的分割处,再将横线在纵向上的位置所落的文字区域作为目标文字区域。
如果定位标志为方框,则子图像获取子单元21将方框内的图像作为子图像。然后二值化处理子单元22对子图像进行二值化处理。文字行区域确定子单元23将二值化处理后的子图像进行横向投影后,将横向投影值的低谷值点作为各文字行区域的分割处,再将完整落在方框上下边界内的文字行区域作为目标文字行区域,或者,将方框上下边界在横向上的位置所落的文字行区域以及完整落在方框上下边界内的文字行区域作为目标文字行区域,或者,将靠近方框内部中间位置的文字行区域作为目标文字行区域,等等。接着,文字区域确定子单元24将目标文字行区域进行纵向投影后,将纵向投影值的低谷值点作为各文字区域的分割处,再将完整落在方框左右边界内的文字区域作为目标文字区域,或者,将方框左右边界在纵向上的位置所落的文字区域以及完整落在方框左右边界内的文字区域作为目标文字区域,等等。
然后由文字识别单元30确定对目标文字区域进行文字识别后的识别结果。同样,文字识别的处理可以在智能终端实现,也可以在服务器端实现,如果在智能终端实现,则文字识别单元30对目标文字区域进行文字识别。如果在服务器端实现,则文字识别单元30将目标文字区域发送给服务器端,接收服务器端对目标文字区域进行文字识别后返回的识别结果。
最后结果获取单元40获取利用识别出的目标文字进行搜索的搜索结果,该搜索的处理由服务器端实现,结果获取单元40负责将目标文字发送给服务器端,接收服务器端在搜索后返回的搜索结果。服务器端进行的搜索可以是普通的大搜索,也可以是垂直类搜索,例如在商品信息库中进行的搜索,在地理数据库中进行的搜索,在新闻数据库中进行的搜索等等。
另外,利用目标文字进行的搜索可以是直接将识别出的目标文字作为搜索词进行的搜索,也可以进一步从目标文字中提取出关键词,将关键词作为搜索词提供给服务器端进行搜索。后一种情况下,结果获取单元40可以具体包括:关键词提取子单元41和网络端交互子单元42。
关键词提取子单元41采用以下方式中的至少一种从目标文字中提取关键词:
第一种方式:基于搜索频率的方式,将目标文字中搜索频率最高的词语作为关键词。这种方式中,需要预先对各词语的搜索频率进行统计,通常搜索频率高的热门词语满足用户搜索需求的概率越高,因此可以将搜索频率最高的词语作为关键词。
第二种方式:基于词性的方式,将目标文字中满足预设词性要求的词语作为关键词,最多的情况是将其中的名词作为关键词进行搜索,更具体地,可以将其中的命名实体作为关键词进行搜索,例如将其中的人名、商品名、商铺名、机构名、地名等等作为关键词进行搜索。
第三种方式:基于句子成分的方式,将目标文字中满足预设句子成分要求的词语作为关键词,例如将其中作为主语或者宾语的词语作为关键词进行搜索。
第四种方式:根据用户编辑的方式。在本申请实施例中可以将识别出的目标文字提供给用户,用户可以对该目标文字进行删除或修改等编辑操作,将用户对目标文字的编辑结果作为关键词进行搜索。
网络端交互子单元42将关键词发送给服务器端,接收服务器端利用关键词进行搜索后返回的搜索结果。
由以上描述可以看出,本申请提供的方法和装置具备以下优点:
1)在本申请中采用定位标识和文字识别技术,能够将用户拍摄的感兴趣的文本自动识别后进行搜索,无需用户手工输入文本,简化了用户操作也提高了搜索效率,带来了更好的用户体验。
2)相比较语音识别,文字识别技术具有更高的准确率,同时也避免了用户在公共场合因语音输入的需要而不得不自言自语的尴尬。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (15)

1.一种信息搜索的方法,其特征在于,该方法包括:
启动包含定位标志的拍摄预览界面;
获取用户拍摄的图像;
确定利用定位标志从用户拍摄的图像中提取的目标文字区域;
确定对目标文字区域进行文字识别后的识别结果;
获取利用所述识别结果进行搜索的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述包含定位标志的拍摄预览界面采用在拍摄界面上叠加绘制有定位标志的画布界面的方式形成。
3.根据权利要求1所述的方法,其特征在于,所述确定利用定位标志从用户拍摄的图像中提取的目标文字区域包括:
利用定位标志从用户拍摄的图像中提取目标文字区域;或者,
将所述用户拍摄的图像和定位标志的位置发送给服务器端,接收服务器端利用定位标志从用户拍摄的图像中提取目标文字区域后返回的提取结果。
4.根据权利要求1或3所述的方法,其特征在于,所述利用定位标志从用户拍摄的图像中提取目标文字区域包括:
利用定位标志的位置获取子图像;
对所述子图像进行二值化处理;
将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用所述定位标志的位置确定目标文字行区域;
将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域,并利用所述定位标志的位置确定目标文字区域。
5.根据权利要求4所述的方法,其特征在于,如果所述定位标志为横线,则所述利用定位标志的位置获取子图像包括:从横线位置开始向上下分别扩展N像素作为子图像的上下边界;将整个图像的宽度作为子图像的宽度,或者将横线的左端点向左扩展M个像素作为子图像的左边界,将横线的右端点向右扩展M个像素作为子图像的右边界,所述N和M为预设的正整数。
6.根据权利要求4所述的方法,其特征在于,如果所述定位标志为方框,则所述利用定位标志的位置获取子图像包括:将方框内的图像作为子图像。
7.根据权利要求4所述的方法,其特征在于,所述将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域包括:将二值化处理后的子图像进行横向投影后,将横向投影值的低谷值点作为各文字行区域的分割处;
所述将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域包括:将目标文字行区域进行纵向投影后,将纵向投影值的低谷值点作为各文字区域的分割处。
8.根据权利要求4所述的方法,其特征在于,如果所述定位标志为横线,则利用所述定位标志的位置确定目标文字行区域包括:将横线在横向上的位置所落的文字行区域作为目标文字行区域。
9.根据权利要求4所述的方法,其特征在于,如果所述定位标志为方框,则利用所述定位标志的位置确定目标文字行区域包括:
将完整落在方框上下边界内的文字行区域作为目标文字行区域;或者,
将方框上下边界在横向上的位置所落的文字行区域以及完整落在方框上下边界内的文字行区域作为目标文字行区域;或者,
将靠近方框内部中间位置的文字行区域作为目标文字行区域。
10.根据权利要求4所述的方法,其特征在于,如果所述定位标志为横线,则利用所述定位标志的位置确定目标文字区域包括:将横线在纵向上的位置所落的文字区域作为目标文字区域。
11.根据权利要求4所述的方法,其特征在于,如果所述定位标志为方框,则利用所述定位标志的位置确定目标文字区域包括:将完整落在方框左右边界内的文字区域作为目标文字区域;或者,
将方框左右边界在纵向上的位置所落的文字区域以及完整落在方框左右边界内的文字区域作为目标文字区域。
12.根据权利要求1所述的方法,其特征在于,利用所述识别结果进行搜索包括:
将识别出的目标文字作为搜索词进行搜索;或者,
从识别出的目标文字中提取关键词,将提取的关键词作为搜索词进行搜索。
13.一种信息搜索的装置,其特征在于,该装置包括:
拍摄启动单元,启动包含定位标志的拍摄预览界面;
图像获取单元,通过所述拍摄预览界面获取用户拍摄的图像;
区域提取单元,确定利用所述定位标志从所述用户拍摄的图像中提取的目标文字区域;
文字识别单元,确定对所述目标文字区域进行文字识别后的识别结果;
结果获取单元,获取利用所述识别结果进行搜索的搜索结果。
14.根据权利要求13所述的装置,其特征在于,所述拍摄启动单元,在拍摄预览界面上叠加绘制有定位标志的画布界面。
15.根据权利要求13所述的装置,其特征在于,所述区域提取单元具体包括:
子图像获取子单元,利用定位标志的位置获取子图像;
二值化处理子单元,对所述子图像进行二值化处理;
文字行区域确定子单元,将二值化处理后的子图像进行横向投影确定子图像内的各文字行区域,并利用所述定位标志的位置确定目标文字行区域;
文字区域确定子单元,将目标文字行区域进行纵向投影确定目标文字行区域内的各文字区域,并利用所述定位标志的位置确定目标文字区域。
CN201410103798.2A 2014-03-19 2014-03-19 一种信息搜索的方法和装置 Pending CN104933068A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410103798.2A CN104933068A (zh) 2014-03-19 2014-03-19 一种信息搜索的方法和装置
HK15111888.5A HK1211018A1 (zh) 2014-03-19 2015-12-03 種信息搜索的方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410103798.2A CN104933068A (zh) 2014-03-19 2014-03-19 一种信息搜索的方法和装置

Publications (1)

Publication Number Publication Date
CN104933068A true CN104933068A (zh) 2015-09-23

Family

ID=54120236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410103798.2A Pending CN104933068A (zh) 2014-03-19 2014-03-19 一种信息搜索的方法和装置

Country Status (2)

Country Link
CN (1) CN104933068A (zh)
HK (1) HK1211018A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825721A (zh) * 2016-03-16 2016-08-03 广东小天才科技有限公司 拍照提问的方法、装置及智能设备
CN105975560A (zh) * 2016-04-29 2016-09-28 广东小天才科技有限公司 一种智能设备的题目搜索方法和装置
CN106020662A (zh) * 2016-04-29 2016-10-12 广东小天才科技有限公司 应用于移动终端的内容快速搜索方法及装置
CN106250518A (zh) * 2016-08-03 2016-12-21 广东小天才科技有限公司 智能搜题方法及装置
CN106303255A (zh) * 2016-08-30 2017-01-04 广东小天才科技有限公司 快速获取目标区域图像的方法和装置
CN106294659A (zh) * 2016-08-03 2017-01-04 广东小天才科技有限公司 基于智能终端的搜题方法及装置
CN106294717A (zh) * 2016-08-08 2017-01-04 广东小天才科技有限公司 基于智能终端的搜题方法及装置
CN106528742A (zh) * 2016-11-04 2017-03-22 广东小天才科技有限公司 一种信息查询方法及装置
CN106599010A (zh) * 2015-10-14 2017-04-26 魏立江 图码搜索法
CN106683103A (zh) * 2016-12-30 2017-05-17 上海云丞聚智能科技有限公司 题目获取方法及装置
WO2018032702A1 (zh) * 2016-08-18 2018-02-22 广州视源电子科技股份有限公司 一种图像处理方法及装置
CN107861925A (zh) * 2017-10-27 2018-03-30 广西小草信息产业有限责任公司 一种文字处理***及方法
CN108664617A (zh) * 2018-05-14 2018-10-16 广州供电局有限公司 基于图像识别与检索的快速营销服务方法
CN109359582A (zh) * 2018-10-15 2019-02-19 Oppo广东移动通信有限公司 信息搜索方法、信息搜索装置及移动终端
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111339976A (zh) * 2020-03-03 2020-06-26 Oppo广东移动通信有限公司 室内定位方法、装置、终端及存储介质
WO2020238938A1 (zh) * 2019-05-29 2020-12-03 维沃移动通信有限公司 信息输入方法及移动终端
CN112541772A (zh) * 2020-12-04 2021-03-23 浪潮云信息技术股份公司 一种面向商户的资格认证方法
CN112988688A (zh) * 2021-03-24 2021-06-18 百度在线网络技术(北京)有限公司 一种图片共享方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234637A1 (en) * 2008-03-14 2009-09-17 Fuji Xerox Co., Ltd. Information processor, information processing method, and computer readable medium
CN101639760A (zh) * 2009-08-27 2010-02-03 上海合合信息科技发展有限公司 联系信息输入方法及***
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN102779140A (zh) * 2011-05-13 2012-11-14 富士通株式会社 一种关键词获取方法及装置
CN102799850A (zh) * 2012-06-30 2012-11-28 北京百度网讯科技有限公司 一种条形码识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234637A1 (en) * 2008-03-14 2009-09-17 Fuji Xerox Co., Ltd. Information processor, information processing method, and computer readable medium
CN101639760A (zh) * 2009-08-27 2010-02-03 上海合合信息科技发展有限公司 联系信息输入方法及***
CN102779140A (zh) * 2011-05-13 2012-11-14 富士通株式会社 一种关键词获取方法及装置
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN102799850A (zh) * 2012-06-30 2012-11-28 北京百度网讯科技有限公司 一种条形码识别方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599010A (zh) * 2015-10-14 2017-04-26 魏立江 图码搜索法
CN105825721A (zh) * 2016-03-16 2016-08-03 广东小天才科技有限公司 拍照提问的方法、装置及智能设备
CN105975560A (zh) * 2016-04-29 2016-09-28 广东小天才科技有限公司 一种智能设备的题目搜索方法和装置
CN106020662A (zh) * 2016-04-29 2016-10-12 广东小天才科技有限公司 应用于移动终端的内容快速搜索方法及装置
CN106020662B (zh) * 2016-04-29 2019-04-30 广东小天才科技有限公司 应用于移动终端的内容快速搜索方法及装置
CN106250518A (zh) * 2016-08-03 2016-12-21 广东小天才科技有限公司 智能搜题方法及装置
CN106294659A (zh) * 2016-08-03 2017-01-04 广东小天才科技有限公司 基于智能终端的搜题方法及装置
CN106294659B (zh) * 2016-08-03 2019-07-19 广东小天才科技有限公司 基于智能终端的搜题方法及装置
CN106294717A (zh) * 2016-08-08 2017-01-04 广东小天才科技有限公司 基于智能终端的搜题方法及装置
WO2018032702A1 (zh) * 2016-08-18 2018-02-22 广州视源电子科技股份有限公司 一种图像处理方法及装置
CN106303255B (zh) * 2016-08-30 2019-08-02 广东小天才科技有限公司 快速获取目标区域图像的方法和装置
CN106303255A (zh) * 2016-08-30 2017-01-04 广东小天才科技有限公司 快速获取目标区域图像的方法和装置
CN106528742A (zh) * 2016-11-04 2017-03-22 广东小天才科技有限公司 一种信息查询方法及装置
CN106683103A (zh) * 2016-12-30 2017-05-17 上海云丞聚智能科技有限公司 题目获取方法及装置
CN107861925A (zh) * 2017-10-27 2018-03-30 广西小草信息产业有限责任公司 一种文字处理***及方法
CN108664617A (zh) * 2018-05-14 2018-10-16 广州供电局有限公司 基于图像识别与检索的快速营销服务方法
CN109359582A (zh) * 2018-10-15 2019-02-19 Oppo广东移动通信有限公司 信息搜索方法、信息搜索装置及移动终端
CN109359582B (zh) * 2018-10-15 2022-08-09 Oppo广东移动通信有限公司 信息搜索方法、信息搜索装置及移动终端
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN109902152B (zh) * 2019-03-21 2021-07-06 北京百度网讯科技有限公司 用于检索信息的方法和装置
WO2020238938A1 (zh) * 2019-05-29 2020-12-03 维沃移动通信有限公司 信息输入方法及移动终端
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111339976A (zh) * 2020-03-03 2020-06-26 Oppo广东移动通信有限公司 室内定位方法、装置、终端及存储介质
CN111339976B (zh) * 2020-03-03 2023-08-11 Oppo广东移动通信有限公司 室内定位方法、装置、终端及存储介质
CN112541772A (zh) * 2020-12-04 2021-03-23 浪潮云信息技术股份公司 一种面向商户的资格认证方法
CN112988688A (zh) * 2021-03-24 2021-06-18 百度在线网络技术(北京)有限公司 一种图片共享方法、装置、电子设备及存储介质
CN112988688B (zh) * 2021-03-24 2024-06-11 百度在线网络技术(北京)有限公司 一种图片共享方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
HK1211018A1 (zh) 2016-05-13

Similar Documents

Publication Publication Date Title
CN104933068A (zh) 一种信息搜索的方法和装置
US9317778B2 (en) Interactive content generation
Ju et al. Depth-aware salient object detection using anisotropic center-surround difference
US9881226B1 (en) Object relation builder
US9087078B2 (en) Single user interface for selecting, modifying, and querying images
CN108829764A (zh) 推荐信息获取方法、装置、***、服务器及存储介质
CN101620680A (zh) 字符图像的识别和翻译方法以及装置
US20150242684A1 (en) Method and system for linking printed objects with electronic content
KR101697933B1 (ko) 키워드 검출장치, 그 제어방법 및 제어 프로그램, 및 표시기기
Shivakumara et al. New gradient-spatial-structural features for video script identification
US9691004B2 (en) Device and method for service provision according to prepared reference images to detect target object
CN104572717A (zh) 信息搜索方法和装置
Liu et al. Text-aware balloon extraction from manga
CN106980866B (zh) 一种鞋类检索方法和装置
CN109840885B (zh) 图像融合方法及相关产品
Georgiadis et al. Products-6k: a large-scale groceries product recognition dataset
Fare et al. Ancient roman coin retrieval: A systematic examination of the effects of coin grade
CN113849687B (zh) 视频处理方法以及装置
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
Kim et al. Automatic color scheme extraction from movies
CN108334800A (zh) ***图像的处理装置、方法以及电子设备
EP4089644A1 (en) Image matching system
JP2013008142A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN115186165A (zh) 一种移动电子商务图像搜索购物方法
KR20150101846A (ko) 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1211018

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191210

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Applicant after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1211018

Country of ref document: HK