CN102968266A - 识别方法及装置 - Google Patents

识别方法及装置 Download PDF

Info

Publication number
CN102968266A
CN102968266A CN2012102650221A CN201210265022A CN102968266A CN 102968266 A CN102968266 A CN 102968266A CN 2012102650221 A CN2012102650221 A CN 2012102650221A CN 201210265022 A CN201210265022 A CN 201210265022A CN 102968266 A CN102968266 A CN 102968266A
Authority
CN
China
Prior art keywords
recognition
computer vision
recognition result
user
identified region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102650221A
Other languages
English (en)
Inventor
何镇在
陈鼎匀
朱启诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN102968266A publication Critical patent/CN102968266A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种识别方法,该方法包括下列步骤:获得一指令信息,该指令信息用于一计算机视觉应用;获得一图像数据,以及根据一用户手势输入来定义对应于该图像数据的至少一个识别区域;输出该至少一个识别区域的识别结果;以及根据该识别结果搜索至少一个数据库,以执行该计算机视觉应用。本发明还提供一种用于减少计算机视觉***的复杂性的和应用相关计算机视觉应用***的识别装置。

Description

识别方法及装置
技术领域
本发明涉及通过便携式电子设备实现的计算机视觉***,尤其涉及用于减少计算机视觉***的复杂性和应用相关计算机视觉应用***的识别方法和识别装置。
背景技术
根据相关现有技术,配备了触摸屏的便携式电子设备(例如,多功能手机、个人数字助理(PDA)、平板电脑等)可以用于显示供终端用户阅读的文件或消息。在某些情况下,终端用户需要获得一些信息,并试图通过在触摸屏上实际键入一些虚拟键/按钮来请求该信息,这可能会导致一些问题发生,例如,终端用户通常必须使用一只手来握持该便携式电子设备,并用另一只手来控制该便携式电子设备以满足上述情况。然,当该终端用户需要该另一只手来做其他的事情时,就会造成不便。在另一个例子中,由于不容易在短时间内完成在触摸屏上实际键入该些虚拟键/按钮的操作,使得该终端用户可能会被迫浪费时间。在又一个例子中,假设终端用户不熟悉外语,当终端用户进入一家餐厅并想要点食物的时候,由于菜单是采用上面提到的不熟悉的外语来写(或打印)的,终端用户可能会发现他/她读不懂。此时,因为不熟悉上述的外语,要终端用户能够将菜单的一些词输入到便携式电子设备中似乎不大可能。由于上述的相关翻译操作对于便携式电子设备来说过于复杂,因此需要具有很高计算速度(而不是便携式电子设备)的个人电脑来识别和翻译菜单上的所有词。此外,强行使用便携式电子设备以执行相关的操作,可能会导致低识别率,从而导致翻译错误。总之,现有的技术不能很好地为终端用户服务。
因此,需要一种新的方法来加强便携式电子设备的信息访问控制。
发明内容
有鉴于此,需要一种识别方法及识别装置,以解决上述技术问题。
本发明提供一种识别方法,该识别方法包括:获得一指令信息,该指令信息用于一计算机视觉应用;获得一图像数据,以及根据一用户手势输入来定义对应于该图像数据的至少一个识别区域;输出该至少一个识别区域的识别结果;以及根据该识别结果搜索至少一个数据库,以实现该计算机视觉应用。
本发明还提供一种识别装置,包括:指令信息产生器,用于获得一指令信息,其中该指令信息用于一计算机视觉应用;处理电路,用于获得一图像数据,以及根据一用户手势输入来定义对应于该图像数据的至少一个识别区域,其中该处理电路进一步用于输出该至少一个识别区域的识别结果;以及数据库管理模块,根据该识别结果搜索至少一个数据库,以执行该计算机视觉应用。
本发明一个有益效果在于该识别方法和识别装置能够允许用户通过确定考虑中的图像上的识别区域,来自由控制该便携式电子设备,从而能够减少应用计算机视觉***的复杂性。由此,用户可以快速访问所需的信息,从而解决现有技术中出现的问题。
附图说明
图1是本发明一实施例的识别装置的示意图;
图2是本发明一实施例的识别方法的流程图;
图3显示图1的装置和涉及到图2的方法的一些示例性的识别区域;
图4显示本发明一实施例的涉及到图2的方法的一些示例性的识别区域;
图5显示本发明另一实施例的涉及到图2的方法的一示例性的识别区域;
图6显示本发明又一实施例的涉及到图2的方法的一示例性的识别区域;以及
图7显示本发明又一实施例的涉及到图2的方法的一示例性的识别区域;
图8显示本发明再一实施例的涉及到图2的方法的一示例性的识别区域。
具体实施方式
在本说明书以及权利要求书当中使用了某些词汇来指代特定的组件。本领域的技术人员应可理解,硬件制造商可能会用不同的名词来称呼同样的组件。本说明书及权利要求并不以名称的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。在通篇说明书及权利要求当中所提及的“包含”是一个开放式之用语,因此应解释成“包含但不限定于”。另外,“耦接”一词在此包含任何直接及间接的电气连接手段。因此,若文中描述第一装置耦接于第二装置,则代表第一装置可以直接电气连接于第二装置,或通过其它装置或连接手段间接地电气连接至第二装置。
请参考图1,其显示本发明第一实施例的用于减少计算机视觉***的复杂性和应用相关计算机视觉应用的识别装置100的示意图。其中,该识别装置100包括该计算机视觉***的至少一个部分(如部分或全部)。如图1所示,识别装置100包括一指令信息产生器110、一处理电路120、一数据库管理模块130、一存储器140和一通信模块180。该处理电路120包括一校正模块120C,该存储器140包括一本地数据库140D。根据不同实施例(例如第一实施例或一些其他变化实施例),识别装置100可包括一电子设备(如便携式电子设备)的至少一部分(例如部分或全部),其中上述的计算机视觉***可以是整个所述电子设备(如便携式电子设备)。例如,识别装置100可包括上面提到的电子设备的一部分,特别是,识别装置100可以是电子设备内的一控制电路(例如集成电路(IC))。在另一个例子中,该识别装置100可以是整个上述的电子设备。在又一个例子中,该识别装置100可以是包括上面提到的电子设备的一个音频/视频***。该电子设备的例子可包括(但不局限于)手机(例如一多功能手机)、个人数字助理(PDA)、便携式电子设备(如平板电脑(基于广义的定义))、以及个人电脑(例如平板个人电脑,也可简称为平板电脑)、笔记本电脑或者台式电脑。
本实施例中,该指令信息产生器110用于获得指令信息,该指令信息被计算机视觉应用采用。此外,该处理电路120用于控制该电子设备(如便携式电子设备)的操作。更特别的,该处理电路120用于从一相机模块(未显示)获得图像数据,并通过在触摸感应显示器(如触摸屏,图1未示)上输入的用户手势来定义对应于该图像数据的至少一个识别区域(如一个或多个识别区域)。该处理电路120进一步用于输出对应于上述的至少一个识别区域的识别结果。此外,该校正模块120C用于通过提供用户界面,以允许用户在触摸感应显示器(如触摸屏)上添加手势输入而更改识别结果,从而选择性地对识别结果进行校正。
本实施例中,该数据库管理模块130用于根据识别结果搜索至少一个数据库。特别的,该数据库管理模块130可以管理本地或互联网数据库访问,以执行计算机视觉应用。例如,在一种情况下,该数据库管理模块130自动判断利用一互联网上的服务器(例如云服务器)以执行计算机视觉应用,该数据库管理模块130将该计算机视觉应用的结果暂时存储到一本地数据库中,以供后续使用。在本实施例中,该存储器140用于存储临时信息,且该本地数据库140D可以作为上述的本地数据库的一个例子。在实际应用中,存储器140可以是内存(例如易失性内存(如随机存取存储器(RAM)),或非易失性内存(如闪存内存)),或者可以是一个硬盘驱动器(HDD)。此外,根据计算机视觉***的电源管理信息,该数据库管理模块130可以自动判断是利用该本地数据库140D或是上述的互联网上的服务器(例如云服务器),以执行该计算机视觉应用。此外,该通信模块180被用来通过互联网发送或接收信息以进行通信。根据图1所示的架构,该数据库管理模块130能够选择性获得来自上述互联网上的服务器(例如云服务器)或来自该本地数据库140D的一个或多个查找结果,以完成执行对应于从指令信息产生器110获得的指令信息的该计算机视觉应用。
图2为用于减少计算机视觉***的复杂性和应用相关计算机视觉应用的识别方法200的流程图。图2所示的识别方法200可应用于图1所示的识别装置100。该方法详细描述如下。
在步骤210中,该指令信息产生器110获得如上所述的指令信息,其中该指令信息被利用于该计算机视觉应用。例如,该指令信息产生器110可包括一全球导航卫星***(GNSS)接收机(如全球定位***(GPS)接收器),且从该GNSS接收机获得该指令信息的至少一部分。其中,该指令信息可包括该识别装置100的位置信息。在另一个例子中,指令信息产生器110可包括一音频输入模块,且指令信息的至少一部分(如部分或全部)是从该音频输入模块获得。该指令信息可包括该识别装置100通过该音频输入模块从该用户接收的一个音频指令。在另一个例子中,该指令信息产生器110可包括上述触摸感应显示器,如上面提到的触摸屏,且该指令信息的至少一部分(如部分或全部)是从该触摸屏获得的,其中,该指令信息可包括识别装置100通过该音频输入模块从该用户接收的一个指令。
计算机视觉应用的类型(例如,查找的特定类型)可能会基于不同的应用而有所不同。具体的,计算机视觉应用的类型可以由用户确定,或由该识别装置100(更具体的,该处理电路120)自动确定。例如,该计算机视觉应用可以用于翻译。在另一个例子中,该计算机视觉应用可以是汇率换算(更具体地说,不同货币之间的汇率换算)。在另一个例子中,该计算机视觉应用可以是最优惠价格搜索(更特别的,用于寻找相同产品的最优惠价格的搜索)。在又一个例子中,该计算机视觉应用可以是信息搜索。在再一个例子中,该计算机视觉应用可以用于浏览地图。在另一个例子中,该计算机视觉应用可以用于搜索视频预告片。
在步骤220中,该处理电路120可以从相机模块上获得如上面提到的图像数据,并通过在触摸感应显示器(如触摸屏)上输入的用户手势来定义对应于该图像数据的至少一个识别区域(如一个或多个识别区域)。例如,用户可以一次或多次触碰该触摸感应显示器(如触摸屏),更特别的,触摸该触摸感应显示器(如触摸屏)上显示的图像的一个或多个部分,以定义上述至少一个识别区域(如一个或多个识别区域)作为该图像的一个或多个部分。因此,上述至少一个识别区域(如一个或多个识别区域)可以由用户任意确定。
关于涉及到上述至少一个识别区域的识别(更特别的是,基于处理电路120执行的识别),其可能会根据不同的应用而有所不同,该识别类型可以由用户决定或由该识别装置100(更特别的是,该处理电路120)自动确定。例如,该处理电路120可以在对应于该图像数据的识别区域上执行文本文字识别,以产生识别结果,其中,该识别结果是一个目标图像上的文字的文本识别结果。在另一个例子中,处理电路120可以在对应于图像数据的识别区域上执行对象识别操作,以生成识别结果,其中,该识别结果是代表一个对象的文本字符串。此仅供参考,并非是对本发明的限制。根据一些变化的实施例,在一般情况下,识别结果可包括至少一个字符串、至少一个字符、和/或至少一个数字。
步骤230中,处理电路120将该至少一个识别区域的识别结果输出到上述的触摸感应显示器(如触摸屏)。因此,用户可以判断该识别结果是否正确,并能通过输入新增用户手势到该触摸感应显示器(如触摸屏)上而选择性地改变该识别结果。例如,在用户已确认识别结果的情况下,该校正模块120C利用确认过的识别结果来作为识别区域的代表信息。另一个例子是,在用户直接写入代表该识别区域的对象的一文本字符串的情况下,该校正模块120C执行再识别(如步骤220),以获得改变的识别结果,并利用改变的识别结果作为识别区域的代表信息。
在步骤240中,数据库管理模块130根据该识别结果搜索至少一个数据库(如上面提到的)。更特别的是,数据库管理模块130可以管理本地或互联网数据库访问以执行该计算机视觉应用。根据图1所示的架构,数据库管理模块130选择性地从上述互联网上的服务器(例如云服务器)或从本地数据库140D获得一个或多个查找结果。在实际应用中,该数据库管理模块130可以默认从上述互联网上的服务器(例如云服务器)获得一个或多个查找结果,并在互联网访问是不可用的情况下,数据库管理模块130尝试从本地数据库140D获得该一个或多个查找结果。
在步骤250中,处理电路120决定是否继续。例如,处理电路120可以默认决定继续,且在用户触碰停止图标的情况下,处理电路120再决定停止由步骤220、步骤230、步骤240以及步骤250形成的循环流程的重复操作。当决定继续时,步骤220重新进入,否则,如图2所示,工作流程结束。
在本实施例中,处理电路120可提供一用户界面,该用户界面允许用户通过在上述触摸感应显示器(如触摸屏)上添加手势输入来改变该识别结果。且该处理电路120可以通过储存校正信息来执行学习(learning)操作,该校正信息对应于该识别结果和该改变的识别结果之间的映射关系,以进一步使用识别结果的自动校正。更特别的,校正的信息可以用来将识别结果映射到改变的识别结果,且该校正模块120C可以利用该校正的信息来执行识别结果自动校正。这里仅供参考,并不意味着是对本发明的限制。根据一些变化的实施例,该处理电路120提供该用户界面并进行文本识别,该用户界面允许用户通过在上述的触摸感应显示器(如触摸屏)上添加手势输入而直接写入代表识别对象的文本字符串。
如前所述,该数据库管理模块130可以默认从上述互联网上的服务器(例如云服务器)获得一个或多个查找结果,并在互联网访问是不可用的情况下,数据库管理模块130尝试从本地数据库140D获得该一个或多个查找结果。这仅供参考,并不意味着是对本发明的限制。根据一些变化实施例,数据库管理模块130可以自动判断是利用本地数据库140D还是互联网上的服务器(例如云服务器)以执行计算机视觉应用。更特别的是,根据计算机视觉***的电源管理信息(在本实施例中,例如该电子设备(如该便携式电子设备)),数据库管理模块130自动确定利用本地数据库140D或互联网上的服务器(例如,云服务器)进行查找。实际应用中,在数据库管理模块130自动确定利用互联网上的服务器(例如云服务器)以执行查找的情况下,数据库管理模块130从互联网上的服务器(例如云服务器)上获得该查找结果,然后将该查找结果暂时存储到本地数据库140D,为后续查找使用。类似变化实施例的细节将不再赘述。
图3显示图1的识别装置100以及涉及到图2的识别方法200的识别区域50。在本实施例中,该识别装置100是手机,更特别的,是一个多功能手机。根据本实施例,该识别装置100的相机模块(未显示)设置在该识别装置100的背面。此外,触摸屏150作为第一实施例所述的触摸屏,该触摸屏150安装在识别装置100内,且可以用于显示多个预览图像或拍摄到的图像。在实际应用中,相机模块可以用于执行预览操作,以生成预览图像的图像数据,以显示在触摸屏150上,或者可以用于执行拍摄操作以生成其中一个拍摄到的图像的数据。
基于识别方法200的辅助,当用户定义(更特别的,使用他/她的手指滑动)图3所示的触摸屏150上显示的图像的一个或多个区域(如本实施例中的识别区域50)时,处理电路120可立即输出查找结果(例如文本识别结果的翻译)到触摸屏150,以显示该查找结果。因此,用户可以立即了解考虑中的目标,从而没有必要在触摸屏150上实际键入一些虚拟键/按钮。类似实施例的细节描述将不再赘述。
图4为本发明实施例提供的涉及到图2所示的识别方法200的识别区域50。本实施例中,识别区域50包括显示在图3所示的触摸屏150上的菜单图像400(请参阅图4)的一部分。其中,该菜单图像400所代表的菜单包括一特定语言的文本。根据在步骤220中提到的用户手势输入,处理电路120定义上述的至少一个识别区域(如图4所示的菜单图像400内的识别区域50),也就是将该识别区域50定义为至少一个断句区域(make pause),从而为文本识别操作提供断句区域,每个断句区域对应所述文本数据的一部分。本实施例中,将“DEDESAYUNO”(图4中的“50”)分别定义成“DE”和“DESAYUNO”两个断句区域。由此,可以帮助缩小文本识别范围,提高识别率。
假设用户不熟悉该特定语言,则本实施例中的计算机视觉应用可以用于翻译。在识别方法200的操作的辅助下,当用户定义(更特别的,使用他/她的手指滑动)图4所示的菜单图像400上的识别区域50时,处理电路120能立即输出该查找结果(例如,字词的翻译分别在识别区域50内)到该触摸屏150,以显示该查找(翻译)结果。因此,用户可以立即了解正在考虑的字词,从而没有必要在触摸屏150上实际键入一些虚拟键/按钮。类似描述的细节将不再赘述。
图5为本发明实施例提供的涉及到图2所示的识别方法200的识别区域50。在本实施例中,该识别区域50包括显示在图3所示的触摸屏150上的对象。根据步骤220中提到的用户手势输入,处理电路120定义上述的至少一个识别区域(如图5所示的对象图像500内的识别区域50),从而为对象识别操作确定对象轮廓。因此,处理电路120可以对正在考虑的对象(在本实施例中,如识别区域50表示的圆柱体)执行对象识别操作。例如,在操作识别方法200的辅助下,当用户定义(更特别的,使用他/她的手指滑动)识别区域50时,处理电路120可以立即输出该查找结果到该触摸屏150,以显示该查找结果。因此,用户可以立即读取对应到所考虑的对象的查找结果,例如词、短语或句子(例如对应的外语单词,或与对象相关联的短语或句子)。在另一个例子中,在识别方法200的操作的辅助下,当用户定义(更特别的,使用他/她的手指滑动)识别区域50时,处理电路120可以立即输出该查找结果到该音频输出模块,以回放该查找结果。因此,用户可以立即听到对应到所考虑的对象的查找结果,例如词、短语或句子(例如对应的外语单词,或与对象相关联的短语或句子)。类似实施例的细节将不再赘述。
图6为本发明另一实施例提供的涉及到图2所示的识别方法200的识别区域50。其中该识别区域50包括显示在图3所示的触摸屏150上的人脸图像。根据在步骤220中提到的用户手势输入,处理电路120定义上述至少一个识别区域(如图6的照片图像600内的识别区域50),也就是在该识别区域中定义至少一对象轮廓,从而为对象识别操作确定对象的轮廓。因此,处理电路120可以对正在考虑的对象(本实施例中,如识别区域50表示的人脸)执行对象识别操作。在识别方法200的操作的辅助下,当用户定义(更特别的,使用他/她的手指滑动)识别区域50时,处理电路120可以立即输出该查找结果到该触摸屏150,以显示该查找结果。因此,用户可以立即读取对应到所考虑的人脸的查找结果,包括词、短语或句子(例如,名字、电话号码、喜欢的食物、喜欢的歌或人脸在该识别区域50内的人的问候)。在另一个例子中,在识别方法200的操作的辅助下,当用户定义(更特别的,使用他/她的手指滑动)识别区域50时,处理电路120可以立即输出该查找结果到该音频输出模块,以回放该查找结果。因此,用户可以立即听到对应到所考虑的对象的查找结果,包括词、短语或句子(例如名字、电话号码、喜欢的食物、喜欢的歌或人脸在该识别区域50内的人的问候)。类似实施例的细节将不再赘述。
图7为本发明实施例提供的涉及到图2所示的识别方法200的识别区域50。该识别区域50包括显示在图3的触摸屏上的一标签图像的一部分。在图7所示的图像中,包括有一些产品510、520以及与其相关联的标签515和525。例如,本实施例中,被考虑的标签可以是标签515,其中本实施例中的识别区域50可以是标签515的部分图像。
假设用户不熟悉不同货币之间的汇率转换,以及不能确定产品510关于用户所在国的货币的价格,则本实施例的计算机视觉应用可以对不同货币进行汇率转换。在识别方法200的操作的辅助下,当用户定义(更特别的,使用他/她的手指滑动)本实施例中的识别区域50时,处理电路120立即输出该查找结果到该触摸屏150,以显示该查找结果。在本实施例中,该查找结果可以是识别区域50中的价格的汇率转换结果。更特别的,查找结果可以是关于用户所在国家的货币的价格。因此,用户可以立即知道产品510需要花多少他/她所在国家的货币,而没有必要到触摸屏150上实际键入一些虚拟键/按钮。类似实施例的细节将不再赘述。
图8为本发明另一实施例提供的涉及到图2所示的识别方法200的识别区域50,该识别区域50包括显示在图3的触摸屏上的一标签图像的一部分。在图8所示的图像中,包括一些产品510、520以及与其相关联的标签515和525。例如,本实施例中,被考虑的标签可以是标签515,其中本实施例中的识别区域50可以是标签515的部分图像。
假设用户不熟悉分别在不同百货商店的相同产品510的价格,则本实施例的计算机视觉应用可以搜索最优惠价格。在操作识别方法200的辅助下,当用户定义(更特别的,使用他/她的手指滑动)本实施例中的识别区域50时,处理电路120立即输出该查找结果到该触摸屏150,以显示该查找结果。在本实施例中,该查找结果可以是特定商店(如用户所停留的商店,或其他商店)的相同商品510的最优惠价格及其相关联信息(例如,特定商店的名称、地点、和/或电话号码),或是在多个商店内的相同产品的最优惠价格及其相关信息(例如,该多个商店的名称、地点、和/或电话号码)。因此,用户可以立即知道标签515上的价格是否是最优惠的价格,而没有必要到触摸屏150上实际键入一些虚拟键/按钮。类似实施例的细节将不再赘述。
本发明一个有益效果在于该识别方法和识别装置能够允许用户通过确定考虑中的图像上的识别区域,来自由控制该便携式电子设备。因此,用户可以快速访问所需的信息,而不引入任何现有技术存在的问题。
虽然本发明已以较佳实施方式揭露如上,然其并非用以限定本发明,任何所属技术领域中的技术人员,在不脱离本发明的范围内,可以做一些改动,因此本发明的保护范围应以权利要求所界定的范围为准。

Claims (29)

1.一种识别方法,该识别方法包括:
获得一指令信息,该指令信息用于一计算机视觉应用;
获得一图像数据,以及根据一用户手势输入来定义对应于该图像数据的至少一个识别区域;
输出该至少一个识别区域的识别结果;以及
根据该识别结果搜索至少一个数据库,以实现该计算机视觉应用。
2.如权利要求1所述的识别方法,其特征在于,该指令信息的至少一部分是从一全球导航卫星***接收机、一音频输入模块或一触摸感应显示器获得的。
3.如权利要求1所述的识别方法,其特征在于,该计算机视觉应用用于提供翻译、汇率转换、最优惠价格搜索、信息搜索、地图浏览和视频预告片搜索功能其中之一者。
4.如权利要求1所述的识别方法,进一步包括:
在对应于该图像数据的识别区域上执行文本文字识别,以产生一文本识别结果。
5.如权利要求1所述的识别方法,进一步包括:
在对应于图像数据的识别区域上执行对象识别操作,以生成该识别结果,该识别结果是代表一个对象的文本字符串。
6.如权利要求1所述的识别方法,其特征在于,所述根据一用户手势输入来定义对应于该图像数据的至少一个识别区域的步骤包括:
当所述图像数据为文本数据时,将该至少一个识别区域定义为至少一个断句区域,每个断句区域对应所述文本数据的一部分。
7.如权利要求1所述的识别方法,其特征在于,所述根据一用户手势输入来定义对应于该图像数据的至少一个识别区域的步骤进一步包括:
在该识别区域中定义至少一对象轮廓,从而为对象识别操作确定对象轮廓。
8.如权利要求1所述的识别方法,其特征在于,所述输出该至少一个识别区域的识别结果的步骤包括:
提供一用户界面,以允许用户通过在一触摸感应显示器上添加用户手势输入来改变该识别结果。
9.如权利要求8所述的识别方法,其特征在于,所述提供用户界面以允许用户通过在触摸感应显示器上添加用户手势输入来改变该识别结果的步骤进一步包括:
在该用户界面上直接写入识别文本的识别结果并进行对写入文本的文本识别。
10.如权利要求8所述的识别方法,其特征在于,所述提供用户界面以允许用户通过在触摸感应显示器上添加用户手势输入来改变该识别结果的步骤进一步包括:
在该用户界面上直接写入代表一识别对象的文本字符串并进行对写入文本字符串的文本识别。
11.如权利要求8所述的识别方法,其特征在于,所述改变该识别结果的步骤进一步包括:
通过储存对应于识别结果和改变的识别结果之间的映射关系的校正信息来执行一学习操作,以进一步对该识别结果进行自动校正。
12.如权利要求1所述的识别方法,其特征在于,所述根据该识别结果搜索至少一个数据库的步骤进一步包括:
自动判断利用一本地数据库或是一互联网服务器来执行该计算机视觉应用。
13.如权利要求12所述的识别方法,其特征在于,所述自动判断利用一本地数据库或是一互联网服务器来执行该计算机视觉应用的步骤进一步包括:
在自动判断利用一互联网服务器以执行该计算机视觉应用的情况下,将一计算机视觉应用结果暂时存储到一本地数据库,以供后续使用。
14.如权利要求12所述的识别方法,其特征在于,所述管理本地或互联网数据库访问以执行该计算机视觉应用的步骤进一步包括:
根据计算机视觉应用的电源管理信息,自动确定是利用本地数据库还是互联网上的服务器执行该计算机视觉应用。
15.如权利要求1所述的识别方法,其特征在于,所述根据该识别结果搜索至少一个数据库的步骤进一步包括:
根据对本地或互联网数据库访问的管理来执行该计算机视觉应用。
16.一种识别装置,包括:
指令信息产生器,用于获得一指令信息,其中该指令信息用于一计算机视觉应用;
处理电路,用于获得一图像数据,以及根据一用户手势输入来定义对应于该图像数据的至少一个识别区域,其中该处理电路进一步用于输出该至少一个识别区域的识别结果;以及
数据库管理模块,根据该识别结果搜索至少一个数据库,以执行该计算机视觉应用。
17.如权利要求16所述的识别装置,其特征在于,该指令信息的至少一部分从一全球导航卫星***接收机、一音频输入模块或一触摸感应显示器获得。
18.如权利要求16所述的识别装置,其特征在于,该计算机视觉应用用于提供翻译、汇率转换、最优惠价格搜索、信息搜索、地图浏览和视频预告片搜索功能其中之一者。
19.如权利要求16所述的识别装置,其特征在于,该处理电路在对应于该图像数据的识别区域上执行文本文字识别操作,以产生一文本识别结果。
20.如权利要求16所述的识别装置,其特征在于,该处理电路在对应于图像数据的识别区域上执行对象识别操作,以生成代表一个对象的文本字符串的识别结果。
21.如权利要求16所述的装置,其特征在于,当所述图像数据为文本数据时,该处理电路将该识别区域定义为至少一个断句区域,每个断句区域对应所述文本数据的一部分。
22.如权利要求16所述的装置,其特征在于,该处理电路在该识别区域中定义至少一对象轮廓,从而为对象识别操作确定对象轮廓。
23.如权利要求16所述的识别装置,其特征在于,该处理电路提供一用户界面,以允许用户通过在一触摸感应显示器上添加用户手势输入来改变该识别结果。
24.如权利要求23所述的识别装置,其特征在于,该处理电路提供该用户界面以允许用户直接写入识别文本的识别结果,或直接写入代表一识别对象的文本字符串,并进一步进行文本识别。
25.如权利要求23所述的识别装置,其特征在于,该处理电路通过储存对应于识别结果和改变的识别结果之间的映射关系的校正信息来执行一学习操作,以进一步对识别结果进行自动校正。
26.如权利要求16所述的识别装置,其特征在于,该数据库管理模块自动判断是利用一本地数据库还是利用一互联网服务器来执行该计算机视觉应用。
27.如权利要求26所述的识别装置,其特征在于,该数据库管理模块在自动判断利用一互联网服务器以执行该计算机视觉应用的情况下,将一计算机视觉应用结果暂时存储到一本地数据库,以供后续使用。
28.如权利要求26所述的识别装置,其特征在于,该数据库管理模块根据计算机视觉应用的电源管理信息,自动确定是利用本地数据库还是互联网服务器执行该计算机视觉应用。
29.如权利要求16所述的装置,其特征在于,该数据库管理模块管理本地或互联网数据库访问以执行该计算机视觉应用。
CN2012102650221A 2011-08-08 2012-07-27 识别方法及装置 Pending CN102968266A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161515984P 2011-08-08 2011-08-08
US61/515,984 2011-08-08
US13/431,900 US20130039535A1 (en) 2011-08-08 2012-03-27 Method and apparatus for reducing complexity of a computer vision system and applying related computer vision applications
US13/431,900 2012-03-27

Publications (1)

Publication Number Publication Date
CN102968266A true CN102968266A (zh) 2013-03-13

Family

ID=47677581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102650221A Pending CN102968266A (zh) 2011-08-08 2012-07-27 识别方法及装置

Country Status (2)

Country Link
US (1) US20130039535A1 (zh)
CN (1) CN102968266A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN110089123A (zh) * 2016-12-19 2019-08-02 萨基姆宽带联合股份公司 录制即将到来的电视广播节目的方法
CN110636252A (zh) * 2018-06-21 2019-12-31 佳能株式会社 图像处理装置、图像处理方法和介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI486794B (zh) * 2012-07-27 2015-06-01 Wistron Corp 影片預覽方法及系統及其電腦程式產品
KR102065417B1 (ko) * 2013-09-23 2020-02-11 엘지전자 주식회사 웨어러블 이동단말기 및 그 제어방법
US9296421B2 (en) * 2014-03-06 2016-03-29 Ford Global Technologies, Llc Vehicle target identification using human gesture recognition
CN103942569A (zh) * 2014-04-16 2014-07-23 中国计量学院 基于计算机视觉的中式菜肴识别装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290298A (ja) * 1993-04-02 1994-10-18 Hitachi Ltd 誤字の修正方法
US20020037104A1 (en) * 2000-09-22 2002-03-28 Myers Gregory K. Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20060110034A1 (en) * 2000-11-06 2006-05-25 Boncyk Wayne C Image capture and identification system and process
US20060152479A1 (en) * 2005-01-10 2006-07-13 Carlson Michael P Intelligent text magnifying glass in camera in telephone and PDA
US20080002916A1 (en) * 2006-06-29 2008-01-03 Luc Vincent Using extracted image text
US20090102859A1 (en) * 2007-10-18 2009-04-23 Yahoo! Inc. User augmented reality for camera-enabled mobile devices
US20090319181A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Data services based on gesture and location information of device
CN101702154A (zh) * 2008-07-10 2010-05-05 三星电子株式会社 对基于照相机的图像中的字符进行识别和翻译的方法
CN101918983A (zh) * 2008-01-15 2010-12-15 谷歌公司 街道视图数据的三维注释
CN102025654A (zh) * 2009-09-15 2011-04-20 联发科技股份有限公司 便携设备及图片共享方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720436B2 (en) * 2006-01-09 2010-05-18 Nokia Corporation Displaying network objects in mobile devices based on geolocation
US9015029B2 (en) * 2007-06-04 2015-04-21 Sony Corporation Camera dictionary based on object recognition
EP2144189A3 (en) * 2008-07-10 2014-03-05 Samsung Electronics Co., Ltd. Method for recognizing and translating characters in camera-based image
US20120038668A1 (en) * 2010-08-16 2012-02-16 Lg Electronics Inc. Method for display information and mobile terminal using the same

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290298A (ja) * 1993-04-02 1994-10-18 Hitachi Ltd 誤字の修正方法
US20020037104A1 (en) * 2000-09-22 2002-03-28 Myers Gregory K. Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20060110034A1 (en) * 2000-11-06 2006-05-25 Boncyk Wayne C Image capture and identification system and process
US20060152479A1 (en) * 2005-01-10 2006-07-13 Carlson Michael P Intelligent text magnifying glass in camera in telephone and PDA
US20080002916A1 (en) * 2006-06-29 2008-01-03 Luc Vincent Using extracted image text
US20090102859A1 (en) * 2007-10-18 2009-04-23 Yahoo! Inc. User augmented reality for camera-enabled mobile devices
CN101918983A (zh) * 2008-01-15 2010-12-15 谷歌公司 街道视图数据的三维注释
US20090319181A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Data services based on gesture and location information of device
CN101702154A (zh) * 2008-07-10 2010-05-05 三星电子株式会社 对基于照相机的图像中的字符进行识别和翻译的方法
CN102025654A (zh) * 2009-09-15 2011-04-20 联发科技股份有限公司 便携设备及图片共享方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN110089123A (zh) * 2016-12-19 2019-08-02 萨基姆宽带联合股份公司 录制即将到来的电视广播节目的方法
CN110089123B (zh) * 2016-12-19 2021-08-17 萨基姆宽带联合股份公司 录制方法、解码器盒及存储装置
CN110636252A (zh) * 2018-06-21 2019-12-31 佳能株式会社 图像处理装置、图像处理方法和介质
US11188743B2 (en) 2018-06-21 2021-11-30 Canon Kabushiki Kaisha Image processing apparatus and image processing method

Also Published As

Publication number Publication date
US20130039535A1 (en) 2013-02-14

Similar Documents

Publication Publication Date Title
US10775967B2 (en) Context-aware field value suggestions
US11157577B2 (en) Method for searching and device thereof
TWI544350B (zh) Input method and system for searching by way of circle
US8253709B2 (en) Electronic device and method for predicting word input
CN102968266A (zh) 识别方法及装置
KR102240279B1 (ko) 컨텐트 처리 방법 및 그 전자 장치
US9342233B1 (en) Dynamic dictionary based on context
US9477883B2 (en) Method of operating handwritten data and electronic device supporting same
CN107562884A (zh) 一种信息流展现方法、装置、服务器和存储介质
US11734370B2 (en) Method for searching and device thereof
US20160371340A1 (en) Modifying search results based on context characteristics
WO2023061276A1 (zh) 数据推荐方法、装置、电子设备及存储介质
US20150062043A1 (en) Method of operating electronic handwriting and electronic device for supporting the same
US20230100964A1 (en) Data input system/example generator
KR20140146785A (ko) 오디오 및 텍스트 간의 변환을 위한 방법 및 전자 장치
KR20160083759A (ko) 주석 제공 방법 및 장치
CN103914209A (zh) 一种信息处理方法及电子设备
CN105824436A (zh) 一种字符输入方法以及输入法***
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
WO2024036616A1 (zh) 一种基于终端的问答方法及装置
KR20150135059A (ko) 검색을 수행하는 방법 및 장치
KR20120133149A (ko) 데이터 태깅 장치, 그의 데이터 태깅 방법 및 데이터 검색 방법
WO2020037557A1 (zh) 一种信息处理方法、装置以及计算机存储介质
KR20210020980A (ko) 키패드를 이용한 키워드 검색 방법 및 장치
CN117435116A (zh) 账户的二次查询方法、装置、电子设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130313