WO2015032308A1 - 一种图像识别方法及用户终端 - Google Patents

一种图像识别方法及用户终端 Download PDF

Info

Publication number
WO2015032308A1
WO2015032308A1 PCT/CN2014/085761 CN2014085761W WO2015032308A1 WO 2015032308 A1 WO2015032308 A1 WO 2015032308A1 CN 2014085761 W CN2014085761 W CN 2014085761W WO 2015032308 A1 WO2015032308 A1 WO 2015032308A1
Authority
WO
WIPO (PCT)
Prior art keywords
user terminal
marked
image
user
area
Prior art date
Application number
PCT/CN2014/085761
Other languages
English (en)
French (fr)
Inventor
徐丹华
汪运斌
龙志明
Original Assignee
华为终端有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为终端有限公司 filed Critical 华为终端有限公司
Publication of WO2015032308A1 publication Critical patent/WO2015032308A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/90Identifying an image sensor based on its output data

Definitions

  • the present invention relates to the field of communications, and in particular, to an image recognition method and a user terminal. Background technique
  • optical character recognition (OCR) technology can transfer text content to optical devices, such as image scanners, fax machines, or any photographic equipment, to transfer images to terminals such as computers and mobile phones, and then to text content.
  • OCR optical character recognition
  • the identification is performed and displayed in a terminal such as a computer or a mobile phone.
  • a page of content to be displayed is required to be displayed, and the content that the user is more concerned with cannot be clearly viewed.
  • the invention provides an image recognition method and a user terminal, which can solve the problem that the user cannot clearly view the more concerned content.
  • an image recognition method including:
  • the user terminal detects an operation of marking the user on the image; Determining, by the user terminal, a marked area of the user on the image;
  • the user terminal identifies the marked content of the marked area
  • the user terminal enlarges and displays the marked content.
  • the specific step of the user terminal determining the marked area of the user on the image includes:
  • the user terminal determines an area of the mark of the image by the track coordinates of the mark.
  • the specific step of the user terminal determining the marked area of the image by using the marked trajectory coordinates includes:
  • the user terminal determines that the area within the closed track is the area of the mark.
  • the specific step of the user terminal determining the marked region of the image by using the marked trajectory coordinates includes:
  • the user terminal determines that the area within the closed track is the area of the mark.
  • a user terminal in a second aspect, includes:
  • a detecting unit configured to detect an operation performed by the user on the image
  • a determining unit configured to determine a marked area of the user on the image
  • An identification unit configured to identify the marked content of the marked area
  • a display control unit configured to control the display to display the marked content in an enlarged manner.
  • the method includes:
  • Determining unit configured to determine, by the trajectory coordinates of the mark, the mark of the image Area.
  • the method includes: the determining unit, the track for the mark is a closed track, and the user terminal determines the closed track The area is the marked area.
  • the method includes: the determining unit, the track for the mark is a non-closed track, and the user terminal determines the non-closed track Above is the marked area.
  • the display control unit includes:
  • An extracting module configured to extract the identified content of the markup
  • a processing module configured to process the extracted content of the markup, and save the processed mark content
  • a display control module configured to control the display to display the processed mark content in an enlarged manner.
  • the embodiments of the present invention have the following advantages:
  • the user terminal detects an operation of marking a user on an image, and then determines an area of the mark made by the user on the image, and the user terminal identifies the mark content in the marked area, and then identifies the marked mark.
  • the content is enlarged and displayed, and the content that is of interest to the user can be enlarged and displayed.
  • 1 is a schematic diagram of an embodiment of an image recognition method according to an embodiment of the present invention
  • 2 is a schematic diagram of another embodiment of an image recognition method according to an embodiment of the present invention
  • FIG. 3 is a structural reference diagram of an embodiment of a user terminal according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of another embodiment of a user terminal according to an embodiment of the present invention.
  • FIG. 5 is a schematic diagram of another embodiment of a user terminal according to an embodiment of the present invention.
  • the embodiment of the invention provides an image recognition method and a user terminal, which can realize that the user terminal only enlarges and displays the marked content in the marked area i or inside.
  • an embodiment of an image recognition method in an embodiment of the present invention includes:
  • the user terminal detects an operation performed by the user on the image.
  • the user terminal can detect the user performing marking on the image, and the user can mark the image by the finger, or mark the image by the stylus, which is not limited herein, and the image is obtained. It is not limited, and may be an image produced by the user terminal after being photographed by the camera, or may be an image downloaded by the user terminal from other electronic devices.
  • the user terminal determines an area marked by the user on the image
  • the user terminal after detecting that the user marks on the image in step 101, the user terminal can determine the area of the mark made by the user on the image.
  • the user terminal after determining the marked area, can identify the marked content of the marked area, so that the user can view the obtained marked content through the screen of the user terminal.
  • the user terminal enlarges and displays the marked content.
  • the user terminal may enlarge and display the marked content identified in step 103. On the screen of the terminal.
  • the user terminal detects that the user marks on the image, and then determines the marked area of the mark made by the user on the image, and the user terminal identifies the marked content of the marked area, and then enlarges and displays the identified mark content, thereby realizing the user.
  • the terminal only recognizes the content of the mark in the marked area, and thus can display the content of interest to the user in an enlarged manner.
  • FIG. 2 another embodiment of the image recognition method in the embodiment of the present invention includes:
  • the user terminal detects an operation performed by the user to mark on the image.
  • the user terminal detects that the user performs marking on the image, and the image acquiring manner may be an image produced by the user terminal after being photographed by the camera, or may be an image downloaded by the user terminal from other electronic devices, for example, when the user is reading.
  • the newspaper or the advertisement slogan is seen outdoors, when you see the text content or pattern that you are interested in, the user can issue an instruction to the user terminal, the user terminal takes a picture according to the user's instruction, and generates an image after taking the picture, the user's instruction.
  • the image generated after the photographing includes the text content or pattern of interest to the user
  • the user terminal may first display the image on the screen of the user terminal, and the user may mark the image on the image.
  • the user is interested in the content, the user's marking on the image is not limited, the user can mark the image by the finger, or mark the image by the stylus, of course, the person skilled in the art can also according to the finger and the stylus Two ways of marking Easy to see that other markers embodiment, the present embodiment of the text to be marked as an example.
  • the user terminal can open a preset markup interface for the user to mark on the image. After the user mark is completed, the user can notify the user terminal to complete the mark by clicking the "complete" virtual button, and the user can also The voice command is used to inform the user terminal to complete the marking.
  • the manner in which the user terminal is notified to complete the marking is not limited.
  • the user terminal can preset the threshold A, when When the time marked by the user on the image is greater than or equal to the threshold A, the user terminal may issue a prompt message to ask the user whether to complete the marking.
  • the user terminal determines an area of the mark in the image by using the track coordinates of the mark;
  • the mark made by the user on the image is not limited, and may be a straight line, or a curve, or an ellipse, or a rectangle, or a circle.
  • the track of the user terminal identification mark is existing. Technique, since the user marks the image in the screen of the user terminal, the user terminal can detect the touch point of the user on the screen, identify the track coordinates of the touch point, and the user terminal determines the marked area in the image by the marked track coordinates.
  • the user terminal can pre-set the area within the closed track as the marked area, if the marked track is a non-closed track (eg, a straight line or Curve), the user terminal can preset the area marked above the non-closed track.
  • the user terminal can preset the text area closest to the N line above the non-closed track as the marked area, if the image includes a pattern (eg, person, object), the user terminal can prompt the user to select a closed track Marker, of course, the marked area can also set the user's own habits, e.g., below the non-closed track marked area.
  • the user terminal can identify only the marked content of the marked area through the OCR.
  • the OCR technology determines the shape of the character by checking the characters printed on the paper and detecting the dark and bright patterns. Then, the character recognition method is used to translate the shape into computer text.
  • the specific implementation of OCR is a well-known technology, which will not be described in detail here.
  • the user terminal extracts the identified tag content.
  • the user terminal processes the extracted tag content, and saves the processed tag content.
  • the user terminal enlarges and displays the marked content.
  • the user terminal extracts the marked content obtained in step 203, if the content is marked.
  • the extracted mark content is re-typed, and the re-formatted mark content is saved and displayed to the user. If the mark content is a pattern, the size, tone and other parameters of the pattern are processed, and then The user terminal enlarges and displays the processed mark content. In an actual application, the user can share the mark content stored in the user terminal to other users.
  • the user terminal detects an operation of marking the user on the image, the user terminal determines the marked area in the image by the marked trajectory coordinates, the user terminal identifies the marked content of the marked area, and the marked content that the user terminal will recognize.
  • the user terminal processes the extracted mark content, and saves the processed mark content, and the user terminal displays the processed mark content, thereby realizing that the user terminal only enlarges and displays the mark content in the marked area.
  • the user can view the content of interest, and the user terminal saves the extracted tag content, which can effectively save the storage space, so that the user can find the content of interest and share it with other users at any time.
  • the user terminal of the embodiment of the present invention for performing the above image recognition method is described below.
  • the basic logical structure of the embodiment of the present invention is as follows:
  • a detecting unit 301 a determining unit 302, an identifying unit 303, and a display control unit 304;
  • a detecting unit 301 configured to detect an operation performed by the user on the image
  • a determining unit 302 configured to determine a marked area of the user on the image
  • the identifying unit 303 is configured to identify the marked content of the marked area
  • the display control unit 304 is configured to control the display to enlarge and display the identified mark content.
  • the detecting unit 301 detects an operation of marking the user on the image
  • the determining unit 302 determines the area marked by the user on the image
  • the identifying unit 303 identifies the marked content of the marked area
  • the display control unit 304 controls the display to enlarge the display identification.
  • the unit 303 recognizes the marked content, and realizes that the user terminal only recognizes the marked content of the marked area, and can further enlarge and display the content of interest to the user.
  • the following describes the data interaction mode in the user terminal in the interaction between the modules and the units included in the user terminal in the specific embodiment. Referring to FIG. 4, the user in the embodiment of the present invention is used.
  • Another embodiment of the terminal includes:
  • Detection unit 401 determination unit 402, identification unit 403, display control unit 404;
  • the display control unit 404 includes: an extracting module 4041, a processing module 4042, and a display control module 4043;
  • the detecting unit 401 detects that the user performs marking on the image.
  • the image may be acquired by an image produced by the camera, or may be an image downloaded by the user terminal from other electronic devices, for example, when the user is reading, When the newspaper sees the advertising slogan outdoors, when you see the text content or pattern that you are interested in, the user can issue an instruction to the user terminal, the user terminal takes a photo according to the user's instruction, and generates an image after taking the photo.
  • the user's instruction is Instructing the user terminal to capture text content or a pattern of interest to the user, and the image generated after the photographing includes text content or a pattern of interest to the user, and the user terminal may first display the image on the screen of the user terminal, and the user may mark the image on the image.
  • the content of the text of interest, the way the user marks on the image is not limited, the user can mark the image by fingers, or mark the image by the stylus, of course, the person skilled in the art can also according to the finger and the stylus Two ways of marking
  • the detecting unit 401 can inform the determining unit 402 that the detection is completed, and send the image to the determining unit 402;
  • the determining unit 402 determines the marked area of the image by the marked trajectory coordinates, wherein the user's mark on the image is not defined, and may be a straight line, or a curve, or an ellipse, or a rectangle, or a circle, in practical applications.
  • the track of the marked area identification mark is prior art.
  • the determining unit 402 can detect the touch point of the user, recognize the track coordinates of the touch point, and then the determining unit 402 passes The track coordinates of the mark determine the area of the mark in the image, and if the track of the mark is a closed track (eg, elliptical, rectangular or circular), the determining unit 402 determines the closed track The area inside the trace is the marked area. If the marked track is a non-closed track (for example, a straight line or a curve),
  • the user may be prompted to select a closed track for marking.
  • the marked area may be set according to the user's habit. For example, the area below the non-closed track is the marked area, and the determining unit 402 will determine The image is sent to the recognition unit 403, and the area i of the mark in the image of the recognition unit 403 is notified;
  • the identification unit 403 identifies the marked content of the marked area. If the marked content is text, the mark content of the marked area can be recognized only by the OCR.
  • the OCR technology detects the characters printed on the paper and detects the dark and bright mode determining characters. The shape, and then the character recognition method is used to translate the shape into computer text.
  • the specific implementation of OCR is a well-known technology.
  • the identification unit 403 sends the image to the extraction module 4041, and the identified mark is Content notification extraction module 4041;
  • the extracting module 4041 extracts the marked content in the marked area in the image, and sends the extracted marked content to the processing module 4042;
  • the processing module 4042 re-formats the extracted mark content, saves the newly-edited mark content and displays it to the user. If the mark content is a pattern, the processing module 4042 determines the size of the mark, The parameters such as hue are processed, and the processing module 4042 saves the processed tag content. In an actual application, the user can share the tag content stored in the user terminal to other users, and the processing module 4042 sends the processed tag content to the display control. Module 4043;
  • the display control module 4043 controls the display to magnify the displayed marked content.
  • the detecting unit 401 detects an operation of marking the user on the image
  • the determining unit 402 determines the marked area of the image by the marked trajectory coordinates
  • the identifying unit 403 identifies the marked content of the marked area
  • the extracting module 4041 recognizes
  • the obtained tag content is extracted
  • the processing module 4042 extracts the content.
  • the tag content is processed, and the processed tag content is saved, and the display control module 4043 controls the display to enlarge and display the marked content, so that the user terminal only enlarges and displays the marked content in the marked area, thereby facilitating the user to view the content.
  • the content of interest, and the user terminal saves the extracted tag content through the processing module 4042, which can effectively save the storage space, so that the user can find the content of interest and share it with other users at any time.
  • FIG. 5 Another embodiment of the user terminal in the embodiment of the present invention includes: a processor 501, a camera 502 for producing an image, a display 503, and a file for storing images. Memory 504.
  • the processor 501 detects an operation of marking the user on the image, determines a marked area of the user on the image, and then identifies the marked content of the marked area;
  • the display 503 enlarges the displayed mark content.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种图像识别方法及用户终端,本发明实施例方法包括:用户终端检测用户在图像上进行标记的操作,然后确定用户在图像上的标记的区域,用户终端识别标记的区域的标记内容,然后放大显示标记内容,能够对用户感兴趣的内容进行放大显示。

Description

一种图像识别方法及用户终端
本申请要求于 2013年 09月 05日提交中国专利局, 申请号为 CN 201310400604.0、发明名称为 "一种图像识别方法及用户终端"的中国专利申请, 其全部内容通过引用结合在本申请中。 技术领域
本发明涉及通信领域, 尤其涉及一种图像识别方法及用户终端。 背景技术
通常, 人们在看书、 报纸或者大街上的广告语的时候, 看见自己感兴趣的 内容会想要存储下来, 特别是在室外时, 没有纸笔无法记录下来。
现有的光学字符识别 (OCR, Optical Character Recognition )技术, 可以将 文本内容透过光学仪器, 如影像扫描仪、 传真机或任何摄影器材, 将影像转入 计算机、 手机等终端, 然后对文本内容进行识别进而显示在计算机、 手机等终 端中, 然而, 由于终端设备的屏幕较小, 所需显示的一页内容又较多, 无法清 晰查看用户较为关注的内容。 发明内容
本发明提供一种图像识别方法及用户终端, 能够解决用户无法清晰查看较 为关注的内容。
第一方面, 提供了一种图像识别方法, 包括:
所述用户终端检测所述用户在所述图像上进行标记的操作; 所述用户终端确定所述用户在所述图像上的标记的区域;
所述用户终端识别所述标记的区域的标记内容;
所述用户终端放大显示所述标记内容。
结合第一方面, 在第一方面的第一种实施方式中, 所述用户终端确定用户 在所述图像上的标记的区域的具体步骤包括:
所述用户终端通过所述标记的轨迹坐标确定所述图像的所述标记的区域。 结合第一方面的第一种实施方式, 在第一方面的第二种实施方式中, 所述 用户终端通过所述标记的轨迹坐标确定所述图像的所述标记的区域的具体步骤 包括:
若所述标记的轨迹为封闭轨迹, 所述用户终端确定封闭轨迹内的区域为所 述标记的区域。
结合第一方面的第一种实施方式, 在第一方面的第三种实施方式中, 所述 用户终端通过所述标记的轨迹坐标确定所述图像的所述标记的区域的具体步骤 包括:
若所述标记的轨迹为封闭轨迹, 所述用户终端确定封闭轨迹内的区域为所 述标记的区域。
第二方面, 提供了一种用户终端, 所述用户终端包括:
检测单元, 用于检测所述用户在所述图像上进行标记的操作;
确定单元, 用于确定所述用户在所述图像上的标记的区域;
识别单元, 用于识别所述标记的区域的标记内容;
显示控制单元, 用于控制显示器放大显示所述标记内容。
结合第二方面, 在第二方面的第一种实施方式中, 包括:
所述确定单元, 用于通过所述标记的轨迹坐标确定所述图像的所述标记的 区域。
结合第二方面的第一种实施方式, 在第二方面的第二种实施方式中, 包括: 所述确定单元, 用于所述标记的轨迹为封闭轨迹, 所述用户终端确定封闭 轨迹内的区域为所述标记的区域。
结合第二方面的第一种实施方式, 在第二方面的第三种实施方式中, 包括: 所述确定单元, 用于所述标记的轨迹为非封闭轨迹, 所述用户终端确定非 封闭轨迹的上方为所述标记的区域。
结合第二方面, 或第二方面的第一种实施方式, 或第二方面的第二种实施 方式, 或第二方面的第三种实施方式, 在第二方面的第四种实施方式中, 所述 显示控制单元包括:
摘取模块, 用于将识别得到的所述标记内容进行摘取;
处理模块, 用于对摘取到的所述标记内容进行处理, 并保存处理后的所述 标记内容;
显示控制模块, 用于控制所述显示器对处理后的所述标记内容进行放大显 示。
从以上技术方案可以看出, 本发明实施例具有以下优点:
本发明实施例中, 用户终端检测用户在图像上进行标记的操作, 然后确定 用户在图像上所做的标记的区域, 用户终端对标记的区域中的标记内容进行识 别, 然后对识别后的标记内容进行放大显示, 能够对用户感兴趣的内容进行放 大显示。 附图说明
图 1为本发明实施例中图像识别方法一个实施例示意图; 图 2为本发明实施例中图像识别方法另一实施例示意图;
图 3为本发明实施例中用户终端一个实施例结构参考图;
图 4为本发明实施例中用户终端另一实施例示意图;
图 5为本发明实施例中用户终端的另一实施例示意图。 具体实施方式 本发明实施例提供一种图像识别方法及用户终端, 能够实现用户终端只对 标记的区 i或内的标记内容放大显示。
请参照图 1 , 本发明实施例中图像识别方法一个实施例包括:
101、 用户终端检测用户在图像上进行标记的操作;
本实施例中, 用户终端可以检测用户在图像上进行标记的操作, 用户可以 通过手指在图像上做标记, 也可以通过手写笔在图像上做标记, 此处不做限定, 该图像的获取方式不做限定, 可以是用户终端通过摄像头拍摄后生产的图像, 也可以为用户终端从其它电子设备下载的图像。
102、 用户终端确定用户在图像上标记的区域;
本实施例中, 在步骤 101检测用户在图像上进行标记之后, 用户终端可以确 定用户在图像上所做的标记的区域。
103、 用户终端识别标记的区域的标记内容;
本实施例中, 用户终端在确定标记的区域后, 可以识别标记的区域的标记 内容, 使得用户可以通过用户终端的屏幕查看识别得到的标记内容。
104、 用户终端放大显示标记内容。
本实施例中, 用户终端可以对在步骤 103中识别后的标记内容放大显示在用 户终端的屏幕上。
本实施例中, 用户终端检测用户在图像上进行标记, 然后确定用户在图像 上所做的标记的区域, 用户终端识别标记的区域的标记内容, 然后放大显示识 别后的标记内容, 实现了用户终端只对标记的区域中的标记内容进行识别, 进 而能够对用户感兴趣的内容进行放大显示。
为了便于理解, 下面以一具体实例对本发明实施例中的图像识别方法进行 描述, 请参阅图 2 , 本发明实施例中图像识别方法另一实施例包括:
201、 用户终端检测用户在图像上进行标记的操作;
本实施例中, 用户终端检测用户在图像上进行标记, 图像的获取方式可以 为用户终端通过摄像头拍摄后生产的图像, 也可以为用户终端从其它电子设备 下载的图像, 例如, 当用户在读书、 报纸或者在室外看到广告标语的时候, 看 到自己感兴趣的文字内容或图案, 用户可以向用户终端发出指令, 用户终端根 据用户的指令进行拍照, 并在拍照后生成图像, 用户的指令为指示用户终端拍 摄用户感兴趣的文字内容或图案, 拍照后生成的图像中包含用户感兴趣的文字 内容或图案, 用户终端可以先将图像显示在用户终端的屏幕上, 用户可以在图 像上标记出感兴趣的内容, 用户在图像上的标记方式不做限定, 用户可以通过 手指在图像上做标记, 也可以通过手写笔在图像上做标记, 当然本领域技术人 员还可以根据手指和手写笔两种标记方式所显而易见其它标记方式, 本实施例 中以对文字内容进行标记为例进行说明。
在实际应用中, 用户终端可以开启预设的标记界面来供用户在图像上进行 标记, 当用户标记完成后, 用户可以通过点击 "完成" 虚拟按键的方式来告知 用户终端完成标记, 用户也可以通过语音命令来告知用户终端完成标记, 此处 告知用户终端完成标记的方式不做限定, 当然用户终端可以预先设定阔值 A, 当 用户在图像上标记的时间大于或等于该阔值 A时,用户终端可以发出提示信息来 询问用户是否完成标记。
202、 用户终端通过标记的轨迹坐标确定图像中的标记的区域;
本实施例中, 用户在图像上所做的标记不做限定, 可以为直线、 或曲线、 或椭圓形、 或矩形、 或圓形, 在实际应用中, 用户终端识别标记的轨迹为现有 技术, 由于用户对用户终端的屏幕中的图像进行标记, 用户终端可以检测到用 户在屏幕上的触摸点, 识别出触摸点的轨迹坐标, 用户终端通过标记的轨迹坐 标确定图像中的标记的区域, 若标记的轨迹为封闭轨迹(如, 椭圓形、 矩形或 圓形) , 用户终端可以预先设定封闭轨迹内的区域为标记的区域, 若标记的轨 迹为非封闭轨迹(如, 直线或曲线) , 用户终端可以预先设定非封闭轨迹上方 为标记的区域, 在实际应用中, 用户终端可以预先设定最靠近非封闭轨迹上方 N 行的文字区域作为标记的区域, 若图像中包括图案 (如, 人物、 物体) 时, 用 户终端可以提示用户选择封闭轨迹进行标记, 当然还可以根据用户的习惯自行 设定标记的区域, 例如, 非封闭轨迹的下方为标记的区域。
203、 用户终端识别标记的区域的标记内容;
本实施例中, 以标记内容为文字为例, 用户终端可以通过 OCR仅识别标记 的区域的标记内容, OCR技术是通过检查纸上打印的字符, 并检测暗、 亮的模 式确定字符的形状,然后用字符识别方法将形状翻译成计算机文字的技术, OCR 具体的实现方式为公知技术, 此处不做详述。
204、 用户终端将识别得到的标记内容进行摘取;
205、 用户终端对摘取到的标记内容进行处理, 并保存处理后的标记内容;
206、 用户终端放大显示标记内容。
本实施例中, 用户终端对步骤 203中得到的标记内容进行摘取, 若标记内容 为文字, 则对摘取到的标记内容进行重新排版, 将重新排版后的标记内容进行 保存并向用户进行显示, 若标记内容为图案, 则对该图案的大小、 色调等参数 进行处理, 然后用户终端放大显示处理后的标记内容, 在实际应用中, 用户可 以将保存在用户终端中的标记内容分享给其它用户。
本实施例中, 用户终端检测用户在图像上进行标记的操作, 用户终端通过 标记的轨迹坐标确定图像中的标记的区域, 用户终端识别标记的区域的标记内 容, 用户终端将识别得到的标记内容进行摘取, 用户终端对摘取到的标记内容 进行处理, 并保存处理后的标记内容, 用户终端对处理后的标记内容进行显示, 实现了用户终端只对标记的区域内的标记内容放大显示, 进而方便用户查看感 兴趣的内容, 而且用户终端将摘取到的标记内容进行保存可以有效的节省了存 储的空间, 进而使用户随时都可以查找自己感兴趣的内容并分享给其它用户。
下面对用于执行上述图像识别方法的本发明实施例的用户终端进行说明, 其基本逻辑结构参考图 3 , 本发明实施例中用户终端一个实施例包括:
检测单元 301、 确定单元 302、 识别单元 303和显示控制单元 304;
检测单元 301 , 用于检测用户在图像上进行标记的操作;
确定单元 302 , 用于确定用户在图像上的标记的区域;
识别单元 303 , 用于识别标记的区域的标记内容;
显示控制单元 304 , 用于控制显示器放大显示识别后的标记内容。
本实施例中,检测单元 301检测用户在图像上进行标记的操作,确定单元 302 确定用户在图像上标记的区域, 识别单元 303识别标记的区域的标记内容, 显示 控制单元 304控制显示器放大显示识别单元 303识别后的标记内容, 实现了用户 终端只对标记的区域的标记内容进行识别, 进而能够对用户感兴趣的内容进行 放大显示。 为了更好的理解上述的实施例, 下面以具体实施例对用户终端中包括的各 个模块及单元间的交互对用户终端中的数据交互方式进行说明, 请参阅图 4, 本 发明实施例中用户终端的另一实施例包括:
检测单元 401、 确定单元 402、 识别单元 403、 显示控制单元 404;
其中显示控制单元 404包括: 摘取模块 4041、 处理模块 4042和显示控制模块 4043;
检测单元 401检测用户在图像上进行标记, 在实际应用中, 图像的获取方式 可以为通过摄像头拍摄后生产的图像, 也可以为用户终端从其它电子设备下载 的图像, 例如, 当用户在读书、 报纸或者在室外看到广告标语的时候, 看到自 己感兴趣的文字内容或图案, 用户可以向用户终端发出指令, 用户终端根据用 户的指令进行拍照, 并在拍照后生成图像, 用户的指令为指示用户终端拍摄用 户感兴趣的文字内容或图案, 拍照后生成的图像中包含用户感兴趣的文字内容 或图案, 用户终端可以先将图像显示在用户终端的屏幕上, 用户可以在图像上 标记出感兴趣的文字内容, 用户在图像上的标记方式不做限定, 用户可以通过 手指在图像上做标记, 也可以通过手写笔在图像上做标记, 当然本领域技术人 员还可以根据手指和手写笔两种标记方式所显而易见其它标记方式, 检测单元 401可以告知确定单元 402检测完毕, 并将图像发送至确定单元 402;
确定单元 402通过标记的轨迹坐标确定图像的标记的区域, 其中用户在图像 上的标记不 ^1限定, 可以为直线、 或曲线、 或椭圓形、 或矩形、 或圓形, 在实 际应用中, 标记的区域识别标记的轨迹为现有技术, 由于用户对用户终端的屏 幕中的图像进行标记, 确定单元 402可以检测到用户的触摸点, 识别出触摸点的 轨迹坐标, 然后确定单元 402通过标记的轨迹坐标确定图像中的标记的区域, 若 标记的轨迹为封闭轨迹(如, 椭圓形、 矩形或圓形) , 确定单元 402确定封闭轨 迹内的区域为标记的区域, 若标记的轨迹为非封闭轨迹(如, 直线或曲线) ,
(如, 人物、 物体) 时, 可以提示用户选择封闭轨迹进行标记, 当然还可以根 据用户的习惯自行设定标记的区域, 例如, 非封闭轨迹的下方为标记的区域, 确定单元 402将确定后的图像发送至识别单元 403 , 并告知识别单元 403图像中的 标记的区 i或;
识别单元 403识别标记的区域的标记内容, 若标记内容为文字时, 可以通过 OCR仅识别标记的区域的标记内容, OCR技术是通过检查纸上打印的字符, 并 检测暗、 亮的模式确定字符的形状, 然后用字符识别方法将形状翻译成计算机 文字的技术, OCR具体的实现方式为公知技术, 此处不做详述, 识别单元 403发 送图像至摘取模块 4041 , 并将识别出的标记内容告知摘取模块 4041;
摘取模块 4041对图像中的标记的区域中的标记内容进行摘取, 并将摘取到 的标记内容发送至处理模块 4042;
若标记内容为文字, 处理模块 4042对摘取到的标记内容进行重新排版, 将 重新排版后的标记内容进行保存并向用户进行显示, 若标记内容为图案, 处理 模块 4042对该图案的大小、 色调等参数进行处理, 处理模块 4042保存处理后的 标记内容, 在实际应用中, 用户可以将保存在用户终端中的标记内容分享给其 它用户, 处理模块 4042将处理后的标记内容发送至显示控制模块 4043 ;
显示控制模块 4043控制显示器放大显示处理后的标记内容。
本实施例中,检测单元 401检测用户在图像上进行标记的操作,确定单元 402 通过标记的轨迹坐标确定图像的标记的区域, 识别单元 403识别标记的区域的标 记内容, 摘取模块 4041将识别得到的标记内容进行摘取, 处理模块 4042对摘取 到的标记内容进行处理, 并保存处理后的标记内容, 显示控制模块 4043控制显 示器放大显示处理后的标记内容, 实现了用户终端只对标记的区域内的标记内 容放大显示,进而方便用户查看感兴趣的内容,而且用户终端通过处理模块 4042 将摘取到的标记内容进行保存可以有效的节省了存储的空间, 进而使用户随时 都可以查找自己感兴趣的内容并分享给其它用户。
下面对本发明实施例中用户终端的进一步说明, 请参阅图 5 , 本发明实施例 中用户终端另一实施例包括: 处理器 501、 用于生产图像的摄像头 502、 显示器 503以及用于存储图像的存储器 504。
处理器 501检测用户在图像上进行标记的操作, 确定用户在图像上的标记的 区域, 然后识别标记的区域的标记内容;
显示器 503放大显示标记内容。
所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描述 的***, 装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过程, 在此不再赘述。
以上所述, 以上实施例仅用以说明本发明的技术方案, 而非对其限制; 尽 管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理 解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分 技术特征进行等同替换, 而这些修改或者替换, 并不使相应技术方案的本质脱 离本发明各实施例技术方案的精神和范围。

Claims

权 利 要求 书
1、 一种图像识别方法, 其特征在于, 包括:
所述用户终端检测所述用户在所述图像上进行标记的操作;
所述用户终端确定所述用户在所述图像上的标记的区域;
所述用户终端识别所述标记的区域的标记内容;
所述用户终端放大显示所述标记内容。
2、 根据权利要求 1所述的方法, 其特征在于, 所述用户终端确定用户在所 述图像上的标记的区域的具体步骤包括:
所述用户终端通过所述标记的轨迹坐标确定所述图像的所述标记的区域。
3、 根据权利要求 2所述的方法, 其特征在于, 所述用户终端通过所述标记 的轨迹坐标确定所述图像的所述标记的区域的具体步骤包括:
若所述标记的轨迹为封闭轨迹, 所述用户终端确定封闭轨迹内的区域为所 述标记的区域。
4、 根据权利要求 2所述的方法, 其特征在于, 所述用户终端通过所述标记 的轨迹坐标确定所述图像的所述标记的区域的具体步骤包括:
若所述标记的轨迹为非封闭轨迹, 所述用户终端确定非封闭轨迹的上方为 所述标记的区域。
5、 一种用户终端, 其特征在于, 所述用户终端包括:
检测单元, 用于检测所述用户在所述图像上进行标记的操作;
确定单元, 用于确定所述用户在所述图像上的标记的区域;
识别单元, 用于识别所述标记的区域的标记内容;
显示控制单元, 用于控制显示器放大显示所述标记内容。
6、 根据权利要求 5所述的用户终端, 其特征在于,
所述确定单元, 用于通过所述标记的轨迹坐标确定所述图像的所述标记的 区域。
7、 根据权利要求 6所述的用户终端, 其特征在于,
所述确定单元, 用于所述标记的轨迹为封闭轨迹, 所述用户终端确定封闭 轨迹内的区域为所述标记的区域。
8、 根据权利要求 6所述的用户终端, 其特征在于,
所述确定单元, 用于所述标记的轨迹为非封闭轨迹, 所述用户终端确定非 封闭轨迹的上方为所述标记的区域。
9、根据权利要求 5-8任一项所述的用户终端, 其特征在于, 所述显示控制单 元包括:
摘取模块, 用于将识别得到的所述标记内容进行摘取;
处理模块, 用于对摘取到的所述标记内容进行处理, 并保存处理后的所述 标记内容;
显示控制模块, 用于控制所述显示器对处理后的所述标记内容进行放大显
PCT/CN2014/085761 2013-09-05 2014-09-02 一种图像识别方法及用户终端 WO2015032308A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310400604.0A CN104424472B (zh) 2013-09-05 2013-09-05 一种图像识别方法及用户终端
CN201310400604.0 2013-09-05

Publications (1)

Publication Number Publication Date
WO2015032308A1 true WO2015032308A1 (zh) 2015-03-12

Family

ID=52627798

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/085761 WO2015032308A1 (zh) 2013-09-05 2014-09-02 一种图像识别方法及用户终端

Country Status (2)

Country Link
CN (2) CN104424472B (zh)
WO (1) WO2015032308A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830055B2 (en) 2016-02-16 2017-11-28 Gal EHRLICH Minimally invasive user metadata
CN108461129A (zh) * 2018-03-05 2018-08-28 余夏夏 一种基于图像认证的医学影像标注方法、装置和用户终端
CN116030388A (zh) * 2022-12-30 2023-04-28 以萨技术股份有限公司 一种识别任务的处理方法、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059678A (zh) * 2019-04-17 2019-07-26 上海肇观电子科技有限公司 一种检测方法、装置及计算机可读存储介质
KR20220027081A (ko) 2019-06-10 2022-03-07 넥스트브이피유 (상하이) 코포레이트 리미티드 텍스트 검출 방법, 판독 지원 디바이스 및 매체
CN110032994B (zh) * 2019-06-10 2019-09-20 上海肇观电子科技有限公司 文字检测方法、阅读辅助设备、电路及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1689068A (zh) * 2003-03-04 2005-10-26 富士通株式会社 图像显示方法、图像显示程序以及信息装置
CN102999752A (zh) * 2012-11-15 2013-03-27 广东欧珀移动通信有限公司 对图片中局部字符进行快速识别的方法、装置及终端
CN103092507A (zh) * 2011-11-08 2013-05-08 三星电子株式会社 用于在便携式终端中表现图像的设备和方法
CN103135884A (zh) * 2011-11-22 2013-06-05 财团法人资讯工业策进会 以圈选方式进行检索的输入方法、***及其装置
CN103235836A (zh) * 2013-05-07 2013-08-07 西安电子科技大学 一种利用手机录入信息的方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6956779B2 (en) * 1999-01-14 2005-10-18 Silicon Storage Technology, Inc. Multistage autozero sensing for a multilevel non-volatile memory integrated circuit system
WO2010055558A1 (ja) * 2008-11-12 2010-05-20 富士通株式会社 文字領域抽出装置,文字領域抽出機能を備えた撮像装置,および文字領域抽出プログラム
KR101558211B1 (ko) * 2009-02-19 2015-10-07 엘지전자 주식회사 문자 입력을 위한 유저 인터페이스 방법과 이를 이용한 이동 단말기
KR101857564B1 (ko) * 2009-05-15 2018-05-15 삼성전자 주식회사 휴대 단말기의 이미지 처리 방법
KR101527037B1 (ko) * 2009-06-23 2015-06-16 엘지전자 주식회사 이동 단말기 및 그 제어방법
CN102169477B (zh) * 2010-02-25 2013-02-20 汉王科技股份有限公司 电子文档显示方法和装置
CN102184396A (zh) * 2011-06-13 2011-09-14 北方工业大学 基于ocr识别反馈的文档图像倾斜校正方法
CN102662566B (zh) * 2012-03-21 2016-08-24 中兴通讯股份有限公司 屏幕内容放大显示方法及终端
CN103176712B (zh) * 2013-03-08 2016-03-09 小米科技有限责任公司 一种图像放大显示方法和装置
CN103279286A (zh) * 2013-05-06 2013-09-04 鸿富锦精密工业(深圳)有限公司 调整图片显示比例的电子装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1689068A (zh) * 2003-03-04 2005-10-26 富士通株式会社 图像显示方法、图像显示程序以及信息装置
CN103092507A (zh) * 2011-11-08 2013-05-08 三星电子株式会社 用于在便携式终端中表现图像的设备和方法
CN103135884A (zh) * 2011-11-22 2013-06-05 财团法人资讯工业策进会 以圈选方式进行检索的输入方法、***及其装置
CN102999752A (zh) * 2012-11-15 2013-03-27 广东欧珀移动通信有限公司 对图片中局部字符进行快速识别的方法、装置及终端
CN103235836A (zh) * 2013-05-07 2013-08-07 西安电子科技大学 一种利用手机录入信息的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830055B2 (en) 2016-02-16 2017-11-28 Gal EHRLICH Minimally invasive user metadata
US10613715B2 (en) 2016-02-16 2020-04-07 Gal EHRLICH Minimally invasive user metadata
CN108461129A (zh) * 2018-03-05 2018-08-28 余夏夏 一种基于图像认证的医学影像标注方法、装置和用户终端
CN108461129B (zh) * 2018-03-05 2022-05-20 余夏夏 一种基于图像认证的医学影像标注方法、装置和用户终端
CN116030388A (zh) * 2022-12-30 2023-04-28 以萨技术股份有限公司 一种识别任务的处理方法、电子设备及存储介质
CN116030388B (zh) * 2022-12-30 2023-08-11 以萨技术股份有限公司 一种识别任务的处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN109902687B (zh) 2023-12-08
CN104424472B (zh) 2019-02-19
CN104424472A (zh) 2015-03-18
CN109902687A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN111062312B (zh) 手势识别方法、手势控制方法、装置、介质与终端设备
WO2015032308A1 (zh) 一种图像识别方法及用户终端
JP6208383B2 (ja) プレビューモードにおける画像キャプチャリングパラメータ調整
KR102173123B1 (ko) 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
TWI522933B (zh) 一種訊息識別方法、相關裝置及其系統
EP3547218B1 (en) File processing device and method, and graphical user interface
US9104261B2 (en) Method and apparatus for notification of input environment
CN103810471B (zh) 识别文档图像的方法和装置及其拍摄方法
WO2012039185A1 (ja) 画像処理システムとそれに用いる撮像対象物
KR20150025452A (ko) 데이터 처리 방법 및 그 전자 장치
WO2011009343A1 (zh) 字符输入方法及***、电子设备及其键盘
WO2017166236A1 (zh) 信息关联方法、电子书签及信息关联***
JP2012027908A (ja) 視覚処理装置、視覚処理方法、および、視覚処理システム
JP2005275652A (ja) 入力軌跡処理装置および入力軌跡処理方法
CN105260370A (zh) 一种二维码信息获取方法、装置及终端
CN104951749A (zh) 图像内容识别装置和方法
KR102303206B1 (ko) 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
WO2014086266A1 (zh) 一种方便电子化的专业笔记本及其电子缩略图显示方法
US9514451B2 (en) Method, apparatus and system for information identification
JP6399371B1 (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
JP2014007767A (ja) 画像処理プログラム、及び画像処理方法
US10791272B1 (en) Image correction by expected location of symbols for document scanning and data extraction
JP6408055B2 (ja) 情報処理装置、方法及びプログラム
CN106709496B (zh) 识别文字信息的智能交互***及其交互方法
KR102103277B1 (ko) 이미지를 관리하는 방법 및 그 전자 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14842509

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14842509

Country of ref document: EP

Kind code of ref document: A1