CN106325750A - 一种应用于终端设备的文字识别方法及*** - Google Patents

一种应用于终端设备的文字识别方法及*** Download PDF

Info

Publication number
CN106325750A
CN106325750A CN201610728913.4A CN201610728913A CN106325750A CN 106325750 A CN106325750 A CN 106325750A CN 201610728913 A CN201610728913 A CN 201610728913A CN 106325750 A CN106325750 A CN 106325750A
Authority
CN
China
Prior art keywords
picture
pixel
identified
terminal unit
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610728913.4A
Other languages
English (en)
Inventor
曹蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610728913.4A priority Critical patent/CN106325750A/zh
Publication of CN106325750A publication Critical patent/CN106325750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种应用于终端设备的文字识别方法及***,其中,所述方法包括:获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;根据所述划取操控指令在所述待识别图片上确定识别图块;识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。本发明提供的一种应用于终端设备的文字识别方法及***,可以通过读取图片中的信息再将其转化为文字信息来实现聊天场景中信息内容的快速输入,大大提高用户聊天应用的使用体验。

Description

一种应用于终端设备的文字识别方法及***
技术领域
本发明涉及数据处理技术领域,具体涉及一种应用于终端设备的文字识别方法及***。
背景技术
随着移动通信技术的迅速发展,IM(InstantMessaging,即时通讯工具)已成为人们生活中必不可少的一部分。用户可以通过IM软件如QQ、微信、钉钉等,实时地跟朋友、同事、家人等联系人进行通信,大大方便了人们的日常交流需求。
目前,用户在即时通讯工具时,可以聊天场景中输入文字、语音、表情、图片等信息。这些聊天信息通常可以通过用户的键盘输入、表情或图片选择等方式直接输入在聊天场景的对话界面中。尽管现有的即时通讯工具中用户可以输入多种多样的聊天信息,但这种聊天信息的输入方式都是基于用户的键盘拼写或表情、图片选择等的方式直接输入到聊天场景中。而在其他的应用场景中,如用户不会拼写的生僻字,用户不会或者不习惯用键盘输入,或者用户需要摘录或查询图片中的某些信息发送给对方,如查看官方网址、搜索论文中某个公式的含义,等等,在这种情况下,现有的聊天场景中的信息输入方式难以快速、方便的满足用户的这些使用需求。此时的用户往往是手写查询生僻字或者逐个字符输入图片中商品的网址信息等等,用户操作繁琐,聊天信息输入缓慢,用户聊天应用体验较差。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明的目的在于提供一种应用于终端设备的文字识别方法及***,可以通过读取图片中的信息再将其转化为文字信息来实现聊天场景中信息内容的快速输入,大大提高用户聊天应用的使用体验。
为实现上述目的,本发明一方面提供一种应用于终端设备的文字识别方法,所述方法包括:获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;根据所述划取操控指令在所述待识别图片上确定识别图块;识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
进一步地,所述获取待识别图片具体包括:获取用户从本地图库中选取的本地照片,并将选取的本地照片作为所述待识别图片;或者获取用户在聊天记录中选取的聊天图片,并将选取的聊天图片作为所述待识别图片;或者基于用户的触发指令执行屏幕截图,并将所述屏幕截图获取的截图图片作为所述待识别图片。
进一步地,所述划取操控指令在所述待识别图片上生成预设数量的色块;相应地,在根据所述划取操控指令在所述待识别图片上确定识别图块的步骤中具体包括:检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。
进一步地,在检测所述待识别图片上各个色块的边缘的步骤中具体包括:将包含各个色块的待识别图片进行灰度化处理,得到灰度图像;利用预设的高斯函数,对所述灰度图像进行滤波处理,得到滤除噪点的过滤图像;计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向;基于计算的所述梯度幅值和所述梯度方向,在所述过滤图像中确定极大值像素点;从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点,并将筛选出的所述像素点确定为色块的边缘像素点。
进一步地,在计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向的步骤中具体包括:根据预设的横向卷积算子和纵向卷积算子,计算所述过滤图像中各个像素点对应的一阶横向偏导数矩阵和一阶纵向偏导数矩阵;基于所述一阶横向偏导数矩阵和一阶纵向偏导数矩阵,按照下述公式计算各个像素点对应的梯度幅值和梯度方向:
M [ i , j ] = P [ i , j ] 2 + Q [ i , j ] 2
N[i,j]=arctan(Q[i,j]/P[i,j])
其中,M[i,j]为第i行第j列的像素点对应的梯度幅值,P[i,j]为第i行第j列的像素点对应的一阶横向偏导数矩阵,Q[i,j]为第i行第j列的像素点对应的一阶纵向偏导数矩阵,N[i,j]为第i行第j列的像素点对应的梯度方向。
进一步地,在基于计算的所述梯度幅值和所述梯度方向,在所述过滤图像中确定极大值像素点的步骤中具体包括:在预设像素点的梯度方向选取与所述预设像素点相邻的预设数量的像素点,当所述预设像素点的灰度值大于或者等于所述预设数量的像素点中每个像素点的灰度值时,将所述预设像素点确定为极大值像素点。
进一步地,识别所述识别图块中的文字信息具体包括:根据预设词汇库识别出所述识别图块中的代码/编码信息;若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。
为实现上述目的,本发明还提供一种应用于终端设备的文字识别***,所述***包括:指令接收单元,用于获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;识别图块确定单元,用于根据所述划取操控指令在所述待识别图片上确定识别图块;文字信息识别单元,用于识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
进一步地,所述划取操控指令在所述待识别图片上生成预设数量的色块;相应地,所述文字信息识别单元具体包括:边缘检测模块,用于检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。
进一步地,所述文字信息识别单元具体包括:识别模块,用于根据预设词汇库识别出所述识别图块中的代码/编码信息;翻译模块,用于若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。
由上可见,本发明提供的本申请提供的一种应用于终端设备的文字识别方法及***,可以在聊天场景中通过读取用户选取的图片,然后识别出用户在所述图片上选中的图片内容,可以将其转化为相应的文本信息内容,并可以将识别出的信息内容接入到用户的聊天场景中。这样,通过图片识别的方式,可以快速获取图片中的内容,帮助用户实现聊天场景中的信息快速输入。利用本申请实施方案可以解决用户不会或不习惯使用字符或手写键盘的困扰,帮助识别生僻字、快速获取图片中的字符信息等等,多方位辅助用户输入,提高用户体验。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
图1为本申请实施方式提供的一种应用于终端设备的文字识别方法的流程图;
图2为本申请实施方式提供的一种应用于终端设备的文字识别***的功能模块图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请实施方式提供一种应用于终端设备的文字识别方法。请参阅图1,所述方法可以包括以下步骤。
步骤S1:获取待识别图片,并接收作用于所述待识别图片上的划取操控指令。
在本实施方式中,获取待识别图片的方式可以包括获取用户从本地图库中选取的本地照片,并将选取的本地照片作为所述待识别图片;或者获取用户在聊天记录中选取的聊天图片,并将选取的聊天图片作为所述待识别图片;或者基于用户的触发指令执行屏幕截图,并将所述屏幕截图获取的截图图片作为所述待识别图片。
在本实施方式中,所述待识别图片上具有可识别的文字信息,所述文字信息例如可以是产品的序列号、产品的网址或者产品的名称。在进行聊天时,如果对方想了解某个产品的名称和官网地址,则可以对该产品的图片上的文字进行识别,进而将识别出的文字发送给对方。
在本实施方式中,可以通过手指触碰的方式在所述待识别图片上进行划取操作,划取的目的可以为待识别的文字。这样,终端设备便可以接收作用于所述待识别图片上的划取操控指令。
步骤S2:根据所述划取操控指令在所述待识别图片上确定识别图块。
在本实施方式中,划取的识别图块可以具备与待识别图片上的其它背景色不同的高亮背景色。例如,划取的识别图块的背景色可以为蓝色或者黄色。也就是说,所述划取操控指令可以在所述待识别图片上生成预设数量的色块,各个色块便可以对应所述识别图块。
在本实施方式中,可以检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。具体地,彩色图像通常由R(Red,红)、G(Green,绿)、B(Blue,蓝)三个通道的颜色变化以及它们之间的叠加来进行显示,在本实施方式中,可以对各个通道的像素值进行加权平均,从而将RGB三个通道的像素值转换为灰度值。具体地,在本实施方式中可以按照下述公式中的任意一个对包含各个色块的待识别图片进行灰度化处理:
公式1:Gray=(R+G+B)/3;
公式2:Gray=0.299R+0.587G+0.114B;
其中,R、G、B分别代表R通道、G通道以及B通道的像素值,Gray代表灰度化处理后的灰度值。
接着,可以利用预设的高斯函数,对所述灰度图像进行滤波处理,得到滤除噪点的过滤图像。
在本实施方式中,考虑到在所述灰度图像中,往往存在较多的噪点,这些噪点在后续的处理过程中会严重影响处理结果的准确性。因此,在本实施方式中可以对所述灰度图像进行滤波处理,得到滤除噪点的过滤图像。具体地,在本实施方式中可以将预设的高斯函数作为滤波函数。所述预设的高斯函数例如可以为:
K = 1 2 π σ e - x 2 2 σ 2
在本实施方式中,可以将所述灰度图像的像素矩阵与上述的高斯函数进行求褶积运算,从而可以将所述灰度图像中的噪点滤除,得到与所述灰度图像对应的过滤图像。
然后便可以计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向。
在本实施方式中,所述过滤图像中色块的边缘可以通过计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向来确定。在本实施方式中,可以通过一阶偏导数矩阵来计算各个像素点对应的梯度幅值和梯度方向。具体地,在本实施方式中,所述一阶偏导数矩阵可以分为横向偏导数矩阵(x轴方向)和纵向偏导数矩阵(y轴方向)。因此,可以预先指定横向卷积算子(x轴方向)和纵向卷积算子(y轴方向),利用这两个卷积算子分别对所述过滤图像中的各个像素点进行卷积处理,从而可以得到对应的一阶偏导数矩阵。
在本实施方式中,所述横向卷积算子和纵向卷积算子可以如下所示:
s x = - 1 1 - 1 1 , s y = 1 1 - 1 - 1
其中,sx为所述横向卷积算子,sy为所述纵向卷积算子。
利用所述横向卷积算子和纵向卷积算子对所述过滤图像中各个像素点进行处理后得到的一阶偏导数矩阵可以如下所示:
P[i,j]=(f[i,j+1]-f[i,j]+f[i+1,j+1]-f[i+1,j])/2
Q[i,j]=(f[i,j]-f[i+1,j]+f[i,j+1]-f[i+1,j+1])/2
其中,P[i,j]表示第i行第j列的像素点对应的一阶横向偏导数,Q[i,j]表示第i行第j列的像素点对应的一阶纵向偏导数,f[i,j]表示第i行第j列的像素点对应的像素值。
在计算得到所述一阶横向偏导数矩阵和一阶纵向偏导数矩阵后,可以按照下述公式计算各个像素点对应的梯度幅值和梯度方向:
M [ i , j ] = P [ i , j ] 2 + Q [ i , j ] 2
N[i,j]=arctan(Q[i,j]/P[i,j])
其中,M[i,j]为第i行第j列的像素点对应的梯度幅值,P[i,j]为第i行第j列的像素点对应的一阶横向偏导数矩阵,Q[i,j]为第i行第j列的像素点对应的一阶纵向偏导数矩阵,N[i,j]为第i行第j列的像素点对应的梯度方向。
接着,可以基于计算的所述梯度幅值和所述梯度方向,在所述过滤图像中确定极大值像素点。
在本实施方式中,所述过滤图像中像素点的灰度值会沿着该像素点的梯度方向进行变化,那么与该像素点相邻的局部区域中灰度值最大的点往往落在该像素点对应的梯度方向上。在本实施方式中,灰度值在相邻的局部区域中最大的像素点可以称为极大值像素点。由于边缘上的像素点在与其相邻的局部区域内,灰度值往往是最大的,因此,在本实施方式中可以在所述过滤图像中确定极大值像素点。具体地,可以在预设像素点的梯度方向选取与所述预设像素点相邻的预设数量的像素点。在具体实施过程中,往往可以选择与所述预设像素点相邻的8个像素点。当所述预设像素点的灰度值大于或者等于所述预设数量的像素点中每个像素点的灰度值时,则可以将所述预设像素点确定为极大值像素点。
最后,可以从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点,并将筛选出的所述像素点确定为色块的边缘像素点。
在本实施方式中,由于受到计算误差或者干扰像素点点的影响,确定的极大值像素点中可能会存在不处于边缘上的像素点。在这种情况下,则需要对确定出的极大值像素点的灰度值再次进行判断,以将灰度值较低的像素点剔除。具体地,在本实施方式中可以从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点,并将筛选出的所述像素点确定为色块的边缘像素点。
这样,确定的边缘像素点便可以构成色块的轮廓,由所述轮廓限定的区域便可以是所述色块在待识别图片上的区域。
步骤S3:识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
在本实施方式中,可以根据预设词汇库识别出所述识别图块中的代码/编码信息。所述预设词汇库中可以包括各种各样的词汇,通过将所述识别图块中的文字信息与所述预设词汇库中的各个词汇进行匹配,从而可以确定出与所述识别图块中的文字信息相匹配的多个词汇,这些词汇的集合便可以作为所述识别图块中的文字信息。
在本实施方式中,识别出的代码/编码信息可以并不是用户熟知的语言,在这种情况下,若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则可以将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。例如,可以将识别出的英文通过终端设备自带的翻译软件翻译为中文之后,再将中文作为识别出的文字信息。
在本实施方式中,在识别出所述识别图块中的文字信息之后,这些文字信息便可以直接填充至当前的聊天框中,从而可以发送给聊天的对象。
本申请实施方式还提供一种用于上述文字识别方法的应用于终端设备的文字识别***。请参阅图2,所述***包括:
指令接收单元100,用于获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;
识别图块确定单元200,用于根据所述划取操控指令在所述待识别图片上确定识别图块;
文字信息识别单元300,用于识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
在本申请一个实施方式中,所述划取操控指令在所述待识别图片上生成预设数量的色块;相应地,所述文字信息识别单元300具体包括:
边缘检测模块,用于检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。
在本申请一个实施方式中,所述文字信息识别单元300具体包括:
识别模块,用于根据预设词汇库识别出所述识别图块中的代码/编码信息;
翻译模块,用于若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。
由上可见,本发明提供的本申请提供的一种应用于终端设备的文字识别方法及***,可以在聊天场景中通过读取用户选取的图片,然后识别出用户在所述图片上选中的图片内容,可以将其转化为相应的文本信息内容,并可以将识别出的信息内容接入到用户的聊天场景中。这样,通过图片识别的方式,可以快速获取图片中的内容,帮助用户实现聊天场景中的信息快速输入。利用本申请实施方案可以解决用户不会或不习惯使用字符或手写键盘的困扰,帮助识别生僻字、快速获取图片中的字符信息等等,多方位辅助用户输入,提高用户体验。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种应用于终端设备的文字识别方法,其特征在于,包括:
获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;
根据所述划取操控指令在所述待识别图片上确定识别图块;
识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
2.根据权利要求1所述的应用于终端设备的文字识别方法,其特征在于,所述获取待识别图片具体包括:
获取用户从本地图库中选取的本地照片,并将选取的本地照片作为所述待识别图片;或者
获取用户在聊天记录中选取的聊天图片,并将选取的聊天图片作为所述待识别图片;或者
基于用户的触发指令执行屏幕截图,并将所述屏幕截图获取的截图图片作为所述待识别图片。
3.根据权利要求1所述的应用于终端设备的文字识别方法,其特征在于,所述划取操控指令在所述待识别图片上生成预设数量的色块;相应地,在根据所述划取操控指令在所述待识别图片上确定识别图块的步骤中,包括:
检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。
4.根据权利要求3所述的应用于终端设备的文字识别方法,其特征在于,在检测所述待识别图片上各个色块的边缘的步骤中具体包括:
将包含各个色块的待识别图片进行灰度化处理,得到灰度图像;
利用预设的高斯函数,对所述灰度图像进行滤波处理,得到滤除噪点的过滤图像;
计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向;
基于计算的所述梯度幅值和所述梯度方向,在所述过滤图像中确定极大值像素点;
从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点,并将筛选出的所述像素点确定为色块的边缘像素点。
5.根据权利要求4所述的应用于终端设备的文字识别方法,其特征在于,在计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向的步骤中具体包括:
根据预设的横向卷积算子和纵向卷积算子,计算所述过滤图像中各个像素点对应的一阶横向偏导数矩阵和一阶纵向偏导数矩阵;
基于所述一阶横向偏导数矩阵和一阶纵向偏导数矩阵,按照下述公式计算各个像素点对应的梯度幅值和梯度方向:
M [ i , j ] = P [ i , j ] 2 + Q [ i , j ] 2
N[i,j]=arctan(Q[i,j]/P[i,j])
其中,M[i,j]为第i行第j列的像素点对应的梯度幅值,P[i,j]为第i行第j列的像素点对应的一阶横向偏导数矩阵,Q[i,j]为第i行第j列的像素点对应的一阶纵向偏导数矩阵,N[i,j]为第i行第j列的像素点对应的梯度方向。
6.根据权利要求4所述的应用于终端设备的文字识别方法,其特征在于,在基于计算的所述梯度幅值和所述梯度方向,在所述过滤图像中确定极大值像素点的步骤中具体包括:
在预设像素点的梯度方向选取与所述预设像素点相邻的预设数量的像素点,当所述预设像素点的灰度值大于或者等于所述预设数量的像素点中每个像素点的灰度值时,将所述预设像素点确定为极大值像素点。
7.根据权利要求1所述的应用于终端设备的文字识别方法,其特征在于,识别所述识别图块中的文字信息具体包括:
根据预设词汇库识别出所述识别图块中的代码/编码信息;
若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。
8.一种用于权利要求1至7中任一项所述的应用于终端设备的文字识别方法的应用于终端设备的文字识别***,其特征在于,包括:
指令接收单元,用于获取待识别图片,并接收作用于所述待识别图片上的划取操控指令;
识别图块确定单元,用于根据所述划取操控指令在所述待识别图片上确定识别图块;
文字信息识别单元,用于识别所述识别图块中的文字信息,并将所述文字信息填充至预设聊天框中。
9.根据权利要求8所述的应用于终端设备的文字识别***,其特征在于,所述划取操控指令在所述待识别图片上生成预设数量的色块;相应地,所述文字信息识别单元具体包括:
边缘检测模块,用于检测所述待识别图片上各个色块的边缘,以获取由检测的边缘限定的识别图块。
10.根据权利要求8所述的应用于终端设备的文字识别***,其特征在于,所述文字信息识别单元具体包括:
识别模块,用于根据预设词汇库识别出所述识别图块中的代码/编码信息;
翻译模块,用于若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种,则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。
CN201610728913.4A 2016-08-26 2016-08-26 一种应用于终端设备的文字识别方法及*** Pending CN106325750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610728913.4A CN106325750A (zh) 2016-08-26 2016-08-26 一种应用于终端设备的文字识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610728913.4A CN106325750A (zh) 2016-08-26 2016-08-26 一种应用于终端设备的文字识别方法及***

Publications (1)

Publication Number Publication Date
CN106325750A true CN106325750A (zh) 2017-01-11

Family

ID=57791909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610728913.4A Pending CN106325750A (zh) 2016-08-26 2016-08-26 一种应用于终端设备的文字识别方法及***

Country Status (1)

Country Link
CN (1) CN106325750A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871848A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 一种移动终端的文字识别方法及装置
CN110222746A (zh) * 2019-05-24 2019-09-10 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110334702A (zh) * 2019-05-30 2019-10-15 深圳壹账通智能科技有限公司 基于配置平台的数据传输方法、装置和计算机设备
CN110879829A (zh) * 2019-11-26 2020-03-13 杭州皓智天诚信息科技有限公司 一种知识产权大数据业务智能***
CN111046878A (zh) * 2019-12-30 2020-04-21 合肥联宝信息技术有限公司 一种数据处理方法、装置及计算机存储介质和计算机
CN111476853A (zh) * 2020-03-17 2020-07-31 西安万像电子科技有限公司 文字图像的编解码方法、设备及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999752A (zh) * 2012-11-15 2013-03-27 广东欧珀移动通信有限公司 对图片中局部字符进行快速识别的方法、装置及终端
CN103177259A (zh) * 2013-04-11 2013-06-26 中国科学院深圳先进技术研究院 色块识别方法及装置
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置
CN103559719A (zh) * 2013-11-20 2014-02-05 电子科技大学 一种交互式图像分割方法
CN103700071A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种深度图上采样边缘增强方法
CN103902611A (zh) * 2012-12-28 2014-07-02 鸿富锦精密工业(深圳)有限公司 视频内容搜索***及方法
CN103914539A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 信息查询方法和装置
CN104134064A (zh) * 2013-05-02 2014-11-05 百度国际科技(深圳)有限公司 文字识别方法和装置
CN104850849A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 发送文字的方法、装置及终端
US9418316B1 (en) * 2014-09-29 2016-08-16 Amazon Technologies, Inc. Sharpness-based frame selection for OCR
CN106909270A (zh) * 2016-07-20 2017-06-30 阿里巴巴集团控股有限公司 聊天数据输入方法、装置及通讯终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999752A (zh) * 2012-11-15 2013-03-27 广东欧珀移动通信有限公司 对图片中局部字符进行快速识别的方法、装置及终端
CN103902611A (zh) * 2012-12-28 2014-07-02 鸿富锦精密工业(深圳)有限公司 视频内容搜索***及方法
CN103177259A (zh) * 2013-04-11 2013-06-26 中国科学院深圳先进技术研究院 色块识别方法及装置
CN104134064A (zh) * 2013-05-02 2014-11-05 百度国际科技(深圳)有限公司 文字识别方法和装置
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置
CN103559719A (zh) * 2013-11-20 2014-02-05 电子科技大学 一种交互式图像分割方法
CN103700071A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种深度图上采样边缘增强方法
CN103914539A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 信息查询方法和装置
US9418316B1 (en) * 2014-09-29 2016-08-16 Amazon Technologies, Inc. Sharpness-based frame selection for OCR
CN104850849A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 发送文字的方法、装置及终端
CN106909270A (zh) * 2016-07-20 2017-06-30 阿里巴巴集团控股有限公司 聊天数据输入方法、装置及通讯终端

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871848A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 一种移动终端的文字识别方法及装置
CN110222746A (zh) * 2019-05-24 2019-09-10 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110334702A (zh) * 2019-05-30 2019-10-15 深圳壹账通智能科技有限公司 基于配置平台的数据传输方法、装置和计算机设备
CN110879829A (zh) * 2019-11-26 2020-03-13 杭州皓智天诚信息科技有限公司 一种知识产权大数据业务智能***
CN111046878A (zh) * 2019-12-30 2020-04-21 合肥联宝信息技术有限公司 一种数据处理方法、装置及计算机存储介质和计算机
CN111046878B (zh) * 2019-12-30 2022-02-08 合肥联宝信息技术有限公司 一种数据处理方法、装置及计算机存储介质和计算机
CN111476853A (zh) * 2020-03-17 2020-07-31 西安万像电子科技有限公司 文字图像的编解码方法、设备及***
CN111476853B (zh) * 2020-03-17 2024-05-24 西安万像电子科技有限公司 文字图像的编解码方法、设备及***

Similar Documents

Publication Publication Date Title
CN106325750A (zh) 一种应用于终端设备的文字识别方法及***
CN100373399C (zh) 建立劣化字典的方法和装置
KR20200098379A (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN110458077B (zh) 一种车辆颜色识别方法及***
CN106980856B (zh) 公式识别方法及***和符号推理计算方法及***
CN103618918A (zh) 一种智能电视的显示控制方法及装置
CN102193620B (zh) 一种基于表情识别的输入方法
CN111833340A (zh) 图像检测方法、装置、电子设备及存储介质
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
WO2022127494A1 (zh) 位姿识别模型训练方法、装置、位姿识别方法和终端设备
CN108898562A (zh) 一种基于深度学习的移动设备图像去雾方法
CN114092759A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
CN110580516A (zh) 一种基于智能机器人的交互方法及装置
CN110990617B (zh) 一种图片标记方法、装置、设备及存储介质
CN107578015A (zh) 一种基于深度学习的第一印象识别与回馈***及方法
CN111784665A (zh) 基于傅里叶变换的oct图像质量评估方法、***及装置
CN115205883A (zh) 基于ocr和nlp的资料审核方法、装置、设备、存储介质
CN111144407A (zh) 一种目标检测方法、***、装置及可读存储介质
CN113191261B (zh) 图像类别的识别方法、装置和电子设备
Hu et al. Simulation of English classroom effectiveness based on human-computer interaction and facial identification
Manaf et al. Color recognition system with augmented reality concept and finger interaction: Case study for color blind aid system
KR102156249B1 (ko) 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법
KR20210109327A (ko) 인공신경망의 학습 방법 및 장치
CN110737687A (zh) 数据查询方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170111