CN106056114B - 名片内容识别方法和装置 - Google Patents

名片内容识别方法和装置 Download PDF

Info

Publication number
CN106056114B
CN106056114B CN201610347295.9A CN201610347295A CN106056114B CN 106056114 B CN106056114 B CN 106056114B CN 201610347295 A CN201610347295 A CN 201610347295A CN 106056114 B CN106056114 B CN 106056114B
Authority
CN
China
Prior art keywords
image
text
text sequence
sequence
business card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610347295.9A
Other languages
English (en)
Other versions
CN106056114A (zh
Inventor
叶浩
张睿欣
郭晓威
黄飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610347295.9A priority Critical patent/CN106056114B/zh
Publication of CN106056114A publication Critical patent/CN106056114A/zh
Priority to PCT/CN2017/084625 priority patent/WO2017202232A1/zh
Application granted granted Critical
Publication of CN106056114B publication Critical patent/CN106056114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种名片内容识别方法和装置,所述方法包括:获取名片图像;检测所述名片图像中的文本序列图像;对所述文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段;根据所述头部文本片段确定文本序列内容类型;当所述文本序列内容类型为指定的文本序列内容类型时,则对所述文本序列图像进行完整识别得到相应的文本序列。本发明提供的名片内容识别方法和装置,自适应能力强,且可以提高名片内容识别效率。

Description

名片内容识别方法和装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种名片识别方法和装置。
背景技术
名片是社交礼仪中一种重要的物品,陌生人之间通过彼此交换名片可以快速了解对方,建立社交关系。实体名片是传统的名片形式,目前仍是主流的名片形式。实体名片可以将名片内容印刷在纸卡片或者塑料卡片上。传统的名片使用方式,是在收到实体名片后将实体名片收藏起来,需要用时人工查找,费时费力。
目前比较方便的名片处理方式,是拍摄名片照片后,将名片照片中的内容识别出来并保存,需要查找名片内容时可以通过信息检索技术来快速查找。识别名片内容时需将名片照片上传到服务器,由服务器搜索数据库中与名片照片匹配的名片模板,从而利用数据库中名片模板的标注内容辅助完成名片内容识别。
然而,目前的名片内容识别方式依赖于人工构建的名片模板数据库,且名片模板需要经过人工标注,数据库建立和名片模板的标注都需要人工参与决策,当数据库中不存在相应的名片模板时会导致识别率明显下降,自适应能力很差。
发明内容
基于此,有必要针对目前名片内容识别方式自适应能力差的问题,提供一种名片内容识别方法和装置。
一种名片内容识别方法,包括:
获取名片图像;
检测所述名片图像中的文本序列图像;
对所述文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段;
根据所述头部文本片段确定文本序列内容类型;
当所述文本序列内容类型为指定的文本序列内容类型时,则对所述文本序列图像进行完整识别得到相应的文本序列。
一种名片内容识别装置,包括:
文本序列检测模块,用于获取名片图像;检测所述名片图像中的文本序列图像;
文本序列预识别模块,用于对所述文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段;
文本序列识别模块,用于根据所述头部文本片段确定文本序列内容类型;当所述文本序列内容类型为指定的文本序列内容类型时,则对所述文本序列图像进行完整识别得到相应的文本序列。
上述名片内容识别方法和装置,在获得名片图像后,检测出文本序列图像,通过对文本序列图像局部图像的文本识别可以确定相应的文本序列内容类型,进而对所需的文本序列内容类型对应的文本序列图像进行完整识别得到相应的文本序列。采用文本识别的手段来进行名片内容识别,不需要人工建立名片模板数据库以及人工标注,可以适应各种类型的名片进行内容识别,自适应能力强。而且当文本序列内容类型为指定的文本序列内容类型时对所述文本序列图像进行完整识别得到相应的文本序列,可以提高名片内容识别效率。
附图说明
图1为一个实施例中名片处理***的应用环境图;
图2为一个实施例中电子设备的内部结构示意图;
图3为一个实施例中名片内容识别方法的流程示意图;
图4为一个实施例中检测名片图像中的文本序列图像的步骤的流程示意图;
图5为一个实施例中名片图像、二值化的名片图像以及从二值化的名片图像中提取的连通域的示意图;
图6为一个实施例中对文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段的步骤的流程示意图;
图7为一个实施例中从文本序列图像中切分出单字图像的序列的步骤的流程示意图;
图8为一个具体应用场景中名片内容识别方法的流程示意图;
图9为一个实施例中名片内容识别装置的结构框图;
图10为一个实施例中文本序列检测模块的结构框图;
图11为一个实施例中文本序列预识别模块的结构框图;
图12为另一个实施例中名片内容识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种名片处理***,包括终端110和服务器120。其中终端110可以是个人计算机、移动终端或者穿戴式设备,移动终端比如手机、平板电脑或者个人数字助理。服务器120可以是独立的服务器或者服务器集群。终端110可用于获取名片图像并发送至服务器120,服务器120可用于接收终端110发送的名片图像;检测名片图像中的文本序列图像;对文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段;根据头部文本片段确定文本序列内容类型;当文本序列内容类型为指定的文本序列内容类型时,则对文本序列图像进行完整识别得到相应的文本序列;还用于将识别到的文本序列和相应的文本序列内容类型作为名片内容发送至终端110。终端110可用于接收服务器反馈的名片内容,还可以用于将接收到的名片内容进行分享。
如图2所示,在一个实施例中,提供了一种电子设备,该电子设备可以是如图1所示的终端110或者服务器120。电子设备包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口。当该电子设备为终端110时,电子设备还可以包括显示屏和输入装置。其中,电子设备的非易失性存储介质存储有操作***,还包括一种名片内容识别装置,该名片内容识别装置用于实现一种名片内容识别方法。该电子设备的处理器用于提供计算和控制能力,支撑电子设备的运行。电子设备的内存储器为非易失性存储介质中的名片内容识别装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种名片内容识别方法。电子设备的网络接口用于连接到网络进行通信。显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种名片内容识别方法,该方法可单独应用于图1中名片处理***的终端110一侧;或者可单独应用于服务器120一侧;或者该方法可一部分应用于终端110一侧而其它部分则应用于服务器120一侧,由终端110和服务器120交互实现名片内容识别方法。本实施例以该方法应用于服务器120来举例说明,该方法具体包括如下步骤:
步骤302,获取名片图像。
其中,名片图像是指包含名片内容的图像,可以是名片照片或者名片扫描件或者电子名片图片。终端可通过终端的摄像头拍摄实体名片得到名片图像,或者通过扫描仪扫描实体名片得到名片图像,或者接收到另一终端发送的名片图像。终端可将名片图像发送至服务器,由服务器接收该名片图像。在一个实施例中,服务器可以对名片图像进行模糊程度分析,排除掉模糊程度高的名片图像,模糊程度可根据梯度强弱进行估计;还可以排除掉不符合名片基本特征的名片图像,以剔除掉非名片图像。
步骤304,检测名片图像中的文本序列图像。
其中,文本序列是指字符按序排列形成的文本字符串。文本序列可以是文本行或者文本列,相应的文本序列图像则可以是文本行图像或者文本列图像。其中文本行是指字符大致沿横向排列成的文本序列,文本列则是字符大致沿纵向排列成的文本序列。
具体地,服务器可根据文本序列的先验特征从名片图像中检测出文本序列图像。文本序列的先验特征比如文本行或者文本列内部的字符间距特征,文本行或者文本列内部字符中心大致在一条直线上的特征等。文本行或者文本列内部的字符间距较小,一般小于一个或多个字符的宽度或者高度。当检测到的文本序列图像的长度超过预设长度时,可将文本序列图像分割为多个文本序列图像继续处理。
步骤306,对文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段。
其中,文本序列图像的头部是指按照文本序列的阅读顺序的起始部位,比如文本行图像的头部可以是文本行图像的最左端,还比如文本列图像的头部可以是文本列图像的最上端。局部图像可以是文本序列图像中从头部起的固定长度或者固定长度占比的部分图像,其中长度占比是指局部图像沿文本序列方向的长度占文本序列图像长度的比例。服务器可对局部图像进行文本识别,得到该局部图像对应的头部文本片段。头部文本片段是相应的文本序列的一部分。
服务器可采用神经网络模型进行文本识别,具体可采用CNN(ConvolutionalNeural Networks,卷积神经网络)模型或者FCNN(Fully Convolutional NeuralNetworks,全卷积神经网络)模型。其中CNN模型在视觉领域分类能力非常强,可准确进行单字识别。
步骤308,根据头部文本片段确定文本序列内容类型。
其中,文本序列内容类型是指文本序列图像中的文本序列中内容的类型。文本序列内容类型比如电话号码类型、人名类型、电子邮件地址类型、公司名称类型或者通信地址类型等。
在一个实施例中,步骤308包括:对头部文本片段进行关键字匹配和/或格式匹配,确定相应的文本序列内容类型。
具体地,服务器可以事先收集文本序列样本的头部文本片段中用于标识文本序列内容类型的关键字构成关键字集合,并记录各关键字对应的文本序列内容类型。服务器在执行步骤308时,可遍历关键字集合查找与当前的头部文本片段匹配的关键字,若查找到匹配的关键字,则将文本序列内容类型确定为匹配的关键字所对应的文本序列内容类型。
其中,关键字可以是标识文本序列内容类型的字段名称,比如“电话”、“姓名”、“职位”、“邮箱”、“公司”或者“通信地址”等字段名称。关键字也可以是经统计文本序列头部起的一个或多个字符中可区分文本序列内容类型的文本内容特征,比如作为姓氏的“李”、“王”或者“聂”等单字,还比如“+86”、“136”或者“139”等电话号码前缀。
格式是指至少两个字符构成的字符串中字符组合的结构约束。服务器可事先准备各个文本序列内容类型对应的格式通式,在执行步骤308时将头部文本片段和各格式通式比较,若存在匹配的格式通式,则将文本序列内容类型确定为匹配的格式通式对应的文本序列内容类型。格式通式可以用正则表达式表示。
在一个实施例中,关键字匹配和格式匹配可以分开单独使用,也可以组合使用。组合使用时,比如可在查找到与头部文本片段匹配的关键字,且存在与头部文本片段匹配的格式通式,且匹配的关键字和匹配的格式通式对应相同的文本序列内容类型,则将文本序列内容类型确定为该相同的文本序列内容类型。
步骤310,当文本序列内容类型为指定的文本序列内容类型时,则对文本序列图像进行完整识别得到相应的文本序列。
其中,指定的文本序列内容类型是预先或本次执行名片内容识别时指定需要识别出的文本序列内容类型。指定的文本序列内容类型可以是一个或多个。当文本序列内容类型为指定的文本序列内容类型时,说明相应的文本序列是名片内容识别所需的名片内容,对文本序列图像进行完整识别便可以得到所需的文本序列。若无法确定文本序列内容类型可根据需要对文本序列图像进行完整识别得到文本序列,再确认文本序列是否是所需的文本序列;或者可将相应的文本序列图像丢弃。若确定的文本序列内容类型不是指定的文本序列内容类型,则可以直接丢弃相应的文本序列图像,不再进行识别。
在一个实施例中,服务器还可以校验识别出的文本序列的文本序列内容类型与根据头部文本片段确定的文本序列内容类型是否一致,若一致则校验通过,保留识别出的文本序列及相应的文本序列内容类型;若不一致则可以将根据头部文本片段确定的文本序列内容类型变更为识别出的文本序列的文本序列内容类型。这样可以保证名片内容识别结果的准确性。
上述名片内容识别方法,在获得名片图像后,检测出文本序列图像,通过对文本序列图像局部图像的文本识别可以确定相应的文本序列内容类型,进而对所需的文本序列内容类型对应的文本序列图像进行完整识别得到相应的文本序列。采用文本识别的手段来进行名片内容识别,不需要人工建立名片模板数据库以及人工标注,可以适应各种类型的名片进行内容识别,自适应能力强。而且当文本序列内容类型为指定的文本序列内容类型时对文本序列图像进行完整识别得到相应的文本序列,可以提高名片内容识别效率。
如图4所示,在一个实施例中,步骤304具体包括如下步骤:
步骤402,提取名片图像中的连通域。
具体地,服务器可将名片图像二值化,并将二值化后的名片图像进行连通域分析提取出连通域,还可以将相邻连通域合并。服务器具体可采用行程平滑(Run LengthSmooth Algorithm,缩写为RLSA)算法进行连通域分析和合并,该算法可以将相邻的连通域的像素相连,形成整块的区域,由于同一文本序列内部的各个连通域之间的距离比较接近,所以相同文本序列中的连通域可以形成一个完整的连通域。
如图5所示,名片图像如图5(a)所示,其中部分敏感信息出于保护隐私目的做了遮盖处理。将图5(a)所示的名片图像二值化后得到如图5(b)所示的图像,再通过连通域分析和合并得到如图5(c)中所示的各个白色的连通域。
步骤404,根据连通域确定相应的文本序列图像。
具体地,服务器可将大致处于同一直线上的多个连通域的外轮廓确定为文本序列图像的位置并记录,以确定相应的文本序列图像。当文本序列图像用矩形表示时,文本序列图像的位置可以用矩形的文本序列图像的一个顶点以及矩形宽和矩形高来表示。服务器也可以将每个连通域分别作为独立的文本序列图像处理。
步骤406,确定各个连通域的倾斜角。
其中,倾斜角是指偏离标准方向的角度,标准方向可以与文本序列的方向一致,比如对于文本行,倾斜角可以是偏离水平方向的角度,还比如对于文本列,倾斜角可以是偏离竖直方向的角度。具体地,各个连通域可以用其矩形轮廓表示,服务器可以计算该矩形轮廓的倾斜角作为相应连通域的倾斜角。
在一个实施例中,服务器可以将连通域的像素点投影到一条直线上,使得该直线上的投影方差最大,进而将该直线的倾斜角作为相应连通域的倾斜角。服务器具体可采用主成分分析(Principal Component Analysis,PCA)算法或者最小二乘回归算法等算法来得到投影方差最大的直线的倾斜角。
步骤408,根据各个连通域的倾斜角确定名片图像的倾斜角。
具体地,服务器可将各个连通域的倾斜角的算术平均值或者加权平均值作为名片图像的倾斜角。
步骤410,根据名片图像的倾斜角对名片图像进行方向矫正,获得经过方向矫正的各文本序列图像。
具体地,服务器可根据名片图像的倾斜角,朝减小倾斜角的方向将名片图像旋转等于倾斜角的角度,从而实现对名片图像的方向矫正。名片图像整体进行了方向矫正后,名片图像中的各个文本序列图像也相应地得到了方向矫正。
在一个实施例中,步骤404可以删除,且步骤410可以替换为:根据名片图像的倾斜角对名片图像进行方向矫正,根据经过矫正的名片图像中的各个连通域确定相应的文本序列图像。
本实施例中,通过从名片图像中提取出的连通域,不仅可以确定相应的文本序列图像,还可以通过名片图像整体的方向矫正实现对各个文本序列图像的方向矫正。在依据连通域检测文本序列图像的过程中就可以利用连通域实现文本序列图像的检测以及方向矫正,不需要单独针对各个文本序列图像进行方向矫正,提高了计算效率。
如图6所示,在一个实施例中,步骤306具体包括如下步骤:
步骤602,从文本序列图像中切分出单字图像的序列。
其中,单字图像是包括单个字符的矩形图像,服务器从文本序列图像中切分出一个个的单字图像,这些单字图像按照在文本序列图像中的顺序构成单字图像的序列。服务器具体可根据文本序列间距特征、字符长度特征以及字符比例一致性等先验知识从文本序列图像中切分出单字图像的序列。文本序列图像在被切分前可经过图像增强,比如增加图像对比度。
在一个实施例中,服务器可将文本序列图像二值化后将其中的各像素值投影到文本序列图像长边方向上得到累积值,寻找到局部最大累积值或者局部最小累积值进行切分,从而得到单字图像的序列。其中若文本序列图像二值化后表示字符的像素颜色是白色,则寻找局部最小累积值;若文本序列图像二值化后表示字符的像素颜色是黑色,则寻找局部最大累积值。
步骤604,对单字图像的序列中从头部起的部分连续单字图像进行文本识别,得到相应的头部文本片段。
具体地,服务器从单字图像的序列全部的单字图像中,选取从单字图像的序列的头部起的部分连续单字图像,进而对选取的部分连续单字图像进行文本识别,得到相应的头部文本片段。其中单字图像的序列中从头部起的部分连续单字图像,具体可以是单字图像的序列中从头部起的固定数量的连续单字图像,或者预设占比的连续单字图像。预设占比可以是选取的连续单字图像占单字图像的序列中单字图像总数的比例。
本实施例中,对文本序列图像切分后得到单字图像的序列,对单字图像的序列进行局部识别得到头部文本片段,可方便、高效地确定头部文本片段。
在一个实施例中,步骤310中对文本序列图像进行完整识别得到相应的文本序列包括:确定单字图像的序列中除去从头部起的部分连续单字图像所剩余的单字图像;对剩余的单字图像进行文本识别,得到相应的剩余局部片段;根据剩余局部片段和头部局部片段得到与文本序列图像对应的文本序列。
具体地,服务器先确定单字图像的序列并局部识别得到头部文本片段,当根据头部文本片段判定文本序列图像中的文本序列是指定的文本序列内容类型时,则继续对单字图像的序列中剩余的单字图像进行文本识别,得到剩余局部片段,将剩余局部片段和头部局部片段组合便可以得到完整的文本序列。
本实施例中,服务器可在确定文本序列是所需的名片内容后,可以高效地对文本序列图像进行完整识别得到相应的文本序列,提高了名片内容识别效率。
如图7所示,在一个实施例中,步骤602具体包括如下步骤:
步骤702,在文本序列图像中沿文本序列图像的长边按照比文本序列图像的短边短的间距取候选切分点。
具体地,文本序列图像是矩形,文本序列图像的短边大致为文本序列中字符的宽或者高,长边则大致是文本序列图像中文本序列的长度,服务器按照比短边短的间距选取候选切分点,这样选择的候选切分点的数量要大于实际的切分点的数量。选取候选切分点的间距具体可以小于等于文本序列图像的短边的二分之一或者三分之一或者四分之一。候选切分点是候选的切分位置,可以用坐标或者距离文本序列图像头部起点的距离来表示。
在一个实施例中,服务器可将所有的文本序列图像保持长宽比进行短边归一化,使得经过短边归一化的各个文本序列图像短边长度相等,之后再由服务器在经过短边归一化的文本序列图像中沿其长边按照比其短边短的间距取候选切分点。比如可以将所有文本行图像保持长宽比缩放,使得缩放后的文本行图像的高度均为120个像素,再按照30个像素的间距从缩放后的文本行图像中取候选切分点。
步骤704,获取各候选切分点的切分置信度。
这里将切分问题转化为二分类问题,也就是判断候选切分点是否是实际的切分点,切分置信度是相应的候选切分点是实际的切分点的概率的量化值。服务器具体可以按照候选切分点切分出相应的图片,将切分出的图片提取图像特征后依次输入到经过训练的分类器中,输出相应候选切分点的切分置信度。分类器可采用随机森林分类器。
提取的图像特征可以采用HOG(Histogram of Oriented Gradient,方向梯度直方图)特征。在名片图像比较模糊的情况下,字符之间会粘连在一起,没有明显间距;字符里包含了符号例如“(”等,这些符号的比例与汉字和数字都不同,这里采用HOG特征,字符之间的切分点对应的区域和字符内部的区域表观上差别很大,HOG特征能够很好地表达出相应的特征,采用HOG特征可以提高切分的鲁棒性。提取的图像特征还可以采用LBP(Local BinaryPatterns,局部二值模式)特征等其它特征。
步骤706,根据切分置信度确定切分点。
具体地,服务器可将切分置信度与预设阈值比较,如高于预设阈值则判定为实际的切分点。在一个实施例中,服务器可从各候选切分点中排除掉切分置信度局部极大的候选切分点相邻的候选切分点,根据剩余的候选切分点确定切分点。其中切分置信度局部极大的候选切分点是指该候选切分点的切分置信度高于相邻的候选切分点的切分置信度。考虑到候选切分点的数量小于实际的切分点的数量,即使两个相邻的候选切分点的切分置信度都很高,其中也仅有一个是实际的切分点,这样排除掉不可能的候选切分点后,剩余的候选切分点便可以全部或者根据上述预设阈值选择性地作为实际的切分点,这样选择的切分点更为准确。
步骤708,按照确定的切分点从文本序列图像中切分出单字图像的序列。具体地,服务器在文本序列图像中每一处确定的切分点处进行切分,得到一个个单字图像,构成单字图像的序列。
本实施例中,可通过在文本序列图像中密集地选择候选切分点,并利用各个候选切分点的切分置信度来切分文本序列图像得到单字图像的序列,可以实现对文本序列图像的准确切分,提高名片内容识别率。
在一个实施例中,电子设备(比如终端)在获取到识别出的文本序列和文本序列内容类型后,可在指定界面的指定位置按照文本序列内容类型分类展示。比如电子设备可在指定界面的界面中展示各个文本序列内容类型的字段名称,从而对应各个字段名称显示相应的文本序列。
在一个实施例中,电子设备(比如终端)还可以接收录入指令,根据录入指令获取录入的名片内容,并将录入的名片内容与文本序列和文本序列内容类型一同保存。本实施例中,用户不仅可以识别出名片内容,还可以标注识别出的文本序列中没有的新名片内容,并与识别出的名片内容一同保存,可进一步丰富名片内容,提高名片使用便利性。终端在保存时可以保存在本地也可以保存到服务器。
在一个实施例中,电子设备(比如终端)还可以获取名片分享指令;根据名片分享指令确定接收者标识;将文本序列与相应的文本序列内容类型分享至接收者标识对应的终端。电子设备还可以将录入的新名片内容与文本序列以及相应的文本序列内容类型一同分享至接收者标识对应的终端。接收者标识可以是社交好友的用户标识。用户标识可唯一标识出用户,比如用户账号。
本实施例中,在获得识别出的文本序列和相应的文本序列内容类型后,可将文本序列和相应的文本序列内容类型分享至指定的接收者,便于将实体名片电子化后的名片内容的共享,接收者不需要再录入名片,提高了操作便利性。
如图8所示,在一个具体应用场景中,服务器可先进行文本行检测,再进行文本行预识别,最后进行文本行内容识别和提取。服务器在进行文本行检测时,先将名片图像二值化,然后提取连通域并合并,从而提取出文本行图像,估算出文本行数量和倾斜角,利用文本行数量和倾斜角计算出名片图像的倾斜角,从而根据名片图像的倾斜角对名片图像进行整体方向矫正,从而达到对文本行图像进行方向矫正的结果。服务器还可以估计模糊程度,若模糊程度高于模糊程度阈值则不进行识别。
进一步地,服务器在进行文本行预识别时,对文本行图像进行图像增强,进而对文本行图像进行单字切分,将切分出的单字图像二值化后进行文本头预识别,得到相应的头部文本片段。然后,服务器在进行文本行内容识别和提取的过程中,对头部文本片段进行关键字匹配,若匹配到关键字则再对相应的文本行图像进行完整识别,并校验识别结果,最后将识别到的名片内容输出。
如图9所示,在一个实施例中,提供了一种名片内容识别装置900,包括文本序列检测模块901、文本序列预识别模块902和文本序列识别模块903。
文本序列检测模块901,用于获取名片图像;检测名片图像中的文本序列图像。
文本序列预识别模块902,用于对文本序列图像从头部起的局部图像进行文本识别,得到相应的头部文本片段。
文本序列识别模块903,用于根据头部文本片段确定文本序列内容类型;当文本序列内容类型为指定的文本序列内容类型时,则对文本序列图像进行完整识别得到相应的文本序列。
上述名片内容识别装置900,在获得名片图像后,检测出文本序列图像,通过对文本序列图像局部图像的文本识别可以确定相应的文本序列内容类型,进而对所需的文本序列内容类型对应的文本序列图像进行完整识别得到相应的文本序列。采用文本识别的手段来进行名片内容识别,不需要人工建立名片模板数据库以及人工标注,可以适应各种类型的名片进行内容识别,自适应能力强。而且当文本序列内容类型为指定的文本序列内容类型时对文本序列图像进行完整识别得到相应的文本序列,可以提高名片内容识别效率。
如图10所示,在一个实施例中,文本序列检测模块901包括:连通域提取模块901a、文本序列图像确定模块901b和方向矫正模块901c。
连通域提取模块901a,用于提取名片图像中的连通域。
文本序列图像确定模块901b,用于根据连通域确定相应的文本序列图像。
方向矫正模块901c,用于确定各个连通域的倾斜角;根据各个连通域的倾斜角确定名片图像的倾斜角;根据名片图像的倾斜角对名片图像进行方向矫正,获得经过方向矫正的各文本序列图像。
本实施例中,通过从名片图像中提取出的连通域,不仅可以确定相应的文本序列图像,还可以通过名片图像整体的方向矫正实现对各个文本序列图像的方向矫正。在依据连通域检测文本序列图像的过程中就可以利用连通域实现文本序列图像的检测以及方向矫正,不需要单独针对各个文本序列图像进行方向矫正,提高了计算效率。
在一个实施例中,文本序列识别模块903还用于对头部文本片段进行关键字匹配和/或格式匹配,确定相应的文本序列内容类型。
如图11所示,在一个实施例中,文本序列预识别模块902包括:单字切分模块902a和文本头预识别模块902b。
单字切分模块902a,用于从文本序列图像中切分出单字图像的序列。
文本头预识别模块902b,用于对单字图像的序列中从头部起的部分连续单字图像进行文本识别,得到相应的头部文本片段。
本实施例中,对文本序列图像切分后得到单字图像的序列,对单字图像的序列进行局部识别得到头部文本片段,可方便、高效地确定头部文本片段。
在一个实施例中,文本序列识别模块903还用于确定单字图像的序列中除去从头部起的部分连续单字图像所剩余的单字图像;对剩余的单字图像进行文本识别,得到相应的剩余局部片段;根据剩余局部片段和头部局部片段得到与文本序列图像对应的文本序列。
本实施例中,服务器可在确定文本序列是所需的名片内容后,可以高效地对文本序列图像进行完整识别得到相应的文本序列,提高了名片内容识别效率。
在一个实施例中,单字切分模块902a还用于在文本序列图像中沿文本序列图像的长边按照比文本序列图像的短边短的间距取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像的序列。
本实施例中,可通过在文本序列图像中密集地选择候选切分点,并利用各个候选切分点的切分置信度来切分文本序列图像得到单字图像的序列,可以实现对文本序列图像的准确切分,提高名片内容识别率。
在一个实施例中,单字切分模块902a还用于从各候选切分点中排除掉切分置信度局部极大的候选切分点相邻的候选切分点,根据剩余的候选切分点确定切分点。
如图12所示,在一个实施例中,名片内容识别装置900还包括名片分享模块904,用于获取名片分享指令;根据名片分享指令确定接收者标识;将文本序列与相应的文本序列内容类型分享至接收者标识对应的终端。
本实施例中,在获得识别出的文本序列和相应的文本序列内容类型后,可将文本序列和相应的文本序列内容类型分享至指定的接收者,便于将实体名片电子化后的名片内容的共享,接收者不需要再录入名片,提高了操作便利性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种名片内容识别方法,包括:
获取名片图像;
检测所述名片图像中的文本序列图像;
从所述文本序列图像中切分出单字图像的序列;
对所述单字图像的序列中从头部起的部分连续单字图像进行文本识别,得到相应的头部文本片段;
根据所述头部文本片段确定文本序列内容类型;
当所述文本序列内容类型为指定的文本序列内容类型时,则
对所述单字图像的序列中除去所述从头部起的部分连续单字图像所剩余的单字图像进行文本识别,得到相应的剩余局部片段;根据所述剩余局部片段和所述头部文本片段得到与所述文本序列图像对应的文本序列。
2.根据权利要求1所述的方法,其特征在于,所述检测所述名片图像中的文本序列图像包括:
提取所述名片图像中的连通域;
根据所述连通域确定相应的文本序列图像;
确定各个连通域的倾斜角;
根据各个连通域的倾斜角确定所述名片图像的倾斜角;
根据所述名片图像的倾斜角对所述名片图像进行方向矫正,获得经过方向矫正的各所述文本序列图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述头部文本片段确定文本序列内容类型包括:
对所述头部文本片段进行关键字匹配和/或格式匹配,确定相应的文本序列内容类型。
4.根据权利要求1所述的方法,其特征在于,所述从所述文本序列图像中切分出单字图像的序列包括:
在所述文本序列图像中沿所述文本序列图像的长边按照比所述文本序列图像的短边短的间距取候选切分点;
获取各候选切分点的切分置信度;
根据所述切分置信度确定切分点;
按照确定的切分点从所述文本序列图像中切分出单字图像的序列。
5.根据权利要求4所述的方法,其特征在于,所述根据所述切分置信度确定切分点包括:
从各候选切分点中排除掉切分置信度局部极大的候选切分点相邻的候选切分点,根据剩余的候选切分点确定切分点。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取名片分享指令;
根据所述名片分享指令确定接收者标识;
将所述文本序列与相应的所述文本序列内容类型分享至所述接收者标识对应的终端。
7.一种名片内容识别装置,其特征在于,包括:
文本序列检测模块,用于获取名片图像;检测所述名片图像中的文本序列图像;
文本序列预识别模块,用于从所述文本序列图像中切分出单字图像的序列;对所述单字图像的序列中从头部起的部分连续单字图像进行文本识别,得到相应的头部文本片段;
文本序列识别模块,用于根据所述头部文本片段确定文本序列内容类型;当所述文本序列内容类型为指定的文本序列内容类型时,则对所述单字图像的序列中除去所述从头部起的部分连续单字图像所剩余的单字图像进行文本识别,得到相应的剩余局部片段;根据所述剩余局部片段和所述头部文本片段得到与所述文本序列图像对应的文本序列。
8.根据权利要求7所述的装置,其特征在于,所述文本序列检测模块包括:
连通域提取模块,用于提取所述名片图像中的连通域;
文本序列图像确定模块,用于根据所述连通域确定相应的文本序列图像;
方向矫正模块,用于确定各个连通域的倾斜角;根据各个连通域的倾斜角确定所述名片图像的倾斜角;根据所述名片图像的倾斜角对所述名片图像进行方向矫正,获得经过方向矫正的各所述文本序列图像。
9.根据权利要求7所述的装置,其特征在于,所述文本序列识别模块还用于对所述头部文本片段进行关键字匹配和/或格式匹配,确定相应的文本序列内容类型。
10.根据权利要求7所述的装置,其特征在于,所述单字切分模块还用于在所述文本序列图像中沿所述文本序列图像的长边按照比所述文本序列图像的短边短的间距取候选切分点;获取各候选切分点的切分置信度;根据所述切分置信度确定切分点;按照确定的切分点从所述文本序列图像中切分出单字图像的序列。
11.根据权利要求10所述的装置,其特征在于,所述单字切分模块还用于从各候选切分点中排除掉切分置信度局部极大的候选切分点相邻的候选切分点,根据剩余的候选切分点确定切分点。
12.根据权利要求7所述的装置,其特征在于,还包括:
名片分享模块,用于获取名片分享指令;根据所述名片分享指令确定接收者标识;将所述文本序列与相应的所述文本序列内容类型分享至所述接收者标识对应的终端。
13.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN201610347295.9A 2016-05-24 2016-05-24 名片内容识别方法和装置 Active CN106056114B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610347295.9A CN106056114B (zh) 2016-05-24 2016-05-24 名片内容识别方法和装置
PCT/CN2017/084625 WO2017202232A1 (zh) 2016-05-24 2017-05-17 名片内容识别方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610347295.9A CN106056114B (zh) 2016-05-24 2016-05-24 名片内容识别方法和装置

Publications (2)

Publication Number Publication Date
CN106056114A CN106056114A (zh) 2016-10-26
CN106056114B true CN106056114B (zh) 2019-07-05

Family

ID=57175176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610347295.9A Active CN106056114B (zh) 2016-05-24 2016-05-24 名片内容识别方法和装置

Country Status (2)

Country Link
CN (1) CN106056114B (zh)
WO (1) WO2017202232A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056114B (zh) * 2016-05-24 2019-07-05 腾讯科技(深圳)有限公司 名片内容识别方法和装置
CN106815561A (zh) * 2016-12-22 2017-06-09 北京五八信息技术有限公司 营业执照版面分析方法及装置
CN107067005A (zh) * 2017-04-10 2017-08-18 深圳爱拼信息科技有限公司 一种中英混合ocr字符切割的方法及装置
CN109389115B (zh) * 2017-08-11 2023-05-23 腾讯科技(上海)有限公司 文本识别方法、装置、存储介质和计算机设备
CN107871232A (zh) * 2017-10-19 2018-04-03 中国平安人寿保险股份有限公司 一种客户拜访计划的生成方法及其终端
CN107832756B (zh) * 2017-10-24 2021-09-07 讯飞智元信息科技有限公司 快递单信息提取方法及装置、存储介质、电子设备
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108038504B (zh) * 2017-12-11 2019-12-27 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN108875721A (zh) * 2017-12-18 2018-11-23 南通艾思达智能科技有限公司 一种多规格文本协同定位和提取方法
CN108596181B (zh) * 2018-04-16 2022-02-25 腾讯科技(深圳)有限公司 文本识别方法、***、机器设备和计算可读存储介质
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN109165488B (zh) * 2018-07-16 2021-10-22 创新先进技术有限公司 身份鉴别方法及装置
CN109740548B (zh) * 2019-01-08 2020-12-08 北京易道博识科技有限公司 一种报销票据图像分割方法及***
CN110175610B (zh) * 2019-05-23 2023-09-05 上海交通大学 一种支持隐私保护的票据图像文本识别方法
CN110489622B (zh) * 2019-07-10 2024-02-06 平安科技(深圳)有限公司 对象信息的分享方法、装置、计算机设备和存储介质
CN111181835B (zh) * 2019-10-17 2021-07-27 腾讯科技(深圳)有限公司 一种消息监控方法、***及服务器
CN111178347B (zh) * 2019-11-22 2023-12-08 京东科技控股股份有限公司 证件图像的模糊度检测方法、装置、设备及存储介质
CN110969154A (zh) * 2019-11-29 2020-04-07 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111339910B (zh) * 2020-02-24 2023-11-28 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111553364B (zh) * 2020-04-28 2022-10-11 支付宝(杭州)信息技术有限公司 图片处理方法及装置
CN111626383B (zh) * 2020-05-29 2023-11-07 Oppo广东移动通信有限公司 字体识别方法及装置、电子设备、存储介质
CN113657369B (zh) * 2021-08-26 2024-05-24 北京有竹居网络技术有限公司 一种文字识别方法及其相关设备
CN113887484B (zh) * 2021-10-20 2022-11-04 前锦网络信息技术(上海)有限公司 一种卡片式文件图像识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632821A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种名片识别中关键文字信息的自动检索判定方法
CN101520851A (zh) * 2008-02-29 2009-09-02 富士通株式会社 字符信息识别装置和方法
CN102750552A (zh) * 2012-06-18 2012-10-24 北京捷通华声语音技术有限公司 一种手写识别方法、***及手写识别终端
CN103093224A (zh) * 2011-11-08 2013-05-08 佳能株式会社 确定平均字符宽度的方法和装置及字符切分方法和设备
CN103679117A (zh) * 2012-09-07 2014-03-26 北京蒙恬科技有限公司 一种名片识别方法与装置
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1532768A (zh) * 2003-03-26 2004-09-29 摩托罗拉公司 将数字图像的字段类型分类的方法和设备
US9916514B2 (en) * 2012-06-11 2018-03-13 Amazon Technologies, Inc. Text recognition driven functionality
KR20140090371A (ko) * 2013-01-08 2014-07-17 주식회사 협신 메모지겸용 붙임 쪽지형 명함 세트
CN106056114B (zh) * 2016-05-24 2019-07-05 腾讯科技(深圳)有限公司 名片内容识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632821A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种名片识别中关键文字信息的自动检索判定方法
CN101520851A (zh) * 2008-02-29 2009-09-02 富士通株式会社 字符信息识别装置和方法
CN103093224A (zh) * 2011-11-08 2013-05-08 佳能株式会社 确定平均字符宽度的方法和装置及字符切分方法和设备
CN102750552A (zh) * 2012-06-18 2012-10-24 北京捷通华声语音技术有限公司 一种手写识别方法、***及手写识别终端
CN103679117A (zh) * 2012-09-07 2014-03-26 北京蒙恬科技有限公司 一种名片识别方法与装置
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法

Also Published As

Publication number Publication date
CN106056114A (zh) 2016-10-26
WO2017202232A1 (zh) 2017-11-30

Similar Documents

Publication Publication Date Title
CN106056114B (zh) 名片内容识别方法和装置
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US10867171B1 (en) Systems and methods for machine learning based content extraction from document images
Lee et al. Object detection with sliding window in images including multiple similar objects
Laine et al. A standalone OCR system for mobile cameraphones
CN107832756B (zh) 快递单信息提取方法及装置、存储介质、电子设备
CN105630915A (zh) 一种移动终端中图片分类存储的方法及装置
Lee et al. Photographic composition classification and dominant geometric element detection for outdoor scenes
CN104298982A (zh) 一种文字识别方法及装置
EP1631933A1 (en) Human figure contour outlining in images
Vanetti et al. Gas meter reading from real world images using a multi-net system
RU2697649C1 (ru) Способы и системы сегментации документа
EP1300779A2 (en) Form recognition system, form recognition method, program and storage medium
CN109389115A (zh) 文本识别方法、装置、存储介质和计算机设备
CN105260428A (zh) 图片处理方法和装置
WO2016086877A1 (zh) 一种文本检测的方法和装置
CN106575280A (zh) 用于分析用户关联图像以产生非用户生成标签以及利用该生成标签的***和方法
CN107133854A (zh) 信息推荐方法和装置
CN110119460A (zh) 图像检索方法、装置及电子设备
CN110781195B (zh) 一种兴趣点信息更新的***、方法和装置
Ngoc et al. Document detection in videos captured by smartphones using a saliency-based method
CN109190615B (zh) 形近字识别判定方法、装置、计算机设备和存储介质
CN110245570A (zh) 扫描文本分段方法、装置、计算机设备和存储介质
US9378428B2 (en) Incomplete patterns

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210922

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right