CN1632821A - 一种名片识别中关键文字信息的自动检索判定方法 - Google Patents
一种名片识别中关键文字信息的自动检索判定方法 Download PDFInfo
- Publication number
- CN1632821A CN1632821A CN 200410103483 CN200410103483A CN1632821A CN 1632821 A CN1632821 A CN 1632821A CN 200410103483 CN200410103483 CN 200410103483 CN 200410103483 A CN200410103483 A CN 200410103483A CN 1632821 A CN1632821 A CN 1632821A
- Authority
- CN
- China
- Prior art keywords
- word
- literal information
- business card
- zone
- crucial literal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005520 cutting process Methods 0.000 claims description 4
- 206010020675 Hypermetropia Diseases 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 3
- 238000004040 coloring Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- VYMDGNCVAMGZFE-UHFFFAOYSA-N phenylbutazonum Chemical compound O=C1C(CCCC)C(=O)N(C=2C=CC=CC=2)N1C1=CC=CC=C1 VYMDGNCVAMGZFE-UHFFFAOYSA-N 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种名片识别中关键文字信息的自动检索判定方法,是首先对获取的名片图象做字符行分割操作,得到一行行的字符区域或者连通区域。从而以字符参数和连通区域个数进行排序,并取前几位的区域,根据这些区域附近的相临区域的语义是否符合职位或者头衔来联合判别关键文字信息所最终位于的那个区域。因此,实现了关键文字信息的准确提取。相对现有技术,本发明具有方法简单、使用方便、文字识别速度快、效率高、准确度高等特点。
Description
技术领域
本发明涉及一种名片识别技术,特别是一种名片识别中关键文字信息的自动检索判定的方法。
技术背景
在名片中姓名、公司、职位等都是比较重要的信息,一般的,这些重要信息都会以相对比较特殊的形式标注出来,如重要信息的位置排列比较靠前,大小、宽度、字间距等文字参数比较大,或者背景或前景颜色不一样等。对于不同的应用场合或者不同的使用者而言,重要信息中往往又存在最关键的信息,如何准确提取这些关键文字信息,是一个值得研究的问题。而目前在名片识别技术中,均是将名片上的内容统统扫描,然后进行识别,然后由用户在识别的结果字符串里选择。因此,一方面,这种方式由于要进行全扫描和全识别,特别是全识别所费时间相当长,因此造成名片识别速度比较慢,但是实质上用户所需要的信息只是其中的一条或几条,因此全扫描全识别存在一定的程序上的浪费;另一方面,由于需要用户自己选择关键文字信息,就给用户带来一定的使用麻烦。
发明内容
本发明的目的是:针对现有技术的不足,提供一种方法简单、步骤合理、智能性更强的一种名片识别中关键文字信息的自动检索判定方法。
为了解决上述技术问题,本发明所采取的技术方案是:一种名片识别中关键文字信息的自动检索判定方法,包括如下步骤:
步骤1、对输入的名片图像进行基于连通域的版面分析和文字分割,并统计字符参数以及特殊连通域总数:
步骤2、根据所述字符参数以及特殊连通域总数选取包含关键文字信息的文字区域;
步骤3、搜索所述包含关键文字信息的文字区域的相邻区域,并对所述相邻区域进行文字识别;
步骤4、在文字识别获得的字符串内查找关键文字信息,从而获得其文字内容。
所述特殊连通域总数可以是在水平投影上重叠部分较小的连通域的个数。
所述步骤2可以是根据所述字符参数,选取排列前几位的区域,即获得了包含关键文字信息的文字区域。
所述步骤2还可以根据所述特殊连通域的个数、字符参数以及颜色信息,从所获得的包含关键文字信息的区域中剔除图标区域。
所述剔除图标区域的依据可以是:条件一、该区域的特殊连通域的个数小于或等于1;条件二、该区域内有一个字的字宽或字高远大于平均字宽或字高;条件三、在整幅名片图像的分割出的区域内的前景目标中,只有该区域内的前景为不同颜色;如果某一区域满足所述三个条件中的任意一个,则该区域为图标区域而不是文字区域。
所述条件二可以为该区域内有一个字的字宽或字高大于平均字宽或字高的2.5倍。
所述步骤4可以采用一小型数据库,用于存储与关键信息对应的关键词,从而采用在文字识别获得的字符串内,根据关键词查找关键文字信息,获得其文字内容。
所述关键文字信息可以包括姓名、公司名称、职位、电话、邮件。
所述字符参数可以包括字高、字宽、字间水平间距。
在上述技术方案中,本发明由于首先对获取的名片图象做字符行分割操作,得到一行行的字符区域或者连通区域。一般而言,如姓名、职位、公司名称等使用者首先感兴趣的关键文字信息基本就位于平均字符尺寸最大的前三个区域之内。如在常见情况下姓名的下方或者右下侧会是职位或者头衔,我们可以根据所有这三个区域附近的相临区域的语义是否符合职位或者头衔来联合判别关键文字信息所最终位于的那个区域。因此,实现了关键文字信息的准确提取。同时,本发明由于实现了对关键文字信息的自动定位和自动判别,而省去了现有技术中需要用户频繁操作,因此使用更方便、文字识别更快捷。另外,本发明采用统计特征以及关键词查找的手段进行关键文字信息的查找,可以确保关键文字信息检索的准确性。相对现有技术,本发明具有方法简单、使用方便、文字识别速度快、效率高、准确度高等特点。
具体实施方式
下面将结合具体实施例对本发明作进一步详细说明。
在我们的日常生活中,人们所采用的绝大多数的名片,都是第一行为公司名称,第二行居中为姓名,第三行右下角为职务名称,第四行及以后则分别为地址、电话、手机、邮件等具体信息。并且,一般的公司名称、姓名等关键文字信息的字体、字号、字间距等字符参数要远远大于其它文字内容的字符参数。鉴于此,为了能提高名片识别的速度,特别是快速获得关键文字信息,提出本发明的技术方案。
本发明提供一种名片识别中关键文字信息的自动检索判定方法,所述关键文字信息包括姓名、公司名称、职位、电话、邮件等。其步骤如下:
步骤1、对输入的名片图像进行基于连通域的版面分析和文字分割,并统计字符参数以及特殊连通域总数;
这里,所述字符参数包括字高、字宽、字间水平间距等。
所述特殊连通域总数是在水平投影上重叠部分较小的连通域的个数。如字符j就只能算一个连通域;Rj可以算是两个连通域。
步骤2、根据所述字符参数以及特殊连通域总数选取包含关键文字信息的文字区域;具体是:
首先,以区域内部的平均(字高,字宽)为索引,将名片上所有的区域按此索引进行由高到低的排列。选取前三名的区域。根据统计,往往前三名的区域都包含了公司名称,公司图标,姓名等重要信息。
然后,在该三个区域中,利用步骤1中求得的连通域的个数和字的宽高特征还有颜色信息来剔除出图标(图标往往在前三名候选集中)。判断准则如下:
如果满足如下规则之一,
条件一、该区域的特殊连通域的个数小于或等于1;
条件二、该区域内有一个字的字宽或字高远大于平均字宽或字高;一般为大于大于平均字宽或字高的2.5倍。
条件三、在整幅名片图像的分割出的区域内的前景目标中,只有该区域内的前景为不同颜色;
则判断该区域内为图标而不是名字,将该区域从下面的进一步筛选中剔除出去。
如此,则可准确获得包括了关键文字信息的文字区域。经此筛选后,一般的在应用过程中就只剩下2~3个区域了。
步骤3、搜索所述包含关键文字信息的文字区域的相邻区域,并对所述相邻区域进行文字识别;
步骤4、在文字识别获得的字符串内查找关键文字信息,从而获得其文字内容。这里,本实施例中采用一小型数据库或数据存储器,用于存储与关键文字信息对应的关键词,从而采用在文字识别获得的字符串内,根据关键词查找关键文字信息,获得其文字内容。如,在该小型数据库(或称字典)内存储总量约在100~200内的单词量。当采用的关键文字信息为职位时,则,从小型数据库内调用如“Manager”、“Sales”、“Engineer”、“Director”、“Doctor”、“经理”、“董事长”、“厂长”等等类似职位的单词作为关键词,并根据此关键词,从识别的字符串内查找有无相应词汇,有则显示或存储对应的文字内容。在相当少见的情况下,也有可能查找不到对应的词汇,则由于无法判别出关键文字信息区域所在位置,只能从剩下的所有区域(此时一般也就剩下1~2个区域)内进行关键词的检索,以查找关键文字信息的文字内容。
Claims (9)
1、一种名片识别中关键文字信息的自动检索判定方法,包括如下步骤:
步骤1、对输入的名片图像进行基于连通域的版面分析和文字分割,并统计字符参数以及特殊连通域总数;
步骤2、根据所述字符参数以及特殊连通域总数选取包含关键文字信息的文字区域;
步骤3、搜索所述包含关键文字信息的文字区域的相邻区域,并对所述相邻区域进行文字识别;
步骤4、在文字识别获得的字符串内查找关键文字信息,从而获得其文字内容。
2、如权利要求1所述名片识别中关键文字信息的自动检索判定方法,其特征在于:所述特殊连通域总数是在水平投影上重叠部分较小的连通域的总个数。
3、如权利要求1或2所述名片识别中关键文字信息的自动检索判定方法,其特征在于:所述步骤2是根据所述字符参数,选取排列前几位的区域,即获得了包含关键文字信息的文字区域。
4、如权利要求3所述名片识别中关键文字信息的自动检索判定方法,其特征在于:所述步骤2还根据所述连通域的个数、字符参数以及颜色信息,从所获得的包含关键文字信息的区域中剔除图标区域。
5、如权利要求4所述名片识别中关键文字信息的自动检索判定方法,其特征在于:所述剔除图标区域的依据是:条件一、该区域的特殊连通域的个数小于或等于1;条件二、该区域内有一个字的字宽或字高远大于平均字宽或字高;条件三、在整幅名片图像的分割出的区域内的前景目标中,只有该区域内的前景为不同颜色;如果某一区域满足所述三个条件中的任意一个,则该区域为图标区域而不是文字区域。
6、如权利要求5所述名片识别中关键文字信息的自动检索判定方法,其特征在于:所述条件二为该区域内有一个字的字宽或字高大于平均字宽或字高的2.5倍。
7、如权利要求6所述名片识别中关键文字信息的自动检索判定的方法,其特征在于:所述步骤4采用小型数据库或数据存储器,用于存储与关键信息对应的关键词,从而采用在文字识别获得的字符串内,根据关键词查找关键文字信息,获得其文字内容。
8、如权利要求7所述名片识别中关键文字信息的自动检索判定的方法,其特征在于:所述关键文字信息包括姓名、公司名称、职位、电话、邮件。
9、如权利要求8所述名片识别中关键文字信息的自动检索判定的方法,其特征在于:所述字符参数包括字高、字宽、字间水平间距。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004101034834A CN1328695C (zh) | 2004-12-30 | 2004-12-30 | 一种名片识别中关键文字信息的自动检索判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004101034834A CN1328695C (zh) | 2004-12-30 | 2004-12-30 | 一种名片识别中关键文字信息的自动检索判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1632821A true CN1632821A (zh) | 2005-06-29 |
CN1328695C CN1328695C (zh) | 2007-07-25 |
Family
ID=34848182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004101034834A Expired - Fee Related CN1328695C (zh) | 2004-12-30 | 2004-12-30 | 一种名片识别中关键文字信息的自动检索判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1328695C (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246475B (zh) * | 2007-02-14 | 2010-05-19 | 北京书生国际信息技术有限公司 | 一种基于版面信息的检索方法 |
CN102194118A (zh) * | 2010-03-02 | 2011-09-21 | 方正国际软件(北京)有限公司 | 一种从图像中抽取信息的方法及装置 |
CN103093217A (zh) * | 2013-01-06 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种交互式的图像文字识别方法及装置 |
CN103209241A (zh) * | 2012-01-11 | 2013-07-17 | 联想(北京)有限公司 | 一种信息发送方法及电子设备 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001052112A (ja) * | 1999-08-11 | 2001-02-23 | Fujitsu Ltd | 認識処理方法、情報処理装置および記録媒体 |
CN1147807C (zh) * | 2000-08-22 | 2004-04-28 | 英业达集团(上海)电子技术有限公司 | 名片自动识别方法与*** |
-
2004
- 2004-12-30 CN CNB2004101034834A patent/CN1328695C/zh not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246475B (zh) * | 2007-02-14 | 2010-05-19 | 北京书生国际信息技术有限公司 | 一种基于版面信息的检索方法 |
US8386943B2 (en) | 2007-02-14 | 2013-02-26 | Sursen Corp. | Method for query based on layout information |
CN102194118A (zh) * | 2010-03-02 | 2011-09-21 | 方正国际软件(北京)有限公司 | 一种从图像中抽取信息的方法及装置 |
CN102194118B (zh) * | 2010-03-02 | 2013-04-10 | 方正国际软件(北京)有限公司 | 一种从图像中抽取信息的方法及装置 |
CN103209241A (zh) * | 2012-01-11 | 2013-07-17 | 联想(北京)有限公司 | 一种信息发送方法及电子设备 |
CN103093217A (zh) * | 2013-01-06 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种交互式的图像文字识别方法及装置 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
CN106056114B (zh) * | 2016-05-24 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1328695C (zh) | 2007-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657738A (zh) | 字符识别方法、装置、设备及存储介质 | |
CN1278533C (zh) | 可自动录入文字、图像的手机及其录入与处理方法 | |
CN101128821B (zh) | 不明确地理引用的分类 | |
CN100527156C (zh) | 一种图片文字检测的方法 | |
CN101102419B (zh) | 一种定位视频字幕区域的方法 | |
JP3601658B2 (ja) | 文字列抽出装置及びパターン抽出装置 | |
US20140307959A1 (en) | Method and system of pre-analysis and automated classification of documents | |
CN100351849C (zh) | 字符识别装置和字符识别方法 | |
Huang et al. | Automatic detection and localization of natural scene text in video | |
US20110047151A1 (en) | Local item extraction | |
CN102194117B (zh) | 文稿页面方向检测方法和装置 | |
CN105260428A (zh) | 图片处理方法和装置 | |
CN109035256A (zh) | 用户界面图像切割方法、装置、服务器和存储介质 | |
CN1632821A (zh) | 一种名片识别中关键文字信息的自动检索判定方法 | |
CN1908866A (zh) | 可进行句子联想的输入方法 | |
CN1147807C (zh) | 名片自动识别方法与*** | |
CN1185595C (zh) | 主题词抗干扰提取方法 | |
CN101763367A (zh) | 文件建立标签的方法和装置 | |
CN107562944A (zh) | 一种扫描图像并提取图像的信息管理方法 | |
CN116456028B (zh) | 一种语音电话防骚扰的方法及*** | |
Li et al. | A retrieval system of vehicles based on recognition of license plates | |
CN1052203A (zh) | 脱机手写汉字识别***及其识别方法 | |
Wu et al. | A Text Image Segmentation Method Based on Spectral Clustering. | |
CN1259635C (zh) | 用于识别文本行的方法 | |
Mochida et al. | Separating drawings, formula and text from free handwriting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070725 Termination date: 20111230 |