CN110728262A

CN110728262A - 智能古文字数据采集***

Info

Publication number: CN110728262A
Application number: CN201911015660.6A
Authority: CN
Inventors: 程少轩
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-01-24
Anticipated expiration: 2039-10-24
Also published as: CN110728262B

Abstract

本发明提供一种智能古文字数据采集***，用于对格式相对比较固定的古文字工具书的扫描图像进行自动识别并实现古文字数据的自动采集，其特征在于，包括：采集格式存储部；用于获取扫描图片的图像获取部；用于对扫描图像进行识别切割从而得到多个字头图像以及相应的古文字记载图像的图像切割部；用于对字头图像中的现代字形进行识别从而获取相应的字符编码的字头识别获取部；用于对古文字记载图像进行分析从而获取相应的古文字图像的古文字图像分析获取部；用于根据古文字图像对相应古文字记载图像中的备注文字进行识别从而得到相应的备注信息的备注信息识别获取部；以及用于将字符编码、古文字图像以及备注信息分别进行对应存储的古文字数据存储部。

Description

智能古文字数据采集***

技术领域

本发明属于古文字识别领域，涉及古文字的登记和录入，具体涉及一种智能古文字数据采集***。

背景技术

随着古文字识别技术的兴起，需要将古文字录入数据库从而扩充识别数据库，过去对于古文字的研究都被制成工具书完成记载，目前古文字工具书有数百种，是可以利用的初步采集成果。

然而，在现在对工具书中的数据库进行录入时，需要人工采集工具书中的已有数据。以这些工具书中记载的文字材料计，甲骨文有10万片以上，总字数为百万级。青铜器铭文、战国竹简、秦汉简、玺印货币陶文等也均在此数量级别。若按资料逐一清理登记，采集数据量极大，会造成极高的时间以及成本的浪费。

发明内容

为解决上述问题，利用古文字类工具书格式相对比较固定的实际情况，提供一种能够实现自动采集从而提高古文字采集效率的智能古文字数据采集***，本发明采用了如下技术方案：

本发明提供了一种智能古文字数据采集***，用于对格式相对比较固定的古文字工具书的扫描图像进行自动识别并实现古文字数据的自动采集，其特征在于，包括：采集格式存储部，存储有预先设定的包含有字头区域以及古文字记载区域的采集格式；图像获取部，用于获取扫描图片；图像切割部，用于根据采集格式对扫描图像进行识别切割从而得到多个字头图像以及相应的古文字记载图像；字头识别获取部，用于采用字符识别方法对字头图像中的现代字形进行识别从而获取相应的字符编码；古文字图像分析获取部，用于对古文字记载图像进行分析从而获取相应的古文字图像；备注信息识别获取部，用于根据古文字图像对相应古文字记载图像中的备注文字进行识别从而得到相应的备注信息；古文字数据存储部，用于将字符编码、古文字图像以及备注信息分别进行对应存储。

本发明提供的智能古文字数据采集***，还可以具有这样的技术特征，其中，古文字图像分析获取部包括：二值法分析单元，用于通过二值法识别古文字记载图像中古文字的位置并将四点定位得到的坐标区域作为古文字区域；以及裁剪获取单元，用于根据古文字区域对古文字记载图像进行裁剪从而获取古文字图像。

本发明提供的智能古文字数据采集***，还可以具有这样的技术特征，其中，备注信息识别部包括文字识别判定单元以及备注字符识别单元，文字识别判定单元用于在古文字图像分析获取部识别出古文字图像后识别出古文字区域下方的含有文字的待识别区域并判定该待识别区域是否含有可识别文字，若判定含有可识别文字，备注字符识别单元就通过字符识别方法识别待识别区域并将识别出的字符串作为备注信息。

本发明提供的智能古文字数据采集***，还可以具有这样的技术特征，还包括：识别控制部以及识别判定部，其中，一旦备注信息识别部完成备注信息的识别，识别控制部就控制识别判定部判定当前的古文字记载图像是否还具有未被识别的文字，若判定还具有未被识别的文字，识别控制部就控制古文字图像分析获取部以及备注信息识别部再次对当前的古文字记载图像进行识别直到识别判定部判定当前的古文字记载图像中不具有未被识别的文字。

本发明提供的智能古文字数据采集***，还可以具有这样的技术特征，还包括：画面存储部以及输入显示部，其中，画面存储部中存储有区域设定画面，输入显示部显示区域设定画面让使用者设定含有字头所在区域以及古文字记载所在区域的区域设定数据，采集格式存储部将区域设定数据作为采集格式进行存储。

本发明提供的智能古文字数据采集***，还可以具有这样的技术特征，其中，字符识别方法为OCR识别方法。

发明作用与效果

根据本发明的智能古文字数据采集***，因为通过采集格式存储部存储了对应古文字工具书的采集格式，使得图像切割部能够简单滴根据采集格式直接对工具书的扫描图片进行处理从而获取字头图像以及古文字记载图像，进一步，还通过字体识别获取部识别字头图像得到字符编码、通过古文字图像分析获取部以及备注信息识别获取部识别古文字记载图像得到古文字图像以及备注信息，最后通过古文字数据存储部存储相应数据，从而实现了对古文字工具书中古文字以及相应信息的自动、准确采集。通过使用本实施例的智能古文字数据采集***，使用者就能够有效地完成各个古文字数据的采集和录入，将古文字字形数据的采集效率提高数十倍，最终有利于于古文字数据化的进程。

附图说明

图1是本发明实施例中智能古文字数据采集***的结构框图；

图2是本发明实施例中秦印文字工具书的示意图；

图3是本发明实施例中新金文文字工具书的示意图；

图4是本发明实施例中工具书的采集格式的示意图；以及

图5是本发明实施例中古文字采集过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的智能古文字数据采集***作具体阐述。

<实施例>

图1是本发明实施例中智能古文字数据采集***的结构框图。

如图1所示，智能古文字数据采集***100包括采集格式存储部11、图像获取部12、图像切割部13、字头识别获取部14、古文字图像分析获取部15、备注信息识别获取部16、识别控制部17、识别判定部18、古文字数据存储部19、画面存储部20、输入显示部21、***侧通信部22以及控制上述各部的***侧控制部23。

其中，***侧通信部22用于进行智能古文字数据采集***100的各个构成部件之间以及智能古文字数据采集***100与其他***之间的数据交换；***侧控制部23存储有用于对智能古文字数据采集***100各个构成部件进行控制的计算机程序。

采集格式存储部11中存储有预先设定的采集格式，该采集格式包括对应字头所在区域的字头区域以及对应古文字与备注信息所在区域的古文字记载区域。

图2为秦印文字的古文字类工具书某页的排版示意、图3为新金文的古文字类工具书某页的排版示意。本实施例中，字头区域中记载有与下方古文字所对应的现代字形(即字头，通常为宋体、楷书等字体)，该字头区域的所在区域的示意如图4虚线标注区域a所示。古文字记载区域中记载有古文字以及该古文字对应的备注信息，该古文字记载区域的所在区域的示意如图4虚线标注区域b所示。

同时，每一列古文字记载区域都可能记载有多个古文字以及备注信息，若一列古文字记载区域的记载过多，会通过第二列古文字记载区域进行记载(图2、图3中第二列古文字记载区域都位于第一列古文字记载区域的左侧)。字头区域与古文字记载区域之间以及各个古文字记载区域之间通过框线分割。

图像获取部12用于获取对古文字工具书扫描得到的扫描图像(即如图2、图3所示的图像)。

本实施例中，图像获取部12获取的扫描图片可以是由使用者事先导入的，也可以是直接从相连接的扫描仪中获取。

图像切割部13用于根据采集格式存储部11中存储的采集格式对扫描图片中的区域进行识别切割从而得到多个字头图像以及对应的古文字记载图像。

本实施例中，字头图像即为根据图4中各个虚线标注区域a所裁剪得到的图像，古文字记载图像即根据图4中各个虚线标注区域b所裁剪得到的图像。另外，每个图像都具有各自在原扫描图片中的坐标信息。

字头识别获取部14用于采用字符识别方法对字头图像中的现代字形进行识别从而获取相应的字符编码。

在古文字类工具书中，字头是古文字字形所对应的现代汉字字形，因此字头识别获取部14采用常规的字符识别技术(例如OCR分析)即可识别出与字头相对应的字符编码。本实施例中，字符编码为unicode编码。

另外，如图4所示，本实施例的字头图像可能不含有字符，此时字头识别获取部14会在识别将不含有字符的字头图像标记为空。

古文字图像分析获取部15用于对古文字记载图像进行分析并获取相应的古文字图像。

本实施例中，古文字图像分析获取部15包括二值法分析单元151以及裁剪获取单元152。

二值法分析单元151用于通过二值法识别区域中古文字的所在位置，并在四点定位后将相应的坐标区域作为古文字区域。

裁剪获取单元152用于根据二值法分析单元151分析得到的古文字区域对古文字记载图像进行裁剪从而获取古文字图像。

本实施例中，古文字图像分析获取部15能够根据古文字图像在扫描图像中的坐标位置，判定出该古文字图像所属的字头(即将古文字图像与字符编码相对应)。具体地，在进行判定时，可以根据古文字图像所在的古文字记载图像的纵坐标与字头图像的纵坐标判定(例如通过判定两者的偏移值不超过预设值的方式)古文字图像对应的字头图像，若古文字图像对应的字头图像被字头识别获取部14识别出相应的字符编码则两者直接完成对应，若古文字图像对应的字头图像被字头识别获取部14标记为空则古文字图像会再次与前一个字头图像相匹配直至匹配到字符编码。

备注信息识别获取部16用于根据古文字图像对相应古文字记载图像中的备注文字(即图4中虚线标注区域c所示的文字)进行识别从而得到相应的备注信息。

本实施例中，备注信息识别获取部16包括文字识别判定单元161以及备注字符识别单元162。

识别判定单元161用于在每次古文字图像分析获取部15识别出古文字图像后，识别出古文字区域下方(或两旁)的含有文字的待识别区域，并判定该待识别区域是否含有可识别文字。

本实施例中，识别判定单元161通过二值法识别出待识别区域，并通过字符识别方法(例如OCR方法)进行字符识别从而判定待识别区域中是否含有可识别文字。

备注字符识别单元162用于在识别判定单元161判定待识别区域中含有可识别文字时，通过字符识别方法识别待识别区域并将识别出的字符串作为备注信息。

本实施例中，若识别判定单元161判定待识别区域中不含有可识别文字时，表明该待识别区域中不含有备注信息，此时备注字符识别单元162会将当前的备注信息设定为空值。

识别控制部17用于对涉及古文字记载图像识别的部件工作进行控制，包括对古文字图像分析获取部15、备注信息识别获取部16以及识别判定部18的部件工作进行控制。

本实施例中，若识别判定单元161判定待识别区域中含有可识别文字并且备注字符识别单元162完成的备注信息的识别后，识别控制部17就控制识别判定部18对古文字记载图像中在待识别区域下方的区域进行识别(例如通过二值法识别)从而判定是否含有文字内容。

此时，若识别判定部18判定含有文字内容，识别控制部17就会分别控制古文字图像分析获取部15以及备注信息识别获取部16再次对待识别区域下方的区域进行古文字图像以及备注信息的识别，进一步在识别后重复上述操作直至识别判定部18判定不含有文字内容。

若识别判定部18判定不含有文字内容，则表明当前的古文字记载图像中所有的文字内容都被提取完毕，识别控制部17就会分别控制古文字图像分析获取部15以及备注信息识别获取部16对下一个古文字记载图像进行识别直至所有古文字记载图像都识别完毕。

古文字数据存储部19用于将字符编码、古文字图像以及备注信息分别进行对应存储。

本实施例中，古文字数据存储部19为一个数据库，其中的古文字图像以“名称+路径”的形式存储在数据库中，如下表所示：

表1sql数据库数据表单

id	字头	图片编号	图片存盘路径	备注信息
					1	酒	000001.jpg	甲书\A字\000001.jpg	丽方鼎
2	酒	000002.jpg	甲书\A字\000002.jpg	大盂鼎
					3	酒	000003.jpg	甲书\A字\000003.jpg	史季良父壶
4	醴	000004.jpg	甲书\B\000004.jpg	大鼎
					5	醴	000005.jpg	甲书\B\000005.jpg	三年兴壶

表1是一个古文字数据存储在sql数据库中的示例，其中字头为根据字头识别获取部14获取的unicode编码得到，图片编号计算机对古文字图像进行自动命名得到，图片存盘路径为该古文字图像在计算机中的存储位置，备注信息由备注信息识别获取部16获取。

在其他实施例中，古文字数据还能够以其他数据形式进行存储。

画面存储部20存储有操作选择画面、识别开始画面以及区域设定画面。

操作选择画面用于在使用者进入画面时并让使用者选择相应的操作从而进入相应的画面。

识别开始画面用于在使用者选择开始识别时显示并在该画面中让使用者进行操作从而使得图像获取部12获取待识别的扫描图片。

区域设定画面用于在使用者选择区域设定操作时显示在该画面中显示待识别的扫描图片让使用者设定区域设定数据。

本实施例中，区域设定数据包含对应字头所在区域以及古文字记载所在区域(即古文字与备注信息的所在区域)所对应的坐标数据，使用者能够通过在区域设定画面中对扫描图片进行框选从而完成坐标数据的设定(在其他实施例中，也能够让使用者直接输入相应的坐标数据)。

在其他实施例中，区域设定数据还包括书籍排版数据，使用者还能够根据工具书的设定书籍排版是右翻本(即上文的第二列古文字记载区域位于第一列古文字记载区域的左侧)还是左翻本(即上文的第二列古文字记载区域位于第一列古文字记载区域的右侧)。

输入显示部21用于显示上述画面，从而让使用者通过这些画面完成相应的人机交互。

图5是本发明实施例中古文字采集过程的流程图。

如图5所示，智能古文字数据采集***的古文字采集过程包括如下步骤：

步骤S1，图像获取部12获取待识别的扫描图片，然后进入步骤S2；

步骤S2，图像切割部13根据采集格式存储部11中存储的采集格式对扫描图片中的区域进行识别切割从而得到多个字头图像以及对应的古文字记载图像，然后进入步骤S3；

步骤S3，字头识别获取部14采用字符识别方法对字头图像中的现代字形进行识别从而获取相应的字符编码，然后进入步骤S4；

步骤S4，古文字图像分析获取部15对古文字记载图像进行分析并获取相应的古文字图像，然后进入步骤S5；

步骤S5，备注信息识别获取部16根据古文字图像对相应古文字记载图像中的备注文字进行识别从而得到相应的备注信息，然后进入步骤S6；

步骤S6，识别控制部17控制识别判定部18判定当前的古文字记载图像是否还具有未被识别的文字，若判定为是则进入步骤S4，若判定为否则进入步骤S7；

步骤S7，识别控制部17选择下一个古文字记载图像，若选择到下一个古文字记载图像则进入步骤S4，若没有下一个古文字记载图像则进入步骤S8；

步骤S8，古文字数据存储部19将步骤S3识别出的字符编码、步骤S4识别出的古文字图像以及步骤S5识别出的备注信息分别进行对应存储，然后进入结束状态。

实施例作用与效果

根据本实施例提供的智能古文字数据采集***，因为通过采集格式存储部存储了对应古文字工具书的采集格式，使得图像切割部能够简单滴根据采集格式直接对工具书的扫描图片进行处理从而获取字头图像以及古文字记载图像，进一步，还通过字体识别获取部识别字头图像得到字符编码、通过古文字图像分析获取部以及备注信息识别获取部识别古文字记载图像得到古文字图像以及备注信息，最后通过古文字数据存储部存储相应数据，从而实现了对古文字工具书中古文字以及相应信息的自动、准确采集。通过使用本实施例的智能古文字数据采集***，使用者就能够有效地完成各个古文字数据的采集和录入，将古文字字形数据的采集效率提高数十倍，最终有利于于古文字数据化的进程。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种智能古文字数据采集***，用于对格式相对比较固定的古文字工具书的扫描图像进行自动识别并实现古文字数据的自动采集，其特征在于，包括：

采集格式存储部，存储有预先设定的包含有字头区域以及古文字记载区域的采集格式；

图像获取部，用于获取所述扫描图片；

图像切割部，用于根据所述采集格式对所述扫描图像进行识别切割从而得到多个字头图像以及相应的古文字记载图像；

字头识别获取部，用于采用字符识别方法对所述字头图像中的现代字形进行识别从而获取相应的字符编码；

古文字图像分析获取部，用于对所述古文字记载图像进行分析从而获取相应的古文字图像；

备注信息识别获取部，用于根据所述古文字图像对相应所述古文字记载图像中的备注文字进行识别从而得到相应的备注信息；以及

古文字数据存储部，用于将所述字符编码、所述古文字图像以及所述备注信息分别进行对应存储。

2.根据权利要求1所述的智能古文字数据采集***，其特征在于：

其中，所述古文字图像分析获取部包括：

二值法分析单元，用于通过二值法识别所述古文字记载图像中所述古文字的位置并将四点定位得到的坐标区域作为古文字区域；以及

裁剪获取单元，用于根据所述古文字区域对所述古文字记载图像进行裁剪从而获取古文字图像。

3.根据权利要求2所述的智能古文字数据采集***，其特征在于：

其中，所述备注信息识别部包括文字识别判定单元以及备注字符识别单元，

文字识别判定单元用于在所述古文字图像分析获取部识别出所述古文字图像后识别出所述古文字区域下方或两旁的含有文字的待识别区域并判定该待识别区域是否含有可识别文字，

若判定含有可识别文字，所述备注字符识别单元就通过所述字符识别方法识别所述待识别区域并将识别出的字符串作为备注信息。

4.根据权利要求1所述的智能古文字数据采集***，其特征在于，还包括：

识别控制部以及识别判定部，

其中，一旦所述备注信息识别部完成所述备注信息的识别，所述识别控制部就控制所述识别判定部判定当前的所述古文字记载图像是否还具有未被识别的文字，

若判定还具有未被识别的文字，所述识别控制部就控制所述古文字图像分析获取部以及所述备注信息识别部再次对当前的所述古文字记载图像进行识别直到所述识别判定部判定当前的所述古文字记载图像中不具有未被识别的文字。

5.根据权利要求1所述的智能古文字数据采集***，其特征在于，还包括：

画面存储部以及输入显示部，

其中，所述画面存储部中存储有区域设定画面，

所述输入显示部显示所述区域设定画面让使用者设定含有字头所在区域以及古文字记载所在区域的区域设定数据，

所述采集格式存储部将所述区域设定数据作为所述采集格式进行存储。

6.根据权利要求1所述的智能古文字数据采集***，其特征在于：

其中，所述字符识别方法为OCR识别方法。