CN105023029B

CN105023029B - 一种联机手写藏文音节识别方法及装置

Info

Publication number: CN105023029B
Application number: CN201510370046.7A
Authority: CN
Inventors: 马龙龙; 吴健
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2018-09-14
Anticipated expiration: 2035-06-29
Also published as: CN105023029A

Abstract

本发明提供一种联机手写藏文音节识别方法及装置，涉及字符识别技术领域，用于解决现有技术不能对用户连续手写输入的藏文音节进行高效识别的问题。所述方法包括：对用户连续手写输入的藏文音节的点轨迹进行预处理；对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列；采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果；根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。本发明适用于对用户连续手写输入的藏文音节进行识别。

Description

一种联机手写藏文音节识别方法及装置

技术领域

本发明涉及字符识别技术领域，尤其涉及一种联机手写藏文音节识别方法及装置。

背景技术

藏文的输入方式主要包括手写输入和键盘输入。与键盘输入相比，手写输入更符合人们的表达***板电脑、电子白板、iPad等移动终端设备的进步和广泛应用，联机手写藏文输入(笔输入)算法的研究得到了越来越多的应用和关注，目前相关研究主要是以藏文字符识别为主，并且已有支持以藏文字符为输入单元的手写输入法。然而，由于藏族语言自身的特殊性，藏族地区的人们更希望手写藏文输入能够支持连续书写，以藏文音节为手写输入单元，这样更符合藏族地区人们的书写习惯，但目前在联机手写藏文音节识别上的研究相对较少，这方面的技术还没有相关的文献或专利的报道。

在实现本发明的过程中，发明人发现现有技术中至少存在如下技术问题：

现有的联机手写藏文音节识别方法，不能对用户连续手写输入的藏文音节进行高效识别，不能满足藏文用户的书写习惯和需求。

发明内容

本发明提供一种联机手写藏文音节识别方法及装置，能够对用户连续手写输入的藏文音节进行高效识别，满足藏文用户的书写习惯和需求。

本发明提供的联机手写藏文音节识别方法，包括：

对用户连续手写输入的藏文音节的点轨迹进行预处理；

对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列；

采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果；

根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。

本发明提供的联机手写藏文音节识别装置，包括：

预处理单元，用于对用户连续手写输入的藏文音节的点轨迹进行预处理；

过分割单元，用于对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列；

分割假设验证单元，用于采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果；

确定单元，用于根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。

本发明提供的联机手写藏文音节识别方法及装置，首先对用户连续手写输入的藏文音节的点轨迹进行预处理，然后对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列，并采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果，最后根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。与现有技术相比，本发明能够对用户连续手写输入的藏文音节进行高效识别，满足藏文用户的书写习惯和需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的联机手写藏文音节识别方法流程图；

图2为本发明实施例二提供的藏文音节的结构组成示意图；

图3为本发明实施例二提供的藏文音节在水平方向的字符分割的示例图；

图4为本发明实施例二提供的藏文音节在水平方向的错误字符分割检测及正确分割的示例图；

图5为本发明实施例二提供的藏文字符在垂直方向的部件分割的示例图；

图6为本发明实施例三提供的联机手写藏文音节识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种联机手写藏文音节识别方法，如图1所示，所述方法包括：

S11、对用户连续手写输入的藏文音节的点轨迹进行预处理。

S12、对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列。

S13、采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果。

S14、根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。

本发明实施例提供的联机手写藏文音节识别方法，首先对用户连续手写输入的藏文音节的点轨迹进行预处理，然后对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列，并采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果，最后根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。与现有技术相比，本发明能够对用户连续手写输入的藏文音节进行高效识别，满足藏文用户的书写习惯和需求。

进一步地，所述对用户连续手写输入的藏文音节的点轨迹进行预处理可以包括：对用户连续手写输入的藏文音节的点轨迹进行去除孤立点、等距离重采样及高斯平滑处理。

进一步地，所述对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列可以包括：对预处理后的藏文音节先后进行水平方向的字符分割和垂直方向的部件分割，得到两层标记结果的子结构块序列。

进一步地，所述采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果可以包括：通过不同的权值将部件分类器、几何上下文及语言上下文集成到一个统一的识别框架下，对所述两层标记结果的子结构块序列进行不同的分割假设验证，获取最优的分割路径及部件串的识别结果。

可选地，连接所述部件分类器、几何上下文及语言上下文的权值以及所述部件分类器、几何上下文及语言上下文各自的参数可以通过基于最小化负对数似然度损失函数的准则训练得到。

实施例二

本实施例提供一种联机手写藏文音节识别方法。本实施例采用中国科学院软件研究所基础软件国家工程研究中心的多语言处理研究组的MRG-OHTC样本数据库。该数据库包括了150位不同书写者的手写藏文音节样本，每位书写者完成预先选取的827个高频音节的书写，其中，两字符音节456个，三字符音节309个，四字符音节62个。选取其中130套(书写人)样本进行训练，剩余的20套样本进行测试。此外，150套样本均采用半监督的标定工具进行字符层和音节层的标记。

本实施例提供的联机手写藏文音节识别方法具体过程如下：

(1)点轨迹预处理

将一个联机手写藏文音节的输入表示为手写轨迹的点序列：(x₁，y₁)，(x₂，y₂)，…(x_n，y_n)，其中n表示输入音节轨迹中的点数，轨迹中点的顺序按书写的时间先后排列，笔划之间用结束标志点断开。首先去除孤立点，即由单个噪声点组成的笔划，以消除孤立噪声点对字符和部件分割及部件识别的影响，然后对音节的轨迹进行等距离重采样，最后用高斯滤波进行点的平滑，以克服轨迹中点的波动。在等距离重采样中，点的距离设置为0.5；在高斯平滑中，方差设置为1.2。

(2)过分割

将经过预处理的藏文音节过分割成两层标记结果，每一层标记结果均由子结构块序列组成。子结构块是完整的部件或部件的一部分。藏文音节由1～4个藏文字符在水平方向组合组成，每个字符由一个或多个部件在垂直方向按上下叠加的纵向形式组合而成，如图2所示。所述的部件是指字符的子笔划序列，是易被计算机分割算法提取、比笔划结构更稳定的结构基元。由于字符由部件组成，不同的字符共用相同的部件，因而部件的类别数远小于字符的类别数。结合藏文音节的一般书写顺序，过分割的具体步骤如下：

a、水平方向的字符分割：

首先将藏文音节从水平书写方向切分为字符序列。初始假定每一个笔划为一个子结构块，迭代归并任意两个在水平方向重叠度较大的子结构块，直到没有可归并的为止。假定最初每个笔划是一个子结构块，基于这个信息，如果两个子结构块(笔划序列)在水平方向有间隔或两个子结构块在水平方向重叠且重叠度小于0.1，就将这两个子结构块分割；如果两个子结构块在水平方向重叠且重叠度大于0.1，就将这两个子结构块归并。所述的水平方向重叠度是指两个子结构块在水平方向的重叠程度的度量。

通常手写藏文音节时，一般字符之间在水平方向存在明显的间隔，可通过以上迭代方式进行归并，如图3所示为正确字符分割结果。然而，由于书写的随意性，元音在水平方向的宽度较大，藏文音节中某个带有元音的字符常常和其它字符在水平方向有较大重叠，如图4所示，通过检测元音的位置，进行强制断开，从而解决错误归并的问题。

b、垂直方向的部件分割：

基于水平方向的字符分割结果，针对每个字符，从垂直方向进行部件分割。采用类似于水平方向重叠度的计算方法进行归并，相比字符之间的间隔或重叠，一般部件之间在垂直方向存在空白间隔较小或部件之间的重叠较大，设置重叠度归并的经验值为0.2，垂直方向的部件分割结果如图5所示。

藏文字符内的部件之间可能连笔，通过角点检测方法，将连笔断开，从而保证部件的正确分割。

(3)基于半马尔科夫条件随机场的分割假设验证

将藏文音节识别看成是两层部件串的识别，即水平方向和垂直方向分割的部件串识别，关键问题是如何从经过步骤(2)所得的两层标记结果的子结构块序列中得到正确的部件串分割点及部件识别结果。本发明采用了基于半马尔科夫条件随机场的分割假设验证方法，将部件分类器、几何上下文和语言上下文集成到一个统一识别框架下，对不同的分割假设进行验证，获得最优的分割路径及部件串的识别结果。对上述各模型分别说明如下：

a、部件分类器

部件分类器采用基于深度神经网络的多特征多分类融合模型，从不同角度利用深度神经网络对藏文字丁进行特征表示，然后用不同的统计分类器进行分类，实现多特征多分类融合的藏文部件识别方法。对于联机特征，联机手写藏文部件由笔划序列组成，首先通过坐标归一化方法(NCFE)提取原始特征，然后利用深度信念网(DBN)通过多层的非线性变换，得到更高层的特征，采用最近原型分类器(NPC)分类得到基于联机特征的分类结果。对于脱机特征，先将由笔划序列组成的藏文部件转换成二值化图像，以最底层的像素作为特征表示的输入，利用深度卷积神经网络(DCNN)提取特征，采用修正二次判别函数分类器(MQDF)分类得到基于脱机特征的分类结果，最后融合基于联机和脱机的分类结果得到藏文部件识别结果。

本发明实施例采用藏文部件为基本识别单元，与字符类别相比，部件的类别总数约为字符类别的1/5，这使得部件分类器的词典存储量较小，可以满足移动设备的存储需求；此外，较小的部件类别中相似的部件也大大减少，有助于提高最终的音节识别精度。

b、几何上下文

几何上下文包括音节内字符之间的几何上下文和字符内部件之间的几何上下文。音节内字符之间的几何上下文是指候选字符模式相对于整个藏文音节的高度、宽度、位置和相邻候选字符之间的距离、相对位置等信息。针对音节内字符之间的几何上下文，分别为每一类字符建立一元几何特征，并为音节内的每两个连续字符之间建立二元几何特征，分别用不同的二次判别函数来模型化一元和二元特征。本实施例一共使用了6个一元几何特征，包括候选字符的宽度，高度，外接矩形对角线长度，外接矩形的中心、上边界和下边界与字符串水平中心线的距离，这6个特征需要用平均藏文字符高度进行归一化。一共使用了4个二元几何特征，包括相邻藏文字符外接矩形上边界、下边界、上边界与下边界以及水平中心线之间的差，上述特征都用平均藏文字符高度进行归一化。

字符内部件之间的几何上下文是指候选部件模式相对于整个藏文字符的高度、宽度、相对位置等信息。针对每一类字符，分别为字符内的每一个部件建立一元几何特征，并为字符内的每两个连续部件(按上边界排列)之间建立二元几何特征，分别用不同的高斯概率密度函数来模型化一元和二元几何特征。部件层的一元和二元几何特征提取方法类似于字符层的方法，提取的特征都用平均藏文部件高度进行归一化。

c、语言上下文

藏文音节中字符的类别之间以及藏文字符中部件的类别之间有着一定的关系，即语言上下文，语言上下文分别从字符层和部件层构建语言模型。对于字符层和部件层的语言模型，都使用二元文法来描述，语言上下文的特征函数定义为二元文法概率的对数，且是与字符或部件类别有关的二元特征函数。

上述三个模型的建模均需要首先在字符层和部件层对藏文音节样本进行标定，并通过标定结果从藏文音节样本中获取字符和部件样本以及确定字符和部件的类别，其中字符和部件的类别分别为562类和120类。标定方法采用基于半监督学习的方法，大大缩减人工干预的工作量。

在构建部件分类器、几何上下文和语言上下文模型后，利用基于半马尔科夫条件随机场的分割假设验证方法，对步骤(2)得到的两层标记结果的子结构块序列进行分割假设的进一步验证。

基于两层标记结果的子结构块序列，经过候选部件模式的分类，生成候选切分-识别网格，在网格中构建半马尔科夫条件随机场模型。假定藏文音节过分割结果(两层标记结果)为X，网格中候选路径的类别为Y(类别序列)，则对应的切分为S：Y(候选部件序列)，根据半马尔科夫条件随机场模型，候选路径(S,Y)的条件概率P(S,Y|X)表示为：

其中c表示随机场中的最大团，Y_c表示c的类别，Ψ_c(X,Yc)为定义在c上的势函数，归一化因子Z(X)是网格中所有候选路径的势函数之和，E(X,S,Y)表示能量函数：

f_k(X_c,Y_c)是定义在c上的第k个特征函数，分别用来描述部件分类模型、音节内字符之间的一元和二元特征函数、字符内部件之间的一元和二元特征函数、基于字符的语言模型和基于部件的语言模型。基于半马尔科夫条件随机场的分割假设验证方法通过权值λ_k将各个子模型集成到一个统一识别框架下，权值λ_k以及各个子模型的参数采用基于最小化负对数似然度损失函数的准则训练得到。

(4)识别输出

基于步骤(3)得到的部件串的分割假设验证结果，查看音节的字符串表示词典以及字符的部件串表示词典，可以得到音节内包括的字符类别，从而确定输入的藏文音节类别。

表1和表2分别列出了采用基于半马尔科夫条件随机场的分割假设验证方法融合几何上下文和语言上下文的效果，从表中可看出几何上下文和语言上下文都改进了藏文音节识别的精度，在语言上下文中，基于部件的bi-gram比基于字符的bi-gram对藏文音节识别精度的贡献更大，这主要是因为整个音节的识别框架是在部件层构建。

表1几何上下文对音节识别精度的影响

部件分类器	几何上下文	识别精度(％)
			√	73.51
√	√	74.87

表2语言上下文对音节识别精度的影响

基于部件的bi-gram	基于字符的bi-gram	识别精度(％)
			√	79.65
	√	77.72

√

81.23

实施例三

本发明实施例提供一种联机手写藏文音节识别装置，如图6所示，所述装置包括：

预处理单元11，用于对用户连续手写输入的藏文音节的点轨迹进行预处理；

过分割单元12，用于对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列；

分割假设验证单元13，用于采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果；

确定单元14，用于根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。

本发明实施例提供的联机手写藏文音节识别装置，首先对用户连续手写输入的藏文音节的点轨迹进行预处理，然后对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列，并采用基于半马尔科夫条件随机场的分割假设验证方法，对所述两层标记结果的子结构块序列进行分割假设验证，获取最优的分割路径及部件串的识别结果，最后根据所述最优的分割路径及部件串的识别结果，确定所述用户输入的手写藏文音节类别。与现有技术相比，本发明能够对用户连续手写输入的藏文音节进行高效识别，满足藏文用户的书写习惯和需求。

进一步地，所述预处理单元11，用于对用户连续手写输入的藏文音节的点轨迹进行去除孤立点、等距离重采样及高斯平滑处理。

进一步地，所述过分割单元12，用于对预处理后的藏文音节先后进行水平方向的字符分割和垂直方向的部件分割，得到两层标记结果的子结构块序列。

进一步地，所述分割假设验证单元13，用于通过不同的权值将部件分类器、几何上下文及语言上下文集成到一个统一的识别框架下，对所述两层标记结果的子结构块序列进行不同的分割假设验证，获取最优的分割路径及部件串的识别结果。

可选地，连接所述部件分类器、几何上下文及语言上下文的权值以及所述部件分类器、几何上下文及语言上下文各自的参数通过基于最小化负对数似然度损失函数的准则训练得到。

本发明实施例提供的联机手写藏文音节识别方法及装置，可以适用于对用户连续手写输入的藏文音节进行识别，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种联机手写藏文音节识别方法，其特征在于，包括：

对用户连续手写输入的藏文音节的点轨迹进行预处理；

通过不同的权值将部件分类器、几何上下文及语言上下文集成到一个统一的识别框架下，对所述两层标记结果的子结构块序列进行不同的分割假设验证，获取最优的分割路径及部件串的识别结果；

2.根据权利要求1所述的方法，其特征在于，所述对用户连续手写输入的藏文音节的点轨迹进行预处理包括：对用户连续手写输入的藏文音节的点轨迹进行去除孤立点、等距离重采样及高斯平滑处理。

3.根据权利要求1所述的方法，其特征在于，所述对预处理后的藏文音节先后从水平方向和垂直方向进行过分割，得到两层标记结果的子结构块序列包括：对预处理后的藏文音节先后进行水平方向的字符分割和垂直方向的部件分割，得到两层标记结果的子结构块序列。

4.根据权利要求1所述的方法，其特征在于，连接所述部件分类器、几何上下文及语言上下文的权值以及所述部件分类器、几何上下文及语言上下文各自的参数通过基于最小化负对数似然度损失函数的准则训练得到。

5.一种联机手写藏文音节识别装置，其特征在于，包括：

分割假设验证单元，用于通过不同的权值将部件分类器、几何上下文及语言上下文集成到一个统一的识别框架下，对所述两层标记结果的子结构块序列进行不同的分割假设验证，获取最优的分割路径及部件串的识别结果；

6.根据权利要求5所述的装置，其特征在于，所述预处理单元，用于对用户连续手写输入的藏文音节的点轨迹进行去除孤立点、等距离重采样及高斯平滑处理。

7.根据权利要求5所述的装置，其特征在于，所述过分割单元，用于对预处理后的藏文音节先后进行水平方向的字符分割和垂直方向的部件分割，得到两层标记结果的子结构块序列。

8.根据权利要求5所述的装置，其特征在于，连接所述部件分类器、几何上下文及语言上下文的权值以及所述部件分类器、几何上下文及语言上下文各自的参数通过基于最小化负对数似然度损失函数的准则训练得到。