CN111985193A

CN111985193A - 题目自动标注分类的方法和***

Info

Publication number: CN111985193A
Application number: CN202011048811.0A
Authority: CN
Inventors: 樊星
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-24

Abstract

本发明提供了题目自动标注分类的方法和***，其通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据，并识别得到题目文本数据样本分别包含的英文文本和中文文本，再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型，并且进行适应性的标注，最后根据该标注的结果将目标题目自动分类到相应的题目集合中，这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类，从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。

Description

题目自动标注分类的方法和***

技术领域

本发明涉及智能教育的技术领域，特别涉及题目自动标注分类的方法和***。

背景技术

目前，在形成考试试卷过程中，为了提高考试试卷的形成效率和准确性，通常都是借助相应的试题库来形成试卷的不同类型题目部分，而现有的试题库都是根据历史作业、测试和考试出现的所用题目来集中形成的，为了节省试题库的形成时间，现有技术都只是将历史出现的题目进行简单的考核知识点分类后直接存放在试题库中，其并未对该题目进行相应的深加工，虽然这能够有效地提高试题库的题目数据量和题目知识点覆盖范围，但是由于缺乏相应的标注与分类深加工，这导致后续无法快速地和准确地从试题库中定位获得需要的题目，这严重地影响试题库的使用实用性和可靠性。可见，现有技术急需能够对不同类型的题目进行准确有效的自动标注和分类的处理方式。

发明内容

针对现有技术存在的缺陷，本发明提供题目自动标注分类的方法和***，其通过对若干目标题目分别进行拍摄，以此获得关于每一个目标题目的图像信息，并对图像信息进行文本数据转换处理，从而获得关于若干目标题目的题目文本数据样本，并对题目文本数据样本进行文本语种信息识别处理，以此获得题目文本数据样本对应的英文文本信息和中文文本信息，再对英文文本信息和中文文本信息进行词语类型识别处理，以此获得题目文本数据样本对应的学科类型标注信息，最后根据学科类型标注信息，将若干目标题目匹配划分到不同题目集合中，从而实现对若干目标题目的自动分类；可见，该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据，并识别得到题目文本数据样本分别包含的英文文本和中文文本，再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型，并且进行适应性的标注，最后根据该标注的结果将目标题目自动分类到相应的题目集合中，这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类，从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。

本发明提供题目自动标注分类的方法，其特征在于，其包括如下步骤：

步骤S1，对若干目标题目分别进行拍摄，以此获得关于每一个所述目标题目的图像信息，并对所述图像信息进行文本数据转换处理，从而获得关于若干所述目标题目的题目文本数据样本；

步骤S2，对所述题目文本数据样本进行文本语种信息识别处理，以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息；

步骤S3，对所述英文文本信息和所述中文文本信息进行词语类型识别处理，以此获得所述题目文本数据样本对应的学科类型标注信息；

步骤S4，根据所述学科类型标注信息，将若干所述目标题目匹配划分到不同题目集合中，从而实现对若干所述目标题目的自动分类；

进一步，在所述步骤S1中，对若干目标题目分别进行拍摄，以此获得关于每一个所述目标题目的图像信息，并对所述图像信息进行文本数据转换处理，从而获得关于若干所述目标题目的题目文本数据样本具体包括：

步骤S101，对每一个所述目标题目进行扫描拍摄，以此获得关于每一个所述目标题目的二维图像；

步骤S102，对所述二维图像进行像素二值化处理和背景降噪滤波处理，从而将所述二维图像转换为灰度化图像；

步骤S103，从所述灰度化图像中提取得到相应的题目文本字符轮廓信息，并根据所述题目文本字符轮廓信息，将所述灰度化图像转换为对应目标题目的题目文本数据，从而将所有目标题目对应的题目文本数据组成题目文本数据样本；

进一步，在所述步骤S2中，对所述题目文本数据样本进行文本语种信息识别处理，以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括：

根据下面公式(1)，对所述题目文本数据样本进行文本语种信息识别处理，从而获得所述题目文本数据样本对应的英文文本信息A_n和中文文本信息B_m，

在上述公式(1)中，Title(A_n，B_m)表示所述题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值，π表示圆周率，arctan表示反正切函数运算符号，A_n表示标题中第n个英文文本对应的文本语义近似值，B_m表示第m个中文文本对应的文本语义近似值，N表示所述英文文本信息包含的英文文本数据总数量、且其最大值为40，n的取值为1-40之间的任意整数，M表示所述中文文本信息包含的中文文本数据总数量、且其最大值为20，m的取值为1-20之间的任意整数，j表示所述题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8，l_i表示所述任意一个中文文本字符的第j个区间对应的横向长度，h_j表示所述任意一个中文文本字符的第j个区间对应的纵向长度，

表示所述任意一个中文文本字符对应横向笔画空间向量，

表示所述任意一个中文文本字符对应纵向笔画空间向量，f(a)表示所述题目文本数据样本中任意一个英文文本字符对应的字符面积值，

表示对所述题目文本数据样本的英文文本字符的识别结果；

以及，

在所述步骤S3中，对所述英文文本信息和所述中文文本信息进行词语类型识别处理，以此获得所述题目文本数据样本对应的学科类型标注信息具体包括：

根据下面公式(2)，对所述英文文本信息和所述中文文本信息进行词语类型识别处理，以此获得所述题目文本数据样本对应的学科类型标注信息，

在上述公式(2)中，Match(q，d)表示所述题目文本数据样本对应的学科类型标注匹配值，Q表示所述题目文本数据样本包含的学科总数量，D表示所述题目文本数据样本包含的英文词语和中文词语总数量，q表示取[1，Q]之间的任意正整数，d表示取[1，D]之间的任意正整数；

进一步，在所述步骤S4中，根据所述学科类型标注信息，将若干所述目标题目匹配划分到不同题目集合中，从而实现对若干所述目标题目的自动分类具体包括：

步骤S401，根据下面公式(3)和所述学科类型标注信息，确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(o_r,t_r)，

在上述公式(3)中，o_r表示第r个关键词对应的字符数量，t_r表示第r个关键词对应的字符比特长度，r表示大于或等于1的任意正整数；

步骤S402，当所述匹配度值Disp(o_r,t_r)等于1时，表明当前目标题目与当前关键词相匹配，并将当前目标题目划分到与当前关键词对应的题目集合中，从而实现对所述目标题目的自动分类。

本发明还提供题目自动标注分类的***，其特征在于，其包括目标题目拍摄模块、题目文本数据样本获取模块、题目英文文本/中文文本信息获取模块、学科类型标注信息获取模块和题目自动分类模块；其中，

所述目标题目拍摄模块用于对若干目标题目分别进行拍摄，以此获得关于每一个所述目标题目的图像信息；

所述题目文本数据样本获取模块用于对所述图像信息进行文本数据转换处理，从而获得关于若干所述目标题目的题目文本数据样本；

所述题目英文文本/中文文本信息获取模块用于对所述题目文本数据样本进行文本语种信息识别处理，以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息；

所述学科类型标注信息获取模块用于对所述英文文本信息和所述中文文本信息进行词语类型识别处理，以此获得所述题目文本数据样本对应的学科类型标注信息；

所述题目自动分类模块用于根据所述学科类型标注信息，将若干所述目标题目匹配划分到不同题目集合中，从而实现对若干所述目标题目的自动分类；

进一步，所述目标题目拍摄模块对若干目标题目分别进行拍摄，以此获得关于每一个所述目标题目的图像信息具体包括：

对每一个所述目标题目进行扫描拍摄，以此获得关于每一个所述目标题目的二维图像；

以及，

所述题目文本数据样本获取模块对所述图像信息进行文本数据转换处理，从而获得关于若干所述目标题目的题目文本数据样本具体包括：

对所述二维图像进行像素二值化处理和背景降噪滤波处理，从而将所述二维图像转换为灰度化图像；

再从所述灰度化图像中提取得到相应的题目文本字符轮廓信息，并根据所述题目文本字符轮廓信息，将所述灰度化图像转换为对应目标题目的题目文本数据，从而将所有目标题目对应的题目文本数据组成题目文本数据样本；

进一步，所述题目英文文本/中文文本信息获取模块对所述题目文本数据样本进行文本语种信息识别处理，以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括：

表示所述任意一个中文文本字符对应横向笔画空间向量，

表示对所述题目文本数据样本的英文文本字符的识别结果；

以及，

所述学科类型标注信息获取模块对所述英文文本信息和所述中文文本信息进行词语类型识别处理，以此获得所述题目文本数据样本对应的学科类型标注信息具体包括：

进一步，所述题目自动分类模块根据所述学科类型标注信息，将若干所述目标题目匹配划分到不同题目集合中，从而实现对若干所述目标题目的自动分类具体包括：

根据下面公式(3)和所述学科类型标注信息，确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(o_r,t_r)，

并且当所述匹配度值Disp(o_r,t_r)等于1时，表明当前目标题目与当前关键词相匹配，并将当前目标题目划分到与当前关键词对应的题目集合中，从而实现对所述目标题目的自动分类。

相比于现有技术，该题目自动标注分类的方法和***，其通过对若干目标题目分别进行拍摄，以此获得关于每一个目标题目的图像信息，并对图像信息进行文本数据转换处理，从而获得关于若干目标题目的题目文本数据样本，并对题目文本数据样本进行文本语种信息识别处理，以此获得题目文本数据样本对应的英文文本信息和中文文本信息，再对英文文本信息和中文文本信息进行词语类型识别处理，以此获得题目文本数据样本对应的学科类型标注信息，最后根据学科类型标注信息，将若干目标题目匹配划分到不同题目集合中，从而实现对若干目标题目的自动分类；可见，该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据，并识别得到题目文本数据样本分别包含的英文文本和中文文本，再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型，并且进行适应性的标注，最后根据该标注的结果将目标题目自动分类到相应的题目集合中，这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类，从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的题目自动标注分类的方法的流程示意图。

图2为本发明提供的题目自动标注分类的***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的题目自动标注分类的方法的流程示意图。该题目自动标注分类的方法包括如下步骤：

步骤S1，对若干目标题目分别进行拍摄，以此获得关于每一个该目标题目的图像信息，并对该图像信息进行文本数据转换处理，从而获得关于若干该目标题目的题目文本数据样本；

步骤S2，对该题目文本数据样本进行文本语种信息识别处理，以此获得该题目文本数据样本对应的英文文本信息和中文文本信息；

步骤S3，对该英文文本信息和该中文文本信息进行词语类型识别处理，以此获得该题目文本数据样本对应的学科类型标注信息；

步骤S4，根据该学科类型标注信息，将若干该目标题目匹配划分到不同题目集合中，从而实现对若干该目标题目的自动分类。

上述技术方案的有益效果为：该题目自动标注分类的方法通过图像拍摄和图像转换的方式能够将具有不同实体形式的目标题目转换为相应的文本形式，并且还通过英文/中文文本信息识别、词语类型识别和学科类型标注的不同处理过程，对题目文本数据样本进行有效的和准确的标注与分类深加工处理，从而能够有效地减少对目标题目进行标注和分类的计算工作量，并且还能够提高对目标题目进行标注和分类的速度和准确性。

优选地，在该步骤S1中，对若干目标题目分别进行拍摄，以此获得关于每一个该目标题目的图像信息，并对该图像信息进行文本数据转换处理，从而获得关于若干该目标题目的题目文本数据样本具体包括：

步骤S101，对每一个该目标题目进行扫描拍摄，以此获得关于每一个该目标题目的二维图像；

步骤S102，对该二维图像进行像素二值化处理和背景降噪滤波处理，从而将该二维图像转换为灰度化图像；

步骤S103，从该灰度化图像中提取得到相应的题目文本字符轮廓信息，并根据该题目文本字符轮廓信息，将该灰度化图像转换为对应目标题目的题目文本数据，从而将所有目标题目对应的题目文本数据组成题目文本数据样本。

上述技术方案的有益效果为：通过对目标题目拍摄得到的图像进行像素二值化和背景降噪滤波，能够有效地提出图像中与目标题目不相关的噪声信息，而根据图像包含的题目文本字符轮廓信息，得到相应的题目文本数据，上述图像-文本的转换方式能够适用于不同分辨率级别的图像，并且还能够有效地降低文本识别转换的出错率和提高文本识别转换的可靠性。

优选地，在该步骤S2中，对该题目文本数据样本进行文本语种信息识别处理，以此获得该题目文本数据样本对应的英文文本信息和中文文本信息具体包括：

根据下面公式(1)，对该题目文本数据样本进行文本语种信息识别处理，从而获得该题目文本数据样本对应的英文文本信息A_n和中文文本信息B_m，

在上述公式(1)中，Title(A_n，B_m)表示该题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值，π表示圆周率，arctan表示反正切函数运算符号，A_n表示标题中第n个英文文本对应的文本语义近似值，B_m表示第m个中文文本对应的文本语义近似值，N表示该英文文本信息包含的英文文本数据总数量、且其最大值为40，n的取值为1-40之间的任意整数，M表示该中文文本信息包含的中文文本数据总数量、且其最大值为20，m的取值为1-20之间的任意整数，j表示该题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8，l_i表示该任意一个中文文本字符的第j个区间对应的横向长度，h_j表示该任意一个中文文本字符的第j个区间对应的纵向长度，

表示该任意一个中文文本字符对应横向笔画空间向量，

表示该任意一个中文文本字符对应纵向笔画空间向量，f(a)表示该题目文本数据样本中任意一个英文文本字符对应的字符面积值，

表示对该题目文本数据样本的英文文本字符的识别结果，其中，第n个英文文本对应的文本语义近似值可通过下面方式确定：当第n个英文文本被确定为与字母A或者a相似，则其对应的文本语义近似值为1，当第n个英文文本被确定为与字母B或者b相似，则其对应的文本语义近似值为2，以此类推，当第n个英文文本被确定为与字母Z或者z相似，则其对应的文本语义近似值为26；第m个中文文本对应的文本语义近似值可通过下面方式确定：根据五笔输入法的输入模式，确定第m个中文文本包含的所有笔画类型，同时对每一种笔画类型预设设定相应的笔画分值，再将第m个中文文本包含的所有笔画类型对应的笔画分值进行累加，从而将累加的结果作为第m个中文文本的文本语义近似值；

以及，

在该步骤S3中，对该英文文本信息和该中文文本信息进行词语类型识别处理，以此获得该题目文本数据样本对应的学科类型标注信息具体包括：

根据下面公式(2)，对该英文文本信息和该中文文本信息进行词语类型识别处理，以此获得该题目文本数据样本对应的学科类型标注信息，

在上述公式(2)中，Match(q，d)表示该题目文本数据样本对应的学科类型标注匹配值，Q表示该题目文本数据样本包含的学科总数量，D表示该题目文本数据样本包含的英文词语和中文词语总数量，q表示取[1，Q]之间的任意正整数，d表示取[1，D]之间的任意正整数，举例而言，当英文文本信息中第n个英文文本的文本语义相似值为16，第n+1个英文文本的文本语义相似值为8，第n+2个英文文本的文本语义相似值为25，则第n个英文文本、第n+1个英文文本和第n+2个英文文本共同组成的英文文本信息被识别为“PHY”，即对应的学科类型为“物理”。

上述技术方案的有益效果为：通过对题目文本数据样本中的英文文本信息和中文文本信息进行同步的区分识别，能够提高对题目文本数据样本中不同语种信息的识别效率，并且还能够根据实际需要，对题目文本数据样本中的不同语种题目进行准确的标注，从而有针对性地对不同语种题目进行区分处理。

优选地，在该步骤S4中，根据该学科类型标注信息，将若干该目标题目匹配划分到不同题目集合中，从而实现对若干该目标题目的自动分类具体包括：

步骤S401，根据下面公式(3)和该学科类型标注信息，确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(o_r,t_r)，

步骤S402，当该匹配度值Disp(o_r,t_r)等于1时，表明当前目标题目与当前关键词相匹配，并将当前目标题目划分到与当前关键词对应的题目集合中，从而实现对该目标题目的自动分类。

上述技术方案的有益效果为：通过确定每一个目标题目与预设关键词之间的匹配度值，能够便于以预设关键词作为目标题目的分类标准，并且只有在目标题目与预设关键词之间完全匹配的情况下，在将目标题目自动分类到对应的题目集合中，从而提高目标题目的分类自动化程度和分类准确性。

参阅图2，为本发明实施例提供的题目自动标注分类的***的结构示意图。该题目自动标注、分类的***包括目标题目拍摄模块、题目文本数据样本获取模块、题目英文文本/中文文本信息获取模块、学科类型标注信息获取模块和题目自动分类模块；其中，

该目标题目拍摄模块用于对若干目标题目分别进行拍摄，以此获得关于每一个该目标题目的图像信息；

该题目文本数据样本获取模块用于对该图像信息进行文本数据转换处理，从而获得关于若干该目标题目的题目文本数据样本；

该题目英文文本/中文文本信息获取模块用于对该题目文本数据样本进行文本语种信息识别处理，以此获得该题目文本数据样本对应的英文文本信息和中文文本信息；

该学科类型标注信息获取模块用于对该英文文本信息和该中文文本信息进行词语类型识别处理，以此获得该题目文本数据样本对应的学科类型标注信息；

该题目自动分类模块用于根据该学科类型标注信息，将若干该目标题目匹配划分到不同题目集合中，从而实现对若干该目标题目的自动分类。

上述技术方案的有益效果为：该题目自动标注分类的***通过图像拍摄和图像转换的方式能够将具有不同实体形式的目标题目转换为相应的文本形式，并且还通过英文/中文文本信息识别、词语类型识别和学科类型标注的不同处理过程，对题目文本数据样本进行有效的和准确的标注与分类深加工处理，从而能够有效地减少对目标题目进行标注和分类的计算工作量，并且还能够提高对目标题目进行标注和分类的速度和准确性。

优选地，该目标题目拍摄模块对若干目标题目分别进行拍摄，以此获得关于每一个该目标题目的图像信息具体包括：

对每一个该目标题目进行扫描拍摄，以此获得关于每一个该目标题目的二维图像；

以及，

该题目文本数据样本获取模块对该图像信息进行文本数据转换处理，从而获得关于若干该目标题目的题目文本数据样本具体包括：

对该二维图像进行像素二值化处理和背景降噪滤波处理，从而将该二维图像转换为灰度化图像；

再从该灰度化图像中提取得到相应的题目文本字符轮廓信息，并根据该题目文本字符轮廓信息，将该灰度化图像转换为对应目标题目的题目文本数据，从而将所有目标题目对应的题目文本数据组成题目文本数据样本。

优选地，该题目英文文本/中文文本信息获取模块对该题目文本数据样本进行文本语种信息识别处理，以此获得该题目文本数据样本对应的英文文本信息和中文文本信息具体包括：

表示该任意一个中文文本字符对应横向笔画空间向量，

以及，

该学科类型标注信息获取模块对该英文文本信息和该中文文本信息进行词语类型识别处理，以此获得该题目文本数据样本对应的学科类型标注信息具体包括：

优选地，该题目自动分类模块根据该学科类型标注信息，将若干该目标题目匹配划分到不同题目集合中，从而实现对若干该目标题目的自动分类具体包括：

根据下面公式(3)和该学科类型标注信息，确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(o_r,t_r)，

并且当该匹配度值Disp(o_r,t_r)等于1时，表明当前目标题目与当前关键词相匹配，并将当前目标题目划分到与当前关键词对应的题目集合中，从而实现对该目标题目的自动分类。

从上述实施例的内容可知，该题目自动标注分类的方法和***，其通过对若干目标题目分别进行拍摄，以此获得关于每一个目标题目的图像信息，并对图像信息进行文本数据转换处理，从而获得关于若干目标题目的题目文本数据样本，并对题目文本数据样本进行文本语种信息识别处理，以此获得题目文本数据样本对应的英文文本信息和中文文本信息，再对英文文本信息和中文文本信息进行词语类型识别处理，以此获得题目文本数据样本对应的学科类型标注信息，最后根据学科类型标注信息，将若干目标题目匹配划分到不同题目集合中，从而实现对若干目标题目的自动分类；可见，该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据，并识别得到题目文本数据样本分别包含的英文文本和中文文本，再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型，并且进行适应性的标注，最后根据该标注的结果将目标题目自动分类到相应的题目集合中，这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类，从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。