CN111985193A - 题目自动标注分类的方法和*** - Google Patents

题目自动标注分类的方法和*** Download PDF

Info

Publication number
CN111985193A
CN111985193A CN202011048811.0A CN202011048811A CN111985193A CN 111985193 A CN111985193 A CN 111985193A CN 202011048811 A CN202011048811 A CN 202011048811A CN 111985193 A CN111985193 A CN 111985193A
Authority
CN
China
Prior art keywords
text
information
text data
target
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011048811.0A
Other languages
English (en)
Inventor
樊星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202011048811.0A priority Critical patent/CN111985193A/zh
Publication of CN111985193A publication Critical patent/CN111985193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了题目自动标注分类的方法和***,其通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据,并识别得到题目文本数据样本分别包含的英文文本和中文文本,再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型,并且进行适应性的标注,最后根据该标注的结果将目标题目自动分类到相应的题目集合中,这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类,从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。

Description

题目自动标注分类的方法和***
技术领域
本发明涉及智能教育的技术领域,特别涉及题目自动标注分类的方法和***。
背景技术
目前,在形成考试试卷过程中,为了提高考试试卷的形成效率和准确性,通常都是借助相应的试题库来形成试卷的不同类型题目部分,而现有的试题库都是根据历史作业、测试和考试出现的所用题目来集中形成的,为了节省试题库的形成时间,现有技术都只是将历史出现的题目进行简单的考核知识点分类后直接存放在试题库中,其并未对该题目进行相应的深加工,虽然这能够有效地提高试题库的题目数据量和题目知识点覆盖范围,但是由于缺乏相应的标注与分类深加工,这导致后续无法快速地和准确地从试题库中定位获得需要的题目,这严重地影响试题库的使用实用性和可靠性。可见,现有技术急需能够对不同类型的题目进行准确有效的自动标注和分类的处理方式。
发明内容
针对现有技术存在的缺陷,本发明提供题目自动标注分类的方法和***,其通过对若干目标题目分别进行拍摄,以此获得关于每一个目标题目的图像信息,并对图像信息进行文本数据转换处理,从而获得关于若干目标题目的题目文本数据样本,并对题目文本数据样本进行文本语种信息识别处理,以此获得题目文本数据样本对应的英文文本信息和中文文本信息,再对英文文本信息和中文文本信息进行词语类型识别处理,以此获得题目文本数据样本对应的学科类型标注信息,最后根据学科类型标注信息,将若干目标题目匹配划分到不同题目集合中,从而实现对若干目标题目的自动分类;可见,该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据,并识别得到题目文本数据样本分别包含的英文文本和中文文本,再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型,并且进行适应性的标注,最后根据该标注的结果将目标题目自动分类到相应的题目集合中,这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类,从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。
本发明提供题目自动标注分类的方法,其特征在于,其包括如下步骤:
步骤S1,对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息,并对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本;
步骤S2,对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息;
步骤S3,对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息;
步骤S4,根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类;
进一步,在所述步骤S1中,对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息,并对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本具体包括:
步骤S101,对每一个所述目标题目进行扫描拍摄,以此获得关于每一个所述目标题目的二维图像;
步骤S102,对所述二维图像进行像素二值化处理和背景降噪滤波处理,从而将所述二维图像转换为灰度化图像;
步骤S103,从所述灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据所述题目文本字符轮廓信息,将所述灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本;
进一步,在所述步骤S2中,对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对所述题目文本数据样本进行文本语种信息识别处理,从而获得所述题目文本数据样本对应的英文文本信息An和中文文本信息Bm
Figure BDA0002708880840000031
在上述公式(1)中,Title(An,Bm)表示所述题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示所述英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示所述中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示所述题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示所述任意一个中文文本字符的第j个区间对应的横向长度,hj表示所述任意一个中文文本字符的第j个区间对应的纵向长度,
Figure BDA0002708880840000032
表示所述任意一个中文文本字符对应横向笔画空间向量,
Figure BDA0002708880840000033
表示所述任意一个中文文本字符对应纵向笔画空间向量,f(a)表示所述题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure BDA0002708880840000034
表示对所述题目文本数据样本的英文文本字符的识别结果;
以及,
在所述步骤S3中,对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息,
Figure BDA0002708880840000041
在上述公式(2)中,Match(q,d)表示所述题目文本数据样本对应的学科类型标注匹配值,Q表示所述题目文本数据样本包含的学科总数量,D表示所述题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数;
进一步,在所述步骤S4中,根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类具体包括:
步骤S401,根据下面公式(3)和所述学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure BDA0002708880840000042
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
步骤S402,当所述匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对所述目标题目的自动分类。
本发明还提供题目自动标注分类的***,其特征在于,其包括目标题目拍摄模块、题目文本数据样本获取模块、题目英文文本/中文文本信息获取模块、学科类型标注信息获取模块和题目自动分类模块;其中,
所述目标题目拍摄模块用于对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息;
所述题目文本数据样本获取模块用于对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本;
所述题目英文文本/中文文本信息获取模块用于对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息;
所述学科类型标注信息获取模块用于对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息;
所述题目自动分类模块用于根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类;
进一步,所述目标题目拍摄模块对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息具体包括:
对每一个所述目标题目进行扫描拍摄,以此获得关于每一个所述目标题目的二维图像;
以及,
所述题目文本数据样本获取模块对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本具体包括:
对所述二维图像进行像素二值化处理和背景降噪滤波处理,从而将所述二维图像转换为灰度化图像;
再从所述灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据所述题目文本字符轮廓信息,将所述灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本;
进一步,所述题目英文文本/中文文本信息获取模块对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对所述题目文本数据样本进行文本语种信息识别处理,从而获得所述题目文本数据样本对应的英文文本信息An和中文文本信息Bm
Figure BDA0002708880840000061
在上述公式(1)中,Title(An,Bm)表示所述题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示所述英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示所述中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示所述题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示所述任意一个中文文本字符的第j个区间对应的横向长度,hj表示所述任意一个中文文本字符的第j个区间对应的纵向长度,
Figure BDA0002708880840000062
表示所述任意一个中文文本字符对应横向笔画空间向量,
Figure BDA0002708880840000063
表示所述任意一个中文文本字符对应纵向笔画空间向量,f(a)表示所述题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure BDA0002708880840000064
表示对所述题目文本数据样本的英文文本字符的识别结果;
以及,
所述学科类型标注信息获取模块对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息,
Figure BDA0002708880840000071
在上述公式(2)中,Match(q,d)表示所述题目文本数据样本对应的学科类型标注匹配值,Q表示所述题目文本数据样本包含的学科总数量,D表示所述题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数;
进一步,所述题目自动分类模块根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类具体包括:
根据下面公式(3)和所述学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure BDA0002708880840000072
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
并且当所述匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对所述目标题目的自动分类。
相比于现有技术,该题目自动标注分类的方法和***,其通过对若干目标题目分别进行拍摄,以此获得关于每一个目标题目的图像信息,并对图像信息进行文本数据转换处理,从而获得关于若干目标题目的题目文本数据样本,并对题目文本数据样本进行文本语种信息识别处理,以此获得题目文本数据样本对应的英文文本信息和中文文本信息,再对英文文本信息和中文文本信息进行词语类型识别处理,以此获得题目文本数据样本对应的学科类型标注信息,最后根据学科类型标注信息,将若干目标题目匹配划分到不同题目集合中,从而实现对若干目标题目的自动分类;可见,该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据,并识别得到题目文本数据样本分别包含的英文文本和中文文本,再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型,并且进行适应性的标注,最后根据该标注的结果将目标题目自动分类到相应的题目集合中,这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类,从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的题目自动标注分类的方法的流程示意图。
图2为本发明提供的题目自动标注分类的***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的题目自动标注分类的方法的流程示意图。该题目自动标注分类的方法包括如下步骤:
步骤S1,对若干目标题目分别进行拍摄,以此获得关于每一个该目标题目的图像信息,并对该图像信息进行文本数据转换处理,从而获得关于若干该目标题目的题目文本数据样本;
步骤S2,对该题目文本数据样本进行文本语种信息识别处理,以此获得该题目文本数据样本对应的英文文本信息和中文文本信息;
步骤S3,对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息;
步骤S4,根据该学科类型标注信息,将若干该目标题目匹配划分到不同题目集合中,从而实现对若干该目标题目的自动分类。
上述技术方案的有益效果为:该题目自动标注分类的方法通过图像拍摄和图像转换的方式能够将具有不同实体形式的目标题目转换为相应的文本形式,并且还通过英文/中文文本信息识别、词语类型识别和学科类型标注的不同处理过程,对题目文本数据样本进行有效的和准确的标注与分类深加工处理,从而能够有效地减少对目标题目进行标注和分类的计算工作量,并且还能够提高对目标题目进行标注和分类的速度和准确性。
优选地,在该步骤S1中,对若干目标题目分别进行拍摄,以此获得关于每一个该目标题目的图像信息,并对该图像信息进行文本数据转换处理,从而获得关于若干该目标题目的题目文本数据样本具体包括:
步骤S101,对每一个该目标题目进行扫描拍摄,以此获得关于每一个该目标题目的二维图像;
步骤S102,对该二维图像进行像素二值化处理和背景降噪滤波处理,从而将该二维图像转换为灰度化图像;
步骤S103,从该灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据该题目文本字符轮廓信息,将该灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本。
上述技术方案的有益效果为:通过对目标题目拍摄得到的图像进行像素二值化和背景降噪滤波,能够有效地提出图像中与目标题目不相关的噪声信息,而根据图像包含的题目文本字符轮廓信息,得到相应的题目文本数据,上述图像-文本的转换方式能够适用于不同分辨率级别的图像,并且还能够有效地降低文本识别转换的出错率和提高文本识别转换的可靠性。
优选地,在该步骤S2中,对该题目文本数据样本进行文本语种信息识别处理,以此获得该题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对该题目文本数据样本进行文本语种信息识别处理,从而获得该题目文本数据样本对应的英文文本信息An和中文文本信息Bm
Figure BDA0002708880840000101
在上述公式(1)中,Title(An,Bm)表示该题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示该英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示该中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示该题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示该任意一个中文文本字符的第j个区间对应的横向长度,hj表示该任意一个中文文本字符的第j个区间对应的纵向长度,
Figure BDA0002708880840000111
表示该任意一个中文文本字符对应横向笔画空间向量,
Figure BDA0002708880840000112
表示该任意一个中文文本字符对应纵向笔画空间向量,f(a)表示该题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure BDA0002708880840000113
表示对该题目文本数据样本的英文文本字符的识别结果,其中,第n个英文文本对应的文本语义近似值可通过下面方式确定:当第n个英文文本被确定为与字母A或者a相似,则其对应的文本语义近似值为1,当第n个英文文本被确定为与字母B或者b相似,则其对应的文本语义近似值为2,以此类推,当第n个英文文本被确定为与字母Z或者z相似,则其对应的文本语义近似值为26;第m个中文文本对应的文本语义近似值可通过下面方式确定:根据五笔输入法的输入模式,确定第m个中文文本包含的所有笔画类型,同时对每一种笔画类型预设设定相应的笔画分值,再将第m个中文文本包含的所有笔画类型对应的笔画分值进行累加,从而将累加的结果作为第m个中文文本的文本语义近似值;
以及,
在该步骤S3中,对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息,
Figure BDA0002708880840000114
在上述公式(2)中,Match(q,d)表示该题目文本数据样本对应的学科类型标注匹配值,Q表示该题目文本数据样本包含的学科总数量,D表示该题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数,举例而言,当英文文本信息中第n个英文文本的文本语义相似值为16,第n+1个英文文本的文本语义相似值为8,第n+2个英文文本的文本语义相似值为25,则第n个英文文本、第n+1个英文文本和第n+2个英文文本共同组成的英文文本信息被识别为“PHY”,即对应的学科类型为“物理”。
上述技术方案的有益效果为:通过对题目文本数据样本中的英文文本信息和中文文本信息进行同步的区分识别,能够提高对题目文本数据样本中不同语种信息的识别效率,并且还能够根据实际需要,对题目文本数据样本中的不同语种题目进行准确的标注,从而有针对性地对不同语种题目进行区分处理。
优选地,在该步骤S4中,根据该学科类型标注信息,将若干该目标题目匹配划分到不同题目集合中,从而实现对若干该目标题目的自动分类具体包括:
步骤S401,根据下面公式(3)和该学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure BDA0002708880840000121
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
步骤S402,当该匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对该目标题目的自动分类。
上述技术方案的有益效果为:通过确定每一个目标题目与预设关键词之间的匹配度值,能够便于以预设关键词作为目标题目的分类标准,并且只有在目标题目与预设关键词之间完全匹配的情况下,在将目标题目自动分类到对应的题目集合中,从而提高目标题目的分类自动化程度和分类准确性。
参阅图2,为本发明实施例提供的题目自动标注分类的***的结构示意图。该题目自动标注、分类的***包括目标题目拍摄模块、题目文本数据样本获取模块、题目英文文本/中文文本信息获取模块、学科类型标注信息获取模块和题目自动分类模块;其中,
该目标题目拍摄模块用于对若干目标题目分别进行拍摄,以此获得关于每一个该目标题目的图像信息;
该题目文本数据样本获取模块用于对该图像信息进行文本数据转换处理,从而获得关于若干该目标题目的题目文本数据样本;
该题目英文文本/中文文本信息获取模块用于对该题目文本数据样本进行文本语种信息识别处理,以此获得该题目文本数据样本对应的英文文本信息和中文文本信息;
该学科类型标注信息获取模块用于对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息;
该题目自动分类模块用于根据该学科类型标注信息,将若干该目标题目匹配划分到不同题目集合中,从而实现对若干该目标题目的自动分类。
上述技术方案的有益效果为:该题目自动标注分类的***通过图像拍摄和图像转换的方式能够将具有不同实体形式的目标题目转换为相应的文本形式,并且还通过英文/中文文本信息识别、词语类型识别和学科类型标注的不同处理过程,对题目文本数据样本进行有效的和准确的标注与分类深加工处理,从而能够有效地减少对目标题目进行标注和分类的计算工作量,并且还能够提高对目标题目进行标注和分类的速度和准确性。
优选地,该目标题目拍摄模块对若干目标题目分别进行拍摄,以此获得关于每一个该目标题目的图像信息具体包括:
对每一个该目标题目进行扫描拍摄,以此获得关于每一个该目标题目的二维图像;
以及,
该题目文本数据样本获取模块对该图像信息进行文本数据转换处理,从而获得关于若干该目标题目的题目文本数据样本具体包括:
对该二维图像进行像素二值化处理和背景降噪滤波处理,从而将该二维图像转换为灰度化图像;
再从该灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据该题目文本字符轮廓信息,将该灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本。
上述技术方案的有益效果为:通过对目标题目拍摄得到的图像进行像素二值化和背景降噪滤波,能够有效地提出图像中与目标题目不相关的噪声信息,而根据图像包含的题目文本字符轮廓信息,得到相应的题目文本数据,上述图像-文本的转换方式能够适用于不同分辨率级别的图像,并且还能够有效地降低文本识别转换的出错率和提高文本识别转换的可靠性。
优选地,该题目英文文本/中文文本信息获取模块对该题目文本数据样本进行文本语种信息识别处理,以此获得该题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对该题目文本数据样本进行文本语种信息识别处理,从而获得该题目文本数据样本对应的英文文本信息An和中文文本信息Bm
Figure BDA0002708880840000141
在上述公式(1)中,Title(An,Bm)表示该题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示该英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示该中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示该题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示该任意一个中文文本字符的第j个区间对应的横向长度,hj表示该任意一个中文文本字符的第j个区间对应的纵向长度,
Figure BDA0002708880840000151
表示该任意一个中文文本字符对应横向笔画空间向量,
Figure BDA0002708880840000152
表示该任意一个中文文本字符对应纵向笔画空间向量,f(a)表示该题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure BDA0002708880840000153
表示对该题目文本数据样本的英文文本字符的识别结果,其中,第n个英文文本对应的文本语义近似值可通过下面方式确定:当第n个英文文本被确定为与字母A或者a相似,则其对应的文本语义近似值为1,当第n个英文文本被确定为与字母B或者b相似,则其对应的文本语义近似值为2,以此类推,当第n个英文文本被确定为与字母Z或者z相似,则其对应的文本语义近似值为26;第m个中文文本对应的文本语义近似值可通过下面方式确定:根据五笔输入法的输入模式,确定第m个中文文本包含的所有笔画类型,同时对每一种笔画类型预设设定相应的笔画分值,再将第m个中文文本包含的所有笔画类型对应的笔画分值进行累加,从而将累加的结果作为第m个中文文本的文本语义近似值;
以及,
该学科类型标注信息获取模块对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对该英文文本信息和该中文文本信息进行词语类型识别处理,以此获得该题目文本数据样本对应的学科类型标注信息,
Figure BDA0002708880840000154
在上述公式(2)中,Match(q,d)表示该题目文本数据样本对应的学科类型标注匹配值,Q表示该题目文本数据样本包含的学科总数量,D表示该题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数,举例而言,当英文文本信息中第n个英文文本的文本语义相似值为16,第n+1个英文文本的文本语义相似值为8,第n+2个英文文本的文本语义相似值为25,则第n个英文文本、第n+1个英文文本和第n+2个英文文本共同组成的英文文本信息被识别为“PHY”,即对应的学科类型为“物理”。
上述技术方案的有益效果为:通过对题目文本数据样本中的英文文本信息和中文文本信息进行同步的区分识别,能够提高对题目文本数据样本中不同语种信息的识别效率,并且还能够根据实际需要,对题目文本数据样本中的不同语种题目进行准确的标注,从而有针对性地对不同语种题目进行区分处理。
优选地,该题目自动分类模块根据该学科类型标注信息,将若干该目标题目匹配划分到不同题目集合中,从而实现对若干该目标题目的自动分类具体包括:
根据下面公式(3)和该学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure BDA0002708880840000161
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
并且当该匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对该目标题目的自动分类。
上述技术方案的有益效果为:通过确定每一个目标题目与预设关键词之间的匹配度值,能够便于以预设关键词作为目标题目的分类标准,并且只有在目标题目与预设关键词之间完全匹配的情况下,在将目标题目自动分类到对应的题目集合中,从而提高目标题目的分类自动化程度和分类准确性。
从上述实施例的内容可知,该题目自动标注分类的方法和***,其通过对若干目标题目分别进行拍摄,以此获得关于每一个目标题目的图像信息,并对图像信息进行文本数据转换处理,从而获得关于若干目标题目的题目文本数据样本,并对题目文本数据样本进行文本语种信息识别处理,以此获得题目文本数据样本对应的英文文本信息和中文文本信息,再对英文文本信息和中文文本信息进行词语类型识别处理,以此获得题目文本数据样本对应的学科类型标注信息,最后根据学科类型标注信息,将若干目标题目匹配划分到不同题目集合中,从而实现对若干目标题目的自动分类;可见,该题目自动标注分类的方法和***通过对目标题目进行拍摄和将拍摄得到的图像转换为相应的题目文本数据,并识别得到题目文本数据样本分别包含的英文文本和中文文本,再根据该英文文本和该中文文本各自包含的词汇类型得到其对应所属的学科类型,并且进行适应性的标注,最后根据该标注的结果将目标题目自动分类到相应的题目集合中,这样能够对海量的不同类型目标题目进行有针对性的和高效的自动标注与分类,从而提高对题目进行深加工的效率和便于后续对题目进行分析处理。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.题目自动标注分类的方法,其特征在于,其包括如下步骤:
步骤S1,对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息,并对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本;
步骤S2,对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息;
步骤S3,对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息;
步骤S4,根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类。
2.如权利要求1所述的题目自动标注分类的方法,其特征在于:
在所述步骤S1中,对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息,并对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本具体包括:
步骤S101,对每一个所述目标题目进行扫描拍摄,以此获得关于每一个所述目标题目的二维图像;
步骤S102,对所述二维图像进行像素二值化处理和背景降噪滤波处理,从而将所述二维图像转换为灰度化图像;
步骤S103,从所述灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据所述题目文本字符轮廓信息,将所述灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本。
3.如权利要求2所述的题目自动标注分类的方法,其特征在于:
在所述步骤S2中,对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对所述题目文本数据样本进行文本语种信息识别处理,从而获得所述题目文本数据样本中包括的英文文本语义近似值和中文文本语义近似值:
Figure FDA0002708880830000021
在上述公式(1)中,Title(An,Bm)表示所述题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示所述英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示所述中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示所述题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示所述任意一个中文文本字符的第j个区间对应的横向长度,hj表示所述任意一个中文文本字符的第j个区间对应的纵向长度,
Figure FDA0002708880830000022
表示所述任意一个中文文本字符对应横向笔画空间向量,
Figure FDA0002708880830000023
表示所述任意一个中文文本字符对应纵向笔画空间向量;f(a)表示所述题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure FDA0002708880830000024
表示对所述题目文本数据样本的英文文本字符的识别结果,
Figure FDA0002708880830000031
表示对所述题目文本数据样本的中文文本字符的识别结果;
以及,
在所述步骤S3中,对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息:
Figure FDA0002708880830000032
在上述公式(2)中,Match(q,d)表示所述题目文本数据样本对应的学科类型标注匹配值,Q表示所述题目文本数据样本包含的学科总数量,D表示所述题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数。
4.如权利要求3所述的题目自动标注分类的方法和***,其特征在于:
在所述步骤S4中,根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类具体包括:
步骤S401,根据下面公式(3)和所述学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure FDA0002708880830000033
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
步骤S402,当所述匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对所述目标题目的自动分类。
5.题目自动标注分类的***,其特征在于,其包括目标题目拍摄模块、题目文本数据样本获取模块、题目英文文本/中文文本信息获取模块、学科类型标注信息获取模块和题目自动分类模块;其中,
所述目标题目拍摄模块用于对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息;
所述题目文本数据样本获取模块用于对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本;
所述题目英文文本/中文文本信息获取模块用于对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息;
所述学科类型标注信息获取模块用于对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息;
所述题目自动分类模块用于根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类。
6.如权利要求5所述的题目自动标注分类的***,其特征在于:
所述目标题目拍摄模块对若干目标题目分别进行拍摄,以此获得关于每一个所述目标题目的图像信息具体包括:
对每一个所述目标题目进行扫描拍摄,以此获得关于每一个所述目标题目的二维图像;
以及,
所述题目文本数据样本获取模块对所述图像信息进行文本数据转换处理,从而获得关于若干所述目标题目的题目文本数据样本具体包括:
对所述二维图像进行像素二值化处理和背景降噪滤波处理,从而将所述二维图像转换为灰度化图像;
再从所述灰度化图像中提取得到相应的题目文本字符轮廓信息,并根据所述题目文本字符轮廓信息,将所述灰度化图像转换为对应目标题目的题目文本数据,从而将所有目标题目对应的题目文本数据组成题目文本数据样本。
7.如权利要求6所述的题目自动标注分类的***,其特征在于:
所述题目英文文本/中文文本信息获取模块对所述题目文本数据样本进行文本语种信息识别处理,以此获得所述题目文本数据样本对应的英文文本信息和中文文本信息具体包括:
根据下面公式(1),对所述题目文本数据样本进行文本语种信息识别处理,从而获得所述题目文本数据样本对应的英文文本信息An和中文文本信息Bm
Figure FDA0002708880830000051
在上述公式(1)中,Title(An,Bm)表示所述题目文本数据样本中所包括的英文文本语义近似值和中文文本语义近似值共同组成的标题文本语义近似值,π表示圆周率,arctan表示反正切函数运算符号,An表示标题中第n个英文文本对应的文本语义近似值,Bm表示第m个中文文本对应的文本语义近似值,N表示所述英文文本信息包含的英文文本数据总数量、且其最大值为40,n的取值为1-40之间的任意整数,M表示所述中文文本信息包含的中文文本数据总数量、且其最大值为20,m的取值为1-20之间的任意整数,j表示所述题目文本数据样本中任意一个中文文本字符按照米字格拆分形成八个区间、各个区间以向右横轴方向按逆时针顺序进行标记的编号数、且j的取值只能为1、2、3、4、5、6、7、8,li表示所述任意一个中文文本字符的第j个区间对应的横向长度,hj表示所述任意一个中文文本字符的第j个区间对应的纵向长度,
Figure FDA0002708880830000061
表示所述任意一个中文文本字符对应横向笔画空间向量,
Figure FDA0002708880830000062
表示所述任意一个中文文本字符对应纵向笔画空间向量,f(a)表示所述题目文本数据样本中任意一个英文文本字符对应的字符面积值,
Figure FDA0002708880830000063
表示对所述题目文本数据样本的英文文本字符的识别结果;
Figure FDA0002708880830000064
为偏导函数符号;
以及,
所述学科类型标注信息获取模块对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息具体包括:
根据下面公式(2),对所述英文文本信息和所述中文文本信息进行词语类型识别处理,以此获得所述题目文本数据样本对应的学科类型标注信息,
Figure FDA0002708880830000065
在上述公式(2)中,Match(q,d)表示所述题目文本数据样本对应的学科类型标注匹配值,Q表示所述题目文本数据样本包含的学科总数量,D表示所述题目文本数据样本包含的英文词语和中文词语总数量,q表示取[1,Q]之间的任意正整数,d表示取[1,D]之间的任意正整数。
8.如权利要求7所述的题目自动标注分类的***,其特征在于:
所述题目自动分类模块根据所述学科类型标注信息,将若干所述目标题目匹配划分到不同题目集合中,从而实现对若干所述目标题目的自动分类具体包括:
根据下面公式(3)和所述学科类型标注信息,确定每一个目标题目与预设分类关键词库中对应关键词之间的匹配度值Disp(or,tr),
Figure FDA0002708880830000071
在上述公式(3)中,or表示第r个关键词对应的字符数量,tr表示第r个关键词对应的字符比特长度,r表示大于或等于1的任意正整数;
并且当所述匹配度值Disp(or,tr)等于1时,表明当前目标题目与当前关键词相匹配,并将当前目标题目划分到与当前关键词对应的题目集合中,从而实现对所述目标题目的自动分类。
CN202011048811.0A 2020-09-29 2020-09-29 题目自动标注分类的方法和*** Pending CN111985193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011048811.0A CN111985193A (zh) 2020-09-29 2020-09-29 题目自动标注分类的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011048811.0A CN111985193A (zh) 2020-09-29 2020-09-29 题目自动标注分类的方法和***

Publications (1)

Publication Number Publication Date
CN111985193A true CN111985193A (zh) 2020-11-24

Family

ID=73450731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011048811.0A Pending CN111985193A (zh) 2020-09-29 2020-09-29 题目自动标注分类的方法和***

Country Status (1)

Country Link
CN (1) CN111985193A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579735A (zh) * 2020-12-09 2021-03-30 北京字节跳动网络技术有限公司 一种题目生成方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579735A (zh) * 2020-12-09 2021-03-30 北京字节跳动网络技术有限公司 一种题目生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Busta et al. Deep textspotter: An end-to-end trainable scene text localization and recognition framework
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
Bensefia et al. Information Retrieval Based Writer Identification.
US8340429B2 (en) Searching document images
US20060062460A1 (en) Character recognition apparatus and method for recognizing characters in an image
Cao et al. An end-to-end neural network for multi-line license plate recognition
Tayyab et al. Recognition of Visual Arabic Scripting News Ticker From Broadcast Stream
CN115019294A (zh) 一种指针式仪表读数识别方法及***
CN113205046B (zh) 题册识别方法、***、装置及介质
CN111985193A (zh) 题目自动标注分类的方法和***
CN108229565B (zh) 一种基于认知的图像理解方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111553361B (zh) 一种病理切片标签识别方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN112818133A (zh) 深度知识追踪方法和***
CN114937269B (zh) 一种基于英文和汉字联合的船舶号牌识别方法及***
CN115659056A (zh) 基于大数据的用户服务精准匹配***
Vitadhani et al. Detection of clickbait thumbnails on YouTube using tesseract-OCR, face recognition, and text alteration
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
Xin et al. Comic text detection and recognition based on deep learning
CN111898618A (zh) 一种识别古代图形文字的方法、装置和程序储存介质
Hebert et al. Writing type and language identification in heterogeneous and complex documents
AU2021101278A4 (en) System and Method for Automatic Language Detection for Handwritten Text
Gong et al. A Deep Learning Technology based OCR Framework for Recognition Handwritten Expression and Text
Jatmiko et al. Traffic signs text recognition and error correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination