CN113722466A - 批改模型训练方法、批改方法、装置、电子设备和介质 - Google Patents

批改模型训练方法、批改方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN113722466A
CN113722466A CN202111295902.9A CN202111295902A CN113722466A CN 113722466 A CN113722466 A CN 113722466A CN 202111295902 A CN202111295902 A CN 202111295902A CN 113722466 A CN113722466 A CN 113722466A
Authority
CN
China
Prior art keywords
branch
image
model
character string
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111295902.9A
Other languages
English (en)
Other versions
CN113722466B (zh
Inventor
刘军
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202111295902.9A priority Critical patent/CN113722466B/zh
Publication of CN113722466A publication Critical patent/CN113722466A/zh
Application granted granted Critical
Publication of CN113722466B publication Critical patent/CN113722466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种批改模型训练方法、批改方法、装置、电子设备和介质;其中,候选批改模型包括第一分支和第二分支,该方法包括:将训练样本中的作答图像和训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征;基于候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果;基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型。本公开实施例能够有效实现对作图题的作答图像的准确批改。

Description

批改模型训练方法、批改方法、装置、电子设备和介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种批改模型训练方法、批改方法、装置、电子设备和介质。
背景技术
拍照判题是人工智能技术在教育领域的一项重要应用,用户可直接通过手机或者其他电子设备对需要批改的作答题目进行拍照上传至指定应用程序中,应用程序会将接收到的图像输入题型判断模型中进行批改,以输出作答题目的批改结果。
其中,题型判断模型是一种文本检测模型,可检测横式、竖式和脱式三种题型并将它们用文本框框起来,得到文本区域坐标,对框进行合并,同时根据每种题型的特点,分析得到每个题是由那些框组成的,根据框的坐标在原图上进行裁剪,将裁剪得到的图像送入识别模型,得到每个题目的内容,然后根据题目内容进行判题,最后将判断结果进行输出。
然而,上述提及的题型判断模型仅能对包含文本的作答题目进行检测,对一些带有语义信息的题目(如与图像相关的)无法有效识别。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种批改模型训练方法、批改方法、装置、电子设备和介质。
第一方面,本公开提供了一种批改模型训练方法,应用于候选批改模型,所述候选批改模型包括第一分支和第二分支,包括:
将训练样本中的作答图像和所述训练样本中的题目描述字符串输入所述候选批改模型的第一分支,得到第一图像特征;
基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果;
基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型。
第二方面,本公开提供了一种批改方法,包括:
获取待批改的作答图像、所述作答图像对应的题目描述字符串和所述作答图像对应的答案描述字符串;
将所述待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将所述题目描述字符串输入所述目标批改模型的第一分支中的第一预设结构网络,以及将所述答案描述字符串输入所述目标批改模型的第二分支,获得所述待批改的作答图像的批改结果;
其中,所述目标批改模型基于如第一方面所述的批改模型训练方法训练得到。
第三方面,本公开提供了一种批改模型训练装置,包括:
第一确定模块,用于将训练样本中的作答图像和所述训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征;
第二确定模块,用于基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果;
训练模块,用于基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型。
第四方面,本公开提供了一种批改装置,包括:
获取模块,用于获取待批改的作答图像、所述作答图像对应的题目描述字符串和所述作答图像对应的答案描述字符串;
确定模块,用于将所述待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将所述题目描述字符串输入所述目标批改模型的第一分支中的第一预设结构网络,以及将所述答案描述字符串输入所述目标批改模型的第二分支,获得所述待批改的作答图像的批改结果;
其中,所述目标批改模型基于如第一方面所述的批改模型训练方法训练得到。
第五方面,本公开还提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器实现本实施例中的任一种所述的批改模型训练方法,或者实现本实施例中的任一种所述的批改方法。
第六方面,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行时实现本实施例中的任一种所述的批改模型训练方法,或者实现本实施例中的任一种所述的批改方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:本实施例方法可应用于候选批改模型中,候选批改模型可包括第一分支和第二分支;通过将训练样本中的作答图像和训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征,并结合候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果,以基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型,从而,能够实现对作图题的作答图像的准确批改。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种批改模型的结构示意图;
图2是本公开实施例提供的一种批改模型训练方法的流程示意图;
图3是本公开实施例提供的另一种批改模型训练方法的流程示意图;
图4是本公开实施例提供的一种批改方法的流程示意图;
图5是本公开实施例提供的一种批改模型训练装置的结构示意图;
图6是本公开实施例提供的一种批改装置的结构示意图;
图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
示例性地,候选批改模型的模型结构图可参见图1。其中,候选批改模型可包括第一分支和第二分支;第一分支可包括第一部分和第二部分。
其中,第一分支的第一部分可包括三层,分别为两层双向长短期记忆网络(LongShort-Term Memory,LSTM)和一层注意力层,第一部分的输入为题目描述字符串经过编码后的特征,输出为特征2(如以下实施例中提及的题目特征映射)。
第一分支的第二部分可包括四个基本块(如block),每个block之间采用级联方式连接,其中,前一个block的输出与特征2的相乘结果作为后一个block的输入;第二部分的输入为作答图像,输出为特征1(如以下实施例中提及的第一图像特征)。
第二分支可包括:三层双向LSTM、两层注意力层、拼接层、三层卷积层和两层全连接层,第二分支的输入为答案描述字符串经过编码后的特征,中间输出为特征3(如以下实施例中提及的第二图像特征),最终输出为作答图像的预测结果。
需要说明的是,候选批改模型中的最后一个全连接层具有两个输出节点,这两个输出节点用于输出作答图像的作答判定结果,如第一个输出节点用于输出作答图像的正确判断结果,第二个输出结果则用于输出作答图像的错误判断结果。
以下参照附图描述本公开的方案。
图2是本公开实施例提供的一种批改模型训练方法的流程示意图。本实施例方法可由批改模型训练装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的批改模型训练方法。如图2所示,该方法具体包括如下:
S210、将训练样本中的作答图像和训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征。
其中,候选批改模型可包括第一分支和第二分支,第一分支和第二分支可相互独立处理不同数据。
其中,第一图像特征可为能够表达批改题目的具体语义信息的高维抽象向量。
另外,候选批改模型的第一分支中可由两个部分组成,每个组成部分可对应一个预设结构网络,预设结构网络也可作为候选批改模型中的一个子模型。
S220、基于候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果。
其中,候选批改模型的第二分支中可由一个部分组成,且该组成部分也可对应一个预设结构网络,预设结构网络也可作为候选批改模型中的另一个子模型。
在本实施例中,可选的,基于候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果,包括:
对训练样本中的答案描述字符串进行编码,得到答案描述向量;
将答案描述向量输入候选批改模型的第二分支,得到第二图像特征;
根据第一图像特征和第二图像特征,得到预测结果。
其中,可通过对答案描述字符串进行Word2vec编码或glove编码,本公开中字符的编码方式可为自然语言中常用的编码技术,本公开中不限于是Word2vec编码和glove编码,也可是自然语言中常用的其他编码技术实现,本公开对此不做限定。
其中,第二图像特征为经过第二分支处理后得到的变换后的特征向量。
从而,通过对答案描述字符串进行编码,得到答案描述向量,以对答案描述字符串进行编码处理,并将编码处理结果输入候选批改模型的第二分支,得到第二图像特征,以此结合批改题目的不同特征向量获得用于模型训练的有效样本。
在本实施例中,可选的,根据第一图像特征和第二图像特征,得到预测结果,包括:
基于预设向量维度,对第一图像特征和第二图像特征进行拼接;
对拼接结果进行卷积操作,得到作答图像的预测结果。
其中,可基于指定向量维度对第一图像特征和第二图像特征进行随机拼接,对于指定向量,神经网络的参数是固定的,因此每一次每一步操作得到的向量维度均是统一的,此维度可看作一个超参数,可以根据经验认为设定。
对拼接结果进行三个卷积层的卷积操作,再接入两个全连接层,最后输出作答图像的批改结果,其中,最后一个全连接层的输出节点数为2,可分别作为对作答图像的批改结果的判定,即作答正确或作答错误。
从而,基于确定出的预测结果,对模型进行训练,能够有效提高模型训练效率。
S230、基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型。
其中,预设损失函数为模型是否训练合格的衡量标准,从而,有效保证训练得到的目标批改模型具有较高精度的识别结果。
其中,可将预测结果分训练集和验证集,利用训练集对候选批改模型的第一分支和候选批改模型的第二分支进行训练,得到初始批改模型,再用验证集对得到的初始批改模型进行验证,若验证合格,则得到训练后的目标批改模型。
其中,基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型,可包括:
基于预设损失函数,根据预测结果和答案描述字符串对应的字符标签,确定损失值;
根据损失值调整第一分支中的参数和第二分支中的参数,直至模型收敛。
其中,预设损失函数可使用多分类交叉熵损失函数;通过预设损失函数计算预测结果与答案描述字符串对应的字符标签之间的相似性,来验证候选批改模型的模型识别精度,以训练出稳定度高的目标批改模型。
其中,损失值为预测结果与答案描述字符串对应的字符标签之间的误差值,其可有效反映出目标批改模型的训练精度。
基于上述实施例的描述,在S210之前,还可以包括:
获取训练样本,训练样本包括:批改题目的作答图像、批改题目对应的题目描述字符串和批改题目对应的答案描述字符串。
其中,批改题目可包括选择题型对应的题目、填空题型对应的题目、判断题型对应的题目、或者作图类型对应的题目等。批改题目的作答图像可基于对上述题型中的至少一种题型采用电子设备进行拍照获得。
其中,批改题目对应的题目描述字符串可通过人工标注的方式,从每个批改题目的作答图像中标注出该题目对应的题目描述字符串,或者,可以提取题目中的关键题干,作为批改题目对应的题目描述字符串。
其中,批改题目对应的答案描述字符串可通过人工标注的方式,从每个批改题目的作答图像中标注出作答结果对应的答案描述字符串。
示例性地,批改题目的作答图像中包括:一共10只鸭子,每只鸭子对应一张图中,请为其中的8只图上颜色,则批改题目对应的题目描述字符串可为:“一共10只鸭子,每只鸭子对应一张图中,请为其中的8只图上颜色”,批改题目对应的答案描述字符串可为:“8只小鸭子需要涂上颜色”。
另外,可对每个用户基于该题目的作答,评定一个对错标签。
本实施例提供的批改模型训练方法,其中,候选批改模型可包括第一分支和第二分支;通过将训练样本中的作答图像和训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征,并结合候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果,以基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型,从而,能够实现对作图题的作答图像的准确批改。
图3是本公开实施例提供的另一种批改模型训练方法的流程示意图。本实施例是在上述实施例的基础上,其中,步骤S210的一种可能实现的方式如下:
S2101、对训练样本中的题目描述字符串进行编码,得到题目描述向量。
其中,可通过对题目描述字符串进行Word2vec编码或glove编码,本公开中字符的编码方式可为自然语言中常用的编码技术,本公开中不限于是Word2vec编码和glove编码,也可是自然语言中常用的其他编码技术实现,本公开对此不做限定。
S2102、基于候选批改模型的第一分支中的第一预设结构网络,根据题目描述向量得到训练样本中的作答图像对应的题目特征映射。
其中,第一预设结构网络可由两层的双向是长短期记忆网络LSTM和简单注意力层构成,基于第一分支中的第一预设结构网络,根据题目描述向量得到作答图像对应的题目特征映射,题目特征映射为作答图像中题目对应的特征映射。
在本实施例中,可选的,基于候选批改模型的第一分支中的第一预设结构网络,根据题目描述向量得到训练样本中的作答图像对应的题目特征映射,包括:
将题目描述向量输入候选批改模型的第一分支中的第一预设结构网络,得到的目标向量;
基于第一预设结构网络中预先构建的注意力层,将每个目标向量进行线性变换,得到每个目标向量对应的变换向量;
将每个变换向量进行拼接,得到训练样本中的作答图像对应的题目特征映射。
其中,将题目描述向量依次送入第一预设结构网络中的双向LSTM,LSTM的每个节点的输出也是一个高维向量(即本实施例提及的目标向量),其中,目标向量为对题目描述向量进行不同特征提取后得到的特征向量,该特征向量可以是与题目描述向量的信息维度不同的向量,其可认为是一个中间状态量,与作答图像对应的题目特征映射一一对应。并通过自注意力机制构建一个注意力层,对每个目标向量进行3次线性变换,得到每个目标向量对应的变换向量,从而,提取出全局语义信息,得出变换之后的所有向量。
S2103、根据第一分支中的第二预设结构网络中串联的四个块和题目特征映射,对作答图像进行处理,得到第一图像特征。
其中,第二预设结构网络可为Resnet18网络,Resnet18可包括四个块,分别为第一个块、第二个块、第三个块和第四个块,每个块之间采用依次串联的方式连接处理。
其中,每个块由若干卷积层、归一化和池化层组成,可提取图像的高级语义特征。
在本实施例中,可选的,根据第一分支中的第二预设结构网络中串联的四个块和题目特征映射,对作答图像进行处理,得到第一图像特征,包括:
将作答图像输入第一分支中的第二预设结构网络的第一个块中,将第一个块的输出结果与题目特征映射进行相乘并输入下一个块中;
依次将当前块的输出与题目特征映射进行相乘并输入下一个块中,根据第二预设结构网络中最后一个块的输出确定第一图像特征,当前块为第二预设结构网络中正在进行数据处理的块。
示例性地,将作答图像输入第一分支中的第二预设结构网络的第一个块中,得到第一个块的输出结果,将第一个块的输出结果和题目特征映射进行逐点相乘得到第一结果,将第一结果输入第二个块中,得到第二个块的输出结果,将第二个块的输出结果和题目特征映射进行逐点相乘得到第二结果,将第二结果输入第三个块中,得到第三个块的输出结果,将第三个块的输出结果和题目特征映射进行逐点相乘得到第三结果,将第三结果输入第四个块中,得到第四个块的输出结果,以此确定出第一图像特征。
从而,通过将每一个块的输出和题目特征映射的相乘结果作为下一个块的输入,以引导每一个块提取的高级语义特征能够关注自己要问的相关内容,提高语义特征的关联性。
图4是本公开实施例提供的一种批改方法的流程示意图。本实施例方法可由批改装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的批改方法。如图4所示,该方法具体包括如下:
S410、获取待批改的作答图像、作答图像对应的题目描述字符串和作答图像对应的答案描述字符串。
其中,待批改的作答图像可为用户对一个待作答题目进行的作答对应出的图像。可基于待批改的作答图像,通过如图搜图等多种实现方式,获得作答图像对应的题目描述字符串和作答图像对应的答案描述字符串。
S420、将待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将题目描述字符串输入目标批改模型的第一分支中的第一预设结构网络,以及将答案描述字符串输入目标批改模型的第二分支,获得待批改的作答图像的批改结果;
其中,目标批改模型基于如图1实施例或图2实施例的方法训练得到。
其中,题目描述字符串可经过编码处理输入目标批改模型的第一分支中的第一预设结构网络中,答案描述字符串可经过编码处理输入目标批改模型的第二分支,经过目标批改模型的两个分支处理,能够有效识别出待批改的作答图像的批改结果,从而,提高作图相关问题的批改效率,以解决如低年级数学中作图相关问题的批改问题。
图5是本公开实施例提供的一种批改模型训练装置的结构示意图;该装置配置于电子设备中,可实现本申请任意实施例所述的批改模型训练方法。该装置具体包括如下:
第一确定模块510,用于将训练样本中的作答图像和所述训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征;
第二确定模块520,用于基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果;
训练模块530,用于基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型。
在本实施例中,可选的,第一确定模块510,包括:第一确定单元、第二确定单元和第三确定单元;
第一确定单元,用于对训练样本中的题目描述字符串进行编码,得到题目描述向量;
第二确定单元,用于基于所述候选批改模型的第一分支中的第一预设结构网络,根据所述题目描述向量得到训练样本中的作答图像对应的题目特征映射;
第三确定单元,用于根据所述第一分支中的第二预设结构网络中串联的四个块和所述题目特征映射,对所述作答图像进行处理,得到第一图像特征。
在本实施例中,可选的,第三确定单元,具体用于:
将所述作答图像输入所述第一分支中的第二预设结构网络的第一个块中,将所述第一个块的输出结果与所述题目特征映射进行相乘并输入下一个块中;
依次将当前块的输出与所述题目特征映射进行相乘并输入下一个块中,根据所述第二预设结构网络中最后一个块的输出确定第一图像特征,所述当前块为所述第二预设结构网络中正在进行数据处理的块。
在本实施例中,可选的,第二确定单元,具体用于:
将所述题目描述向量输入所述候选批改模型的第一分支中的第一预设结构网络,得到的目标向量;
基于所述第一预设结构网络中预先构建的注意力层,将每个所述目标向量进行线性变换,得到每个所述目标向量对应的变换向量;
将每个所述变换向量进行拼接,得到训练样本中的作答图像对应的题目特征映射。
在本实施例中,可选的,第二确定模块520,包括:第四确定单元、第五确定单元和第六确定单元;
第四确定单元,用于对所述训练样本中的答案描述字符串进行编码,得到答案描述向量;
第五确定单元,用于将所述答案描述向量输入所述候选批改模型的第二分支,得到第二图像特征;
第六确定单元,用于根据所述第一图像特征和所述第二图像特征,得到预测结果。
在本实施例中,可选的,第六确定单元,具体用于:
基于预设向量维度,对所述第一图像特征和所述第二图像特征进行拼接;
对拼接结果进行卷积操作,得到所述作答图像的预测结果。
在本实施例中,可选的,还包括:获取模块;
获取模块,用于获取训练样本,所述训练样本包括:批改题目的作答图像、所述批改题目对应的题目描述字符串和所述批改题目对应的答案描述字符串。
在本实施例中,可选的,训练模块530,具体用于:
基于预设损失函数,根据所述预测结果和所述答案描述字符串对应的字符标签,确定损失值;
根据所述损失值调整所述第一分支中的参数和所述第二分支中的参数,直至模型收敛。
通过本发明实施例的批改模型训练装置,其中,候选批改模型可包括第一分支和第二分支;通过将训练样本中的作答图像和训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征,并结合候选批改模型的第二分支,根据第一图像特征和训练样本中的答案描述字符串,获得预测结果,以基于预设损失函数,根据预测结果对第一分支和第二分支进行训练,获得训练后的目标批改模型,从而,能够实现对作图题的作答图像的准确批改。
本发明实施例所提供的批改模型训练装置可执行本发明任意实施例所提供的批改模型训练方法,具备执行方法相应的功能模块和有益效果。
图6是本公开实施例提供的一种批改装置的结构示意图;该装置配置于电子设备中,可实现本申请任意实施例所述的批改方法。该装置具体包括如下:
获取模块610,用于获取待批改的作答图像、所述作答图像对应的题目描述字符串和所述作答图像对应的答案描述字符串;
确定模块620,用于将所述待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将所述题目描述字符串输入所述目标批改模型的第一分支中的第一预设结构网络,以及将所述答案描述字符串输入所述目标批改模型的第二分支,获得所述待批改的作答图像的批改结果;
其中,所述目标批改模型基于如图1实施例或图2实施例所述的批改模型训练方法训练得到。
通过本发明实施例的批改装置,能够有效识别出待批改的作答图像的批改结果,从而,提高作图相关问题的批改效率,以解决如低年级数学中作图相关问题的批改问题。
本发明实施例所提供的批改装置可执行本发明任意实施例所提供的批改方法,具备执行方法相应的功能模块和有益效果。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图7,现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备,输入单元706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元704可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,批改模型训练方法或者批改方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法批改模型训练方法或者批改方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (13)

1.一种批改模型训练方法,其特征在于,应用于候选批改模型,所述候选批改模型包括第一分支和第二分支,包括:
将训练样本中的作答图像和所述训练样本中的题目描述字符串输入所述候选批改模型的第一分支,得到第一图像特征;
基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果;
基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型。
2.根据权利要求1所述的方法,其特征在于,所述将训练样本中的作答图像和所述训练样本中的题目描述字符串输入所述候选批改模型的第一分支,得到第一图像特征,包括:
对训练样本中的题目描述字符串进行编码,得到题目描述向量;
基于所述候选批改模型的第一分支中的第一预设结构网络,根据所述题目描述向量得到训练样本中的作答图像对应的题目特征映射;
根据所述第一分支中的第二预设结构网络中串联的四个块和所述题目特征映射,对所述作答图像进行处理,得到第一图像特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一分支中的第二预设结构网络中串联的四个块和所述题目特征映射,对所述作答图像进行处理,得到第一图像特征,包括:
将所述作答图像输入所述第一分支中的第二预设结构网络的第一个块中,将所述第一个块的输出结果与所述题目特征映射进行相乘并输入下一个块中;
依次将当前块的输出与所述题目特征映射进行相乘并输入下一个块中,根据所述第二预设结构网络中最后一个块的输出确定第一图像特征,所述当前块为所述第二预设结构网络中正在进行数据处理的块。
4.根据权利要求2所述的方法,其特征在于,所述基于所述候选批改模型的第一分支中的第一预设结构网络,根据所述题目描述向量得到训练样本中的作答图像对应的题目特征映射,包括:
将所述题目描述向量输入所述候选批改模型的第一分支中的第一预设结构网络,得到的目标向量;
基于所述第一预设结构网络中预先构建的注意力层,将每个所述目标向量进行线性变换,得到每个所述目标向量对应的变换向量;
将每个所述变换向量进行拼接,得到训练样本中的作答图像对应的题目特征映射。
5.根据权利要求1所述的方法,其特征在于,所述基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果,包括:
对所述训练样本中的答案描述字符串进行编码,得到答案描述向量;
将所述答案描述向量输入所述候选批改模型的第二分支,得到第二图像特征;
根据所述第一图像特征和所述第二图像特征,得到预测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一图像特征和所述第二图像特征,得到预测结果,包括:
基于预设向量维度,对所述第一图像特征和所述第二图像特征进行拼接;
对拼接结果进行卷积操作,得到所述作答图像的预测结果。
7.根据权利要求1所述的方法,其特征在于,所述将训练样本中的作答图像和所述训练样本中的题目描述字符串输入所述候选批改模型的第一分支,得到第一图像特征之前,还包括:
获取训练样本,所述训练样本包括:批改题目的作答图像、所述批改题目对应的题目描述字符串和所述批改题目对应的答案描述字符串。
8.根据权利要求1所述的方法,其特征在于,所述基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型,包括:
基于预设损失函数,根据所述预测结果和所述答案描述字符串对应的字符标签,确定损失值;
根据所述损失值调整所述第一分支中的参数和所述第二分支中的参数,直至模型收敛。
9.一种批改方法,其特征在于,包括:
获取待批改的作答图像、所述作答图像对应的题目描述字符串和所述作答图像对应的答案描述字符串;
将所述待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将所述题目描述字符串输入所述目标批改模型的第一分支中的第一预设结构网络,以及将所述答案描述字符串输入所述目标批改模型的第二分支,获得所述待批改的作答图像的批改结果;
其中,所述目标批改模型基于如权利要求1至8任一项所述的方法训练得到。
10.一种批改模型训练装置,其特征在于,包括:
第一确定模块,用于将训练样本中的作答图像和所述训练样本中的题目描述字符串输入候选批改模型的第一分支,得到第一图像特征;
第二确定模块,用于基于所述候选批改模型的第二分支,根据所述第一图像特征和所述训练样本中的答案描述字符串,获得预测结果;
训练模块,用于基于预设损失函数,根据所述预测结果对所述第一分支和所述第二分支进行训练,获得训练后的目标批改模型。
11.一种批改装置,其特征在于,包括:
获取模块,用于获取待批改的作答图像、所述作答图像对应的题目描述字符串和所述作答图像对应的答案描述字符串;
确定模块,用于将所述待批改的作答图像输入目标批改模型的第一分支中的第二预设结构网络,将所述题目描述字符串输入所述目标批改模型的第一分支中的第一预设结构网络,以及将所述答案描述字符串输入所述目标批改模型的第二分支,获得所述待批改的作答图像的批改结果;
其中,所述目标批改模型基于如权利要求1至8任一项所述的方法训练得到。
12.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的批改模型训练方法,或者执行根据权利要求9中所述的批改方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的批改模型训练方法,或者执行根据权利要求9中所述的批改方法。
CN202111295902.9A 2021-11-03 2021-11-03 批改模型训练方法、批改方法、装置、电子设备和介质 Active CN113722466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111295902.9A CN113722466B (zh) 2021-11-03 2021-11-03 批改模型训练方法、批改方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111295902.9A CN113722466B (zh) 2021-11-03 2021-11-03 批改模型训练方法、批改方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN113722466A true CN113722466A (zh) 2021-11-30
CN113722466B CN113722466B (zh) 2022-02-15

Family

ID=78686611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111295902.9A Active CN113722466B (zh) 2021-11-03 2021-11-03 批改模型训练方法、批改方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN113722466B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210191962A1 (en) * 2020-05-27 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Question answering method and language model training method, apparatus, device, and storage medium
CN113033721A (zh) * 2021-05-31 2021-06-25 北京世纪好未来教育科技有限公司 题目批改方法及计算机存储介质
CN113111154A (zh) * 2021-06-11 2021-07-13 北京世纪好未来教育科技有限公司 相似度评估方法、答案搜索方法、装置、设备及介质
CN113283445A (zh) * 2021-04-30 2021-08-20 作业帮教育科技(北京)有限公司 一种图像处理方法、装置和计算机设备
CN113469148A (zh) * 2021-09-02 2021-10-01 北京世纪好未来教育科技有限公司 一种文本擦除方法及模型的训练方法、装置、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210191962A1 (en) * 2020-05-27 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Question answering method and language model training method, apparatus, device, and storage medium
CN113283445A (zh) * 2021-04-30 2021-08-20 作业帮教育科技(北京)有限公司 一种图像处理方法、装置和计算机设备
CN113033721A (zh) * 2021-05-31 2021-06-25 北京世纪好未来教育科技有限公司 题目批改方法及计算机存储介质
CN113111154A (zh) * 2021-06-11 2021-07-13 北京世纪好未来教育科技有限公司 相似度评估方法、答案搜索方法、装置、设备及介质
CN113469148A (zh) * 2021-09-02 2021-10-01 北京世纪好未来教育科技有限公司 一种文本擦除方法及模型的训练方法、装置、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO ZHANG等: "《Multimodal Intelligence: Representation Learning, Information Fusion, and Applications》", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
JEONGHEE KIM等: "《Multimodal Residual Learning for Visual QA》", 《ARXIV:1606.01455V2》 *

Also Published As

Publication number Publication date
CN113722466B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN108121800B (zh) 基于人工智能的信息生成方法和装置
CN108287820B (zh) 一种文本表示的生成方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN114973229B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN113688955B (zh) 文本识别方法、装置、设备及介质
CN115205736A (zh) 视频数据的识别方法和装置、电子设备和存储介质
CN114358023A (zh) 智能问答召回方法、装置、计算机设备及存储介质
CN113641804A (zh) 预训练模型获取方法、装置、电子设备及存储介质
CN113722466B (zh) 批改模型训练方法、批改方法、装置、电子设备和介质
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN113792133B (zh) 判题方法、装置、电子设备和介质
CN115761273A (zh) 视觉常识推理方法和装置、存储介质及电子设备
CN112559713B (zh) 文本相关性判断方法及装置、模型、电子设备、可读介质
CN115292455A (zh) 图文匹配模型的训练方法及装置
CN114758331A (zh) 文本识别方法、装置、电子设备和存储介质
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN114186039A (zh) 一种视觉问答方法、装置及电子设备
CN113610064B (zh) 笔迹识别方法和装置
CN113610065B (zh) 笔迹识别方法和装置
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN113627399B (zh) 题目处理方法、装置、设备及存储介质
CN116737981A (zh) 插图题目的搜索方法、装置、电子设备及存储介质
CN117422068A (zh) 信息处理方法、装置、电子设备及存储介质
CN116798048A (zh) 一种文本识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant