CN113822521A - 题库题目的质量检测方法、装置及存储介质 - Google Patents

题库题目的质量检测方法、装置及存储介质 Download PDF

Info

Publication number
CN113822521A
CN113822521A CN202110663603.XA CN202110663603A CN113822521A CN 113822521 A CN113822521 A CN 113822521A CN 202110663603 A CN202110663603 A CN 202110663603A CN 113822521 A CN113822521 A CN 113822521A
Authority
CN
China
Prior art keywords
detected
question
determining
watermark
detection data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110663603.XA
Other languages
English (en)
Other versions
CN113822521B (zh
Inventor
朱群
马景林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN202110663603.XA priority Critical patent/CN113822521B/zh
Publication of CN113822521A publication Critical patent/CN113822521A/zh
Application granted granted Critical
Publication of CN113822521B publication Critical patent/CN113822521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种题库题目的质量检测方法、装置及存储介质,该方法包括:获取目标题库中的待检测题目,确定待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到待检测题目的第一检测数据;确定待检测题目中携带的图像的水印置信度,并根据水印置信度与待检测题目的预设水印阈值范围确定待检测题目的第二检测数据;基于第一检测数据与第二检测数据确定待检测题目的质量评分,并基于质量评分确定待检测题目的题目质量。采用本申请,可以提高质量检测的检测效率,操作简单且可靠性高。

Description

题库题目的质量检测方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种题库题目的质量检测方法、装置及存储介质。
背景技术
随着移动互联网的蓬勃发展,智能教育也逐渐崭露头角,智能教育即基于用户数据和大量的题库信息自适应提供给用户进行学习的教育方法。目前,在智能教育的底层是大量的题目信息,所以在大量构建教育题库的同时,需要有一套对教育题库进行质量检测的方法,以确保题库质量不会被大量不合格的题目所影响。
本申请的发明人在研究和实践过程中发现,目前的智能教育题库没有一套对题库题目的质量进行自动检测的方法,随着题目数量的剧增,只能通过抽检的方式进行题目质量检测,但抽检的方式会漏掉一些有问题的题目从而带来题目检测的不完整性。因此在现有的题库题目质量检测中整体上还是需要大量的人力介入,且质量检测的情况还和对应人力的知识面相关,检测效率低下,可靠性低。
发明内容
本申请实施例提供一种题库题目的质量检测方法、装置及存储介质,可以提高质量检测的检测效率,操作简单且可靠性高。
本申请实施例一方面提供了一种题库题目的质量检测方法,该方法包括:
获取目标题库中的待检测题目;
确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种;
确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据;
基于第一检测数据与第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。
结合第一方面,在一种可能的实施方式中,待检测对象包括题干、答案和/或选项,目标值包括空值和/或重复值;确定待检测题目中的待检测对象中是否存在目标值以得到待检测题目的第一检测数据,包括:
确定待检测题目中的待检测对象的检测规则参数,其中,检测规则参数包括待检测对象的长度阈值和/或待检测对象的数量阈值;
遍历待检测题目中的题干、答案以及选项;
若待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于长度阈值,则确定第一检测数据为待检测对象中存在空值;和/或
若至少一种待检测对象的数量大于或者等于数量阈值,则确定第一检测数据为待检测对象中存在重复值。
结合第一方面,在一种可能的实施方式中,待检测对象包括公式,目标值为缺失值;确定待检测题目中的待检测对象中是否存在目标值以得到待检测题目的第一检测数据,包括:
检测待检测题目中的公式的目标符号,若目标符号没有配对,则确定第一检测数据为待检测对象中存在缺失值;或者
对待检测题目中的公式进行渲染,若公式渲染失败,则确定第一检测数据为待检测对象中存在缺失值。
结合第一方面,在一种可能的实施方式中,待检测对象包括字符,目标值为乱码值;确定待检测题目中的待检测对象中是否存在目标值以得到待检测题目的第一检测数据,包括:
确定待检测题目中字符的编码范围,若字符的编码范围属于指定编码范围,则确定第一检测数据为待检测对象中存在乱码值。
结合第一方面,在一种可能的实施方式中,确定待检测题目的题型结构是否属于预设题型结构以得到待检测题目的第一检测数据,包括:
确定待检测题目的题型结构的特征编码;
若待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定第一检测数据为待检测题目的题型结构不属于预设题型结构。
结合第一方面,在一种可能的实施方式中,确定待检测题目中携带的图像的水印置信度,包括:
获取待检测题目中携带的图像;
若获取得到待检测题目中携带的图像为空,则将待检测题目中携带的图像的水印置信度确定为0;
若获取得到待检测题目中携带的图像不为空,则确定待检测题目中携带的目标图像的图像类型,并根据目标图像的图像类型确定目标图像的水印置信度,以得到待检测题目中携带的图像的水印置信度,其中,目标图像的图像类型包括静态图片和/或视频帧画面。
结合第一方面,在一种可能的实施方式中,根据目标图像的图像类型确定目标图像的水印置信度,包括:
若待检测题目中携带的目标图像为静态图片,则确定静态图片的色彩层;
若静态图片的色彩层包括白色层和黑色层,且白色层与黑色层之间存在任一色彩层,则确定待检测题目中携带的图像的水印置信度1;
若静态图片的色彩层包括白色层和黑色层,且白色层与黑色层之间不存在任一色彩层,则对目标图像进行边缘检测以得到目标图像的第一边缘特征,并基于目标图像的第一边缘特征确定待检测题目中携带的图像的水印置信度。
结合第一方面,在一种可能的实施方式中,基于目标图像的第一边缘特征确定待检测题目中携带的图像的水印置信度,包括:
获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
若第一边缘特征与第二边缘特征的匹配度大于或者等于第一匹配度阈值,则确定待检测题目中携带的图像的水印置信度为1;
若第一边缘特征与第二边缘特征的匹配度小于第一匹配度阈值,则确定待检测题目中携带的图像的水印置信度为0。
结合第一方面,在一种可能的实施方式中,根据目标图像的图像类型确定目标图像的水印置信度包括:
若待检测题目中携带的目标图像为视频帧画面,则确定目标图像所属的视频中视频帧画面的目标检测区域;
从目标图像中确定出目标检测区域对应的部分图像,将部分图像输入目标水印识别模型,基于目标水印识别模型输出部分图像的水印置信度以得到目标图像的水印置信度。
结合第一方面,在一种可能的实施方式中,根据水印置信度与待检测题目的预设水印阈值范围确定待检测题目的第二检测数据,包括:
若水印置信度大于或者等于预设水印阈值范围的最大阈值,则确定第二检测数据为目标图像中携带水印;
若水印置信度大于或者等于预设水印阈值范围的最小阈值,且小于预设水印阈值范围的最大阈值,则确定出用于检测目标图像是否存在水印的水印关键词,基于水印关键词以及从目标图像中提取的文本数据的匹配度确定第二检测数据;
若水印置信度小于预设水印阈值范围的最小阈值,则确定第二检测数据为目标图像中不携带水印。
结合第一方面,在一种可能的实施方式中,基于水印关键词以及从目标图像中提取的文本数据的匹配度确定第二检测数据,包括:
从目标图像中提取文本数据;
若文本数据与水印关键词的匹配度大于或者等于匹配度阈值,则确定第二检测数据为目标图像中携带水印;
若文本数据与水印关键词的匹配度小于匹配度阈值,则确定第二检测数据为目标图像中不携带水印。
结合第一方面,在一种可能的实施方式中,基于第一检测数据与第二检测数据确定待检测题目的质量评分,包括:
确定待检测题目的初始质量评分;
根据第一检测数据中待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构,以及初始质量评分确定待检测题目的第一质量评分;
根据第二检测数据中目标图像中是否携带水印,以及第一质量评分确定待检测题目的第二质量评分,并基于第二质量评分确定待检测题目的质量评分。
本申请一方面提供了一种题库题目的质量检测装置,上述装置包括:
第一获取模块,用于获取目标题库中的待检测题目;
第一确定模块,用于确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种;
第二确定模块,用于确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据;
第三确定模块,用于基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。
结合第二方面,在一种可能的实施方式中,上述待检测对象包括题干、答案和/或选项,目标值包括空值和/或重复值;上述第一确定模块包括:
第一确定单元,用于确定上述待检测题目中的待检测对象的检测规则参数,其中,上述检测规则参数包括上述待检测对象的长度阈值和/或上述待检测对象的数量阈值;
遍历单元,用于遍历上述待检测题目中的题干、答案以及选项;
第二确定单元,用于若上述待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于上述长度阈值,则确定上述第一检测数据为上述待检测对象中存在空值;和/或
第三确定单元,用于若至少一种待检测对象的数量大于或者等于上述数量阈值,则确定上述第一检测数据为上述待检测对象中存在重复值。
结合第二方面,在一种可能的实施方式中,上述待检测对象包括公式,目标值为缺失值;上述第一确定模块包括:
检测配对单元,用于检测待检测题目中的公式的目标符号,若目标符号没有配对,则确定第一检测数据为待检测对象中存在缺失值;或者
渲染确定单元,用于对待检测题目中的公式进行渲染,若公式渲染失败,则确定第一检测数据为待检测对象中存在缺失值。
结合第二方面,在一种可能的实施方式中,上述待检测对象包括字符,目标值为乱码值;上述第一确定模块包括:
乱码值确定单元,用于确定待检测题目中字符的编码范围,若字符的编码范围属于指定编码范围,则确定第一检测数据为待检测对象中存在乱码值。
结合第二方面,在一种可能的实施方式中,上述第一确定模块包括:
特征编码确定单元,用于确定待检测题目的题型结构的特征编码;
题型结构确定单元,用于若待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定第一检测数据为待检测题目的题型结构不属于预设题型结构。
结合第二方面,在一种可能的实施方式中,上述第二确定模块包括:
第一获取单元,用于获取上述待检测题目中携带的图像;
第四确定单元,用于若获取得到上述待检测题目中携带的图像为空,则将上述待检测题目中携带的图像的水印置信度确定为0;
第五确定单元,用于若获取得到上述待检测题目中携带的图像不为空,则确定上述待检测题目中携带的目标图像的图像类型,并根据上述目标图像的图像类型确定上述目标图像的水印置信度,以得到上述待检测题目中携带的图像的水印置信度,其中,上述目标图像的图像类型包括静态图片和/或视频帧画面。
结合第二方面,在一种可能的实施方式中,上述第二确定模块包括:
第六确定单元,用于若上述待检测题目中携带的目标图像为静态图片,则确定上述静态图片的色彩层;
第七确定单元,用于若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间存在任一色彩层,则确定上述待检测题目中携带的图像的水印置信度为1;
第八确定单元,用于若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间不存在任一色彩层,则对上述目标图像进行边缘检测以得到上述目标图像的第一边缘特征,并基于上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度。
结合第二方面,在一种可能的实施方式中,上述第八确定单元包括:
第一获取子单元,用于获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
第一确定子单元,用于若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1;
第二确定子单元,用于若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为0。
结合第二方面,在一种可能的实施方式中,上述第五确定单元包括:
第一获取子单元,用于获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
第三确定子单元,用于若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1;
第四确定子单元,用于若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为0。
结合第二方面,在一种可能的实施方式中,上述第五确定单元还包括:
第五确定子单元,用于若上述待检测题目中携带的目标图像为视频帧画面,则确定上述目标图像所属的视频中视频帧画面的目标检测区域;
第六确定子单元,用于从上述目标图像中确定出上述目标检测区域对应的部分图像,将上述部分图像输入目标水印识别模型,基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。
结合第二方面,在一种可能的实施方式中,上述第二确定模块包括:
第九确定单元,用于若上述水印置信度大于或者等于上述预设水印阈值范围的最大阈值,则确定上述第二检测数据为上述目标图像中携带水印;
第十确定单元,用于若上述水印置信度大于或者等于上述预设水印阈值范围的最小阈值,且小于上述预设水印阈值范围的最大阈值,则确定出用于检测上述目标图像是否存在水印的水印关键词,基于上述水印关键词以及从上述目标图像中提取的文本数据的匹配度确定上述第二检测数据;
第十一确定单元,用于若上述水印置信度小于上述预设水印阈值范围的最小阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
结合第二方面,在一种可能的实施方式中,上述第十确定单元包括:
第一提取子单元,用于从上述目标图像中提取文本数据;
第七确定子单元,用于若上述文本数据与上述水印关键词的匹配度大于或者等于匹配度阈值,则确定上述第二检测数据为上述目标图像中携带水印;
第八确定子单元,用于若上述文本数据与上述水印关键词的匹配度小于上述匹配度阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
结合第二方面,在一种可能的实施方式中,上述第三确定模块包括:
第十二确定单元,用于确定上述待检测题目的初始质量评分;
第十三确定单元,用于根据上述第一检测数据中上述待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构,以及上述初始质量评分确定上述待检测题目的第一质量评分;
第十四确定单元,用于若上述第二检测数据中上述目标图像中是否携带水印,以及上述第一质量评分确定上述待检测题目的第二质量评分;
第十五确定单元,用于基于上述第二质量评分确定上述待检测题目的质量评分。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的终端认证方法。
在本申请中,先通过获取目标题库中的待检测题目,然后确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,其中,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种。接着确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据。最后基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。采用本申请的题库题目的质量检测方式可以大量的减少人力,同时还可以对大数据量级的题库进行频繁的质量检测,提高了质量检测的效率以及可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的题库题目的质量检测方法的场景示意图;
图3是本申请实施例提供的题库题目的质量检测方法的流程示意图;
图4是本申请实施例提供的一种预设题型结构的特征编码的表格示意图;
图5是本申请实施例提供的一种遍历待检测对象时的用户交互界面示意图;
图6是本申请实施例提供的一种针对目标题库的检测框架示意图;
图7是本申请实施例提供的另一种针对目标题库的检测框架示意图;
图8是本申请实施例提供的一种待检测题目的质检规则示意图;
图9是本申请实施例提供的一种待检测题目的用户界面示意图;
图10是本申请实施例提供的题库题目的质量检测方法的另一流程示意图;
图11是本申请实施例提供的一种视频帧画面的水印判断流程示意图;
图12是本申请实施例提供的一种题库题目的质量检测装置的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的题库题目的质量检测方法属于人工智能领域下属的计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML)。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(ThreeDimensional,可以简称为3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1是本申请实施例提供的一种网络架构示意图。如图1所示,该网络架构图可以包括业务服务器100以及用户终端集群,该用户终端集群可以包括用户终端10a、用户终端10b、…、用户终端10n,其中,用户终端集群之间可以存在通信连接,例如用户终端10a与用户终端10b之间存在通信连接,用户终端10b与用户终端10n之间存在通信连接,且用户终端集群中的任一用户终端可以与业务服务器100存在通信连接,例如用户终端10a与业务服务器100之间存在通信连接,用户终端10b与业务服务器100之间存在通信连接。
其中,上述用户终端集群(也包括上述的用户终端10a、用户终端10b以及用户终端10n)均可以集成安装有目标应用。可选的,该目标应用可以包括具有展示文字、图像以及视频等数据信息功能的应用。例如,该目标应用可以为题目质量检测应用,可以用于用户上传若干题库(如学前教育题库、雅思题库、高数题库等),并检测上述目标题库(如学前教育题库)中待检测题目的题目质量。或者该目标应用也可以为在线教育应用,可以用于获取待上线的目标题库,并检测目标题库中待检测题目的题目质量,若检测出目标题库中的题目质量属于合格水平,则对上述目标题库进行上线处理以供用户使用,若检测出上述目标题库中的题目质量属于不合格水平,则暂停上述目标题库的上线操作。本申请中的业务服务器100可以收集到这些应用上传的图像或视频等业务数据,可选的,该业务数据可以包括用户上传的目标题库中的待检测题目。为方便阐述,这里直接以目标题库中的待检测题目作为业务数据进行示例说明。业务服务器100可以从目标题库中的待检测题目中确定出上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,其中,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种。随后业务服务器100确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据。最后业务服务器100基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量,然后将上述待检测题目的题目质量返回至用户终端。可选的,上述用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端10b,则用户可以在用户终端10b的显示页面上查看到该目标题库中的待检测题目的题目质量。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器,本申请实施例中的业务服务器100可以为计算机设备,用户终端集群中的用户终端也可以为计算机设备,此处不限定。上述业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带图像识别功能的智能终端,但并不局限于此。其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参见图2,图2是本申请实施例提供的题库题目的质量检测方法的场景示意图。如图2所示,用户A在使用用户终端中的目标应用(如题目质量检测应用)时,用户A通过用户终端10b上传了若干题库(如学前教育题库、雅思题库、高数题库等),随后用户终端10b向业务服务器100发送针对上述目标题库(如高数题库)中的待检测题目的质量检测请求。具体的,业务服务器100可以检测并获取到用户上传的目标题库中的待检测题目,并确定上述待检测题目中的待检测对象(即文本数据)中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,其中,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种。然后业务服务器100确定出上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据。最后基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。可选的,业务服务器100可以将上述待检测题目的题目质量的检测结果返回至用户终端10b中,则用户A可以在用户终端10b的显示页面上查看到上述目标题库(如高数题库)的题目质量检测结果。
进一步地,为便于理解,请参见图3,图3是本申请实施例提供的题库题目的质量检测方法的流程示意图。该方法可以由用户终端(例如,上述图1或图2所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图1或图2所对应实施例中的业务服务器100)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该题库题目的质量检测方法至少可以包括以下步骤S101-步骤S104:
S101,获取目标题库中的待检测题目。
在一些可行的实施方式中,获取目标题库中的待检测题目。可选的上述目标题库中的待检测题目可以通过第三方(如教育平台)提供,也可以通过Word文档(关于目标题库的文档)解析得到,或者基于光学字符识别(Optical Character Recognition,OCR)通过扫描等光学输入方式将各种书籍及文稿等其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入,以获得目标题库的待检测题目。其中上述目标题库可以为学前教育题库、雅思题库、高数题库等,且上述待检测题目中可以包括以文本数据存在的待检测对象以及待检测题目中携带的图像。
S102,确定待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到待检测题目的第一检测数据。
在一些可行的实施方式中,上述待检测对象可以包括题干、答案、选项、字符以及公式中的至少一种,目标值可包括空值、重复值、缺失值以及乱码值中的至少一种。在上述待检测对象包括题干、答案和/或选项,目标值包括空值和/或重复值的情况下,可以先确定上述待检测题目中的待检测对象的检测规则参数,其中,上述检测规则参数包括上述待检测对象的长度阈值和/或上述待检测对象的数量阈值,上述检测规则参数对应的检测规则可以为如题干为空、答案为空以及选项重复等检测规则。将上述检测规则参数确定好后,可以基于上述检测规则参数遍历上述待检测题目中的题干、答案以及选项。若遍历出上述待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于上述长度阈值,则确定上述第一检测数据为上述待检测对象中存在空值(如题干为空或者选项为空);和/或,若遍历出上述检测题目中的题干、答案以及选项中的至少一种待检测对象的数量大于或者等于上述数量阈值,则确定上述第一检测数据为上述待检测对象中存在重复值(如选项重复)。
在一些可行的实施方式中,在上述待检测对象包括公式(如拉泰赫(Latex)公式或者其它公式),目标值为缺失值的情况下,可以先检测待检测题目中的公式的目标符号,若目标符号没有配对,则确定第一检测数据为待检测对象中存在缺失值。为方便描述,下面将以Latex公式为例进行说明,由于Latex公式的格式一般为“${Latex}$”,其中$是成对出现的,因此可以检测待检测题目中Latex公式的目标符号$,若目标符号$没有配对,则确定第一检测数据为待检测对象中存在缺失值,可以表明Latex公式存在问题或者Latex公式不完整。可选的,还可以对待检测题目中的公式进行渲染,若公式渲染失败,则确定第一检测数据为待检测对象中存在缺失值。假设Latex公式的字符串为“\sum_{k=1}^N k^2”,可通过Latex公式编辑器对“\sum_{k=1}^N k^2”进行渲染(即解析),若公式渲染失败(即解析失败,如解析公式不完整),则确定第一检测数据为待检测对象中存在缺失值(如字符_)。可以理解,在人为编辑公式或者清洗公式入库的过程中,会出现公式的字符串丢失某些字符(如字符_)的情况,这时通过Latex公式编辑器对“\sum{k=1}^N k^2”进行渲染会导致公式渲染失败。
在一些可行的实施方式中,在上述待检测对象包括字符,目标值为乱码值的情况下,可根据unicode标准(一种字符编码标准)确定待检测题目中字符的编码范围,若字符的编码范围属于指定编码范围,则确定第一检测数据为待检测对象中存在乱码值。本申请实施例可以乱码字符对应的编码范围统称为指定编码范围。例如,请参见表1,表1是本申请实施例提供的一种字符的编码范围的表格。
表1
字符 编码范围
汉字 4E00~9FA5
英文 0030~0039
数字 0041~005A
私用区字符 E000~F8FF
特殊字符 FFF0~FFFF
可以理解,如表1所示,一种类型的字符可对应一个编码范围,例如,汉字对应的编码范围为4E00~9FA5,英文对应的编码范围为0030~0039,数字对应的编码范围为0041~005A,…,私用区字符对应的编码范围为E000~F8FF,特殊字符对应的编码范围为FFF0~FFFF。其中,私用区字符对应的编码范围和特殊字符对应的编码范围属于指定编码范围(也可以称为高风险字符类型的编码范围)。例如,在检测到待检测题目中字符的编码范围属于私用区字符对应的编码范围和/或特殊字符对应的编码范围时,可确定第一检测数据为待检测对象中存在乱码值(如乱码字符)。
在一些可行的实施方式中,在检测待检测题目的题型结构的过程中,可先确定待检测题目的题型结构的特征编码。若待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定第一检测数据为待检测题目的题型结构不属于预设题型结构,可以得到待检测题目的题型结构存在问题。这里的预设题型结构的特征编码可以为用户设置(或定义)的***特征编码。例如,请参见图4,图4是本申请实施例提供的一种预设题型结构的特征编码的表格示意图。为方便描述,下面将以单选题为例进行说明,如图4所示,单选题的题型标识(Identity document,ID)为标识1,上述目标题库中可包括N1个第一类单选题和N2个第二类单选题,且第一类单选题在目标题库中所有单选题中的占比为M1,第二类单选题在所有单选题中的占比为M2。可以理解,可先确定第一类单选题的构成元素(如[主]题干、[主]选项(若干)、[主]答案以及[主]解析(可选)),其中[主]可以理解为一个主题干及其对应的选项、答案以及解析,因此可以得到第一类单选题为一题一问结构的单选题。进一步地,可确定第二类单选题的构成元素(如[主]题干、[多子]题干、[多子]选项(若干)、[多子]答案、[多子]解析(可选)以及[主]解析(可选)),其中[多子]可以理解为多个子题干和各子题干对应的选项、答案以及解析,因此可以得到第二类单选题为一题多问结构的单选题。
进一步地,可根据第一类单选题的构成元素确定一题一问结构的特征编码为{51(2+)3(4*)},并根据第二类单选题的构成元素确定一题多问结构的特征编码为{51(__{51(2+)3(4*)}+)(4*)},其中,5可以表示题目,1可以表示题干,2可以表示选项,3可以表示答案,4可以表示解析,+可以表示选项的数量(如1~n),*可以表示解析的数量(如0~n),__后面的字符串可用于表示子题目。这时,可根据第一类单选题对应的特征编码和第二类单选题对应的其特征编码确定预设题型结构的特征编码,例如,{51(2+)3(4*)}和{51(__{51(2+)3(4*)}+)(4*)}。在得到预设题型结构的特征编码之后,可确定待检测题目(如单选题)的题型结构的特征编码,在待检测题目的题型结构的特征编码与{51(2+)3(4*)}和{51(__{51(2+)3(4*)}+)(4*)}不同时,可确定第一检测数据为待检测题目的题型结构不属于预设题型结构,即待检测题目的题型结构存在问题。
请参见图5,图5是本申请实施例提供的一种遍历待检测对象时的用户交互界面示意图。如图5所示,图中的质检列表指的是待检测对象可能命中的检测规则,例如题干为空的题型、答案为空的题型、选项重复的题型、选项为空的题型、题干公式不完整、选项公式不完整、解析公式不完整、题干字符乱码以及答案字符乱码。这里的质检列表中还可以包括题目解析为略、题目解析为空、题型信息丢失、没有答案没有解析、答案公式不完整、题干为无效的(null)、选项字符乱码、答案解析字符乱码、超文本标记语言(Hyper Text MarkupLanguage,HTML)不全乱码、批改答案格式错误以及图片显示异常等检测规则。可选的,当遍历上述待检测对象的检测规则参数对应的检测规则为题干为空的题型,且待检测对象的修改状态为未修复、审核状态为包括未审核和已审核的状态、上下架状态为包括未上架和已上架的状态时,通过遍历目标题库中的所有待检测对象可以搜索出满足上述所有条件的待检测对象,并在上述用户交互页面示意图中显示满足上述所有条件的待检测对象(如题干)的ID标识(用于标记不同待检测题目中的不同待检测对象)。可以理解,这里的修改状态为目标题库质量检测完成后是否有运营人员对不合格的题目进行修复的状态,这里的审核状态为目标题库质量检测完成后是否有运营人员对检测结果进行审核的状态,这里的上下架状态为目标题库质量检测合格后运营人员是否对其进行上架的状态。
具体的,请参见图6,图6是本申请实施例提供的一种针对目标题库的检测框架示意图。在本申请可选的实施例中,为了确定上述待检测对象(比如题干、答案、选项、公式和/或字符)是否出现目标值以及待检测题目的题型结构是否属于预设题型结构,需要先确定上述待检测对象对应的检测规则。可选的,如图6所示,可以从各用户端和/或平台端(如登录上述在线教育应用的用户端和/或平台端)中得到用户使用上述目标题库后的问题反馈,然后将问题整合后进行问题展示。可选的,可以使用内容管理***(Content ManagementSystem,CMS)对上述目标题库的问题反馈进行问题展示。随后上述内容管理***的运营人员可以对上述问题展示中的错误进行修正(即修正问题),修正问题后可以基于上述目标题库的问题反馈生成检测规则。其中,检测规则是随着问题的不断发现和用户不断的问题反馈而逐渐增加的,这样可以保证上述检测规则可以覆盖到尽可能多的待检测题目。当相应的检测规则审核通过后将其与计算平台相关联,以使计算平台可以基于上述检测规则对应的检测规则参数确定待检测题目的第一检测数据。其中,上述检测规则可以包括题干为空、答案为空、选项重复、公式缺失、字符乱码、题型结构存在问题等规则。可选的,在将上述检测规则与计算平台进行关联时,可以采用自定义规则(即在计算平台中编写检测规则对应的规则代码)的方式将上述检测规则配置在计算平台中。此外还可以将上述检测规则编写在脚本(即用来确定一系列控制计算机进行运算操作动作的组合)中,并通过脚本插件(即一种遵循一定规范的应用程序接口编写出来的程序,其只能运行在程序规定的平台下)的方式提供给计算平台使用。可选的,还可以搭建一个Spark SQL引擎(即Spark大数据计算引擎中用来处理结构化数据的一个模块,也可以理解为分布式SQL语句查询引擎),并将上述检测规则通过SQL语句的方式配置(简称SQL配置)在上述Spark SQL引擎中,以在计算平台中基于上述SQL语句遍历上述目标题库中的待检测题目的题干、答案、选项、公式、字符以及题型结构并查找出命中上述检测规则(如题干为空、答案为空、选项重复、公式缺失、字符乱码、题型结构存在问题等规则)的待检测对象。如图6所示,计算平台可以对待检测题目中的待检测对象进行规制检测和/或对待检测题目在中携带的图像进行图像检测,并存储对应的检测数据(第一检测数据以及第二检测数据),随后将上述检测数据对应的待检测题目的问题报告(包括待检测题目的正确率以及覆盖率等)在内容管理***中进行问题展示,并将对应的检测数据邮件通知对应的运营人员,以基于上述检测数据对上述目标题库进行后续操作。
可选的,在一些可行的实施方式中,请参见图7,图7是本申请实施例提供的另一种针对目标题库的检测框架示意图。当通过搭建一个Spark SQL引擎并将其与计算平台进行关联,以基于上述SQL语句遍历上述目标题库中的待检测题目的题干、答案、选项、公式、字符以及题型结构并查找出命中上述检测规则的待检测对象时,可以通过图7所示的针对目标题库的检测框架示意图对目标题库进行质量检测。如图7所示,在数据输入阶段,存储在第一数据库中的目标题库的待检测题目通过应用程序接口(Application ProgramInterface,API)提供给计算平台进行数据处理。存储在第一数据库中的目标题库的待检测题目还可以在数据结构化后直接转移至第二数据库进行存储,在数据处理时也可以直接从上述第二数据库中获取数据。这是因为上述第二数据库为Hive文件,其可以将结构化的数据映射为一张数据库表格,并提供完整的SQL语句查询功能,因此在数据处理过程中也可以从第二数据库中获取数据。在数据处理过程中,首先需要针对使用API接口调用的待检测题目做数据适配(即数据格式化)将第一数据库中存储的待检测题目的相关数据转化为统一的数据格式以方便后续的操作。然后就是配置服务,即将上述检测规则编写为SQL语句配置在Spark SQL引擎中,并基于Spark SQL引擎中的质检服务对待检测题目进行质量检测。通过配置服务,一方面可以对第一数据库以及第二数据库中的存量数据进行质量检测,同时也可以对未来存入数据库的数据进行质量检测,这样就可以实现对存量数据与实时数据共用一套检测规则以及同一套Spark SQL引擎,以此实现SQL的开发成本和配置成本降低。在通过API接口进行数据输入的时候,若在某一时刻数据的输入量超过数据处理的负载,则需要将待输入的数据存入消息队列(如Kafka,即一种高吞吐量的分布式发布订阅消息***)中进行排队等待做数据处理。当从第一数据库或者第二数据库获取的待检测题目相关的数据进入数据处理阶段时可以通过Flink SQL(一种数据流处理框架)来进行规则计算,即基于上述检测规则编写的SQL语句对上述待检测题目相关的数据进行计算。此外,所有经过数据适配、配置服务、质检服务、SQL语句编写和经过消息队列处理的数据、Flink SQL框架计算后的数据以及Spark SQL引擎处理后的数据都会存储至第三数据库(如Mysql),以在使用统计服务时可以从第三数据库中获取数据处理阶段所有的中间数据(包括第一检测数据以及第二检测数据等),并将其在数据输出阶段进行结果存储以及结果展示。如图7所示,在数据处理过程中可以基于上述数据适配、配置服务、质检服务、SQL语句、消息队列、规则计算以及Spark SQL引擎实现的对应功能对待检测题目中的待检测对象和待检测题目的题型结构做规则检测,并基于上述对应功能以及算法服务判断上述待检测题目中携带的图像中是否存在水印。
可选的,在一些可行的实施方式中,可通过不同的规则引擎(如Grule规则引擎、云函数以及Drools规则引擎)对待检测题目中的待检测对象和待检测题目的题型结构做质量检测。由于上述目标题库中的题型种类丰富且其对应的质检规则多且细,需要频繁地新增和修改质检规则,因此该规则引擎需要满足新增和变更的质检规则快速生效,实现低码效果且无需发布开发代码的质量检测需求。这里的低码效果可以理解为:针对不同学科和题型,都可以简单通过配置规则或者拖动规则组件来实现增加题目质检规则的效果。为了满足上述质量检测需求,可对Grule规则引擎、云函数以及Drools规则引擎进行分析得到:Grule规则引擎是一种基于golang技术栈的规则引擎,与目前的技术栈吻合,然而Grule规则引擎还在迭代阶段且成熟度不够,并且支持能力有限,如无法支持对复杂结构进行解析,不支撑循环和函数定义等。上述云函数支持能力丰富,但是耗时在200-300ms且还会出现启动慢的问题,只能定时和网关等方式调用。上述Drools规则引擎是一种基于java技术栈的规则引擎,可广泛应用于开发不同的商业应用,计算耗时很低且规则语言丰富,支持循环和函数定义,并且可与spark无缝集成。因此,为了达到质检规则快速生效、耗时低以及支持度丰富的质量检测效果,可通过Drools规则引擎针对待检测题目中的待检测对象和待检测题目的题型结构快速发布质检规则,并且可自由组合开发的原子代码(即实现低码组装),以对待检测题目进行质量检测。
进一步地,请参见图8,图8是本申请实施例提供的一种待检测题目的质检规则示意图。为方便描述,下面将以待检测题目为六选五题型(即具有6个选项和5个答案的新增题型)为例进行说明,如图8所示,可确定待检测题目允许配置的功能题型为单选题、以及待检测题目的题型结构为一题多问结构,并确定待检测题目的构成元素包括题干、公共选项、多个连续单选题以及解析,其中,题干、公共选项以及多个连续单选题等构成元素均不可为空,解析可为空。进一步地,可分别对待检测题目的题干、公共选项、多个连续单选题以及解析进行映射,得到题干对应的文本材料、选择题的每个选项内容且共6个选项、主题干下有5个连续单选题、以及整体解析。这时,可根据题干对应的文本材料、选择题的每个选项内容且共6个选项、主题干下有5个连续单选题、以及整体解析,生成待检测题目对应的质检规则。其中,该质检规则包括:题目含一个公共选项,公共选项的个数为6个且答案的个数为5个,每个小题的题干、选项为空,以及每个小题必须包含答案。进一步地,可将上述质检规则编写为多种不同的Drools原子代码配置在Drools规则引擎中,并基于Drools规则引擎中各原子代码所实现的功能对待检测题目中的待检测对象和待检测题目的题型结构进行规则检测,从而得到待检测题目的第一检测数据。其中,多种不同的Drools原子代码中可包括:题目含一个公共选项,公共选项的个数为6个且答案的个数为5个,每个小题的题干、选项为空,每个小题必须包含答案以及其它原子代码。可选的,可通过Drools规则引擎对目标题库中的不同题目配置并快速发布其对应的质检规则,并基于不同题目对应的质检规则对不同题目进行质量检测,从而满足了更加复杂的质量检测,检测效率更高。
S103,确定待检测题目中携带的图像的水印置信度。
在一些可行的实施方式中,可以确定出待检测题目中携带的图像的水印置信度。可选的,在确定上述待检测题目中携带的图像的水印置信度时,可以先获取上述待检测题目中携带的图像,若获取得到上述待检测题目中携带的图像为空,则将上述待检测题目中携带的图像的水印置信度确定为0。若获取得到的上述待检测题目中携带的图像不为空,则确定上述待检测题目中携带的目标图像的图像类型,并根据上述目标图像的图像类型确定上述目标图像的水印置信度,以得到上述待检测题目中携带的图像的水印置信度,其中,上述目标图像的图像类型可以包括静态图片和/或视频帧画面。这里的水印置信度也就是上述静态图片和/或视频帧画面存在水印的可靠程度,由于目前题库中的题目存在大量的图片和学习资源的教学视频,图片和视频中都会有存在水印的情况,所以在进行质量检测的时候需要对图片或者视频中的水印进行检测,水印置信度为0可以表示不存在水印,水印置信度为1可以表示为存在水印。在本申请可选的实施例中,若上述待检测题目中携带的目标图像为静态图片,则可以通过确定上述静态图片的色彩层进行进一步的水印置信度确定。这是由于目前待检测题目中携带的静态图片基本是以白底黑字为主,而水印都是居于在黑色层以及白色层之间,因此通过对静态图片色彩层的确定可用筛选检测出大部分有水印(即水印置信度为1)的静态图片。可选的,若上述静态图片的色彩层包括白色彩和黑色层,且上述白色层与上述黑色层之间存在任一色彩层,则可以确定上述待检测题目中携带的图像的水印置信度为1。一般来说白色层的RPG值为#000000,黑色层的RPG值为#FFFFFF,因此若在白色层以及黑色层之间存在任一色彩的RPG值,则可以确定上述待检测题目中携带的图像的水印置信度为1。若上述静态图片的色彩层包括白色层和黑色层,但上述白色层与上述黑色层之间不存在任一色彩层,则可以进一步对上述目标图像进行边缘检测以得到上述目标图像的第一边缘特征,并基于上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度。在本申请可选的实施例中,在基于上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度时,可以先获取水印模板的第二边缘特征,并确定出用于确定上述目标图像的水印置信度的第一匹配度阈值。若上述第一边缘特征与第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1,也就是上述待检测题目中携带的图像中存在水印。若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定待检测题目中携带的图像的水印置信度为0,也就是上述待检测题目中携带的图像中不存在水印。
具体的,在通过上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度时,可以先获取水印模板的第二边缘特征。可选的,对于获取水印模板的第二边缘特征,可以先分析各种水印模板的模板特征,然后计算各水印模板的水印图像的梯度中值。因为图像的梯度主要存在于图像边缘所在的地方,而边缘一般是指图像在某一局部强度剧烈变化(如灰度变化以及空间变化等)的区域,所以在一副图像中局部目标的表象和形状能够被梯度或边缘特征很好的描述。因此计算出各水印模板的水印图像的梯度中值后,可以根据各水印图像的梯度中值拟合出各水印模板混合后的水印形状,形象的说这里的拟合可以指把平面上一系列的点(每个点代表对应的梯度中值)用一条光滑的曲线连接起来。当对N张图片进行迭代计算后,上述水印图像的梯度中值会趋于收敛并在某一区间达到平稳,因此对N张水印图片进行迭代计算后,就可以得到拟合后的水印。然后对于各水印模板的水印图像中的每个像素(即为整个图像中不可分割的单位或者是元素)的X以及Y方向都进行梯度计算,并根据得到的梯度值预估各水印模板的水印图像的水印值。接着将上述拟合后的水印输入Canny边缘检测器(即在不同视觉对象中提取有用的结构信息并大大减少要处理的数据量的一种技术,目前已广泛应用于各种计算机视觉***)并基于上述水印值得到上述各水印模板的水印图像的边缘特征,也就是上述各水印模板的水印图像的第二边缘特征。得到上述水印模板的第二边缘特征后就可以基于上述第二边缘特征对目标图像进行水印位置匹配,首先可以确定出用于确定上述目标图像的水印置信度的第一匹配度阈值。例如将上述第一匹配度阈值确定为95%时,若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于95%,则确定上述待检测题目中携带的图像的水印置信度为1。若上述第一边缘特征与上述第二边缘特征的匹配度小于95%,则确定上述待检测题目中携带的图像的水印置信度为0。具体的,可以采用图像处理中的倒角距离作为上述第一边缘特征与上述第二边缘特征的匹配方法。这里的倒角距离即一种对图像的距离变换,简单来说就是将一副标识目标图像的二值图像(指在图像中灰度等级只有两种,即图像中的任何像素点的灰度值均为0或者255,分别代表黑色和白色)转化为一副灰度图像(每个像素只有一个采样颜色的图像)。而这幅灰度图像中某点的灰度值(指黑白图像中点的颜色深度,其范围一般从0到255,白色为255,黑色为0)就是原始二值图像相应坐标点关于最近目标的距离,因而变换后的图像也就是所谓的距离图像(即带有上述第一边缘特征的目标图像)。由于将一幅表示为二值图像的目标图像在另一二值图像(即带有上述第二边缘特征的水印图像)中进行匹配查找时,如果查找目标存在局部变形就无法匹配。而将一幅二值图像转化为距离图像进行查找就可以更容易查找到与之相匹配的水印图像,从而提高水印匹配的准确率。
S104,根据水印置信度与待检测题目的预设水印阈值范围确定待检测题目的第二检测数据。
在一些可行的实施方式中,可以基于上述确定出的各待检测题目中携带的图像的水印置信度与上述待检测题目的预设水印阈值范围确定待检测题目的第二检测数据。可选的,若上述水印置信度大于或者等于上述预设水印阈值范围的最大阈值,则确定上述第二检测数据为上述目标图像中携带水印。若上述水印置信度小于上述预设水印阈值范围的最小阈值,则确定上述第二检测数据为上述目标图像中不携带水印。若上述水印置信度大于或者等于上述预设水印阈值范围的最小阈值,且小于上述预设水印阈值范围的最大阈值,则确定出用于检测上述目标图像是否存在水印的水印关键词,并基于上述水印关键词以及从上述目标图像中提取的文本数据的匹配度确定上述第二检测数据。可选的,在基于上述水印关键词以及从上述目标图像中提取的文本数据的匹配度确定上述第二检测数据时,可以先从目标图像中提取文本数据,若上述文本数据与上述水印关键词的匹配度大于或者等于匹配度阈值,则确定上述第二检测数据为上述目标图像中携带水印。若上述文本数据与上述水印关键词的匹配度小于上述匹配度阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
具体的,若将上述待检测题目的预设水印阈值范围确定为[0.5,0.9],则当上述水印置信度大于或者等于0.9时,则将上述第二检测数据确定为上述目标图像中携带水印;当上述水印置信度小于0.5时,将上述第二检测数据确定为上述目标图像中不携带水印。当上述水印置信度大于或者等于0.5且小于0.9时,则基于光学字符识别(Optical CharacterRecognition,OCR)技术对上述目标图像进行进一步检测,由于OCR技术可以识别出任意场景图片中的文字,因此可基于OCR技术识别出目标图像中所携带的文字。随后可确定出上述各水印模板中携带的水印关键词(例如学科网以及软云等),以及目标图像中提取的文本数据与上述水印关键词的匹配度阈值。可选的,可以将上述匹配度阈值确定为90%,因此若从上述目标图像中提取的文本数据与上述水印关键词的匹配度大于或者等于90%,则将上述第二检测数据确定为上述目标图像中携带水印。若上述若从上述目标图像中提取的文本数据与上述水印关键词的匹配度小于90%,则将上述第二检测数据确定为上述目标图像中不携带水印。
S105,基于第一检测数据与第二检测数据确定待检测题目的质量评分,并基于质量评分确定待检测题目的题目质量。
在一些可行的实施方式中,可以基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。可选的,可以先确定上述待检测题目的初始质量评分,若上述第一检测数据为上述待检测对象中存在目标值和/或待检测题目的题型结构属于预设题型结构,则降低上述待检测题目的质量评分,并基于上述初始质量评分确定评分下降后的第一质量评分。若上述第二检测数据为上述目标图像中携带水印,也可以降低上述待检测题目的质量评分以基于上述第一质量评分确定评分下降后的第二质量评分,并基于上述第二质量评分确定上述待检测题目的质量评分。可选的,还可以基于上述待检测题目的质量评分确定上述目标题库的题目质量,并基于上述题目质量给后台的运营人员发送告警提示。
可选的,在本申请的一些可行的实施例中,可以将上述待检测题目的初始质量评分确定为100分,若上述第一检测数据为上述待检测对象中存在目标值和/或待检测题目的题型结构属于预设题型结构,则在上述100分的基础上减去10分,因此可以基于上述初始质量评分确定评分下降后的第一质量评分为90分。若上述第二检测数据为目标图像中携带水印,则在上述90分的基础上减去5分,因此可以基于上述第一质量评分确定评分下降后的第二质量评分为85分,并将上述第二质量评分85分确定为上述待检测题目的质量评分。若上述第一检测数据为上述待检测对象中不存在目标值和/或待检测题目的题型结构不属于预设题型结构,则待检测题目的第一质量评分为100分。若上述第二检测数据为目标图像中携带水印,则在上述100分的基础上减去5分,因此可以基于上述第一质量评分确定评分下降后的第二质量评分为95分,并将上述第二质量评分95分确定为上述待检测题目的质量评分。若上述第一检测数据为上述待检测对象中存在目标值和/或待检测题目的题型结构属于预设题型结构,则在上述100分的基础上减去10分,因此可以基于上述初始质量评分确定评分下降后的第一质量评分为90分。若上述第二检测数据为目标图像中不携带水印,则基于上述第一质量评分确定评分下降后的第二质量评分为90分,并将上述第二质量评分90分确定为上述待检测题目的质量评分。可选的,可以将质量评分为90分以下的待检测题目确定为质量不合格的题目,当目标题库的正确率(不合格的待检测题目数量/目标题库中所有待检测题目的数量)为90%以下时,则认为上述目标题库为题目质量不合格的题库,并给后台的运营人员发送针对上述目标题库的告警提示,然后由运营人员选择是否修复上述目标题库中的不合格题目。当目标题库的正确率大于等于90%时,则可以判定上述目标题库的题目质量为合格。
进一步地,请一并参见图9,图9是本申请实施例提供的一种待检测题目的用户界面示意图。如图9所示,目标题库中可包括初中题库,其中初中题库中可包括语文、数学、英语、物理、化学、生物、历史、地理以及道德与法治等学科的题库。为方便描述,下面将以数学题库为例进行说明,可根据题目来源(如年份、地区和类型)、题目所涉及的知识点以及题目标识(如4951902)查询质量检测后的待检测题目,在用户界面上显示该待检测题目的题干、题型、审核状态、上下架状态以及同步状态,可以得到该待检测题目的题型为解答题,审核状态为未审,上下架状态为未上架,同步状态为未同步。其中,审核状态为目标题库质量检测完成后是否有运营人员对检测结果进行审核的状态,上下架状态为目标题库质量检测合格后运营人员是否对其进行上架的状态,同步状态为目标题库质量检测合格后运营人员是否对其进行同步的状态。进一步地,可对质量检测后的待检测题目进行审核、上架以及同步,并更新待检测题目的状态(如审核状态为已审、上下架状态为已上架以及同步状态为已同步),这时无需重复对待检测题目进行质量检测。可选的,在对数学题库中的所有题目进行质量检测之后,可对数学题库中的所有题目进行批量审核、批量上架(或者批量下架)以及批量同步并更新所有题目的状态,从而避免了重复对数学题库进行质量检测,进一步提高了质量检测效率。
在本申请中,先通过获取目标题库中的待检测题目,然后确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,其中,上述待检测对象包括题干、答案、选项公式以及字符中的至少一种。接着确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据。最后基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。采用本申请的题库题目的质量检测方式可以大量的减少人力,同时还可以对大数据量级的题库进行频繁的质量检测,提高了质量检测的效率以及可靠性。
进一步地,为便于理解,请参见图10,图10是本申请实施例提供的题库题目的质量检测方法的另一流程示意图。该方法可以由用户终端(例如,上述图1或图2所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图1或图2所对应实施例中的业务服务器100)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明。其中,该题库题目的质量检测方法至少可以包括以下步骤S201-步骤S205:
S201,获取目标题库中的待检测题目。
其中,该步骤S201的具体实施方式可参见上述图3对应实施例中对步骤S101的描述,这里将不再赘述。
S202,确定待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到待检测题目的第一检测数据。
其中,该步骤S202的具体实施方式可参见上述图3对应实施例中对步骤S102的描述,这里将不再赘述。
S203,获取上述待检测题目中携带的图像,确定待检测题目中携带的目标图像的图像类型,并根据目标图像的图像类型确定目标图像的水印置信度。
在一些可行的实施方式中,获取上述待检测题目中携带的图像,并确定上述待检测题目中携带的目标图像的图像类型,然后根据上述目标图像的图像类型确定目标图像的水印置信度。在本申请可选的实施例中,若上述目标图像的图像类型为视频帧画面,则确定出上述目标图像所属的视频中视频帧画面的目标检测区域,从上述目标图像中确定出上述目标检测区域对应的部分图像,并将上述部分图像输入目标水印识别模型,然后基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。
具体的,请参见图11,图11是本申请实施例提供的一种视频帧画面的水印判断流程示意图。如图11所示,由于在一些待检测题目的教学视频资源中,相邻视频帧之间的冗余度(相似度)很高,所以对所有视频帧提取特征并存储不是很现实,而水印通常是全程存在或者实在视频尾部出现的,因此在本申请可选实施例中,先确定出上述目标图像所属的视频中的视频帧画面的目标检测区域,即视频中的首、中、尾视频帧画面。针对视频中的首、中、尾视频帧画面,先确定出上述目标检测区域对应的部分图像(即每个视频帧画面中的右上、右下、左上、左下以及右中角等),然后将上述部分图像输入目标水印识别模型,并基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。这里的目标水印识别模型为至少两种待选水印识别模型中准确率和召回率表现最优的模型,可选的,上述待选水印识别模型可以为InceptionV3模型以及Resnet18模型。其中,上述InceptionV3模型为用于实现ImageNet(一种计算机视觉***识别项目)大规模视觉识别任务的一种神经网络,上述Resnet18模型为利用卷积神经网络进行图像处理的一种深度残差网络,这里的18指的是带有权重的18层,其包括了卷积层和全连接层。在对上述水印识别模型进行训练的时候,首先使用难例挖掘(Online Hard Example Mining,OHEM)使上述水印识别模型更加关注样本数据集中的困难样本,这里的难例挖掘指的是在模型训练过程中重新训练那些导致损失值很大的样本(即使模型很大概率分类错误的样本)。这里的困难样本指的是在训练原来的正常样本数据集时针对那些很难区分的样本,通过合成类似的样本而组成的样本集。将上述正常样本以及困难样本同时输入上述InceptionV3模型以及Resnet18模型,然后计算上述两个模型的召回率、准确率以及耗时,并选取综合性能高的一个模型作为目标水印识别模型。然后基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。如图10所示,当上述水印置信度大于或者等于0.9时,则将上述第二检测数据确定为上述目标图像中携带水印;当上述水印置信度小于0.5时,将上述第二检测数据确定为上述目标图像中不携带水印。当上述水印置信度大于或者等于0.5且小于0.9时,则基于光学字符识别(Optical Character Recognition,OCR)技术对上述目标图像进行进一步检测,由于OCR技术可以识别出任意场景图片中的文字,因此可基于OCR技术识别出目标图像中所携带的文字。随后可确定出上述各水印模板中携带的水印关键词(例如学科网以及软云等),以及目标图像中提取的文本数据与上述水印关键词的匹配度阈值。可选的,可以将上述匹配度阈值确定为90%,因此若从上述目标图像中提取的文本数据与上述水印关键词的匹配度大于或者等于90%,则将上述第二检测数据确定为上述目标图像中携带水印。若上述若从上述目标图像中提取的文本数据与上述水印关键词的匹配度小于90%,则将上述第二检测数据确定为上述目标图像中不携带水印。可选的,由于在大量的教学视频资源中在视频的尾视频帧画面中存在特殊界面(如其他教育机构的宣传水印以及宣传语等),而上述针对目标检测区域的水印识别是通过对图片切角(如右上、右下、左上、左下以及右中角等)进行检测的,所以会漏掉其他位置的水印(如目标检测区域的图像中央)。因此在本申请可选的实施例中还增加了对尾视频帧画面全图的OCR检测,以得到目标检测区域中的所有文本。若上述目标检测区域的所有文本中与上述各水印模板中携带的水印关键词的匹配度大于上述匹配度阈值,则视为命中关键词规则,则将上述第二检测数据确定为上述目标图像中携带水印。
S204,根据水印置信度与待检测题目的预设水印阈值范围确定待检测题目的第二检测数据。
其中,该步骤S204的具体实施方式可参见上述图3对应实施例中对步骤S104的描述,这里将不再赘述。
S205,基于第一检测数据与第二检测数据确定待检测题目的质量评分,并基于质量评分确定待检测题目的题目质量。
其中,该步骤S205的具体实施方式可参见上述图3对应实施例中对步骤S105的描述,这里将不再赘述。
在本申请中,先通过获取目标题库中的待检测题目,然后确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,其中,上述待检测对象包括题干、答案、选项、字符以及公式中的至少一种。接着确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据。最后基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。采用本申请的题库题目的质量检测方式可以大量的减少人力,同时还可以对大数据量级的题库进行频繁的质量检测,提高了质量检测的效率以及可靠性。
进一步地,请参见图12,图12是本申请实施例提供的一种题库题目的质量检测装置的结构示意图。该题库题目的质量检测装置可以是用户终端,也可以是运行于用户终端中的一个计算机程序(包括程序代码),例如,该题库题目的质量检测装置为一个应用软件;该题库题目的质量检测装置可以用于执行本申请提供的方法中的相应步骤。如图12所示,上述题库题目的质量检测装置1可以包括:第一获取模块11、第一确定模块12、第二确定模块13、第三确定模块14。
第一获取模块11,用于获取目标题库中的待检测题目;
第一确定模块12,用于确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种;
第二确定模块13,用于确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据;
第三确定模块14,用于基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。
在一种可能的实施方式中,上述待检测对象包括题干、答案和/或选项,目标值包括空值和/或重复值;上述第一确定模块12包括:
第一确定单元121,用于确定上述待检测题目中的待检测对象的检测规则参数,其中,上述检测规则参数包括上述待检测对象的长度阈值和/或上述待检测对象的数量阈值;
遍历单元122,用于遍历上述待检测题目中的题干、答案以及选项;
第二确定单元123,用于若上述待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于上述长度阈值,则确定上述第一检测数据为上述待检测对象中存在空值;和/或
第三确定单元124,用于若上述至少一种待检测对象的数量大于或者等于上述数量阈值,则确定上述第一检测数据为上述待检测对象中存在重复值。
在一种可能的实施方式中,上述待检测对象包括公式,目标值为缺失值;上述第一确定模块12包括:
检测配对单元125,用于检测待检测题目中的公式的目标符号,若目标符号没有配对,则确定第一检测数据为待检测对象中存在缺失值;或者
渲染确定单元126,用于对待检测题目中的公式进行渲染,若公式渲染失败,则确定第一检测数据为待检测对象中存在缺失值。
在一种可能的实施方式中,上述待检测对象包括字符,目标值为乱码值;上述第一确定模块12包括:
乱码值确定单元127,用于确定待检测题目中字符的编码范围,若字符的编码范围属于指定编码范围,则确定第一检测数据为待检测对象中存在乱码值。
在一种可能的实施方式中,上述第一确定模块12包括:
特征编码确定单元128,用于确定待检测题目的题型结构的特征编码;
题型结构确定单元129,用于若待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定第一检测数据为待检测题目的题型结构不属于预设题型结构。
在一种可能的实施方式中,上述第二确定模块13包括:
第一获取单元131,用于获取上述待检测题目中携带的图像;
第四确定单元132,用于若获取得到上述待检测题目中携带的图像为空,则将上述待检测题目中携带的图像的水印置信度确定为0;
第五确定单元133,用于若获取得到上述待检测题目中携带的图像不为空,则确定上述待检测题目中携带的目标图像的图像类型,并根据上述目标图像的图像类型确定上述目标图像的水印置信度,以得到上述待检测题目中携带的图像的水印置信度,其中,上述目标图像的图像类型包括静态图片和/或视频帧画面。
在一种可能的实施方式中,上述第二确定模块13包括:
第六确定单元134,用于若上述待检测题目中携带的目标图像为静态图片,则确定上述静态图片的色彩层;
第七确定单元135,用于若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间存在任一色彩层,则确定上述待检测题目中携带的图像的水印置信度为1;
第八确定单元136,用于若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间不存在任一色彩层,则对上述目标图像进行边缘检测以得到上述目标图像的第一边缘特征,并基于上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度。
在一种可能的实施方式中,上述第八确定单元136包括:
第一获取子单元1361,用于获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
第一确定子单元1362,用于若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1;
第二确定子单元1363,用于若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为0。
在一种可能的实施方式中,上述第五确定单元133包括:
第一获取子单元1331,用于获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
第三确定子单元1332,用于若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1;
第四确定子单元1333,用于若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为0。
在一种可能的实施方式中,上述第五确定单元133包括:
第五确定子单元1334,用于若上述待检测题目中携带的目标图像为视频帧画面,则确定上述目标图像所属的视频中视频帧画面的目标检测区域;
第六确定子单元1335,用于从上述目标图像中确定出上述目标检测区域对应的部分图像,将上述部分图像输入目标水印识别模型,基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。
在一种可能的实施方式中,上述第二确定模块13包括:
第九确定单元137,用于若上述水印置信度大于或者等于上述预设水印阈值范围的最大阈值,则确定上述第二检测数据为上述目标图像中携带水印;
第十确定单元138,用于若上述水印置信度大于或者等于上述预设水印阈值范围的最小阈值,且小于上述预设水印阈值范围的最大阈值,则确定出用于检测上述目标图像是否存在水印的水印关键词,基于上述水印关键词以及从上述目标图像中提取的文本数据的匹配度确定上述第二检测数据;
第十一确定单元139,用于若上述水印置信度小于上述预设水印阈值范围的最小阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
在一种可能的实施方式中,上述第十确定单元138包括:
第一提取子单元1381,用于从上述目标图像中提取文本数据;
第七确定子单元1382,用于若上述文本数据与上述水印关键词的匹配度大于或者等于匹配度阈值,则确定上述第二检测数据为上述目标图像中携带水印;
第八确定子单元1383,用于若上述文本数据与上述水印关键词的匹配度小于上述匹配度阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
在一种可能的实施方式中,上述第三确定模块14包括:
第十二确定单元141,用于确定上述待检测题目的初始质量评分;
第十三确定单元142,用于根据上述第一检测数据中上述待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构,以及上述初始质量评分确定上述待检测题目的第一质量评分;
第十四确定单元143,用于若上述第二检测数据中上述目标图像中是否携带水印,以及上述第一质量评分确定上述待检测题目的第二质量评分;
第十五确定单元144,用于基于上述第二质量评分确定上述待检测题目的质量评分。
其中,该第一获取模块11、第一确定模块12、第二确定模块13、第三确定模块14的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S105的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步的,请参见图13,图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,该计算机设备2000可以应用于服务器,该服务器可以为上述图1所对应实施例中的业务服务器100;该计算机设备2000可以应用于终端,该终端可以为上述图1所对应实施例中的用户终端10a、用户终端10b、…、用户终端10n;该计算机设备2000也可以为上述图3所对应实施例中的计算机设备。计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还包括:收发器2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器2005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的计算机设备2000中,网络接口2004可提供网络通讯功能;处理器2001和收发器2003可以用于调用存储器2005中存储的设备控制应用程序,以实现:
上述收发器2003,用于获取目标题库中的待检测题目;
上述处理器2001,用于确定上述待检测题目中的待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构以得到上述待检测题目的第一检测数据,上述待检测对象包括题干、答案、选项、公式以及字符中的至少一种;
上述处理器2001,还用于确定上述待检测题目中携带的图像的水印置信度,并根据上述水印置信度与上述待检测题目的预设水印阈值范围确定上述待检测题目的第二检测数据;
上述处理器2001,还用于基于上述第一检测数据与上述第二检测数据确定上述待检测题目的质量评分,并基于上述质量评分确定上述待检测题目的题目质量。
在一种可能的实施方式中,待检测对象包括题干、答案和/或选项,目标值包括空值和/或重复值;上述处理器2001,还用于:
确定待检测题目中的待检测对象的检测规则参数,其中,检测规则参数包括待检测对象的长度阈值和/或待检测对象的数量阈值;
遍历待检测题目中的题干、答案以及选项;
若待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于长度阈值,则确定第一检测数据为待检测对象中存在空值;和/或
若至少一种待检测对象的数量大于或者等于数量阈值,则确定第一检测数据为待检测对象中存在重复值。
在一种可能的实施方式中,待检测对象包括公式,目标值为缺失值;上述处理器2001,还用于:
检测待检测题目中的公式的目标符号,若目标符号没有配对,则确定第一检测数据为待检测对象中存在缺失值;或者
对待检测题目中的公式进行渲染,若公式渲染失败,则确定第一检测数据为待检测对象中存在缺失值。
在一种可能的实施方式中,待检测对象包括字符,目标值为乱码值;上述处理器2001,还用于:
确定待检测题目中字符的编码范围,若字符的编码范围属于指定编码范围,则确定第一检测数据为待检测对象中存在乱码值。
在一种可能的实施方式中,上述处理器2001,还用于:
确定待检测题目的题型结构的特征编码;
若待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定第一检测数据为待检测题目的题型结构不属于预设题型结构。
在一种可能的实施方式中,上述处理器2001,还用于:
若通过上述收发器2003获取得到上述待检测题目中携带的图像为空,则将上述待检测题目中携带的图像的水印置信度确定为0;
若通过上述收发器2003获取得到上述待检测题目中携带的图像不为空,则确定上述待检测题目中携带的目标图像的图像类型,并根据上述目标图像的图像类型确定上述目标图像的水印置信度,以得到上述待检测题目中携带的图像的水印置信度,其中,上述目标图像的图像类型包括静态图片和/或视频帧画面。
在一种可能的实施方式中,上述处理器2001,还用于:
若上述待检测题目中携带的目标图像为静态图片,则确定上述静态图片的色彩层;
若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间存在任一色彩层,则确定上述待检测题目中携带的图像的水印置信度1;
若上述静态图片的色彩层包括白色层和黑色层,且上述白色层与上述黑色层之间不存在任一色彩层,则对上述目标图像进行边缘检测以得到上述目标图像的第一边缘特征,并基于上述目标图像的第一边缘特征确定上述待检测题目中携带的图像的水印置信度。
在一种可能的实施方式中,上述处理器2001,还用于:
通过上述收发器2003获取水印模板的第二边缘特征,并确定出用于确定图像的水印置信度的第一匹配度阈值;
若上述第一边缘特征与上述第二边缘特征的匹配度大于或者等于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为1;
若上述第一边缘特征与上述第二边缘特征的匹配度小于上述第一匹配度阈值,则确定上述待检测题目中携带的图像的水印置信度为0。
在一种可能的实施方式中,上述处理器2001,还用于:
若上述待检测题目中携带的目标图像为视频帧画面,则确定上述目标图像所属的视频中视频帧画面的目标检测区域;
从上述目标图像中确定出上述目标检测区域对应的部分图像,将上述部分图像输入目标水印识别模型,基于上述目标水印识别模型输出上述部分图像的水印置信度以得到上述目标图像的水印置信度。
在一种可能的实施方式中,上述处理器2001,还用于:
若上述水印置信度大于或者等于上述预设水印阈值范围的最大阈值,则确定上述第二检测数据为上述目标图像中携带水印;
若上述水印置信度大于或者等于上述预设水印阈值范围的最小阈值,且小于上述预设水印阈值范围的最大阈值,则确定出用于检测上述目标图像是否存在水印的水印关键词,基于上述水印关键词以及从上述目标图像中提取的文本数据的匹配度确定上述第二检测数据;
若上述水印置信度小于上述预设水印阈值范围的最小阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
在一种可能的实施方式中,上述处理器2001,还用于:
从上述目标图像中提取文本数据;
若上述文本数据与上述水印关键词的匹配度大于或者等于匹配度阈值,则确定上述第二检测数据为上述目标图像中携带水印;
若上述文本数据与上述水印关键词的匹配度小于上述匹配度阈值,则确定上述第二检测数据为上述目标图像中不携带水印。
在一种可能的实施方式中,上述处理器2001,还用于:
确定上述待检测题目的初始质量评分;
根据上述第一检测数据中上述待检测对象中是否存在目标值和/或待检测题目的题型结构是否属于预设题型结构,以及上述初始质量评分确定上述待检测题目的第一质量评分;
根据上述第二检测数据中上述目标图像中是否携带水印,以及上述第一质量评分确定上述待检测题目的第二质量评分,并基于上述第二质量评分确定上述待检测题目的质量评分。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图3和/或图10所对应实施例的描述,也可执行前文图12所对应实施例中对上述题库题目的质量检测装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的一种题库题目的质量检测装置所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3和/或图10所对应实施例中对该一种题库题目的质量检测方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述计算机可读存储介质可以是前述任一实施例提供的一种题库题目的质量检测装置或者上述设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其它程序和数量。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种题库题目的质量检测方法,其特征在于,所述方法包括:
获取目标题库中的待检测题目;
确定所述待检测题目中的待检测对象中是否存在目标值和/或所述待检测题目的题型结构是否属于预设题型结构以得到所述待检测题目的第一检测数据,所述待检测对象包括题干、答案、选项、公式以及字符中的至少一种;
确定所述待检测题目中携带的图像的水印置信度,并根据所述水印置信度与所述待检测题目的预设水印阈值范围确定所述待检测题目的第二检测数据;
基于所述第一检测数据与所述第二检测数据确定所述待检测题目的质量评分,并基于所述质量评分确定所述待检测题目的题目质量。
2.根据权利要求1所述的方法,其特征在于,所述待检测对象包括题干、答案和/或选项,所述目标值包括空值和/或重复值;所述确定所述待检测题目中的待检测对象中是否存在目标值以得到所述待检测题目的第一检测数据,包括:
确定所述待检测题目中的待检测对象的检测规则参数,其中,所述检测规则参数包括所述待检测对象的长度阈值和/或所述待检测对象的数量阈值;
遍历所述待检测题目中的题干、答案以及选项;
若所述待检测题目中的题干、答案以及选项中的至少一种待检测对象的长度小于或者等于所述长度阈值,则确定所述第一检测数据为所述待检测对象中存在空值;和/或
若所述至少一种待检测对象的数量大于或者等于所述数量阈值,则确定所述第一检测数据为所述待检测对象中存在重复值。
3.根据权利要求1所述的方法,其特征在于,所述待检测对象包括公式,所述目标值为缺失值;所述确定所述待检测题目中的待检测对象中是否存在目标值以得到所述待检测题目的第一检测数据,包括:
检测所述待检测题目中的公式的目标符号,若所述目标符号没有配对,则确定所述第一检测数据为所述待检测对象中存在缺失值;或者
对所述待检测题目中的公式进行渲染,若所述公式渲染失败,则确定所述第一检测数据为所述待检测对象中存在缺失值。
4.根据权利要求1所述的方法,其特征在于,所述待检测对象包括字符,所述目标值为乱码值;所述确定所述待检测题目中的待检测对象中是否存在目标值以得到所述待检测题目的第一检测数据,包括:
确定所述待检测题目中字符的编码范围,若所述字符的编码范围属于指定编码范围,则确定所述第一检测数据为所述待检测对象中存在乱码值。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待检测题目的题型结构是否属于预设题型结构以得到所述待检测题目的第一检测数据,包括:
确定所述待检测题目的题型结构的特征编码;
若所述待检测题目的题型结构的特征编码与预设题型结构的特征编码不同,则确定所述第一检测数据为所述待检测题目的题型结构不属于所述预设题型结构。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定所述待检测题目中携带的图像的水印置信度,包括:
获取所述待检测题目中携带的图像;
若获取得到所述待检测题目中携带的图像为空,则将所述待检测题目中携带的图像的水印置信度确定为0;
若获取得到所述待检测题目中携带的图像不为空,则确定所述待检测题目中携带的目标图像的图像类型,并根据所述目标图像的图像类型确定所述目标图像的水印置信度,以得到所述待检测题目中携带的图像的水印置信度,其中,所述目标图像的图像类型包括静态图片和/或视频帧画面。
7.根据权利要求6所述的方法,其特征在于,所述根据所述水印置信度与所述待检测题目的预设水印阈值范围确定所述待检测题目的第二检测数据,包括:
若所述水印置信度大于或者等于所述预设水印阈值范围的最大阈值,则确定所述第二检测数据为所述目标图像中携带水印;
若所述水印置信度大于或者等于所述预设水印阈值范围的最小阈值,且小于所述预设水印阈值范围的最大阈值,则确定出用于检测所述目标图像是否存在水印的水印关键词,基于所述水印关键词以及从所述目标图像中提取的文本数据的匹配度确定所述第二检测数据;
若所述水印置信度小于所述预设水印阈值范围的最小阈值,则确定所述第二检测数据为所述目标图像中不携带水印。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一检测数据与所述第二检测数据确定所述待检测题目的质量评分,包括:
确定所述待检测题目的初始质量评分;
根据所述第一检测数据中所述待检测对象中是否存在目标值和/或所述待检测题目的题型结构是否属于预设题型结构,以及所述初始质量评分确定所述待检测题目的第一质量评分;
根据所述第二检测数据中所述目标图像中是否携带水印,以及所述第一质量评分确定所述待检测题目的第二质量评分,并基于所述第二质量评分确定所述待检测题目的质量评分。
9.一种计算机设备,其特征在于,包括:处理器、收发器、存储器以及网络接口;
所述处理器与存储器、收发器以及网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述收发器和所述处理器用于调用所述程序代码,执行权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-8任一项所述的方法。
CN202110663603.XA 2021-06-15 2021-06-15 题库题目的质量检测方法、装置及存储介质 Active CN113822521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110663603.XA CN113822521B (zh) 2021-06-15 2021-06-15 题库题目的质量检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110663603.XA CN113822521B (zh) 2021-06-15 2021-06-15 题库题目的质量检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113822521A true CN113822521A (zh) 2021-12-21
CN113822521B CN113822521B (zh) 2024-05-24

Family

ID=78912567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110663603.XA Active CN113822521B (zh) 2021-06-15 2021-06-15 题库题目的质量检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113822521B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662305A (zh) * 2023-06-06 2023-08-29 森纵艾数(北京)科技有限公司 一种题库管理方法、***、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147910A1 (en) * 2001-03-05 2002-10-10 Brundage Trent J. Digitally watermarked maps and signs and related navigational tools
US20070047819A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Data organization and access for mixed media document system
WO2007023993A1 (en) * 2005-08-23 2007-03-01 Ricoh Company, Ltd. Data organization and access for mixed media document system
JP2007221511A (ja) * 2006-02-17 2007-08-30 Nobuhiko Ido 再生音の採音機能を備えた受話器、採音した再生音の記録機能を備えた音声再生装置、および、録音した音声の内容を解析する音声信号処理装置
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109542886A (zh) * 2018-11-23 2019-03-29 山东浪潮云信息技术有限公司 一种面向政府数据的数据质量检测方法
CN111427974A (zh) * 2020-06-11 2020-07-17 杭州城市大数据运营有限公司 数据质量评估管理方法和装置
CN111737446A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质
CN111798360A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种水印检测方法、装置、电子设备及存储介质
CN111951148A (zh) * 2020-07-13 2020-11-17 清华大学 一种pdf文档水印生成方法和水印提取方法
CN112417088A (zh) * 2019-08-19 2021-02-26 武汉渔见晚科技有限责任公司 一种社群内文本价值的评估方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147910A1 (en) * 2001-03-05 2002-10-10 Brundage Trent J. Digitally watermarked maps and signs and related navigational tools
US20070047819A1 (en) * 2005-08-23 2007-03-01 Hull Jonathan J Data organization and access for mixed media document system
WO2007023993A1 (en) * 2005-08-23 2007-03-01 Ricoh Company, Ltd. Data organization and access for mixed media document system
JP2007221511A (ja) * 2006-02-17 2007-08-30 Nobuhiko Ido 再生音の採音機能を備えた受話器、採音した再生音の記録機能を備えた音声再生装置、および、録音した音声の内容を解析する音声信号処理装置
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN109542886A (zh) * 2018-11-23 2019-03-29 山东浪潮云信息技术有限公司 一种面向政府数据的数据质量检测方法
CN112417088A (zh) * 2019-08-19 2021-02-26 武汉渔见晚科技有限责任公司 一种社群内文本价值的评估方法及装置
CN111427974A (zh) * 2020-06-11 2020-07-17 杭州城市大数据运营有限公司 数据质量评估管理方法和装置
CN111737446A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质
CN111798360A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种水印检测方法、装置、电子设备及存储介质
CN111951148A (zh) * 2020-07-13 2020-11-17 清华大学 一种pdf文档水印生成方法和水印提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李青;夏芸;牟钰洁;王禹毅;刘建平;: "国内中文期刊发表的中医药***综述和Meta分析文献质量再评价", 北京中医药大学学报(中医临床版), no. 03, 30 May 2012 (2012-05-30), pages 28 - 33 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662305A (zh) * 2023-06-06 2023-08-29 森纵艾数(北京)科技有限公司 一种题库管理方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN113822521B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN109543690A (zh) 用于提取信息的方法和装置
CN111275784B (zh) 生成图像的方法和装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN108446404B (zh) 面向无约束视觉问答指向问题的检索方法及***
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN112149642A (zh) 一种文本图像识别方法和装置
CN114201516B (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN114611498A (zh) 标题生成方法、模型训练方法及装置
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN113822521B (zh) 题库题目的质量检测方法、装置及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN108154165A (zh) 基于大数据与深度学习的婚恋对象匹配数据处理方法、装置、计算机设备和存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN115221452A (zh) 基于可视化配置的门户构建方法、***、电子设备及介质
Xu et al. Estimating similarity of rich internet pages using visual information
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN114692715A (zh) 一种样本标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant