CN115438624B - 数学题目出题意图识别方法、***、存储介质及设备 - Google Patents
数学题目出题意图识别方法、***、存储介质及设备 Download PDFInfo
- Publication number
- CN115438624B CN115438624B CN202211381390.2A CN202211381390A CN115438624B CN 115438624 B CN115438624 B CN 115438624B CN 202211381390 A CN202211381390 A CN 202211381390A CN 115438624 B CN115438624 B CN 115438624B
- Authority
- CN
- China
- Prior art keywords
- mathematical
- question
- property
- distance
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013145 classification model Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013178 mathematical model Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数学题目出题意图识别方法、***、存储介质及设备,该方法包括获取待识别的数学题目,对待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;对数学题目文本进行指代消解,消除数学题目文本中的代词,以识别出数学题目文本的题意;识别数学题目文本中的条件及设问语句,将条件及设问语句进行切割,以还原待识别的数学题目的求解逻辑,对切割后的数学题目文本进行关键数学元素提取;对提取后的关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出待识别的数学题目的出题逻辑和意图。本发明解决了现有技术中对出题意图进行识别时效率以及准确率低的问题。
Description
技术领域
本发明涉及智能教育技术领域,特别涉及一种数学题目出题意图识别方法、***、存储介质及设备。
背景技术
教育一直以来都是人类发展过程中关注的重要话题之一,一般的,在日常生活中我们所指的教育主要是指学校对儿童、少年、青年进行培养的过程,在学校教育工作者对主要对学生进行专业技能以及专业知识的传授。
为了提升教学质量,学生在学习的过程中通常会通过出题来检测对相关知识的掌握程度,因此,每道题目的均会以想要考察的知识点作为主要出题意图,可见,除了解答题目以外,了解题目的出题意图也变得至关重要。
现有技术中,当前主流的出题意图识别方式为人工识别题目文本和公式考点进行标注,这种方式考点标注标准不统一,并且人力成本投入大,而机器学习和深度学习模型标注组合需要依靠大量的已标注题目数据,数据前期标注成本较高,且模型不能准确的学习到学科和题目的核心特征。
发明内容
有鉴于此,本发明的目的在于提供一种数学题目出题意图识别方法、***、存储介质及设备,旨在解决现有技术中对出题意图进行识别时效率以及准确率低的问题。
本发明实施例是这样实现的:
一种数学题目出题意图识别方法、所述方法包括:
获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;
对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意;
识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取;
对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图。
进一步的,上述数学题目出题意图识别方法,其中,所述对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图的步骤包括:
使用中心滑动窗口算法以提取后的所述关键数学元素的性质类型数学元素为中心进行滑动选取左右窗口内的实体类型数学元素;
根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合,以解析出所述待识别的数学题目的出题逻辑和意图。
进一步的,上述数学题目出题意图识别方法,其中,根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合的步骤包括:
利用预设分类模型对所述性质类型数学元素与实体类型数学元素之间的距离进行比较,以确定以所述性质类型数学元素进行组合的实体类型数学元素并对所述性质类型数学元素与实体类型数学元素进行组合。
进一步的,上述数学题目出题意图识别方法,其中,所述预设分类模型的数学模型为:
其中:
L1表示中心性质的左窗口所有元素与中心性质距离函数;
L2表示中心性质的右窗口所有元素与中心性质距离函数;
W表示中心性质窗口取值;
Xj表示左右窗口中的与中心性质距离为j的元素,若该元素是可以与中心性质进行组合的实体,则Xj=1,否则Xj=0;
i表示可以与中心性质进行组合的最近元素的位置索引;
di表示可以与中心性质进行组合的最近元素距离中心性质的距离;
α表示中心性质左边窗口元素距离变化的比例系数;
β表示中心性质右边窗口元素距离变化的比例系数;γ表示右边窗口相对左边窗口距离变化的比例系数。
进一步的,上述数学题目出题意图识别方法,其中,所述预设分类模型的约束条件为:
其中:
E表示能与中心性质形成有效组合的实体;
O表示无法与中心性质形成有效组合的其他实体、性质和独立体;
left表示中心性质左边窗口;
right表示中心性质右边窗口;
EOO(left)表示左边窗口距离中心性质距离为1的元素是O,距离为2的元素是O,距离为3的元素是E;
OEE(right)表示右边窗口距离中心性质距离为1的元素是O,距离为2的元素是E,距离为3的元素是E;
其中:
index表示L 1和L 2 中最小值的索引,取值为0或1;
class表示当L 1和L 2 取值在(0,3)之间时,class=1 or 2,否则,class=0。
进一步的,上述数学题目出题意图识别方法,其中,预设分类模型的训练过程为:
采集训练数据集,使用采集训练数据集中的标记数据进行训练得到第一分类模型;
利用所述第一分类模型对无标签数据进行预测,得出预测概率并通过所述预测概率筛选出高置信度样本;
使用有标记数据以及伪标签数据训练第二分类模型,将所述第一分类模型替换所述第二分类模型,后进行重复训练将模型参数优化至预设值以得到所述预设分类模型。
进一步的,上述数学题目出题意图识别方法,其中,所述对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图的步骤之前还包括:
采集数学学科题目特点,并根据所述数学学科题目特点构建数学考点的特征组合关系以建立所述预设的知识图谱。
本发明的另一个目的在于提供一种数学题目出题意图识别方法的***,所述***包括:
获取模块,用于获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;
消解模块,用于对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意;
识别模块,用于识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取;
解析模块,用于对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图。
本发明的另一个目的是提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的方法的步骤。
本发明的另一个目的是提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本发明通过对待识别的数学题目中的数学符号以及公式进行识别解析得到数学题目文本,以及进行指代消解,识别出数学题目文本的题意,后进行条件及设问语句切割,后进行关键数学元素提取,最后对提取后的关键数学元素根据预设的知识图谱的组合关系,利用预设分类模型进行精准组合,输出关键数学元素之间的有效组合的同时避免冗余组合,解析出待识别的数学题目的出题逻辑和意图,提升了出题意图识别的效率和准确率,解决了现有技术中对出题意图进行识别时效率以及准确率低的问题。
附图说明
图1为本发明第一实施例中数学题目出题意图识别方法的流程图;
图2为本发明第三实施例中数学题目出题意图识别***的结构框图;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以下将结合具体实施例和附图来详细说明如何解决现有技术中对出题意图进行识别时效率以及准确率低的问题。
实施例一
请参阅图1,所示为本发明第一实施例中提出的数学题目出题意图识别方法,所述方法包括步骤S10~S13。
步骤S10,获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本。
其中,待识别的数学题目为需要识别其出题意图的数学题目,在本实施例当中,主要是对数学题目的出题意图进行识别,因此,主要是根据数学题目的特性识别出数学题目中的出题意图,一般的,数学题目中会含有数学符号以及公式等特殊字符,查找出数学题目中所有的数学符号和公式,并将其转换成可以识别的数学自然语言,从而可以得到包含该数学题目整体题意的数学题目文本。
步骤S11,对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意。
具体的,对公式识别转换后的数学题目文本进行指代消解,消除题目文本中的代词。在具体实施时,主要通过查找数学题目文本中的代词,并确定代词在当前数学题目文本中的具体含义,然后用题目中具体的元素名称去替换代词,从而能完整的识别出当前题目文本的意思。
步骤S12,识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取。
其中,对数学题目文本按照给定题目文本条件和待求解问题进行条件及设问语句的切割,分为条件部分和设问部分,将题目的原本设计思路具象化,还原出待识别的数学题目的求解逻辑,便于人为和自然语言理解,然后将条件及设问切割后的文本进行关键的数学元素提取,一般的,关键的数学元素包括实体类型元素、性质类型元素以及独立体性质元素。
另外,在本发明一些可选的实施例当中,为了进一步的提升数学题目出题意图识别的准确性,在对数学题目文本进行切割提取后,对数学题目文本进行提纯处理,以去除数学题目文本中无意义的语句和噪声。
示例性的,假设待识别的数学题目为:已知函数f(x)的定义域为(-1,1),求f(3x2+5)的定义域。
其中,公式识别结果:已知函数【抽象函数_f】的定义域为【区间】,求【抽象函数_抽象复合_是一元二次_@@_f】的定义域。
条件设问切割及提纯后结果:{1”{“condition”:[“抽象函数”,“定义域”,“区间”,“f表达”],“question”:[“抽象复合二次函数”,“定义域”]}}。
步骤S13,对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图。
其中,根据提取出的关键数学元素之间的组合关系,可以利用训练好的预设分类模型进行精准组合,从而输出关键数学元素之间的有效组合,以解析出数学题目的实际出题逻辑和意图,即该题目需要考察的知识点,以及同时避免冗余组合提升出题意图识别的效率和准确率,具体的,预设的知识图谱为根据数学学科的特点,事先建立的数学考点的特征组合图谱,其中包含了数学题目之间数学元素之间的组合关系。
具体的,在本发明一些可选的实施例当中,对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图的步骤之前还包括:
采集数学学科题目特点,并根据所述数学学科题目特点构建数学考点的特征组合关系以建立所述预设的知识图谱。
可以理解的,每个学科有每个学科的特点,例如,数学有很多数学符号以及公式等,根据数学学科题目特点可以构建关于数学考点的特征组合关系的知识图谱。
综上,本发明上述实施例当中的数学题目出题意图识别方法,通过对待识别的数学题目中的数学符号以及公式进行识别解析得到数学题目文本,以及进行指代消解,识别出数学题目文本的题意,后进行条件及设问语句切割,后进行关键数学元素提取,最后对提取后的关键数学元素根据预设的知识图谱的组合关系,利用预设分类模型进行精准组合,输出关键数学元素之间的有效组合的同时避免冗余组合,解析出待识别的数学题目的出题逻辑和意图,提升了出题意图识别的效率和准确率,解决了现有技术中对出题意图进行识别时效率以及准确率低的问题。
实施例二
本实施例也提出一种数学题目出题意图识别方法,本实施例提出的数学题目出题意图识别方法与本实施例一中提出的数学题目出题意图识别方法的不同之处在于:
步骤S13包括:
使用中心滑动窗口算法以提取后的所述关键数学元素的性质类型数学元素为中心进行滑动选取左右窗口内的实体类型数学元素;
根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合,以解析出所述待识别的数学题目的出题逻辑和意图。
其中,由于性质类型数学元素只会与某一个方向的实体类型数学元素形成组合,而实体不一定只与某一个方向性质类型数学元素形成组合,因此,在本实施例当中,以性质类型数学元素为中心找实体类型数学元素。示例性的,假设待识别的数学题目“已知奇函数f(x)具有周期性”在进行切割提取后的数学元素为:[“奇偶性”,“抽象函数”,“周期性”],因为抽象函数同时与左右两边的性质类型数学元素都存在组合关系,所以以“实体类型数学元素”为中心无法进行方向分类,而“性质类数学元素”只会与左右其中一个方向形成组合关系。
具体的,在本发明一些可选的实施例当中,根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合的步骤包括:
利用预设分类模型对所述性质类型数学元素与实体类型数学元素之间的距离进行比较,以确定以所述性质类型数学元素进行组合的实体类型数学元素并对所述性质类型数学元素与实体类型数学元素进行组合。
具体的,预设分类模型的数学模型为:
其中:
L1表示中心性质的左窗口所有元素与中心性质距离函数;
L2表示中心性质的右窗口所有元素与中心性质距离函数;
W表示中心性质窗口取值;
Xj表示左右窗口中的与中心性质距离为j的元素,若该元素是可以与中心性质进行组合的实体,则Xj=1,否则Xj=0;
i表示可以与中心性质进行组合的最近元素的位置索引;
di表示可以与中心性质进行组合的最近元素距离中心性质的距离;
α表示中心性质左边窗口元素距离变化的比例系数;
β表示中心性质右边窗口元素距离变化的比例系数;γ表示右边窗口相对左边窗口距离变化的比例系数。
预设分类模型的约束条件为:
其中:
E表示能与中心性质形成有效组合的实体;
O表示无法与中心性质形成有效组合的其他实体、性质和独立体;
left表示中心性质左边窗口;
right表示中心性质右边窗口;
EOO(left)表示左边窗口距离中心性质距离为1的元素是O,距离为2的元素是O,距离为3的元素是E;
OEE(right)表示右边窗口距离中心性质距离为1的元素是O,距离为2的元素是E,距离为3的元素是E;
具体的,其他窗口性质表现意义的规律与上述表现意义的规律相同,例如,OEE(left)表示左边窗口距离中心性质距离为1的元素是E,距离为2的元素是E,距离为3的元素是O,EEE(right)表示右边窗口距离中心性质距离为1的元素是E,距离为2的元素是E,距离为3的元素是E,这里不予赘述。
其中:
index表示L 1和L 2 中最小值的索引,取值为0或1;
class表示当L 1和L 2 取值在(0,3)之间时,class=1 or 2,否则class=0。
可以理解的,基于“性质类型数学元素”只会与左右其中一个方向的“实体类型数学元素”形成组合关系。因此只关注离中心性质类型数学元素距离最近的有组合关系的实体类型数学元素,将原问题抽象成分类问题(例如,性质类型数学元素只与左边的实体类型数学元素形成组合、性质类型数学元素只与右边的实体类型数学元素形成组合,以及性质与左右两边的类型数学元素不存在组合)。其中,若性质类型数学元素与左右两边的类型数学元素距离均小于3,则选取距离最小的方向作为分类结果,若左右距离均大于3,则分类结果为不存在组合结果。
步骤S13之前还包括:
采集训练数据集,使用采集训练数据集中的标记数据进行训练得到第一分类模型;
利用所述第一分类模型对无标签数据进行预测,得出预测概率并通过所述预测概率筛选出高置信度样本;
使用有标记数据以及伪标签数据训练第二分类模型,将所述第一分类模型替换所述第二分类模型,后进行重复训练将模型参数优化至预设值以得到所述预设分类模型。
具体的,由于组合的标注样本成本高,且数量较少,因此通过半监督学习算法对已标注样本和未标注样本进行联合训练,不断优化参数来提升模型的组合精度,其中,第一分类模型与第二分类模型均为有监督模型,预设分类模型为半监督模型。
综上,本发明实施例,通过对待识别的数学题目中的数学符号以及公式进行识别解析得到数学题目文本,以及进行指代消解,识别出数学题目文本的题意,后进行条件及设问语句切割,后进行关键数学元素提取,最后对提取后的关键数学元素根据预设的知识图谱的组合关系,利用预设分类模型进行精准组合,输出关键数学元素之间的有效组合的同时避免冗余组合,解析出待识别的数学题目的出题逻辑和意图,提升了出题意图识别的效率和准确率,解决了现有技术中对出题意图进行识别时效率以及准确率低的问题。
实施例三
请参阅图2,所示为本发明第三实施例中提出的数学题目出题意图识别***,所述***包括:
获取模块100,用于获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;
消解模块200,用于对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意;
识别模块300,用于识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取;
解析模块400,用于对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图。
进一步地,在本发明的一些可选的实施例当中,所述解析模块包括:
选取单元,用于使用中心滑动窗口算法以提取后的所述关键数学元素的性质类型数学元素为中心进行滑动选取左右窗口内的实体类型数学元素;
解析单元,用于根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合,以解析出所述待识别的数学题目的出题逻辑和意图。
进一步地,在本发明的一些可选的实施例当中,所述***还包括:
比较模块,用于利用预设分类模型对所述性质类型数学元素与实体类型数学元素之间的距离进行比较,以确定以所述性质类型数学元素进行组合的实体类型数学元素并对所述性质类型数学元素与实体类型数学元素进行组合。
进一步地,在本发明的一些可选的实施例当中,所述预设分类模型的数学模型为:
其中:
L1表示中心性质的左窗口所有元素与中心性质距离函数;
L2表示中心性质的右窗口所有元素与中心性质距离函数;
W表示中心性质窗口取值;
Xj表示左右窗口中的与中心性质距离为j的元素,若该元素是可以与中心性质进行组合的实体,则Xj=1,否则Xj=0;
i表示可以与中心性质进行组合的最近元素的位置索引;
di表示可以与中心性质进行组合的最近元素距离中心性质的距离;
α表示中心性质左边窗口元素距离变化的比例系数;
β表示中心性质右边窗口元素距离变化的比例系数;γ表示右边窗口相对左边窗口距离变化的比例系数。
进一步地,上述数学题目出题意图识别***,其中,所述预设分类模型的约束条件为:
其中:
E表示能与中心性质形成有效组合的实体;
O表示无法与中心性质形成有效组合的其他实体、性质和独立体;
left表示中心性质左边窗口;
right表示中心性质右边窗口;
EOO(left)表示左边窗口距离中心性质距离为1的元素是O,距离为2的元素是O,距离为3的元素是E;
OEE(right)表示右边窗口距离中心性质距离为1的元素是O,距离为2的元素是E,距离为3的元素是E;
其中:
index表示L 1和L 2 中最小值的索引,取值为0或1;
class表示当L 1和L 2 取值在(0,3)之间时,class=1 or 2,否则class=0。
进一步地,在本发明的一些可选的实施例当中,预设分类模型的训练过程为:
采集训练数据集,使用采集训练数据集中的标记数据进行训练得到第一分类模型;
利用所述第一分类模型对无标签数据进行预测,得出预测概率并通过所述预测概率筛选出高置信度样本;
使用有标记数据以及伪标签数据训练第二分类模型,将所述第一分类模型替换所述第二分类模型,后进行重复训练将模型参数优化至预设值以得到所述预设分类模型。
进一步地,上述数学题目出题意图识别***,其中,所述***还包括:
构建模块,用于采集数学学科题目特点,并根据所述数学学科题目特点构建数学考点的特征组合关系以建立所述预设的知识图谱。
上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
实施例四
本发明另一方面还提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述实施例一至二中任意一个所述的方法的步骤。
实施例五
本发明另一方面还提供一种电子设备,所述设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例一至二中任意一个所述的方法的步骤。
以上各个实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机存储介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种数学题目出题意图识别方法,其特征在于,所述方法包括:
获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;
对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意;
识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取;
对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图;
其中,所述对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图的步骤包括:
使用中心滑动窗口算法以提取后的所述关键数学元素的性质类型数学元素为中心进行滑动选取左右窗口内的实体类型数学元素;
根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合,以解析出所述待识别的数学题目的出题逻辑和意图;
根据所述性质类型数学元素与实体类型数学元素之间的距离确定与所述性质类型数学元素之间有组合关系的目标实体类型数学元素,并对所述目标实体类型数学元素与所述性质类型数学元素进行组合的步骤包括:
利用预设分类模型对所述性质类型数学元素与实体类型数学元素之间的距离进行比较,以确定以所述性质类型数学元素进行组合的实体类型数学元素并对所述性质类型数学元素与实体类型数学元素进行组合;
所述预设分类模型的数学模型为:
其中:
L1表示中心性质的左窗口所有元素与中心性质距离函数;
L2表示中心性质的右窗口所有元素与中心性质距离函数;
W表示中心性质窗口取值;
Xj表示左右窗口中的与中心性质距离为j的元素,若该元素是可以与中心性质进行组合的实体,则Xj=1,否则Xj=0;
i表示可以与中心性质进行组合的最近元素的位置索引;
di表示可以与中心性质进行组合的最近元素距离中心性质的距离;
α表示中心性质左边窗口元素距离变化的比例系数;
β表示中心性质右边窗口元素距离变化的比例系数;γ表示右边窗口相对左边窗口距离变化的比例系数;
所述预设分类模型的约束条件为:
其中:
E表示能与中心性质形成有效组合的实体;
O表示无法与中心性质形成有效组合的其他实体、性质和独立体;
left表示中心性质左边窗口;
right表示中心性质右边窗口;
EOO(left)表示左边窗口距离中心性质距离为1的元素是O,距离为2的元素是O,距离为3的元素是E;
OEE(right)表示右边窗口距离中心性质距离为1的元素是O,距离为2的元素是E,距离为3的元素是E;
EEE(right)表示右边窗口距离中心性质距离为1的元素是E,距离为2的元素是E,距离为3的元素是E;
其中:
index表示L 1和L 2 中最小值的索引,取值为0或1;
class表示当L 1和L 2 取值在(0,3)之间时,class=1 or 2,否则class=0。
2.根据权利要求1所述的数学题目出题意图识别方法,其特征在于,预设分类模型的训练过程为:
采集训练数据集,使用采集训练数据集中的标记数据进行训练得到第一分类模型;
利用所述第一分类模型对无标签数据进行预测,得出预测概率并通过所述预测概率筛选出高置信度样本;
使用有标记数据以及伪标签数据训练第二分类模型,将所述第一分类模型替换所述第二分类模型,后进行重复训练将模型参数优化至预设值以得到所述预设分类模型。
3.根据权利要求1至2中任一项所述的数学题目出题意图识别方法,其特征在于,所述对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图的步骤之前还包括:
采集数学学科题目特点,并根据所述数学学科题目特点构建数学考点的特征组合关系以建立所述预设的知识图谱。
4.一种基于权利要求1所述的数学题目出题意图识别方法的***,其特征在于,所述***包括:
获取模块,用于获取待识别的数学题目,对所述待识别的数学题目中的数学符号以及公式进行识别解析以得到数学题目文本;
消解模块,用于对所述数学题目文本进行指代消解,消除所述数学题目文本中的代词,以识别出所述数学题目文本的题意;
识别模块,用于识别所述数学题目文本中的条件及设问语句,将所述条件及设问语句进行切割,以还原所述待识别的数学题目的求解逻辑,对切割后的所述数学题目文本进行关键数学元素提取;
解析模块,用于对提取后的所述关键数学元素根据预设的知识图谱中的组合关系,利用预设分类模型进行精准组合,以解析出所述待识别的数学题目的出题逻辑和意图。
5.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至3中任意一项所述的方法的步骤。
6.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至3任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211381390.2A CN115438624B (zh) | 2022-11-07 | 2022-11-07 | 数学题目出题意图识别方法、***、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211381390.2A CN115438624B (zh) | 2022-11-07 | 2022-11-07 | 数学题目出题意图识别方法、***、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115438624A CN115438624A (zh) | 2022-12-06 |
CN115438624B true CN115438624B (zh) | 2023-03-24 |
Family
ID=84252650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211381390.2A Active CN115438624B (zh) | 2022-11-07 | 2022-11-07 | 数学题目出题意图识别方法、***、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438624B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050412B (zh) * | 2023-03-07 | 2024-01-26 | 江西风向标智能科技有限公司 | 基于数学语义逻辑关系的高中数学题目的分割方法和*** |
CN118132794B (zh) * | 2024-05-07 | 2024-07-05 | 江西风向标智能科技有限公司 | 一种基于企业信息语义检索的多模态数据分块方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564072A (zh) * | 2020-06-09 | 2020-08-21 | 暗物智能科技(广州)有限公司 | 一种平面几何自动出题方法及*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489439B2 (en) * | 2016-04-14 | 2019-11-26 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN107463553B (zh) * | 2017-09-12 | 2021-03-30 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和*** |
CN108228568B (zh) * | 2018-01-24 | 2021-06-04 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN110362723B (zh) * | 2019-05-31 | 2022-06-21 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答***的知识图谱构建方法及其*** |
CN113934922A (zh) * | 2020-07-14 | 2022-01-14 | 中移(成都)信息通信科技有限公司 | 一种智能推荐的方法、装置、设备及计算机存储介质 |
-
2022
- 2022-11-07 CN CN202211381390.2A patent/CN115438624B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564072A (zh) * | 2020-06-09 | 2020-08-21 | 暗物智能科技(广州)有限公司 | 一种平面几何自动出题方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN115438624A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115438624B (zh) | 数学题目出题意图识别方法、***、存储介质及设备 | |
US10657330B2 (en) | Information extraction method and apparatus | |
Nasseri et al. | Lexical density and diversity in dissertation abstracts: Revisiting English L1 vs. L2 text differences | |
CN108121702B (zh) | 数学主观题评阅方法及*** | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及*** | |
Casal et al. | Syntactic complexity across academic research article part-genres: A cross-disciplinary perspective | |
VV et al. | Efficiency of text readability features in Russian academic texts | |
CN111326040B (zh) | 语文阅读理解智能测试和智能辅导***和方法 | |
CN107301164B (zh) | 数学公式的语义解析方法及装置 | |
CN111126610B (zh) | 题目分析方法、装置、电子设备和存储介质 | |
Miller et al. | Computational approaches to the analysis of language impairment | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
Elsayed et al. | Evaluation of quran recitation via OWL ontology based system. | |
CN113486196B (zh) | 一种基于教学思维的物理知识点智能识别方法及装置 | |
CN109346108B (zh) | 一种作业检查方法及*** | |
Cunningham-Nelson et al. | Text analysis in education: a review of selected software packages with an application for analysing students’ conceptual understanding | |
Birkenmaier et al. | ValiTex--a uniform validation framework for computational text-based measures of social science constructs | |
Andersson et al. | Methods of applying machine learning to student feedback through clustering and sentiment analysis | |
Contreras et al. | Automated essay scoring using ontology generator and natural language processing with question generator based on blooms taxonomy’s cognitive level | |
Broisin et al. | Design and evaluation of a semantic indicator for automatically supporting programming learning | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
Willis et al. | Identifying domain reasoning to support computer monitoring in typed-chat problem solving dialogues | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
CN117635381B (zh) | 一种基于人机对话的计算思维品质评估方法及*** | |
Maurer et al. | „Argument Mining: A new method for automated text analysis and its application in communication science “ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |