CN108228568A - 一种数学题目语义理解方法 - Google Patents

一种数学题目语义理解方法 Download PDF

Info

Publication number
CN108228568A
CN108228568A CN201810067659.7A CN201810067659A CN108228568A CN 108228568 A CN108228568 A CN 108228568A CN 201810067659 A CN201810067659 A CN 201810067659A CN 108228568 A CN108228568 A CN 108228568A
Authority
CN
China
Prior art keywords
text
mathematical problem
mathematical
semantic understanding
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810067659.7A
Other languages
English (en)
Other versions
CN108228568B (zh
Inventor
谢德刚
李巧艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mutual Education Intelligent Technology Co.,Ltd.
Original Assignee
Shanghai Mutual Education And Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mutual Education And Education Technology Co Ltd filed Critical Shanghai Mutual Education And Education Technology Co Ltd
Priority to CN201810067659.7A priority Critical patent/CN108228568B/zh
Publication of CN108228568A publication Critical patent/CN108228568A/zh
Application granted granted Critical
Publication of CN108228568B publication Critical patent/CN108228568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种数学题目语义理解方法,包括S1,对数学题目文本作预处理,使得数学题目文本规范化;S2,对数学题目文本中的数学符号和公式进行实体类型识别,并转换指示代词;S3,将数学题目文本中的长文本分割为语义完整且独立的短文本;S4,以带有标注的短文本为样本,搭建多分类神经网络模型,进行模型训练;S5,基于一阶逻辑语言所表示的数学知识类型分类结果,进行实体填补,得到完整的基于一阶逻辑语言所表示的数学知识,完成数学题目语义理解。

Description

一种数学题目语义理解方法
技术领域
本发明属于智能教学技术领域,特别涉及一种数学题目语义理解方法。
背景技术
随着人工智能技术的不断发展,深度学习与自然语言处理技术的结合使得自然语言方面有了突破性进展。教育AI方面的研究也越来越收到关注。其中,自动化解题技术是研究热门。要让计算机能够自动解题的前提便是让计算机理解题意。目前,对数学题目的语义理解,基于传统自然语言处理技术需要的工作量大,且题目信息提取效果差强人意。
发明内容
本发明的实施例提供了一种数学题目语义理解方法,目的在于,解决现有数学题目语义理解只利用传统自然语言处理技术所带来的问题。
为解决上述技术问题,本发明的实施例之一,提供一种数学题目语义理解方法,包括如下步骤:
S1:数学文本预处理,文本规范化;
S2:对数学文本中的数学符号和公式进行实体类型识别,并转换指示代词;
S3:将数学题目长文本分割为语义完整且独立的短文本;
S4:以带有标注的短文本为样本,搭建多分类神经网络模型,进行训练;
S5:基于一阶逻辑语言所表示的数学知识类型分类结果,进行实体填补,得到完整的基于一阶逻辑语言所表示的数学知识,完成数学题目语义理解。
在本发明中提到的指代消解、一阶逻辑语言具有如下解释。
指代消解,确定代词指代哪个名词,分为回指和预指。回指就是代词的先行语在代词前面,预指则是代词的先行语在代词后面。本方法指代消解的目标即替换数学文本中的代词为具体实体,将题目补充完整。
一阶逻辑语言,是一种形式化语言,也就一阶谓词逻辑,是一种抽象推理的符号工具。以逻辑谓词为中心,数学基本元素为组成要素,构成数学一阶逻辑语言。
本发明的有益效果是,本发明将深度学习技术运用于数学题目语义理解,将信息提取分解为不同的任务步骤,并创造性得将提取题目的知识表示转化为基于数学短文本的多分类任务,降低了计算机对数学语言理解的复杂度,并提高了信息提取的准确度,解决了智能答题对于语义理解的一大难关,推动深度学习在数学智能答题领域的运用。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例中一种数学题目语义理解方法的流程图。
图2是本发明实施例中型数学题目语义理解方法的实例流程框图。
具体实施方式
如图1所示,本发明的一个实施例,一种数学题目语义理解方法,包括如下步骤:
S1:数学文本预处理,文本规范化;
S2:对数学文本中的数学符号和公式进行实体类型识别,并转换指示代词;
S3:将数学题目长文本分割为语义完整且独立的短文本;
S4:以带有标注的短文本为样本,搭建多分类神经网络模型,进行训练;
S5:基于一阶逻辑语言所表示的数学知识类型分类结果,进行实体填补。
本发明的另一个实施例,一种数学题目语义理解方法,包括以下步骤:
S1,对数学题目文本作预处理,使得数学题目文本规范化;
S2,对数学题目文本中的数学符号和公式进行实体类型识别,并转换指示代词;
S3,将数学题目文本中的长文本分割为语义完整且独立的短文本;
S4,以带有标注的短文本为样本,搭建多分类神经网络模型,进行模型训练;
S5,基于一阶逻辑语言所表示的数学知识类型分类结果,进行实体填补,得到完整的基于一阶逻辑语言所表示的数学知识,完成数学题目语义理解。
所述步骤S1具体包括以下步骤:
对数学题目文本进行标准化,其中包括对数学题目文本进行清洗,去掉无意义符号或词语。
所述步骤S2具体包括以下步骤:
S21,针对数学题目文本中的数学符号和数学公式,准备人工标注好的样本,为模型训练备用;
S22,基于LSTM+crf模型进行命名实体识别,实现对新题目的实体标注;
S23,基于改进的mention-pair模型,对数学题目进行代词指代消解。
所述步骤S3具体包括以下步骤:
S31,利用2-tags标记,对待切分数学文本做标注,分别用字母“S”表示切分符号,用“N”表示非切分符号;
S32,利用CRF模型进行训练,实现对数学长文本的切割。
所述步骤S4具体包括以下步骤:
S41,基于S1-S3步骤处理后的短文本,进行一阶逻辑语言类别人工标注,准备训练样本;
S42,基于有标注训练样本,搭建多分类深度学习模型,进行模型训练。
所述步骤S4具体包括:
针对短文本中得到的一阶逻辑语言类和提取出的实体,进行实体填补,得到完整的形式化表示语言,完成该短文本信息提取。
如图2所示,是一个数学题目语义理解方法的实际例子,对该实例处理过程,包括如下步骤:
S1:对数学文本预处理,如将题目“已知圆M:{{x}^{2}}+{{y}^{2}}-2ay=0(a>0)截直线x+y=0所得线段的长度是2\sqrt{2},则圆M与圆N:(x-1)^2+(y-1)^2=1的位置关系是()”经过去latex,去空格等多余字符规范化为“已知圆M:x^2+y^2-2ay=0(a>0)截直线x+y=0所得线段的长度是2*sqrt{2},则圆M与圆N:(x-1)^2+(y-1)^2=1的位置关系是()”;
S2:对数学文本中的数学符号和公式进行实体类型识别和指代消解,例如,将图2中规范化后的题文继续处理成为:已知圆M##Circle:x^2+y^2-2ay=0(a>0)##express截直线l_0##Line:x+y=0##express所得线段的长度是2*sqrt{2}express,则圆M##Circle:x^2+y^2-2ay=0(a>0)##express与圆N##Circle:(x-1)^2+(y-1)^2=1##express的位置关系是()。
S3:将数学题目长文本分割为语义完整且独立的短文本,并根据规则对分割好的文本进行再次确认,如保证区间[2,8],集合{x|x^2<9,x in R}是完整的。图2中,将题目长文本分割成为两个语义完整的短文本:(1)已知圆M##Circle:x^2+y^2-2ay=0(a>0)##express截直线l_0##Line:x+y=0##express所得线段的长度是2*sqrt{2}express;(2)则圆M##Circle:x^2+y^2-2ay=0(a>0)##express与圆N##Circle:(x-1)^2+(y-1)^2=1##express的位置关系是();
S4:以带有实体标注的短文本为样本,搭建多分类神经网络模型,基于word2vec训练词向量,输入短文本序列,进行训练;
S5:基于一阶逻辑语言所表示的数学知识类型分类结果(如图2中,一阶逻辑类型分别为:(1)CircleSecantLength();(2)PositionRelationOfCircleLine()),将短文本中提取出的实体,填补进逻辑谓词中。如果逻辑谓词和实体个数不符,则表示信息提取有误。最终得到完整的基于一阶逻辑语言所表示的数学知识,完成数学题目语义理解。图2,基于本方法,最终提取出的结果为:
(1)CircleSecantLength(Circle(M,x^2+y^2-2ay=0(a>0)),Line(l_0,x+y=0));
(2)PositionRelationOfCircle(Circle(M,x^2+y^2-2ay=0(a>0)),Circle(N,(x-1)^2+(y-1)^2=1),position(null))。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (6)

1.一种数学题目语义理解方法,其特征在于,包括以下步骤:
S1,对数学题目文本作预处理,使得数学题目文本规范化;
S2,对数学题目文本中的数学符号和公式进行实体类型识别,并转换指示代词;
S3,将数学题目文本中的长文本分割为语义完整且独立的短文本;
S4,以带有标注的短文本为样本,搭建多分类神经网络模型,进行模型训练;
S5,基于一阶逻辑语言所表示的数学知识类型分类结果,进行实体填补,得到完整的基于一阶逻辑语言所表示的数学知识,完成数学题目语义理解。
2.根据权利要求1所述的数学题目语义理解方法,其特征在于:所述步骤S1具体包括以下步骤:
对数学题目文本进行标准化,其中包括对数学题目文本进行清洗,去掉无意义符号或词语。
3.根据权利要求1所述的数学题目语义理解方法,其特征在于:所述步骤S2具体包括以下步骤:
S21,针对数学题目文本中的数学符号和数学公式,准备人工标注好的样本,为模型训练备用;
S22,基于LSTM+crf模型进行命名实体识别,实现对新题目的实体标注;
S23,基于改进的mention-pair模型,对数学题目进行代词指代消解。
4.根据权利要求1所述的数学题目语义理解方法,其特征在于:所述步骤S3具体包括以下步骤:
S31,利用2-tags标记,对待切分数学文本做标注,分别用字母“S”表示切分符号,用“N”表示非切分符号;
S32,利用CRF模型进行训练,实现对数学长文本的切割。
5.根据权利要求1所述的数学题目语义理解方法,其特征在于:所述步骤S4具体包括以下步骤:
S41,基于S1-S3步骤处理后的短文本,进行一阶逻辑语言类别人工标注,准备训练样本;
S42,基于有标注训练样本,搭建多分类深度学习模型,进行模型训练。
6.根据权利要求1所述的数学题目语义理解方法,其特征在于:所述步骤S4具体包括:
针对短文本中得到的一阶逻辑语言类和提取出的实体,进行实体填补,得到完整的形式化表示语言,完成该短文本信息提取。
CN201810067659.7A 2018-01-24 2018-01-24 一种数学题目语义理解方法 Active CN108228568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067659.7A CN108228568B (zh) 2018-01-24 2018-01-24 一种数学题目语义理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067659.7A CN108228568B (zh) 2018-01-24 2018-01-24 一种数学题目语义理解方法

Publications (2)

Publication Number Publication Date
CN108228568A true CN108228568A (zh) 2018-06-29
CN108228568B CN108228568B (zh) 2021-06-04

Family

ID=62668740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067659.7A Active CN108228568B (zh) 2018-01-24 2018-01-24 一种数学题目语义理解方法

Country Status (1)

Country Link
CN (1) CN108228568B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062904A (zh) * 2018-08-23 2018-12-21 上海互教教育科技有限公司 逻辑谓词提取方法和装置
CN109190099A (zh) * 2018-08-23 2019-01-11 上海互教教育科技有限公司 句模提取方法及装置
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
JP2020161111A (ja) * 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法
CN111931020A (zh) * 2020-10-12 2020-11-13 北京世纪好未来教育科技有限公司 公式的标注方法、装置、设备及存储介质
CN115438624A (zh) * 2022-11-07 2022-12-06 江西风向标智能科技有限公司 数学题目出题意图识别方法、***、存储介质及设备
CN117252202A (zh) * 2023-11-20 2023-12-19 江西风向标智能科技有限公司 高中数学题目中命名实体的构建方法、识别方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN107423286A (zh) * 2017-07-05 2017-12-01 华中师范大学 初等数学代数型题自动解答的方法与***
CN107463553A (zh) * 2017-09-12 2017-12-12 复旦大学 针对初等数学题目的文本语义抽取、表示与建模方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107423286A (zh) * 2017-07-05 2017-12-01 华中师范大学 初等数学代数型题自动解答的方法与***
CN107463553A (zh) * 2017-09-12 2017-12-12 复旦大学 针对初等数学题目的文本语义抽取、表示与建模方法和***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062904A (zh) * 2018-08-23 2018-12-21 上海互教教育科技有限公司 逻辑谓词提取方法和装置
CN109190099A (zh) * 2018-08-23 2019-01-11 上海互教教育科技有限公司 句模提取方法及装置
CN109062904B (zh) * 2018-08-23 2022-05-20 上海互教教育科技有限公司 逻辑谓词提取方法和装置
CN109190099B (zh) * 2018-08-23 2022-12-13 上海互教教育科技有限公司 句模提取方法及装置
JP2020161111A (ja) * 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111209738B (zh) * 2019-12-31 2021-03-26 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111931020A (zh) * 2020-10-12 2020-11-13 北京世纪好未来教育科技有限公司 公式的标注方法、装置、设备及存储介质
CN115438624A (zh) * 2022-11-07 2022-12-06 江西风向标智能科技有限公司 数学题目出题意图识别方法、***、存储介质及设备
CN117252202A (zh) * 2023-11-20 2023-12-19 江西风向标智能科技有限公司 高中数学题目中命名实体的构建方法、识别方法和***
CN117252202B (zh) * 2023-11-20 2024-03-19 江西风向标智能科技有限公司 高中数学题目中命名实体的构建方法、识别方法和***

Also Published As

Publication number Publication date
CN108228568B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN108228568A (zh) 一种数学题目语义理解方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN109918666A (zh) 一种基于神经网络的中文标点符号添加方法
CN108121702B (zh) 数学主观题评阅方法及***
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN111159356B (zh) 基于教学内容的知识图谱构建方法
CN105975455A (zh) 基于双向递归神经网络的信息分析***
CN103914445A (zh) 数据语义处理方法
CN106033462A (zh) 一种新词发现方法及***
Blaney et al. Assessing High Impact Practices Using NVivo: An Automated Approach to Analyzing Student Reflections for Program Improvement.
CN103500216A (zh) 一种文件信息的提取方法
CN111126610B (zh) 题目分析方法、装置、电子设备和存储介质
CN106372053B (zh) 句法分析的方法和装置
CN107301163A (zh) 包含公式的文本语义解析方法及装置
CN111143531A (zh) 一种问答对构建方法、***、装置及计算机可读存储介质
CN111814476B (zh) 一种实体关系的抽取方法和装置
CN110399433A (zh) 一种基于深度学习的数据实体关系抽取方法
CN109190099A (zh) 句模提取方法及装置
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN113934814B (zh) 古诗文主观题自动评分方法
CN110377691A (zh) 文本分类的方法、装置、设备及存储介质
CN109213846A (zh) 一种自然语言处理***
CN115345177A (zh) 意图识别模型训练方法和对话方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 10, Lane 2277, Zuchongzhi Road, Pudong New Area Free Trade Pilot Zone, Shanghai, 200000

Patentee after: Shanghai Mutual Education Intelligent Technology Co.,Ltd.

Address before: Room a684-05, building 2, 351 GuoShouJing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Patentee before: SHANGHAI HUJIAO EDUCATION TECHNOLOGY Co.,Ltd.