CN111737949B - 题目内容提取方法、装置、可读存储介质及计算机设备 - Google Patents

题目内容提取方法、装置、可读存储介质及计算机设备 Download PDF

Info

Publication number
CN111737949B
CN111737949B CN202010708727.0A CN202010708727A CN111737949B CN 111737949 B CN111737949 B CN 111737949B CN 202010708727 A CN202010708727 A CN 202010708727A CN 111737949 B CN111737949 B CN 111737949B
Authority
CN
China
Prior art keywords
text
content
question
title
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010708727.0A
Other languages
English (en)
Other versions
CN111737949A (zh
Inventor
郑文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Wind Vane Intelligent Technology Co ltd
Original Assignee
Jiangxi Vaneducation Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Vaneducation Technology Inc filed Critical Jiangxi Vaneducation Technology Inc
Priority to CN202010708727.0A priority Critical patent/CN111737949B/zh
Publication of CN111737949A publication Critical patent/CN111737949A/zh
Application granted granted Critical
Publication of CN111737949B publication Critical patent/CN111737949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种题目内容提取方法、装置、可读存储介质及计算机设备,该方法包括:提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的完整题目内容;根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。本发明不仅实现了准确提取图片和公式信息,保证了入库题目中公式的可视化和美观性,提高了用户体验,另一方面提高了题目内容提取效率。

Description

题目内容提取方法、装置、可读存储介质及计算机设备
技术领域
本发明涉及电子技术领域,特别是涉及一种题目内容提取方法、装置、可读存储介质及计算机设备。
背景技术
在“互联网+”教育领域,若要建立一个强大的精准教学***,那么高质量的智能题库的建立与维护是必不可少的。入库题目的来源文档格式一般有word格式、pdf格式和图片格式等,其中,基于word格式的试题文档入库为最常见的一种。
现有技术中基于word文本的题目入库过程中若均依赖于人工录入,且人工标注题目相关信息,则整个过程既费时又费力,效率很低。此外,在数学、物理等理科试题中,由于文本中有大量的公式,而公式的准确识别以及在网页上准确而清晰的显示是一个技术难关,使得基于word文本提取理科类题目变得非常困难,这也是理科试卷试题信息提取的重点和难点。
发明内容
鉴于上述状况,有必要针对现有技术中关于word文本题目内容的提取效率低和提取困难的问题提供一种题目内容提取方法、装置、可读存储介质及计算机设备。
一种题目内容提取方法,包括:
提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。
进一步的,上述题目内容提取方法,其中,所述利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容的步骤包括:
通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
进一步的,上述题目内容提取方法,其中,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述根据所述起始行和所述结束行的位置确定各个题目的内容范围的步骤之前还包括:
根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。
进一步的,上述题目内容提取方法,其中,当所述非文字对象为图片时,所述将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个所述非文字对象分别进行存储;
将所述非文字对象的存储地址嵌入所述文字内容中,并转换为html格式文本。
进一步的,上述题目内容提取方法,其中,当所述非文字对象为公式时,所述将提取到的信息转换为html格式文本的步骤包括:
利用计算机语言读取所述公式,以得到wmf格式的矢量图;
将所述矢量图转换为非矢量图并存储;
获取所述公式对应的latex格式表达式;
将所述公式的矢量图的存储地址以及所述latex表达式嵌入所述文字内容中,并转换为html格式文本。
本发明实施例还提供了一种题目内容提取装置,包括:
文本转换模块,用于提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
第一替换模块,用于建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
题目内容切割模块,用于利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
第二替换模块,用于根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。
进一步的,上述题目内容提取装置,其中,所述题目内容切割模块包括:
标注模块,用于通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
题目内容确定子模块,用于根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
进一步的,上述题目内容提取装置,其中,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述题目内容提取装置还包括:
题型确定模块,用于根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
调整模块,用于当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。
本发明实施例还提供了一种可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一所述的方法。
本发明实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述任意一项所述的方法。
本发明实施例通过word文本进行格式转换得到html格式文本,并将该html格式文本中的非文字对象的信息替换为对应的ID标识后,再通过预训练的NCRF模型进行题目内容切割。其不仅实现了准确识别图片、公式等信息,保证了入库题目中公式的可视化和美观性,提高了用户体验,还实现了题目的自动切割,方便了题目的结构化入库管理,一方面提高了老师的工作效率,大大降低人工成本,另一方面也大大加快了理科类在线题库建设的效率和准确度,进一步提高了用户体验,对自然语言处理技术、信息提取技术在理科类基础学科专业领域上的应用也起到了很大的促进作用。
附图说明
图1为本发明第一实施例中的题目内容提取方法的流程图;
图2为本发明第二实施例中的题目内容提取方法的流程图;
图3为本发明第三实施例中的题目内容提取装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,为本发明第一实施例中的题目内容提取方法,包括步骤S11~S14。
步骤S11,提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本。
该word文本为word格式的文件,例如为word格式的试卷,或word格式的作业题等。本实施例中尤其针对理科试卷或作业的题目内容具有良好的提取效果。
通过提取该word文本中的信息,确定该word文本中的文字内容和各个非文字对象。该非文字对象例如为图片、公式,每个图片或公式均称为非文字对象。将提取到的文字内容和非文字对象整体转换为html格式,得到html格式文本。
在进行文本格式转换时,针对图片的处理方式和公式的处理方式不同。具体的,当该word文本包括文字内容和图片时,将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个图片分别进行存储;
将各个图片的存储地址嵌入文字内容中,并转换为html格式文本。
html格式文本中各个图片以存储地址的形式呈现。
当该word文本包括文字内容、图片以及公式时,将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个图片进行存储;
利用计算机语言提取word中的公式,得到wmf格式的矢量图;
将所述矢量图转换为高分辨率的非矢量图并存储,并获取所述公式对应的latex格式表达式;
将所述图片的存储地址、所述公式转化后的非矢量图的存储地址以及所述公式的latex表达式嵌入所述文字内容中,并转换为html格式文本。
在word文本中公式一般采用MathType编写,基于office word软件的底层特点可利用python语言读取word,将图片和公式单独提取并保存,此时读取出的公式格式为wmf格式。由于wmf格式为矢量图格式,无法在网页中显示,因此,可利用C语言将wmf格式的公式转换为高分辨率的png格式或其他非矢量图格式。由于加入题库中的带公式的题目都需要保存其latex表达式,以便于后续修改和自动查重、标注等一系列数据深度应用操作,因此还需获取每个公式对应的latex表达式。最后将图片的保持地址、公式对应的非矢量图的保存地址,以及公式对应的latex表达式嵌入到原文本中的对应位置,并整体转换为html格式,从而得到html格式文本。
步骤S12,建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系。
由于html格式文本中的非文字对象以存储地址形式或latex公式嵌入,干扰信息太多,不利于题目自动切割模型的切割准确率。因此,通过建立ID字典,将html格式文本中各个非文字对象的信息即存储地址或latex公式,替换为ID字典中对应的ID标识。
其中,该ID字典中,每一个非文字对象对应一个ID标识,该ID标识用于***识别和区分各个非文字对象的信息,该ID标识例如以序号表示或字母表示。因此,上述步骤中,根据ID字典将html格式文本中以存储地址形式或latex格式呈现的非文字对象信息均替换为对应的ID标识。
步骤S13,利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容。
该NCRF是一个神经序列标注模型,集成了几个SOTA神经特征序列特征提取程序:CNN、LSTM和GRU,包含了三层结构:字符序列层、字序列层和推理层。其中字符序列层采用了字符LSTM、字符GRU、字符CNN等多种神经网络结构和手工制作的单词特征;字序列层采用了单词LSTM、单词GRU、单词CNN等结构;推理层包含了Softmax、CRF等结构。
其中,CRF,也叫条件随机场,是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型。LSTM,长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。GRU(Gate RecurrentUnit)是循环神经网络(Recurrent Neural Network, RNN)的一种。CNN,卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。Softmax,softmax逻辑回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。
采用大量的html格式的训练样本对该NCRF模型进行训练,使训练后的NCRF模型能够识别每道题目的内容范围。通过训练好后的NCRF模型对html格式文本进行文本题目标注,以准确的框定每道题目的完整题目内容。
作为本发明的一种实施方式,题目内容确定方式为,将该训练样本中所有题目按行进行人工序列标注,采用B、M、E、S等四种标注符号,B表示开始文本,M表示中间文本,E表示结束文本,S表示单行文本,不需要标注的文本先不标注。通过训练好后的NCRF模型对新的word文本,通过上述方法替换为html格式文本后再进行文本行序列标注,利用起始行标签和结束行标签确定各个题目的起始行和结束行的位置从而达到自动切题效果,以确定每道题目的题目内容范围。
步骤S14,根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。
通过NCRF模型确定html格式文本中各个题目的题目内容范围,其非文字对象以ID标识显示的,因此,需要将各个题目内容中的ID标识替换为对应的非文字对象的信息,以还原为替换前的html格式文本。由此可提取出html格式文本中的各个题目的完整题目内容。
本实施例不仅实现了准确识别、提取公式信息,保证了入库题目中公式的可视化和美观性,提高了用户体验,而且还实现了自动切割题目并结构化入库的功能,一方面提高了老师的工作效率,大大降低人工成本,另一方面也大大加快了理科类在线题库建设的效率和准确度,进一步提高了用户体验,对自然语言处理技术、信息提取技术在理科类基础学科专业领域上的应用也起到了很大的促进作用。
请参阅图2,为本发明第二实施例中的题目内容提取方法,包括步骤S21~S28。
步骤S21,提取Word文本中的文字内容和各个非文字对象,所述非文字对象包括图片和公式。
步骤S22,将提取到的各个图片分别进行存储。
步骤S23,利用计算机语言提取文本中的各个公式,以得到wmf格式的矢量图,并将所述矢量图转换为非矢量图并存储,以及相应获取每个公式的latex格式表达式。
步骤S24,将各个所述非文字对象的信息嵌入所述文字内容中,并转换为html格式文本,所述信息包括图片的存储地址、矢量图的存储地址以及latex格式表达式。
本实施例中,word文本中包含有文字内容、图片和公式,该图片和公式均称为非文字对象。将word文本转换为html格式的html格式文本时,针对图片,需要在原文字内容的相应位置嵌入图片的存储地址,针对公式,则需要将公式存储为非矢量图,并获取该公式的latex格式表达式,再将公式的矢量图存储地址以及latex格式表达式嵌入原文字内容中的相应位置,最后整体转换为html格式。
步骤S25,建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系。
将html文本中图片的存储地址、矢量图的存储地址以及latex格式表达式与各个ID标识建立映射关系。并根据该映射关系,将html文本中的存储地址、矢量图的存储地址替换为对应的ID标识。
步骤S26,通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签。
对NCRF模型进行预训练时,需要收集大量的文本,该文本例如为word格式的试卷。将该文本换为html格式后作为训练样本。将这些训练样本中各个题目按行进行序列标注,为每道题目添加标签,该标签至少包括起始行标签和结束行标签。具体实施时,可以预设的标注符表示这两类标签,例如B表示起始行标签,E表示结束行标签。每个训练样本中的各个题目的起始行和结束行分别添加有符号B和E,不需要标注的文本可不进行标注。
其中,序列标注是给定一个序列,对序列中的每一个元素做一个标记,或者说给每一个元素打一个标签,这是一个比较宽泛的概念,中文命名实体识别、中文分词和词性标注等这些基本的NLP任务都属于序列标注的范畴。本发明中所述序列标注,是对每一行文本进行标注,所有行的文本组成一个序列。序列标注的的输入是一个序列,其输出也是一个序列。
可以理解的,在本发明的其他实施中还可根据需要设置表示中间文本的标签,如用M符号表示。
基于该标注后的训练样本对NCRF模型进行训练,使该NCRF模型能够充分识别各个题目的起始行和结束行,并自动添加标签。训练好NCRF模型后,将替换后的html格式文本输入至该NCRF模型中,以对该html文本的所有题目添加起始行标签和结束行标签。
步骤S27,根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
确定了各个题目的起始行和结束行后即可确定出各个题目的内容,从而可对各个题目的题目内容进行准确的框定及提取。
步骤S28,根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。
html文本内容中的各个题目提取出来后,再根据图片和公式信息的id字典,将完成切割后的文本中图片和公式信息替换回来。
本实施例中,通过预训练的NCRF模型自动为html文本添加序列标签从而确定各个题目的起始行和结束行,并根据确定的起始行和结束行的位置确定各个题目的内容范围。
进一步的,在本发明的其他实施例中,针对提取出来的每道题还可根据题型、题干、选项、答案、解析、小问解析等信息进行结构化保存。
进一步的,在本发明的另一实施例中,为了提高题目内容提取的准确性,在html文本添加序列标签后,结合预设的纠错机制针对每道题目的题头和题尾部分的分割进行错误纠正,使各个题目的起始行位置和结束行位置定位更加准确。
该纠正机制根据各个题型的题型特点来设置。因此,在该实施例中,通过预训练的NCRF模型还需要对html文本的题型行进行识别,即添加各个题型的题型标签,该题型标签用于区分题目类型,例如选择题、判断题、解答题等类型。一般试卷内容中都含有题型行,进行NCRF模型预训练时,还需要对训练样本添加题型标签,使NCRF模型能够充分识别各个题目的题型行。该html格式文本中的题型行需要单独切分出来,根据题型行可确定各个题型的内容区域,继而根据每道题所处位置可以知道每道题目所属题型。
每个题型具有对应的题型特点,例如选择题包括题干和选项且选项个数一般是固定的,且每个选项中含有选项关键字(选项关键字一般为字母,如字母A-D),这些都是这类题型的特点。根据题型特点即可知道确定每个题目的起始行和结束行是否符合题型要求。
当通过NCRF模型识别出的任意一题目的起始行和结束行不符合对应的题型特点时,则进行调整。如题型为选择题来说,某一题目的结束行没有选项特征,且上一行有选项特征,则说明该结束行确定错误,则需要调整一行。
可以理解的该题型特点不限于上述提到的内容,其还可根据题目的实际出题规则来设置,此处不加以限定。
请参阅图3,为本发明第三实施例中的题目内容提取装置,包括:
文本转换模块10,用于提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
第一替换模块20,用于建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
题目内容切割模块30,用于利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
第二替换模块40,用于根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。
该文本转换模块10可通过Formula2Latex服务机制实现,主要识别理科试卷word试题文本中纯文字部分、纯图片部分以及公式部分,并单独保存,再基于识别的信息将word试题文本转化为html格式文本。
进一步的,上述题目内容提取装置,其中,所述题目内容切割模块包括:
标注模块,用于通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
题目内容确定子模块,用于根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
进一步的,上述题目内容提取装置,其中,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述题目内容提取装置还包括:
题型确定模块50,用于根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
调整模块60,用于当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。
本发明实施例所提供的题目内容提取装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述题目内容提取方法。
本发明实施例还提出了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述的题目内容提取方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种题目内容提取方法,其特征在于,包括:
提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息;其中
当所述非文字对象为图片时,所述将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个所述非文字对象分别进行存储;
将所述非文字对象的存储地址嵌入所述文字内容中,并转换为html格式文本;
当所述非文字对象为公式时,所述将提取到的信息转换为html格式文本的步骤包括:
利用计算机语言读取所述公式,以得到wmf格式的矢量图;
将所述矢量图转换为非矢量图并存储;
获取所述公式对应的latex格式表达式;
将所述公式的矢量图的存储地址以及所述latex格式表达式嵌入所述文字内容中,并转换为html格式文本。
2.如权利要求1所述的题目内容提取方法,其特征在于,所述利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容的步骤包括:
通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
3.如权利要求2所述的题目内容提取方法,其特征在于,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述根据所述起始行和所述结束行的位置确定各个题目的内容范围的步骤之前还包括:
根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。
4.一种题目内容提取装置,其特征在于,包括:
文本转换模块,用于提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
第一替换模块,用于建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
题目内容切割模块,用于利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
第二替换模块,用于根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息;其中
当所述非文字对象为图片时,所述将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个所述非文字对象分别进行存储;
将所述非文字对象的存储地址嵌入所述文字内容中,并转换为html格式文本;
当所述非文字对象为公式时,所述将提取到的信息转换为html格式文本的步骤包括:
利用计算机语言读取所述公式,以得到wmf格式的矢量图;
将所述矢量图转换为非矢量图并存储;
获取所述公式对应的latex格式表达式;
将所述公式的矢量图的存储地址以及所述latex格式表达式嵌入所述文字内容中,并转换为html格式文本。
5.如权利要求4所述的题目内容提取装置,其特征在于,所述题目内容切割模块包括:
标注模块,用于通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
题目内容确定子模块,用于根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。
6.如权利要求5所述的题目内容提取装置,其特征在于,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述题目内容提取装置还包括:
题型确定模块,用于根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
调整模块,用于当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。
7.一种可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3任一所述的方法。
8.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3任意一项所述的方法。
CN202010708727.0A 2020-07-22 2020-07-22 题目内容提取方法、装置、可读存储介质及计算机设备 Active CN111737949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010708727.0A CN111737949B (zh) 2020-07-22 2020-07-22 题目内容提取方法、装置、可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010708727.0A CN111737949B (zh) 2020-07-22 2020-07-22 题目内容提取方法、装置、可读存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111737949A CN111737949A (zh) 2020-10-02
CN111737949B true CN111737949B (zh) 2021-07-06

Family

ID=72657197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010708727.0A Active CN111737949B (zh) 2020-07-22 2020-07-22 题目内容提取方法、装置、可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111737949B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015903B (zh) * 2020-10-22 2021-01-22 广州华多网络科技有限公司 题目判重方法、装置、存储介质、计算机设备
CN112905860A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目条件替换的方法
CN116612491A (zh) * 2023-07-17 2023-08-18 中国电子科技集团公司第十研究所 一种arm麒麟word文件内容提取方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193906A (zh) * 2010-03-11 2011-09-21 北京商纳科技有限公司 Word格式试卷自动导入数据库***的方法
CN104199871A (zh) * 2014-08-19 2014-12-10 南京富士通南大软件技术有限公司 一种用于智慧教学的高速化试题导入方法
CN106802937A (zh) * 2016-12-30 2017-06-06 江苏中育优教科技发展有限公司 Word文档的转换方法及***
CN107463537A (zh) * 2016-06-03 2017-12-12 北京新唐思创教育科技有限公司 一种对文本信息进行结构化处理的方法
CN108228777A (zh) * 2017-12-28 2018-06-29 北京洪泰同创信息技术有限公司 HTML文本导出到word文档的方法及装置
CN108334479A (zh) * 2017-01-20 2018-07-27 北大方正集团有限公司 文档***方法和文档***装置
CN108595389A (zh) * 2018-04-25 2018-09-28 华中科技大学 一种将Word文档转换为txt纯文本文档的方法
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和***
CN109614598A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 文本录入方法及装置
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN111209728A (zh) * 2020-01-13 2020-05-29 深圳市企鹅网络科技有限公司 一种试题自动标注录入方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225482A1 (en) * 2010-03-15 2011-09-15 Wizpatent Pte Ltd Managing and generating citations in scholarly work
CN104267953A (zh) * 2014-09-27 2015-01-07 昆明钢铁集团有限责任公司 一种基于浏览器的Word试题导入控件与方法
CN105447206B (zh) * 2016-01-05 2017-04-05 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及***
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106844313A (zh) * 2017-02-20 2017-06-13 济南浪潮高新科技投资发展有限公司 一种将Word文件转换成HTML文件的方法和装置
CN108319724B (zh) * 2018-02-28 2019-04-09 北京仁和汇智信息技术有限公司 一种带公式文件的网页发布方法及装置
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109960804B (zh) * 2019-03-21 2023-05-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置
CN109947836B (zh) * 2019-03-21 2022-05-24 江西风向标教育科技有限公司 英语试卷结构化方法和装置
CN110472229B (zh) * 2019-07-11 2022-09-09 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110825872B (zh) * 2019-09-11 2023-05-23 成都数之联科技股份有限公司 一种提取和分类诉讼请求信息的方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193906A (zh) * 2010-03-11 2011-09-21 北京商纳科技有限公司 Word格式试卷自动导入数据库***的方法
CN104199871A (zh) * 2014-08-19 2014-12-10 南京富士通南大软件技术有限公司 一种用于智慧教学的高速化试题导入方法
CN107463537A (zh) * 2016-06-03 2017-12-12 北京新唐思创教育科技有限公司 一种对文本信息进行结构化处理的方法
CN106802937A (zh) * 2016-12-30 2017-06-06 江苏中育优教科技发展有限公司 Word文档的转换方法及***
CN108334479A (zh) * 2017-01-20 2018-07-27 北大方正集团有限公司 文档***方法和文档***装置
CN108228777A (zh) * 2017-12-28 2018-06-29 北京洪泰同创信息技术有限公司 HTML文本导出到word文档的方法及装置
CN108595389A (zh) * 2018-04-25 2018-09-28 华中科技大学 一种将Word文档转换为txt纯文本文档的方法
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和***
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN109614598A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 文本录入方法及装置
CN111209728A (zh) * 2020-01-13 2020-05-29 深圳市企鹅网络科技有限公司 一种试题自动标注录入方法

Also Published As

Publication number Publication date
CN111737949A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737949B (zh) 题目内容提取方法、装置、可读存储介质及计算机设备
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109685056B (zh) 获取文档信息的方法及装置
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
CN110825875B (zh) 文本实体类型识别方法、装置、电子设备和存储介质
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
CN111597908A (zh) 试卷批改方法和试卷批改装置
CN110705265A (zh) 合同条款风险识别方法以及装置
CN104199871B (zh) 一种用于智慧教学的高速化试题导入方法
CN113168498A (zh) 语言校正***及其方法以及***中的语言校正模型学习方法
CN111326040B (zh) 语文阅读理解智能测试和智能辅导***和方法
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、***及存储介质
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN110782892B (zh) 语音文本纠错方法
Shaikh et al. Automated grading for handwritten answer sheets using convolutional neural networks
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及***
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN107783958B (zh) 一种目标语句识别方法及装置
CN112686263A (zh) 文字识别方法、装置、电子设备及存储介质
CN112966518A (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、***及存储介质
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee after: Jiangxi wind vane Intelligent Technology Co.,Ltd.

Address before: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee before: JIANGXI VANEDUCATION TECHNOLOGY Inc.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Wenjuan

Inventor after: Xie Degang

Inventor before: Zheng Wenjuan