CN110362723B - 一种题目特征表示方法、装置及存储介质 - Google Patents

一种题目特征表示方法、装置及存储介质 Download PDF

Info

Publication number
CN110362723B
CN110362723B CN201910469110.5A CN201910469110A CN110362723B CN 110362723 B CN110362723 B CN 110362723B CN 201910469110 A CN201910469110 A CN 201910469110A CN 110362723 B CN110362723 B CN 110362723B
Authority
CN
China
Prior art keywords
vector
entity
word
entity vector
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910469110.5A
Other languages
English (en)
Other versions
CN110362723A (zh
Inventor
张家新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN201910469110.5A priority Critical patent/CN110362723B/zh
Publication of CN110362723A publication Critical patent/CN110362723A/zh
Application granted granted Critical
Publication of CN110362723B publication Critical patent/CN110362723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方案涉及人工智能,提供一种题目特征表示方法,包括:获取题目中的多个知识点,通过知识点之间的关系构成知识图谱:使用自定义词库来对文本内容进行数据清洗,使得文本内容仅保留存有在自定义词库中的词语;通过词向量算法将文本内容中的每个词转化成词向量;通过字符向量算法将公式转化成字符向量;通过卷积‑反卷积自编码器将图像转换为像素矩阵;将知识图谱的实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。本发明提取的题目的特征数据包含了文本、公式、图像、字符等全部信息,对于数学题目推荐和数学题目分类等都能够提高其精确度。

Description

一种题目特征表示方法、装置及存储介质
技术领域
本发明涉及人工智能领域,具体说,涉及一种题目特征表示方法、装置及存储介质。
背景技术
目前,题目特征提取中更多只是提取了题目中的文本内容,而对于知识点间的关系、图像里面的内容、公式中的内容并没有提取出来。而数学中通常存在大量的知识点,知识点间的语义关系可以有效地扩展题目的特征表示。然而这种语义关系难以被传统方法(话题模型、词向量)发掘出来。
发明内容
为解决以上技术问题,本发明提供一种题目特征表示方法,应用于电子装置,包括:
获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
通过字符向量算法将题目中的公式转化成字符向量;
通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有题目特征表示程序,所述题目特征表示程序被所述处理器执行时实现如下步骤:
获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
通过字符向量算法将题目中的公式转化成字符向量;
通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的题目特征表示方法。
本发明集合了知识点构成的实体向量、特定词语转换成的词向量、公式转化成字符向量、像素矩阵,并通过上下文实体来刻画实体向量。题目的特征数据包含了文本、公式、图像、字符等全部信息,对于数学题目推荐和数学题目分类等都能够提高其精确度。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的题目特征表示方法的流程图;
图2是表示本发明实施例的电子装置的硬件架构示意图;
图3是表示本发明实施例的题目特征表示程序的程序模块示意图;
图4是表示word2Vec方法的模型构成图。
具体实施方式
下面将参考附图来描述本发明所述的题目特征表示方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1示出本实施例中题目特征表示方法的流程图,该题目特征表示方法包括以下步骤:
步骤S1,获取题目中的多个知识点,通过知识点之间的关系构成知识图谱,并将构成知识图谱的各三元组转换为实体向量。其中,例如如下的题目中包括曲线、直角坐标系、参数方程、中点、坐标、斜率、直线、线段等知识点。
题目:
在直角坐标系XOY中,曲线C的参数方程为
Figure BDA0002080297840000031
直线l的参数方程为
Figure BDA0002080297840000032
若曲线C截直线l所得的线段的中点坐标为(1,2),求直线l的斜率。
知识图谱是由实体和关系构成的多关系图,进一步说,是由多个相互连接的三元组(头实体,关系,尾实体)的形式呈现。比如,中点和线段是有关联的,因为中点是线段上的一点。斜率和直线也是有关联的,曲线和坐标是有关联的。以上知识点之间的关联性在此不做详述。将各知识点作为实体,将各知识点之间的连线作为各知识点之间的关系。
可以采用TransE模型将各三元组生成实体向量。TransE模型将中间的关系向量看成是从头实体向量到尾实体向量的一个翻译过程,也就是说把头实体向量加上关系向量,使其尽可能地等于尾实体向量。通过机器学习的方式,通过不断调整、更新实体向量和关系向量的取值,使这些等式尽可能实现。从而获取到各知识点及其关系的低维向量表示。对应每个三元组,都分别输入到TransE模型,则会生成对应的实体向量。
步骤S2,使用自定义词库来对题目中的文本内容进行数据清洗,使得文本内容仅保留存有在自定义词库中的词语。数据清洗指过滤一些不太重要的字符号,使得非结构化数据结构化。使用自定义词库来对文本内容进行数据清洗,在自定义词库中包含有试题的一些专用词,像正数、负数、分数等,这些专用词在试题里面有特定的意义。采用自定义词库来比对,使得文本内容仅保留与自定义词库中匹配的词语。
步骤S3,通过词向量算法将经过数据清洗的文本内容中的每个词转化成词向量,例如,word2Vec方法。
Word2vec采用一个三层的神经网络模型(输入层-隐藏层-输出层),通过训练将每个词映射成实数向量。本实施例采用Word2vec中的CBOW算法,是通过训练根据上下文预测当前词的概率的方式,获得每个词对应的最优向量。
例如“若曲线C截直线l所得的线段的中点坐标”这句话,利用其上下文的词“曲线”、“C”、“截”,“l”、“所得的”、“线段”输入到经过训练的神经网络模型中,来预测中间的词是“直线”的概率,从而获得词“直线”对应的最优向量。
下面说明一下该神经网络模型的训练过程:其中,输入的每个词初始都随机分配有k维的向量(即one-hot编码),如图4所示,输入的词为Wt-2、Wt-1,、Wt+1、Wt+2,采用窗口在经过数据清洗的文本内容上滑动,输入层读入窗口内的词,将它们的向量加和在一起,形成隐藏层m个节点(其中隐藏层的节点数可以自由设置),这m个节点组成隐藏层向量WT
输出层是一个二叉树,叶节点数量与自定义词库中词的数量对应,根节点WG与隐藏层连接。在训练时,对于叶节点WY的每一个词,都会有一个唯一的编码(即one-hot编码)。隐藏层的每一个节点都与二叉树的内节点WN有连线,所以对于二叉树的每一个内节点WN都会有m条连线(未示出),每条连线上都设置有权值。每个内节点WN是代表某一类别向量,例如,运动、天气。
对于词“直线”,对应着二叉树的某个叶节点WY,即对应着一个one-hot编码。在训练阶段,当给定词“直线”的上下文,要预测中间的词“直线”对应的向量时,从二叉树的根节点WG开始遍历直到叶节点WY,每经过一个内节点WN,计算一个Logistic函数,所述Logistic函数为二分类模型,计算由输入的词向量之和形成的隐藏层向量是该内节点代表的类别的概率。例如,词“直线”对应的叶节点的唯一编码为“010011”,则从根节点遍历,在根节点希望隐藏层向量与对应的连线上的权值相乘得到的结果是字节为1的概率是0,而下一层的内节点希望隐藏层向量与对应的连线上的权值相乘是字节为1的概率是1,再下一层的内节点希望隐藏层向量与对应的连线上的权值相乘是字节为1的概率是0,依次直到最后一个编码“1”。
将隐藏层向量与经过的内节点对应的概率依次相乘,得到各个叶节点的词向量对应在上下文中的位置的概率,选取概率最大的叶节点对应的词作为在上下文中出现的词。使用梯度下降法训练神经网络模型得到所有权值,形成权值矩阵。将输入层的每个词的one-hot编码与权值矩阵相乘得到的向量的就是输入的词对应的词向量。通过以上操作即可得到想要获得的词向量。
步骤S4,通过字符向量算法将题目中的公式转化成字符向量,例如,char-CNN字符级卷积神经网络算法。具体说,先制作字符表(字符表的形式如下所示),然后对照字符表即可对应把字符转换成字符向量,所述字符表包含有字符以及与字符一一对应的数字。例如,cos θ对应的字符向量为[99 61 65116],从而形成多个字符向量。
Char("0")为0的字符
Char("1")为1的字符
Char("2")为2的字符
Char("3")为3的字符
Figure BDA0002080297840000051
Char("116")为θ的字符。
步骤S5,通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵。其中,卷积-反卷积自编码包括依次连接的三个卷积层、三个反卷积层,图像通过卷积、反卷积操作形成为像素矩阵。其中,卷积操作可以提取图像的特征,而反卷积则去除或减轻在获取特征过程中发生的图像质量下降问题,由提取的特征得到与原图像大小一样的图像。
其中,将卷积核的中心对准图像转换成的像素矩阵的第一个元素,然后和像素矩阵重叠的元素相乘,卷积核中不与像素矩阵重叠的地方用0代替,再将相乘后卷积核对应的元素相加,得到卷积后的结果矩阵中的第一个元素。卷积核沿像素矩阵横向、纵向以设定步长滑动,完成一次卷积。然后按照其余两次卷积设定的参数再进行两次卷积。
反卷积是将卷积层的输出作为输入,进行反卷积,也就是将卷积提取到的特征构成的特征图再放大回去,得到与原始输入图片一样大小的图片对应的像素矩阵。也就使得输入和输出的像素矩阵是对应的,从而实现端到端。反卷积过程中,从卷积核的右下角与图片的像素矩阵的左上角重叠开始进行卷积,设置滑动步长,卷积核的中心元素对应卷积后图像的像素点。而对于空位,则填充为0。步骤S6,将知识图谱的实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。其数据格式是(samples,channels,rows,cols),其中,samples指样本数量;channels指代不同的题目内容,例如,channels=0指实体(知识点),channels=2指文本,channels=3指公式,channels=4指图像;rows和cols是对应题目的不同内容形式的向量表示。
进一步地,TransE模型定义距离函数d(h+r,t)来衡量h+r与t之间的距离,采用最小化目标函数,使得距离函数d(h+r,t)最小,目标函数如下:
Figure BDA0002080297840000061
其中,h是三元组的头实体向量;
r是头实体向量和尾实体向量的关系向量;
t是三元组的尾实体向量;
h′是负样本的头实体,是随机生成的;
t′是负样本的尾实体,是随机生成的;
S是知识图谱中的三元组;
S′是负采样的三元组,通过替换h或t所得;
γ是取值大于0的间隔距离参数;
[x]+表示正值函数,x表示正值函数的变量,且x>0时,[x]+=x;当x≤0时,[x]+=0。
在一个可选实施例中,采用TransE模型来生成实体向量的过程中,对于每个实体向量,将上下文中涉及的各知识点所对应的实体向量采用加权平均或者加权求和的方式来表示该实体向量,加权平均对应的公式如下:
Figure BDA0002080297840000062
加权求和对应的公式如下:
Am=wm-kAm-k+…+wm-1Am-1+wm+1Am+1+…wm+nAm+n
其中,Am是TransE模型将知识图谱中的一个三元组转换成的实体向量;
Am-1是实体向量Am的上文中Am之前第一个实体向量;
wm-1是实体向量Am-1的权重系数;
k表示实体向量Am的上文中Am之前第k个实体向量;
Am+1是实体向量Am的下文中Am之后第一个实体向量;
wm+1是实体向量Am+1的权重系数;
n表示实体向量Am的下文中Am之后第n个实体向量。
在一个可选实施例中,根据用户检索的关键词采用词向量算法将每个关键词词转化成词向量,对于检索中输入的字符,则转化成字符向量,当用户输入的检索题目是图像形式时,先对图像进行光学字符识别,得到识别结果,形成像素矩阵,并且,对于用户输入的多个关键词,以关键词形成知识图谱,并以知识图谱为依据采用TransE模型形成实体向量,将根据用户输入信息形成的词向量、字符向量、像素矩阵、实体向量组合成检索信息矩阵,通过欧几里得距离计算题目信息矩阵与检索信息矩阵的距离,如果距离足够小于设定的阈值,则说明题库里的题目与用户输入的检索信息符合,则将该题目推荐给用户。
进一步地,可以比较两个题目信息矩阵的相似度,可以采用余弦相似度计算两个题目的题目信息矩阵的相似度,相似度高于相似度阈值则认定两个题目为重复的题目,并剔除其中一个题目。
进一步地,根据检索信息矩阵与题库中的所有题目的题目信息矩阵的距离来对符合检索需求的题目按照距离从低到高的顺序进行排列,以便用户能够优先查看最符合其检索结果的题目。
在一个可选实施例中,对于用户采用关键词、字符、图像形式中的一种形式进行检索,则仅根据对应的形式形成对应的向量,与题库里的数学题目的对应的向量类型计算相似度。例如,输入仅采用关键词的形式,关键词可以是例如积分、高阶等词语,则对应的,对于题库中的数学题目也仅利用其文字部分形成的词向量来判断是否匹配。
在一个可选实施例中,对于用户采用关键词、字符、图像形式中的两种形式或三种形式的情况,采用分级检索的方式来获取推荐题目。具体说,第一次检索,可以是优先采用其中一种方式对应的向量来进行相似度匹配,并根据匹配情况对推荐的数学题目按照相似度由高至低进行排序。同时,在推荐的题目当中,再以另一种方式对应的向量来进行相似度匹配,从而剔除一部分低于相似度阈值的题目,并根据匹配结果来调整推荐数学题目的排序。然后再以又一种方式对应的向量来进行相似度匹配,进一步剔除部分低于相似度阈值的题目,并根据匹配结果再调整推荐数学题目的排序。
然后,第二次检索,交换三种方式对应的向量的使用顺序,并按照新的顺序来分级检索,获得推荐数学题目。
然后,第三次检索,再交换三种方式对应的向量的使用顺序,并按照新的顺序来分级检索的方式获得推荐数学题目。
将三次分级检索的数学题目中共有的数学题目作为最优的数学题目推荐给用户。当然,为避免最终检索结果没有交集的情况,可以设置第一、第二、第三次检索中的排列在前位的几个检索结果显示出来。
在一个可选实施例中,还可以利用RNN中的GRU模型来提取上下文的实体的特征,从而输出更加精确的实体向量。具体说,从知识图谱中提取每个实体(即知识点)的特征,组成特征向量,将特征向量输入到GRU模型中,GRU模型的输出是多个三元组,每个三元组包括头实体、尾实体和关系。再将GRU模型的输出的多个三元组输入到TransE模型中。由于GRU模型考虑各知识点之间的上下文关系,则GRU模型的输出的每个三元组包含了更多的上下文的实体的特征,使得TransE模型创建的实体向量更加符合实体特征。
其中,GRU模型的公式如下:
zm=σ(fmtUmz+sm(t-1)Wmz)
rm=σ(fmtUmr+sm(t-1)Wmr)
hmt=tanh(fmtUmh+(sm(t-1)*rm)Wmh)
Fmt=tanh(hmtUmx+umx)
smt=(1-zm)*Fmt+zm*sm(t-1)
其中,zm是更新门,控制加入多少候选隐藏层hmt的信息;
rm是重置门,用来计算候选隐藏层hmt,控制保留多少前一时刻隐藏层sm(t-1)的信息;
hmt是候选隐藏层;
Umz、Umr、Umh、Umx、Wmz、Wmr、Wmh、权值矩阵;
umx为偏置;
fmt是t时刻的输入数据;
sm(t-1)是t-1时刻隐藏层神经元的激活值;
σ表示sigmoid激活函数;
tanh是激活函数;
smt是t时刻隐藏层神经元的激活值;
Fmt是隐藏层输出数据。
参阅图2所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图2所示,所述电子装置2至少包括,但不限于,可通过***总线相互通信连接的存储器21、处理器22。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作***和各类应用软件,例如所述题目特征表示程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的题目特征表示程序等。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图2仅示出了具有组件21-22的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作***、题目特征表示程序50等。处理器22执行存储器21中题目特征表示程序50时实现以上题目特征表示方法所述的步骤。在本实施例中,存储于存储器21中的所述题目特征表示程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述题目特征表示程序的程序模块示意图,该实施例中,所述题目特征表示程序50可以被分割为实体向量构建模块501、数据清洗模块502、词向量构建模块503、字符向量构建模块504、像素矩阵构建模块505、向量组合模块506。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述题目特征表示程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
其中,实体向量构建模块501用于获取题目中的多个知识点,通过知识点之间的关系构成知识图谱,并将构成知识图谱的各三元组转换为实体向量。
其中,数据清洗模块502使用自定义词库来对题目中的文本内容进行数据清洗,使得文本内容仅保留与自定义词库中相同的词语。
其中,词向量构建模块503用于通过词向量算法将经过数据清洗的文本内容中的每个词转化成词向量;
其中,字符向量构建模块504通过字符向量算法将题目中的公式转化成字符向量,例如,char-CNN字符级卷积神经网络算法。具体说,先制作字符表,字符表包括字符以及与字符一一对应的数字,然后对照字符表即可对应把字符转换成有数字组成的字符向量,例如,cos θ对应的字符向量为[99 61 65116],从而形成多个字符向量。
其中,像素矩阵构建模块505,用于通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵。其中,卷积-反卷积自编码包括依次连接的三个卷积层、三个反卷积层,图像通过卷积、反卷积操作形成为像素矩阵。
其中,向量组合模块506,用于将知识图谱的实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。其数据格式是(samples,channels,rows,cols),其中,samples指样本数量;channels指代不同的题目内容,例如,channels=0指实体(知识点),channels=2指文本,channels=3指公式,channels=4指图像;rows和cols是对应题目的不同内容形式的向量表示。
在一个可选实施例中,还包括上下文信息抽取模块507,用于对每个实体向量,将上下文中涉及的各知识点所对应的实体向量采用加权平均或者加权求和的方式来表示该实体向量。
在一个可选实施例中,还包括分级检索模块508,对于用户采用关键词、字符、图像形式中的两种形式或三种形式的,分级检索模块508采用分级检索的方式来获取推荐题目。具体说,第一次检索,可以是优先采用其中一种方式对应的向量来进行相似度匹配,并根据匹配情况对推荐的数学题目按照相似度由高至低进行排序。同时,在推荐的题目当中,再以另一种方式对应的向量来进行相似度匹配,从而剔除一部分低于相似度阈值的题目,并根据匹配结果来调整推荐数学题目的排序。然后再以又一种方式对应的向量来进行相似度匹配,进一步剔除部分低于相似度阈值的题目,并根据匹配结果再调整推荐数学题目的排序。
然后,第二次检索,交换三种方式对应的向量的使用顺序,并按照新的顺序来分级检索的方式来获得推荐数学题目。
然后第三次检索,再交换三种方式对应的向量的使用顺序,并按照新的顺序来分级检索的方式获得推荐数学题目。
将三次分级检索的数学题目中共有的数学题目作为最优的数学题目推荐给用户,将三种不同检索顺序检索出的题目再取交集,能够使得检索结果更加精确。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括题目特征表示程序,题目特征表示程序被处理器22执行时实现如下操作:
步骤S1,获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
步骤S2,使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
步骤S3,通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
步骤S4,通过字符向量算法将题目中的公式转化成字符向量;
步骤S5,通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
步骤S6,获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵。
本发明之计算机可读存储介质的具体实施方式与上述题目特征表示方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种题目特征表示方法,应用于电子装置,其特征在于,包括:
获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
通过字符向量算法将题目中的公式转化成字符向量;
通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵,
获取所述知识图谱的实体向量的方法是:所述知识图谱包括多个相互连接的三元组,各三元组采用TransE模型来生成实体向量,
采用TransE模型来生成实体向量的过程中,对于每个实体向量,将上下文中涉及的各知识点所对应的实体向量采用加权平均或者加权求和的方式来表示该实体向量,其对应的公式如下:
Figure FDA0003648090650000011
Am=wm-kAm-k+…+wm-1Am-1+wm+1Am+1+…wm+nAm+n
其中,Am是TransE模型将知识图谱中的一个三元组转换成的实体向量;
Am-1是实体向量Am的上文中Am之前第一个实体向量;
wm-1是实体向量Am-1的权重系数;
Am-k表示实体向量Am的上文中Am之前第k个实体向量;
Am+1是实体向量Am的下文中Am之后第一个实体向量;
wm+1是实体向量Am+1的权重系数;
Am+n表示实体向量Am的下文中Am之后第n个实体向量。
2.根据权利要求1所述的题目特征表示方法,其特征在于,
所述TransE模型定义距离函数d(h+r,t)来调整h+r与t之间的距离,采用最小化目标函数,使得距离函数d(h+r,t)最小,目标函数如下:
Figure FDA0003648090650000021
其中,h是三元组的头实体;
r是头实体和尾实体的关系;
t是三元组的尾实体;
h'是负样本的头实体,是随机生成的;
t'是负样本的尾实体,是随机生成的;
S是知识图谱中的三元组;
S'是负采样的三元组,通过替换h或t所得;
γ是取值大于0的间隔距离参数;
[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0。
3.根据权利要求1所述的题目特征表示方法,其特征在于,
通过字符向量算法将题目中的公式转化成字符向量的方法是:对照自定义的字符表把字符转换成字符向量,从而形成多个字符向量,所述字符表包括字符以及与字符一一对应的数字。
4.根据权利要求1所述的题目特征表示方法,其特征在于,所述方法还包括题目推荐步骤:
根据用户检索的输入信息形成检索信息矩阵,通过欧几里得距离方法计算题目信息矩阵与检索信息矩阵的欧几里得距离,将欧几里得距离小于设定的阈值的题目推荐给用户。
5.根据权利要求4所述的题目特征表示方法,其特征在于,所述方法还包括重复题目剔除步骤:
比较两个题目的题目信息矩阵的余弦相似度,余弦相似度高于相似度阈值则认定两个题目为重复的题目,并剔除其中一个题目。
6.根据权利要求4所述的题目特征表示方法,其特征在于,
对所述欧几里得距离小于设定的阈值的题目按照欧几里得距离从低到高的顺序进行排列。
7.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有题目特征表示程序,所述题目特征表示程序被所述处理器执行时实现如下步骤:
获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
通过字符向量算法将题目中的公式转化成字符向量;
通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵,
获取所述知识图谱的实体向量的方法是:所述知识图谱包括多个相互连接的三元组,各三元组采用TransE模型来生成实体向量,
采用TransE模型来生成实体向量的过程中,对于每个实体向量,将上下文中涉及的各知识点所对应的实体向量采用加权平均或者加权求和的方式来表示该实体向量,其对应的公式如下:
Figure FDA0003648090650000031
Am=wm-kAm-k+…+wm-1Am-1+wm+1Am+1+…wm+nAm+n
其中,Am是TransE模型将知识图谱中的一个三元组转换成的实体向量;
Am-1是实体向量Am的上文中Am之前第一个实体向量;
wm-1是实体向量Am-1的权重系数;
Am-k表示实体向量Am的上文中Am之前第k个实体向量;
Am+1是实体向量Am的下文中Am之后第一个实体向量;
wm+1是实体向量Am+1的权重系数;
Am+n表示实体向量Am的下文中Am之后第n个实体向量。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1-6任一项所述的题目特征表示方法。
CN201910469110.5A 2019-05-31 2019-05-31 一种题目特征表示方法、装置及存储介质 Active CN110362723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910469110.5A CN110362723B (zh) 2019-05-31 2019-05-31 一种题目特征表示方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910469110.5A CN110362723B (zh) 2019-05-31 2019-05-31 一种题目特征表示方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110362723A CN110362723A (zh) 2019-10-22
CN110362723B true CN110362723B (zh) 2022-06-21

Family

ID=68215444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910469110.5A Active CN110362723B (zh) 2019-05-31 2019-05-31 一种题目特征表示方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110362723B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852071B (zh) * 2019-11-08 2023-10-24 科大讯飞股份有限公司 知识点检测方法、装置、设备及可读存储介质
CN110889290B (zh) * 2019-11-13 2021-11-16 北京邮电大学 文本编码方法和设备、文本编码有效性检验方法和设备
CN111444339B (zh) * 2020-02-29 2024-05-03 平安国际智慧城市科技股份有限公司 文本题目难度标注方法、装置及计算机可读存储介质
CN111475645B (zh) * 2020-03-17 2024-04-30 平安国际智慧城市科技股份有限公司 知识点标注方法、装置及计算机可读存储介质
CN111241412B (zh) * 2020-04-24 2020-08-07 支付宝(杭州)信息技术有限公司 一种确定用于信息推荐的图谱的方法、***、及装置
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法
CN112989058B (zh) * 2021-05-10 2021-09-07 腾讯科技(深圳)有限公司 信息分类方法、试题分类方法、设备、服务器和存储介质
CN113282723A (zh) * 2021-05-21 2021-08-20 上海伯禹信息科技有限公司 基于图神经网络的深度知识追踪预训练方法
CN115438624B (zh) * 2022-11-07 2023-03-24 江西风向标智能科技有限公司 数学题目出题意图识别方法、***、存储介质及设备
CN117216132B (zh) * 2023-11-09 2024-02-23 厦门达宸信教育科技有限公司 一种数学试题相似性判断方法、***和应用
CN117557425B (zh) * 2023-12-08 2024-04-16 广州市小马知学技术有限公司 基于智慧题库***的题库数据优化方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108197137A (zh) * 2017-11-20 2018-06-22 广州视源电子科技股份有限公司 文本的处理方法、装置、存储介质、处理器和终端
CN108376132A (zh) * 2018-03-16 2018-08-07 中国科学技术大学 相似试题的判定方法及***
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109635100A (zh) * 2018-12-24 2019-04-16 上海仁静信息技术有限公司 一种相似题目的推荐方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN107301163A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 包含公式的文本语义解析方法及装置
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108197137A (zh) * 2017-11-20 2018-06-22 广州视源电子科技股份有限公司 文本的处理方法、装置、存储介质、处理器和终端
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108376132A (zh) * 2018-03-16 2018-08-07 中国科学技术大学 相似试题的判定方法及***
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109635100A (zh) * 2018-12-24 2019-04-16 上海仁静信息技术有限公司 一种相似题目的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110362723A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
Patel Hands-on unsupervised learning using Python: how to build applied machine learning solutions from unlabeled data
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
Chi et al. Splitting methods for convex clustering
Verdonck et al. Special issue on feature engineering editorial
Li et al. Discourse parsing with attention-based hierarchical neural networks
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
US11288324B2 (en) Chart question answering
CN110555112A (zh) 一种基于用户正负偏好学习的兴趣点推荐方法
US11562203B2 (en) Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
Bautista et al. Minimal design of error-correcting output codes
CN111476038B (zh) 长文本生成方法、装置、计算机设备和存储介质
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
Garreta et al. Scikit-learn: machine learning simplified: implement scikit-learn into every step of the data science pipeline
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
Simske Meta-analytics: consensus approaches and system patterns for data analysis
CN117077679A (zh) 命名实体识别方法和装置
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
Song et al. Sequential learning for cross-modal retrieval
WO2021115115A1 (en) Zero-shot dynamic embeddings for photo search
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant