CN114443813B

CN114443813B - 一种智能化的在线教学资源知识点概念实体链接方法

Info

Publication number: CN114443813B
Application number: CN202210018754.4A
Authority: CN
Inventors: 袁新瑞; 王雨扬
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2022-01-09
Filing date: 2022-01-09
Publication date: 2024-04-09
Anticipated expiration: 2042-01-09
Also published as: CN114443813A

Abstract

一种智能化的在线教学资源知识点概念实体链接方法，知识点概念实体识别模型和知识点概念链接模型，由于应用场景主要面向国内在线学习平台中的教学资源组织管理，国内的教学基本为中文教学，因此仅适用于中文语言文本，兼容部分英文文本。知识点概念实体识别是要从教学资源文本中抽取出包含的知识点概念实体词汇，学科、专业术语和历史事件等，抽取出的知识点概念实体称之为知识点提及；知识点概念关联指，根据所抽取出的知识点概念提及以及其所处的上下文语境，从知识库中找出语义相似度最高的概念知识，进行关系。通过知识点概念实体识别和知识点概念链接，实现教学资源之间与知识点概念之间的关联，达到了构建以概念知识为核心的教学资源组织体系目的。

Description

一种智能化的在线教学资源知识点概念实体链接方法

技术领域

本发明涉及智能教育，具体涉及一种智能化的在线教学资源知识点概念实体链接方法。

背景技术

传统的教学资源库中承载着大量的学***台上的使用人数越来越多，为了满足不同用户对于资源的不同需求，平台中的教学资源数量和类型也在不断增加。在实践中，伴随教学资源数量的增加以及内容的多元化，学***台上搜寻和选择自身所需要的学***台中的学习效率也在逐渐降低，严重影响了学习者的学习质量和学习的主动性。

知识图谱作为一种能够有效结构化人类知识的手段，已成为了推动互联网和人工智能发展的核心驱动力。自适应学习***中的教学资源库同样可以借助知识图谱技术，构建以知识为核心的教学资源体系。教学资源可以通过与概念知识点进行关联，能够有效地对教学资源体系进行组织，为自适应学习***赋能。

在线教学资源中已有的知识点概念标注和关联，均通过教师手工的方式进行录入。但手工录入的方式会耗费大量的时间和精力，且教师所提供的知识点概念大多是粗粒度的，忽略了教学资源中出现的细粒度知识点概念，知识点概念标注不够全面，学习者无法直观地了解课程内容细节。为解决上述问题，需要一种智能化的方法或工具，准确地对在线教学资源中的知识点概念实体进行识别和关联。目前，仅有一些研究人员对此开展部分相关工作，主要是通过统计学习的手段实现对教学资源中的关键短语和术语进行抽取。但是，这些研究进展还远不足以解决上述的关键问题。

随着知识图谱和自然语言处理领域的发展，实体链接技术可以充分解决上述的问题。实体链接技术是将文本中的提及进行识别，并链接至知识库中的相应实体。现有的实体链接方法大多是面向开放领域，即识别出文本语料中的人名、地名、组织和时间等关键实体词汇，并链接至知识库(如：百度百科，***等)中的对应词条上。目前，已有比较成熟的实体链接工具，如：Wikify！,，AIDA,DBpedia Spotlight,TagMe以及Linkify等。这些实体链接***主要由两部分组成，实体提及检测和实体链接。虽然上述的实体链接***已经开发的较为成熟，但仍存在一定的不足。在实体提及检测上，上述的***主要依赖于已有的命名实体识别(NER)工具，如Stanza，Jieba和SnowNLP等，这些工具已经能够达到较为可观的实体识别准确率，但仅能识别三种实体类别：人物、地点和组织。

与开放领域中的实体链接任务不同的是，教学资源知识点概念链接是要将教学资源中涉及的概念实体进行抽取并关联，不是对所有的实体如：地名实体、人物实体和时间实体等进行抽取和关联，因此现有的实体链接工具不适用于教学资源中的知识点概念链接。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种智能化的在线教学资源知识点概念实体链接方法，基于自然语言处理模型Bert，同时结合文本数据增强技术，对教学资源中涵盖的知识点概念抽取和链接。实现教学资源之间与概念知识之间的关联，最终构建以知识点概念为核心的教学资源组织体系。

为了实现上述目的，本发明采用的技术方案是：

一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，包括以下步骤：

1)首先对字符串进行字符串清洗的预处理过程，字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集，将该字符集标注为S，若不在该字符集S中，则将该字符移除；

2)模型需要对清洗后的字符串C＝{c₁,c₂,......,c_l}中的各个元素通过”BIO”标注机制进行序列标注，当一个字符c_i被标注为”B”时，代表字符c_i为某个知识点概念词汇实体的首个字符，”I”为个知识点概念词汇实体的中间字符，”O”为非知识点概念词汇字符，最终得到文本数据；

3)文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict，使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹配，找出字符串中包含的词典词汇，所匹配到的字符子串均以“BIEO”机制进行标注，即若匹配到的字符子串为C_sub＝{c_i,c_i+1,……,c_i+m}，C_sub∈Dict，对子串中的起始字符c_i标注为”B”，结束字符c_i+m标注为”E”，起始字符c_i和结束字符c_i+m之间的字符串{c_i+1,c_i+2,…,c_i+m-1}包含的字符全部标注为”I”，未匹配到的其它字符标注为”O”，通过这种机制，可以得到一串带标注的字符串,并添加起始字符“[CLS]”和结束字符“[SEP]”S＝{s_[CLS],s₁,s₂,……,s_[SEP]}，其中每个元素s_i由字符串C中相应索引位置的字符c_i和标注字符组成；

4)将上述得到带标注的字符串S进行向量空间嵌入操作Embedding(S)，即将S中的每个元素s_i表征为一个维度为d_s的高维向量，其向量中的数值均使用KaiMing分布随机初始化，嵌入后的序列向量为

5)通过上述操作得到的序列向量E_S包含了知识点概念词汇的边界信息，将对字符串C中所包含的上下文语义信息进行表征，使用的是预训练的神经网络语言模型Bert，预训练模型指已在大规模通用文本数据训练后的模型，将预训练的语言模型Bert作为语义编码器，能够有效地将文本序列表征为高维向量，将清洗后的字符串C作为预训练Bert语言模型的输入，Bert模型是以字符为单位对字符串C进行计算，对于输入的字符串C＝{c₁,c₂,......,c_l}，Bert模型会首先在字符串的起始位置之前和末尾位置之后分别***标识符“[CLS]”和“[SEP]”，即字符串{"[CLS]",c₁,c₂,......,c_l,"[SEP]"}作为模型的计算数据；

6)通过上述Bert模型的得到的输出向量F即为字符串C的编码向量，接下来将结合带有概念知识点词汇边界信息的序列向量E_S，并通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体；将预测标签序列上相应的子串进行提取，可以得到知识点概念提及实体；

7)知识点概念实体链接模型是将抽取出的知识点概念提及实体M＝{m₁,m₂,.......,m_k}与知识库中的知识点实体进行匹配和关联，基于Levenshtein Distance字符串模糊匹配算法的候选知识点概念实体生成，将当前的提及实体m_i与知识库中的知识点概念词汇进行模糊匹配，通过设定模糊匹配算法中的编辑距离参数Distance，将匹配到的编辑距离大于Distance的知识点概念词汇进行过滤，生成候选知识点概念实体集

8)通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行编码，获取用于表征候选知识点概念实体的向量，对于一个候选知识点概念实体entity_i，其相应的摘要描述为字符串作为Bert模型的输入，Bert模型编码后的输出向量为/>将标识符”CLS”相应的隐含向量h_cls，通过激活函数为tanh的全连接层，得到输出向量/>作为候选知识点概念实体的表征向量，即/> 通过这种方式，可以获得候选知识点概念实体集的表征向量集合/>

9)对于每个提及知识点概念m_i的表征，首先通过预训练Bert模型对提及知识点概念所位于的课程文本C＝{c₁,c₂,......,c_l}进行编码，获取课程文本的表征向量V_C，获取表征向量V_C的方式与候选知识点概念实体的表征向量方法相同；

10)课程文本中每个字符通过Bert模型计算后的编码向量为H_C＝{h_cls,h₁,h₂,......,h_l,h_sep}，对于所抽取的提及知识点概念m_i，其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中，beg表示子串在C中的起始位置索引，end表示子串在C中的结束位置索引。将编码向量H_C中提取/>中起始位置索引beg与结束位置索引end之间的编码向量，表示为/>将/>通过文本卷积网络TextCNN，得到提及知识点概念实体的表征向量/>TextCNN模型对于输入/>的计算，将课程文本的表征向量V_C与提及知识点概念实体的表征向量/>进行Concatenate拼接操作，并经过一个激活函数为tanh的全连接层，得到输出向量/>即

11)将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合/>中的每个向量进行cos相似度计算，即/>从候选知识点概念实体集/> 选择选择相似度最高的知识点概念与提及知识点概念进行关联，即最后的关联结果可以表示为一个二元组/>

12)输入课程文本中所包含的知识点概念链接结果为完成对教学资源之间与知识库中知识点概念之间的关联。

所述的知识点概念实体识别模型的输入是一段文本字符串X＝{x₁,x₂,......,x_n}，X由n个字符构成，x_i为X的第i个字符，该文本字符串可来自于课程视频字幕或电子教材文本等。

所述的字符串清洗的预处理方法的实现主要通过Unicode编码表实现，当一个字符x_i的Unicode编码位于\u4e00和\u9fa5之间时，即/>字符x_i为中文字符。同理，当/> 时，字符x_i为数字字符；当/> 或/>时，字符x_i为英文字符，Unicode编码为上述编码范围之外的字符全部进行删除，完成字符串的清洗过程，清洗后的字符串C＝{c₁,c₂,......,c_l}，清洗后的字符串长度l≤n。

所述的Bert模型对于字符串的计算主要有以下几个步骤：

字符嵌入操作：将待计算的字符串{"[CLS]",c₁,c₂,......,c_l,"[SEP]"}中的每个字符通过嵌入操作(Embedding)，将字符串的每个字符表征为一个d维的字符向量，嵌入后的字符串向量为

融入位置信息编码：为了获得文本数据的序列特征，Bert模型使用sin和cos机制对字符串向量E_c中的每个元素的位置索引进行编码。即对于第pos个位置上的元素，其中d_i为每个元素中的维度位置，1≤d_i≤d，当d_i为偶数时使用sin函数进行转换，d_i为奇数时使用cos函数进行转换，得到位置编码向量每个元素p为一个d维的向量，其相应的位置编码公式如下：

基于点积缩放的自注意力机制：将上述计算获得的字符串向量E_c和位置编码向量P进行相加，得到自注意力机制的输入向量Z＝{z_cls,z₁,......,z_l,z_sep}。自注意力机制主要通过点积缩放的方法捕获序列中每两个元素之间的关联度，两个元素之间的关联程度越高，其计算结果的数值就越大。自注意力机制的计算公式如下，其中输入均为向量Z与其相应的权重参数W进行相乘，即Q＝ZW^Q,K＝ZW^K,V＝ZW^V,d为输入的向量维度：

多头自注意力机制：为了充分考虑上述经缩放点积计算后的来自不同独立子空间的信息，将经过h次缩放点积计算的向量，即h个自注意力头进行拼接Concate后，再进行一个线性变换，计算公式如下，其中W^O为一个可训练的参数矩阵：

MultiHead(Q,K,V)＝Concate(head₁,……,head_h)W^O

前馈网络层：各字符元素在经过多头注意力计算后的结果M＝MultiHead(Q,K,V)，仍然是一个只经过线性变换后的结果，为了充分考虑不同潜在维度下的信息之间的相互影响，将具有非线性变换的前馈网络层整合进模型中，前馈网络层的计算方式如下，其中均为可训练的参数矩阵:

F＝FFN(Z)＝ReLU(ZW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾。

所述的通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体；其主要流程如下：

特征向量融合：特征融合主要是将带有语义特征的编码向量F和带有知识点概念词汇边界信息的序列向量E_S进行Concate拼接，并通过一个权重参数矩阵W进行线性变换，得到融合后的向量V＝{v_cls,v₁,v₂,......,v_l,v_sep}，其公式如下：

V＝Concate(F,E_S)W

LSTM模型编码：LSTM模型是循环神经网络(RNN)的一个变体，，比RNN模型具有更加强大的预测效果。在计算第i个元素时可以充分结合前i-1个元素的向量信息，LSTM模型对于每个时间步t下元素的计算过程如下：

z_t＝σ(W_i*[h_t-1,v_t])

r_t＝σ(W_r*[h_t-1,v_t])

其中，σ为sigmoid函数，·为点积相乘运算符，v_t为融合后的向量V中的第t个元素，h_t为隐含状态向量，即v_t的相应输出，向量V经过LSTM模型后的输出为H＝{h₁,h₂,.....,h_T}，其中T＝l+2。

CRF模型预测层：模型预测层是LSTM模型输出的隐含向量进行判断，由一个全连接层和一个CRF层组成。首先，LSTM模型输出的隐含状态向量H＝{h₁,h₂,.....,h_T}通过一个全连接层进行线性变换，得到每个字符对应各类别标签的得分，即每个标签的得分l_score_i＝[score₁,score₂,score₃]包含三个元素，其中score₁表示预测当前字符为”B”的概率得分，score₂表示预测当前字符为”I”的概率得分，score₃表示预测当前字符为”O”的概率得分。字符串中各字符预测标签的概率得分集合为L_Score＝{l_score_cls,l_score₁,l_score_2,,......,l_score_l,l_score_sep}，将字符串的得分集合作为CRF层的输入。CRF层可以将输入的得分集合作为Emission得分矩阵，对标签进行建模，计算标签类别之间的得分转移矩阵T，表示从一个标签到另外一个标签的转换概率，以挖掘标签类别之间的依赖关系，计算出字符串的序列得分Scores(H)，通过维特比算法对得分序列Scores(H)进行解码得到预测的标签序列将Bert模型携带的起始标识符”CLS”和终止标识符”SEP”相应的预测标签进行去除，得到字符串的预测标签序列结果/>将预测标签序列上相应的子串进行提取，可以得到知识点概念提及实体M＝{m₁,m₂,.......,m_k}。

所述的将抽取出的知识点概念提及实体M＝{m₁,m₂,.......,m_k}与知识库中的知识点实体进行匹配和关联，主要步骤有：1、使用Levenshtein Distance字符串模糊匹配算法对每个提及实体m_i进行模糊搜索，从知识库中选择可能匹配的候选知识点实体集；2、对提及实体m_i和候选实体同样通过Bert模型进行上下文语义表征，得到上下文语义表征向量；3、通过cos函数对提及知识点实体与每个候选实体的上下文语义表征向量进行相似度计算，相似度最高的候选知识点实体即为链接的知识点概念。

所述的TextCNN模型对于输入的计算步骤如下：

1、定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算，捕捉相邻字符的相关性。

2、对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值拼接，即为表征向量。

本发明的有益效果是：

本专利的技术框架主要包含两个主要部分：知识点概念实体识别模型和知识点概念链接模型，由于本专利的应用场景主要面向国内在线学习平台中的教学资源组织管理，国内的教学基本为中文教学，因此仅适用于中文语言文本，兼容部分英文文本。知识点概念实体识别是要从教学资源文本中抽取出包含的知识点概念实体词汇，如：学科、专业术语和历史事件等，抽取出的知识点概念实体称之为知识点提及；知识点概念关联指，根据所抽取出的知识点概念提及以及其所处的上下文语境，从知识库中找出语义相似度最高的概念知识，进行关系。通过知识点概念实体识别和知识点概念链接，实现教学资源之间与知识点概念之间的关联，达到了构建以概念知识为核心的教学资源组织体系目的。

附图说明

图1为本发明的工作原理图。

图2为本发明的原理图。

具体实施方式

以下结合附图对本发明进一步叙述。

如图1、2所示，知识点概念实体识别模型

知识点概念实体识别模型的输入是一段文本字符串X＝{x₁,x₂,......,x_n}，X由n个字符构成，x_i为X的第i个字符，该文本字符串可来自于课程视频字幕或电子教材文本等。

首先对字符串进行字符串清洗的预处理过程，字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集，将该字符集标注为S，若不在该字符集S中，则将该字符移除；该方法的实现主要通过Unicode编码表实现，当一个字符x_i的Unicode编码位于\u4e00和\u9fa5之间时，即/>字符x_i为中文字符。同理，当时，字符x_i为数字字符；当/> 或/>时，字符x_i为英文字符。Unicode编码为上述编码范围之外的字符全部进行删除，完成字符串的清洗过程，清洗后的字符串C＝{c₁,c₂,......,c_l}，清洗后的字符串长度l≤n。接下来，模型需要对清洗后的字符串C＝{c₁,c₂,......,c_l}中的各个元素通过”BIO”标注机制进行序列标注，当一个字符c_i被标注为”B”时，代表字符c_i为某个知识点概念词汇实体的首个字符，”I”为个知识点概念词汇实体的中间字符，”O”为非知识点概念词汇字符。

由于知识点概念词汇通常在教学文本中出现的词频较低，且其概念词汇的字符串长度相差较大，传统基于字符级的实体识别模型难以识别知识点概念实体的文本边界，知识点概念实体很难被完整识别。本专利使用了文本数据增强的方法，并结合Bert语言模型以提高知识点概念实体识别模型的准确率。

文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict，本专利使用的外部知识库是学术在线提供的学科知识库。使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹配，找出字符串中包含的词典词汇。所匹配到的字符子串均以“BIEO”机制进行标注，即若匹配到的字符子串为C_sub＝{c_i,c_i+1,……,c_i+m}，C_sub∈Dict，对子串中的起始字符c_i标注为”B”，结束字符c_i+m标注为”E”，起始字符c_i和结束字符c_i+m之间的字符串{c_i+1,c_i+2,.....,c_i+m-1}包含的字符全部标注为”I”，未匹配到的其它字符标注为”O”。通过这种机制，可以得到一串带标注的字符串，并添加起始字符“[CLS]”和结束字符“[SEP]”S＝{s₁,s₂,……,s_l}，其中每个元素s_i由字符串C中相应索引位置的字符c_i和标注字符组成。

将上述得到带标注的字符串S进行向量空间嵌入操作Embedding(S)，即将S中的每个元素s_i表征为一个维度为d_s的高维向量，其向量中的数值均使用KaiMing分布随机初始化，嵌入后的序列向量为

通过上述操作得到的序列向量E_S包含了知识点概念词汇的边界信息，接下来将对字符串C中所包含的上下文语义信息进行表征。本专利使用的是预训练的神经网络语言模型Bert，预训练模型指已在大规模通用文本数据训练后的模型。本专利将预训练的语言模型Bert作为语义编码器，能够有效地将文本序列表征为高维向量。

将清洗后的字符串C作为预训练Bert语言模型的输入，Bert模型是以字符为单位对字符串C进行计算。对于输入的字符串C＝{c₁,c₂,......,c_l}，Bert模型会首先在字符串的起始位置之前和末尾位置之后分别***标识符“[CLS]”和“[SEP]”，即字符串{"[CLS]",c₁,c₂,......,c_l,"[SEP]"}作为模型的计算数据。Bert模型对于字符串的计算主要有以下几个步骤：

MultiHead(Q,K,V)＝Concate(head₁,……,head_h)W^O

F＝FFN(Z)＝ReLU(ZW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾

通过上述Bert模型的得到的输出向量F即为字符串C的编码向量，接下来将结合带有概念知识点词汇边界信息的序列向量E_S，并通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体，其主要流程如下：

V＝Concate(F,E_S)W

z_t＝σ(W_i*[h_t-1,v_t])

r_t＝σ(W_r*[h_t-1,v_t])

一.知识点概念实体链接模型

知识点概念实体链接模型是将抽取出的知识点概念提及实体M＝{m₁,m₂,.......,m_k}与知识库中的知识点实体进行匹配和关联，主要步骤有：1、使用Levenshtein Distance字符串模糊匹配算法对每个提及实体m_i进行模糊搜索，从知识库中选择可能匹配的候选知识点实体集；2、对提及实体m_i和候选实体同样通过Bert模型进行上下文语义表征，得到上下文语义表征向量；3、通过cos函数对提及知识点实体与每个候选实体的上下文语义表征向量进行相似度计算，相似度最高的候选知识点实体即为链接的知识点概念。

基于Levenshtein Distance字符串模糊匹配算法的候选知识点概念实体生成，将当前的提及实体m_i与知识库中的知识点概念词汇进行模糊匹配，通过设定模糊匹配算法中的编辑距离参数Distance，将匹配到的编辑距离大于Distance的知识点概念词汇进行过滤，生成候选知识点概念实体集

在外部知识库中，对于每一个知识点概念词汇都有其相应的摘要文本描述。本专利通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行编码，获取用于表征候选知识点概念实体的向量。对于一个候选知识点概念实体entity_i，其相应的摘要描述为字符串作为Bert模型的输入。Bert模型编码后的输出向量为将标识符”CLS”相应的隐含向量h_cls，通过激活函数为tanh的全连接层，得到输出向量/>作为候选知识点概念实体的表征向量，即/> 通过这种方式，可以获得候选知识点概念实体集的表征向量集合/>

对于每个提及知识点概念m_i的表征，首先通过预训练Bert模型对提及知识点概念所位于的课程文本C＝{c₁,c₂,......,c_l}进行编码，获取课程文本的表征向量V_C，获取表征向量V_C的方式与候选知识点概念实体的表征向量方法相同。

课程文本中每个字符通过Bert模型计算后的编码向量为H_C＝{h_cls,h₁,h₂,......,h_l,h_sep}，对于所抽取的提及知识点概念m_i，其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中，beg表示子串在C中的起始位置索引，end表示子串在C中的结束位置索引。将编码向量H_C中提取/>中起始位置索引beg与结束位置索引end之间的编码向量，表示为/>将/>通过文本卷积网络TextCNN，得到提及知识点概念实体的表征向量/>TextCNN模型对于输入/>的计算步骤如下：

3、定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算，捕捉相邻字符的相关性。

4、对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值拼接，即为表征向量。

最后，将课程文本的表征向量V_C与提及知识点概念实体的表征向量进行Concatenate拼接操作，并经过一个激活函数为tanh的全连接层，得到输出向量/>即

将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合/>中的每个向量进行cos相似度计算，即/>从候选知识点概念实体集选择选择相似度最高的知识点概念与提及知识点概念进行关联，即最后的关联结果可以表示为一个二元组/>

输入课程文本中所包含的知识点概念链接结果为完成对教学资源之间与知识库中知识点概念之间的关联。/>

Claims

1.一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，包括以下步骤：

1)首先对字符串进行字符串清洗的预处理过程，字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集，若不在该字符集中，则将该字符移除；

2)模型需要对清洗后的字符串C＝{c₁，c₂，......，c_l}中的各个元素通过”BIO”标注机制进行序列标注，当一个字符c_i被标注为”B”时，代表字符c_i为某个知识点概念词汇实体的首个字符，”I”为个知识点概念词汇实体的中间字符，”O”为非知识点概念词汇字符，最终得到文本数据；

3)文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict，使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹配，找出字符串中包含的词典词汇，所匹配到的字符子串均以“BIEO”机制进行标注，即若匹配到的字符子串为C_sub＝{c_i，c_i+1，......，c_i+m}，C_sub∈Dict，对子串中的起始字符c_i标注为“B”，结束字符c_i+m标注为“E”，起始字符c_i和结束字符c_i+m之间的字符串{c_i+1，c_i+2，......，c_i+m-1}包含的字符全部标注为”I”，未匹配到的其它字符标注为“O”，通过这种机制，可以得到一串带标注的字符串同时添加起始字符“[CLS]”和结束字符“[SEP]”，S＝{s_[CLS]，s₁，s₂，......，s_l，S_[SEP]}，其中每个元素s_i由字符串C中相应索引位置的字符c_i和标注字符组成；

5)通过上述操作得到的序列向量E_S包含了知识点概念词汇的边界信息，将对字符串C中所包含的上下文语义信息进行表征，使用的是预训练的神经网络语言模型Bert，预训练模型指已在大规模通用文本数据训练后的模型，将预训练的语言模型Bert作为语义编码器，能够有效地将文本序列表征为高维向量，将清洗后的字符串C作为预训练Bert语言模型的输入，Bert模型是以字符为单位对字符串C进行计算，对于输入的字符串C＝{c₁，c₂，......，c_l}，Bert模型会首先在字符串的起始位置之前和末尾位置之后分别***标识符”[CLS]”和”[SEP]”，即字符串{″[CLS]″，c₁，c₂，......，c_l，″[SEP]″}作为模型的计算数据；

7)知识点概念实体链接模型是将抽取出的知识点概念提及实体M＝{m₁，m₂，......，m_k}与知识库中的知识点实体进行匹配和关联，基于Levenshtein Distance字符串模糊匹配算法的候选知识点概念实体生成，将当前的提及实体m_i与知识库中的知识点概念词汇进行模糊匹配，通过设定模糊匹配算法中的编辑距离参数Distance，将匹配到的编辑距离大于Distance的知识点概念词汇进行过滤，生成候选知识点概念实体集

9)对于每个提及知识点概念m_i的表征，首先通过预训练Bert模型对提及知识点概念所位于的课程文本C＝{c₁，c₂，......，c_l}进行编码，获取课程文本的表征向量V_C，获取表征向量V_C的方式与候选知识点概念实体的表征向量方法相同；

10)课程文本中每个字符通过Bert模型计算后的编码向量为H_C＝{h_cls，h₁，h₂，......，h_l，h_sep}，对于所抽取的提及知识点概念m_i，其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中，beg表示子串在C中的起始位置索引，end表示子串在C中的结束位置索引，将编码向量H_C中提取/>中起始位置索引beg与结束位置索引end之间的编码向量，表示为/>将/>通过文本卷积网络TextCNN，得到提及知识点概念实体的表征向量/>TextCNN模型对于输入/>的计算，将课程文本的表征向量V_C与提及知识点概念实体的表征向量/>进行Concatenate拼接操作，并经过一个激活函数为tanh的全连接层，得到输出向量/>即/>

11)将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合中的每个向量进行cos相似度计算，即/>从候选知识点概念实体集/> 选择选择相似度最高的知识点概念与提及知识点概念进行关联，即最后的关联结果可以表示为一个二元组/>

2.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的知识点概念实体识别模型的输入是一段文本字符串X＝{x₁，x₂，......，x_n}，X由n个字符构成，x_i为X的第i个字符，该文本字符串可来自于课程视频字幕或电子教材文本等。

3.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的字符串清洗的预处理方法的实现主要通过Unicode编码表实现，当一个字符x_i的Unicode编码位于\u4e00和\u9fa5之间时，即’/>字符x_i为中文字符；同理，当/>时，字符x_i为数字字符；当或/>时，字符x_i为英文字符，Unicode编码为上述编码范围之外的字符全部进行删除，完成字符串的清洗过程，清洗后的字符串C＝{c₁，c₂，......，c_l}，清洗后的字符串长度l≤n。

4.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的Bert模型对于字符串的计算主要有以下几个步骤：

1)字符嵌入操作：将待计算的字符串{″[CLS]″，c₁，c₂，......，c_l，″[SEP]″}中的每个字符通过嵌入操作(Embedding)，将字符串的每个字符表征为一个d维的字符向量，嵌入后的字符串向量为

2)融入位置信息编码：为了获得文本数据的序列特征，Bert模型使用sin和cos机制对字符串向量E_c中的每个元素的位置索引进行编码，即对于第pos个位置上的元素，其中d_i为每个元素中的维度位置，1≤d_i≤d，当d_i为偶数时使用sin函数进行转换，d_i为奇数时使用cos函数进行转换，得到位置编码向量每个元素p为一个d维的向量，其相应的位置编码公式如下：

3)基于点积缩放的自注意力机制：将上述计算获得的字符串向量E_c和位置编码向量P进行相加，得到自注意力机制的输入向量Z＝{z_cls，z₁，......，z_l，z_sep}；自注意力机制主要通过点积缩放的方法捕获序列中每两个元素之间的关联度，两个元素之间的关联程度越高，其计算结果的数值就越大；自注意力机制的计算公式如下，其中输入均为向量Z与其相应的权重参数W进行相乘，即Q＝ZW^Q，K＝ZW^K，V＝ZW^V，d为输入的向量维度：

4)多头自注意力机制：为了充分考虑上述经缩放点积计算后的来自不同独立子空间的信息，将经过h次缩放点积计算的向量，即h个自注意力头进行拼接Concate后，再进行一个线性变换，计算公式如下，其中W^O为一个可训练的参数矩阵：

MultiHead(Q，K，V)＝Concate(head₁，......，head_h)W^O

5)前馈网络层：各字符元素在经过多头注意力计算后的结果M＝MultiHead(Q，K，V)，仍然是一个只经过线性变换后的结果，为了充分考虑不同潜在维度下的信息之间的相互影响，将具有非线性变换的前馈网络层整合进模型中，前馈网络层的计算方式如下，其中W⁽¹⁾，b⁽¹⁾，/>均为可训练的参数矩阵：

F＝FFN(Z)＝ReLU(ZW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾。

5.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体；其主要流程如下：

1)特征向量融合：特征融合主要是将带有语义特征的编码向量F和带有知识点概念词汇边界信息的序列向量E_S进行Concate拼接，并通过一个权重参数矩阵W进行线性变换，得到融合后的向量V＝{v_cls，v₁，v₂，......，v_l，v_sep}，其公式如下：

V＝Concate(F，E_S)W

2)LSTM模型编码：LSTM模型是循环神经网络(RNN)的一个变体，比RNN模型具有更加强大的预测效果；在计算第i个元素时可以充分结合前i-1个元素的向量信息，LSTM模型对于每个时间步t下元素的计算过程如下：

z_t＝σ(W_i*[h_t-1，v_t])

r_t＝σ(W_r*[h_t-1，v_t])

其中，σ为sigmoid函数，·为点积相乘运算符，v_t为融合后的向量V中的第t个元素，h_t为隐含状态向量，即v_t的相应输出，向量V经过LSTM模型后的输出为H＝{h₁，h₂，......，h_T}，其中T＝l+2；

3)CRF模型预测层：模型预测层是LSTM模型输出的隐含向量进行判断，由一个全连接层和一个CRF层组成；首先，LSTM模型输出的隐含状态向量H＝{h₁，h₂，......，h_T}通过一个全连接层进行线性变换，得到每个字符对应各类别标签的得分，即每个标签的得分l_score_i＝[score₁，score₂，score₃]包含三个元素，其中score₁表示预测当前字符为”B”的概率得分，score₂表示预测当前字符为”I”的概率得分，score₃表示预测当前字符为”O”的概率得分；字符串中各字符预测标签的概率得分集合为L_Score＝{l_score_cls，l_score₁，l_score₂，......，l_score_l，l_score_sep}，将字符串的得分集合作为CRF层的输入；CRF层可以将输入的得分集合作为Emission得分矩阵，对标签进行建模，计算标签类别之间的得分转移矩阵T，表示从一个标签到另外一个标签的转换概率，以挖掘标签类别之间的依赖关系，计算出字符串的序列得分Scores(H)，通过维特比算法对得分序列Scores(H)进行解码得到预测的标签序列将Bert模型携带的起始标识符”CLS”和终止标识符”SEP”相应的预测标签进行去除，得到字符串的预测标签序列结果/>将预测标签序列上相应的子串进行提取，可以得到知识点概念提及实体M＝{m₁，m₂，......，m_k}。

6.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的将抽取出的知识点概念提及实体M＝{m₁，m₂，......，m_k}与知识库中的知识点实体进行匹配和关联，主要步骤有：1)使用Levenshtein Distance字符串模糊匹配算法对每个提及实体m_i进行模糊搜索，从知识库中选择可能匹配的候选知识点实体集；2)对提及实体m_i和候选实体同样通过Bert模型进行上下文语义表征，得到上下文语义表征向量；3、通过cos函数对提及知识点实体与每个候选实体的上下文语义表征向量进行相似度计算，相似度最高的候选知识点实体即为链接的知识点概念。

7.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的TextCNN模型对于输入的计算步骤如下：

1)定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算，捕捉相邻字符的相关性；

2)对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值拼接，即为表征向量。