CN112100976A - 知识点关系标注方法及*** - Google Patents

知识点关系标注方法及*** Download PDF

Info

Publication number
CN112100976A
CN112100976A CN202011020342.1A CN202011020342A CN112100976A CN 112100976 A CN112100976 A CN 112100976A CN 202011020342 A CN202011020342 A CN 202011020342A CN 112100976 A CN112100976 A CN 112100976A
Authority
CN
China
Prior art keywords
test question
question content
character string
knowledge point
unit sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011020342.1A
Other languages
English (en)
Other versions
CN112100976B (zh
Inventor
许昭慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202011020342.1A priority Critical patent/CN112100976B/zh
Publication of CN112100976A publication Critical patent/CN112100976A/zh
Application granted granted Critical
Publication of CN112100976B publication Critical patent/CN112100976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了知识点关系标注方法及***。通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。

Description

知识点关系标注方法及***
技术领域
本发明涉及智能教育技术领域,特别涉及知识点关系标注方法及***。
背景技术
目前,将智能化技术应用到教学过程中,提高教学质量,已经成为了各个学校、培训机构的技术流行趋势。
当前,对于试题中涉及到的知识点,通常都是人工标注,非常的耗费精力,并且,人工标注时,由于标注人主观影响,标注结果的准确性也很难保证,因此,急需一种能够智能、自动、准确的标注试题对应的知识点的技术。
发明内容
本发明实施例提供了一种知识点关系标注方法及***。
本发明实施例提供了一种知识点关系标注方法,包括:
对试题内容进行分割,获得所述试题内容中的每一个单元句;
根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
在一个实施例中,所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure BDA0002700415660000021
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure BDA0002700415660000022
其中,
Figure BDA0002700415660000023
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure BDA0002700415660000024
等于或大于预设阈值时,表示所述第t个单元句中的ati涉及到了第j个知识点,记录所述第t个单元句中的ati涉及到了第j个知识点;当
Figure BDA0002700415660000025
小于预设阈值时,表示所述第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录所述第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录所述试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
在一个实施例中,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure BDA0002700415660000031
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算所述U的取值:
Figure BDA0002700415660000032
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
一种知识点关系标注***,包括:
分割模块,用于对试题内容进行分割,获得所述试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
第二确定模块,用于根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
在一个实施例中,以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure BDA0002700415660000041
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure BDA0002700415660000042
其中,
Figure BDA0002700415660000043
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure BDA0002700415660000051
等于或大于预设阈值时,表示所述第t个单元句中的ati涉及到了第j个知识点,记录所述第t个单元句中的ati涉及到了第j个知识点;当
Figure BDA0002700415660000052
小于预设阈值时,表示所述第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录所述第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录所述试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
在一个实施例中,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure BDA0002700415660000053
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算所述U的取值:
Figure BDA0002700415660000061
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
本发明实施例提供的上述技术方案,通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。
附图说明
为了更清楚地说明本发明实施例实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例公开的一种一种知识点关系标注方法的流程图。
具体实施方式
下面将结合本发明实施例实施例中的附图,对本发明实施例实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
如图1所示,为本发明实施例公开一种知识点关系标注方法,如图1所示,包括
步骤S1-S4:
步骤S1、对试题内容进行分割,获得试题内容中的每一个单元句。
其中,单元句是指试题中被逗号、句号、分号、冒号、感叹号等标点符号隔开的一个一个的句子,具体的分割标准可以自由设定,本发明不做限制。
步骤S2、根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量。
其中,可以预先设置每个字符(例如字母、汉字、数字、数学符号等字符)对应的字符串,字符串可以是由多个数字构成的、唯一标识字符的编码;单元句中包括的每个字符按照出现顺序依次排列,构成单元句对应的字符串向量。
步骤S3、根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点。
步骤S4、。
本发明实施例提供的上述技术方案,通过对试题内容进行分割,获得试题内容中的每一个单元句,再根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量,然后根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,最后根据试题内容中每一根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,通过这一系列的智能化操作,完成了对试题所涉及知识点的标注,提高了标注的效率。
在一个实施例中,根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到试题内容中的每一个单元句与知识点之间的关联度:
Figure BDA0002700415660000081
其中,Ttj表示试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的关联度进行修正:
Figure BDA0002700415660000082
其中,
Figure BDA0002700415660000083
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure BDA0002700415660000084
等于或大于预设阈值时,表示第t个单元句中的ati涉及到了第j个知识点,记录第t个单元句中的ati涉及到了第j个知识点;当
Figure BDA0002700415660000085
小于预设阈值时,表示第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行步骤A1-A2,确定试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行步骤A1-A3,确定试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
上述技术方案中,首先根据公式(1)计算每个单元句与各个知识点之间的关联度,看单元句是否涉及知识点,然后为了防止因为字符串差异的因素导致关联度的计算有误差,根据公式(2)对关联度进行修正,进而循环对每个单元句都计算修正关联度,最终获得试题内容中所涉及的知识点。该方法通过将字符转换为字符串、进而利用公式智能分析出试题内容涉及到的知识点,不仅能提高分析效率,而且准确度也很高。
在一个实施例中,根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,包括:
步骤A51、统计试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定试题内容中同一知识点对应的所有单元句;
步骤A61、将试题内容中同一知识点对应的所有单元句进行同一方式的标注,标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所有单元句加批注框,批注框中写明对应的同一知识点的知识点内容。
上述标注方式,可以方便地让用户的查看到试题内容中每个单元句涉及到的知识点,方便用户使用。
在一个实施例中,步骤A4之后,还包括:
步骤A52、统计试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算X个知识点中,每个知识点在试题内容中的重要程度值:
Figure BDA0002700415660000101
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为试题内容涉及到的知识点。U的取值可以人为设定,例如3或者5等。
上述技术方案,可以实现重点标注试题内容主要涉及到的知识点,而将一些非主要涉及的知识点不予以标注,加快标注效率。
在一个实施例中,按照如下公式(4)计算U的取值:
Figure BDA0002700415660000102
其中,INT()为取整函数;g为试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
对应前述提供的知识点关系标注方法,本发明实施例还提供了一种知识点关系标注***,包括:
分割模块,用于对试题内容进行分割,获得试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定试题内容中的每一个单元句各自对应的字符串向量;
第二确定模块,用于根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注。
在一个实施例中,根据试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到试题内容中的每一个单元句与知识点之间的关联度:
Figure BDA0002700415660000111
其中,Ttj表示试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的关联度进行修正:
Figure BDA0002700415660000112
其中,
Figure BDA0002700415660000113
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure BDA0002700415660000114
等于或大于预设阈值时,表示第t个单元句中的ati涉及到了第j个知识点,记录第t个单元句中的ati涉及到了第j个知识点;当
Figure BDA0002700415660000115
小于预设阈值时,表示第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行步骤A1-A2,确定试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行步骤A1-A3,确定试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
在一个实施例中,根据试题内容中每一个单元句所涉及的知识点,对试题内容涉及到的知识点进行标注,包括:
步骤A51、统计试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定试题内容中同一知识点对应的所有单元句;
步骤A61、将试题内容中同一知识点对应的所有单元句进行同一方式的标注,标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所有单元句加批注框,批注框中写明对应的同一知识点的知识点内容。
在一个实施例中,步骤A4之后,还包括:
步骤A52、统计试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算X个知识点中,每个知识点在试题内容中的重要程度值:
Figure BDA0002700415660000121
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为试题内容涉及到的知识点。
在一个实施例中,按照如下公式(4)计算U的取值:
Figure BDA0002700415660000131
其中,INT()为取整函数;g为试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明实施例。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下,在其它实施例中实现。因此,本发明实施例将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种知识点关系标注方法,其特征在于,包括:
对试题内容进行分割,获得所述试题内容中的每一个单元句;
根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
2.如权利要求1所述的方法,其特征在于,
所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure FDA0002700415650000011
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure FDA0002700415650000021
其中,
Figure FDA0002700415650000022
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure FDA0002700415650000023
等于或大于预设阈值时,表示所述第t个单元句中的ati涉及到了第j个知识点,记录所述第t个单元句中的ati涉及到了第j个知识点;当
Figure FDA0002700415650000024
小于预设阈值时,表示所述第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录所述第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录所述试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
3.如权利要求2所述的方法,其特征在于,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
4.如权利要求2或3所述的方法,其特征在于,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure FDA0002700415650000031
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
5.如权利要求4所述的方法,其特征在于,
按照如下公式(4)计算所述U的取值:
Figure FDA0002700415650000032
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
6.一种知识点关系标注***,其特征在于,包括:
分割模块,用于对试题内容进行分割,获得所述试题内容中的每一个单元句;
第一确定模块,用于根据预设字符串设置规则,确定所述试题内容中的每一个单元句各自对应的字符串向量;
第二确定模块,用于根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点;
标注模块,用于根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注。
7.如权利要求6所述的***,其特征在于,
所述根据所述试题内容中的每一个单元句各自对应的字符串向量、以及各个知识点对应的字符串向量,确定所述试题内容中的每一个单元句所涉及的知识点,包括:
步骤A1、利用公式(1)得到所述试题内容中的每一个单元句与知识点之间的关联度:
Figure FDA0002700415650000041
其中,Ttj表示所述试题内容中的第t个单元句与第j个知识点之间的关联度;bj表示第j个知识点对应的字符串向量;ati表示第t个单元句对应的字符串向量中的第i个字符串元素向量;n表示第t个单元句对应的字符串向量中字符串元素向量的总数;∩表示交集符号;||表示对向量取模;
步骤A2、利用公式(2)对步骤A1得到的所述关联度进行修正:
Figure FDA0002700415650000042
其中,
Figure FDA0002700415650000043
表示第t个单元句与第j个知识点之间的修正后关联度;bjΔati表示bj和ati的对称差集;
Figure FDA0002700415650000044
等于或大于预设阈值时,表示所述第t个单元句中的ati涉及到了第j个知识点,记录所述第t个单元句中的ati涉及到了第j个知识点;当
Figure FDA0002700415650000045
小于预设阈值时,表示所述第t个单元句中的ati未涉及第j个知识点,不执行任何操作;
步骤A3、循环执行所述步骤A1-A2,确定所述试题内容中第t个单元句中每个字符串元素向量与每个知识点之间的修正后关联度,并记录所述第t个单元句中每个字符串元素向量所涉及到的知识点;
步骤A4、循环执行所述步骤A1-A3,确定所述试题内容中每一个单元句中每个字符串元素向量所涉及的所有知识点,并记录所述试题内容中每一个单元句中每个字符串元素向量所涉及到的知识点。
8.如权利要求7所述的***,其特征在于,所述根据所述试题内容中每一个单元句所涉及的知识点,对所述试题内容涉及到的知识点进行标注,包括:
步骤A51、统计所述试题内容中每一个单元句中每个字符串元素向量所涉及的知识点,确定所述试题内容中同一知识点对应的所有单元句;
步骤A61、将所述试题内容中同一知识点对应的所有单元句进行同一方式的标注,所述标注包括将所有单元句的文本采用同一种颜色进行突出显示、以及对所述所有单元句加批注框,所述批注框中写明对应的同一知识点的知识点内容。
9.如权利要求7或8所述的***,其特征在于,所述步骤A4之后,还包括:
步骤A52、统计所述试题内容中所有单元句中所有字符串元素向量所涉及到的所有知识点的总数目X;
步骤A53、根据如下公式(3)计算所述X个知识点中,每个知识点在所述试题内容中的重要程度值:
Figure FDA0002700415650000051
其中,fk表示涉及到第k个知识点的所有字符串元素向量的总数目;Yk表示第k个知识点在所述试题内容中的重要程度值;
步骤A54、将每个知识点对应的重要程度值按照从大到小的顺序排序,将排在前U位的知识点作为所述试题内容涉及到的知识点。
10.如权利要求9所述的***,其特征在于,
按照如下公式(4)计算所述U的取值:
Figure FDA0002700415650000061
其中,INT()为取整函数;g为所述试题内容的总占用存储空间大小;Gk为涉及到第k个知识点的所有字符串元素向量对应的试题内容部分的总占用存储空间大小。
CN202011020342.1A 2020-09-24 2020-09-24 知识点关系标注方法及*** Active CN112100976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011020342.1A CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011020342.1A CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及***

Publications (2)

Publication Number Publication Date
CN112100976A true CN112100976A (zh) 2020-12-18
CN112100976B CN112100976B (zh) 2021-11-16

Family

ID=73756191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011020342.1A Active CN112100976B (zh) 2020-09-24 2020-09-24 知识点关系标注方法及***

Country Status (1)

Country Link
CN (1) CN112100976B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161496A (ja) * 1997-11-27 1999-06-18 Sekisui Chem Co Ltd 事例ベース推論システム
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及***
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和***
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108334493A (zh) * 2018-01-07 2018-07-27 深圳前海易维教育科技有限公司 一种基于神经网络的题目知识点自动提取方法
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN109598995A (zh) * 2019-01-08 2019-04-09 上海健坤教育科技有限公司 基于贝叶斯知识跟踪模型的智能教学***
CN110377802A (zh) * 2019-07-26 2019-10-25 江苏曲速教育科技有限公司 一种新增试题的知识点标注方法及***
CN111104455A (zh) * 2019-12-18 2020-05-05 四川文轩教育科技有限公司 多源多维的学校教学横向信息差异比对分析方法
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及***
CN111460145A (zh) * 2020-03-18 2020-07-28 天闻数媒科技(北京)有限公司 一种学习资源推荐方法、设备及存储介质
CN111475645A (zh) * 2020-03-17 2020-07-31 平安国际智慧城市科技股份有限公司 知识点标注方法、装置及计算机可读存储介质
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161496A (ja) * 1997-11-27 1999-06-18 Sekisui Chem Co Ltd 事例ベース推論システム
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和***
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及***
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107967254A (zh) * 2017-10-31 2018-04-27 科大讯飞股份有限公司 知识点预测方法及装置、存储介质、电子设备
CN108334493A (zh) * 2018-01-07 2018-07-27 深圳前海易维教育科技有限公司 一种基于神经网络的题目知识点自动提取方法
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN109598995A (zh) * 2019-01-08 2019-04-09 上海健坤教育科技有限公司 基于贝叶斯知识跟踪模型的智能教学***
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN110377802A (zh) * 2019-07-26 2019-10-25 江苏曲速教育科技有限公司 一种新增试题的知识点标注方法及***
CN111104455A (zh) * 2019-12-18 2020-05-05 四川文轩教育科技有限公司 多源多维的学校教学横向信息差异比对分析方法
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及***
CN111475645A (zh) * 2020-03-17 2020-07-31 平安国际智慧城市科技股份有限公司 知识点标注方法、装置及计算机可读存储介质
CN111460145A (zh) * 2020-03-18 2020-07-28 天闻数媒科技(北京)有限公司 一种学习资源推荐方法、设备及存储介质
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MIHALCEA RADA: "Corpus-based and Knowledge-based Measures of Text Semantic Similarity", 《AMERICAN ASSOCIATION FOR ARTIFICIAL INTELLIGENCE (AAAI) CONFERENCE》 *
吕征达: "基于机器学习的试题多知识点和认知动词自动标注研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
胡国平: "试题知识点预测:一种教研知识强化的卷积神经网络模型", 《中文信息学报》 *
董奥根: "基于向量空间模型的知识点与试题自动关联方法", 《计算机与现代化》 *

Also Published As

Publication number Publication date
CN112100976B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN109766538B (zh) 一种文本纠错方法、装置、电子设备以及存储介质
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN108845988B (zh) 一种实体识别方法、装置、设备及计算机可读存储介质
CN111144079B (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
US20090306982A1 (en) Apparatus, method and program for text mining
CN112445831B (zh) 数据标注方法及装置
CN113591457A (zh) 文本纠错方法、装置、设备及存储介质
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及***
CN113407675A (zh) 教育题目自动批改方法、装置和电子设备
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及***、电子设备
CN109190099B (zh) 句模提取方法及装置
CN114201684A (zh) 一种基于知识图谱的自适应学习资源推荐方法及***
CN111680669A (zh) 一种试题分割方法、***及可读存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN107783958B (zh) 一种目标语句识别方法及装置
CN112100976B (zh) 知识点关系标注方法及***
CN112528628A (zh) 一种文本处理的方法、装置及电子设备
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及***
CN108511036A (zh) 一种中文症状标注的方法及***
CN116704508A (zh) 信息处理方法及装置
CN108874770B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20221020

Granted publication date: 20211116

PP01 Preservation of patent right