CN112711663A

CN112711663A - 一种标签的确定方法、装置、电子设备及存储介质

Info

Publication number: CN112711663A
Application number: CN201911018507.9A
Authority: CN
Inventors: 许金徽; 梁毅; 董平; 张弦
Original assignee: Beijing Yiyi Education Information Consulting Co ltd
Current assignee: Beijing Yiyi Education Information Consulting Co ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-27

Abstract

本申请提供的标签的确定方法及装置，通过获取对象(如考题)对应的目标文本，将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，依据匹配成功的知识点确定对象的标签。目标文本中包括对象以及与对象的预设的关联信息，因为关联信息可以预先设置为多种不同类型的信息，所以目标文本可以涵盖与对象关联的多种不同类型的信息，且知识点库中包括多种不同类型的知识点，所以将目标文本与知识点库包括的多个知识点进行匹配，相当于从多个角度去确定对象及对象的关联信息对应的知识点，使匹配得到知识点可准确且全面的反映对象的特点，最后通过匹配成功的知识点确定对象的标签，使得到的标签可准确的表征对象的特点。

Description

一种标签的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及电子信息领域，尤其涉及一种标签的确定方法、装置、电子设备及存储介质。

背景技术

考题的标签如考题难度系数在一定程度上相当于考题的摘要，是考题的关键信息，所以展示考题的标签是吸引用户的一种方式，同时展示标签可以使用户快速的找到符合自身需求的考题。所以当前很多材料在展示考题的同时，也展示考题的标签。

现有的考题的标签通常是通过人工来确定的，即人工基于自身对于考题的理解，确定考题的标签。人工确定标签时，由于受到人为的主观因素的影响，所以人工确定的标签很有可能是不准确的。所以，如何提高考题的标签的正确率成为了亟需解决的问题。

发明内容

本申请提供了一种确定考题的标签方法及装置，目的在于解决如何准确的确定考题的标签的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种标签的确定方法，包括：

获取对象对应的目标文本，所述目标文本中包括所述对象以及所述对象的预设的关联信息；

将所述目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，所述知识点库中包括多种不同类型的知识点，所述类型至少包括句型；

依据所述匹配成功的知识点，确定所述对象的标签。

可选的，所述将所述目标文本与预设的知识点库包括的多个知识点进行一一匹配，得到匹配成功的知识点，包括：

采用预设的分词工具对所述目标文本进行分词处理；

依据预设的类词库，为所述分词处理得到的每个词语匹配至少一个词性；

针对所述知识点库中的每个知识点，按照各个所述词语在所述目标文本中的先后顺序，逐一将每个词语与所述知识点中包括的所有词元素分别进行匹配；

若所述知识点中所有的词元素都与所述目标文本中的词语匹配成功，且所述目标文本的句式与所述知识点的句式相同，则确定所述目标文本与所述知识点匹配成功；

任意一个所述词元素与所述目标文本中的词语匹配成功为：所述词元素与所述词语相同，或所述词元素的预设的词性与所述词语匹配得到的所述词性相同；

所述句式相同为：与所述词元素匹配成功的所述目标文本的各个词语在所述目标文本中的位置关系，与各个所述词元素在所述知识点中的位置关系相同。

可选的，所述依据所述匹配成功的知识点，确定所述对象的标签，包括：

依据所述匹配成功的知识点，确定所述对象的要素项，所述要素项至少包括所述对象对应的难度系数；

将所述匹配成功的知识点以及所述要素项作为所述对象的标签。

可选的，依据所述匹配成功的知识点，确定所述对象的标签，包括：

若匹配得到的知识点至少包括两个知识点，则对每个所述知识点进行得分计算，并将得分最高的知识点作为目标知识点；

若匹配得到的知识点只有一个，则将所述知识点作为目标知识点；

依据所述目标知识点，确定所述对象的要素项，并将所述目标知识点以及所述要素项作为所述对象的标签。

可选的，将所述目标文本与预设的知识点库中包括的多个知识点进行一一匹配之前，还包括：对获取的所述目标文本进行数据清洗。

一种标签的确定装置，包括：

获取单元，用于获取所述对象对应的目标文本，所述目标文本中包括所述对象以及所述对象的关联信息；

匹配单元，用于将所述目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，所述知识点库中包括多种不同类型的知识点，所述类型至少包括句型；

确定单元，用于依据所述匹配成功的知识点，确定所述对象的标签。

可选的，所述匹配单元用于将所述目标文本与预设的知识点库包括的多个知识点进行一一匹配，得到匹配成功的知识点，包括：

所述匹配单元具体用于：采用预设的分词工具对所述目标文本进行分词处理；

可选的，所述确定单元用于依据所述匹配成功的知识点，确定所述对象的标签，包括：

所述确定单元具体用于：依据所述匹配成功的知识点，确定所述对象的要素项，所述要素项至少包括所述对象对应的难度系数；

所述确定单元具体用于：若匹配得到的知识点至少包括两个知识点，则对每个知识点进行得分计算，并将得分最高的知识点作为目标知识点；

可选的，还包括：数据清洗单元，用于对获取得到的所述目标文本进行数据清洗。

一种电子设备，包括：处理器和存储器，所述存储器用于存储程序；所述处理器用于运行所述程序，以实现上述的标签的确定方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执上述的标签的确定方法。

本申请所述的方法及装置，通过获取对象(如考题)对应的目标文本，并将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，并依据匹配成功的知识点确定对象的标签。目标文本中包括对象以及与对象的预设的关联信息，因为关联信息可以预先设置为多种不同类型的信息，所以目标文本可以涵盖与对象关联的多种不同类型的信息，且知识点库中包括多种不同类型的知识点，所以将目标文本与知识点库包括的多个知识点进行一一匹配，相当于从多个角度去确定对象及对象的关联信息对应的知识点，使匹配得到知识点可以准确且全面的反映对象的特点，最后通过匹配成功的知识点确定对象的标签，从而保证了得到的标签可以准确的表征对象的特点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种标签的确定方法的流程图；

图2为将目标文本与知识点进行匹配的方法的流程图；

图3为本申请实施例公开的一种标签的确定装置的结构示意图；

图4为本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请所述的对象，可以包括但不限于考题，例如，对象还可以是负载文本信息的图片等，以下以对象为考题为例进行说明。

图1为本申请实施例提供的一种标签确定方法，包括以下步骤：

S101、获取考题对应的目标文本。

目标文本中包括考题以及考题的预设的关联信息。需要说明的是，因为关联信息是可以预先进行设置的，所以关联信息可以设置为包括多种不同类型的信息，例如，关联信息至少包括考题的答案以及考题的解析。

本实施例中，考题可以归类为填空题和非填空题(如问答题)，在考题为填空题的情况下，将考题的答案补充到考题的对应位置中，使获取得到的目标文本的文段为完整的文段。在考题为非填空题的情况下，可直接将考题的关联信息作为独立的文段附在考题文段的下文即可。其中，考题的答案以及考题的解析等其他的关联信息，可以依据该考题的题号，从预设的题库中获取与该考题的题号对应的关联信息而得到。

S102、将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点。

知识点预先存储在知识点库中，知识点库中包括多种不同类型的知识点，知识点的类型可以包括但不限于题型、句型、语法、以及关键词句等。与目标文本匹配成功的知识点说明在目标文本中含有该知识点，例如，匹配到的知识点为某一句型，说明在目标文本中含有该句型，匹配成功的知识点可以作为目标文本的要点。

一个目标文本一般可以匹配得到多个不同的知识点，也可能只匹配得到一个知识点，具体匹配得到的知识点的数量与目标文本包含的信息量有关，目标文本包含的信息量越大，匹配得到的知识点越多，反之，匹配得到的知识点就越少。当然，对于目标文本匹配不到对应的知识点的极端情况，可以人为的为该目标文本设定对应的知识点。

其中，目标文书与知识库中的多个知识点进行的一一匹配，得到匹配成功的知识点的方法可以参考图2所示的流程。

S103、依据匹配成功的知识点，确定考题的标签。

依据匹配成功的知识点，确定考题的标签一种方法可以是：依据匹配成功的知识点，确定考题的要素项，并将匹配成功的知识点以及要素项作为考题的标签。其中，要素项可以包括但不限于考题的难度系数和考题的考试出现频率等，一些可能是用户感兴趣的元素都可以作为要素项，例如用户感兴趣的元素为考题的考试出现频率时，可以将考试出现频率作为要素项。

针对要素项为难度系数和考试出现频率的情况，依据匹配成功的知识点，确定考题的要素项的一种方法，可以是：根据匹配得到的知识点的数量以及知识点的难度系数，计算得到考题的难度系数，以及依据匹配得到的每个知识点的考试出现频率，计算得到考题的考试出现频率，并将考题的难度系数以及考试出现频率作为要素项。其中，每个知识点的难度系数以及考试出现频率都是预先设定的。知识点的数量越多以及知识点的难度系数越大，对应的考题的难度系数也越大。知识点的考试出现频率越高，考题的考试出现频率也越高。

在匹配得到的知识点至少包括两个知识点的情况下，由于不同的知识点，用户感兴趣的程度不同，将用户最感兴趣的知识点作为考题的标签，可以提高考题对用户的吸引力，同时也可以使用户快速的找到自己感兴趣的考题。鉴于此种情况，本实施例中，依据匹配成功的知识点，确定考题的标签另一种方式还可以是：

若匹配得到的知识点包括至少两个知识点，则对每个知识点进行得分计算，并将得分最高的知识点作为目标知识点。在知识点中包括多个元素，每个元素都有对应的用户兴趣分，用户兴趣分是预先设定的，所以计算知识点得分的一种方式可以是：依据知识点中每个元素的用户兴趣分可计算得到该知识点的得分，如将每个元素的用户兴趣分相加得到知识点的得分。

若匹配得到的知识点只有一个知识点，则直接将该知识点作为目标知识点，无需计算该知识点的得分。

最后依据目标知识点，确定考题的要素项，并将目标知识点以及要素项作为考题的标签。其中，依据目标知识点，确定考题的要素项的一种方式可以是：将目标知识点的难度系数作为考题的难度系数，以及将目标知识点的考试出现频率作为考题的考试出现频率，最后将考题的难度系数以及考试出现频率作为要素项，并将目标知识点以及要素项作为考题的标签，使用户根据展示的考题的标签即可确定该考题的知识点(如题型、句型、语法、以及关键词句)，考题的难度系数，和考试出现的频率等。

本申请实施例提供的方法，通过获取对象(如考题)对应的目标文本，并将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，并依据匹配成功的知识点确定对象的标签。目标文本中包括对象以及与对象的预设的关联信息，因为关联信息可以预先设置为多种不同类型的信息，所以目标文本可以涵盖与对象关联的多种不同类型的信息，且知识点库中包括多种不同类型的知识点，所以将目标文本与知识点库包括的多个知识点进行一一匹配，相当于从多个角度去确定对象及对象的关联信息对应的知识点，使匹配得到知识点可以准确且全面的反映对象的特点，最后通过匹配成功的知识点确定对象的标签，从而保证了得到的标签可以准确的表征对象的特点。

同时，本实施例提供的方法，可以将批量的考题输入具有确定考题标签的功能的设备，使设备按照图1所示的执行流程运作，即可得到每个考题的标签，相对于现有的采用人工确定标签的方法，可以提高确定考题标签的速度，从而解决了现有技术中采用人工确定标签带来的高额的时间成本和人工成本的问题。

需要说明的是，本实施例提供的方法，执行S102之前，可以对目标文本进行数据清洗。例如可以采用正则表达的方法，筛选出目标文书中例如html标签、空格等一些与目标文本无关的信息，使在一定的程度上提高目标文书匹配得到对应的知识点的速度。

图2为图1中S102的将目标文本与知识点进行匹配的一种方法，包括以下步骤：

S201、采用预设的分词工具对目标文本进行分词处理。

例如，可以采用现有的分词工具NLTK和SPACY对目标文本进行分词处理。

S202、依据预设的类词库，为分词处理得到的每个词语匹配至少一个词性。

在类词库中包括多个不同的词集，每个词集为具有相同词性的词语的集合，例如，动词词集中包括的每个词语都是动词。类词库可以包括但不限于动词词集、名词词集，形容词词集等。

针对分词处理后得到的每一个词语，在类词库的每个词集中查找词集是否存在该词语，如果词集存在该词语，则为该词语匹配得到的词性为该词集对应的词性，词集对应的词性为该词集中所有词语共同的词性。

由于一个词语可能有多种不同的词性，例如词语“运动”可以是名词，也可以是动词，在名词词集和动词词集中都存在该词的情况下，词语“运动”匹配得到的词性为名词和动词。所以分词处理得到的每个词语匹配得到的词性至少包括一个词性。

S203、针对每个知识点，按照分词处理得到的每个词语在目标文本中的先后顺序，逐一将每个词语与知识点中包括的所有词元素分别进行匹配。

知识点由多个元素组成，元素可以是词元素和符号元素等，其中，知识点的每个词元素都有对应的词性，词元素对应的词性是预先设定的。针对知识点库中的每个知识点，按照分词处理得到的每个词语在目标文本中的先后顺序，逐一将每个词语与知识点中包括的所有词元素进行一一匹配。

其中，判断目标文本的词语与知识点的词元素是否匹配成功的方法为：若目标文本的词语与知识点的词元素相同，或者目标文本的词语的词性与词元素的词性相同，则确定该词语与该词元素匹配成功。

需要说明的是，将目标文本中每个词语与知识点的词元素进行匹配时，每个词语的匹配顺序是按照每个词语在目标文本中的先后顺序进行的，从而确保了与知识点匹配的目标文本可以保持原本的内容。

S204、若知识点中所有的词元素都与目标文本中的词语匹配成功，且目标文本的句式与知识点的句式相同，则确定目标文本与知识点匹配成功。

本实施例中，若知识点中每个词元素在目标文本中都找到与其匹配成功的词语，且目标文本的句式与知识点的句式相同，则确定目标文本与该知识点匹配成功。其中，句式相同为：与词元素匹配成功的各个词语在目标文本中的位置关系，与各个词元素在知识点的位置关系相同。例如：目标文本为句子：“我爱我的祖国”，知识点为句型“…爱…的…”。因为目标文本中的“爱”和“的”与句型中的“爱”和“的”相同，目标文本中“爱”和“的”的位置关系为“爱”和“的”都位于句子中间部分，“爱”在“的”的前面，两者不相连，与句型中“爱”和“的”在句子中位置关系一致，且句型的词元素在目标文本中都存在，所以句子“我爱我的祖国”与句型“…爱…的…”匹配成功。

本实施例提供的方法，针对每个知识点，在匹配过程中，按照各个词语在目标文本中的先后顺序，逐一的将目标文本的词语与知识点中包括的所有元素分别进行匹配，确保了与知识点匹配的目标文本的保持原本内容，从而确保了与目标文本匹配成功的知识点为符合目标文本的知识点。

下面以考题为英语考题为例，对本技术方案的进行说明。

例如英语考题的题干为：I always____basketball___my school，属于填空题，所以需获取该题干的答案，并将答案补充到题干中，得到一个完整的目标文本：I alwaysplaybasketball inmy school。知识点库中预先设置的句型知识点包括：第一句型：___do___in___，第二句型：___always do___，以及第三句型___in___do___。其中，句型中的___为表示符号元素。

依据句子“I always playbasketball in my school”中每个单词在该句子中的先后顺序，依次将各个单词与预设的句型知识点进行匹配。例如，句中的第一单词“I”与第一句型“___do___in___”中的元素进行匹配时，因为“I”的词性为指代词，而句型“___do___in___”中没有词性为代词的元素，所以“I”没有对应的匹配词。以此类推，单词“play”的词性为动词，与句型中do的词性一致，所以play与do匹配成功，同理，考题中的单词“in”与句型中“in”的为相同的单词，所以两者匹配。因为句型的词元素在目标文本中都存在，且“play”和“in”在句子中相对位置与“do”和“in”在句型中的相对位置一致，所以该目标文本与第一句型匹配成功。

同理，采用上述的匹配方法，可确定目标文本与第二句型也匹配成功。对于第三句型，虽然句型的词元素在目标文本中都存在，但目标文本中play与in的位置关系为“play”在“in”的前面，而第三句型中“in”在“do”的前面，位置关系不同，所以目标文本与第三句型匹配失败。

确定目标文本匹配得到的句型为第一句型和第二句型后，由于第二句型预设的得分比第一句型高，所以将第二句型确定为目标文本最终匹配到的目标知识点，并根据第二句型确定考题的难度系数，最后将第二句型以及难度系数作为该考题的标签。

综上所述，可见本实施例提供的方法，可以使匹配得到知识点准确且的表征考题的特点，最后通过匹配成功的知识点确定考题的标签，从而保证了得到的标签的准确度。

与上述本发明实施例提供的一种标签的确定方法相对应，参考图3，示出了本发明实施例提供的一种标签的确定装置的结构示意图，包括：

获取单元301，用于获取对象对应的目标文本，目标文本中包括对象以及对象的关联信息。

匹配单元302，用于将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，所述知识点库中包括多种不同类型的知识点，所述类型至少包括句型。

确定单元303，用于依据匹配成功的知识点，确定对象的标签。

数据清洗单元304，用于对获取得到的目标文本进行数据清洗。

其中，匹配单元302用于将目标文本与预设的知识点库包括的多个知识点进行一一匹配，得到匹配成功的知识点的具体实现方式为：采用预设的分词工具对目标文本进行分词处理，依据预设的类词库，为分词处理得到的每个词语匹配至少一个词性，针对知识点库中的每个知识点，按照各个词语在所述目标文本中的先后顺序，逐一将每个词语与知识点中包括的所有词元素分别进行匹配，若知识点中所有的词元素都与目标文本中的词语匹配成功，且目标文本的句式与知识点的句式相同，则确定目标文本与知识点匹配成功。

其中，任意一个所述词元素与所述目标文本中的词语匹配成功为：所述词元素与所述词语相同，或所述词元素的预设的词性与所述词语匹配得到的所述词性相同；

句式相同为与词元素匹配成功的各个词语在目标文本中的位置关系，与各个词元素在知识点中的位置关系相同。

其中，确定单元303用于依据匹配成功的知识点，确定对象的标签具体实现方式为：依据匹配成功的知识点，确定对象的要素项，要素项至少包括所述对象对应的难度系数，将匹配成功的知识点以及要素项作为对象的标签。

其中，确定单元303用于确定单元用于依据所述匹配成功的知识点，确定对象的标签具体实现方式还可以是：若匹配得到的知识点包括至少两个知识点，则对每个知识点进行得分计算，并将得分最高的知识点作为目标知识点，若匹配得到的知识点只有一个知识点，则直接将所述知识点作为目标知识点，依据目标知识点，确定对象的要素项，并将目标知识点以及要素项作为对象的标签。

本实施例提供的标签的确定装置，通过获取对象(如考题)对应的目标文本，并将目标文本与预设的知识点库中包括的多个知识点进行一一匹配，得到匹配成功的知识点，并依据匹配成功的知识点确定对象的标签。目标文本中包括对象以及与对象的预设的关联信息，因为关联信息可以预先设置为多种不同类型的信息，所以目标文本可以涵盖与对象关联的多种不同类型的信息，且知识点库中包括多种不同类型的知识点，所以将目标文本与知识点库包括的多个知识点进行一一匹配，相当于从多个角度去确定对象及对象的关联信息对应的知识点，使匹配得到知识点可以准确且全面的反映对象的特点，最后通过匹配成功的知识点确定对象的标签，从而保证了得到的标签可以准确的表征对象的特点。

本发明实施例还提供了一种电子设备，其结构示意图如图4所示，具体包括：处理器401和存储器402，存储器402用于存储程序；处理器401用于运行程序，以实现本申请实施例中标签的确定方法。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例中标签的确定方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种标签的确定方法，其特征在于，包括：

依据所述匹配成功的知识点，确定所述对象的标签。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本与预设的知识点库包括的多个知识点进行一一匹配，得到匹配成功的知识点，包括：

采用预设的分词工具对所述目标文本进行分词处理；

3.根据权利要求1所述的方法，其特征在于，所述依据所述匹配成功的知识点，确定所述对象的标签，包括：

4.根据权利要求1所述的方法，其特征在于，依据所述匹配成功的知识点，确定所述对象的标签，包括：

5.根据权利要求1所述的方法，其特征在于，将所述目标文本与预设的知识点库中包括的多个知识点进行一一匹配之前，还包括：对获取的所述目标文本进行数据清洗。

6.一种标签的确定装置，其特征在于，包括：

获取单元，用于获取所述对象对应的目标文本，所述目标文本中包括所述对象以及所述对象的预设的关联信息；

7.根据权利要求6所述的装置，其特征在于，所述匹配单元用于将所述目标文本与预设的知识点库包括的多个知识点进行一一匹配，得到匹配成功的知识点，包括：

8.根据权利要求6所述的装置，其特征在于，所述确定单元用于依据所述匹配成功的知识点，确定所述对象的标签，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储程序；所述处理器用于运行所述程序，以实现权利要求1-5任一项所述的标签的确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-5任一项所述的标签的确定方法。