CN117635381B

CN117635381B - 一种基于人机对话的计算思维品质评估方法及***

Info

Publication number: CN117635381B
Application number: CN202311477552.7A
Authority: CN
Inventors: 詹泽慧; 钟煊妍
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-06-25
Anticipated expiration: 2043-11-07
Also published as: CN117635381A

Abstract

本申请公开了一种基于人机对话的计算思维品质评估方法及***，方法包括：构建计算机代理，计算机代理用于以人机对话形式提供多个题目和多个题目的解题提示；获取学习者通过计算机代理进行答题的过程中产生的答题信息，答题信息包括行为信息和文本信息；构建计算思维测试数据库，其包括题目信息和答题信息；题目信息包括多个题目及对应的解题提示；根据预设的自动评估算法和计算思维测试数据库，去除答题信息中不符合预设条件的异常数据，再根据答题信息及对应的题目信息确定学习者的当前计算思维品质。本申请可以通过学习分析快速、准确获取学习者的计算思维品质测评结果，可广泛应用于计算机信息技术领域。

Description

一种基于人机对话的计算思维品质评估方法及***

技术领域

本申请涉及计算机信息技术领域，尤其是一种基于人机对话的计算思维品质评估方法及***。

背景技术

计算思维是信息技术学科核心素养之一，随着新课标改革、时代发展，计算思维越来越成为核心素养培养进程中不可或缺的地位。计算思维的评价对促进计算思维的培养具有重要意义，特别是计算思维品质的评价，计算思维品质评是指对学习者在计算思维各个子维度的表现情况进行评价，其有助于教师或学习者个人更加具有针对性的进行提高训练。

然而，现阶段计算思维测评方式主要采用的是作品分析法和量表调查法。作品分析法往往是通过对学生作品打分来衡量计算思维水平，即不能对计算思维各子维度的表现进行评价，得到计算思维品质的测评结果。量表调查法虽然从不同维度进行了测量，但该方法过于主观，另外，计算思维是一种过程性的能力，这种方法缺乏过程性数据的支持以及过程性数据的处理，进而即使其在量表制作时化分了维度，也难以通过简单的调查准确对学习者在计算思维不同子维度上的表现进行评分。随着技术的发展，人们逐渐意识到，利用学习分析技术测评计算思维品质的重要意义。然而，由于当前测评方法中数据收集的单一性，为了保障测评结果的准确性，其不得不要求学习者完成大量的的题目，以获取学习者更多的数据。这不仅需要很长的测量时间，还会对学习者造成了极大的认知负荷，甚至会影响学习者的答题情况。

发明内容

有鉴于此，本申请提供一种基于人机对话的计算思维品质评估方法及***，以通过学习分析快速、准确获取学习者的计算思维品质测评结果。

本申请的一方面提供了一种基于人机对话的计算思维品质评估方法，包括：

构建计算机代理，所述计算机代理用于以人机对话形式提供多个题目和多个所述题目的解题提示；

获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，所述答题信息包括行为信息和文本信息；所述行为信息包括所述学习者答题的行为步骤、答题的时间戳和交互类题目的作答结果；所述文本信息包括所述学习者与所述计算机代理的人机对话内容和文本类题目的作答结果；

构建计算思维测试数据库，所述计算思维测试数据库包括题目信息和所述答题信息；所述题目信息包括多个所述题目及对应的所述解题提示；

根据预设的自动评估算法和所述计算思维测试数据库，去除所述答题信息中不符合预设条件的异常数据，再根据所述答题信息及对应的所述题目信息确定所述学习者的当前计算思维品质。

可选地，所述获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，包括：

通过WebSocket接口将所述学习者输入的问题传递给所述计算机代理；

通过所述计算机代理使用自然语言理解框架构建的自然语言理解模型对所述学习者输入的问题进行意图识别，得到所述学习者的提问意图；

通过对话管理器的对话策略根据所述提问意图和当前人机对话的上下文确定回应方式及对应的回应文本；所述回应方式包括利用生成式对话模型生成回应文本进行回应和使用预定义的回应文本进行回应；所述对话策略包括为不同领域的提问意图定义的故事和定义的槽，所述故事用于使所述计算机代理理解输入的问题，所述槽用于存储当前人机对话的状态信息和题目ID；

通过WebSocket接口获取所述回应文本并将所述回应文本以聊天框的形式显示在所述学习者的显示界面上，以供所述学习者根据所述回应文本进行答题；

获取所述学习者根据所述回应文本进行答题的过程中产生的答题信息；

其中，所述自然语言理解模型和所述生成式对话模型均采用Transformer模型。

可选地，所述构建计算思维测试数据库，包括：

构建计算思维测试数据库；

将每个所述题目的题目内容、题目答案、题目ID、所考察的计算思维子能力的能力标签及每个所述计算思维子能力对应的水平标签作为所述题目信息存储在第一数据集中；

将所述学习者当前正在作答的题目作为当前题目，对于每个所述当前题目，通过所述计算机代理的日志文件实时获取所述当前题目的题目ID和答题过程中的所述行为信息，当所述学习者完成所述当前题目后，将所述当前题目的题目ID、答题时间戳、答题正确性标签、答题过程中的所述行为信息作为所述答题信息存储在第二数据集中；

将所述第一数据集和所述第二数据集存入所述计算思维测试数据库中。

可选地，所述根据预设的自动评估算法和所述计算思维测试数据库，去除所述答题信息中不符合预设条件的异常数据，再根据所述答题信息及对应的所述题目信息确定所述学习者的当前计算思维品质，包括：

从所述计算思维测试数据库中获取所述答题信息和所述题目信息；

利用所述预设的自动评估算法通过Robust标准化对各个所述能力标签和各个所述水平标签进行标准化处理；

根据各个所述能力标签对多个所述题目进行分组；

根据所述第二数据集中的所述答题正确性标签确定每个分组中被正确作答且所述水平标签最高的计算思维子能力作为所述学习者的当前计算思维品质。

可选地，所述方法还包括：

构建潜在计算思维品质评估模型，利用所述潜在计算思维品质评估模型对所述行为信息提取特征和识别所述学习者答题的行为模式，得到潜在计算思维品质；

通过预设的文本分析模型对所述文本信息进行语义分析和主题分类，确定所述学习者在答题过程中无法个人解决的子维度，作为存疑计算思维子维度；

根据所述潜在计算思维品质和所述存疑计算思维子维度确定所述学习者的推荐题目。

可选地，所述构建潜在计算思维品质评估模型，包括：

构建用于捕捉所述测试者的行为信息中行为模式和顺序信息的循环神经网络模型；

以不同计算思维品质测试者的行为信息作为训练样本，以每个所述测试者的计算思维品质作为训练标签，训练所述循环神经网络模型；

训练过程中使用分类问题的交叉熵损失函数和反向传播算法调整所述循环神经网络模型的参数，训练结束后的所述循环神经网络模型作为所述潜在计算思维品质评估模型；

其中，所述循环神经网络模型包括：

嵌入层，用于将答题步骤序列由单词或符号序列转换为连续的向量表示；

循环层，采用长短时记忆网络，用于捕捉序列数据中的时间依赖关系；

全连接层，用于输出预测的计算思维品质，利用所述全连接层在训练过程中使用所述交叉熵损失函数衡量预测标签与实际标签之间的差距，并通过所述反向传播算法训练所述循环神经网络模型，以提高预测标签的准确性。

可选地，所述通过预设的文本分析模型对所述文本信息进行语义分析和主题分类，确定在所述学习者在答题过程中无法个人解决的子维度，作为存疑计算思维子维度，包括：

通过词嵌入模型将所述文本信息中的当前人机对话内容和当前作答的题目ID转换为语义向量；

将语义向量形式的所述当前人机对话内容和当前作答的题目ID输入所述预设的文本分析模型，得到所述当前人机对话内容所涉及的计算思维子维度；

从所述计算思维测试数据库中提取所述当前作答的题目ID对应的数据，并通过预设的映射函数确定所述当前作答的题目ID在所述计算思维子维度上所考察的难度等级，进而得到存疑计算思维子维度；

其中，所述预设的文本分析模型是以标注有关系标签的事件元素作为训练数据训练得到的卷积神经网络。

可选地，所述根据所述潜在计算思维品质和所述存疑计算思维子维度确定所述学习者的推荐题目，包括：

构建一个队列，所述队列用于存储所述学习者待回答的题目；

根据所述学习者预先确定的自评结果从预设的题库中随机获取若干个题目，并将随机获取的若干个题目存储于所述队列中；

当所述学习者完成一个所述待回答的题目后，从所述预设的题库中选取与所述存疑计算思维子维度相匹配的题目加入所述队列；

对比所述潜在计算思维品质和所述当前计算思维品质，若对比结果不匹配则从所述预设的题库中选取与所述潜在计算思维品质相匹配的题目加入所述队列；

其中，所述队列中的题目作为所述推荐题目。

本申请的另一方面还提供了一种基于人机对话的计算思维品质评估***，包括：

第一模块，用于构建计算机代理，所述计算机代理用于以人机对话形式提供多个题目和多个所述题目的解题提示；

第二模块，用于获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，所述答题信息包括行为信息和文本信息；所述行为信息包括所述学习者答题的行为步骤、答题的时间戳和交互类题目的作答结果；所述文本信息包括所述学习者与所述计算机代理的人机对话内容和文本类题目的作答结果；

第三模块，用于构建计算思维测试数据库，所述计算思维测试数据库包括题目信息和所述答题信息；所述题目信息包括多个所述题目及对应的所述解题提示；

第四模块，用于根据预设的自动评估算法和所述计算思维测试数据库，去除所述答题信息中不符合预设条件的异常数据，再根据所述答题信息及对应的所述题目信息确定所述学习者的当前计算思维品质。

本申请的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现前述的方法。

本申请的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现前述的方法。

本申请还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行前述的方法。

本申请首先构建计算机代理，计算机代理用于以人机对话形式提供多个题目和多个题目的解题提示，使得学习者可以通过计算机代理进行人机对话形式的答题；进而获取学习者通过计算机代理进行答题的过程中产生的答题信息；再将答题信息、多个题目和每个题目的题目提示加入到计算思维测试数据库中；然后根据预设的自动评估算法和计算思维测试数据库，去除答题信息中不符合预设条件的异常数据，进而再根据答题信息及对应的题目信息确定学习者的当前计算思维品质。本申请提高了计算思维评价便捷性和准确性，解决现有计算思维评价过程累赘、评价结果不准确的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于人机对话的计算思维品质评估方法的流程示意图；

图2为本申请实施例提供的一种学习者与计算机代理进行人机对话的流程示意图；

图3为本申请实施例提供的一种文本分析模型的结构图；

图4为本申请实施例提供的一种基于人机对话的计算思维品质评估***的结构框图；

图5为本申请实施例提供的另一种基于人机对话的计算思维品质评估***的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

针对现有研究方法存在数据来源和评价指标较单一，评价结果不够准确，缺少维度划分，评价时间长，题目量大，难以根据学习者的情况进行个性化调整等不足，本申请提出一种基于人机对话的计算思维品质评估方法及***，其具有评价过程科学、评估结果准确、评估时间可控、评估任务精简等有益效果。

参照图1，本申请实施例提供了一种基于人机对话的计算思维品质评估方法，包括步骤S100至步骤S130，具体如下：

S100：构建计算机代理，所述计算机代理用于以人机对话形式提供多个题目和多个所述题目的解题提示。

具体地，学习者可以通过计算机代理进行人机对话进行答题。

S110：获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，所述答题信息包括行为信息和文本信息；所述行为信息包括所述学习者答题的行为步骤、答题的时间戳和交互类题目的作答结果；所述文本信息包括所述学习者与所述计算机代理的人机对话内容和文本类题目的作答结果。

具体地，学习者在答题过程中可以产生多种答题信息，例如行为信息和文本信息，获取该答题信息可以用于评估学习者的计算思维品质。

进一步地，S110可以包括：

S120：构建计算思维测试数据库，所述计算思维测试数据库包括题目信息和所述答题信息；所述题目信息包括多个所述题目及对应的所述解题提示。

具体地，考虑到学习者在答题时产生大量的答题信息，同时计算机代理又可以提供多个题目和多个题目的解题提示，数据量同样庞大，因此，本实施例可以构建计算思维测试数据库存储上述信息。

进一步地，S120可以包括：

构建计算思维测试数据库；

具体地，本实施例可以通过人工标注的方式标注第一数据集中的能力标签和水平标签，人工标注后再获取相应的标签即可。

获取第二数据集中的答题正确性标签的步骤，具体可以包括：

表征作答结果的行为信息和文本信息通过与日志服务器关联的日志采集***采集，并存储于日志缓存集群；从日志缓存集群获取学生当前作答的题目ID以及学生的答题结果，将日志文件中学习者的答题结果与标准答案进行比较，根据比较的结果，将正确与否作为标签存储在计算思维测试数据库的第二数据集中，该标签将用于记录学生的答题正确性。

S130：根据预设的自动评估算法和所述计算思维测试数据库，去除所述答题信息中不符合预设条件的异常数据，再根据所述答题信息及对应的所述题目信息确定所述学习者的当前计算思维品质。

具体地，答题信息中不符合预设条件的异常数据可以是指与上述行为信息或文本信息不相符的数据，去除异常信息后，本实施例可以利用计算思维测试数据库中的答题信息及对应的题目信息，结合预设的自动评估算法确定学习者的当前计算思维品质。

进一步地，S130可以包括：

根据各个所述能力标签对多个所述题目进行分组；

考虑到，学***的学***3的，可以直接推荐水平3的题目。

因此，本实施例还可以包括确定学习者推荐题目的步骤，包括S140至S160：

S140：构建潜在计算思维品质评估模型，利用所述潜在计算思维品质评估模型对所述行为信息提取特征和识别所述学习者答题的行为模式，得到潜在计算思维品质。

进一步地，构建潜在计算思维品质评估模型的步骤可以包括：

其中，所述循环神经网络模型包括：

S150：通过预设的文本分析模型对所述文本信息进行语义分析和主题分类，确定所述学习者在答题过程中无法个人解决的子维度，作为存疑计算思维子维度。

进一步地，S150可以包括：

S160：根据所述潜在计算思维品质和所述存疑计算思维子维度确定所述学习者的推荐题目。

进一步地，S160可以包括：

其中，所述队列中的题目作为所述推荐题目。

计算思维是一种聚焦于“过程”的思维和能力，其强调利用计算机科学的基础概念来解决问题、设计***和理解人类行为，它可以被分为计算概念、计算实践和计算观念三个子维度。本申请实施例提出一种基于人机对话的计算思维品质评估方法及***，通过人机对话为学习者提供答题过程中的帮助，避免学习者在测试中长时间的困惑导致的倦怠感和无助感，同时基于自然语言理解和机器学习的实时分析学习者的答题过程和结果，实现评价过程的高效性、测试题目推荐的个性化和计算思维测评结果更新的实时性，很大程度上能够解决当前计算思维测评任务量大、结果不够精准的问题，促进计算思维评价的便捷性和针对性，以评价为导向促进优化计算思维培养。

为了便于更清楚地了解本申请，接下来以可选的具体实施例对本申请进行说明。

本实施例公开了一种基于人机对话的计算思维评价方法，包括：

获取计算思维测试题目信息，通过人工标注的方式将每个题目所考察的一个或多个计算思维子能力及其难度水平进行标记，将所考察的能力、能力水平标签和题目内容、题目的答案、题目ID存储在第一数据集中；

获取学习者答题情况信息，通过日志文件中实时获取学习者当前正在作答的题目ID和答题过程中的行为信息，当学习者完成题目后，将当前的题目ID、答题时间戳、答题的正确性、答题过程的行为信息存储在第二数据集中；

构建计算思维测试数据库，将第一数据集和第二数据集的内容存入计算思维测试数据库中；

基于计算思维测试数据库中目标用户的答题情况信息及对应的题目信息对学习者当前的计算思维品质进行分析：

具体地：

从计算思维测试数据库中提取学生完成的题目ID、答题时间戳、答题正确性标签、题目考察的能力标签、能力水平标签；

通过Robust标准化对不同能力水平标签进行标准化处理；

根据每个做题历史信息中的能力标签对题目进行分组，一个做题历史可以存在于多个分组中；

选取每个分组中被正确作答且所考察能力水平最高的记录，将该能力水平作为学生当前该能力的水平。

在本实施例中，构建计算机代理来进行人机对话，通过分析人机对话的内容获取存疑的计算思维维度，具体示例流程可参考图2，图2中的目标对象是指学习者。

具体地，通过WebSocket接口将目标对象提出的问题传递给计算机代理；计算机代理使用训练好的自然语言理解模型来分析学生的问题，模型将帮助代理确定问题的意图和提取相关实体；通过对话管理器(Rasa Core)的对话策略帮助对话代理根据问题的意图和上下文来确定回应方式；对话策略包括基于生成式对话模型的回答或预定义的回答模板生成回答；最后，通过WebSocket接口将生成的回答传递给计算思维测试***。

具体地，本实施例可以对自然语言理解模型和生成式回答模型进行训练与集成。其中，自然语言理解模型的构建可以通过如下步骤实现：

步骤1：创建训练数据，准备包含问题文本和对应意图标签的训练数据集。每个训练样本应该包括一个问题和该问题对应的意图标签。

步骤2：配置Rasa NLU模型，创建一个配置文件(config.yml)来指定模型的参数和NLU管道。在配置文件中，使用spaCy作为标记化和特征提取工具，并配置管道以包括意图分类器。

示例配置文件如下：

pipeline:

-name:"WhitespaceTokenizer"//用于将输入文本分割为单词或标记；

-name:"LanguageModelFeaturizer"//使用预训练的Bert模型，将文本信息转化为语义向量；

model_name:"bert-base-chinese"

model_weights:"bert-base-chinese"

cache_dir:null

-name:"EntitySynonymMapper"//用于将实体的同义词映射到标准化的实体标签；

-name:"SklearnIntentClassifier"//用于意图分类的组件，它可以将输入的文本映射到预定义的意图标签。

其中，配置文件中会明确，自然语言模型采用的是Bert模型，用于将文本信息转化为语义向量并进行意图分类。Bert模型是由多个Transformer层组成，每个Transformer层又包括以下两个子层：

自注意力机制(Self-Attention Mechanism)：该子层会为输入文本中的每个词或子词分配权重，以便理解词与词之间的关系。这个子层可以学习到文本中不同词之间的关联性。

前馈神经网络(Feedforward Neural Network)：接收自注意力机制的输出，并通过神经网络层进行进一步处理。帮助模型理解词语之间的上下文信息和语义关系。

此外，为了提高模型的训练稳定性和性能。在Bert模型的Transformer的两个子层中，增加了残差连接(Residual Connection)和层归一化(Layer Normalization)。残差连接是将每个子层的输出与其输入相加，这有助于减轻梯度消失问题，并使训练更加稳定。层归一化则是一种正则化技巧，它有助于加速训练收敛，并改善模型在深层网络中的性能，其操作如公式(1)所示。其中ε(epsilon)是一个小的正数，用于防止方差为零的情况，p是输入的值，a是输入的均值，b是输入的方差,h是归一化后的值,gamma是一个可学***移参数。

最终输出＝gamma×h+beta(1)

步骤3：运行Rasa NLU的训练命令来训练模型，在训练过程中，模型将学会将输入问题映射到相应的意图标签。

步骤4：将训练好的Rasa NLU模型集成到计算机代理中。在计算机代理配置文件中，配置NLU组件，并确保自然语言理解模型能与对话管理器(Rasa Core)协同工作。

对话管理器会根据自然语言理解模型输出的意图识别的结果来确定回应方式。在对话管理器的配置文件中，使用Mapping Policy来将特定意图映射到回答模板。同时，配置Fallback Policy来处理当没有匹配的映射时，默认选择生成式回答模型。

其中，生成式回答的模型构建可以通过如下步骤实现：

步骤1：收集包括问题、题目ID以及与之相关的参***的对话数据。数据以CSV文件的形式组织，每行包括输入问题、题目ID和对应的答案样本。

步骤2：使用文本预处理工具(tokenizers库)对文本数据进行分词、编码、归一化等处理，将其转换为向量。

步骤3：使用Hugging Face Transformers库加载预训练的seq2seq(Sequence-to-Sequence)模型，Seq2Seq模型是由编码器(Encoder)和解码器(Decoder)组成的。其中，编码器负责将输入序列(文本)编码为语义表示，并捕获输入序列的上下文信息。编码器的关键层为：

嵌入层(Embedding Layer)：输入序列中的词或子词会首先通过嵌入层转换为连续的向量表示，以便模型能够处理它们。这一层将离散的词语映射到连续的向量空间。

Transformer编码器：这是编码器的核心部分，它接收嵌入后的输入序列，并逐步捕获上下文信息。对于Transformer编码器，它由多个自注意力层和前馈神经网络组成，用于同时处理整个输入序列。

上下文向量：最终，编码器会将整个输入序列编码为一个固定大小的上下文向量或矩阵，该向量或矩阵包含输入序列的语义信息。这个上下文向量会传递给解码器以帮助生成输出序列。

解码器接收编码器传递的上下文向量，并将其解码为输出序列，该序列生成文本以回答目标对象问题的结果。以下是解码器的关键层：

Transformer解码器：包含多个Transformer的解码器层。它逐步生成输出序列的词或子词。与Transformer编码器一样，Transformer解码器也是它由多个自注意力层和前馈神经网络组成；

注意力机制(Attention Mechanism)：注意力机制来关注输入序列的不同部分，以确定生成输出序列的每个词的重要性。这有助于模型在生成时更好地关注输入序列的相关信息。

生成输出序列：根据上下文向量、已生成的部分序列和注意力机制的帮助，逐个生成输出序列的词或子词，直到生成完整的序列。在生成序列时，通常从一个特殊的起始标记开始，然后使用集束搜索策略，考虑多个备选词，以选择最合适的词。

步骤4：定义损失函数(交叉熵损失)和优化器(Adam)。

进一步地，基于对计算机代理与目标对象对话的文本信息进行语义分析和主题分类，确定在答题过程中无法个人解决的子维度；

基于在答题过程中无法个人解决的子维度和对应的题目ID确定存疑的计算思维品质。

具体地，步骤如下：

步骤1，获得人机对话的文本信息，通过词嵌入模型(Word2Vec)将文本数据转换为模型可理解的语义向量；

步骤2，提取当前题目答题过程中人机对话的文本数据和题目ID，作为文本分析模型的输入；

步骤3，通过文本分析模型得到该对话所涉及的计算思维子维度；

步骤4，从计算思维测试数据库中提取该题目ID所对应的记录，通过映射函数确定该题目在所述计算思维子维度上所考察的难度等级，进而得到存疑计算思维子维度；

进一步，还包括对文本分析模型的训练，具体为：

数据收集与准备：收集足够的人机对话数据，其中包括对话文本和相应的题目ID。将数据划分为训练集、验证集和测试集。

文本预处理：对话文本进行预处理，包括文本分词、去除停用词、进行词嵌入(WordEmbedding)等操作，以将文本转换为模型可接受的输入格式。

模型训练：利用训练集对卷积神经网络(CNN)进行训练。在训练期间，模型将尝试学习如何从文本数据中提取有关计算思维子维度的信息。训练的目标是最小化损失函数，该函数度量模型的预测与实际标签之间的差距。

参照图3，本实施例提供了一种文本分析模型的结构示意图，该文本分析模型是一个卷积神经网络，其可以包括输入层、卷积层、激活函数层、池化层、全连接层。其中，输入层主要输出词嵌入模型处理后的词嵌入向量，将词嵌入向量堆叠成一个二维矩阵，其中每一行代表一个词嵌入向量；卷积层是卷积神经网络的核心部分，用于捕获文本中的局部特征。激活函数层则在卷积层之后添加激活函数ReLU(Rectified Linear Unit)，如公式(2)，其中x是输入的值，如果x大于等于0，则输出等于x，否则输出为0以引入非线性性质。

ReLU(x) ＝ max(0, x) (2)

池化层则用于减小特征图的大小，降低计算复杂度，并提取最重要的特征；全连接层位于网络的顶部，用于将卷积和池化层提取的特征映射到最终的输出类别。

在本实施例中，将计算思维测试数据库中表征学生答题过程的行为信息转变为向量序列，利用循环神经网络模型捕捉行为信息中的模式和顺序信息，进而预测出行为模式所对应的潜在计算思维品质。

其中，循环神经网络模型的关键是循环层和全连接层，循环层运用的是长短时记忆网络(LSTM)，用于捕捉序列数据中的时间依赖关系。通过LSTM中多个LSTM单元，能够逐个时间步处理输入的每个行为，并在每个时间步产生一个特征向量，该特征向量包含了行为信息的重要特征，同时也包含前面时间步的信息。最终，循环层会输出一个特征向量序列。该序列将作为全连接层的输入，全连接层会展平LSTM输出的向量序列，将多个向量连接成一个长向量。长向量通过多个神经元映射到中间表示，其中最后的三个神经元，每个神经元会输出一个标量，分别对应计算思维三个不同的子维度。这三个标量会被进一步应用于激活函数Softmax将其量转换为三组概率分布，对各组概率分布进行随机采样，得到一个采样值，采样值将对应该维度的水平。激活函数Softmax如公式(3)所示，其中e^z1、e^z2、e^z3分别是三个标量的输出值。

P₁＝e^z1/(e^z1+e^z2+e^z3)

P₂＝e^z2/(e^z1+e^z2+e^z3) (3)

P₂＝e^z3/(e^z1+e^z2+e^z3)

进一步地，还包括对循环神经网络模型进行训练，具体为：

获取不同计算思维品质学***，将表征答题过程的行为信息及对应的计算思维品质构造为训练集；

利用训练集对循环神经网络模型进行训练，捕捉答题行为的序列信息和不同子维度水平之间的关联。在训练过程中，模型将尝试学***。训练的目标是最小化损失函数，该损失函数度量模型的预测与实际标签之间的差距。应本***需求为多标签分类，损失函数采用的是二进制交叉熵损失函数，具体为：

其中，是损失函数，表示实际标签y与模型的预测标签/>之间的差距；N是训练样本的数量；M是子维度的数量(根据本实例的设置，计算思维的子维度为3个)；y_ij是实际标签中第i个样本的第j个子维度的值，通常为0或1，表示是否属于该子维度；/>是模型的预测值，表示第i个样本的第j个子维度的水平。

在训练过程中，使用优化算法(Adam)来不断调整模型的权重和偏差，以最小化损失函数。通过在训练集上反复迭代训练模型，使其逐渐提高对答题行为和计算思维品质之间关系的理解能力。

进一步地，根据潜在计算思维品质和存疑的计算思维子维度为目标对象个性化推荐题目，具体包括：

构建一个队列来存储待完成的题目，从计算思维测试数据库中随机选择一些题目，并将它们加入待完成题目队列。这一步可以根据学生的自评来决定题目数量和难度等级，以确保题目的适应性。

学习者逐个完成队列中的题目。在完成每个题目后，分析表征学习者答题过程的行为信息和文本信息，得到潜在计算思维品质和存疑的计算思维子维度。

根据潜在计算思维品质和存疑的计算思维子维度动态地调整队列中的题目。即如果学***)匹配的题目记录。从匹配的题目记录中选择一个或多个题目，将它们添加到学习者的题目队列中。如果学习者正确完成了题目的作答，并根据对表征答题结果的行为信息或文本信息分析得到当前计算思维品质的，根据对标准答题解结果的行为信息得到了潜在计算思维品质，可对比潜在计算思维品质和当前计算思维品质，若二者不匹配，则根据潜在计算思维品质在计算思维测试数据库中找到对应难度的题目，将其纳入待完成题目的队列中。

参照图4，本发明实施例提供了一种基于人机对话的计算思维品质评估***，包括：

图4所示的计算思维品质评估***的具体实施方式与上述计算思维品质评估方法的具体实施例基本相同，在此不再赘述。

参照图5，本申请实施例还可以提供另一种基于人机对话的计算思维品质评估***，包括：

计算思维测试数据库模块，被配置为：构建存储题目信息和目标对象(即学***标签、题目内容、题目答案、学习者完成的题目ID、答题时间戳、答题的正确性、答题过程的行为信息；

人机对话模块，被配置为：利用Rasa NLU模型，即自然语言理解模型对学习者的问题进行自然语言理解，将问题映射到特定的意图和实体，再通过Rasa Core，即对话管理器根据当前对话状态和学习者的意图来选择适当的回应，并利用生成式对话模型或预定义的回答模板生成回答；

当前计算思维品质计算模块，被配置为：对比表征完成结果的信息和预设的题目答案，并将完成的正确与否作为标签对学生的行为信息进行标记，存储到计算思维测试数据库中。若回答正确则根据题目ID得到对应的题目考察的能力及水平，获取学习者当前计算思维品质；

潜在计算思维品质预测模块，被配置为：利用循环神经网络对表征学习者答题过程的行为信息进行分析，捕捉行为信息中的模式和顺序信息，进而预测出行为模式所对应的潜在计算思维品质；

存疑计算思维子维度分析模块，被配置为：获取人机对话的文本信息以及该对话内容对应的题目ID，利用文本分析模型确定人机对话内容所设计的计算思维子维度，根据此段人机对话内容所对应的题目ID，从计算思维测试数据库中提取对应的记录，通过映射函数确定该题目在所述计算思维子维度上所考察的难度等级，进而获得存疑计算思维子维度；

个性化推荐模块，被配置为：构建待完成题目的队列，根据学***的10道题目纳入队列。然后根据学习者答题情况得到当前计算思维品质、存疑计算思维子维度和潜在计算思维品质，并据此动态调整队列。将潜在计算思维品质与当前计算思维品质对比，若二者不匹配则在计算思维测试数据库中找到潜在计算思维品质对应的题目，纳入待完成题目的队列；若学习者在答题过程中存在人机交互，则根据人机对话内容获得存疑计算思维子维度，在计算思维测试数据库中找到存疑计算思维子维度对应的题目，纳入待完成题目的队列。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述计算思维品质评估方法。

具体地，电子设备可以是用户终端，也可以是服务器。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述计算思维品质评估方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体地示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于人机对话的计算思维品质评估方法，其特征在于，包括：

利用所述计算机代理获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，所述答题信息包括行为信息和文本信息；所述行为信息包括所述学习者答题的行为步骤、答题的时间戳和交互类题目的作答结果；所述文本信息包括所述学习者与所述计算机代理的人机对话内容和文本类题目的作答结果；

2.根据权利要求1所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，包括：

3.根据权利要求1所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述构建计算思维测试数据库，包括：

构建计算思维测试数据库；

4.根据权利要求3所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述根据预设的自动评估算法和所述计算思维测试数据库，去除所述答题信息中不符合预设条件的异常数据，再根据所述答题信息及对应的所述题目信息确定所述学习者的当前计算思维品质，包括：

根据各个所述能力标签对多个所述题目进行分组；

5.根据权利要求1所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述构建潜在计算思维品质评估模型，包括：

其中，所述循环神经网络模型包括：

7.根据权利要求5所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述通过预设的文本分析模型对所述文本信息进行语义分析和主题分类，确定在所述学习者在答题过程中无法个人解决的子维度，作为存疑计算思维子维度，包括：

8.根据权利要求5所述的一种基于人机对话的计算思维品质评估方法，其特征在于，所述根据所述潜在计算思维品质和所述存疑计算思维子维度确定所述学习者的推荐题目，包括：

其中，所述队列中的题目作为所述推荐题目。

9.一种基于人机对话的计算思维品质评估***，其特征在于，包括：

第二模块，用于利用所述计算机代理获取学习者通过所述计算机代理进行答题的过程中产生的答题信息，所述答题信息包括行为信息和文本信息；所述行为信息包括所述学习者答题的行为步骤、答题的时间戳和交互类题目的作答结果；所述文本信息包括所述学习者与所述计算机代理的人机对话内容和文本类题目的作答结果；

10.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至8中任一项所述的方法。