CN107851398A

CN107851398A - 用于自适应评估和训练的***及方法

Info

Publication number: CN107851398A
Application number: CN201680031960.1A
Authority: CN
Inventors: D·尼米; W·维拉皮蒂亚; R·S·布朗; J·史密斯
Original assignee: Kaplan Ltd By Share Ltd
Current assignee: Kaplan Ltd By Share Ltd; Kaplan Inc
Priority date: 2015-04-03
Filing date: 2016-04-04
Publication date: 2018-03-27
Also published as: EP3278319A4; AU2016243058A1; US20160293036A1; WO2016161460A1; EP3278319A1

Abstract

提供了一种自适应***、方法以及计算机可读介质，以确定用户在特定区域的熟练程度，所述计算机可读介质上具有用于经由处理器执行方法的指令。在实施例中，使用机器学习***来确定用户的熟练程度，在机器学习***中，***和方法基于用户输入的答案和其他用户的输入答案来调整用户的级别，以便根据用户的理解和通过处理器观察到的其他因素来创建更加深刻的确定过程。

Description

用于自适应评估和训练的***及方法

相关申请的交叉引用

本发明要求于2015年4月3日提交的题为“自适应语言专业测试与训练的***及方法(SYSTEM AND METHOD FOR ADAPTIVE LANGUAGE PROFICIENCY TEST AND TRAINING)”、序列号为62/142,967的美国临时专利申请的优先权，其全部内容通过引用整体并入本文。本发明通过引用将以下申请整体并入本文：于2016年4月4日提交的、题为“用于适应性评估和训练的***及方法(SYSTEM AND METHOD FOR ADAPTIVE ASSESSMENT AND TRAINING)”、序列号为_____的美国非临时专利申请。

技术领域

本发明涉及一种***、方法以及计算机可读介质，其用于执行自适应量化***的由处理器执行的方法或指令集。更具体地，本发明涉及一种用于确定用户的熟练程度或提供特定区域的训练的自适应***。

背景技术

近十分之一的年龄介于16岁与64岁之间处于工作年龄的美国成年人被认为英语水平有限。据报道，有效的英语语言教学是必不可少的反贫困工具。据报道，贫困和对公共福利比如食品券的需求，与英语水平有限的人更为密切相关，而不是与没有美国公民身份或合法身份的人更密切相关。此外，许多英语能力有限的人不能经常定期出席课程。这只是用户的能力需要评估、处理和重新评估的业界例子之一。

因此，需要这样的高质量的具有吸引力的内容程序，其能够按需使用并且能够有效且准确地对技巧的掌握程度和竞争力进行量化。此外，需要一种这样的***，其使得快速学习的用户基于对其先前学习或技能的自动或按需评估来跳过已掌握的内容。此外，需要一种***，其定义用户掌握程度的差距，和/或确定哪些进一步的课程或学习被推荐来解决差距或问题。

发明内容

本发明的实施例提供了一种***、方法以及计算机可读介质，其用于执行由处理器为自适应量化和/或训练***执行的方法或指令集。本发明的实施例提供了一种用于确定用户在诸如语言、数学、科学、艺术、社会研究、历史、外语、理解能力、认知能力等特定领域的熟练程度的适应性或机器学***。

本发明的实施例提供了对技能、例如语言能力的评估，其适应于学生的需要，通过不断地接收评估数据并动态地调整至学生的技能水平来适应。本发明的实施例通过反馈学生或用户的答案和测试轨迹来提供人造智能(Al)或机器学***。

本发明的一个实施例是具有精确效率和可访问性的将英语作为第二(ESL)或外语(EFL)的自适应评估***。本发明的一个实施例基于欧洲共同参照框架(CEFR)。在一个实施例中，实施了一个项目答复理论(IRT)算法，以便立即确定初始能力、规定开发区域、并随时间累积地跟踪个体进度。

在一个实施例中，该***是企业对企业(B2B)，企业对行业(B2I)和企业对政府(B2G)软件即服务(SaaS)以及需要评估ESL/EFL语言能力的企业、学校和政府的咨询方案。本发明的一个实施例是一种计算机适应性评估工具，其根据各个测试者的评估能力来调整测试项目的难度。该工具使用包含项目答复理论(IRT)引擎的定制***，以便为表现较好的测试者生成更难的项目，并为表现较差的测试者提供更容易的项目。根据本实施例中的这些实施例的计算机适应性评估，与使用纸和铅笔测试的那些评估相比，需要较少的项目来建立个体的能力水平。本发明的一些优点包括：提供测试者能力的精确评估的更短的测试事件；改进的测试体验，即测试事件，其根据测试者的能力进行调整，以使个人不会尝试太容易或太难的测试；减少作弊，即，没有两名测试者会尝试完全相同的项目配置；以及更具成本效益，因为基于纸张的测试不需要为每个测试者手工复制或分级。

在一个实施例中，该***是基于云的和/或移动的评估平台，其使得客户/许可证持有人能够以自己的设置并且按照自己的时间表来容易地管理评估。在一个实施例中，该***是数据分析工具，其使客户/许可证持有人能够定义群组和/或量化学习进度。在一个实施例中，该***在科学上等同于国际英语语言测试统(IELTS)、剑桥考试和/或作为外语的英语的测试的考试(TOEFL)。

在一个实施例中，***被布置成对用户进行测试以便量化特定的问题或技能水平。例如，一些问题或技能水平可以包括：语言能力、员工保留与语言(或其他)学***可以包括：最长的终身教师是否比新员工更有效率、高级学位的教师是否比其他人更有效效率、需要什么ESL技能来解决补***可以包括：申请公民身份的哪些国籍需要最多的额外培训和哪些技能。对于学生来说，最低和平均CEFR(欧洲共同参考框架)入门级或ELTS等值分数是多少、每个ESL学校在提高熟练程度方面的有效性是更加同等有效的具体方案。

本发明的实施例可以由对特定区域的量化、评估或训练感兴趣的任何个体使用。更具体地，本发明的实施例更有利于：国际和国家职业学校、进行英语教学的高校，招聘海外人员的高校、包括工作和旅行的J-1签证计划、互惠生和营地辅导员计划、高中、学院和大学生、研究学者、路径类型计划(BEO)、政府、雇主、EFL链、大学预备课程、K-12学区、呼叫中心、出版合作伙伴等。

本发明的实施例提供一种评估***、方法以及计算机可读介质，所述计算机可读介质上具有可由处理器或计算机执行的指令。评估实施例包括以下特征中的一个或多个：基于云的；支持移动设备；累积进度跟踪；可定制；标准化测试一致；不需要测试中心；自适应；机器学习；规定的建议；符合CEFR(适用于语言)；适合定位测试和进度测试；以及退出测试；被配置成测试语言的语法、阅读、听力、口语以及写作，自动评分；整体和技能得分；美国残疾人法案(ADA)可访问；并允许在口头和书写过程中引入人类的投入和参与。在行业中，没有其他知名的语言测试***结合了上述所有功能。

本发明的实施例是ADA可访问的。例如，在一个实施例中，提供了本发明的基于网络或基于计算机的版本，其已经针对WCAG 2.0级AA指南进行了测试。在一个实施例中，采用以下自动化工具：辅助开发工具(Chrome扩展)和axe开发工具。在一个实施例中，使用以下屏幕阅读器：ChromeVox(Chrome扩展)和VoiceOver。在一个实施例中，可以使用具有可访问性支持的各种第三方工具，包括：Ng-aria(以增强核心角度模块的可访问性)、UlBootstrap(以在交互式元素中提供ARIA属性)以及角度敏捷形式)。在一个实施例中，用户界面特征具有关于对于正常文本的4.5:1的对比度，以及具有关于大文本(例如，14点和粗体，或18点或更大)的3:1的对比度。在一个实施例中，交互式元件具有清楚的“选择”状态或聚焦指示符，使得其可以在没有鼠标的情况下使用。这包括所有表单元素，按钮和网站导航。在一个实施例中，已经实现了本文所述的各种特征，以便使那些具有阅读障碍或认知疾病的患者受益。

本发明的实施例可以经由互联网/云、已启用的移动设备、移动应用、可加载的可执行文件、经由计算机可读介质等使用。

附图说明

图1示出了根据本发明的实施例的示例性映射。

图2示出了根据本发明的实施例的示例性映射。

图3示出了根据本发明的实施例的示例性映射。

图4示出了根据本发明的实施例的示例性映射。

图5示出了根据本发明的实施例的示例性熟练程度设置。

图6示出了根据本发明的实施例的示例性熟练程度设置。

图7示出了根据本发明的实施例的示例性架构。

图8示出了根据本发明的实施例的示例性结构。

图9示出了根据本发明的实施例的示例性用户界面。

图10示出了根据本发明的实施例的示例性用户界面。

图11示出了根据本发明的实施例的示例性用户界面。

图12示出了根据本发明的实施例的示例性用户界面。

图13示出了根据本发明的实施例的示例性结果评估。

图14示出了根据本发明的实施例的示例性过程。

图15示出了根据本发明的实施例的示例性过程。

图16示出了根据本发明的实施例的示例性过程。

图17示出了根据本发明的实施例的示例性过程。

图18示出了根据本发明的实施例的示例性过程。

图19示出了根据本发明的实施例的示例性后端处理。

图20示出了根据本发明的实施例的示例性过程。

图21示出了根据本发明的实施例的示例性过程。

图22示出了根据本发明的实施例的示例性过程。

图23示出了根据本发明的实施例的示例性过程。

图24示出了根据本发明的实施例的示例性过程。

图25示出了根据本发明的实施例的示例性过程。

图26示出了根据本发明的实施例的示例性元数据。

具体实施方式

本发明的实施例以下项中的至少一个：***、方法、设备、其上具有可执行程序的计算机可读介质设备、以及计算机程序产品。本发明的一个实施例用于使用连续接收评估数据的自适应学习***对语言技能进行客观评估。例如，该实施例可以提供可靠的英语语言能力评估。对英语语言技能进行可靠的评估使得机构能够对选择、定位以及进步做出明智的决定。

在一个实施例中，所述***是灵活和适应性的，通过语言技能的提高来跟踪测试者的进度。在一个实施例中，***向教育者和其他机构提供详细的结果，以了解个人的技能和/或知识以及可能存在的任何差距。该***可以基于欧洲共同参考框架(CEFR)和质量和语言服务评估与认证(EAQUALS)核心库存，上述两项是已知的语言量化框架和英语语言能力。在一个实施例中，***提供对已知标准化测试的准确评估和预测语言分数，所述已知标准化测试包括作为外语的英语的测试(TOEFL)、剑桥英语考试以及国际英语语言测试***(I ELTS)。

在一个实施例中，该***提供从CEFR得到的高度详细的技能层级。在一个实施例中，该***提供与专有技能层级相一致的多步基于研究的项目开发过程。在一个实施例中，该***提供用于开发技能层级的过程。在一个实施例中，提供嵌入了层次结构的项目开发蓝图。在一个实施例中，提供了CEFR一致的IRT缩放项目的数据库。在一个实施例中，提供了IRT项目缩放，其实现了与CEFR相关联的能力评估、对工作技能的推荐、进度的量化以及技能的扩展。在一个实施例中，缩放提供对每个项目的评估水平的检查。在一个实施例中，提供了基于对不同级别的学生所获得的成绩的研究，并且使用成功布置的数据进行了调整和验证的熟练程度的划界分数。在一个实施例中，提供了一种用于将自适应测试分数与表现得分(例如，写作和口语)进行组合的方法。在一个实施例中，提供涉及多级技能描述符的高度详细的项目标签、项目格式、时间限制等。

在一个实施例中，确定学生语言熟练程度，量化学生在一年或多年内熟练度的增长，以及推荐需要改进的技能领域。在一个实施例中，***包括用户界面、项目传送和数据收集***(例如，创建实际检查实例，收集学生答复)、修改的IRT引擎(使用项目答复理论类型算法和关系基于学生对所有以前项目的答复来为每个学生选择项目；可以是1个参数、2个参数或3个参数，例如，考虑了项目难度、项目辨别以及猜测因素的3PL引擎；所选择的基于学生能力评估和项目参数来最大化信息的项目)、数据库存储校准项目、项目参数以及其他信息和学生答复，以及报告生成器(报告学生语言能力水平、熟练程度随着时间的推移的变化、至少部分基于技能的IRT扩展的优势和劣势、教师、学校、课程等的描述性数据，导出到电子表格或其他位置的数据等)。

在一个实施例中，***包括定制的IRT引擎、评估引擎、访问控制层、评分和报告设备以及项目库。访问控制层包括对访问***的用户的认证以及对能够通过角色访问特定用户或群组的数据的租户的认证。评分和报告设备包括如下功能：缩放评估、将分数映射到级别、结包括租户、状态、日期等进行过滤的结果报告、查看尝试、查看多个评估进度以及管理评估重新设置。项目库包括对元数据、包括多项选择题的作者项目、组合问题或项目、生产项目等的管理。项目库还可以包括对包括搜索功能的项目、过滤条件以及特定项目的激活/停用的管理。项目库还可以包括上传的校准难度数据。

在一个实施例中，每个部分的测试焦点类别可以包括：听力(整体听力理解，理解母语者之间的对话、作为现场听众的成员进行收听、听通知和指示、听音频媒体和录音、识别提示并推断)；阅读(整体阅读理解、阅读信件、阅读入门指导、阅读信息和论证、阅读说明、识别提示和推断)；语法(话语标记、动词形式和时态、动名词和原形动词、条件词、被动语态、情态动词、冠词、限定词、形容词、副词、加强词、疑问词、名词，代名词、所有格、介词)；说(整体口语作品、持续独白描述经验、论证、模拟口语交互、信息交流、口语流利、词汇范围、语法准确性、一致性和凝聚力、社会语言适用性)；以及写作(整体书面作品、报告和散文、信件、笔记、信息以及形式、正字法控制、词汇范围、语法准确性、一致性和凝聚力、社会语言适用性)。

在一个实施例中，例如，***的项目库包括用于收听、阅读和语法部分的多个选择项，并且包括预A1级至C1级之前的所有级别的项目。演说部分包括在考试的自适应部分预测测试者的水平之后所管理的至少四个级别的测试形式。在一个实施例中，每个形式包括至少四个任务，其可以包括访问、描述、模拟交互(例如，语音邮件消息、模拟对话答复)和/或取决于表单的级别的语音任务。在一个实施例中，写作部分包括书写信件和写作散文和报告任务。

在一个实施例中，对于初始数据，诸如语言技能问题的项目可以作为维护问题的数据库输入到创作工具中。问题类型可以包括多项选择、填写空白、匹配、阅读、写作、语法、音频/听力技巧和文本答复。图8至图11示出了用户界面中不同问题类型的实施例。问题可以包括关于问题正在测试哪些技能的元数据，包括特定的区域或位置、词汇、理解水平和/或批判性思维。每个问题可以对与问题相关的困难程度进行初步缩放。可以开发问题来匹配已知的语言技能，包括但不限于简单的现在时态和简单的过去时态。从创作工具开发的问题可以保持在内容管理***或项目库中。问题类型可以有一个或多个类别。例如，对于语法类型的问题而言，类别可以包括目前完美的先进用途、从句、条件语句和愿望语句，比较级和最高级。收听类型的问题可以具有下述类别，该类别包括作为现场观众的成员的收听，记笔记(讲座、研讨会等)和整体听力理解。问题类型可以有任何数量的类别，并且与语言评估技能相关。图1显示出，可以开发问题和/或项目来匹配语言技能的领域。

然后，通过具有许多人回答问题来对这些问题进行校准，如图2所示。可以对答案进行汇总，以评估每个问题的难度级别。在一个实施例中，初始问题可以被上传到创作工具，并且在指定数量的答复被接收之后，该问题被校准。可以通过基于所汇总的答复来评估难度级别来对该问题进行校准。

可以根据汇总的答复进行问题自动更新。可以根据汇总的答复来自动分析该问题。例如，如果一个问题最初被评估为难度级别，但是根据所接收的答复，可以更新难度级别。可以在对答复进行了任意数量的汇总之后继续自动更新该问题，以便根据所汇总的数据自动更新该问题。

也可以针对其他参数对该问题进行校准。例如，可以根据问题类型对问题进行校准。

当问题被校准成难度级别时，可以根据校准的难度级别对问题进行排序，如图3所示。如图4所示，测试者可以按比例包括在内，以便基于所正确回答的处于难度级别的问题来指出熟练程度处于什么水平。图5示出了取决于对测试者进行评分的难度的一个或多个技能水平，这对应于测试者熟练程度。

内容管理***可以存储问题，以及在数据被收到时所更新的问题。内容管理***可以自动检查问题，在向受试者提供问题之前提供质量控制审查。例如，内容管理***可以检查问题的拼写和语法。内容管理***可以从创作工具中查看所分配的难度级别。内容管理***可以更新问题以纠正拼写和/或语法，以及根据先前所输入的信息调整难度级别。内容管理***还可以从测试者接收数据，并根据所接收的信息更新所存储的问题。

在一个实施例中，可以给予测试者的校准的问题用于固定的初始评估。也就是说，一个或多个问题还不能适应。回答的问题可以提供初步确定的能力和/或技能集。例如，初步评估可以确定语言技能。在回答一个或多个问题之后，如下文所述，可以通过提供自适应问题来开始评估测试者的能力。

图7示出了所述***的概述。自适应评估引擎是一个负责在评估期间评估学***与测试者开始错误地回答问题时的难度级别相关。图12示出了指示测试者的测试结果的用户界面的实施例。例如，测试结果可以表明熟练程度、原始和/或经缩放的分数以及测试所花费的时间。结果还可以提供关于问题类型和/或所回答的问题的类别的下述信息：所花费的时间和原始/经缩放的分数信息，以使得测试者能够识别知识差距。

在一个实施例中，IRT项目校准提供关于问题有效性的证据，并且识别质疑要被丢弃的问题。例如，如果一个问题包含令人困惑的信息或者对于测试者来说不太熟练的技能，那么IRT算法就可以从评估中识别该问题并丢弃该问题。

测试者根据评估来分配熟练程度或能力水平。熟练程度可以识别测试者的语言能力；熟练程度还可以表明测试者的技能和/或知识差距。熟练程度可以与语言课程相关联。这些课程可以被确定为提供指定的技能和/或能力。测试者可以基于熟练程度参加一门满足的缺失技能和/或知识的语言课程。

当测试参与并成功完成课程时，可以提供另一个评估，从而确保技能和/或知识空白已经被填补，并且他们的熟练程度根据他们的额外技能进行调整。例如，可以提供分析引擎，用于跟踪学生进度、汇总结果、校准项目以及根据估算值进行推理。分析引擎可以由学习者(测试者)和教育者二者使用。教育者可以查看并输入学生(例如，学习者和/或测试者)的信息。教育工作者可以根据分数和所确定的熟练度程度来接收学习者的自动评估。教育者可以接收所推荐的课程的信息，以满足学生的技能和/或知识差距。例如，分析引擎可以汇总评估并分析学习者群体。例如，一组测试者可以进行初步评估。然后，考试人员可以进行旨在解决初始评估所确定的技能和/或知识差距的课程。在课程结束时，二级评估可以确定是否已经弥补了这些差距。二级评估还可以分析教育者的成效。例如，可以分析所测试的技能和/或知识的类型，以确定教育工作者关注课程的领域。测试评估可以与适当的在线学习材料相关联，提高学生进步的速度和效率。测试者的适应性评估还可以引导学生参与改进的和/或更有针对性的课程。

所述***和方法的优点包括比现有的测试具有更高的效率，因为其使得不同的学生能够通过不同的问题进行评估，却仍然以相同的能力量表进行评估。测试可以等同的，以便可以对测试者的语言技能增长进行测试，并且测试者可以对于不同的测试的表现进行比较。

所述评估可以作为应用程序和/或基于网页的用户界面来提供。可以针对特定客户来定制该界面。例如，可以针对学校和/或大学来定制该用户界面。关于用户和创造者的访问是可控制的。客户可以使用电子表格上传学生，或者可以将其与现有身份提供者(例如，活动目录(Active Directory)、谷歌应用程序)集成。用户界面也可以嵌入到其他现有应用程序中。例如，客户可以使用JavaScript库将用户界面嵌入到员工培训门户中。RESTful API还可以用于在诸如平板电脑、移动电脑和移动电话之类的移动设备上实现。

本发明的实施例提供了自适应评估，其由基于修改或定制的项目响应理论(IRT)的引擎驱动。定制引擎基于用户对先前问题的回答来评估每个学生或用户的能力，并选择最匹配学生能力的新项目。这种自适应方法比传统的固定测试更有效率，所述传统的固定测试对所有学生都提供相同的项目。在一个实施例中，当学生完成自适应评估测试时，***为测试的每个部分分配CEFR级别以及整体级别。在一个实施例中，***可以报告每个学生的技能优势和技能弱点。在一个实施例中，该***提供技能列表，特定学生需要掌握所述技能列表以达到下一级别。在一个实施例中，技能列表可以包括到定制的学习材料的引用或链接或者帮助学生学习相应的技能的其他可用的引用。在一个实施例中，可以出于特定目而定制***。例如，储存库或数据库或其他存储介质中的项目可以被标记，以用于多个级别和/或技能和/或目的以及用于多个测试环境。例如，项目被标记用于配置和托福测试模拟，或仅在诸如澳大利亚/新西兰、英国、北美洲之类的特定区域使用。

在多个实施例中，都可以创建自适应测试和固定测试，并且测试中的每个部分和项目可以被定制为定时或未定时的。在一个实施例中，测试管理员可以针对测试和部分设置时间或项目编号限制，并且可以通过各种方式对项目进行过滤。例如，对诸如长阅读段落之类的项目被过滤以用于水平测试，但不用于分班测试。在一个实施例中，***通过多个测试事件跟踪用户的进度，并且在用户学***测试或其他测试。在一个实施例中，对于学生所进行的每个新测试，该测试将根据先前的测试来记住学生能力评估，例如所述学生的能力评估被存储在数据库或其他存储介质中。

在一个实施例中，学生在一段时间内的考试成绩可以提供给管理者或老师。在一个实施例中，生成报告以精确地显示每个学生在绩点量表和级别分段表上进步了多少。在一个实施例中，报告被生成以显示学生掌握了哪些技能，以及哪些技能需要更多的工作。在一个实施例中，测试得分被导出为.csv或.doc或其他格式文件，并且可以作为学生学习过程的综合进度报告提供给学生。

在一个实施方式中，实施的全球课程是一个综合框架，其结合了听、读、写、口语制作以及口语互动“可以做”的描述符。每个描述符被分解以定义技能、次级技能、文本类型，Flesch-Kincaid可读性以及与描述符的特定级别相关联的各种不同特征。在一个实施例中，使用CEFR或者EAQUALS描述符和/或级别。

在一个实施例中，***报告用于评估学生的总分以及每个技能部分的分数。总分是通过分析每个评估项目的表现的公式来计算的。可以在0到700的范围内报告总分。在一个实施例中，仅基于每个技能部分的表现来计算个人技能部分的分数。每个技能部分也在0到700的范围内进行评分。与许多传统评估不同，实施例的总分并不是个人技能分数的总和或平均值。评估收集信息并且有效地同时对总体表现和个人技能表现进行分析。

在一个实施例中，当***建议技能增强时，这样的建议可能是观看夜间新闻并记录主要事实，或者为自己留下语音邮件消息用于描述事件以创建流畅性。在一个实施例中，由于技能建议是基于实际的学生表现数据生成的，因此学生可以接收高于或低于其总体CEFR级别的技能的建议。

在一个实施例中，***管理员可以具有修改和/或维护***的各种不同的能力，其包括例如登录、认证控制、用户锁定、更改密码、编辑简档、由租户过滤、尝试跟踪、按用户名或姓名过滤、按类别过滤、按用户状态过滤、按锁定的用户过滤、导出到csv文件、查看学生尝试记录、编辑用户、切换用户，手动添加新用户或批量添加信用新用户、一般视图、仪表板视图、详细视图、删除尝试、管理租户、评估列表、复印评估、评估用户、添加新评估、总体评估设置和管理、评估部分设置、固定部分、自适应部分，该自适应部分包括仅选择如下项的选项：非分组项目、部分方向、选择技能、次级技能过滤器、技能标签过滤器、部分中最小数量的项目、部分中最大数量的项目以及关于未校准项目的项目播种器。进一步的功能可以包括：生产部门管理、评估密码、评估报告、项目库、项目库过滤器、添加新项目、多个选择项目、完形填空项目、组合项目、写/说话项目、区域管理员、级别管理员、技能设置、添加新技能、技能标签设置以及添加技能标签等。

在一个实施例中，使用了修改的IRT算法。在一个实施例中，IRT变量包括评估难度、辨别和猜测。在一个实施例中，测试包括所选择的答复、所构造的答复、MMC上传以及布局类型，该布局类型包括水平、垂直、图标/文本的主题，自适应学习环境中涉及确定。在一个实施例中，使用条件最大似然评估提供了关于的能力评估的确定。例如，在IPL的情况下，能力评估从基于项目答复向量的初始评估Θ_m开始。

步骤1：

Θ_m＝In[r_a/(n-r_a)] (1)

其中，r_a＝∑a_iu_ia，

其中，n为项目的总数，a_i为对于项目i的辨别参数，u_ia是主体a对项目i的答复(1或0)。注意，当对于所有的项目a_i固定为1，这是PL模型的情况，Σa_iu_ia缩减为Σu_ia，其等于正确响应的数量，(n-r_a)等于不正确的答复个数。

步骤2：根据这个起始值使用适当的概率函数来计算ΣP_i和ΣP_iQ_i，在1PL模型的情况下为：

P(1|Θ)＝e^(Θ-δ)/(1+e^(Θ-δ)) (2)

步骤3：

使用下列公式计算校正因子h₀

h₀＝D[r-∑P_i(Θ_m)]/[-D²∑P_i(Θ_m)Q(Θ_m)] (3)；

其中，D是缩放常数为1.7。这可以被删除或设置为1。该公式相当于似然函数的对数的一阶导数除以似然函数的对数的二阶导数。

对于2PL情况，似然函数的对数的一阶导数为

DΣa_i(u_ia-P_ia) (4)

其中，u_ia是主体a对项目i的响应，并且P_ia是主体a根据第2PL概率函数，

对项目i的正确响应的概率，并且a_i是关于项目i的辨别参数。

并且似然函数的对数的二阶导数为：

-D²∑a_i ²P_ia(1-P_ia) (5)

因此，在2PL的情况下，

h₀＝D∑a_i(u_ia-P_ia)/-D²∑a_i ²P_ia(1-P_ia) (6)

对于3PL情况，似然函数的对数的一阶导数为：

D∑a_i(u_ia-P_ia)(P_ia-C_i)/P_ia(1-c_i) (7)

其中，c_i是项目i的猜测参数，

并且似然函数的对数的二阶导数为：

D²Σa_i2(P_ia-c_i)(u_iaCi-P_ia ²)Q_ia/P_ia ²(1-c_i)² (8)

因此，在3PL情况下，

h₀＝D∑a_i(u_ia-P_ia)(P_ia-c)/P_ia(1-c_i)/D²∑a_i ²(P_ia-c_i)(u_iac_i-P_ia ²)Q_ia/P_ia ²(1-c_i)² (9)

注意，当c_i＝0时，3PL方程缩减到2PL方程，并且当c_i＝0和a_i＝1时，

3PL方程缩减到1PL方程。

步骤4：

计算新值Θ_m+1＝Θ_m-h₀。

步骤5：

重复步骤2-4中计算，直到h_o足够小(即，<.001)，此时迭代终止，并且Θ_m用作Θ的评估，即，在一个实施例中为能力评估。

在一个实施例中，进行标准误差的确定以便确定何时允许用户前进。例如：信息函数Ι(Θ)的计算涉及项目响应函数相对于Θ的二阶导数。对于IPL模型，Ι(Θ)的方程为：

I(Θ)＝∑D²P_iQ_i (10)

对于2PL模型，Ι(Θ)的方程为：

I(Θ)＝∑D²a_i ²P_iQ_i (11)

对于3PL模型，Ι(Θ)的方程为：

I(Θ)＝∑D²a_i ²Q_i(P_i-c_i)²/(1-c_i)²P_i (12)

注意，当c_i＝0时，3PL方程缩减到2PL方程，当c_i＝0和a_i＝1时，3PL方程缩减到1PL方程。

在所有三个IRT模型中，最大似然能度评估的标准误差是[I(Θ)]^-1/2，它是信息函数的平方根的倒数。

在图14至图25中，表明了由本发明实施的各种方法的示例性实施例。

在图14中，表明了自适应测试的示例性实施例。该过程开始于1401，并且例如通过用户界面弹出问题或对与用户记录相关联的数据库中的检查来确定用户是否先前已经被测试过1405。如果***或用户输入用户先前已经测试过，则***获得1406存储在***存储区域或其他位置或输入中的先前的能力评估，并且将项目编号设置为零1413。如果，在1405处，***或用户输入用户尚未被测试过，则显示五个固定的1级项目1408。例如，五个固定的1级项目是用于确定用户的初始技能水平的五个基本或入门级问题。然后，对用户输入的答案进行评分1409。得分可以简单地通过每个问题的对或错误来计算，使得，所有的错误是根据例如查找表的回答错误的五个问题，混合结果是有些回答正确，有些回答不正确，所有的正确是所有的五个问题被正确回答。在每种情况下，用户的能力被计算1410、1411、1412。在一个实施例中，可以有少于或多于五个问题的不同的初始评估。在一个实施例中，初始评估可以包括多项选择题、需要自然语言输入的问题以及真/假问题中的至少一个。在计算新用户的能力1410、1411、1412之后，***将项目编号设置为零1413。

在1413之后，项目被选择1414，例如通过***基于获得的先前能力评估1406或所计算的能力1410、1411、1412。例如，该项目由用户或管理员选择。例如，项目可以是以下项中的至少一个：一个问题、一系列问题、录音、视觉片段以及文学段落。然后，例如在计算机监视器或显示屏幕、移动设备屏幕、电视屏幕或其他显示设备上显示该项目1415。在显示1415之后，存在用于关于用户的响应或暂停或***超时的输入选项1416。如果***被暂停，则显示设备将指示测试暂停或另一指示1419，然后，测试会话结束1426。在一个实施例中，每当用户输入值到***中时，该值被记录在数据库或其他存储介质中。在一个实施例中，当测试会话被暂停时，***记录用户或***的最后输入，包括在测试会话期间在哪个点测试会话被暂停。在一个实施例中，如果***记录或存储关于测试会话何时暂停的信息，则在用户输入新的测试会话时，***调用测试会话被暂停的那个点，并允许用户继续测试会话仿佛测试会话实际上没有暂停一样。在一个实施例中，如果***由于用户的不响应或***故障或其他事件而超时，则浏览器被关闭并且测试会话结束1426。如果学生回答项目或问题，***将根据用户的答复计算评估能力1418。在一个实施例中，如果项目或问题具有误导性或在某种程度上无效，则***还计算所评估的标准误差，并且基于用户的响应和/或其他用户对其的响应作出决定1418。用户的响应、数据和所计算的能力被存储在存储介质中1417。在1420处，如果项目或问题被确定为不实用，则激活“不好的测试”触发被激活并错误消息被显示给用户1424。测试会话结束1426。在1420处，如果“不良触发”未被激活并且项目或问题未被确定为无用，则将项目编号与所设定的变量A进行比较。所设定的变量A和B可以是由***的管理员输入的预定阈值。如果项目编号大于或等于A 1421，则确定标准误差并将其与设定值(例如，35)进行比较1422。如果项目编号小于A 1421，则用户被给出要回答的其他项目或问题1414，并且继续该过程。例如，A可以是在测试会话期间所回答的问题或项目的数量。如果标准误差被确定为小于或等于预定值1422，则显示器指示文本被完成1425，并且测试会话结束1426。如果标准误差被确定为大于预定值1422，则***检查项目编号是否大于或等于B1423。如果否，则将用户带回到选择项目1414。如果是，则显示器指示测试完成1425，测试会话结束1426。

图15示出了示例性测试会话流程图，其描述了当项目被选择1501时例如在图14的1414处发生了什么。项目编号被增加1502。项目编号与值C相比较，以确定项目编号是否小于或等于C 1503。如果是，则使用本发明的经修改的IRT算法来选择语法项目(或其他项目，这取决于对测试会话的重点)1506。然后，***确定学生是否已经看过该项目或问题1509。如果是，则再次在1503处将项目编号与C的比较。如果否，则***确定项目或问题是否过度曝光1510。例如，过度曝光是指用户或测试者看到某个项目一定次数。如果该项目或问题被看到一定次数，例如5000次，那么***将退出该项目的使用一定时间长度。例如，过度曝光阈值预先设定为X，因此当使用X次时，不再使用该项目。在一个实施例中，***可以经由查找表或其他模式来检查这一点。在1510时，如果是，则在1503处再次进行项目编号与C的比较。在1510，如果否，则***返回1511该项目到图14的1414处。在一个实施例中，如果项目编号被确定为大于C 1503，则将项目编号与值D 1504进行比较。如果项目编号大于D 1504，则IRT用于选择阅读项目1507，并且进展到1509。如果项目编号确定为大于D，则将项目编号与值E 1505进行比较。如果项目编号大于E，则使用修改后的IRT来选择听力项目1508。如果项目编号小于或等于E 1505，则***发送错误消息。例如，值C，D，E中的一个或多个可以是预定的设定值、根据某些情况修改超时的值，或者动态输入的值。在一个实施例中，未实现过度曝光查询。在一个实施例中，将项目编号与各种变量和/或所设置的值进行比较。

在图16中，显示了一个示例项目数据模型。例如，各种项目数据被获得、产生和/或存储，其例如包括以下项至少之一：部分数据1601，其包括例如文本、MMC参考以及定时器；项目组合数据1602，其包括例如文本、MMC参考、曝光、计数、定时器以及状态；项目数据1603，其包括例如文本、MMC参考、项目类型、布局类型、IRT值(3x)以及状态；应答数据1604，其包括例如文本、MMC参考以及结果；区域数据1605；测试规则数据1606，其包括例如测试类型、恢复时间、曝光限制以及评分模型；学生数据1607，其包括例如能力、主题评估、主题精度、话题评估、话题精度；主题区域数据1608；学生日志数据1609，其包括例如最后的日期和项目得分；主题数据1610，其包括例如显示顺序、测试大小(最小/最大)；技能数据1611，其包括例如来自Kaplan^TM，CEFR和TOEFL的技能数据；以及级别数据1612。

在图17中，表明了自适应测试的示例性实施例。该过程开始1701，并且例如通过用户界面弹出问题或对与用户记录相关联的数据库的检查来确定用户先前是否已经被测试过1702。如果***或用户输入用户先前已经测试过，则***获得1708存储在***中的存储区域或其他位置或输入中的先前的能力评估，并且将项目编号设置为等于零1709。如果，在1702处，***或用户输入用户尚未被测试过的话，则显示五个固定的1级项目1703。例如，五个固定的1级项目是用于确定用户的初始技能水平的五个基本或入门级问题。然后，对用户输入的答案进行评分1704。得分可以简单地通过每个问题的对或错误来计算，使得，所有的错误是根据例如查找表的回答错误的五个问题，混合结果是有些回答正确，有些回答不正确，所有的正确是所有的五个问题被正确回答。在每种情况下，用户的能力被计算1705、1706、1707。在一个实施例中，可以有少于或多于五个问题的不同的初始评估。在一个实施例中，初始评估可以包括多项选择题、需要自然语言输入的问题以及真/假问题中的至少一个。在计算新用户的能力1705、1706、1707之后，***将项目编号设置为零1709。

在1709之后，项目被选择1710，例如通过***基于获得的先前能力评估1708或所计算的能力1705、1706、1707。例如，该项目由用户或管理员来选择。例如，项目可以是以下项中的至少一个：一个问题、一系列问题、录音、视觉片段以及文学段落。然后，例如在计算机监视器或显示屏幕、移动设备屏幕、电视屏幕或其他显示设备上显示该项目1711。在显示1711之后，存在用于关于用户的响应或暂停或***超时的输入选项1712。如果***被暂停，则显示设备将指示测试暂停或另一指示1713，然后，测试会话结束1726。在一个实施例中，每当用户输入值到***中时，该值被记录在数据库或其他存储介质中。在一个实施例中，当测试会话被暂停时，***记录用户或***的最后输入，包括在测试会话期间在哪个点测试会话被暂停。在一个实施例中，如果***记录或存储关于测试会话何时暂停的信息，则在用户输入新的测试会话时，***调用测试会话被暂停的那个点，并允许用户继续测试会话仿佛测试会话实际上没有暂停一样。在一个实施例中，如果***由于用户的不响应或***故障或其他事件而超时，则浏览器被关闭并且测试会话结束1726。如果学生回答项目或问题，***将根据用户的答复计算评估能力1714。在一个实施例中，如果项目或问题具有误导性或在某种程度上无效，则***还计算所评估的标准误差，并且基于用户的响应和/或其他用户对其的响应作出决定1714。用户的响应、数据和所计算的能力被存储在存储介质中1715。在1720处，如果项目或问题被确定为不实用，则激活“不好的测试”触发被激活并错误消息被显示给用户1721。测试会话结束1726。在1720处，如果“不良触发”未被激活并且项目或问题未被确定为无用，则将项目编号与所设定的变量A进行比较。所设定的变量A和B可以是由***的管理员输入的预定阈值。如果项目编号大于或等于A 1722，则确定标准误差并将其与设定值(例如，35)进行比较1723。如果项目编号小于A 1722，则用户被给出要回答的其他项目或问题1710，并且继续该过程。例如，A可以是在测试会话期间所回答的问题或项目的数量。如果标准误差被确定为小于或等于预定值1723，则显示器指示文本被完成1725，并且测试会话结束1726。如果标准误差被确定为大于预定值1723，则***检查项目编号是否大于或等于B1724。如果否，则将用户带回到选择项目1710。如果是，则显示器指示测试完成1725，测试会话结束1726。

在一个实施例中，如果用户已暂停***或***注销该用户，***可以恢复1717测试会话。然后，将间隔与间隔1718进行比较。如果间隔大于恢复时间，则显示器超时1719，并且用户被指向流程的开始1710处。如果间隔不大于恢复时间，则***检索所存储的会话数据1716，并且用户被引导选择项目1710。

图18示出了示例性的测试会话流程图，其描述了当项目被选择1801时例如在图17的1710处发生了什么。项目编号被增加1802。修改后的IRT用于选择下一项目1803。然后，***确定学生是否看过该项目或问题1804。如果是，则修改后的IRT用于选择下一项目1803。如果否，则***确定项目或问题是否过度曝光1805。如果是，则修改后的IRT被用于选择下一项目1803。如果否，则***将项目返回1806到图17的1710处。

图19示出了根据本发明的实施例的示例性后端处理。例如，在1901处，可能是教师、作者、学监或管理员的用户作为用户1904进入***。计算机***确定用户的角色1902，并认证必要的权限或认证1903。为了识别，用户手动输入名称或标识、将拇指或其他个人物品***到生物识别读取器，扫描身份证或条形码或识别信息。群组1908是一组用户。在一个实施例中，群组由每个租户设置，并且可以将用户分配给多个群组。租户或租客经理可以在用户群组中运行评分报告，以便他们可以分析群组或不同群组的不同用户的数据并跟踪绩效。如果***的租户或用户1905对照存储的学生1910的记录进行检查用户，如果存在用户，则便于确定当前能力评估。或者，如果用户是新的，则如上述实施例那样，用户被邀请回答问题或响应项目，以便可以确定当前能力评估1910。所存储的项目尝试1909信息包括项目是否被回答、是否是答案、被评分、项目是否被校准、记录项目的难度和与其他项目相关的扩展难度、项目猜测信息、项目辨别、当前用户能力评估、当前用户得分、当前错配统计量和当前用户能力评估标准误差。用户或租户的评估1919由***确定和/或存储。对于评估1919，存储或记录以下项中的至少一个：姓名、描述、有效状态、回答一个或多个项目的尝试的最大次数、错配阈值、标准误差阈值以及技能得分阈值。在一个实施例中，错配被设置以确定学生是否随机地回答或猜测。这种补充措施是用来防止作弊。在一个实施例中，当***确定错配时，***停止测试并将其发送到错误状态。在一个实施例中，基于项目的特定修改IRT参数和学生(或用户)的能力，概率函数被计算，用于确定学生将正确回答的概率，然后***基于学生的得分和项目的概率来计算该项目的错配。而且，在一个实施例中，***基于来自给定尝试的所有项目来计算错配。对于评估，考虑有关评估尝试1907的信息。对于评估尝试1907，至少存储或记录下述项至少之一：状态、项目计数、结果能力评估、结果分数、开始额时间或项目或级别，以及完成的时间或项目或级别。在一个实施例中，对于评估尝试，级别1914被参考或访问和记录，所述级别包括姓名、代码以及最小分数。与项目1913及其等级1914相关联的是包括姓名和建议的技能标签1912。对于项目1913，存储或记录以下项中的至少一个：类型、项目的方向、项目的文本、与项目相关联的答案集、项目允许的预定时间限制(其根据相关技能1915而变化)、项目的准备时间限制、字数限制、有效状态、项目评估难度、辨别、所记录的猜测机会(例如，在多重选择或真/假情况下，检查前面和后面的回答项目是否具有指示猜测的答案模式)以及校准。每个项目1913与技能标签1912相关联，该技能标签用于识别技能1915的技能或次级技能信息。对于技能1915，存储或记录以下项中的至少一个：技能名称、技能标签、技能描述、建议以及平均项目难度级别。每个项目1913可以与区域1917和介质类型1916相关联，所述区域包括地理区域的名称缩写，所述介质类型包括名称和/或MIME类型。对于用户进行测试或训练的每个部分，评估部分名称、部分描述以及部分顺序中的至少有一个被存储或访问。每个部分可以具有自适应部分1918和固定部分1921。固定部分1921包括评估中的部分名称、描述和相关部分顺序中的至少一个。自适应部分1918包括评估中的部分名称、描述、相关部分顺序、最小项目数量、最大项目数量以及包括在内的组项目或组项目的指示中的至少一个。对于每个用户1904，分级器1906被相关联，分级器1906涉及用户的相关技能得分1911。对于每个用户1904，注意用户是否具有当前能力评估和/或等级的学生1910。在图19中，示出了通过本发明的实施例保存或访问的各种存储的示例性字段和/或信息。各种字段或数据项之间有链接或关联。

图20示出了关于在用户上测试的特定部分的示例后端处理。例如，固定的部分开始2001。部分数据被加载2002，其包括链接到部分的校准项目和链接到该部分的未校准项目。***针对该部分检查项目数量是否大于或等于该部分的最大项数2003。如果是，那么该部分复习结束2012。如果否，则***获得与该部分相关联的、并且未被用户有效地看到的校准项目2004。如果发现有效的校准项目2005，则检查该有效的校准项目是否为部分中的第一个项目200。如果是，则该部分检查简介页面2007。如果是，则简介页面被显示2008，然后学生可以按下“开始部分”或其他指示器2009，以开始测试或培训课程。如果没有找到有效的校准项目2005，那么***将获得链接至该部分的并且用户相对未看见的未校准的项目2010。然后，检查项目是否别找到2011，并且，如果否，则测试或培训课程停止2012。如果是，那么从2006开始的过程会受影响。

在2006处，如果确定所找到的项目不是***中的第一格项目，则***检查项目是否被校准2019。如果被校准2019，则***检查项目是否是组合项目的一部分2017(例如，为了级别目的而链接的一系列问题，或普通文本或主题目的等)。如果是，则项目数量字段增加了子项目数以对组合2018进行计数。如果否，则项目数量字段增加1。在每种情况下，该项目可以在***显示器中显示给用户2015、学生可以提供答案2014、对答案进行评分2013，然后***继续进行。

在2007处，如果该部分没有要显示的简介页面，则***检查项目是否被校准2019。

在2019处，如果***确定该项目未被校准2019，该项目被显示2015，学生提供答案2014、对答案进行评分2013，然后***继续2003。

图21示出了本发明的实施例的后端处理过程。例如，***从2101处开始，评估参数被加载2102。所加载的评估参数2102包括下述项中的至少一个：评估中的项目中最大个数、错配阈值、标准误差阈值、特定技能的标准误差阈值以及可靠的标准误差阈值。所加载的评估参数2102可以包括所设置的默认阈值。例如，错配阈值默认值可以是-4；标准误差阈值默认值可以为.35；特定技能的标准误差阈值可以为.8；以及可靠的标准误差阈值默认值可以为2。这些参数可以由管理员设置为其他值。评估是受密码保护的2103，并且其值由***存储。密码提示2104被显示，并且用户输入密码2105。该密码与***中的所存储的值进行核对2106，如果不匹配，则再次向用户提供密码提示以输入密码，然后再次尝试2104。如果密码是匹配的2106，则在***中检查评估的简介页面2107。如果存在评估页面2107，则介绍页面被示出或显示给用户，并向用户提供启动评估测试会话的选项2109。如果在没有2107，或者如果在2109处用户启动评估测试会话，则项目数量值字段被设置为零2110。***获得下一固定部分2011，***检查***是否被发现2112，如果是，则将该部分显示给用户2113，并且***获得下一固定部分2111。在2112处，如果没有找到该部分，则***获得下一自适应部分2114。如果找到自适应部分2115，则自适应部分被显示给用户2116，并且***获得下一自适应部分2114。在2115处，如果没有找到自适应部分，则***获得下一生产部分2117。生产力是一个常见的语言熟练术语。在可替代实施例中，取代包括生产部分，该部分代替特定技能部分。***检查是否找到生产部分2118。如果是，则在显示屏幕上向用户显示生产部分2119，并且***获得下一生产部分2117。在2118处，如果否，则***计算下述项至少之一：用户的能力评估、错配评估以及标准误差2120。***检查标准误差是否超过标准误差阈值2121。***可以使用查找表并且比较是否关于用户的所计算的标准误差与所述存储的标准误差阈值相匹配，或者关于用户的所计算的标准误差的值大于或者小于所存储的标准误差阈值。在2121处，如果标准误差不是大于标准误差阈值的值，则***检查错配计算以确定用户的错配计算值是否小于误差阈值2122。如果是，则***将尝试状态设置为错误(ERROR)2123，测试会话停止2130。在2121处，如果标准误差是大于标准误差阈值的值，则***将尝试状态设置为错误(ERROR)2123，测试会话停止2130。在2122处，如果错配计算值不小于错配阈值，则***将用户的能力评估设置为计算能力评估2132。该***基于计算的能力评估来计算结果分数和相关联的结果级别2131。该***获取了评估中的下一个要测试的技能2124。如果***找到技能2125，则***基于与该技能相关联的项目来计算能力评估和标准误差2133。***检查标准误差是否大于标准误差阈值2134。如果是，***将在评估中获取下一个测试技能2124。如果否，***根据计算的能力评估值来计算技能的结果分数和结果级别2136。***定义基于所计算的水平定义技能建议2135。在一个实施例中，在2135处，基于学生/用户在评估时的表现如何来向学生或用户提供建议。例如，由于所有项目至少被标记为次级技能和技能标签，所以***可以在数据库或其他存储介质中查找已经为所述技能标签和次级技能计算的难度级别。这些难度级别是通过对被标记为技能标签或次级技能的所有项目的校准难度水平进行求平均来计算的。在一个实施例中，然后向学生/用户给出具有难度水平略低于其评估能力的建议。例如，如果没有足够的项目被标记有一个次级技能从而为其提供建议，学生/用户将获得与其评估水平相适应的默认建议。可以通过查找表或其他存储介质自动生成默认建议。例如，可以使用与不同技能相关联的各种经计算的等级的查找表。例如，如果可获得，***可以动态地搜索或刮擦互联网或网页浏览器的信息。然后，***在2124处接受评估中要测试的下一个技能。

在2125处，如果没有找到技能，则***检查评估是否包含生产部分项目2126。如果否，则***设置尝试状态为完成2129，测试会话停止2130。如果是，则***将尝试状态设置为未决定的2127，分级机将对生产部分项目答案评级2128。***设置尝试状态为完成2129，测试会话停止2130。

在图22中，***确定用户的当前能力2201。能力评估被计算，并且基于当前评估中所回答的所有项目的标准误差被实施2202。***检查标准误差是否小于或等于可靠的标准误差阈值2203。在2203处，如果是，则***返回所计算的能力评估2205。如果否，则***确定用户在过去中是否成功完成了评估2204。在2204处，如果是，则***返回由***存储的、来自用户进行的先前的最近一次尝试的能力评估2206。如果否，则***返回一个空值2207。在一个实施例中，具体地，在用户进行二次，三次，四次或更多次评估的情况下，参见例如在2204处所标识的特征，该特征允许根据以前的评估能力基于用户评估的能力来确定要计算的当前的能力。该特征使本发明的实施例成为进度跟踪***。

在图23中，根据本发明的实施例描述了示例性自适应部分处理。在2301处，自适应部分开始。***加载部分数据2302，加载例如下述项中的至少一个：被链接到该部分的未校准项目、待显示在部分中的项目的最大数量、该部分中显示的项目必须满足的准则集(技能、次级技能、技能标签)和组合项目。***将项目的部分数量设置为零或为空2303。***检查项目数是否大于或等于项目2304的最大数量。如果是，则***结束自适应部分2321。如果否，则***确定项目的部分数量是否大于或等于项目的部分的最大数量2312。在2312处，如果是，则***结束自适应部分2321。在2312处，如果否，则***确定第二个是否完成2313。在2313，如果是，则***获得被链接到该部分的并且被用户未看见的有效的未校准的项目2315。然后，***确定是否找到该项目2316，在2316处，如果否，则***结束自适应部分2321。在2316，如果是，则***确定项目是否是部分中的第一个项目2317。在2317处，如果否，则***确定项目是否被校准2310并继续进行该过程。在2317处，如果是，则***检查该部分是否具有简介页面2318。在2318处，如果否，则***检查项目是否被校准2310并继续进行该过程。在2318处，如果是，则***显示或示出简介页面2319，并且可以向用户呈现开始按钮或其他方式来激活部分的开始2320。然后***检查项目是否已校准2310并继续进行该过程。

在2310处，***确定项目是否被校准。在2310处，如果是，则***确定项目是否是一组项目中的一部分2309。在2309出，如果是，则***将项目数量和第二项目数量值增大子项目的数量2308。然后，***向用户2307显示项目，用户提供并回答2306，***对由用户2305提供的答案进行评分，并且该过程到2304处。

在2310处，如果否，则***向用户显示该项目2307，用户提供并回答2306，***对由用户提供的答案进行评分2305，并且该过程继续到2304处。

在2309处，如果***确定项目不是组合的一部分，则***将项目数量和第二个项目数量增加12311。然后，***向用户示出或显示该项目2307，用户提供和回答2306，***对由用户2305提供的答案进行分数，并且该过程继续到2304。

在图24中，***确定自适应部分是否完成2401。在2402，***加载部分数据，其可以包括以下项中的至少一个：链接到该部分的未校准项目、待显示在该部分中的项目的最大数量、该部分中要显示的项目必须满足的准则集(技能、次级技能、技能标签)和组合项目。***确定项目的部分数量是否小于或等于项目的部分最小数量2403。在2403处，如果是，则***计算学生的当前能力评估值和标准误差2404。然后，***确定标准误差是否大于标准误差阈值2405。在2403处，如果否，则***更新自适应会话未完成2407。在2405处，如果是，则***确定这是否是最后的自适应部分2406。在2406处，如果是，则***更新自适应会话未完成2407。在2406处，如果否，则***检查该部分是否具有关联的技能集2409。在2405处，如果否，则***检查该部分是否具有关联的技能集2409。在2409处，如果否，则***更新自适应会话完成2408。在2409处，如果是，***根据与技能2410链接的项目来计算用户的当前能力评估和标准误差。然后，***确定特定部分技能的标准误差是否大于该特定部分技能的标准误差阈值2411。在2411出，如果是，则***更新自适应会话未完成2407。在2411处，如果否，则***更新自适应会话完成2408。

在图25中，根据本发明的实施例描述了示例性生产部分过程。在2501处，生产部分开始。在2502处，***加载部分数据，其可以包括例如项标准，其是该部分中所示的项目必须满足的准则集(例如，技能、技能标签)。在2503处，***确定项目数量是否大于或等于项目的最大数量。在2503处，如果是，则***结束生产部分2516。在2503处，如果否，则***计算用户的当前能力评估值和标准误差2504。参见，例如图22重新确定当前的能力。***然后基于能力评估确定当前用户级别2505。***然后获得有效项目匹配部分标准，以及用户看不到的用户当前级别2506。***检查是否找到项目2507。在2507处，如果否，则生产部分结束2516。在2507处，如果是，则***检查该部分是否具有简介页面2508。在2508处，如果是，则***显示简介页面2509，并且用户可以通过用户界面或其他模式按下按钮或触发部分的开始2510，并进行到2512。在2508处，如果否，则***进行到2512以确定该项目是否是一组项目的一部分。在2512处，如果***确定该项目不是项目组合的一部分，则项目数量值和项目的部分数量值增加12511。然后将该项目显示给用户2514，用户提供答案2515，生产部分结束2516。在2512处，如果***确定该项目是组合的一部分，则项目数量值和项目的部分数量值均增加子项目的数量2513。然后，***经由显示屏幕或其他模式向用户显示项目2514，用户提供答案2515，生产部分结束2516。

在一个实施例中，基于学生对接受技能(例如，语法、阅读、听力)的表现，***能够生成水平适当的有效提示。能力评估被计算，并且标记为该级别的提示被给出。这些提示未经校准，因此逻辑响应不同，并且基于表示相关联的CEFR级别的元数据的第一层进行拉取。目前，所有其他评估***似乎没有提供这些功能。

在一个实施例中，所有项目被标记。标签***基本上馈送评估引擎和推荐引擎。四层元数据层，即级别、技能、次级技能以及技能标签—基本上定义了项目的身份。在一个实施例中，每个项目被标记有关于每一层—级别、技能、次级技能、技能标签的一条信息。该标记识别项目的身份，并允许***通过其元数据拉取或获取该项目。在另一实施例中，***经由元数据标签拉取项目，以便平均成具有相同元数据标签(例如，相同的缺陷或技能标签)的项目池的所计算的难度级别。

在图26中，示出了关于项目的可以由***拉取的元数据的示例。例如，显示了四层元数据以及适当的数据2600：预期级别：A2；技能：语法；次级技能：一般现在时；以及技能标签：G215。A2级别是英语语言能力的标准测试通用的已知水平。在一个实施例中，***中的每个项目被这些层标记。在一个实施例中，***将技能进一步分解为微技能，可读性分数等。

在一个实施例中，被细分为非常详细的听力标签的示例如下。技能标签与例如描述符、类别、域、人的类型、文本源、话语类型/内容的性质、长度、速度和发音、词频和目标话语标记、词汇领域和主题、评估的操作和领域(假设有四个选项的多项选择，只有一个正确的答复)相关联。这些可以进一步被细分为更详细。例如，评估的操作和领域可以包括理解要点(认识主题，主要思想以及目的)、了解具体信息(例如，细节、关系、位置、情况)、了解演讲者的态度、意见和/或赞同、使用各种策略来实现理解(包括听点要点、通过使用上下文线索来识别提示和推断意义来检查理解)。下述标签L401是整体听力理解的一部分，该标签具有关于理解标准语言的描述符，在个人、社会、学术或职业生活中通常遇到的熟悉和不熟悉的主题的现场或广播；只有极端的背景噪音，不足的话语结构和/或***常/破碎/血腥/痛苦更大)。技能可以进一步分解，这对于评估和/或培训***和方法中的每个技能都有影响。

这里，各种实施例总体上涉及***。为了简洁起见，“***”术语被使用，以参考本发明的方法、本发明的方法以及用于实现本发明的方法的计算机可读指令的各种实施例。

对于图1至图25中描述的每个过程，在不脱离本发明的范围的情况下，可以将这些过程中每个过程的一部分删除，也可以将各过程的一部分添加到这些过程中。上述过程提供了所描述的新颖的***、方法和计算机可读介质的一些示例实施例。

在不脱离本发明的范围的情况下，本领域技术人员可以进行本所列出的这些修改和其它修改。虽然上文已经参考具体实施例描述了本发明，但是本发明不限于上述实施例和附图中所示的具体构造。例如，所示的一些组件可以彼此组合作为一个实施例，和/或组件可以被划分成几个子组件，和/或可以添加任何其他已知或可用的组件。方法和实施例也不限于实施例中所示的那些。本领域技术人员将理解，在不脱离本发明的实质特征的情况下，可以以其他方式实现本发明。例如，上述特征和实施例可以彼此组合和彼此不相结合。因此，本实施例在所有方面都被认为是说明性的而不是限制性的。可以利用其他实施例和从这些实施例推导出其他实施例，使得可以在不脱离本公开的范围的情况下进行结构和逻辑替换和改变。因此，本说明书连同这种权利要求所赋予的等同物的全部范围不应被认为是限制性的。

本发明主题的这些实施例在本文中可以单独地和/或共同地由术语“发明”提及，而不是为了方便而不意图将本申请的范围限于任何单独的发明或创造性概念，实际上公开了一个以上。应当理解的是，本发明可以以多种方式实现，包括作为过程、装置、***、执行软件指令的计算机处理器或计算机可读介质，例如非易失性计算机可读存储介质，或计算机网络，其中，程序指令通过光学或电子通信或非瞬态链路发送。应当注意的是，如所附权利要求和本文的描述中所指出的那样，所公开的过程的步骤的顺序可以在本发明的范围内改变。

用于执行本发明方法的方面的计算机处理器和算法可以容纳在包括桌面的设备中计算机、科学仪器、手持设备、个人数字助理、电话、非暂时性计算机可读介质等。这些方法不需要在单个处理器上执行。例如，可以在第一处理器上进行一个或多个步骤，而在第二处理器上进行其他步骤。处理器可以位于相同的物理空间中或者可以位于远处。在一些这样的实施例中，多个处理器通过诸如因特网的电子通信网络链接。优选实施例包括与显示设备相关联的处理器，用于向用户或用户显示方法的结果，将结果输出为视频图像，并且处理器可以直接或间接地与信息数据库相关联。如本文所使用的，术语处理器、中央处理单元和CPU可互换使用，并且是指能够从计算机存储器读取程序的设备，例如，ROM或其他计算机存储器，并根据程序执行一组步骤。术语计算机存储器和计算机存储器装置是指计算机处理器可读的任何存储介质。计算机存储器的示例包括但不限于RAM、ROM、计算机芯片、数字视频盘、光盘、硬盘驱动器以及磁带。此外，计算机可读介质是指用于存储和提供诸如数据和指令的信息到计算机处理器、DVD、CD、硬盘驱动器、磁带以及用于通过网络流媒体的服务器的信息的任何设备或***。

本发明的实施例提供访问经由用户的智能电话、智能设备、平板电脑、iPad，iWatch或其他设备获取的数据，并且经由电信、WiFi或其他网络选项将该信息发送到位置或其他设备、处理器或计算机，其可以捕获或接收信息并将该信息传送到一位置。在一个实施例中，该设备是与网络或设备或处理器连接的便携式设备。本发明的实施例提供了一种在诸如便携式设备的设备上操作的计算机软件应用(或“应用程序”)或其他方法或设备，其具有与通信***的连接以与用户接口以获得特定数据，推送或允许通过诸如处理器、服务器或存储位置的设备拉取该特定数据。在实施例中，服务器运行计算机软件程序以确定要使用的数据，然后以有意义的方式转换和/或解释该数据。

尽管出于清楚理解的目的已经详细描述了前述发明，但显然是，可以在所附权利要求的范围内实施某些改变和修改。在没有这些具体细节中的一些或全部情况下，可以根据权利要求和/或实施例实现本发明。本文描述的实施例的部分可以彼此使用结合或者并不一起使用，并且可以结合所有所描述的实施例的子集来实施。所描述的实施例的各种特征可以以各种组合使用和不使用彼此。为了清楚起见，没有详细描述与本发明相关的技术领域中已知的技术材料，从而使得本发明不会被不必要地模糊。应当注意的是，存在实现本发明的方法和装置的许多替代方式。因此，本实施例被认为是说明性的而不是限制性的，并且本发明不限于本文给出的细节，而是可以在所附权利要求的范围和等同内容中进行修改。

Claims

1.一种自适应***，包括：

用户界面；

项目交付和数据采集***；

评估引擎；以及

存储介质，

其中，所述项目交付和数据采集***经由所述用户界面管理测试，并从所述测试管理中收集数据，将所述数据输入到所述评估引擎中以使得所述评估引擎确定评估能力，以及将所述评估能力存储到所述存储介质中。

2.根据权利要求1所述的***，还包括报告生成器，其中，所述报告生成器基于所述数据和所述评估能力中的至少一个生成报告。

3.根据权利要求2所述的***，其中，所述报告涉及以下项中的至少一个：语言熟练程度；语言熟练程度随时间的推移发生的变化；技能强度；技能弱点；特定读者的描述性数据；以及数据导出。

4.根据权利要求1所述的***，其中，所述存储介质是以下项中的至少一个：移动设备存储器、数据库、服务器、基于云的存储介质以及便携式存储设备。

5.根据权利要求1所述的***，其中，所述评估引擎采用所述数据的项目答复理论评估、缩放和/或评估。

6.根据权利要求1所述的***，其中，所述用户界面是以下项中的至少一个：交互式屏幕；显示屏；电脑显示器；基于云的界面；智能板以及移动屏幕。

7.一种方法，包括：

识别评估***中的个体；

确定所述个体先前是否已在所述***中进行了评估，如果所述个体先前已经在所述***中进行了评估，则通过所述评估***获得与所述个体相关联的评估水平，并且所述个体进入到适用于所述评估水平的测试序列，如果所述个体先前没有在所述***中进行评估，则使个体进入初始测试序列；

其中，项目答复理论引擎对由所述评估***获得的任何数据进行缩放，以确定用于评估所述个体的能力的至少一个分数。

8.根据权利要求7所述的方法，其中，所述评估***是自适应的，所述方法还包括：检查所述测试序列或者部分中的至少一个中的数据，使用所述项目答复理论引擎来确定所述至少一个分数，以及使用所述至少一个分数来进行评估以确定所述个体的下一个测试序列。

9.根据权利要求7所述的方法，其中，所述至少一个分数涉及英语流利程度。

10.一种计算机可读介质，所述计算机可读介质上具有由处理器执行的指令，包括根据权利要求1所述的***。

11.一种计算机可读介质，所述计算机可读介质上具有由处理器执行的指令，包括根据权利要求7所述的方法。