CN108536601A

CN108536601A - 一种评测方法、装置、服务器及存储介质

Info

Publication number: CN108536601A
Application number: CN201810336518.0A
Authority: CN
Inventors: 罗家润; 刘楚蓉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-14
Anticipated expiration: 2038-04-13
Also published as: CN108536601B

Abstract

本发明实施例提供一种评测方法、装置、服务器及存储介质，该方法包括：获取评测请求，所述评测请求至少指示有评测任务的评测对象及评测集；根据评测请求获取评测集，所述评测集包括执行所述评测任务的至少一个评测词；向所述评测对象逐一发送所述评测任务的各评测词，获取所述评测对象对所述评测任务的各评测词的评测响应；向终端发送评测对象对各评测词的评测响应，以便终端在相应页面中展示评测对象对各评测词的评测响应；针对各评测响应，分别获取多用户标注内容；根据各评测响应的多用户标注内容，确定各评测响应的标注结果；根据各评测响应的标注结果，确定所述评测任务的评测结果。本发明实施例可提高评测效率，并提升评测结果的准确率。

Description

一种评测方法、装置、服务器及存储介质

技术领域

本发明涉及信息处理技术领域，更具体的说，涉及一种评测方法、装置、服务器及存储介质。

背景技术

目前，很多互联网业务在投入使用之前需要进行评测，或者在投入使用之后进行定期的评测，进而通过评测结果发现互联网业务存在的问题，对互联网业务进行优化处理；例如，针对搜索业务，可对搜索业务的搜索准确性进行评测，并基于评测结果发现搜索业务的搜索准确性所存在的问题，进而进行优化。

目前对互联网业务进行评测时，主要通过获取互联网业务执行评测后的评测响应，从而对评测响应进行标注，基于标注结果确定评测结果。目前，在对互联网业务的评测响应进行标注时，往往需要手动拉取互联网业务的评测响应，并填入到记录表格中(记录表格如excel形式)，进而由人工对记录表格中填入的评测响应进行标注，从而基于标注结果确定评测结果；例如，基于标注的评测响应的合理性或者分值，得到最终的评测结果。由此可以看出，目前的评测方式不管是对互联网业务的评测响应的拉取，还是对评测响应进行标注均需要用户人为参与，评测效率较低，并且评测结果的准确性有待进一步提升。

发明内容

有鉴于此，本发明实施例提供一种评测方法、装置、服务器及存储介质，以提高评测效率，并进一步提升评测结果的准确率。

为实现上述目的，本发明实施例提供如下技术方案：

一种评测方法，包括：

获取评测请求，所述评测请求至少指示有评测任务的评测对象及评测集；

根据所述评测请求获取所述评测任务的评测集，所述评测集包括执行所述评测任务的至少一个评测词；

向所述评测对象逐一发送所述评测任务的各评测词，获取所述评测对象对所述评测任务的各评测词的评测响应；

向终端发送评测对象对各评测词的评测响应，以便终端在相应页面中展示评测对象对各评测词的评测响应；

针对各评测响应，分别获取多用户标注内容；

根据各评测响应的多用户标注内容，确定各评测响应的标注结果；

根据各评测响应的标注结果，确定所述评测任务的评测结果。

本发明实施例还提供一种评测方法，包括：

向服务器发送评测请求；所述评测请求至少指示有评测任务的评测对象及评测集，所述评测集包括执行所述评测任务的至少一个评测词；

获取并展示服务器发送的评测对象对各评测词的各评测响应；

针对各评测响应，获取多用户标注内容；

将各评测响应的多用户标注内容发送至服务器，以便服务器确定所述评测任务的评测结果。

本发明实施例还提供一种评测装置，包括：

评测请求获取模块，用于获取评测请求，所述评测请求至少指示有评测任务的评测对象及评测集；

评测集获取模块，用于根据所述评测请求获取所述评测任务的评测集，所述评测集包括执行所述评测任务的至少一个评测词；

评测执行模块，用于向所述评测对象逐一发送所述评测任务的各评测词，获取所述评测对象对所述评测任务的各评测词的评测响应；

评测响应发送模块，用于向终端发送评测对象对各评测词的评测响应，以便终端在相应页面中展示评测对象对各评测词的评测响应；

标注内容获取模块，用于针对各评测响应，分别获取多用户标注内容；

标注结果获取模块，用于根据各评测响应的多用户标注内容，确定各评测响应的标注结果；

评测结果确定模块，用于根据各评测响应的标注结果，确定所述评测任务的评测结果。

本发明实施例还提供一种服务器，包括：至少一个存储器和至少一个处理芯片；所述存储器存储有程序，所述处理芯片执行所述程序，以实现上述所述的评测方法的步骤。

本发明实施例还提供一种存储介质，所述存储介质存储有适于处理芯片执行的程序，以实现上述所述的评测方法的步骤。

基于上述技术方案，本发明实施例提供的评测方法，可由服务器在获取评测请求后，拉取执行评测任务的评测集，从而向评测对象逐一发送评测集中的各评测词，实现评测对象对各评测词的各评测响应的获取，并进行保存；从而用户在拉取评测对象的评测响应时，服务器可向终端发送评测对象对各评测词的各评测响应，以便终端在相应页面中展示评测对象对各评测词的各评测响应，无需手动在记录表格中进行评测响应的填入，减小了用户人为参与过程，为提高评测效率提供了可能；进一步，在对各评测响应进行多用户标注后，服务器可针对各评测响应，分别获取多用户标注内容，从而根据各评测响应的多用户标注内容，确定各评测响应的标注结果，实现更为精确的标注结果的确定，从而根据各评测响应的标注结果，确定出更为精确的所述评测任务的评测结果。本发明实施例提供的评测方法，可提高评测效率，并进一步提升评测结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种评测***的架构示意图；

图2为本发明实施例提供的评测***的另一架构示意；

图3为本发明实施例提供的评测***的再一架构示意图；

图4为本发明实施例提供的评测方法的信令流程示意图；

图5为基于评测响应的多用户标注内容确定标注结果的处理示意图；

图6为本发明实施例提供的评测方法的流程示意图；

图7为本发明实施例提供的评测语料获取方法的流程示意图；

图8为实现评测语料获取的架构示意图；

图9为爬取任务的执行设置示意图；

图10为指标分析的方法流程图；

图11为badcase响应的来源及分析示意图；

图12为产生badcase响应的原因类型的分析流程图；

图13为Spring mvc的设计模式示意图；

图14至图21为本发明实施例提供的终端界面示意图；

图22为本发明实施例提供的评测装置的结构框图；

图23为本发明实施例提供的评测装置的另一结构框图；

图24为本发明实施例提供的评测装置的再一结构框图；

图25为本发明实施例提供的评测装置的又一结构框图；

图26为本发明实施例提供的评测装置的又另一结构框图；

图27为服务器的硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的评测方法可适用于任一互联网业务，例如搜索业务、问答机器等，从而对任一互联网业务进行评测，确定评测结果。

参考图1，图1示出了本发明实施例提供的一种评测***的架构示意图，在本实施例中，该***可以包括：服务器101和终端102；

服务器101可以是设置于网络侧的服务设备，服务器101可与终端102及评测对象(需评测的互联网业务对应的相关产品，图中未示出)交互，主要实现评测的执行，并记录评测结果及评测过程相关数据；可选的，服务器101可以由单台服务器或者多台服务器组成的服务器群组实现；

终端102为分别与用户以及服务器101进行交互的用户设备，终端102的形式可以是笔记本电脑、智能手机、平板电脑等用户设备；用户可通过终端102主要实现评测任务的设置，评测请求的发起，评测对象的评测响应的拉取、标注等操作；

进一步用户还可通过终端102实现评测过程相关数据的拉取，以及请求服务器进行数据分析整理等。

可选的，进一步，该***还可以包括与服务器101相连接的数据库(图中未示出)，数据库在本发明实施例中主要执行数据存储功能；例如，数据库可存储服务器101获取到的评测集，存储服务器生成的评测结果，以及存储终端生成的标注结果等。可选的，本发明实施例也可由服务器内置的存储部件实现数据存储；服务器内置的存储部件如硬盘、磁盘等。

在本发明实施例中，用户在终端102上设置评测任务，通过终端102将评测请求发送给服务器101，服务器101根据终端102发送的评测请求，对评测对象进行评测后，获取评测对象执行评测任务的评测响应；服务器101可接受终端102的请求，将评测响应发送到终端102上进行展示，以使用户在终端102上对评测对象的评测响应进行多人标注，得到各评测响应的多用户标注内容；服务器101对多用户标注内容进行分析后得到最终的标注结果，从而基于标注结果分析得出评测对象的评测结果。

在实现评测响应的多人标注方面，本发明实施例可由多人在同一终端上对同一评测响应进行标注实现，例如可通过与服务器101相连接的同一个终端102实现多人标注；作为一种评测***的架构变形，本发明实施例也可由多人在不同的终端上请求同一评测任务的评测响应，以实现多人在不同的终端上对同一评测任务的评测响应进行标注，即可通过与服务器101相连接的多个终端102实现多人对同一评测任务的评测响应的标注，图2示出了由多个终端实现多人标注的评测***的架构示意，可参照。

进一步，图3示出了再一种评测***的架构变形，向服务器101发送评测请求的终端，和对评测响应进行标注的终端可以是相同的也可以是不同的。

结合上述***架构，图4示出了本发明实施例提供的评测方法的一种可选信令流程，参照图4，该流程可以包括：

S201：用户在终端上设置评测任务。

本实施例中，评测任务可以至少指示评测对象及评测集；其中，评测对象为本发明实施例需评测的互联网业务对应的相关产品，例如对搜索业务的搜索准确性进行评测，则评测对象可以是搜索业务相应的搜索引擎，对机器人业务的回复准确性进行评测，则评测对象可以是相应的机器人；用户可以从评测对象列表中选择评测对象，实现针对评测对象的指示，如评测对象列表可通过记录各评测对象的名称等标识，实现各评测对象的指示。

评测集可以包括执行评测任务的至少一个评测词；评测词为待被评测对象响应的关键词，针对每一评测词，评测对象应输出评测响应；例如对搜索业务的搜索准确性进行评测，则评测集中可以包括至少一个搜索关键词，搜索引擎基于任一搜索关键词可输出相应的搜索结果；

可选的，评测集可基于对评测对象执行评测的评测目的选取；例如，假设评测对象为问答机器人，评测目的为评测问答机器人在询问时间场景下的回复准确性，则可基于询问时间的评测目的选择评测集，如评测集中可以包括询问时间的多种方式对应的评测词；

作为一种可选实现，评测集可由终端在设置评测任务时，在评测任务中指示评测集的文件名称等标识，从而服务器可基于评测任务指示的标识从数据库中获取相应的评测集；当然，本发明实施例也可支持评测集是终端上传的情况，如可携带在评测请求中。

可选的，进一步，用户还可根据需求在评测任务中携带其他信息，例如：任务名称、评测时间、用户信息等，对于评测任务中携带的其他信息的内容形式，本发明实施例不作具体限制。

S202：终端向服务器发送评测请求。

本实施例中，用户在终端上设置了评测任务后，可以通过终端向服务器发送请求执行评测任务的评测请求。

可选的，作为一种示例，终端的评测任务设置页面可以展示开始评测按钮，用户可以点击开始评测按钮，触发终端向服务器发送评测请求；除此之外，触发终端向服务器发送评测请求的方式还可以包括：语音发起、手势发起等，本发明实施例对于发起评测请求的触发方式不作具体限制。在向服务器发送了评测请求后，可更新终端页面，例如可以跳转到相应的评测响应结果拉取页面等。

现有技术中，一般情况下，一次评测只能针对一个评测对象，或者针对同一个评测对象，每次只能对一个评测任务进行评测，即一次评测只能执行一个评测任务，无法兼容多个评测对象，也无法同时开启对同一个评测对象进行不同评测任务的评测，评测的效率并不高；本实施例可通过并行评测方式，同时设置多个评测任务，并发起多个评测任务的并行评测，实现针对评测对象的批量评测，从而提高评测效率。

作为一种可选实现，批量评测的发起过程可以包括：终端设置多条评测任务；终端向服务器发送评测请求，所述评测请求至少指示有所述多条评测任务的各评测任务的评测对象及评测集。这样，当服务器接收到指示多条评测任务的评测请求时，可以通过并行方式，并行执行多条评测任务；其中，多条评测任务中的评测对象可以相同也可以不同，若评测对象不同，则表示对不同的评测对象进行评测，若评测对象相同，则表示对相同的评测对象执行不同的评测任务；

举例说明，假设对多个评测对象进行评测，可在终端中设置多条评测任务，一条评测任务对应一个评测对象，并在各条评测任务中指示需评测的评测对象及相应的评测集，将包含该多条评测任务的评测请求发送给服务器，从而服务器可并行执行该多条评测任务；可选的，服务器可基于评测请求中的各评测任务对应的评测集，分别向各评测任务的评测对象发送相应评测集的评测词，从而获取到各评测任务的评测对象相应的评测响应，实现对多个评测对象的同时评测。

S203：服务器根据评测请求获取评测任务的评测集。

可选的，服务器可基于评测请求携带的评测集，实现评测任务的评测集获取；也可基于评测请求携带的评测集的标识，从数据库存储的评测集中获取与所述标识相应的评测集。

S204：服务器将评测集中的各个评测词发送给评测对象。

S205：服务器获取评测对象对各个评测词的评测响应。

本实施例中，服务器可向评测对象逐一发送评测集中的各评测词，以使评测对象输出各评测词的评测响应。

本实施例中，评测响应可以理解为评测对象根据评测词做出的回复内容；例如，假设对问答机器人进行评测，评测词为“1970的2月九号是阴历几月几号”，评测对象根据该评测词，输出的评测响应可以为“2月九号农历是正月十三”。

可选的，服务器获取评测对象对评测词的评测响应后，可进一步保存到数据库中；相应的，用户在终端的评测任务设置页面上点击开始评测按钮后，终端向服务器发送评测请求，服务器根据评测请求获取评测集，将评测集中的各个评测词发送给评测对象；评测对象输出各个评测词的评测响应，服务器获取评测对象输出的各评测词的评测响应，并在数据库中进行存储。

S206：终端获取评测响应，并在相应页面中展示评测对象对各评测词的各评测响应。

可选的，触发终端拉取评测响应的方式可以有多种，例如：用户可以通过终端主动从数据库拉取评测响应，或者当服务器获取到评测响应时，将评测响应发送到终端。

作为一种可选实现，服务器获取评测响应后，可以提醒终端对评测响应进行拉取；例如，服务器在获取到评测响应后，可触发终端业务跳转到评测响应拉取页面；也可以是，服务器获取到评测响应后，向终端发送提示信息，由用户触发终端进入评测响应拉取页面，以使得终端从服务器的数据库中，拉取到评测对象对评测任务的各评测词的评测响应。

举例说明：当终端接收到服务器发送的评测请求执行成功的反馈信息时，在终端的页面上显示“成功执行”的提醒信息；用户可以根据需要，点击评测响应展示按钮，或者用户在终端上进行页面刷新，通过这些触发指令，终端可从数据库拉取评测响应，终端页面显示评测集中的各个评测词以及各个评测词对应的评测响应；或者，也可以是服务器在向终端发送评测请求执行成功的反馈信息的同时，将获取到的评测响应发送给终端，终端刷新页面，展示各个评测词以及各个评测词对应的评测响应。

相应的，服务器可受终端请求或主动将评测对象对各评测词的评测响应发送给终端，以便终端在相应页面中展示评测对象对各评测词的评测响应。

S207：终端获取各评测响应的多用户标注内容。

本实施例中，用户可以根据评测词以及评测词对应的评测响应，对评测响应进行标注；例如，通过评测词以及对应的评测响应，用户可以确定评测响应的合理性或者对评测响应进行打分等；

作为一种可选实现，用户可以根据评测词以及评测词对应的评测响应，在标注页面的合理性选项中选择“合理”或“不合理”，即评测对象对于评测词输出的评测响应可能是合理的结果，也可能是不合理结果。

现有技术中通常是将单人标注的内容作为最终的标注结果，但是由于测试人员的知识和经验的不同，不同用户的标注内容也可能不同，就可能导致标注结果的准确率低的问题。本实施例通过多人标注的方式，可以提高标注结果的准确率。通过研究发现，多人标注方式的准确率可达到97％，比单人标注方式高出12％的准确率。

在本发明实施例中，针对于一个评测响应来说，需要多个用户对该评测响应进行标注，从而，每个评测响应可以对应获取到多用户标注内容。

S208：终端将评测任务的各评测响应的多用户标注内容，发送给服务器。

相应的，服务器可针对各评测响应，分别获取到多用户标注内容。

S209：服务器根据各评测响应的多用户标注内容，确定各评测响应的标注结果，根据各评测响应的标注结果，确定评测任务的评测结果。

本实施例中，针对于一个评测响应，服务器可以获取到该评测响应对应的多用户标注内容，从而可进行分析，确定出该评测响应的标注结果。

具体的，服务器针对任一评测响应，可判断该评测响应的多用户标注内容是否相同，若相同，则将相同的标注内容作为该评测响应的标注结果，若存在不同的标注内容，则可根据预设决策逻辑确定该评测响应的标注结果；

作为一种示例，在某一评测响应的多用户标注内容存在差异时，可由专门的校对人员确认最终的标注结果，如图5所示。

可选的，当一评测响应存在不同的标注内容时，可以通过多种决策逻辑确定出标注结果，本实施例并不进行限定。下述给出两种可选的决策逻辑：

一、对于任一评测响应，确定相同且最多的标注内容的数量，得到第一数量，并确定剩余标注内容的数量，得到第二数量；若第一数量大于第二数量，且差值大于阈值，则取所述第一数量相应的标准内容作为该评测响应的标注结果；若第一数量不大于第二数量，或，第一数量大于第二数量，但差值不大于阈值，则输出标注校对提醒(如，可将标注校对提醒输出给专门的校对人员，由专门的校对人员给出最终的标注结果)，将所述标注校对提醒响应后相应选择的标注内容，作为该评测响应的标注结果(如可将校对人员确认后的标注内容，作为该评测响应的标注结果)；

举例说明：对于标注内容为合理性的情况，标注内容可以包括：合理和不合理；对于标注内容为分值的情况，标注内容可以包括不同的分数段。以标注内容包括合理和不合理为例，假设6个用户参与了标注，若4个用户的标注内容为“合理”，2个用户的标注内容为“不合理”，则标注结果可以确定为“合理”；若3个用户的标注内容为“合理”，3个用户的标注内容为“不合理”，则可输出标注校对提醒，需要专用的校对人员从标注内容中选取合适的标注内容作为标注结果。

二、对于任一评测响应，确定多用户标注内容中，相同标注内容最多的目标标注内容，以得到各评测响应的目标标注内容，将各评测响应的目标标注内容，作为各评测响应的标注结果。

本实施例中，可以单独使用上述方式一或者上述方式二确定标注结果，也可以同时使用上述方式一和上述方式二，例如：先执行上述方式二，在上述方式二无法确定标注结果的情况下，采用上述方式一确定标注结果，例如在上述方式一无法确定出相同标注内容最多的目标标注内容时(如不同标注内容的数量相同)，可以采用上述方式二确定标注结果。

可选的，在确定各评测响应的标注结果后，可以将各评测响应的标注结果保存到数据库中。

可选的，在得到各评测响应的标注结果后，服务器可根据各评测响应的标注结果，确定评测任务的指标数值(如评测对象输出的评测响应的合理率、准确率等)，得到评测任务的评测结果。

可见，本发明实施例可通过终端与服务器的交互实现评测方法的执行，并且终端主要负责用户交互以及多人标注部分，主要的数据处理部分由服务器实现；

站在服务器的角度，本发明实施例提供的评测方法中，服务器执行的核心流程可如图6所示，包括：

S01、获取评测请求，所述评测请求至少指示有评测任务的评测对象及评测集。

可选的，当用户在终端设置评测任务，并基于评测任务提交评测请求后，服务器可相应的获取到评测请求。基于评测请求中的评测任务，可至少指示出评测对象及评测集。

S02、根据所述评测请求获取所述评测任务的评测集，所述评测集包括执行所述评测任务的至少一个评测词。

S03、向所述评测对象逐一发送所述评测任务的各评测词，获取所述评测对象对所述评测任务的各评测词的各评测响应。

终端获取评测任务的评测集后，可基于评测任务的评测对象，向评测对象逐一发送评测集中的各评测词，以得到评测对象分别对各评测词的评测响应。

S04、向终端发送评测对象对各评测词的评测响应，以便终端在相应页面中展示评测对象对各评测词的评测响应。

可选的，受终端请求，服务器可将各评测词的评测响应发送给终端进行展示；也可是服务器主动将各评测词的评测响应推送给终端进行展示。

S05、针对各评测响应，分别获取多用户标注内容。

终端展示各评测词的评测响应后，可由多个用户分别对各评测响应均进行标注，得到每个评测响应的多用户标注内容，从而终端可将每个评测响应的多用户标注内容发送给服务器，以由服务器相应的获取到各评测响应的多用户标注内容。

S06、根据各评测响应的多用户标注内容，确定各评测响应的标注结果；根据各评测响应的标注结果，确定所述评测任务的评测结果。

服务器在获取到每个评测响应的多用户标注内容后，可确定出各评测响应的标注结果，从而汇总整理得到评测任务的评测结果。

本发明实施例提供的评测方法，可由服务器在获取评测请求后，拉取执行评测任务的评测集，从而向评测对象逐一发送评测集中的各评测词，实现评测对象对各评测词的各评测响应的获取，并进行保存；从而用户在拉取评测对象的评测响应时，服务器可向终端发送评测对象对各评测词的各评测响应，以便终端在相应页面中展示评测对象对各评测词的各评测响应，无需手动在记录表格中进行评测响应的填入，减小了用户人为参与过程，为提高评测效率提供了可能；进一步，在对各评测响应进行多用户标注后，服务器可针对各评测响应，分别获取多用户标注内容，从而根据各评测响应的多用户标注内容，确定各评测响应的标注结果，实现更为精确的标注结果的确定，从而根据各评测响应的标注结果，确定出更为精确的所述评测任务的评测结果。本发明实施例提供的评测方法，可提高评测效率，并进一步提升评测结果的准确率。

可选的，进一步，在得到各评测响应的标注结果后，若用户想查看标注结果中符合预设要求的标注结果，可以通过终端向服务器发送相关的查看请求，服务器将符合预设要求的标注结果发送到终端进行展示；

举例说明：假设用户想查看评测任务中所有不合理的标注结果，用户可以在终端上点击“问题列表”(即问题详单)按钮，终端向服务器发送查看问题列表请求，服务器收到该请求后，获取评测任务中所有不合理的标注结果，并发送到终端中进行展示。

本实施例中，在对标注结果进行分析后，若出现异常情况，可以产生提单记录供用户查看，即输出异常信息供用户查看；例如：异常情况可以包括：分析结果不合理、指标数值低于预期、无结果输出等。输出的异常信息可以包括：问题标题、问题说明、评测上下文、在评测对象的运行日志中相应的日志信息、问题跟进人、当前状态等。

可选的，为实现评测，本发明实施例可预先进行各评测对象的评测集的收集，以实现评测语料的获取，评测语料可以包括各评测对象的评测集，一个评测对象对应至少一个评测集；一般的，在设置评测任务的阶段，选择评测对象后，一般从所选择的评测对象对应的评测集中，进行执行评测任务所用的评测集的选取；

可选的，图7示出了本发明实施例提供的评测语料获取方法的流程示意，图8示出了实现评测语料获取的架构示意，结合参照图7和图8所示，该方法可以包括(方法的执行可由服务器实现)：

S301：从数据源中获取多个初始评测词；

可选的，本发明实施例可针对各待评测对象，分别从各待评测对象关联的多个数据源抓取初始评测词，得到各待评测对象的初始评测词。

本实施例中，数据源可以理解为是评测对象的评测词的数据来源；如图8所示，对于任一评测对象而言，数据源可以包括：该评测对象的产品线上数据库、网站数据、该评测对象的竞品数据等；

其中，一评测对象的产品线上数据库可以理解为该评测对象相应的APP的数据库；网站数据可以理解为该评测对象的web页面的数据；竞品数据可以理解为和该评测对象具有相同功能的其他产品的数据；

例如，假设评测对象为搜索业务，产品线上数据可以为搜索业务相应的APP的线上数据库，网站数据库可以是搜索业务相应的搜索网站的数据库，竞品数据库可以是其他具有搜索功能的APP的数据。

其中，初始评测词可以是数据源中存在的对评测对象进行历史评测时相应的评测词，或者评测对象执行历史业务时相应的评测词；举例说明：假设评测对象为问答机器人，则初始评测词可以为数据源中用户的询问历史，例如“15年中秋节是公历几月几号”“1961年农历2月16号是阳历的几月几号”等。

本实施例中，从上文的介绍可知，数据源可能包括一个或者多个，当数据源包括多个时，不同的数据源获取初始评测词的方式可能相同也可能不同；

举例说明：针对于产品线上数据库，可以通过JDBC(英文全称：Java DataBaseConnectivity,中文全称：java数据库连接)连接产品线上数据库，并从产品线上数据库中获取初始评测词；针对于网站数据和竞品数据，可以通过网络爬取的方式从网站或者评测对象的竞品爬取初始评测词。

其中，作为从网站数据和竞品数据中获取初始评测集的一种示例，过程可以包括：创建爬取任务；选择爬取目标网站，其中，爬取目标网站可以包括至少一个网站；从爬取目标网站中爬取初始评测词，进而得到初始评测词。

其中，在执行爬取任务时，服务器可以同时执行多个爬取任务，如图9所示，当设置了多个爬取任务后，可采用不用的线程执行每个任务，如图9所示线程treade1执行task1(任务1)，线程treade2执行task2(任务2)，线程treade3执行task3(任务3)，当下发了爬取指令后，每个线程分别执行评测词爬取操作。

S302：对获取到的初始评测词进行筛选，得到筛选后的初始评测词。

可选的，可对各待评测对象的初始评测词进行筛选，得到各待评测对象筛选后的初始评测词；筛选过程可以包括：去除重复、无效的初始评测词等；

如图8所示，可在数据处理层分别对从不同数据源获取的初始评测词进行数据筛选处理；其中，数据源和数据处理层间可通过数据访问层联系。

S303：将筛选后的初始评测词的格式转换为预定义的数据格式，得到多个评测词。

可选的，可将各待评测对象筛选后的初始评测词转换为预定统一格式，得到各待评测对象的评测词。

本实施例中，由于初始评测词的来源不同，格式也有所不同，为了保证评测对象可以识别出评测词，需要将评测词的格式统一化，也可以理解为将初始评测词的格式转换为评测对象可以识别的格式。

S304：将评测词进行分类，得到评测集，形成评测语料。

可选的，可将各待评测对象的评测词进行分类，得到各待评测对象的评测集，并将各待评测对象的评测集进行存储，形成评测语料；其中，一待评测对象具有至少一个评测集，一个评测集包括至少一个评测词。

可选的，为了区分评测目的，方便各评测对象在不同评测目的下的评测集的调取，本发明实施例可以对评测词进行分类，例如：同一评测对象的不同评测集可以用于执行该评测对象不同的评测目的。当然，也可通过评测词的数据类型进行分类。

可选的，除了上述提到的评测词的获取方法，还可以通过人工构造数据的方式获取评测词。

本实施例在形成评测语料时，针对各评测对象，分别选用了不同的数据源作为数据来源，丰富了各评测对象相应的评测集的来源，同时，使得评测结果更具说服力。

可选的，在基于评测任务的各评测响应的标注结果，确定评测任务的评测结果时，本发明实施例可进行指标分析实现；作为一种可选方式，图10示出了指标分析的方法流程，该方法可由服务器执行实现，参照图10，该方法可以包括：

S401：根据标注结果，获取预设指标数值的指标数据；

其中，指标数据为计算预设的指标数值所需的相关数据；

S402：基于预设指标数值的指标数据和预设的公式，计算预设的指标数值的结果，得到评测结果。

本实施例中，可以对每个测试任务进行多种指标数值的分析，例如，包括：合理率、准确率、召回率等，不同的评测对象不同，分析的指标数值也不同。

在实际应用中，具体需要对哪些指标数值进行分析，用户可以根据实际情况进行设置。

举例说明：假设对合理率进行分析，需要获取的指标数据包括：标注“合理”的评测数据的数量m以及所有的评测数据的数量n，合理率获取了指标数据后，将指标数据代入到合理率的公式中，即可得到合理率的指标值。

本实施例中，通过对相关指标数值进行分析，有利于确定评测对象在某个方面的业务能力，对评测对象的优化起到了指导作用。

对于评测对象输出的不合理的响应，本发明实施例可称为badcase(坏案例)响应，如图11所示，badcase响应的来源可以包括：

方式一：从评测对象的各评测响应的标注结果中，确定标注为不合理的评测响应，得到badecase响应；

可选的，可对评测响应进行合理性的标注，被标注为“不合理”的评测响应可作为badecase响应。

方式二：将评测对象在响应一评测词的过程中的逻辑输出结果，与预定逻辑输出结果进行比对，若比对结果不一致，则确定评测对象对该评测词的评测响应为badecase响应；

举例说明：假设对问答机器人进行评测，若评测词为“1970年2月19号是阴历几月几日”，若输出的评测响应为“1970年2月19号是农历正月15”，预设的结果为“1970年2月19号是农历正月14”，将评测响应与预设的输出结果进行比对，二者不一致，则表示该评测响应为badecase响应。

方式三：获取用户反馈的评测对象的badcase响应。

用户在使用评测对象的过程中，对于评测对象输出的不合理的响应，可进行收集。

在收集到badcase响应后，由于评测对象在依据评测词或关键词执行响应时，需要执行多个逻辑步骤，因此可通过评测日志中记录的评测对象执行的逻辑步骤进行问题处理(即寻找评测对象产生badcase响应的原因类型)，定位出产生badcase响应的原因类型；可选的，图12示出了产生badcase响应的原因类型的分析流程：

S501:确定评测对象的badecase响应；

S502:从所述评测对象的运行日志中拉取badecase响应的日志内容；

S503:从所拉取的日志内容中定位分析出产生badecase响应产生的原因类型。

可选的，本发明实施例可预先定义产生badcase响应的多种原因类型，评测对象在执行响应的过程中的不同逻辑步骤出现问题可对应不同的原因类型；例如：1、服务异常转闲聊意图；2、意图识别错误；3、意图识别正确，槽位识别错误；4、意图识别正确，回复没有配置，转闲聊意图；5、意图识别正确，DM缺少槽位，转闲聊意图等原因类型；

从而可根据预定的产生badcase响应的各原因类型，从评测对象的运行日志中筛选各原因类型相应的日志内容，分析各原因类型对应的执行逻辑的合理性，从而定位出不合理的执行逻辑，寻找到不合理的执行逻辑相应的原因类型，实现产生badcase响应的原因类型定位。

举例说明：假设评测对象为问答机器人，评测数据为“今天是星期几”，问答机器人在接收到评测数据后，将进行识别评测数据，获取与评测数据匹配的结果等执行逻辑，从评测日志中，可定位出出现问题的执行逻辑(即不合理的执行逻辑)，进而确定产生badcase响应的原因类型。

可选的，本实施例中，在确定了产生badecase响应的原因类型后，可以进行提单记录，即记录产生该badecase响应的相关过程，并生成评测任务的问题详单，该评测任务的问题详单记录包括：产生各badcase响应的原因类型的标题、说明、评测上下文、在评测对象的运行日志中相应的日志信息等。

可选的，本实施例中，定位了产生badcase响应的原因类型后，还可以根据该原因类型，对评测对象进行优化处理。在产生badcase响应的原因类型的问题解决后，可以扭转标注结果，例如，将标注为“不合理”的标注结果扭转为“合理”。

本实施例通过对产生badcase响应的原因类型进行分析，对用户解决问题以及对评测对象进行优化起到了有效的指导作用。

可选的，本实施例中，在对页面的展示设计时可以采用如图13所示的Spring mvc的设计模式，通过实现Model-View-Controller模式来很好地将数据、业务与展现进行分离。控制层实现逻辑处理、数据处理，Model层处理业务数据并返回结果，最后View层渲染视图展示给用户。

为了方便可以直观的理解本申请的技术方案，参考图14-图21示出了本发明实施例提供的终端界面展示的示意图，具体的，本申请的评测过程例如可以包括：

如图14所示，用户在终端上设置评测任务，用户设置的评测任务的信息包括：任务名称：询问时间，选择评测集，评测对象为问答机器人；

进一步，还可以在终端设置批量任务，如图15所示；本实施例以一个评测任务为例，对后续的评测过程进行说明。

终端可向服务器发送评测请求，以使服务器执行设置的评测任务，终端页面跳转到任务执行状态页面或者等待执行页面，如图16所示；

服务器根据评测任务导入评测集，并将评测集的各个评测词逐一发送给评测对象并获取评测对象输出的各评测词的评测响应，然后向终端反馈任务执行成功的信息；

当终端页面接收到服务器发送的任务执行成功的信息后，终端页面更新任务执行状态页面，更新后的页面如图17所示；用户可以点击图17中评测响应按钮以拉取评测任务的各评测响应，终端跳转到评测响应展示页面，如图18所示；

用户可以在评测响应的展示页面对各个评测响应进行标注，其中，可以通过多个用户对各评测响应均进行标注，得到各评测响应的多用户标注内容，如图19所示的标注者1和标注者2对各评测响应的标注内容；

标注结束后，服务器还可以基于各评测响应的多用户标注内容，确定各评测响应的标注结果，进而计算指标数值，得到评测结果，图20示出了指标数值为合理率的情况下评测结果展示；

进一步，对于标注结果为不合理的badecase响应，服务器可分析产生badecase响应的原因类型；从而用户可以对每个评测任务的问题列表进行查看，如图20所示；用户点击某个评测任务的问题列表按钮后，终端跳转到该任务的问题列表展示页面，展示出评测过程中的badecase响应，如图21所示。

本实施例中，通过终端和服务器的交互，实现了半自动话的评测过程，节省了人力，并且通过多人标注的方式，提高了标注结果的准确率。

下面站在服务器的角度，对本发明实施例提供的评测装置进行介绍，下文描述的评测装置可以认为是服务器为实现本发明实施例提供的评测方法，所需设置的程序模块。下文描述的评测装置的内容，可与上文描述的评测方法的内容相互对应参照。

图22为本发明实施例提供的评测装置的结构框图，该评测装置可应用于服务器，参照图22，该评测装置可以包括：

评测请求获取模块100，用于获取评测请求，所述评测请求至少指示有评测任务的评测对象及评测集；

评测集获取模块110，用于根据所述评测请求获取所述评测任务的评测集，所述评测集包括执行所述评测任务的至少一个评测词；

评测执行模块120，用于向所述评测对象逐一发送所述评测任务的各评测词，获取所述评测对象对所述评测任务的各评测词的评测响应；

评测响应发送模块130，用于向终端发送评测对象对各评测词的评测响应，以便终端在相应页面中展示评测对象对各评测词的评测响应；

标注内容获取模块140，用于针对各评测响应，分别获取多用户标注内容；

标注结果获取模块150，用于根据各评测响应的多用户标注内容，确定各评测响应的标注结果；

评测结果确定模块160，用于根据各评测响应的标注结果，确定所述评测任务的评测结果。

可选的，标注结果获取模块150，用于根据各评测响应的多用户标注内容，确定各评测响应的标注结果，具体包括：

对于任一评测响应，若评测响应的多用户标注内容相同，则将相同的标注内容作为该评测响应的标注结果；

对于任一评测响应，若评测响应的多用户标注内容不同，根据预设决策逻辑，从不同的标注内容中确定该评测响应的标注结果。

可选的，标注结果获取模块150，用于对于任一评测响应，若评测响应的多用户标注内容不同，根据预设决策逻辑，从不同的标注内容中确定该评测响应的标注结果，具体包括：

对于任一评测响应，确定所述多用户标注内容中，相同标注内容最多的目标标注内容，以得到该评测响应的目标标注内容，将该评测响应的目标标注内容，作为该评测响应的标注结果。

可选的，评测结果确定模块160，用于根据各评测响应的标注结果，确定所述评测任务的评测结果，具体包括：

根据各评测响应的标注结果，计算所述评测任务的指标数值，得到所述评测任务的评测结果。

可选的，图23示出了本发明实施例提供的评测装置的另一结构框图，结合图22和图23所示，该评测装置还可以包括：

评测集收集模块170，用于针对各待评测对象，分别从各待评测对象关联的多个数据源抓取初始评测词，得到各待评测对象的初始评测词；对各待评测对象的初始评测词进行筛选，得到各待评测对象筛选后的初始评测词；将各待评测对象筛选后的初始评测词转换为预定统一格式，得到各待评测对象的评测词；分别将各待评测对象的评测词进行分类，得到各待评测对象的评测集，并将各待评测对象的评测集进行存储，形成评测语料；其中，一待评测对象具有至少一个评测集，一个评测集包括至少一个评测词。

可选的，评测集获取模块110，用于根据所述评测请求获取所述评测任务的评测集，具体包括：

根据所述评测请求中指示的评测集，从所述评测语料中拉取相应的评测集，以获取到所述评测任务的评测集。

可选的，图24示出了本发明实施例提供的评测装置的再一结构框图，结合图22和图24所示，该评测装置还可以包括：

badcase响应分析模块180，用于确定所述评测对象的坏案例badcase响应；从所述评测对象的运行日志中拉取badcase响应的日志内容；从所拉取的日志内容中定位分析出产生badcase响应的原因类型。

可选的，badcase响应分析模块180，用于从所述评测对象的运行日志中拉取badcase响应的日志内容，具体包括：

根据预定的产生badcase响应的各原因类型，从评测对象的运行日志中筛选各原因类型相应的日志内容；

可选的，badcase响应分析模块180，用于从所拉取的日志内容中定位分析出产生badcase响应的原因类型，具体包括：

分析各原因类型对应的执行逻辑的合理性，定位出不合理的执行逻辑；确定不合理的执行逻辑相应的原因类型，以定位到产生badcase响应的原因类型。

可选的，badcase响应分析模块180，用于确定所述评测对象的badcase响应，具体包括：

从所述评测对象的各评测响应的标注结果中，确定表示badcase的评测响应；

和/或，将所述评测对象在响应一评测词的过程中的逻辑输出结果，与预定逻辑输出结果进行比对，若比对结果不一致，则确定所述评测对象对该评测词的评测响应为badcase响应；

和/或，获取用户反馈的评测对象的badcase响应。

可选的，图25示出了本发明实施例提供的评测装置的又一结构框图，结合图24和图25所示，该评测装置还可以包括：

提单记录模块190，用于对所述评测任务产生的各badcase响应的原因类型进行提单记录，形成所述评测任务的问题详单；所述评测任务的问题详单至少记录有所述评测任务的各badcase响应产生的原因类型的标题、说明、评测上下文、在评测对象的运行日志中相应的日志信息。

可选的，本发明实施例可支持多评测任务的并行执行，相应的，评测请求获取模块100，用于获取评测请求，可具体包括：

获取指示多条评测任务的评测请求，以并行执行所述多条评测任务。

下面站在终端的角度，对本发明实施例提供的评测装置进行介绍，下文描述的评测装置可以认为是终端为实现本发明实施例提供的评测方法，所需设置的程序模块。下文描述的评测装置的内容，可与上文描述的评测方法的内容相互对应参照。

图26为本发明实施例提供的评测装置的又另一结构框图，该评测装置可应用于终端，参照图26，该评测装置可以包括：

评测请求发送模块200，用于向服务器发送评测请求；所述评测请求至少指示有评测任务的评测对象及评测集，所述评测集包括执行所述评测任务的至少一个评测词；

评测响应获取模块210，用于获取并展示服务器发送的评测对象对各评测词的各评测响应；

标注模块220，用于针对各评测响应，获取多用户标注内容；

标注发送模块230，用于将各评测响应的多用户标注内容发送至服务器，以便服务器确定所述评测任务的评测结果。

可选的，服务器的硬件结构可如图27所示，包括：至少一个处理芯片1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理芯片1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理芯片1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理芯片1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有程序，处理芯片1调用存储器3所存储的程序，以实现上述所述的服务器执行的评测方法的步骤；

本发明实施例还提供一种存储介质，该存储介质存储有适于处理芯片执行的程序，以实现上述所述的服务器执行的评测方法的步骤。

可选的，上述所述的程序可具体用于：

针对各评测响应，分别获取多用户标注内容；

本发明实施例提供的终端的硬件架构可参照图27所示，包括至少一个存储器和至少一个处理芯片，存储器3存储有程序，处理芯片1调用存储器3所存储的程序，以实现上述所述的终端执行的评测方法的步骤；

本发明实施例还提供一种存储介质，该存储介质存储有适于处理芯片执行的程序，以实现上述所述的终端执行的评测方法的步骤。

可选的，上述所述的程序可具体用于：

针对各评测响应，获取多用户标注内容；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理芯片执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种评测方法，其特征在于，包括：

针对各评测响应，分别获取多用户标注内容；

2.根据权利要求1所述的评测方法，其特征在于，所述根据各评测响应的多用户标注内容，确定各评测响应的标注结果包括：

3.根据权利要求2所示的评测方法，其特征在于，所述对于任一评测响应，若评测响应的多用户标注内容不同，根据预设决策逻辑，从不同的标注内容中确定该评测响应的标注结果包括：

4.根据权利要求1所述的评测方法，其特征在于，所述根据各评测响应的标注结果，确定所述评测任务的评测结果包括：

5.根据权利要求1-4任一项所述的评测方法，其特征在于，还包括：

针对各待评测对象，分别从各待评测对象关联的多个数据源抓取初始评测词，得到各待评测对象的初始评测词；

对各待评测对象的初始评测词进行筛选，得到各待评测对象筛选后的初始评测词；

将各待评测对象筛选后的初始评测词转换为预定统一格式，得到各待评测对象的评测词；

分别将各待评测对象的评测词进行分类，得到各待评测对象的评测集，并将各待评测对象的评测集进行存储，形成评测语料；其中，一待评测对象具有至少一个评测集，一个评测集包括至少一个评测词。

6.根据权利要求5所述的评测方法，其特征在于，所述根据所述评测请求获取所述评测任务的评测集包括：

7.根据权利要求1所述的评测方法，其特征在于，还包括：

确定所述评测对象的坏案例badcase响应；

从所述评测对象的运行日志中拉取badcase响应的日志内容；

从所拉取的日志内容中定位分析出产生badcase响应的原因类型。

8.根据权利要求7所述的评测方法，其特征在于，所述从所述评测对象的运行日志中拉取badcase响应的日志内容包括：

所述从所拉取的日志内容中定位分析出产生badcase响应的原因类型包括：

9.根据权利要求7所述的评测方法，其特征在于，所述确定所述评测对象的badcase响应包括：

和/或，获取用户反馈的评测对象的badcase响应。

10.根据权利要7所述的评测方法，其特征在于，还包括：

对所述评测任务产生的各badcase响应的原因类型进行提单记录，形成所述评测任务的问题详单；所述评测任务的问题详单至少记录有所述评测任务的各badcase响应产生的原因类型的标题、说明、评测上下文、在评测对象的运行日志中相应的日志信息。

11.根据权利要求1所述的评测方法，其特征在于，所述获取评测请求包括：

12.一种评测方法，其特征在于，包括：

针对各评测响应，获取多用户标注内容；

13.一种评测装置，其特征在于，包括：

14.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理芯片；所述存储器存储有程序，所述处理芯片执行所述程序，以实现权利要求1-11任一项所述的评测方法的步骤。

15.一种存储介质，其特征在于，所述存储介质存储有适于处理芯片执行的程序，以实现权利要求1-11任一项所述的评测方法的步骤。