CN110807330B - 语义理解模型评估方法、装置及存储介质 - Google Patents

语义理解模型评估方法、装置及存储介质 Download PDF

Info

Publication number
CN110807330B
CN110807330B CN201910847922.9A CN201910847922A CN110807330B CN 110807330 B CN110807330 B CN 110807330B CN 201910847922 A CN201910847922 A CN 201910847922A CN 110807330 B CN110807330 B CN 110807330B
Authority
CN
China
Prior art keywords
dimension
evaluation
semantic
dimension value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910847922.9A
Other languages
English (en)
Other versions
CN110807330A (zh
Inventor
唐文
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910847922.9A priority Critical patent/CN110807330B/zh
Publication of CN110807330A publication Critical patent/CN110807330A/zh
Application granted granted Critical
Publication of CN110807330B publication Critical patent/CN110807330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种语义理解模型评估方法、装置及存储介质,该语义理解模型评估方法包括:获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值;根据评估维度和维度值确定多个维度值组;获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注;根据初始语义标注和模型语义标注确定维度值组对应的指标值集;根据指标值集和维度值组建立语义理解模型对应的评估数据库;基于评估数据库对语义理解模型进行评估,从而,能够从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,以针对性提高语义理解模型的性能。

Description

语义理解模型评估方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种语义理解模型评估方法、装置及存储介质。
背景技术
随着科技的发展,人工智能技术在电子领域得到迅速发展和普及。语义理解是人工智能技术的重要一环,如何准确地理解并执行用户的要求是人工智能技术的发展趋势。
目前,语义理解相关的研究主要集中在算法方面、以及工程应用方面,而在自然语言的处理能力分析方面却存在技术空白,进而当在自然语言处理的应用场景中出现语义理解结果不理想时,由于语义理解过程中所涉及的算法以及机器学习模型较多,使得技术人员无法准确确定问题所在,并有针对性地解决问题。
发明内容
本申请实施例提供一种语义理解模型评估方法、装置及存储介质,以从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,进而能够有针对性地提高语义理解模型的自然语言处理能力。
本申请实施例提供了一种语义理解模型评估方法,包括:
获取待评估的语义理解模型对应的至少一个评估维度、以及每一所述评估维度对应的至少一个维度值;
根据所述评估维度和维度值确定多个维度值组;
获取每个所述维度值组对应的多条已标注语料的初始语义标注和模型语义标注;
根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集;
根据所述指标值集和维度值组建立所述语义理解模型对应的评估数据库;
基于所述评估数据库对所述语义理解模型进行评估。
其中,所述指标值集包括准确率、召回率和综合值,所述根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集,具体包括:
判断每条所述已标注语料对应的所述初始语义标注和模型语义标注是否相同;
若是,则将对应的所述已标注语料标记为理解正确语料;
统计所述多条已标注语料中初始语义标注与所述理解正确语料的初始语义标注相同的已标注语料的第一数量、所述多条已标注语料中模型语义标注与所述理解正确语料的模型语义标注相同的已标注语料的第二数量、以及所述理解正确语料的第三数量;
根据所述第一数量、第二数量以及第三数量确定相应所述维度值组对应的准确率、召回率和综合值。
其中,所述基于所述评估数据库对所述语义理解模型进行评估,具体包括:
获取查询指令,所述查询指令携带所述语义理解模型的目标评估维度值组;
从所述评估数据库中获取所述目标评估维度值组对应的指标值集;
根据所述目标评估维度值组对应的指标值集,确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
其中,所述基于所述评估数据库对所述语义理解模型进行评估,具体包括:
获取查询指令;
根据所述查询指令获取每个所述评估维度的查询优先级;
根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值;
根据所述目标维度值确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
其中,所述至少一个评估维度包括所述应用维度、问法维度、语义维度和组件维度,所述根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值,具体包括:
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中确定第一级评估维度,并获取所述第一级评估维度对应的至少一个第一维度值;
从所述评估数据库中获取每一所述第一维度值对应的第一指标值集;
根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值;
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中剩余的所述评估维度中确定第二级评估维度,并获取所述第二级评估维度对应的至少一个第二维度值;
将每一所述第二维度值与所述第一级评估维度的目标维度值进行组合,得到至少一个第一维度值组,并从所述评估数据库中获取每一所述第一维度值组对应的第二指标值集;
根据所述第二指标值集,从所述至少一个第二维度值中确定所述第二级评估维度的目标维度值。
其中,所述根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值,具体包括:
从所述第一指标值集中确定目标指标值;
判断每一所述第一维度值对应的所述目标指标值是否小于相应的预设阈值;
若是,则将对应的所述第一维度值作为所述第一级评估维度的目标维度值。
其中,所述根据所述目标维度值确定所述语义理解模型的评估结果,具体包括:
对所有所述评估维度的目标维度值进行组合,得到目标维度值组,并获取所述目标维度值组对应的多条目标语料;
根据所述查询优先级,将所述评估维度、每一所述评估维度对应的维度值、所述目标维度值、以及所述目标语料,以预设图表形式生成评估报告,并向用户提供评估报告。
本申请实施例还提供了一种语义理解模型评估装置,包括:
第一获取模块,用于获取待评估的语义理解模型对应的至少一个评估维度、以及每一所述评估维度对应的至少一个维度值;
第一确定模块,用于根据所述评估维度和维度值确定多个维度值组;
第二获取模块,用于获取每个所述维度值组对应的多条已标注语料的初始语义标注和模型语义标注;
第二确定模块,用于根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集;
建立模块,用于根据所述指标值集和维度值组建立所述语义理解模型对应的评估数据库;
评估模块,用于基于所述评估数据库对所述语义理解模型进行评估。
其中,所述指标值集包括准确率、召回率和综合值,所述第二确定模块具体包括:
判断单元,用于判断每条所述已标注语料对应的所述初始语义标注和模型语义标注是否相同;
标记单元,用于当所述初始语义标注和模型语义标注相同时,将对应的所述已标注语料标记为理解正确语料;
统计单元,用于统计所述多条已标注语料中初始语义标注与所述理解正确语料的初始语义标注相同的已标注语料的第一数量、所述多条已标注语料中模型语义标注与所述理解正确语料的模型语义标注相同的已标注语料的第二数量、以及所述理解正确语料的第三数量;
确定单元,用于根据所述第一数量、第二数量和第三数量确定相应所述维度值组对应的准确率、召回率和综合值。
其中,所述评估模块,具体用于:
获取查询指令,所述查询指令携带所述语义理解模型的目标评估维度值组;
从所述评估数据库中获取所述目标评估维度值组对应的指标值集;
根据所述目标评估维度值组对应的指标值集,确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
其中,所述评估模块,具体用于:
获取查询指令;
根据查询指令获取每个所述评估维度的查询优先级;
根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值;
根据所述目标维度值确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
其中,所述至少一个评估维度包括应用维度、问法维度、语义维度和组件维度,所述根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值,具体包括:
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中确定第一级评估维度,并获取所述第一级评估维度对应的至少一个第一维度值;
从所述评估数据库中获取每一所述第一维度值对应的第一指标值集;
根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值;
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中剩余的所述评估维度中确定第二级评估维度,并获取所述第二级评估维度对应的至少一个第二维度值;
将每一所述第二维度值与所述第一级评估维度的目标维度值进行组合,得到至少一个第一维度值组,并从所述评估数据库中获取每一所述第一维度值组对应的第二指标值集;
根据所述第二指标值集,从所述至少一个第二维度值中确定所述第二级评估维度的目标维度值。
其中,所述根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值,具体包括:
从所述第一指标值集中确定目标指标值;
判断每一所述第一维度值对应的所述目标指标值是否小于相应的预设阈值;
若是,则将对应的所述第一维度值作为所述第一级评估维度的目标维度值。
其中,所述根据所述目标维度值确定所述语义理解模型的评估结果,具体包括:
对所有所述评估维度的目标维度值进行组合,得到目标维度值组,并获取所述目标维度值组对应的多条目标语料;
根据所述查询优先级,将所述评估维度、每一所述评估维度对应的维度值、所述目标维度值、以及所述目标语料,以预设图表形式生成评估报告,并向用户提供评估报告。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项语义理解模型评估方法。
本申请提供的语义理解模型评估方法、装置及存储介质,通过获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值,并根据评估维度和维度值确定多个维度值组,之后获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注,并根据初始语义标注和模型语义标注确定维度值组对应的指标值集,然后根据指标值集和维度值组建立语义理解模型对应的评估数据库,并基于评估数据库对语义理解模型进行评估,从而,能够从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,以针对性提高语义理解模型的自然语言处理能力。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是机器人与用户进行交互的流程示意图;
图2是本申请实施例提供的语义理解模型评估***的场景示意图;
图3是本申请实施例提供的语义理解模型评估方法的流程示意图;
图4是本申请实施例提供的S106的流程示意图;
图5是本申请实施例提供的查询界面的显示效果示意图
图6是本申请实施例提供的语义理解模型评估方法的另一流程示意图;
图7是本申请实施例提供的评估报告的展示效果示意图;
图8是本申请实施例提供的语义理解模型评估装置的结构示意图;
图9是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术的不断演化,其应用场景在近几年开始不断涌现,越来越多的用户开始直接接触到智能服务产品,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。具体地,以机器人为例,图1是机器人与用户进行交互的流程示意图,如图1所示,用户通过语音“今天天气怎么样?”唤醒机器人,然后机器人利用语音识别模型将用户语音转换为用户文本,然后利用语义理解模型对上述用户文本进行自然语言处理以将该用户文本转换为对应服务(比如,天气服务)能够理解的语义结构,并生成应答结果,之后利用语音合成模块将上述应答结果转换为应答语音,并向用户反馈该应答语音。其中,自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体涉及一种语义理解模型评估方法、装置及存储介质。
请参阅图2,图2为本申请实施例提供的语义理解模型评估***的场景示意图,该语义理解模型评估***可以包括本申请实施例提供的任一种语义理解模型评估装置,该语义理解模型评估装置具体可以集成在服务器,比如人工智能开发服务器中。
该服务器可以获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值;根据评估维度和维度值确定多个维度值组;获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注;根据初始语义标注和模型语义标注确定维度值组对应的指标值集;根据指标值集和维度值组建立语义理解模型对应的评估数据库;基于评估数据库对语义理解模型进行评估。
其中,语义理解模型用于人机交互的自然语言处理,以得到用户请求语句的语义结构,评估维度可以包括应用维度、问法维度、语义维度和组件维度,应用维度是指语义理解模型可以适用的应用场景,比如机器人、智能音箱、手机助手等等,问法维度是指语义理解模型可以适用的用户问法,比如模糊问法(无确切答案)、单实体问法(存在一个未知量,有确切答案)等等,语义维度是指语义理解模型对自然语言进行处理后得到的语义结果中所表现出来的状态,比如领域分类、意图分类、参数提取等等,组件维度是指语义理解模型在对自然语言处理过程中所执行的组件,比如分词模型、词向量模型等等。每一维度值组中属于同一评估维度的维度值最多只存在一个。初始语义标注通常是由语料标注人员标注得到的,模型语义标注是由上述语义理解模型在实际应用场景中对相应的语料进行语义标注得到的。指标值集包括准确率、召回率、综合值等用于评价语义理解模型在对应维度值组条件下自然语言处理能力的指标值。
此外,该语义理解模型评估***还可以包括客户端,该客户端可以是手机、平板电脑、台式电脑等终端,该客户端可以供用户选择不同的维度值组,并基于已选择的维度值组查询上述评估数据库,以对语义理解模型的自然语言处理能力进行分析评估。
譬如,在图2中,服务器会获取待评估的语义理解模型的四个评估维度、以及每一评估维度的至少一个维度值,并对不同评估维度的维度值进行组合,得到对个维度值组,然后从语料库中获取维度值组对应的多条已标注语料的初始语义标注和模型语义标注,并基于初始语义标注和模型语义标注计算对应维度值组的指标值集,之后建立评估数据库以存储维度值组与指标值集的一一对应关系,然后在接收到客户端发送的查询指令时,可以向客户端发送评估结果。
如图3所示,图3是本申请实施例提供的语义理解模型评估方法的流程示意图,该语义理解模型评估方法具体流程可以如下:
S101.获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值。
在本实施例中,上述待评估的语义理解模型用于人机交互的自然语言处理,具体可以包括:词义分析,用于对语句中的词汇提取语言学信息,以得到词汇的词义;句法分析,用于对语句或短语的结构进行分析,以得到词汇、短语在语句中的语法功能和相互关系;语义分析,用于获取语句要表达的实际意义,该阶段是自然语言理解***的核心,一方面要定义语义项,另一方面要定义从词义、语句结构等信息至语义项的语义转换规则库,如此,对于一个给定的文本输入经过词义分析、句法分析之后,能够利用语义转换规则库最终实现获取语义的目的。
本申请考虑到现有技术中缺乏对语义理解模型的自然语言处理能力分析,故提供了一种语义理解模型的评估方法,以为关注语义理解模型的自然语言处理结果质量的人员提供有效的方法指引。
其中,上述评估维度可以包括应用维度、问法维度、语义维度和组件维度中的至少一种。具体地,应用维度是指语义理解模型可以适用的应用场景,比如机器人、智能音箱、手机助手等等,也即应用场景对应的维度值。问法维度是指语义理解模型可以适用的用户问法,比如单实体问法(该类问法的问句中仅存在一个未知量,如“今天是星期几”)、模糊问法(该类问法的问句为不能做出确切回答的问句,如“她美吗”)等等,也即问法维度对应的维度值。语义维度是指语义理解模型对自然语言进行处理后得到的语义结果中所表现出来的状态,比如领域分类、意图分类、参数提取等等,也即语义维度对应的维度值。组件维度是指语义理解模型在对自然语言处理过程中所执行的组件,比如用于对语句进行分词处理以得到多个字符段的分词模型、用于将词表征为实数值向量的词向量模型等等,也即组件维度对应的维度值。
具体实施时,可以根据语义理解模型评估人员的关注点,从上述应用维度、问法维度、语义维度和组件维度中选择部分或全部作为评估维度,以对上述语义理解模型的自然语言处理能力进行分析评估。
S102.根据评估维度和维度值确定多个维度值组。
其中,当上述评估维度的数量为一个时,上述维度值组可以由该评估维度的一个维度值组成,当上述评估维度的数量为多个时,上述维度值组可以由其中一个评估维度的一个维度值组成,也可以由不同评估维度的维度值组成,并且,每一维度值组中属于同一评估维度的维度值最多只存在一个。
S103.获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注。
在本实施例中,上述语义理解模型评估装置可以从语料库中获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注。
具体地,该语料库中存储有上述语义理解模型在实际应用场景下得到的已标注语料,并且,每一已标注语料具有与上述维度值组中的维度值对应的维度值标签,比如,用于指示该已标注语料来自于哪一应用场景的应用标签、用于指示该已标注语料属于哪一种问法的问法标签、用于指示该已标注语料的语义理解结果表现状态的语义表现标签、或用于指示该已标注语料的语义理解过程中所执行组件的组件标签。譬如,若维度值组由应用维度的维度值“机器人”、问法维度的维度值“单实体问法”、以及语义维度的维度值“领域分类”组成,则其对应的已标注语料为上述语料库中具有“机器人”应用标签、单实体问法标签以及领域分类语义表现标签的已标注语料。
进一步地,上述已标注语料还具有用于指示该已标注语料语义的初始语义标注和模型语义标注,其中,初始语义标注通常是由语料标注人员标注得到的,模型语义标注是由上述语义理解模型在实际应用场景中对相应的语料进行语义标注得到的。
需要说明的是,一条已标注语料可以同时具有多个不同的语义表现标签、以及与每一语义表现标签对应的语义结果,比如,已标注语料“今天天气怎么样?”同时具有三个语义表现标签“领域分类”、“意图分类”和“参数提取”,且这三个语义表现标签依次对应语义结果“天气”、“查询温度”以及“日期:今天”。具体地,当维度值组中存在语义维度的维度值时,上述初始语义标注可以为语义表现状态与该语义维度的维度值对应的由人工标注的语义结果,上述模型语义标注可以为语义表现状态与该语义维度的维度值对应的由语义理解模型标注的语义结果。当维度值组中不存在语义维度的维度值时,可以将已标注语料的全部由人工标注的语义结果作为初始语义标注,并将已标注语料的全部由语义理解模型标注的语义结果作为模型语义标注。
S104.根据初始语义标注和模型语义标注确定维度值组对应的指标值集。
其中,指标值集可以包括至少一个用于评价上述语义理解模型在对应维度值组条件下自然语言处理能力的指标值。
具体地,上述指标值集可以包括准确率、召回率和综合值,上述S104具体可以包括:
S1041.判断每条已标注语料对应的初始语义标注和模型语义标注是否相同,若是,则执行S1042,若否,则不作处理。
S1042.将对应的已标注语料标记为理解正确语料。
例如,维度值组包括语义维度的维度值“领域分类”,则对应已标注语料的初始语义标注和模型语义标注的语义表现状态均为“领域分类”,比如已标注语料“把音乐关掉”的初始语义标注为“音乐”,模型语义标注为“蓝牙控制”,也即人工标注时认为该已标注语料属于“音乐”领域,而语义理解模型则将该已标注语义归为“蓝牙控制”领域。并且,由于“音乐”与“蓝牙控制”不同,也即已标注语料“把音乐关掉”的初始语义标注和模型语义标注不同,故该已标注语料“把音乐关掉”为理解错误语料。反之,若已标注语料的初始语义标注和模型语义标注相同,则该已标注语料为理解正确语料。
S1043.统计多条已标注语料中初始语义标注与理解正确语料的初始语义标注相同的已标注语料的第一数量、多条已标注语料中模型语义标注与理解正确语料的模型语义标注相同的已标注语料的第二数量、以及理解正确语料的第三数量。
例如,如下表1所示,理解正确语料的第三数量为2,六条已标注语料中初始语义标注与理解正确语料的初始语义标注相同的已标注语料的第一数量为5,六条已标注语料中模型语义标注与理解正确语料的模型语义标注相同的已标注语料的第二数量为3。
表1
已标注语料 初始语义标注 模型语义标注 对比结果
语料1 音乐 音乐 理解正确
语料2 音乐 音乐 理解正确
语料3 音乐 蓝牙控制 理解错误
语料4 音乐 蓝牙控制 理解错误
语料5 音乐 视频 理解错误
语料6 蓝牙控制 音乐 理解错误
S1044.根据第一数量、第二数量以及第三数量确定相应维度值组对应的准确率、召回率和综合值。
其中,准确率、召回率以及综合值的计算公式分别为:
P=n3/n2;
R=n3/n1;
F1=(2×P×R)/(P+R);
其中,P为准确率,R为召回率,F1为综合值,n1为上述第一数量,n2为上述第二数量,n3为上述第三数量。
接着上一例子,n1=5,n2=3,n3=2,则可以计算得到准确率P、召回率R和综合值F1分别为67%、40%和50%。
其中,准确率、召回率以及综合值越大,说明语义理解模型的自然语言处理能力越强。
在一些实施例中,上述指标值集还可以包括答案满意度、问题相关性等人工打分指标值,对应地,上述模型语义标注还包括至少一个人工打分值,该人工打分值用于指示用户在满意度、问题相关性或覆盖率等方面对基于该已标注语料得到的答案的评价,并一般以数字或百分数表示。具体地,上述多条已标注语料对应的人工打分值分别求和取平均值,即可得到对应维度值组的人工打分指标值。
在另一些实施例中,当维度值组中存在组件维度的维度值时,该维度值组对应的指标值集还可以包括执行组件的通过率,其中,组件的通过率为该维度值组对应的上述多条已标注语料中,经过该组件且为理解正确语料的已标注语料的数量与经过该组件的已标注语料的总数量之比。
S105.根据指标值集和维度值组建立语义理解模型对应的评估数据库。
在本实施例中,上述语义理解模型评估装置可以根据上述指标值集与维度值组之间的一一对应关系,建立评估数据库。如此,提供一个维度值组,即可从该评估数据库中查找到唯一的指标值集。
S106.基于评估数据库对语义理解模型进行评估。
其中,如图4所示,上述S106具体可以包括:
S1061.获取查询指令,查询指令携带语义理解模型的目标评估维度值组。
其中,语义理解模型的评估人员可以在客户端的查询界面上选择需要查询的至少一个目标评估维度值,以得到目标评估维度值组,之后客户端会基于评估人员所选择的目标评估维度值组,生成查询指令,并向上述语义理解模型发送该查询指令。
S1062.从评估数据库中获取目标评估维度值组对应的指标值集。
S1063.根据目标评估维度值组对应的指标值集,确定语义理解模型的评估结果,以对语义理解模型进行评估。
具体地,语义理解模型的评估人员在上述客户端的查询界面上可以根据自己的关注点选择评估维度的目标评估维度值,当语义理解模型的评估维度为多个时,可以一次性选择全部评估维度的目标评估维度值,也可以一次仅选择部分评估维度的目标评估维度值。例如,如图5所示,评估人员在查询界面上选择了应用维度的目标评估维度值“机器人”、问法维度的目标评估维度值“单实体问法”、以及语义维度的目标评估维度值“领域分类”,其中,未被指定目标评估维度值的组件维度在查询界面上显示为选中“所有”,如此,能够得到目标评估维度值组{机器人,单实体问法,领域分类}。
进一步地,上述目标评估维度值组对应的指标值集中的各个指标值均能够在一定程度上反映语义理解模型在目标评估维度值组条件下的自然语言处理能力,比如,目标评估维度值组为{机器人,单实体问法,领域分类},则其对应的指标值集能够反映语义理解模型在机器人应用中对单实体问法的语句进行领域分类时得到的领域分类语义结果的准确性。
在本实施例中,上述语义理解模型在得到目标评估维度值组对应的指标值集之后,可以判断该指标值集中的各个指标值是否落在正常的指标值区间内,并得到判断结果,然后基于该判断结果得到语义理解模型的评估结果,比如,优秀、良好、较差等等,以对语义理解模型进行评估,之后还可以向用户提供语义理解模型的评估结果,以使开发人员能够在评估结果不乐观时有针对性地对相应的语义理解模型进行优化以及改进。
由上可知,本实施例提供的语义理解模型评估方法,通过获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值,并根据评估维度和维度值确定多个维度值组,之后获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注,并根据初始语义标注和模型语义标注确定维度值组对应的指标值集,然后根据指标值集和维度值组建立语义理解模型对应的评估数据库,并基于评估数据库对语义理解模型进行评估,从而,能够从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,以针对性提高语义理解模型的自然语言处理能力。
如图6所示,图6是本申请实施例提供的语义理解模型评估方法的另一流程示意图,该语义理解模型评估方法具体流程可以如下:
S201.获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值。
例如,该语义理解模型可以具有四个评估维度,且该四个评估维度可以分别为应用维度、问法维度、语义维度和组件维度,其中,应用维度的维度值可以包括机器人、智能音箱、手机助手等等,问法维度的维度值可以包括单实体问法、模糊问法等等,语义维度的维度值可以包括领域分类、意图分类、参数提取等等,组件维度的维度值可以包括分词模型、词向量模型等等。
S202.根据评估维度和维度值确定多个维度值组。
其中,维度值组可以包括一个评估维度的维度值,比如维度值组{机器人}、{单实体问法}等等,还可以包括多个评估维度的维度值,比如维度值组{机器人,单实体问法}、{机器人,单实体问法,领域分类}、{机器人,单实体问法,领域分类,分词模型}等等。
S203.获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注。
本实施例中的S203的具体实施方式可以依次参见上一方法实施例中S103的具体实施方式,故在此不再赘述。
S204.根据初始语义标注和模型语义标注确定维度值组对应的指标值集。
本实施例中的S204的具体实施方式可以依次参见上一方法实施例中S104的具体实施方式,故在此不再赘述。
S205.根据指标值集和维度值组建立语义理解模型对应的评估数据库。
本实施例中的S205的具体实施方式可以依次参见上一方法实施例中S105的具体实施方式,故在此不再赘述。
S206.获取查询指令。
当存在需要评估的语义理解模型时,评估人员可以通过触摸屏、点击鼠标或键盘等方式触发客户端生成查询指令,之后客户端会向上述语义理解模型评估装置发送该查询指令,以使该语义理解模型评估装置对该待评估的语义理解模型进行分析评估。
S207.根据查询指令获取每个评估维度的查询优先级。
例如,对于语义理解模型的上述四个评估维度,按照查询优先级由高到低的顺序可以依次为应用维度、问法维度、语义维度和组件维度。另外,在一些实施例中,评估人员也可以在客户端的查询界面上自定义每个评估维度的查询优先级,也即,上述查询指令可以携带评估人员自定义的每个评估维度的查询优先级,以满足用户多样化的需求。
S208.根据评估数据库和查询优先级确定每一评估维度对应的目标维度值。
其中,上述至少一个评估维度可以包括应用维度、问法维度、语义维度和组件维度中的至少两种,上述S208具体可以包括:
S2081.根据查询优先级,从至少一个评估维度中确定第一级评估维度,并获取第一级评估维度对应的至少一个第一维度值。
其中,第一级评估维度为查询优先级排在第一位的评估维度,比如应用维度,并且,若第一级评估维度为应用维度,则上述第一维度值对应为该应用维度的维度值,比如机器人、智能音箱、手机助手等等。
S2082.从评估数据库中获取每一第一维度值对应的第一指标值集。
在本实施例中,每一第一维度值均构成一个维度值组,比如维度值组{机器人}、{智能音箱}、{手机助手}等等,如此,通过查询评估数据库中维度值组对应的指标值集,即可得到第一维度值对应的第一指标值集,比如第一维度值{机器人}对应的第一指标值集包括准确率0.855、召回率0.961以及综合值0.905。
S2083.根据第一指标值集,从至少一个第一维度值中确定第一级评估维度的目标维度值。
在本实施例中,第一指标值集中的各个指标值均能够在一定程度上反映语义理解模型在相应第一维度值条件下的自然语言处理能力,比如第一维度值为应用维度的维度值,则对应第一指标值集中的各个指标值能够反映语义理解模型在不同应用场景中的自然语言处理能力。
进一步地,为了便于开发人员后续能够有针对性地对语义理解模型进行优化改进,上述语义理解模型评估装置在获取第一指标值集后,可以比较不同第一维度值对应的第一指标值集,以得到第一级评估维度的目标维度值,其中,语义理解模型在第一级评估维度的目标维度值条件下的自然语言处理能力最差,比如,语义理解模型在机器人应用场景中的自然语言处理能力最差,则第一级评估维度的目标维度值为机器人。
在一个具体实施例中,上述S2083具体可以包括:
S2-1.从第一指标值集中确定目标指标值。
具体地,当第一指标值集包括多个指标值时,可以从该第一指标值集中的多个指标值中选择一个或多个具有代表性的指标值作为目标指标值,其中,具有代表性的指标值是指能够比较有效反映语义理解模型效果的指标值,比如综合评价指标。
S2-2.判断每一第一维度值对应的目标指标值是否小于相应的预设阈值,若是,则执行S2-3,若否,则不做处理。
在本实施例中,考虑到不同的第一维度值对自然语言处理能力的要求会存在差异,故每一第一维度值均具有相应的预设阈值。例如,若第一级评估维度为应用维度,目标指标值为综合评价指标,则应用维度的维度值机器人、智能音箱和手机助手对应的预设阈值可以依次为0.91、0.85和0.75,进一步地,若应用维度的维度值机器人、智能音箱和手机助手对应的综合评价指标依次为0.90、0.86和0.80,也即维度值机器人对应的目标指标值小于相应的预设阈值,维度值智能音箱对应的目标指标值大于相应的预设阈值,维度值手机助手对应的目标指标值大于相应的预设阈值。
S2-3.将对应的第一维度值作为第一级评估维度的目标维度值。
当第一维度值对应的目标指标值小于相应的预设阈值时,将该第一维度值作为第一级评估维度的目标维度值,比如,上一例子中的维度值机器人。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的第一级评估维度的目标维度值。
S2084.根据查询优先级,从剩余的评估维度中确定第二级评估维度,并获取第二级评估维度对应的至少一个第二维度值。
其中,第二级评估维度为查询优先级排在第二位的评估维度,比如问法维度,并且,若第二级评估维度为问法维度,则上述第二维度值对应为该问法维度的维度值。
S2085.将每一第二维度值与第一级评估维度的目标维度值进行组合,得到至少一个第一维度值组,并从评估数据库中获取每一第一维度值组对应的第二指标值集。
例如,第一级评估维度的目标维度值为应用维度的维度值机器人,第二维度值为问法维度的维度值单实体问法、模糊问法和其他问法等等,则可以得到第一维度值组{机器人,单实体问法}、{机器人,模糊问法}、{机器人,其他问法}等等。
S2086.根据第二指标值集,从至少一个第二维度值中确定第二级评估维度的目标维度值。
具体地,可以通过比较不同第一维度值组对应的第二指标值集,从多个第一维度值组中确定目标第一维度值组,并将该目标第一维度值组中的第二维度值作为第二级评估维度的目标维度值,其中,在所有第一维度值组中,语义理解模型在目标第一维度值组条件下的自然语言理解能力最差。例如,接上一例子,若目标第一维度值组为{机器人,单实体问法},则说明语义理解模组在机器人应用场景中对单实体问法的语句的自然语言处理能力最差。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的目标维度值和第二级评估维度的目标维度值。
进一步地,在一些具体实施例中,上述至少一个评估维度可以包括应用维度、问法维度、语义维度和组件维度中的至少三种,在上述S2086之后,还可以包括:
S2087.根据查询优先级,从剩余的评估维度中确定第三级评估维度,并获取第三级评估维度对应的至少一个第三维度值。
其中,第三级评估维度为查询优先级排在第三位的评估维度,比如语义维度,并且,若第三级评估维度为语义维度,则上述第三维度值对应为该语义维度的维度值。
S2088.将每一第三维度值与第一级和第二级评估维度的目标维度值进行组合,得到第二维度值组,并从评估数据库中获取每一第二维度值组对应的第三指标值集。
例如,第一级评估维度的目标维度值为应用维度的维度值机器人,第二级评估维度的目标维度值为问法维度的维度值单实体问法,第三维度值为语义维度的维度值领域分类、意图分类、参数提取等等,则可以得到第二维度值组{机器人,单实体问法,领域分类}、{机器人,单实体问法,意图分类}、{机器人,单实体问法,参数提取}等等。
S2089.根据第三指标值集,从至少一个第三维度值中确定第三级评估维度的目标维度值。
其中,可以通过比较不同第二维度值组对应的第三指标值集,从多个第二维度值组中确定目标第二维度值组,并将该目标第二维度值组中的第三维度值作为第三级评估维度的目标维度值,并且,在所有第二维度值组中,语义理解模型在目标第二维度值组条件下的自然语言理解能力最差。例如,接上一例子,若目标第二维度值组为{机器人,单实体问法,领域分类},则说明语义理解模组在机器人应用场景中对单实体问法的语句进行领域分类的自然语言处理能力最差。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的目标维度值、第二级评估维度的目标维度值、以及第三级评估维度的目标维度值。
更进一步地,在一些具体实施例中,上述至少一个评估维度可以包括应用维度、问法维度、语义维度和组件维度,在上述S2089之后,还可以包括:
S20810.根据查询优先级,从应用维度、问法维度、语义维度和组件维度中剩余的评估维度中确定第四级评估维度,并获取第四级评估维度对应的至少一个第四维度值。
其中,第四级评估维度为查询优先级排在第四位的评估维度,比如组件维度,并且,若第四级评估维度为语义维度,则上述第四维度值对应为该语义维度的维度值。
S20811.将每一第四维度值与第一级、第二级和第三级评估维度的目标维度值进行组合,得到第三维度值组,并从评估数据库中获取每一第三维度值组对应的第四指标值集。
例如,第一级评估维度的目标维度值为应用维度的维度值机器人,第二级评估维度的目标维度值为问法维度的维度值单实体问法,第三级评估维度的目标维度值为语义维度的维度值领域分类,第四维度值为组件维度的维度值分词模型、词向量模型等等,则可以得到第三维度值组{机器人,单实体问法,领域分类,分词模型}、{机器人,单实体问法,领域分类,词向量模型}等等。
S20812.根据第四指标值集,从至少一个第四维度值中确定第四级评估维度的目标维度值。
其中,可以通过比较不同第三维度值组对应的第四指标值集,从多个第三维度值组中确定目标第三维度值组,并将该目标第三维度值组中的第四维度值作为第四级评估维度的目标维度值,并且,在所有第三维度值组中,语义理解模型在目标第三维度值组条件下的自然语言理解能力最差。例如,接上一例子,若目标第三维度值组为{机器人,单实体问法,领域分类,分词模型},则说明语义理解模组在机器人应用场景中对单实体问法的语句使用分词模型进行领域分类的自然语言处理能力最差。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的目标维度值、第二级评估维度的目标维度值、第三级评估维度的目标维度值、以及第四级评估维度的目标维度值。
需要说明的是,在一些替代实施例中,上述S2083具体可以包括:
S3-1.根据获取的至少一个第一维度值、以及每一第一维度值对应的第一指标值集,生成显示画面,并向用户提供该显示画面。
S3-2.根据用户在该显示画面上的选择操作从该至少一个第一维度值中确定第一级评估维度的目标维度值。
进一步地,在一些替代实施例中,上述S2086具体可以包括:
S4-1.根据获取的至少一个第二维度值、以及每一第一维度值组对应的第二指标值集,生成显示画面,并向用户提供该显示画面。
S4-2.根据用户在该显示画面上的选择操作从该至少一个第二维度值中确定第二级评估维度的目标维度值。
进一步地,在一些替代实施例中,上述S2089具体可以包括:
S5-1.根据获取的至少一个第三维度值、以及每一第二维度值组对应的第三指标值集,生成显示画面,并向用户提供该显示画面。
S5-2.根据用户在该显示画面上的选择操作从该至少一个第三维度值中确定第三级评估维度的目标维度值。
进一步地,在一些替代实施例中,上述S20812具体可以包括:
S6-1.根据获取的至少一个第四维度值、以及每一第三维度值组对应的第四指标值集,生成显示画面,并向用户提供该显示画面。
S6-2.根据用户在该显示画面上的选择操作从该至少一个第四维度值中确定第四级评估维度的目标维度值。
具体地,用户可以在上述客户端的操作界面上看到上述显示画面,并逐级地将未达到自己的指标值目标的第一指标值集对应的第一维度值作为第一级评估维度的目标维度值,将未达到自己的指标值目标的第二指标值集对应的第二维度值作为第二级评估维度的目标维度值,将未达到自己的指标值目标的第三指标值集对应的第三维度值作为第三级评估维度的目标维度值,以及将未达到自己的指标值目标的第四指标值集对应的第四维度值作为第四级评估维度的目标维度值。
如此,能够全自动或半自动地从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,进而有针对性地提高语义理解模型的自然语言处理能力。
S209.根据目标维度值确定语义理解模型的评估结果,以对语义理解模型进行评估。
在本实施例中,通过逐级确定每一评估维度的目标维度值,能够实现对语义理解模型的自然语言处理能力的逐层剖析,进而能够准确确定语义理解模型的能力短板所在,并为开发人员做技术决策和解决问题提供直接参考。
其中,上述S209具体可以包括:
S2091.对所有评估维度的目标维度值进行组合,得到目标维度值组,并获取该目标维度值组对应的多条目标语料。
例如,语义理解模型的评估维度可以包括应用维度、问法维度、语义维度和组件维度,且这四个评估维度对应的目标维度值可以分别为机器人、单实体问法、领域分类和分词组件,则目标维度值组为{机器人,单实体问法,领域分类,分词组件},且该目标维度值组对应的目标语料来自于机器人应用场景,属于单实体问法语句,具有“领域分类”语义表现状态的语义结果,以及经过分词模型。
S2092.根据查询优先级,将评估维度、每一评估维度对应的维度值、目标维度值、以及目标语料,以预设图表形式生成评估报告,并向用户提供评估报告。
例如,如图7所示,在评估报告中,语义理解模型的四个评估维度可以按照查询优先级由高到低的顺序由上至下依次排布,并且,以柱状态的形式显示第一级评估维度的每一维度值构成的维度值组对应的指标值集,以柱状态的形式显示第二级评估维度的每一维度值与第一级评估维度的目标维度值构成的维度值组对应的指标值集,以表格的形式显示第三级评估维度的每一维度值与第一级和第二级评估维度的目标维度值构成的维度值组对应的指标值集,以表格的形式显示第四级评估维度的每一维度值与第一级、第二级和第三级评估维度的目标维度值构成的维度值组对应的指标值集,以及以表格的形式显示上述目标维度值组对应的目标语料。
如此,开发人员能够从语义理解模型的评估报告中很清楚地知道语义理解模型的能力短板所在,进而能够有针对性地提高语义理解模型的自然语言处理能力。
在上述实施例所述方法的基础上,本实施例将从语义理解模型评估装置的角度进一步进行描述,请参阅图8,图8具体描述了本申请实施例提供的语义理解模型评估装置,其可以包括:第一获取模块110、第一确定模块120、第二获取模块130、第二确定模块140、建立模块150以及评估模块160,其中:
(1)第一获取模块110
第一获取模块110,用于获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值。
其中,上述待评估的语义理解模型用于人机交互的自然语言处理,上述评估维度可以包括应用维度、问法维度、语义维度和组件维度中的至少一种。具体地,应用维度是指语义理解模型可以适用的应用场景,且应用维度的维度值可以包括机器人、智能音箱、手机助手等等,上述问法维度是指语义理解模型可以适用的用户问法,且问法维度的维度值可以包括单实体问法、模糊问法等等,上述语义维度是指语义理解模型对自然语言进行处理后得到的语义结果中所表现出来的状态,且语义维度的维度值可以包括领域分类、意图分类、参数提取等等,上述组件维度是指语义理解模型在对自然语言处理过程中所执行的组件,且组件维度的维度值可以包括分词模型、词向量模型等等。
(2)第一确定模块120
第一确定模块120,用于根据评估维度和维度值确定多个维度值组。
其中,上述维度值组可以由其中一个评估维度的一个维度值组成,也可以由不同评估维度的维度值组成,并且,每一维度值组中属于同一评估维度的维度值最多只存在一个。
(3)第二获取模块130
第二获取模块130,用于获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注。
具体地,上述第二获取模块130可以从语料库中获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注。其中,语料库中存储有上述语义理解模型在实际应用场景下得到的已标注语料,并且,每一已标注语料具有与上述维度值组中的维度值对应的维度值标签。
进一步地,上述已标注语料还具有用于指示该已标注语料语义的初始语义标注和模型语义标注,其中,初始语义标注通常是由语料标注人员标注得到的,模型语义标注是由上述语义理解模型在实际应用场景中对相应的语料进行语义标注得到的。
需要说明的是,一条已标注语料可以同时具有多个不同的语义表现标签、以及与每一语义表现标签对应的语义结果。具体地,当维度值组中存在语义维度的维度值时,上述初始语义标注可以为语义表现状态与该语义维度的维度值对应的由人工标注的语义结果,上述模型语义标注可以为语义表现状态与该语义维度的维度值对应的由语义理解模型标注的语义结果。当维度值组中不存在语义维度的维度值时,可以将已标注语料的全部由人工标注的语义结果作为初始语义标注,并将已标注语料的全部由语义理解模型标注的语义结果作为模型语义标注。
(4)第二确定模块140
第二确定模块140,用于根据初始语义标注和模型语义标注确定维度值组对应的指标值集。其中,指标值集可以包括至少一个用于评价上述语义理解模型在对应维度值组条件下自然语言处理能力的指标值。
具体地,上述指标值集可以包括准确率、召回率和综合值,上述第二确定模块140具体可以包括:
判断单元,用于判断每条已标注语料对应的初始语义标注和模型语义标注是否相同。
标记单元,用于当初始语义标注和模型语义标注相同时,将对应的已标注语料标记为理解正确语料。
统计单元,用于统计上述多条已标注语料中初始语义标注与理解正确语料的初始语义标注相同的已标注语料的第一数量、上述多条已标注语料中模型语义标注与理解正确语料的模型语义标注相同的已标注语料的第二数量、以及理解正确语料的第三数量。
确定单元,用于根据第一数量、第二数量和第三数量确定相应维度值组对应的准确率、召回率和综合值。
其中,准确率、召回率以及综合值的计算公式分别为:
P=n3/n2;
R=n3/n1;
F1=(2×P×R)/(P+R);
其中,P为准确率,R为召回率,F1为综合值,n1为上述第一数量,n2为上述第二数量,n3为上述第三数量。
(5)建立模块150
建立模块150,用于根据指标值集和维度值组建立语义理解模型对应的评估数据库。
其中,上述建立模块150可以根据上述指标值集与维度值组之间的一一对应关系,建立评估数据库。
(6)评估模块160
评估模块160,用于基于评估数据库对语义理解模型进行评估。
在一个实施例中,上述评估模块160具体可以用于:
S1061.获取查询指令,查询指令携带语义理解模型的目标评估维度值组。
其中,语义理解模型的评估人员可以在客户端的查询界面上选择需要查询的至少一个目标评估维度值,以得到目标评估维度值组,之后客户端会基于评估人员所选择的目标评估维度值组,生成查询指令,并向上述语义理解模型发送该查询指令。
S1062.从评估数据库中获取目标评估维度值组对应的指标值集。
S1063.根据目标评估维度值组对应的指标值集,确定语义理解模型的评估结果,以对语义理解模型进行评估。
具体地,语义理解模型的评估人员在上述客户端的查询界面上可以根据自己的关注点选择评估维度的目标评估维度值,当语义理解模型的评估维度为多个时,可以一次性选择全部评估维度的目标评估维度值,也可以一次仅选择部分评估维度的目标评估维度值。
在本实施例中,上述语义理解模型在得到目标评估维度值组对应的指标值集之后,可以判断该指标值集中的各个指标值是否落在正常的指标值区间内,并得到判断结果,然后基于该判断结果得到语义理解模型的评估结果,比如,优秀、良好、较差等等,以对语义理解模型进行评估,之后还可以向用户提供语义理解模型的评估结果,以使开发人员能够在评估结果不乐观时有针对性地对相应的语义理解模型进行优化以及改进。
在一个替代实施例中,上述评估模块160具体可以用于:
S206.获取查询指令。
当存在需要评估的语义理解模型时,评估人员可以通过触摸屏、点击鼠标或键盘等方式触发客户端生成查询指令,之后客户端会向上述语义理解模型评估装置发送该查询指令,以使该语义理解模型评估装置对该待评估的语义理解模型进行分析评估。
S207.根据查询指令获取每个评估维度的查询优先级。
其中,对于语义理解模型的四个评估维度,按照查询优先级由高到低的顺序可以依次为应用维度、问法维度、语义维度和组件维度。另外,在一些实施例中,评估人员也可以在客户端的查询界面上自定义每个评估维度的查询优先级,也即,上述查询指令可以携带评估人员自定义的每个评估维度的查询优先级,以满足用户多样化的需求。
S208.根据评估数据库和查询优先级确定每一评估维度对应的目标维度值。
其中,上述至少一个评估维度可以包括应用维度、问法维度、语义维度和组件维度中的至少两种,上述S208具体可以包括:
S2081.根据查询优先级,从至少一个评估维度中确定第一级评估维度,并获取第一级评估维度对应的至少一个第一维度值。
其中,第一级评估维度为查询优先级排在第一位的评估维度。
S2082.从评估数据库中获取每一第一维度值对应的第一指标值集。
在本实施例中,每一第一维度值均构成一个维度值组。
S2083.根据第一指标值集,从至少一个第一维度值中确定第一级评估维度的目标维度值。
其中,上述评估模块160可以比较不同第一维度值对应的第一指标值集,以得到第一级评估维度的目标维度值,其中,语义理解模型在第一级评估维度的目标维度值条件下的自然语言处理能力最差。
在一个具体实施例中,上述S2083具体可以包括:
S2-1.从第一指标值集中确定目标指标值。
具体地,当第一指标值集包括多个指标值时,可以从该第一指标值集中的多个指标值中选择一个或多个具有代表性的指标值作为目标指标值,其中,具有代表性的指标值是指能够比较有效反映语义理解模型效果的指标值。
S2-2.判断每一第一维度值对应的目标指标值是否小于相应的预设阈值,若是,则执行S2-3,若否,则不做处理。
在本实施例中,考虑到不同的第一维度值对自然语言处理能力的要求会存在差异,故每一第一维度值均具有相应的预设阈值。
S2-3.将对应的第一维度值作为第一级评估维度的目标维度值。
当第一维度值对应的目标指标值小于相应的预设阈值时,将该第一维度值作为第一级评估维度的目标维度值。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的目标维度值。
S2084.根据查询优先级,从剩余的评估维度中确定第二级评估维度,并获取第二级评估维度对应的至少一个第二维度值。
其中,第二级评估维度为查询优先级排在第二位的评估维度。
S2085.将每一第二维度值与第一级评估维度的目标维度值进行组合,得到第一维度值组,并从评估数据库中获取每一第一维度值组对应的第二指标值集。
S2086.根据第二指标值集,从至少一个第二维度值中确定第二级评估维度的目标维度值。
具体地,上述评估模块160可以通过比较不同第一维度值组对应的第二指标值集,从多个第一维度值组中确定目标第一维度值组,并将该目标第一维度值组中的第二维度值作为第二级评估维度的目标维度值,其中,在所有第一维度值组中,语义理解模型在目标第一维度值组条件下的自然语言理解能力最差。如此,能够将语义理解模型的自然语言处理能力短板定位至第一级评估维度的目标维度值和第二级评估维度的目标维度值。
S209.根据目标维度值确定语义理解模型的评估结果,以对语义理解模型进行评估。
在本实施例中,通过逐级确定每一评估维度的目标维度值,能够实现对语义理解模型的自然语言处理能力的逐层剖析,进而能够准确确定语义理解模型的能力短板所在,并为开发人员做技术决策和解决问题提供直接参考。
其中,上述S209具体可以包括:
S2091.对所有评估维度的目标维度值进行组合,得到目标维度值组,并获取该目标维度值组对应的多条目标语料。
S2092.根据查询优先级,将评估维度、每一评估维度对应的维度值、目标维度值、以及目标语料,以预设图表形式生成评估报告,并向用户提供评估报告。
由上可知,本实施例提供的语义理解模型评估装置,能够从不同维度以及结合多个维度对语义理解模型的自然语言处理能力进行分析评估,以针对性提高语义理解模型的自然语言处理能力。
相应的,本申请实施例还提供一种服务器,如图9所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图9中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待评估的语义理解模型对应的至少一个评估维度、以及每一评估维度对应的至少一个维度值;
根据评估维度和维度值确定多个维度值组;
获取每个维度值组对应的多条已标注语料的初始语义标注和模型语义标注;
根据初始语义标注和模型语义标注确定维度值组对应的指标值集;
根据指标值集和维度值组建立语义理解模型对应的评估数据库;
基于评估数据库对语义理解模型进行评估。
该服务器可以实现本申请实施例所提供的任一种语义理解模型评估装置所能实现的有效效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本申请实施例所提供的一种语义理解模型评估方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种语义理解模型评估方法,其特征在于,包括:
获取待评估的语义理解模型对应的至少一个评估维度、以及每一所述评估维度对应的至少一个维度值;
根据所述评估维度和维度值确定多个维度值组;
获取每个所述维度值组对应的多条已标注语料的初始语义标注和模型语义标注;
根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集;其中,若所述指标值集包括准确率、召回率和综合值,所述指标值集是根据在所述多条已标注语料中,初始语义标注与理解正确语料的初始语义标注相同的已标注语料的数量、模型语义标注与理解正确语料的模型语义标注相同的已标注语料的数量及理解正确语料的数量确定的,所述理解正确语料为对应初始语义标注和模型语义标注相同的已标注语料;
根据所述指标值集和维度值组建立所述语义理解模型对应的评估数据库;
当获取到查询指令时,基于所述评估数据库对所述语义理解模型进行评估。
2.根据权利要求1所述的语义理解模型评估方法,其特征在于,所述指标值集包括准确率、召回率和综合值,所述根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集,具体包括:
判断每条所述已标注语料对应的所述初始语义标注和模型语义标注是否相同;
若是,则将对应的所述已标注语料标记为理解正确语料;
统计所述多条已标注语料中初始语义标注与所述理解正确语料的初始语义标注相同的已标注语料的第一数量、所述多条已标注语料中模型语义标注与所述理解正确语料的模型语义标注相同的已标注语料的第二数量、以及所述理解正确语料的第三数量;
根据所述第一数量、第二数量以及第三数量确定相应所述维度值组对应的准确率、召回率和综合值。
3.根据权利要求1所述的语义理解模型评估方法,其特征在于,所述基于所述评估数据库对所述语义理解模型进行评估,具体包括:
获取查询指令,所述查询指令携带所述语义理解模型的目标评估维度值组;
从所述评估数据库中获取所述目标评估维度值组对应的指标值集;
根据所述目标评估维度值组对应的指标值集,确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
4.根据权利要求1所述的语义理解模型评估方法,其特征在于,所述基于所述评估数据库对所述语义理解模型进行评估,具体包括:
获取查询指令;
根据所述查询指令获取每个所述评估维度的查询优先级;
根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值;
根据所述目标维度值确定所述语义理解模型的评估结果,以对所述语义理解模型进行评估。
5.根据权利要求4所述的语义理解模型评估方法,其特征在于,所述至少一个评估维度包括应用维度、问法维度、语义维度和组件维度,所述根据所述评估数据库和查询优先级确定每一所述评估维度对应的目标维度值,具体包括:
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中确定第一级评估维度,并获取所述第一级评估维度对应的至少一个第一维度值;
从所述评估数据库中获取每一所述第一维度值对应的第一指标值集;
根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值;
根据所述查询优先级,从所述应用维度、问法维度、语义维度和组件维度中剩余的评估维度中确定第二级评估维度,并获取所述第二级评估维度对应的至少一个第二维度值;
将每一所述第二维度值与所述第一级评估维度的目标维度值进行组合,得到至少一个第一维度值组,并从所述评估数据库中获取每一所述第一维度值组对应的第二指标值集;
根据所述第二指标值集,从所述至少一个第二维度值中确定所述第二级评估维度的目标维度值。
6.根据权利要求5所述的语义理解模型评估方法,其特征在于,所述根据所述第一指标值集,从所述至少一个第一维度值中确定所述第一级评估维度的目标维度值,具体包括:
从所述第一指标值集中确定目标指标值;
判断每一所述第一维度值对应的所述目标指标值是否小于相应的预设阈值;
若是,则将对应的所述第一维度值作为所述第一级评估维度的目标维度值。
7.根据权利要求4所述的语义理解模型评估方法,其特征在于,所述根据所述目标维度值确定所述语义理解模型的评估结果,具体包括:
对所有所述评估维度的目标维度值进行组合,得到目标维度值组,并获取所述目标维度值组对应的多条目标语料;
根据所述查询优先级,将所述评估维度、每一所述评估维度对应的维度值、所述目标维度值、以及所述目标语料,以预设图表形式生成评估报告,并向用户提供评估报告。
8.一种语义理解模型评估装置,其特征在于,包括:
第一获取模块,用于获取待评估的语义理解模型对应的至少一个评估维度、以及每一所述评估维度对应的至少一个维度值;
第一确定模块,用于根据所述评估维度和维度值确定多个维度值组;
第二获取模块,用于获取每个所述维度值组对应的多条已标注语料的初始语义标注和模型语义标注;
第二确定模块,用于根据所述初始语义标注和模型语义标注确定所述维度值组对应的指标值集;其中,若所述指标值集包括准确率、召回率和综合值,所述指标值集是根据在所述多条已标注语料中,初始语义标注与理解正确语料的初始语义标注相同的已标注语料的数量、模型语义标注与理解正确语料的模型语义标注相同的已标注语料的数量及理解正确语料的数量确定的,所述理解正确语料为对应初始语义标注和模型语义标注相同的已标注语料;
建立模块,用于根据所述指标值集和维度值组建立所述语义理解模型对应的评估数据库;
评估模块,用于当获取到查询指令时,基于所述评估数据库对所述语义理解模型进行评估。
9.根据权利要求8所述的语义理解模型评估装置,其特征在于,所述指标值集包括准确率、召回率和综合值,所述第二确定模块具体包括:
判断单元,用于判断每条所述已标注语料对应的所述初始语义标注和模型语义标注是否相同;
标记单元,用于当所述初始语义标注和模型语义标注相同时,将对应的所述已标注语料标记为理解正确语料;
统计单元,用于统计所述多条已标注语料中初始语义标注与所述理解正确语料的初始语义标注相同的已标注语料的第一数量、所述多条已标注语料中模型语义标注与所述理解正确语料的模型语义标注相同的已标注语料的第二数量、以及所述理解正确语料的第三数量;
确定单元,用于根据所述第一数量、第二数量和第三数量确定相应所述维度值组对应的准确率、召回率和综合值。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至7任一项所述的语义理解模型评估方法。
CN201910847922.9A 2019-09-09 2019-09-09 语义理解模型评估方法、装置及存储介质 Active CN110807330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910847922.9A CN110807330B (zh) 2019-09-09 2019-09-09 语义理解模型评估方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910847922.9A CN110807330B (zh) 2019-09-09 2019-09-09 语义理解模型评估方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110807330A CN110807330A (zh) 2020-02-18
CN110807330B true CN110807330B (zh) 2023-04-07

Family

ID=69487440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910847922.9A Active CN110807330B (zh) 2019-09-09 2019-09-09 语义理解模型评估方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110807330B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及***
CN109086340A (zh) * 2018-07-10 2018-12-25 太原理工大学 基于语义特征的评价对象识别方法
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、***、电子设备及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242886A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. User intent and context based search results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及***
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、***、电子设备及计算机可读介质
CN109086340A (zh) * 2018-07-10 2018-12-25 太原理工大学 基于语义特征的评价对象识别方法

Also Published As

Publication number Publication date
CN110807330A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
CN110033851B (zh) 信息推荐方法、装置、存储介质及服务器
CN111310034B (zh) 一种资源推荐方法及相关设备
CN110019825B (zh) 一种分析数据语义的方法及装置
US9843670B2 (en) Method and apparatus for setting color ring back tone and determining color ring back tone music
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN110704661A (zh) 一种图像分类方法和装置
CN111105852A (zh) 一种电子病历推荐方法、装置、终端及存储介质
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN110825863B (zh) 一种文本对融合方法及装置
CN113868427A (zh) 一种数据处理方法、装置及电子设备
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN109587328B (zh) 消息管理方法和装置、存储介质及电子设备
CN111597804A (zh) 一种实体识别模型训练的方法以及相关装置
CN104281610B (zh) 过滤微博的方法和装置
CN110196833A (zh) 应用程序的搜索方法、装置、终端及存储介质
CN113407738B (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN109389977B (zh) 一种语音交互方法及装置
CN110427622A (zh) 语料标注的评估方法、装置及存储介质
CN111611369B (zh) 基于人工智能的交互方法和相关装置
CN113704008A (zh) 一种异常检测方法、问题诊断方法和相关产品
WO2023246558A1 (zh) 语义理解方法、装置、介质及设备
CN110807330B (zh) 语义理解模型评估方法、装置及存储介质
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021054

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant