CN109522534B - 用于语料处理的任务生成方法及装置 - Google Patents

用于语料处理的任务生成方法及装置 Download PDF

Info

Publication number
CN109522534B
CN109522534B CN201811190894.XA CN201811190894A CN109522534B CN 109522534 B CN109522534 B CN 109522534B CN 201811190894 A CN201811190894 A CN 201811190894A CN 109522534 B CN109522534 B CN 109522534B
Authority
CN
China
Prior art keywords
corpus
task
conversation
generating
seed template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811190894.XA
Other languages
English (en)
Other versions
CN109522534A (zh
Inventor
周义廷
汪冠春
胡一川
张海雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Laiye Network Technology Co Ltd filed Critical Beijing Laiye Network Technology Co Ltd
Priority to CN201811190894.XA priority Critical patent/CN109522534B/zh
Publication of CN109522534A publication Critical patent/CN109522534A/zh
Application granted granted Critical
Publication of CN109522534B publication Critical patent/CN109522534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种用于语料处理的任务生成方法及装置。该方法包括根据领域建立语义框架;在所述语义框架的基础上建立语料剧本;根据所述语料剧本选择种子模板;以及确定需要用于改述的种子模板并生成改述语料众包任务。本申请解决了对于语料处理的任务生成方式效果较差的技术问题。通过本申请生成众包任务并获取高质量语料。此外,通过借助小程序可以以较低地成本完成适合中文改述语料收集的改述众包任务。进而可以更加动态地获得用户反馈,提升众包质量。

Description

用于语料处理的任务生成方法及装置
技术领域
本申请涉及自然语言生成领域,具体而言,涉及一种用于语料处理的任务生成方法及装置。
背景技术
自然语言生成(英文全称:Natural Language Generation,简称:NLG)是任务导向型对话***的重要组成模块之一。
发明人发现,对于语料处理缺少有效的众包任务生成方式。进一步,无法通过众包任务的方式来获取含义相同但表述不同的高质量语料。
针对相关技术中对于语料处理的任务生成方式效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于语料处理的任务生成方法及装置,以解决对于语料处理的任务生成方式效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于语料处理的任务生成方法,用于获取同一语义下的不同自然语言表达方式。
根据本申请的用于语料处理的任务生成方法包括:根据领域建立语义框架;在所述语义框架的基础上建立语料剧本;根据所述语料剧本选择种子模板;以及确定需要用于改述的种子模板并生成改述语料众包任务。
进一步地,根据领域建立语义框架包括:过滤人机对话过程中的行为得到对话行为;根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及根据所述对话行为、所述槽以及所述槽值生成语义框架。
进一步地,在所述语义框架的基础上建立语料剧本包括:变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及通过对话片段建立人机之间的对话内容作为语料剧本。
进一步地,根据所述语料剧本选择种子模板包括:生成所述种子模版中参与对话的人的角色信息;生成对话发生场景的背景信息;生成所述种子模版中的上下文环境信息;以及确定需要语料泛化的所述种子模版。
进一步地,确定需要用于改述的种子模板并生成改述语料众包任务包括:确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;配置发布改述语料众包任务的任务完成条件;以及按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
为了实现上述目的,根据本申请的另一方面,提供了一种用于语料处理的任务生成装置,用于获取同一语义下的不同自然语言表达方式。
根据本申请的用于语料处理的任务生成装置包括:领域模块,用于根据领域建立语义框架;剧本模块,用于在所述语义框架的基础上建立语料剧本;种子模板生成模块,用于根据所述语料剧本选择种子模板;以及任务生成模块,用于确定需要用于改述的种子模板并生成改述语料众包任务。
进一步地,所述领域模块包括:过滤单元,用于过滤人机对话过程中的行为得到对话行为;确定单元,用于根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及语义框架生成单元,用于根据所述对话行为、所述槽以及所述槽值生成语义框架。
进一步地,所述领域模块还包括:变更单元,用于变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及建立单元,用于通过对话片段建立人机之间的对话内容作为语料剧本。
进一步地,所述种子模板生成模块包括:角色信息生成单元,用于生成所述种子模版中参与对话的人的角色信息;背景信息生成单元,用于生成对话发生场景的背景信息;环境信息生成单元,用于生成所述种子模版中的上下文环境信息;以及种子模版确定单元,用于确定需要语料泛化的所述种子模版。
进一步地,所述任务生成模块包括:接口确定单元,用于确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;配置单元,用于配置发布改述语料众包任务的任务完成条件;以及调度单元,用于按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
在本申请实施例中,采用根据领域建立语义框架的方式,通过在所述语义框架的基础上建立语料剧本,达到了根据所述语料剧本选择种子模板确定需要用于改述的种子模板并生成改述语料众包任务的目的,从而实现了通过生成众包任务获取高质量语料的技术效果,进而解决了对于语料处理的任务生成方式效果较差的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于语料处理的任务生成方法示意图;
图2是根据本申请第二实施例的用于语料处理的任务生成方法示意图;
图3是根据本申请第三实施例的用于语料处理的任务生成方法示意图;
图4是根据本申请第四实施例的用于语料处理的任务生成方法示意图;
图5是根据本申请第五实施例的用于语料处理的任务生成方法示意图;
图6是根据本申请第一实施例的用于语料处理的任务生成装置示意图;
图7是根据本申请第二实施例的用于语料处理的任务生成装置示意图;
图8是根据本申请第三实施例的用于语料处理的任务生成装置示意图;
图9是根据本申请第四实施例的用于语料处理的任务生成装置示意图;以及
图10是根据本申请第五实施例的用于语料处理的任务生成装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102,根据领域建立语义框架;
本申请中的任务生成方式可以用于获取同一语义下的不同自然语言表达方式。
具体地,根据领域建立语义框架时,针对每个垂类(特定领域),建立该垂类下任务对话的语义框架。
具体地,语义框架主要由对话行为、槽、槽值三个部分构成。其中,对话行为指的是用户和任务对话机器人在对话中可以有的行为。在已有的对话行为概要基础上,在本申请中进行了必要地精炼。
比如,考虑到对话行为指的是用户和任务对话机器人在对话中可以有的行为,考虑的对话行为大致包括:NEGATE、GREETING、THANK_YOU、GOOD_BYE、NOTIFY_FAILURE、NOTIFY_SUCCESS、INFORM、REQUEST、CONFIRM。
其中,槽(Slot)指的是为完成一个任务,需要获取的必要的信息类型。
槽值(Slot Value)主要指的是对应的槽应该填入的值。
比如,在订机票领域,为了给用户成功预定一张机票,任务机器人需要获取包括出发地(Departure)、目的地(Destination)、出发日期(Date)、出发时间(Time)、价位(Price)等等信息,该些信息称为槽(Slot)。而具体的填入值则是槽值(Slot Value)。
又比如,在订酒店领域,为了给用户成功预定一个房间,任务机器人需要获取包括目的地(Destination)、区域(area)、入住日期(Date)、出发时入住(Time)、价位(Price)等等信息,该些信息称为槽(Slot)。而具体的填入值则是槽值(Slot Value)。
步骤S104,在所述语义框架的基础上建立语料剧本;
根据上述得到的语义框架后可以生成对话剧本。具体而言,生成剧本是定义丰富的用户与任务机器人之间的对话内容的工作。为了获取丰富的对话剧本,可以通过在特定领域建模的基础之上,通过随机或者相关规则变更对话行为的组合、槽的组合、槽的顺序的组合,来生成不同的对话片段进而丰富对话剧本。
建立对话剧本的优点在于:可以在一定范围内限定住了对话的范围,不会让整个对话偏离任务目标而发散;此外,还可以最大限度地增加对话的丰富性。
步骤S106,根据所述语料剧本选择种子模板;
通过上述步骤的对话剧本可以按照预设的方式生成需要进行语料泛化的种子模板。
具体地,在生成对话剧本的基础上,生成并选择需要语料泛化的种子模版。
在本申请中一个完整的种子模版包括:角色、背景、上下文、待改述的种子模版等几个主要的部分。
角色具体是指,种子模版是针对哪种用户的对话内容。
比如,角色是针对订机票的用户或者回答问题的机器人。
背景具体是指,在对话发生的背景。
上下文具体是指,待改述的种子模版的上下文环境;
待改述的种子模版具体是指,需要通过众包形式泛化的句子。需要注意的是,通常会指定句子中的槽或者槽值不能在泛化过程中被改变,可以较为容易地进行众包结果的相关质量控制,同时更便捷地使用众包得到的众包语料模版。
优选地,在本申请的实施例中从实验设置角度,给出了多种题干设置方式,采取了现有技术中得到的语料众包的最佳实践方式,使得题目简单易懂。
需要注意的是,题干的设置方法,可以基于列表、基于图片、基于上下文、基于背景等多种题干设置方法。本领域技术人员能够理解,采用好的题干设置有利于得到高质量的答案,可以根据实际情况进行选择。
步骤S108,确定需要用于改述的种子模板并生成改述语料众包任务。
具体地,当选择出了需要被改述的种子模版之后,任务发布者可以通过应用程序编程接口(英文全称:Application Programming Interface,简称:API)的方式或者登陆到众包任务管理后台(服务商提供),批量发布改述任务。此外,在发布改述任务时,任务发布者需要提供题干、需获取的改述模版的数量、任务执行者的条件要求、任务酬劳、结果校验的具体方式等等必要信息。
需要注意的是,确定任务发布的条件在本申请中并不进行限定,本领域技术人员可以根据不同的场景进行确定。
优选地,当任务发布者成功发布任务后,获得改述语料的众包任务即进入到任务加工车间中,将任务分发、加工的过程建模为一个经典的动态车间调度问题(英文全称:Dynamic Job Shopping Schedulling,简称:DJSS)。在发布任务时规定了包括到达规则、加工规则、宕机规则、加工期锁定规则等等在内的数十条调度规则来调度众包任务和任务执行者,可实现总工期最小化。
通过在分发众包任务时采用车间调度机制,基于动态车间调度问题DJJS的调度规则,可以更加高效率地完成任务。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用根据领域建立语义框架的方式,通过在所述语义框架的基础上建立语料剧本,达到了根据所述语料剧本选择种子模板确定需要用于改述的种子模板并生成改述语料众包任务的目的,从而实现了通过生成众包任务获取高质量语料的技术效果,进而解决了对于语料处理的任务生成方式效果较差的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,根据领域建立语义框架包括:
步骤S202,过滤人机对话过程中的行为得到对话行为;
通过将现有的真实数据作为种子语料,并将种子语料过滤掉人机对话过程中的行为可以得到对话行为。
具体地,对话行为指的是用户和任务对话机器人在对话中可以有的行为。删选后得到对话行为大致包括NEGATE、GREETING、THANK_YOU、GOOD_BYE、NOTIFY_FAILURE、NOTIFY_SUCCESS、INFORM、REQUEST、CONFIRM。
步骤S204,根据拟完成任务时需要获取的信息类型确定槽以及槽值;
具体地,槽(Slot)指的是为完成一个任务,需要获取的必要的信息类型。
具体地,槽值(Slot Value)主要指的是对应的槽应该填入的值。
步骤S206,根据所述对话行为、所述槽以及所述槽值生成语义框架。
具体地,通过对话行为、所述槽以及所述槽值生成的一个完整的语义框架(Semantic Frame)由对话行为、槽、槽值三个部分构成。
比如,“询问(目的地=北京,出发地=上海)的语义框架表达的是能够预定从北京到上海的机票?”
在这个语义框架可以有多种自然语言的表达方式,又比如,“北京飞上海的机票可以订吗?”。
通过众包的形式用于获取同一语义下的不同自然语言表达方式,即获得更多语义准确、表达自然且符合上下文环境的语言表达方式(Utterance)。
根据本申请实施例,作为本实施例中的优选,如图3所示,在所述语义框架的基础上建立语料剧本包括:
步骤S302,变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;
具体地,为了获得更加丰富的语料,一部分工作是定义丰富的用户-任务机器人之间的对话内容,即可以得到剧本。
而为了获取丰富的剧本,在领域建模的基础之上,通过随机地变更对话行为的组合、槽的组合、槽的顺序的组合,来生成不同的对话片段。
步骤S304,通过对话片段建立人机之间的对话内容作为语料剧本。
通过对话片段建立人机之间的对话内容作为语料剧本的好处在于:在一定范围内限定住了对话的范围,不会让整个对话偏离任务目标而发散。此外,可以最大限度地增加对话的丰富性。
根据本申请实施例,作为本实施例中的优选,如图4所示,根据所述语料剧本选择种子模板包括:
步骤S402,生成所述种子模版中参与对话的人的角色信息;
角色具体是指,种子模版是针对哪种用户的对话内容。
比如,角色是针对订机票的用户或者回答问题的机器人。
步骤S404,生成对话发生场景的背景信息;
背景具体是指,在对话发生的背景。
步骤S406,生成所述种子模版中的上下文环境信息;
上下文具体是指,待改述的种子模版的上下文环境。
步骤S408,确定需要语料泛化的所述种子模版。
具体地,在生成对话剧本的基础上,生成并选择需要语料泛化的种子模版。
通过上述步骤的对话剧本可以按照预设的方式生成需要进行语料泛化的种子模板。
在本申请中一个完整的种子模版包括:角色、背景、上下文、待改述的种子模版等几个主要的部分。
根据本申请实施例,作为本实施例中的优选,如图5所示,确定需要用于改述的种子模板并生成改述语料众包任务包括:
步骤S502,确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;
具体地,当选择出了需要被改述的种子模版之后,任务发布者可以通过API的方式或者登陆到众包任务管理后台(服务商提供),批量发布改述任务。
步骤S504,配置发布改述语料众包任务的任务完成条件;
在发布改述任务时,任务发布者需要提供题干、需获取的改述模版的数量、任务执行者的条件要求、任务酬劳、结果校验的具体方式等等必要信息。
需要注意的是,确定任务发布的条件在本申请中并不进行限定,本领域技术人员可以根据不同的场景进行确定。
步骤S506,按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
具体地,在发布众包任务时,可以利用小程序的载体来发布任务。该众包平台支持用户任务提醒、分享到朋友圈、下载小程序到本地等小程序功能,可以最大化地触达以及留存众包任务的目标任务执行者。
可以理解,在本申请还其他的数据接口的方式将所述众包任务进行批量发布。
优选地,当任务发布者成功发布任务后,获得改述语料的众包任务即进入到任务加工车间中,将任务分发、加工的过程建模为一个经典的动态车间调度问题(英文全称:Dynamic Job Shopping Schedulling,简称:DJSS)。在发布任务时规定了包括到达规则、加工规则、宕机规则、加工期锁定规则等等在内的数十条调度规则来调度众包任务和任务执行者,可实现总工期最小化。
作为本实施例中的优选,在本申请的用于语料处理的任务生成方法中,在任务生成后还包括了加入相关的测评指标。
测评指标中主要包括两个大的部分,针对任务执行者的测评以及任务结果测评。
在本申请的实施例中,针对任务执行者测评,可以采用监控任务执行者的指标,可以包括:做题数目、平均完成时间、通过率、获得奖金数额等等。用户可以看到自己的各项指标。
需要注意的是,针对任务执行者测评并不限于上述举例,本领域技术人员可以根据实际使用场景进行选择。
在本申请的实施例中,对于任务结果的测评,可以包括:Word-overlapping;BLEU;句向量相似度;METEOR,利用这些指标,可以综合地判断任务结果的多样性。
在本申请的实施例中,对于任务结果的测评,可以包括:通过在任务发起者的要求下,发起众包任务。通过将众包模版放入种子模版的各种应用上下文中,要求任务执行者回复是否表述自然,来综合判断任务结果的自然性。
在本申请的实施例中,对于任务结果的测评,可以包括:在所述改述语料的生成或上传时会进行初步质量检测测评。
具体地,可以会检查众包任务的任务完成者是否填写了空内容、是否有错别字、内容是否过短、是否为对题干的复制和/或黏贴。
可以理解,在本申请中的初步质量检测测评并不限于上述操作,本领域技术人员可以根据实际使用场景进行选择,在本申请中并不进行限定。
具体地,具体地,可以在语料预审阶段,判断任务执行者上传的内容是否覆盖了必要的槽和槽值。如果种子模板中的槽和槽值出现在众包模板中,则不会再发起近一步地校验工作。通过将判断任务执行者上传的内容是否覆盖了必要的槽和槽值可以判断出通过所述种子模板批量发布众包任务并获得改述语料的种子模板是否为一个合格的众包模板。
利用上述的校验方式,可以综合地判断任务结果的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述用于语料处理的任务生成方法的装置,如图6所示,该装置包括:领域模块10,用于根据领域建立语义框架;剧本模块20,用于在所述语义框架的基础上建立语料剧本;种子模板生成模块30,用于根据所述语料剧本选择种子模板;以及任务生成模块40,用于确定需要用于改述的种子模板并生成改述语料众包任务。
本申请实施例的领域模块10中本申请中的任务生成方式可以用于获取同一语义下的不同自然语言表达方式。
具体地,根据领域建立语义框架时,针对每个垂类(特定领域),建立该垂类下任务对话的语义框架。
具体地,语义框架主要由对话行为、槽、槽值三个部分构成。其中,对话行为指的是用户和任务对话机器人在对话中可以有的行为。在已有的对话行为概要基础上,在本申请中进行了必要地精炼。
比如,考虑到对话行为指的是用户和任务对话机器人在对话中可以有的行为,考虑的对话行为大致包括:NEGATE、GREETING、THANK_YOU、GOOD_BYE、NOTIFY_FAILURE、NOTIFY_SUCCESS、INFORM、REQUEST、CONFIRM。
其中,槽(Slot)指的是为完成一个任务,需要获取的必要的信息类型。
槽值(Slot Value)主要指的是对应的槽应该填入的值。
比如,在订机票领域,为了给用户成功预定一张机票,任务机器人需要获取包括出发地(Departure)、目的地(Destination)、出发日期(Date)、出发时间(Time)、价位(Price)等等信息,该些信息称为槽(Slot)。而具体的填入值则是槽值(Slot Value)。
又比如,在订酒店领域,为了给用户成功预定一个房间,任务机器人需要获取包括目的地(Destination)、区域(area)、入住日期(Date)、出发时入住(Time)、价位(Price)等等信息,该些信息称为槽(Slot)。而具体的填入值则是槽值(Slot Value)。
本申请实施例的剧本模块20中根据上述得到的语义框架后可以生成对话剧本。具体而言,生成剧本是定义丰富的用户与任务机器人之间的对话内容的工作。为了获取丰富的对话剧本,可以通过在特定领域建模的基础之上,通过随机或者相关规则变更对话行为的组合、槽的组合、槽的顺序的组合,来生成不同的对话片段进而丰富对话剧本。
建立对话剧本的优点在于:可以在一定范围内限定住了对话的范围,不会让整个对话偏离任务目标而发散;此外,还可以最大限度地增加对话的丰富性。
本申请实施例的种子模板生成模块30中通过上述步骤的对话剧本可以按照预设的方式生成需要进行语料泛化的种子模板。
具体地,在生成对话剧本的基础上,生成并选择需要语料泛化的种子模版。
在本申请中一个完整的种子模版包括:角色、背景、上下文、待改述的种子模版等几个主要的部分。
角色具体是指,种子模版是针对哪种用户的对话内容。
比如,角色是针对订机票的用户或者回答问题的机器人。
背景具体是指,在对话发生的背景。
上下文具体是指,待改述的种子模版的上下文环境;
待改述的种子模版具体是指,需要通过众包形式泛化的句子。需要注意的是,通常会指定句子中的槽或者槽值不能在泛化过程中被改变,可以较为容易地进行众包结果的相关质量控制,同时更便捷地使用众包得到的众包语料模版。
优选地,在本申请的实施例中从实验设置角度,给出了多种题干设置方式,采取了现有技术中得到的语料众包的最佳实践方式,使得题目简单易懂。
需要注意的是,题干的设置方法,可以基于列表、基于图片、基于上下文、基于背景等多种题干设置方法。本领域技术人员能够理解,采用好的题干设置有利于得到高质量的答案,可以根据实际情况进行选择。
本申请实施例的任务生成模块40中具体地,当选择出了需要被改述的种子模版之后,任务发布者可以通过应用程序编程接口(英文全称:Application ProgrammingInterface,简称:API)的方式或者登陆到众包任务管理后台(服务商提供),批量发布改述任务。此外,在发布改述任务时,任务发布者需要提供题干、需获取的改述模版的数量、任务执行者的条件要求、任务酬劳、结果校验的具体方式等等必要信息。
需要注意的是,确定任务发布的条件在本申请中并不进行限定,本领域技术人员可以根据不同的场景进行确定。
优选地,当任务发布者成功发布任务后,获得改述语料的众包任务即进入到任务加工车间中,将任务分发、加工的过程建模为一个经典的动态车间调度问题(英文全称:Dynamic Job Shopping Schedulling,简称:DJSS)。在发布任务时规定了包括到达规则、加工规则、宕机规则、加工期锁定规则等等在内的数十条调度规则来调度众包任务和任务执行者,可实现总工期最小化。
通过在分发众包任务时采用车间调度机制,基于动态车间调度问题DJJS的调度规则,可以更加高效率地完成任务。
根据本申请实施例,作为本实施例中的优选,如图7所示,所述领域模块10包括:过滤单元101,用于过滤人机对话过程中的行为得到对话行为;确定单元102,用于根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及语义框架生成单元103,用于根据所述对话行为、所述槽以及所述槽值生成语义框架。
本申请实施例的过滤单元101中通过将现有的真实数据作为种子语料,并将种子语料过滤掉人机对话过程中的行为可以得到对话行为。
具体地,对话行为指的是用户和任务对话机器人在对话中可以有的行为。删选后得到对话行为大致包括NEGATE、GREETING、THANK_YOU、GOOD_BYE、NOTIFY_FAILURE、NOTIFY_SUCCESS、INFORM、REQUEST、CONFIRM。
本申请实施例的确定单元102中具体地,槽(Slot)指的是为完成一个任务,需要获取的必要的信息类型。
具体地,槽值(Slot Value)主要指的是对应的槽应该填入的值。
本申请实施例的语义框架生成单元103中具体地,通过对话行为、所述槽以及所述槽值生成的一个完整的语义框架(Semantic Frame)由对话行为、槽、槽值三个部分构成。
比如,“询问(目的地=北京,出发地=上海)的语义框架表达的是能够预定从北京到上海的机票?”
在这个语义框架可以有多种自然语言的表达方式,又比如,“北京飞上海的机票可以订吗?”。
通过众包的形式用于获取同一语义下的不同自然语言表达方式,即获得更多语义准确、表达自然且符合上下文环境的语言表达方式(Utterance)。
根据本申请实施例,作为本实施例中的优选,如图8所示,所述领域模块10还包括:变更单元104,用于变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及建立单元105,用于通过对话片段建立人机之间的对话内容作为语料剧本。
本申请实施例的变更单元104中具体地,为了获得更加丰富的语料,一部分工作是定义丰富的用户-任务机器人之间的对话内容,即可以得到剧本。
而为了获取丰富的剧本,在领域建模的基础之上,通过随机地变更对话行为的组合、槽的组合、槽的顺序的组合,来生成不同的对话片段。
本申请实施例的建立单元105中通过对话片段建立人机之间的对话内容作为语料剧本的好处在于:在一定范围内限定住了对话的范围,不会让整个对话偏离任务目标而发散。此外,可以最大限度地增加对话的丰富性。
根据本申请实施例,作为本实施例中的优选,如图9所示,所述种子模板生成模块30包括:角色信息生成单元301,用于生成所述种子模版中参与对话的人的角色信息;背景信息生成单元302,用于生成对话发生场景的背景信息;环境信息生成单元303,用于生成所述种子模版中的上下文环境信息;以及种子模版确定单元304,用于确定需要语料泛化的所述种子模版。
本申请实施例的角色信息生成单元301中角色具体是指,种子模版是针对哪种用户的对话内容。
比如,角色是针对订机票的用户或者回答问题的机器人。
本申请实施例的背景信息生成单元302中背景具体是指,在对话发生的背景。
本申请实施例的环境信息生成单元303中上下文具体是指,待改述的种子模版的上下文环境。
本申请实施例的种子模版确定单元304中具体地,在生成对话剧本的基础上,生成并选择需要语料泛化的种子模版。
通过上述步骤的对话剧本可以按照预设的方式生成需要进行语料泛化的种子模板。
根据本申请实施例,作为本实施例中的优选,如图10所示,所述任务生成模块40包括:接口确定单元401,用于确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;配置单元402,用于配置发布改述语料众包任务的任务完成条件;以及调度单元403,用于按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
本申请实施例的接口确定单元401中具体地,当选择出了需要被改述的种子模版之后,任务发布者可以通过API的方式或者登陆到众包任务管理后台(服务商提供),批量发布改述任务。
本申请实施例的配置单元402中在发布改述任务时,任务发布者需要提供题干、需获取的改述模版的数量、任务执行者的条件要求、任务酬劳、结果校验的具体方式等等必要信息。
需要注意的是,确定任务发布的条件在本申请中并不进行限定,本领域技术人员可以根据不同的场景进行确定。
本申请实施例的调度单元403中具体地,在发布众包任务时,可以利用小程序的载体来发布任务。该众包平台支持用户任务提醒、分享到朋友圈、下载小程序到本地等小程序功能,可以最大化地触达以及留存众包任务的目标任务执行者。
可以理解,在本申请还其他的数据接口的方式将所述众包任务进行批量发布。
优选地,当任务发布者成功发布任务后,获得改述语料的众包任务即进入到任务加工车间中,将任务分发、加工的过程建模为一个经典的动态车间调度问题(英文全称:Dynamic Job Shopping Schedulling,简称:DJSS)。在发布任务时规定了包括到达规则、加工规则、宕机规则、加工期锁定规则等等在内的数十条调度规则来调度众包任务和任务执行者,可实现总工期最小化。
作为本实施例中的优选,在本申请的用于语料处理的任务生成方法中,在任务生成后还包括了加入相关的测评指标。
测评指标中主要包括两个大的部分,针对任务执行者的测评以及任务结果测评。
在本申请的实施例中,针对任务执行者测评,可以采用监控任务执行者的指标,可以包括:做题数目、平均完成时间、通过率、获得奖金数额等等。用户可以看到自己的各项指标。
需要注意的是,针对任务执行者测评并不限于上述举例,本领域技术人员可以根据实际使用场景进行选择。
在本申请的实施例中,对于任务结果的测评,可以包括:Word-overlapping;BLEU;句向量相似度;METEOR,利用这些指标,可以综合地判断任务结果的多样性。
在本申请的实施例中,对于任务结果的测评,可以包括:通过在任务发起者的要求下,发起众包任务。通过将众包模版放入种子模版的各种应用上下文中,要求任务执行者回复是否表述自然,来综合判断任务结果的自然性。
在本申请的实施例中,对于任务结果的测评,可以包括:在所述改述语料的生成或上传时会进行初步质量检测测评。
具体地,可以会检查众包任务的任务完成者是否填写了空内容、是否有错别字、内容是否过短、是否为对题干的复制和/或黏贴。
可以理解,在本申请中的初步质量检测测评并不限于上述操作,本领域技术人员可以根据实际使用场景进行选择,在本申请中并不进行限定。
具体地,具体地,可以在语料预审阶段,判断任务执行者上传的内容是否覆盖了必要的槽和槽值。如果种子模板中的槽和槽值出现在众包模板中,则不会再发起近一步地校验工作。通过将判断任务执行者上传的内容是否覆盖了必要的槽和槽值可以判断出通过所述种子模板批量发布众包任务并获得改述语料的种子模板是否为一个合格的众包模板。
利用上述的校验方式,可以综合地判断任务结果的准确性。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种用于语料处理的任务生成方法,其特征在于,用于获取同一语义下的不同自然语言表达方式,所述方法包括:
根据领域建立语义框架;
在所述语义框架的基础上建立语料剧本;
根据所述语料剧本选择种子模板;以及
确定需要用于改述的种子模板并生成改述语料众包任务;
根据领域建立语义框架包括:
过滤人机对话过程中的行为得到对话行为;
根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及
根据所述对话行为、所述槽以及所述槽值生成语义框架;
在所述语义框架的基础上建立语料剧本包括:
变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及
通过对话片段建立人机之间的对话内容作为语料剧本;
根据所述语料剧本选择种子模板包括:
生成所述种子模版中参与对话的人的角色信息;
生成对话发生场景的背景信息;
生成所述种子模版中的上下文环境信息;以及
确定需要语料泛化的所述种子模版。
2.根据权利要求1所述的任务生成方法,其特征在于,确定需要用于改述的种子模板并生成改述语料众包任务包括:
确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;
配置发布改述语料众包任务的任务完成条件;以及
按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
3.一种用于语料处理的任务生成装置,其特征在于,用于获取同一语义下的不同自然语言表达方式,所述装置包括:
领域模块,用于根据领域建立语义框架;
剧本模块,用于在所述语义框架的基础上建立语料剧本;
种子模板生成模块,用于根据所述语料剧本选择种子模板;以及
任务生成模块,用于确定需要用于改述的种子模板并生成改述语料众包任务;
所述领域模块包括:
过滤单元,用于过滤人机对话过程中的行为得到对话行为;
确定单元,用于根据拟完成任务时需要获取的信息类型确定槽以及槽值;以及
语义框架生成单元,用于根据所述对话行为、所述槽以及所述槽值生成语义框架;
所述领域模块还包括:
变更单元,用于变更所述对话行为的组合、所述槽的组合以及所述槽的顺序的组合生成不同的对话片段;以及
建立单元,用于通过对话片段建立人机之间的对话内容作为语料剧本;
所述种子模板生成模块包括:
角色信息生成单元,用于生成所述种子模版中参与对话的人的角色信息;
背景信息生成单元,用于生成对话发生场景的背景信息;
环境信息生成单元,用于生成所述种子模版中的上下文环境信息;以及
种子模版确定单元,用于确定需要语料泛化的所述种子模版。
4.根据权利要求3所述的任务生成装置,其特征在于,所述任务生成模块包括:
接口确定单元,用于确定需要用于改述的种子模板并通过服务器上数据接口或应用程序编程接口发布改述语料众包任务;
配置单元,用于配置发布改述语料众包任务的任务完成条件;以及
调度单元,用于按照预设规则调度并通过社交网络服务器下发改述语料众包任务。
CN201811190894.XA 2018-10-12 2018-10-12 用于语料处理的任务生成方法及装置 Active CN109522534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811190894.XA CN109522534B (zh) 2018-10-12 2018-10-12 用于语料处理的任务生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811190894.XA CN109522534B (zh) 2018-10-12 2018-10-12 用于语料处理的任务生成方法及装置

Publications (2)

Publication Number Publication Date
CN109522534A CN109522534A (zh) 2019-03-26
CN109522534B true CN109522534B (zh) 2022-12-13

Family

ID=65771916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811190894.XA Active CN109522534B (zh) 2018-10-12 2018-10-12 用于语料处理的任务生成方法及装置

Country Status (1)

Country Link
CN (1) CN109522534B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309507A (zh) * 2019-05-30 2019-10-08 深圳壹账通智能科技有限公司 测试语料生成方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和***
CN105074816A (zh) * 2013-02-25 2015-11-18 微软公司 促进口述自然语言接口的开发
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9703775B1 (en) * 2016-08-16 2017-07-11 Facebook, Inc. Crowdsourcing translations on online social networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和***
CN105074816A (zh) * 2013-02-25 2015-11-18 微软公司 促进口述自然语言接口的开发
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置

Also Published As

Publication number Publication date
CN109522534A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
US20190362252A1 (en) Learning user preferences in a conversational system
Banica et al. Is DevOps another project management methodology?
US20190138961A1 (en) System and method for project management using artificial intelligence
US20200234606A1 (en) Personalized educational planning based on user learning profile
EP3776246A1 (en) Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant
Di Prospero et al. Chatbots as assistants: an architectural framework
US10992486B2 (en) Collaboration synchronization
CN107273406A (zh) 任务对话***中的对话处理方法及装置
US11657235B2 (en) State of emotion time series
US12008317B2 (en) Summarizing information from different sources based on personal learning styles
Agh et al. Scrum metaprocess: a process line approach for customizing Scrum
Esposito Modern web development: understanding domains, technologies, and user experience
CN109522534B (zh) 用于语料处理的任务生成方法及装置
CN113065850A (zh) 用于智能外呼机器人的话术测试方法及装置
US11681869B2 (en) Methods and systems for managing collaborative editing of content
US11289076B2 (en) Assisting meeting participants via conversation loop detection and resolution using conversation visual representations and time-related topic usage
US10970490B2 (en) Automatic evaluation of artificial intelligence-based processes
CN115062629A (zh) 会话信息的识别方法及装置、存储介质、计算机设备
CN109543006B (zh) 用于语料处理的质量控制方法及装置
CN109508368B (zh) 用于改述语料的数据处理方法及装置
Halimeh et al. Scrum metaprocess: a process line approach for customizing Scrum
Rudmark Designing platform emulation
CN109933512A (zh) 一种基于远程连接运行策略的方法与***装置
Pessôa et al. The lean product development process
Cañas et al. Implementation of a Statistical Dialogue Manager for Commercial Conversational Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant