CN112925915A - 一种数据库中的数据生成方法及装置 - Google Patents

一种数据库中的数据生成方法及装置 Download PDF

Info

Publication number
CN112925915A
CN112925915A CN201911244073.4A CN201911244073A CN112925915A CN 112925915 A CN112925915 A CN 112925915A CN 201911244073 A CN201911244073 A CN 201911244073A CN 112925915 A CN112925915 A CN 112925915A
Authority
CN
China
Prior art keywords
annotator
answer
question
providing
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911244073.4A
Other languages
English (en)
Other versions
CN112925915B (zh
Inventor
李岚
郑萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN201911244073.4A priority Critical patent/CN112925915B/zh
Publication of CN112925915A publication Critical patent/CN112925915A/zh
Application granted granted Critical
Publication of CN112925915B publication Critical patent/CN112925915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据库中的数据生成方法及装置,包括:依据现有知识确定第一答案;向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;将标注者返回的第一问题与第一答案相匹配后存入数据库。采用本发明,能够在保证答案质量的前提下,使得公众能够成为标注者都能够参与进来,不仅降低了工作量和成本,也适用于对有专业要求的数据库;也即,与只用普通标注者相比,答案更为可靠;与只用专家标注者相比,减少了专家的工作量,能收集到更多训练数据。

Description

一种数据库中的数据生成方法及装置
技术领域
本发明涉及数据库技术领域,特别涉及一种数据库中的数据生成方法及装置。
背景技术
在日常生活中,越来越多的人们有机会享受到智能客服、智能互动问答***所带来的便利。例如,智能客服机器人可以部分代替人工客服解答常见问题,大幅减轻了人工客服的工作负担。
其中,问答知识数据库的数据建立是这类智能问答***非常重要的一环。
现有的方案是:
由专家按照模板编写预设好的QA对(问答对),或者由公众提供问题、答案。
现有技术的不足在于:单纯由专家编写的QA对工作量和成本很高,而单纯由公众提供QA对又无法保证答案的质量。不适用于对QA对有专业要求的数据库。
发明内容
本发明提供了一种数据库中的数据生成方法及装置,用以提供一种为问答知识数据库生成数据的方案。
本发明实施例中提供了一种数据库中的数据生成方法,包括:
依据现有知识确定第一答案;
向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
将标注者返回的第一问题与第一答案相匹配后存入数据库。
实施中,进一步包括:
确定第二问题;
向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
将标注者返回的第二答案与第二问题相匹配后存入数据库。
实施中,进一步包括:
根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
实施中,根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案,包括:
确定标注者所属分类为专家标注者时,向专家标注者提供第二问题;
确定标注者所属分类为普通标注者时,向普通标注者提供第一答案。
实施中,进一步包括以下步骤之一或者其组合:
确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断;
确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案;
确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题;
确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。
实施中,进一步包括:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
实施中,依据现有知识确定第一答案,是依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
本发明实施例中提供了一种数据库中的数据生成装置,包括:
答案生成模块,用于依据现有知识确定第一答案;
任务管理模块,用于向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
任务管理模块还用于将标注者返回的第一问题与第一答案相匹配后存入数据库。
实施中,还可以进一步包括:
问题生成模块,用于确定第二问题;
任务管理模块还用于向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
任务管理模块还用于将标注者返回的第二答案与第二问题相匹配后存入数据库。
实施中,还可以进一步包括:
注册管理模块,用于根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
任务管理模块还用于根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
实施中,任务管理模块还用于在根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案时:
确定标注者所属分类为专家标注者时,向专家标注者提供第二问题;
确定标注者所属分类为普通标注者时,向普通标注者提供第一答案。
实施中,任务管理模块还用于:
确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断;或,
确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案;或,
确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题;或,
确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。
实施中,任务管理模块还用于:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
具体实施,与标注者分类结合,还可以是:
确定普通标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给专家标注者,并要求专家标注者返回匹配是否正确的判断。
实施中,答案生成模块进一步用于依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
本发明有益效果如下:
在本发明实施例提供的技术方案中,由于生成的是答案,而答案都是由相关领域专家所编写,或者由专业文档自动生成,标注者需要提供的是问题,因此能够在保证答案质量的前提下,使得公众能够成为标注者都能够参与进来,不仅降低了工作量和成本,也适用于对有专业要求的数据库;也即,与只用普通标注者相比,答案更为可靠;与只用专家标注者相比,减少了专家的工作量,能收集到更多训练数据。
进一步的,由于根据数据库中预设规则将标注者分类,根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案,因此能够同时采用专家标注者和普通标注者参与标注任务,针对每类标注者,设计了不同的任务。
进一步的,由于能够对标注任务进行细分,更便于管理和派发任务;还可以通过对几种标注任务设置优先级来对数据库的数据生成进行管理。
进一步的,由于为普通标注者确认不能够提供与第一答案相适应的第一问题的次数设置预设阈值,因此可以在任务推送时综合考虑了QA组合样本饱和、专家待回答问题上限等因素,使得***能通过较少的标注工作量获得较多的标注数据。
进一步的,由于依据现有知识确定第一答案,是依据数据库中文本、图像、视频、表格、文档、附件文件形式存储的数据中记载的信息确定的知识来确定第一答案的,因此答案除了纯文字,还可以包括图片、表格等各种附件,能支持更多实际应用。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中数据库中的数据生成方法实施流程示意图;
图2为本发明实施例中问答对数据库***结构示意图;
图3为本发明实施例中任务推送实施流程示意图;
图4为本发明实施例中数据库QA组合采集实施流程示意图;
图5为本发明实施例中数据库中的数据生成装置结构一示意图;
图6为本发明实施例中数据库中的数据生成装置结构二示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明。
图1为数据库中的数据生成方法实施流程示意图,如图所示,可以包括:
步骤101、依据现有知识确定第一答案;
步骤102、向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
步骤103、将标注者返回的第一问题与第一答案相匹配后存入数据库。
为了更好地进行说明,在例中将结合一种实现本发明实施例提供的技术方案的、可能的数据库***来进行说明,需要说明的是,这仅是一种可能的结构,不排除在基本功能不变的情况下,经过组合或者分拆等方式形成其他的可能的结构。实施例中将会采用QA组合、QA对等用语,其含义是指一组问题和答案的集合,其中包括至少一个答案(文字、图片、附件等),以及此答案所对应的多个问题。
图2为问答对数据库***结构示意图,如图所示,图中主要包括任务管理模块201、答案生成模块202、注册管理模块203,下面对各模块结合相应的功能进行说明。
则在图1所示的流程中,一个可行的实施例可以为:
首先,答案生成模块依据从专业文件集中记载的现有知识来确定第一答案,然后可以将第一答案存储在文本答案库中;
任务管理模块从文本答案库中读取第一答案,然后向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
在标注者返回后,将标注者返回的第一问题与第一答案相匹配后存入数据库,例如,存入图2中的问答知识库。
实施中,依据现有知识确定第一答案,可以是依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
以图2所示***为例,则具体可以如下:
专业文件集:所有作为答案可能用到的文档、图片、附件等文件集合。
答案生成模块:将专业文件集进行处理,格式化以后分别存放到文本答案数据库、附件数据库或问答知识库中。
生成标准文本答案:以法律、规章制度等为例,对法律、规章制度等文档进行文档分割、结构化处理,将其变为一条一条的“标准答案文本”,存入文本答案数据库。
生成附件数据库:对于专业答案中可能用到的配图、附件存入附件数据库。
文本答案数据库:用于存放文本答案的数据库。
附件数据库:用于存放答案中可能用到的配图、附件。
问答知识库:用于存放已确认、待确认、收集中的QA对的数据库。
实施中,还可以进一步包括:
确定第二问题;
向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
将标注者返回的第二答案与第二问题相匹配后存入数据库。
与图1不同在于,此处提供的是问题,而标注者返回的是答案。
实施中,还可以进一步包括:
根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
对标注者分类,例如可以由注册管理模块来实施。具体实施可以如下:
例中在将标注者分类时,以专家标注者以及普通标注者两类为例进行说明,但是容易理解,还可以根据需要进行细分。其中专家指在学术、技艺等方面有专门技能或专业知识全面的人;特别精通某一学科或某项技艺的有较高造诣的专业人士。对于评价专家的预设规则可以根据需要设置,也可以直接采用一些通用的评价标准,例如根据专业文章、文凭、从业年限等来设置预设规则从而进行分类。具体的:
专家标注者注册:可以设定自己的专业领域,显然专业领域外,可作为普通标注者。
普通标注者注册:可以设定自己愿意参与标注的领域。
标注者数据库:存放标注者的个人信息、所属专业领域或感兴趣的领域等。
下面将以专家标注者、普通标注者为例,以任务的形式来对数据的采集机制进行说明,相应的,实施例中也会将其称为任务管理。
具体表现则可以为,当标注者登陆后,可在自己的任务界面选择当前打算领取哪种任务,选取以后,***从此类任务中随机选取一个用户感兴趣的专业领域。此外,***也可以根据用户感兴趣的领域以及当前问答知识库的完成情况,智能推送标注任务。
例中,针对2类标注者一共设计了6类标注任务。当指定一种任务类型,则可由相应模块,如图2中的任务生成模块根据文本答案库、附件库、问答知识库中的数据,生成每个任务包。
一、3种普通标注任务如下:
普通任务一:该任务下,仅提问题,也即,确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题。具体可以设定为针对某个领域,提出自己的问题。
普通任务二:该任务下,用于一个答案扩展其他问法,也即,向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题。具体例如:给定一个A(包括文本答案、附件(表格、图片)等)以及已提的Q列表(也可能尚无已提的问题),填写其他可能的问法。
普通任务三:该任务下,判断答案是否还能提出其他问法,也即,确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。具体的,例如以上任务,如果标注者觉得无法再提出其他问题,可以选择“没有其他问法了”,则认为此次标注任务属于普通任务三。或者,如果某标注者甲认为某答案A已无法提出其他问题,则再继续发给其他标注者乙丙确认,也属于普通任务三。
二、3种专家标注任务如下:
专家任务一:该任务下,问题、答案、配图全部需要专家标注者编辑QA对,也即,确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案。具体的备选答案、配图可以从固定答案、附件中自由选取。
专家任务二:该任务下,已有问题,只需专家标注者编辑答案、配图、或与已有答案关联等,也即,向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案。
专家任务三:该任务下,已有问题、所有答案、配图,只由专家标注者判断是否正确,也即,确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断。
为了进行样本是否饱和的判断,实施中,还可以进一步包括:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
与标注者分类结合,则可以是:
确定普通标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给专家标注者,并要求专家标注者返回匹配是否正确的判断。
具体的,以图2***为例,可以由样本饱和判断模块来实施,用于判断某个答案是否已经收集到了足够的样本,也即,针对一个答案无法再提出更多Q。具体可以通过设置阈值来判断实现,如阈值设为三次,当某答案A有至少一名标注者认为已无法提出其他问法,则优先推送此条任务给其他普通标注者确认,当有三人同时确认时,认为此QA组合样本饱和,生成一组(多Q同A)的专家任务,等待专家确认。
则知识库中的QA问答集会有以下几种状态:
有Q无A:等待专家标注者编写答案(专家任务二)。
有A无Q:等待普通标注者提问(普通任务二)。
有Q有A,Q未饱和:但根据样本饱和判断机制认为Q尚未饱和,则等待普通标注者扩展提出更多问题。(普通任务二)
有Q有A,Q临界饱和:已有少量普通标注者认为此Q饱和,需更多普通标注者确认。(普通任务三)
有Q有A,Q已饱和:根据样本饱和判断机制认为Q已收集足够,则等待专家标注者进行确认。(专家任务三)
有Q有A,已确认:QA组合已经过专家确认,收集成功。
实施中,以任务分配模块为例,任务至少可以采用以下方式向标注者提供:
1、自主选择:每位标注者可以从各自负责的几类任务中选取一种进行标注,由***从此类任务中选取标注者相关或感兴趣的领域进行任务推送。
2、***推送:如果标注者选择由***推送任务,则***根据问答知识库的收集情况智能推送任务。
下面以实例对任务推送进行说明。
图3为任务推送实施流程示意图,如图所示,可以包括:
步骤301、判断是否由标注者自主选择任务类型,是则转入步骤302,否则转入步骤304;
步骤302、依据当前问答数据库判断可推送任务类别,列出供用户选择;
步骤303、根据用户选择类别、感兴趣领域等随机推送一条任务;
步骤304、判断是否是专家标注者,是则转入步骤305,否则转入步骤311;
步骤305、判断是否做专家任务,是则转入步骤306,否则转入步骤311;
步骤306、判断是否有专家任务三待分配,是则转入步骤307,否则转入步骤308;
步骤307、随机推送专家任务三;
步骤308、判断是否有专家任务二待分配,是则转入步骤309,否则转入步骤310;
步骤309、随机推送专家任务二;
步骤310、随机推送专家任务一;
步骤311、判断是否有普通任务三待分配,是则转入步骤312,否则转入步骤313;
步骤312、随机推送普通任务三;
步骤313、判断问答库中专家任务二是否累积达到上限,是则转入步骤314,否则转入步骤315;
步骤314、随机推送普通任务二;
步骤315、随机推送普通任务一。
具体实施中,可以考虑按如下策略进行任务选择:
对于专家任务推送:
优先推送“专家任务三”:因为标注工作量最小(仅需确认),见效快(确认后可立刻更新问答数据库)。
其次推送“专家任务二”:标注工作量居中,并能减少一条仅有Q无A的任务。
对于普通任务推送:
优先推送“普通任务三”:如果当某答案A有至少一名标注者认为已无法提出其他问法,则优先推送此QA组合给其他普通标注者确认,当有三人同时确认时,认为此QA组合样本饱和。理由:尽快生成一组“专家任务三”QA组合供专家确认,同时避免其他标注者重复操作。
“普通任务一”和“普通任务二”的推送优先级,取决于目前问答数据库中问答样本采集的情况。根据每类问题注册的专家人数,设定一个此类问题的待回答数量上限值(即尚未回答的问题数量的上限),比如领域X有Nx个专家,可设定待回答数量上限值为Nth=5*Nx。如果已达到此上限,则优先推送普通任务二,否则优先推送普通任务一。此举措的目的在于,避免积累过多的专家任务二,导致没有足够的专家来回答;另一个方面也避免专家任务二过少,导致浪费专家资源。
当采用图2所示的***中的任务处理模块来实施时,对于任务处理模块,还可以在当***收到各标注者标注完返回的任务,根据任务类型进行不同处理。判断是否与问答知识库中已有的条目相似(Q相似或者A相似),更新问答知识库,并根据该标注对问答知识库的实际贡献度计算奖励。
如果问答知识库中没有相似条目,则此条标注有效。
如果与“有Q有A已饱和”的QA组合相似,则此条标注无效。
如果与问答知识库中已有的QA组合有部分相似,则根据相似情况酌情采纳Q或A。
如果有普通标注者认为某QA组合已无法提出其他问法,则调用前述“样本饱和判断模块”的相应机制进行QA组合饱和的判断。
相应的,考虑到上述功能实施的需要,也可以在图2所示的***中增加相应的功能模块,例如:
样本相似判断模块:判断标注者提交的标注结果(Q、A或者Q+A)与已有的问答知识库的相似性,即Q与问答知识库中的Q,A与问答知识库中的A是否有相似的条目。
样本饱和判断模块:判断某个答案是否已经收集到了足够的样本(无法再提出更多Q)。例如可设置条件:当某答案A有至少一名标注者认为已无法提出其他问法,则优先推送此条任务给其他普通标注者确认,当有三人同时确认时,认为此QA组合样本饱和,生成一组(多Q同A)的专家任务三,等待专家确认。
QA库更新模块:根据任务处理的结果更新问答知识库。
还可以根据实践需要设置个性化的模块,例如设置:
奖金计算模块:根据每位标注者的有效标注任务类型及条数计算相应的奖励。
具体的,如前所述的任务处理模块加入奖励制度后可以为:
任务处理模块:***收到各标注者标注完返回的任务,根据任务类型进行不同处理。判断是否与问答知识库中已有的条目相似(Q相似或者A相似),更新问答知识库,并根据该标注对问答知识库的实际贡献度计算奖励。
如果问答知识库中没有相似条目,则此条标注有效,按该任务全额奖励计算;
如果与“有Q有A已饱和”的QA组合相似,则此条标注无效,没有奖励;
如果与问答知识库中已有的QA组合有部分相似,则根据相似情况酌情采纳Q或A,并根据采纳结果换算成相应任务的奖励。
下面再以一实例对实施流程进行说明。
图4为数据库QA组合采集实施流程示意图,如图所示,可以包括:
步骤401、从专业文档生成文本答案库和附件库。
由标准答案生成模块从专业文档生成文本答案库和附件库。
每一篇专业文档,首先判断其是否可作为答案附件,是的话,存入附件库。
步骤402、生成答案。
判断是否可以从此文档中提取文本作为文本答案库。
例如此文档为规章制度文档,则可以从中提取制度条文,并逐条存入文本答案库。
步骤403、对标注者进行注册。
由注册管理模块负责专家标注者和普通标注者的注册以及每位标注者专业领域、感兴趣领域的采集,存入标注者数据库。
步骤404、推送任务。
标注者登陆***后,任务管理模块中的任务分配/任务生成模块,根据标注者的类型、意愿、专业领域/感兴趣领域、问答知识库的状态等,智能推送标注任务给标注者。
步骤405、更新数据库。
标注者完成一项标注任务后,由任务管理模块中的任务处理模块对标注结果进行相似度判断、样本饱和判断,更新问答知识库,并计算相应的奖励。
基于同一发明构思,本发明实施例中还提供了数据库中的数据生成装置,由于这些装置解决问题的原理与数据库中的数据生成方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
图5为数据库中的数据生成装置结构一示意图,如图所示,可以包括:
答案生成模块501,用于依据现有知识确定第一答案;
任务管理模块502,用于向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
任务管理模块还用于将标注者返回的第一问题与第一答案相匹配后存入数据库。
实施中,还可以进一步包括:
问题生成模块503,用于确定第二问题;
任务管理模块还用于向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
任务管理模块还用于将标注者返回的第二答案与第二问题相匹配后存入数据库。
实施中,还可以进一步包括:
注册管理模块504,用于根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
任务管理模块还用于根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
实施中,任务管理模块还用于在根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案时:
确定标注者所属分类为专家标注者时,向专家标注者提供第二问题;
确定标注者所属分类为普通标注者时,向普通标注者提供第一答案。
实施中,任务管理模块还用于:
确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断;或,
确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案;或,
确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题;或,
确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。
实施中,任务管理模块还用于:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
具体实施,与标注者分类结合,还可以是:
确定普通标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给专家标注者,并要求专家标注者返回匹配是否正确的判断。
实施中,答案生成模块进一步用于依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
图6为数据库中的数据生成装置结构二示意图,如图所示,本发明实施例还提供了另一种数据生成装置600,该数据生成装置600具体包括处理器601、存储器602、总线***603、接收器604和发送器605。其中,处理器601、存储器602、接收器604和发送器605通过总线***603相连,该存储器602用于存储指令,该处理器601用于执行该存储器602存储的指令,以控制接收器604接收信号,并控制发送器605发送信号;
其中,该处理器601,用于读取存储器中的程序,执行下列过程:
依据现有知识确定第一答案;
向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
将标注者返回的第一问题与第一答案相匹配后存入数据库。
应理解,在本发明实施例中,该处理器601可以是中央处理单元(CentralProcessing Unit,简称为“CPU”),该处理器601还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
该总线***603除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线***603。
在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
确定第二问题;
向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
将标注者返回的第二答案与第二问题相匹配后存入数据库。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案,包括:
确定标注者所属分类为专家标注者时,向专家标注者提供第二问题;
确定标注者所属分类为普通标注者时,向普通标注者提供第一答案。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
进一步包括以下步骤之一或者其组合:
确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断;
确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案;
确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题;
确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
具体实施,与标注者分类结合,还可以是:
确定普通标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给专家标注者,并要求专家标注者返回匹配是否正确的判断。
根据本发明的至少一个实施例,所述程序被处理器601执行时还可实现如下步骤:
依据现有知识确定第一答案,是依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,针对已有通常是仅靠专家或者仅靠公众提供问题或答案,而没有将专家和公众进行有效地结合,以及单纯由专家编写的模板可以保证QA对的质量,但要想收集庞大的问答知识库,工作量和成本很高。
或者单纯由公众提供的QA,成本低,但无法保证答案的质量。不适用于某些对答案质量要求较高的专业场景(比如:法律、规章制度、医药、产品客户支持等领域)。
本发明实施例提供的技术方案与现有方法相比,能够同时采用专家标注者和普通标注者参与标注任务,针对每类标注者,设计了不同的任务,
并对标注任务进行了细分,更便于管理和派发任务。
从专业文档可直接生成部分答案,并可提供给专家标注者作为答案编辑的素材,节省了专家标注者的时间。
根据标注者类别派发任务,答案都是由相关领域专家所编写,或者由专业文档自动生成,普通标注者只能提问或者判断。与只用普通标注者相比,答案更为可靠;与只用专家标注者相比,减少了专家的工作量,能收集到更多训练数据。
能够对几种标注任务设置了不同的优先级,任务推送时综合考虑了QA组合样本饱和、专家待回答问题上限等因素,使得***能通过较少的标注工作量获得较多的标注数据。
标注任务有不同的工作难度和工作量,细化后奖励有了更合理的计算方式,而不是对所有的标注都采用统一的奖励标准,这也提升了奖金的使用效率。
答案除了纯文字,还包括图片、表格等各种附件,能支持更多实际应用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据库中的数据生成方法,其特征在于,包括:
依据现有知识确定第一答案;
向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
将标注者返回的第一问题与第一答案相匹配后存入数据库。
2.如权利要求1所述的方法,其特征在于,进一步包括:
确定第二问题;
向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
将标注者返回的第二答案与第二问题相匹配后存入数据库。
3.如权利要求1或2所述的方法,其特征在于,进一步包括:
根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
4.如权利要求3所述的方法,其特征在于,根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案,包括:
确定标注者所属分类为专家标注者时,向专家标注者提供第二问题;
确定标注者所属分类为普通标注者时,向普通标注者提供第一答案。
5.如权利要求4所述的方法,其特征在于,进一步包括以下步骤之一或者其组合:
确定标注者所属分类为专家标注者时,将相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二***给专家标注者,并要求专家标注者返回匹配是否正确的判断;
确定标注者所属分类为专家标注者时,要求专家标注者提供相匹配后的第一问题与第一答案和/或相匹配后的第二问题与第二答案;
确定标注者所属分类为普通标注者时,要求普通标注者提供第二问题;
确定标注者所属分类为普通标注者时,在向标注者提供第一答案后,要求普通标注者确认是否能够提供与第一答案相适应的第一问题。
6.如权利要求1所述的方法,其特征在于,进一步包括:
确定标注者确认不能够提供与第一答案相适应的第一问题的次数;
在次数达到预设阈值时,停止向标注者提供第一答案,和/或,将相匹配后的第一问题与第一***给标注者,并要求标注者返回匹配是否正确的判断。
7.如权利要求1所述的方法,其特征在于,依据现有知识确定第一答案,是依据数据库中以以下形式之一或者其组合存储的数据中记载的信息确定的知识来确定第一答案的:
文本、图像、视频、表格、文档、附件文件。
8.一种数据库中的数据生成装置,其特征在于,包括:
答案生成模块,用于依据现有知识确定第一答案;
任务管理模块,用于向标注者提供第一答案,并要求标注者返回与第一答案相适应的第一问题;
任务管理模块还用于将标注者返回的第一问题与第一答案相匹配后存入数据库。
9.如权利要求8所述的装置,其特征在于,进一步包括:
问题生成模块,用于确定第二问题;
任务管理模块还用于向标注者提供第二问题,并要求标注者返回与第二问题相适应的第二答案;
任务管理模块还用于将标注者返回的第二答案与第二问题相匹配后存入数据库。
10.如权利要求8或9所述的装置,其特征在于,进一步包括:
注册管理模块,用于根据数据库中预设规则将标注者分类,每类标注者匹配有对应的提供第二问题和/或提供第一答案的权限;
任务管理模块还用于根据标注者所述的类别,向标注者提供第二问题和/或提供第一答案。
CN201911244073.4A 2019-12-06 2019-12-06 一种数据库中的数据生成方法及装置 Active CN112925915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911244073.4A CN112925915B (zh) 2019-12-06 2019-12-06 一种数据库中的数据生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911244073.4A CN112925915B (zh) 2019-12-06 2019-12-06 一种数据库中的数据生成方法及装置

Publications (2)

Publication Number Publication Date
CN112925915A true CN112925915A (zh) 2021-06-08
CN112925915B CN112925915B (zh) 2024-07-05

Family

ID=76161848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911244073.4A Active CN112925915B (zh) 2019-12-06 2019-12-06 一种数据库中的数据生成方法及装置

Country Status (1)

Country Link
CN (1) CN112925915B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答***及其处理方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN104462228A (zh) * 2014-11-13 2015-03-25 中国信息安全测评中心 基于语义的注册信息安全人员认证能力测评方法及***
CN104867367A (zh) * 2015-06-17 2015-08-26 中国人民解放军海军工程大学 一种基于任务驱动的舰船损管对话式训练仿真***
US20150339574A1 (en) * 2014-05-21 2015-11-26 International Business Machines Corporation Extensible Validation Framework for Question and Answer Systems
CN105678324A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 基于相似度计算的问答知识库的建立方法、装置及***
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答***及其处理方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
US20150339574A1 (en) * 2014-05-21 2015-11-26 International Business Machines Corporation Extensible Validation Framework for Question and Answer Systems
CN104462228A (zh) * 2014-11-13 2015-03-25 中国信息安全测评中心 基于语义的注册信息安全人员认证能力测评方法及***
CN104867367A (zh) * 2015-06-17 2015-08-26 中国人民解放军海军工程大学 一种基于任务驱动的舰船损管对话式训练仿真***
CN105678324A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 基于相似度计算的问答知识库的建立方法、装置及***
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置

Also Published As

Publication number Publication date
CN112925915B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN111581433B (zh) 视频处理方法、装置、电子设备及计算机可读介质
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
CN108763519A (zh) 阅读的推荐方法、装置及可读存储介质
CN109241528B (zh) 一种量刑结果预测方法、装置、设备及存储介质
CN110297848A (zh) 基于联邦学习的推荐模型训练方法、终端及存储介质
CN110292775B (zh) 获取差异数据的方法及装置
CN110609836A (zh) 表单处理方法、装置、电子设备和存储介质
CN108230262A (zh) 图像处理方法、图像处理装置和存储介质
CN114153795B (zh) 智能调取电子档案的方法、装置、电子设备和存储介质
CN105653647B (zh) Sql语句的信息采集方法及***
CN107122786B (zh) 一种众包学习方法及装置
CN106227510A (zh) 应用推荐方法及装置
CN111814034A (zh) 信息处理方法、装置、存储介质及电子设备
CN113689324A (zh) 一种基于二分类标签的人像物件的自动增删方法及装置
CN111506755A (zh) 图片集的分类方法和装置
CN108052650B (zh) 信息推荐方法、装置和电子设备
CN117093699A (zh) 智能问答方法、装置、设备及介质
US20150178658A1 (en) Onboarding by Analyzing Practices of Best Hiring Managers
CN110209916B (zh) 一种兴趣点图像推荐方法及装置
CN112925915A (zh) 一种数据库中的数据生成方法及装置
CN111401438B (zh) 图像分拣方法、装置及***
CN113918529A (zh) 基于小程序的问卷调查方法、装置及存储介质
CN109359675A (zh) 图像处理方法及设备
CN112732951A (zh) 一种人机交互的方法及装置
CN110825898A (zh) 美甲套图推荐方法、装置、电子设备、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant