CN110990581A

CN110990581A - 一种用于知识库构建的动态数据采编方法

Info

Publication number: CN110990581A
Application number: CN201911139372.1A
Authority: CN
Inventors: 李明; 朱锦雷
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-04-10
Anticipated expiration: 2039-11-20
Also published as: CN110990581B

Abstract

本发明公开一种用于知识库构建的动态数据采编方法，本方法根据采编知识的数据类型定义数据类型模板，由自定义的数据类型模板，生成知识模板树图，知识模板树图中的每一个结点既有自身属性维持树图的父子关系，又有知识模板属性确定知识模板中包括的数据项单元，基于知识模板树图进行知识采编和编辑，便于知识录入规则校验，保证了数据的整体质量；尤其是知识的存储方式，存储时，把各种不同知识模板的数据封装为统一的格式。本发明提高了录入效率，知识便于管理，机器人学习更方便。

Description

一种用于知识库构建的动态数据采编方法

技术领域

本发明涉及人工智能领域，是机器人对话知识库构建的一部分，尤其涉及动态数据采编的处理，是一种用于知识库构建的动态数据采编方法。

背景技术

随着机器人在生产生活各个领域的广泛应用，机器人的智能化程度正逐渐增强。机器人智能化的不断提高，离不开大量的知识学习。尤其行业服务机器人，服务特定对象客户，要求更专业精准，需要学习行业内专业的知识内容。

在知识库建设过程中，我们发现，除了存在大量简单的DeepQA知识和复杂的特定场景知识外，类二维表格形式的知识，也是一种不能忽视的存在。它的基数比较庞大，各种规格，内容不一，手动录入效率低下；人工核验维护，数据整体质量不高；数据多样化，不便于自动化管理，很难形成统一的数据接口或模式，为机器人对话***服务；虽然耗费了极多人力和时间，但整体效果不佳。

发明内容

针对现有技术的缺陷，本发明提供一种用于知识库构建的动态数据采编方法，快速、高效，机器人学习更方便。

为了解决所述技术问题，本发明采用的技术方案是：一种用于知识库构建的动态数据采编方法，包括以下步骤：

S01）、定义数据类型模板，根据采编知识的数据类型定义数据类型模板，并确定数据类型模板与数据编辑区、单位编辑区的对应关系，数据类型模板具有唯一的内部编号；

S02）、生成知识模板树图，知识模板树图的根节点代表行业，分支结点代表业务类型，叶子结点代表某一种业务类型的某一种数据采编模板；

知识模板树图中的每一个结点既有自身属性维持树图的父子关系，又有知识模板属性确定知识模板中包括的数据项单元；

自身属性包括结点编号、结点名称和父结点编号，结点编号在知识模板树图中唯一存在，结点名称又是业务类型或者数据采编模板的名称，父结点编号与结点编号共同确定结点在树图中的位置；

知识模板属性包括属性名称、内部编号、属性类型、选项值、顺序号、注释信息、是否为必填项，属性类型为步骤S01定义的数据类型模板，选项值为数据编辑区值或单位编辑区值；

建立节点编号与数据项单元之间的第一对应关系，建立数据项单元与数据类型模板之间的第二对应关系，每个数据项单元具有唯一的数据项内部编号及名称；

将自身属性、知识模板属性以及对应关系存储在数据库中；

S03）、知识采编，在知识模板树图中，通过结点的知识模板属性，由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板；

通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则；

建立结点编号与采编知识内部编号的第三对应关系，每一条采编知识具有唯一的内部编号；

将采编数据存储到数据库中；

S04）、知识编辑，在知识模板树图中，通过结点的知识模板属性，由步骤S03建立的第三对应关系和知识内部编号确定已录入的知识；由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板；对已录入知识进行处理，使在展现采编知识模板的同时，为数据编辑区或者单位编辑区填充已录入的数据；

将编辑数据存储到数据库中；

S05）、知识存储，由于数据项单元的不确定性，在知识存储之前先对采编、编辑的数据进行处理，处理方式为：由第一对应关系确定知识模板中包括的数据项单元，将每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的编辑信息，处理封装为标准JSON格式数据，然后将所有数据项单元的JSON格式数据封装为标准JSON数组，然后将标准JSON数组、第三对应关系存储在数据库。

进一步的，数据类型模板包括整数类型、双精度类型、字符串类型、单选类型、多选类型、价格类型、日期类型、长度类型、时间类型、FAQ类型和选择类型。

进一步的，数据类型模板与数据编辑区、单位编辑区的对应关系为：字符串类型、日期类型、FAQ类型、单选类型、多选类型、选择类型只包括数据编辑区；价格类型、长度类型、时间类型、整数类型、双精度类型包括数据编辑区和单位编辑区。

进一步的，使用JavaScript脚本定义数据类型模板。

进一步的，通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则为：判断录入数据是否为数据类型模板对应的数据类型，然后根据数据项单元的是否为必填项判断是否必须录入。

进一步的，结点编号与数据项单元是一对多的对应关系，数据项单元与数据类型模板为一对一的对应关系，结点编号与采编知识内部编号是一对多的对应关系。

进一步的，知识存储之前要对每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的数据进行标准JSON格式结构化处理。

本发明通过建立不同类型的知识模板，提高了录入效率，知识便于管理；由自定义的数据类型模板，便于知识录入规则校验，保证了数据的整体质量；尤其是知识的存储方式，把各种不同知识模板的数据封装为统一的格式，可形成统一的数据接口或模式，为机器人对话***服务。

附图说明

图1为定义的数据类型模板的示意图；

图2为生成的知识模板树图的示意图；

图3为一种知识模板中包括的数据项单元的示意图；

图4为数据项单元的一种录入的示意图；

图5为一种采编模板生成开始采编知识的示意图；

图6为一种采编模板录入完成的知识的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例公开一种用于知识库构建的动态数据采集方法，包括以下步骤：

S01）、定义数据类型模板，使用JavaScript脚本自定义数据类型模板，数据类型模板依据采编知识的数据类型而定，数据类型模板包括数据编辑区或单位编辑区。

如图1所示，依据采编知识的数据类型，数据类型模板包括整数类型、双精度类型、字符串类型、单选类型、多选类型、价格类型、日期类型、长度类型、时间类型、FAQ类型和选择类型。如图4所示，数据项单元录入时引用了一种多选数据类型。

数据类型模板模板与数据编辑区、单位编辑区存在对应关系，具体为：

字符串类型、日期类型、FAQ类型、单选类型、多选类型、选择类型只包括数据编辑区；字符串类型对应文本输入，日期类型对应时间选择，FAQ类型引用已录入的FAQ知识，单选类型、多选类型、选择类型需关联由“选项值”参数录入的选项，每一个选项之间用英文“,”分割。

价格类型、长度类型、时间类型、整数类型、双精度类型包括数据编辑区和单位编辑区。价格类型单位编辑区对应选择列表["yuan":"元","wyuan":"万元"]，长度类型单位编辑区对应选择列表["m":"m","km":"km","cm":"cm","mm":"mm"]，时间类型单位编辑区对应选择列表["ss":"秒","mm":"分钟","hh":"小时","dd":"天","MM":"月","QT":"季度","HY":"半年","YY":"年"]，整数类型和双精度类型单位编辑区是可自定义的文本。

本实施例中，数据类型模板具有唯一的内部编号。

S02）、生成知识模板树图，如图2所示，为生成的一种知识模板树图，树图的根结点代表行业，分支结点代表业务类型，叶子结点代表某一种业务类型的某一种数据采编模板；

本实施例中，知识模板树图中的每一个结点通过自身属性维持树图的父子关系。以“理财”结点为例，可直接在知识模板树图中操作，添加子结点、编辑结点、删除结点。

自身属性包括NodeId、NodeName、ParentNodeId。NodeId结点编号，通过特殊规则生成，在知识模板树图中唯一存在；NodeName结点名称，也可认为是业务类型或数据采编模板名称；ParentNodeId父节点编号，与NodeId共同确定结点在树图中的位置。

将自身属性包括的NodeId、NodeName、ParentNodeId存储在知识库中。

本实施例中，知识模板树图中的每一个结点通过知识模板属性确定知识模板中包括的数据项单元。

如图3所示，是“理财”结点包括的数据项单元，每一个数据项单元由图4所示录入的属性构成。以图4所示为例，选择的数据数据类型模板是“多选类型”，该数据类型默认无单位编辑区，通过“选项值”录入实际的选项，构成数据编辑区。

本实施例中，知识模板属性确定与所述结点编号对应的数据项单元，所述知识模板中包括多个数据项单元。

数据项单元的属性信息包括： PropertyName、PropertyInnerId、PropertyType、PropertyValue、PropertyUnit、PropertyOrder、PropertyNote、PropertyInput。

PropertyName属性名称，数据项单元的名称/知识模板中编辑项所展现的名称；PropertyInnerId内部编号，知识模板中编辑项的编号；PropertyType属性类型，上述定义的数据类型模板；PropertyValue值，数据编辑区默认值或可能的选项；PropertyUnit单位，单位编辑区默认值或可能的选项；PropertyOrder序号，该数据项单元在知识模板中的序列；PropertyNote注释信息；PropertyInput是否为必输入项，知识录入时会校验。

建立理财结点与图3所示数据项单元之间的第一对应关系；建立图3所示每一个数据项单元与所引用的数据类型模板之间的第二对应关系；每个数据项单元具有唯一的数据项内部编号及名称。

将知识模板属性及对应关系存储在数据库中。

本实施例中，结点与数据项单元之间是一对多的对应关系，即一个结点包括多个数据项单元；数据项单元与数据类型模板是一对一的对应关系，即一个数据项单元只能选择一种数据类型模板。

S03）、知识采编，在知识模板树图中，通过结点的知识模板属性，由建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板。

如在图2所示的知识模板树图中，先点击理财结点，在图6所示的理财知识中，再点击右上角“添加”按钮，由前面建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成如图5所示的知识采编模板。

通过数据项单元的属性类型，确定每一个数据编辑区的数据录入校验规则。以“期限”数据项单元为例，引用的数据类型模板是整数类型，根据JavaScript预定义，需要判断录入是否为整数。通过数据项单元的PropertyInput，确定图5所示*是红色还是白色，判断是否必须录入。

建立理财结点NodeId与采编知识内部编号的第三对应关系；每一条采编知识具有唯一的内部编号。

本实施例中，结点与采编知识内部编号是一对多的对应关系，即一个节点可以有多条采编知识。

将采编数据经过封装格式的处理，存储到数据库中。

S04）、知识编辑，在知识模板树图中，通过结点的知识模板属性，由之前建立的第三对应关系和知识内部编号确定已录入的知识，在如图2所示知识模板树图中，先点击理财结点，在如图6所示理财知识中，再点击一条知识右侧的笔形“编辑”按钮，由前述建立的第三对应关系和知识内部编号确定已录入的知识；由前述建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成所述知识采编模板；经过对已录入知识的处理，在展现采编知识模板的同时，为数据编辑区、单位编辑区填充已录入的数据。

将编辑数据经过封装格式的处理，存储到数据库中。

S05）、知识存储，知识模板中数据项单元具有不确定性，因此知识存储之前采编、编辑的数据进行处理。处理方式为：由前述第一对应关系确定知识模板中包括的数据项单元；将每一个数据项单元的PropertyName、PropertyInnerId和数据编辑区与单位编辑区的编辑信息，处理封装为标准JSON格式；将前述所有数据项单元的JSON格式数据封装为标准JSON数组，以此使采编的知识形成统一标准的整体数据；将上述标准JSON数组、第三对应关系存储在数据库。

封装为标准JSON数据的目的：简化数据库结构，依赖JSON数据自身天然的Key:Value的数据关系，不需要再为存储知识数据而在数据库层面建立关系； JSON格式层次结构简洁和清晰，完全独立于编程语言，是一种轻量级的数据交换格式；JSON格式易于人阅读和编写，利于数据的扩展，尤其是知识模板中数据项单元不确定时，不会导致数据库表层面的修改。

本实施例所用方法可应用于金融、社保、税务、律政等行业构建动态数据的场合。此发明描述的构建动态数据的方案，成功构建了某银行的知识库，应用于服务机器人对话***，取得了较好的交互体验。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种用于知识库构建的动态数据采编方法，其特征在于：包括以下步骤：

将自身属性、知识模板属性以及对应关系存储在数据库中；

将采编数据存储到数据库中；

将编辑数据存储到数据库中；

2.根据权利要求1所述的用于知识库构建的动态数据采编方法，其特征在于：数据类型模板包括整数类型、双精度类型、字符串类型、单选类型、多选类型、价格类型、日期类型、长度类型、时间类型、FAQ类型和选择类型。

3.根据权利要求2所述的用于知识库构建的动态数据采编方法，其特征在于：数据类型模板与数据编辑区、单位编辑区的对应关系为：字符串类型、日期类型、FAQ类型、单选类型、多选类型、选择类型只包括数据编辑区；价格类型、长度类型、时间类型、整数类型、双精度类型包括数据编辑区和单位编辑区。

4.根据权利要求1所述的用于知识库构建的动态数据采编方法，其特征在于：使用JavaScript脚本定义数据类型模板。

5.根据权利要求1所述的用于知识库构建的动态数据采编方法，其特征在于：通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则为：判断录入数据是否为数据类型模板对应的数据类型，然后根据数据项单元的是否为必填项判断是否必须录入。

6.根据权利要求1所述的用于知识库构建的动态数据采编方法，其特征在于：结点编号与数据项单元是一对多的对应关系，数据项单元与数据类型模板为一对一的对应关系，结点编号与采编知识内部编号是一对多的对应关系。

7.根据权利要求1所述的用于知识库构建的动态数据采编方法，其特征在于：知识存储之前要对每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的数据进行标准JSON格式结构化处理。