CN117034864B

CN117034864B - 可视化标注方法、装置、计算机设备以及存储介质

Info

Publication number: CN117034864B
Application number: CN202311154476.6A
Authority: CN
Inventors: 禹健
Original assignee: Guangzhou Xingu Electronic Technology Co ltd
Current assignee: Guangzhou Xingu Electronic Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-05-10
Anticipated expiration: 2043-09-07
Also published as: CN117034864A

Abstract

本发明涉及文本标注的技术领域，尤其是涉及一种可视化标注方法、装置、计算机设备以及存储介质，方法包括：对文本数据集进行标注预处理自动提取基础信息，并对所述提取信息按照对应的类型进行突出标注得到预处理元素；将所述标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充；根据所述元素信息补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据；将所述样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比所述机器标注结果和人工标注结果得到标注对比结果本申请具有提高相关部门的分析线索文件的效率的效果。

Description

可视化标注方法、装置、计算机设备以及存储介质

技术领域

本发明涉及文本标注的技术领域，尤其是涉及一种可视化标注方法、装置、计算机设备以及存储介质。

背景技术

目前，随着大数据在各行各业的推广和建设，业务部门的工作已逐渐转向电子化和数据化方向。然而，这一转变也引发了大量非结构化文本数据的产生，包括办公文档、情报线索、案情摘要、公文通报、笔录卷宗等。这些数据通常以文档形式散布在文件夹或***中。尽管可以通过过滤、查询等手段进行文档的查阅和分析，但对信息的解读还是依赖人工通篇解读文档实现，极大的依赖民警的个人能力，效率低下且容易出错。更为重要的是，不同文件中提及的相同内容，如人员、组织、事件，无法联系起来进行整体分析。这种情况不仅浪费了警务人力资源，而且效率低下容易遗漏关键信息，给数据分析带来了一定的困难，无法充分利用大量有价值的数据。

现有的文本标注方法虽然都能对实体快速识别标注，但在数据分析中，主要是围绕人、事、物展开工作，现有的文本标注方法的实体识别方案对于专业部门处理业务的需求而言并不完全适配，且缺少整洁美观的可视化操作界面，操作方式古板繁琐，不适用于专业部门事务繁多效率要求高的工作日常中。

发明内容

为了提高相关部门的分析线索文件的效率，本申请提供一种可视化标注方法、装置、计算机设备以及存储介质。

本申请的上述发明目的一是通过以下技术方案得以实现的：

一种可视化标注方法，所述可视化标注方法包括：

获取待标注的文本数据集，对所述文本数据集进行格式预处理得到格式统一的文本数据集；

对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对所述提取信息按照对应的类型进行突出标注得到预处理元素；

将所述标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充；

根据所述元素信息补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据；

将所述样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比所述机器标注结果和人工标注结果得到标注对比结果；

根据所述数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新。

通过采用上述技术方案，对待标注的文本数据集进行格式处理以统一文本格式，方便后续在对文本数据集进行标注预处理和机器训练中的文本格式是统一的，进一步达到通过机器训练模型对标注预处理进行优化的目的；通过标注预处理对文本数据集中的基础信息进行自动提取并突出标注，将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在文本显示区域使用标注工具对未标注的元素信息进行补充，以达到可视化操作的目的，进一步使得人工标注的操作更简洁，标注结果一目了然，提高了专业部门的文档处理效率；将最终标注结果存储至数据库，方便后续对标注数据进行分析，也方便业务人员随时查找并查阅标注好的文本数据集，并将最终标注结果作为样本数据输入至机器训练模型得到机器标注结果，通过对比机器标注结果和人工标注结果得到标注对比结果，并根据数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新，结合机器训练的数据模型对文本数据集进行标注校验，比较人工标注的信息与机器训练的成果的差异性，以提升标注预处理的准确性和一致性；通过对文本数据的自动提取基础信息及人工补充标注信息，并对最终标注结果进行存储，实现了非结构化文本向结构化转变，为后续的文档分类、聚类筛查和图谱分析等业务提供了基础。

本申请在一较佳示例中可以进一步配置为：所述对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对所述提取信息按照对应的类型进行突出标注得到预处理元素，具体包括：

获取特征词库，通过所述特征词库对所述格式统一的文本数据集进行特征匹配自动提取基础信息，所述基础信息包括姓名、电话号码、证件号码、地址和年龄；

对提取到的所述基础信息按照对应的类型进行标注，根据所述标注结果通过人工筛选需要的标注信息；

根据所述人工筛选的结果得到最终的所述预处理元素。

通过采用上述技术方案，对文本数据集中的姓名、电话号码、证件号码、地址和年龄基础信息进行自动提取，更符合于数据分析业务围绕人、事、物展开的工作属性，便于后续进行汇总和总结，能够快速了解和查阅文本中的主要信息；对标注预处理自动提取的各类基础信息，业务人员可以选择需要采用的信息，对于不需要或提取有误的信息可以进行删除，对业务人员筛选结果进行保存，能够提高标注预处理自动提取的准确性。

本申请在一较佳示例中可以进一步配置为：所述获取特征词库，通过所述特征词库对所述格式统一的文本数据集进行特征匹配自动提取基础信息，所述基础信息包括姓名、电话号码、证件号码、地址和年龄，具体包括：

从所述特征词库中获取姓氏词库，根据所述姓氏词库在所述格式统一的文本数据集中进行姓氏匹配，根据所述姓氏匹配的结果语义识别出对应的字词，并和所述姓氏匹配的结果合并，得到姓名信息；

从所述特征词库中获取电话号码特征词库，根据所述电话号码特征词库在所述格式统一的文本数据集中进行电话号码匹配，根据所述电话号码匹配结果得到电话号码信息；

从所述特征词库中获取证件号码特征词库，根据所述证件号码特征词库在所述格式统一的文本数据集中进行证件号码匹配，根据所述证件号码匹配结果得到证件号码信息；

从所述特征词库中获取地址特征词库，根据所述地址特征词库在所述格式统一的文本数据集中进行地址匹配，根据所述地址匹配结果得到地址信息；

从所述特征词库中获取年龄特征词库，根据所述年龄特征词库在所述格式统一的文本数据集中进行年龄匹配，根据所述年龄匹配结果得到年龄信息。

通过采用上述技术方案，从特征词库中获取各基础信息的特征结合自然语言处理在文本中进行匹配得到姓名、电话号码、证件号码、地址和年龄，通过基础信息的特征结合自然语言处理能够更快速地识别文本中的实体信息，能更准确地提取出专业部门处理业务需要的关键人、事和物信息，便于后续进行汇总和总结，进而快速了解和查阅文本中的主要信息。

本申请在一较佳示例中可以进一步配置为：所述将所述标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充，具体包括：

通过实体标注工具选择所述文本数据集中的预处理元素作为实体，根据所述实体选择对应的实体类型，对不同实体类型采取不同的背景颜色进行标注；

根据实体标注结果通过属性标注工具对所述实体标注属性；

所述实体属性标注好后，通过关系标注工具连线标记所述实体之间的关系；

获取预设的标签集合中的预设标签，通过标签标注工具将选中的短语或句子与对应的预设标签相关联；

通过所述实体标注工具、所述属性标注工具、所述关系标注工具和所述标签标注工具完成对所述文本数据集中未标注的元素信息的补充标注。

通过采用上述技术方案，使用实体标注工具对文本数据集中未标注的元素信息进行补充，对不同实体类型采取不同的背景颜色进行标注，并通过属性标注工具对标注的实体添加属性信息，通过关系标注工具连线标记实体与实体之间的关系，通过标签标注工具将文本中的短语或句子与预先定义的标签进行匹配，以可视化的方式呈现标注结果，如不同的背景颜色和连线，使得非结构化文本中的主要内容一目了然，进一步提高了数据的可理解性、可视化分析的效率，帮助下一次调用该文本数据的业务人员能够快速准确地掌握文本信息的重要内容，为进一步的数据分析和决策提供有力支持。

本申请在一较佳示例中可以进一步配置为：所述根据所述元素信息补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据，具体包括：

根据所述最终标注结果获取对应的实体、属性、关系和标签数据，根据所述实体、属性、关系和标签数据对最终标注结果归类存储；

接收数据查找指令，根据所述数据查找指令获取所述数据库中对应的实体、属性关系和标签数据以及对应标注好的文本数据集并生成查找结果。

通过采用上述技术方案，对标注好的文本数据根据标注的实体、属性、关系和标签分类存储，有助于业务人员在查找调用文本数据时，还可以与其他文档中的人、事、物进行关联，扩充分析方向和情报素材，从而更全面地了解目标的各个方面信息，并加快案件侦破、情报分析等工作的推进。

本申请的上述发明目的二是通过以下技术方案得以实现的：

一种可视化标注装置，所述可视化标注装置包括：

文本格式调整模块，用于获取待标注的文本数据集，对所述文本数据集进行格式预处理得到格式统一的文本数据集；

信息提取模块，用于对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对所述提取信息按照对应的类型进行突出标注得到预处理元素；

标注补充模块，用于将所述标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充；

数据存储模块，用于根据所述元素信息补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据；

模型训练模块，用于将所述样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比所述机器标注结果和人工标注结果得到标注对比结果；

模型迭代模块，用于根据所述数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新。

本申请的上述目的三是通过以下技术方案得以实现的：

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述可视化标注方法的步骤。

本申请的上述目的四是通过以下技术方案得以实现的：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述可视化标注方法的步骤。

综上所述，本申请包括以下至少一种有益技术效果：

将最终标注结果作为样本数据输入至机器训练模型得到机器标注结果，通过对比机器标注结果和人工标注结果得到标注对比结果，并根据数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新，结合机器训练的数据模型对文本数据集进行标注校验，比较人工标注的信息与机器训练的成果的差异性，以提升标注预处理的准确性和一致性；通过对文本数据的自动提取基础信息及人工补充标注信息，并对最终标注结果进行存储，实现了非结构化文本向结构化转变，为后续的文档分类、聚类筛查和图谱分析等业务提供了基础。

附图说明

图1是本申请一实施例中可视化标注方法的一流程图；

图2是本申请一实施例中可视化标注中，对文本数据集提取了基础信息后的结果展示示意图；

图3是本申请一实施例中可视化标注中方法步骤S20的实现流程图；

图4是本申请一实施例中可视化标注中方法步骤S21的实现流程图；

图5是本申请一实施例中可视化标注中方法步骤S30的实现流程图；

图6是本申请一实施例中可视化标注中方法步骤S40的实现流程图；

图7是本申请一实施例中可视化标注装置的一原理框图；

图8是本申请一实施例中的设备示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

在一实施例中，如图1和图2所示，本申请公开了一种可视化标注方法，具体包括如下步骤：

S10：获取待标注的文本数据集，对文本数据集进行格式预处理得到格式统一的文本数据集。

在本实施例中，待标注的文本数据集是指收集得到的初始线索文本。

具体地，在通过用户自行上传或者是通过对接相关数据库的方式，收集到相关的线索文本后，将该线索文本作为待标注的文本数据集，例如通过截取对话或者是线索上报等方式，统计该待标注的文本数据集。

进一步地，在获取到该文本数据集后，对文本数据集中的数据进行分段处理以及统一格式等处理后，得到该格式统一的文本数据集。

S20：对格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取信息按照对应的类型进行突出标注得到预处理元素。

具体地，获取对文本数据集进行预处理的算法，根据该算法从文本数据集中提取基础信息。其中，在设置从文本数据集中的文本数据提取基础信息的算法时，先确认需要提取的数据的类型，例如人员姓名、电话号码以及证卡信息等，再根据每一个类型的数据字符特征设置对应的信息提取规则，进而得到该预设的算法，从而能够根据该预处理的算法从文本数据集中提取得到基础信息。

进一步地，如图2所示，在从文本数据集提取该基础信息时，根据算法中的提取的数据的类型，对每个类型提取得到的基础信息进行对应的标注，例如采用不同颜色的背景色进行凸显，从而得到预处理元素。

S30：将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在文本显示区域使用标注工具对未标注的元素信息进行补充。

具体地，由于在对模型训练前，对文本数据集的自动标注是以按照预定的规则进行匹配，根据匹配的结果进行相应的标注，然而，对于匹配得到的预处理元素之间语义的联系，需要进行人工智能的训练，因此，在标注得到预处理元素后的文本数据集展现于预设的文本显示区域，用于向相关人员展现标注有预处理元素的文本数据集。

进一步地，在相关人员根据标注有预处理元素的文本数据集中未被标注的元素进行补充时，根据不同的语义之间的关系，采用相应的标注工具进行补充标注后，得到该文本数据集对应的最终标注结果。

S40：根据元素信息补充结果得到最终标注结果，将最终标注结果存储至数据库中作为样本数据。

具体地，在得到待标注的文本数据集的最终标注结果后，将所有最终标注结果存储至预设的数据库中，进而得到用于训练的样本数据。

S50：将样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比机器标注结果和人工标注结果得到标注对比结果。

具体地，将该样本数据输入至初始模型，即机器训练模型中进行训练，得到对应的训练结果，即得到训练后的标注预处理模型。

进一步地，将待标注的文本数据集输入至标注预处理模型中进行识别标注，得到机器标注结果后，将机器标注结果中的数据与样本数据中的人工标注结果进行标注对比，得到对应的标注对比结果。

S60：根据数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新。

具体地，将标注对比结果和样本数据重新输入至该标注预处理模型中进行训练，从而对该标注预处理模型进行迭代和更新，进而不断提升标注的准确性和一致性。

在一实施例中，如图3所示，在步骤S20中，即对格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取信息按照对应的类型进行突出标注得到预处理元素，具体包括：

S21：获取特征词库，通过特征词库对格式统一的文本数据集进行特征匹配自动提取基础信息，基础信息包括姓名、电话号码、证件号码、地址和年龄。

在本实施例中，特征词库是指存储有每一个类型的基础信息对应的匹配规则的数据库。

具体的，在获取到格式统一的文本数据集后，通过该特征词库在该文本数据集中进行匹配查询。在匹配查询时，根据特征词库中的基础信息的类型，例如姓名、电话号码、证件号码、地址、年龄以及其他需要匹配的关键词，分别进行匹配，进而得到该基础信息。

S22：对提取到的基础信息按照对应的类型进行标注，根据标注结果通过人工筛选需要的标注信息。

具体地，在提取得到对应的基础信息后，根据采用对应类型的匹配规则提取到的信息进行分类，即通过相同匹配规则匹配得到的基础信息分为一类，再根据对应的类型对基础信息进行对应的自动标注。

进一步地，将自动标注的标注结果进行展示，供相关人员进行人工筛选。

S23：根据人工筛选的结果得到最终的预处理元素。

具体地，通过人工筛选，将误标的标注进行删除以及对漏标的信息进行补标后，得到该预处理元素。

在一实施例中，如图4所示，在步骤S21中，即获取特征词库，通过特征词库对格式统一的文本数据集进行特征匹配自动提取基础信息，基础信息包括姓名、电话号码、证件号码、地址和年龄，具体包括：

S211：从特征词库中获取姓氏词库，根据姓氏词库在格式统一的文本数据集中进行姓氏匹配，根据姓氏匹配的结果语义识别出对应的字词，并和姓氏匹配的结果合并，得到姓名信息。

具体地，在构建用于提取姓名的特征词库时，预先构建姓氏词库，在该格式统一的文本数据集中匹配查询出对应的中文字符。进一步地，通过假定接下来的一个或两个词是名字的一部分，并在此基础上结合上下文语境进行识别，从而根据识别的结果，与该匹配得到的姓氏合并得到该姓名信息。例如，在识别到一个姓氏的字符后，与接下来的一个词作为待识别的姓名，并与上下文进行语义识别，若语义识别失败，即该待识别的姓名不完整或者不是人员的姓名，因此，再结合接下来的一个词与待识别姓名作为新的待识别的姓名，再进行语义识别，若识别成功，则认定为该新的待识别的姓名为对应的姓名信息，若识别失败，则认定该词组不是姓名信息。

S212：从特征词库中获取电话号码特征词库，根据电话号码特征词库在格式统一的文本数据集中进行电话号码匹配，根据电话号码匹配结果得到电话号码信息。

具体地，通过将常见的固定电话号码格式以及手机号码格式设置为电话号码特征词库，若文本数据集中出现连续的数字，则采用电话号码特征词库，通过正则表达式匹配得到该电话号码信息。

S213：从特征词库中获取证件号码特征词库，根据证件号码特征词库在格式统一的文本数据集中进行证件号码匹配，根据证件号码匹配结果得到证件号码信息。

具体地，基于身份证号码、驾驶证号码以及其他证***码的特定格式，设置该证件号码特征词库，通过该特征号码特征词库在文本数据集中进行匹配查询，将匹配查询到的结果作为证件号码信息。

S214：从特征词库中获取地址特征词库，根据地址特征词库在格式统一的文本数据集中进行地址匹配，根据地址匹配结果得到地址信息。

具体地，使用关键词匹配或语法规则来提取地址信息，例如通过匹配"省"、"市"、"区"等词语来定位地址的起始和结束位置，进而匹配得到该地址信息。

S215：从特征词库中获取年龄特征词库，根据年龄特征词库在格式统一的文本数据集中进行年龄匹配，根据年龄匹配结果得到年龄信息。

具体地，由于年龄通常与特定的关键词相关联，例如"年龄"、"岁"等，通过其后面的数字或数字短语作为年龄；此外，文本数据集中的文本可能提某人的出生年份，可以通过当前年份减去这个年份来计算年龄。

在一实施例中，如图5所示，在步骤S30中，即将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在文本显示区域使用标注工具对未标注的元素信息进行补充，具体包括：

S31：通过实体标注工具选择文本数据集中的预处理元素作为实体，根据实体选择对应的实体类型，对不同实体类型采取不同的背景颜色进行标注。

具体地，设置对应的实体标注工具，供用户通过拖动鼠标来选择文本中的内容作为实体，在获取到用户选择完成后，向用户端提供一个列表显示所有可选的实体类型供用户选择，其中，不同类型的实体会以不同的背景色进行区分。

S32：根据实体标注结果通过属性标注工具对实体标注属性。

具体地，设置属性标注工具，能够为筛选得到的元素信息标注属性，用户可以通过鼠标选中文本中的属性文本，通过拖拽的方式，将对应的属性拖动到相应的实体上进行属性指定。

S33：实体属性标注好后，通过关系标注工具连线标记实体之间的关系。

具体地，设置对应的标签标注工具，用于标记实体之间关系，通过实线连接实体的方式，以表示实体与实体之间的关系。在标注过程中，根据实体的类型向用户端展示相应的关系选项供选择以及标注，使得用户在操作时，可以通过点击需要建立关系的实体，然后长按鼠标将其拖拽到目标实体上的方式，完成关系的标注。

S34：获取预设的标签集合中的预设标签，通过标签标注工具将选中的短语或句子与对应的预设标签相关联。

具体地，通过预设对应类型的标签，能够将文本中的短语或句子与预先定义的标签进行匹配，并以标签卡的形式向客户端呈现，从而用户在使用该工具时，可以通过鼠标框选相应的文字，并通过菜单中的标签功能，弹出窗口后选择适当的标签进行关联，从而完成标注。

S35：通过实体标注工具、属性标注工具、关系标注工具和标签标注工具完成对文本数据集中未标注的元素信息的补充标注。

具体地，在通过实体标注工具获取用户标注的各个元素，并通过属性标注工具和关系标注工具对各个实体元素之间的关联，再根据标签标注工具获取用户标记元素之间关联的类型，从而完成对文本数据中未标注的元素信息的补充。

按照本实施例所提供的方法中，用户可以按照以下操作对未标注的元素进行标注：

1. 实体要素定义：在***管理端的实体要素管理模块中，通过添加新的实体要素来表示想刻画的具体内容,定义内容包括实体名称、类型、展示颜色等。例如"人员"、"组织"、"事件"等实体。

2.实体属性定义：为每个实体要素定义相关属性，在实体管理页面中为实体添加各类属性项目，包括名称、描述、类型等，根据需要定义适当的属性类型，如文本、数值、日期等。

3.实体关系定义：定义实体要素之间的关系。可以在实体管理页面中添加当前实体与其他实体的关系，如"参与"、"组织"、"关联"等，来表示实体之间的关系。

4、标签标注：结合预设好的标签集合，选择文本中的文字句段与标签进行关联，为后续机器学习缩减计算区间，具体包括：

A.标签集合预设

在标签管理模块中，通过添加新的标签来预先设定标签集合，以便在标注过程中选择。标签定义包含标签名称、标签分类等信息。

初始化标签包括：

行为标签、人群标签、涉事类型、敏感节点、涉及地区，以及业务特点标签等。

B.文本与标签关联

用户需要使用鼠标框选相应的文字，并通过菜单中的“标签”功能，弹出窗口后选择适当的标签进行关联，从而完成标注。

在一实施例中，如图6所示，在步骤S40中，即根据元素信息补充结果得到最终标注结果，将最终标注结果存储至数据库中作为样本数据，具体包括：

S41：根据最终标注结果获取对应的实体、属性、关系和标签数据，根据实体、属性、关系和标签数据对最终标注结果归类存储。

具体地，在获取到最终标注结果后，获取每一个标注对应的实体、属性、与其他实体之间的语义关联关系以及对应的标签等类型的数据，按照该类型对该最终标注结果进行分类存储，便于后续机器学习。

S42：接收数据查找指令，根据数据查找指令获取数据库中对应的实体、属性关系和标签数据以及对应标注好的文本数据集并生成查找结果。

具体地，在获取到用户触发的数据查找指令后，从用户触发的数据查找指令中获取具体需要查看的实体、属性关系以及标签等类型后，从该数据库中匹配出对应的查找结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种可视化标注装置，该可视化标注装置与上述实施例中可视化标注方法一一对应。如图7所示，该可视化标注装置包括文本格式调整模块、信息提取模块、标注补充模块、数据存储模块、模型训练模块和模型迭代模块。各功能模块详细说明如下：

文本格式调整模块，用于获取待标注的文本数据集，对文本数据集进行格式预处理得到格式统一的文本数据集；

信息提取模块，用于对格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取信息按照对应的类型进行突出标注得到预处理元素；

标注补充模块，用于将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在文本显示区域使用标注工具对未标注的元素信息进行补充；

数据存储模块，用于根据元素信息补充结果得到最终标注结果，将最终标注结果存储至数据库中作为样本数据；

模型训练模块，用于将样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比机器标注结果和人工标注结果得到标注对比结果；

模型迭代模块，用于根据数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新。

可选的，信息提取模块包括：

特征提取子模块，用于获取特征词库，通过特征词库对格式统一的文本数据集进行特征匹配自动提取基础信息，基础信息包括姓名、电话号码、证件号码、地址和年龄；

补充标注子模块，用于对提取到的基础信息按照对应的类型进行标注，根据标注结果通过人工筛选需要的标注信息；

结果筛选子模块，用于根据人工筛选的结果得到最终的预处理元素。

可选的，特征提取子模块包括：

姓名提取单元，用于从特征词库中获取姓氏词库，根据姓氏词库在格式统一的文本数据集中进行姓氏匹配，根据姓氏匹配的结果语义识别出对应的字词，并和姓氏匹配的结果合并，得到姓名信息；

电话提取单元，用于从特征词库中获取电话号码特征词库，根据电话号码特征词库在格式统一的文本数据集中进行电话号码匹配，根据电话号码匹配结果得到电话号码信息；

证件号码提取单元，用于从特征词库中获取证件号码特征词库，根据证件号码特征词库在格式统一的文本数据集中进行证件号码匹配，根据证件号码匹配结果得到证件号码信息；

地址提取单元，用于从特征词库中获取地址特征词库，根据地址特征词库在格式统一的文本数据集中进行地址匹配，根据地址匹配结果得到地址信息；

年龄提取单元，用于从特征词库中获取年龄特征词库，根据年龄特征词库在格式统一的文本数据集中进行年龄匹配，根据年龄匹配结果得到年龄信息。

可选的，标注补充模块包括：

实体标注子模块，用于通过实体标注工具选择文本数据集中的预处理元素作为实体，根据实体选择对应的实体类型，对不同实体类型采取不同的背景颜色进行标注；

属性标注子模块，用于根据实体标注结果通过属性标注工具对实体标注属性；

关联关系标注子模块，用于实体属性标注好后，通过关系标注工具连线标记实体之间的关系；

标签标注子模块，用于获取预设的标签集合中的预设标签，通过标签标注工具将选中的短语或句子与对应的预设标签相关联；

标注补充子模块，用于通过实体标注工具、属性标注工具、关系标注工具和标签标注工具完成对文本数据集中未标注的元素信息的补充标注。

可选的，数据存储模块包括：

分类存储子模块，用于根据最终标注结果获取对应的实体、属性、关系和标签数据，根据实体、属性、关系和标签数据对最终标注结果归类存储；

查找相应子模块，用于接收数据查找指令，根据数据查找指令获取数据库中对应的实体、属性关系和标签数据以及对应标注好的文本数据集并生成查找结果。

关于可视化标注装置的具体限定可以参见上文中对于可视化标注方法的限定，在此不再赘述。上述可视化标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种可视化标注方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待标注的文本数据集，对文本数据集进行格式预处理得到格式统一的文本数据集；

对格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取信息按照对应的类型进行突出标注得到预处理元素；

将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在文本显示区域使用标注工具对未标注的元素信息进行补充；

根据元素信息补充结果得到最终标注结果，将最终标注结果存储至数据库中作为样本数据；

将样本数据输入至机器训练模型，根据训练结果得到机器标注结果，通过对比机器标注结果和人工标注结果得到标注对比结果；

根据数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种可视化标注方法，其特征在于，所述可视化标注方法包括：

对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取的所述信息按照对应的类型进行突出标注得到预处理元素；

将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充；

根据所述元素信息的补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据；

根据所述数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新；

其中，所述对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取的所述信息按照对应的类型进行突出标注得到预处理元素，具体包括：

根据所述人工筛选的结果得到最终的所述预处理元素；

其中，所述根据所述元素信息补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据，具体包括：

所述获取特征词库，通过所述特征词库对所述格式统一的文本数据集进行特征匹配自动提取基础信息，所述基础信息包括姓名、电话号码、证件号码、地址和年龄，具体包括：

2.根据权利要求1所述的可视化标注方法，其特征在于，所述将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充，具体包括：

根据实体标注结果通过属性标注工具对所述实体标注属性；

3.根据权利要求1所述的可视化标注方法，其特征在于，在所述根据所述最终标注结果获取对应的实体、属性、关系和标签数据，根据所述实体、属性、关系和标签数据对最终标注结果归类存储之后，所述方法还包括：

4.一种可视化标注装置，其特征在于，所述可视化标注装置包括：

信息提取模块，用于对所述格式统一的文本数据集进行标注预处理自动提取基础信息，并对提取的所述信息按照对应的类型进行突出标注得到预处理元素；

标注补充模块，用于将标注预处理完成的文本数据集输出到文本显示区域，通过人工标注在所述文本显示区域使用标注工具对未标注的元素信息进行补充；

数据存储模块，用于根据所述元素信息的补充结果得到最终标注结果，将所述最终标注结果存储至数据库中作为样本数据；

模型迭代模块，用于根据所述数据库中更新的样本数据和标注对比结果对标注预处理模型进行迭代和更新；

其中，所述信息提取模块包括：

特征提取子模块，用于获取特征词库，通过所述特征词库对所述格式统一的文本数据集进行特征匹配自动提取基础信息，所述基础信息包括姓名、电话号码、证件号码、地址和年龄；

补充标注子模块，用于对提取到的所述基础信息按照对应的类型进行标注，根据所述标注结果通过人工筛选需要的标注信息；

结果筛选子模块，用于根据所述人工筛选的结果得到最终的所述预处理元素；

其中，上述数据存储模块包括：

所述特征提取子模块包括：

姓名提取单元，用于从所述特征词库中获取姓氏词库，根据所述姓氏词库在所述格式统一的文本数据集中进行姓氏匹配，根据所述姓氏匹配的结果语义识别出对应的字词，并和所述姓氏匹配的结果合并，得到姓名信息；

电话提取单元，用于从所述特征词库中获取电话号码特征词库，根据所述电话号码特征词库在所述格式统一的文本数据集中进行电话号码匹配，根据所述电话号码匹配结果得到电话号码信息；

证件号码提取单元，用于从所述特征词库中获取证件号码特征词库，根据所述证件号码特征词库在所述格式统一的文本数据集中进行证件号码匹配，根据所述证件号码匹配结果得到证件号码信息；

地址提取单元，用于从所述特征词库中获取地址特征词库，根据所述地址特征词库在所述格式统一的文本数据集中进行地址匹配，根据所述地址匹配结果得到地址信息；

年龄提取单元，用于从所述特征词库中获取年龄特征词库，根据所述年龄特征词库在所述格式统一的文本数据集中进行年龄匹配，根据所述年龄匹配结果得到年龄信息。

5.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述可视化标注方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述可视化标注方法的步骤。