CN113849657A

CN113849657A - 一种智慧监管黑匣子的结构化资料处理方法

Info

Publication number: CN113849657A
Application number: CN202110922294.3A
Authority: CN
Inventors: 唐海江; 王海龙; 袁宇豪
Original assignee: Hangzhou Yunjia Health Management Co ltd
Current assignee: Hangzhou Yunjia Health Management Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-28

Abstract

本发明公开了一种智慧监管黑匣子的结构化资料处理方法。为了克服现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题；本发明包括：节点数据采集、数据清洗、文本特征向量化、关键实体识别、实体链接、知识对齐和知识过滤、知识图谱和实施训练过程。本方案通过一站式数据汇集、关键实体识别、实体链接和数据存储等技术，解决了多数据源、多数据类型、多数据形态的结构化存储。

Description

一种智慧监管黑匣子的结构化资料处理方法

技术领域

本发明涉及一种医数据处理领域，尤其涉及一种智慧监管黑匣子的结构化资料处理方法。

背景技术

知识图谱是通过图的方式，建立基于文本到对象，对象到属性的表示关系和推理关系，是自然语言处理的重要任务，并在医疗建模、智能客服等方面有了广泛的应用。知识图谱在搜集数据、定义模型和存储方式要求均较高，其不仅需要大量和给定业务领域相关的文本，还要求文本中存有广泛可用的关键信息和对应的属性值，其模型建模和存储方式也具备硬件资源的挑战性。

近年来，随着机器学习的广泛参与，以中文建模为限，在知识图谱相关技术栈中诞生了多样的模型，以Bert簇模型建立文本的向量表示，通过融合字词信息进行命名实体识别建模，以远程监督方式和注意力机制的分类模型进行实体链接和关系抽取，通过双放射机制进行句法分析中的源位置和弧标签确定。最后以neo4j为代表的图数据库进行数据的存储和检索。

例如，一种在中国专利文献上公开的“基于多数据源的医学知识图谱融合方法及装置”，其公告号CN110866124A，方法包括：分别基于第一医学知识图谱和第二医学知识图谱进行知识表示学习，获取各第一初始向量和各第二初始向量；基于预先获取的参考向量集，将各第一初始向量和各第二初始向量映射到参考向量空间中，获取各第一映射向量和各第二映射向量；根据各第一映射向量和各第二映射向量，对第一医学知识图谱和第二医学知识图谱中的知识进行融合，获取融合后的医学知识图谱。

上述方案的缺陷如下：

1)以规则方式的实体抽取局限性高

现有技术抽取实体和关键词具有高度的局限性，其只能识别较通用型的文本片段和实体，如名字、机构等，而对于大部分的行业，这些模型并不具备适用性。因此，这类任务常以人为定义的规则或使用关键词匹配来进行实体抽取，这种方式人力成本大，可迁移性差，且不能进行持续的学习能力，以适用与新实体的发现。

2)数据收集方式单一

对于可持续融合的知识图谱，其应适应多源多类型的数据输入，现有工程一般需根据数据源进行单独的功能开发和嵌入。除此之外，现有的建模方式难以支持以流式进行文本输入和知识库检索或融合。

3)底层建模不具备统计知识发掘

现有模型对不同源头的数据输入不具备持续的知识发掘和知识对齐，即不同的原字段所表示的量化特征对应的可能是同一意思，如果直接进行模型训练，会加深模型的混淆度。同时，对于未出现在现有模型或图谱中的实体、关系等知识应根据某种方式进行识别。

4)不具备主题簇分割

现有技术通过挖掘实体和关系后一般对全图数据库进行***或推理，而相同的文本片段在不同的上下文中很可能有不同的含义，因此，这样的推理很容易引入噪音，造成图谱的混乱。

发明内容

本发明主要解决现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题；提供一种智慧监管黑匣子的结构化资料处理方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种智慧监管黑匣子的结构化资料处理方法，包括以下步骤：

S1：节点数据采集；开放标准接口以原始文本为传入数据，并自动赋予节点唯一标签；

S2：数据清洗；通过预设的清洗规则，去除具有结构规则的无关字符；

S3：将输入文本以字、词、句、标签特征以及各单位的统计特征维度进行句子向量化；

S4：关键实体识别；将各节点采集的文本数据通过预先训练好的实体提取模型识别，输出该条文本数据中包含的所有关键实体及其业务属性字段；

S5：实体链接，将步骤S4中识别的实体通过语义识别提取实体间的关系；

S6：收集从步骤S5中实体链接产生的所有关系结果，进行知识对齐和知识过滤；

S7：知识图谱；在获取到实体及其对应的关系后，将所有数据节点被识别到的新的关系存入图数据库中，并开放接口进行检索和查询；

S8：实施训练；定时采集知识过滤后的结果，并进行关键实体识别和实体链接的神经网络的再训练和调优。

本方案通过丰富的自然语言技术栈，设计丰富的要素抽取和实体链接算法进行智能的结构化数据存储，既能动态获取节点数据的关键实体，又能识别实体间的行为关系，从而实现结构化的数据归集。

作为优选，通过键值json方式传入指定数据，键名将以属性附带解析数据以节点方式存入图数据库。解决多数据类型问题。

作为优选，所述的步骤S3中，输入文本首先通过分词分字算法进行分割，然后通过预训练的向量库进行各单位的向量映射；对于统计特征，***以one-hot、Embedding或绝对数的方式进行表示；统计特征包括历史出现频数、词干、所在句子的索引位置、拼接前后单位后历史是否出现、字词属性和该单位在当前词的位置，词开头以“0”表示，词中以“1”表示，词结尾以“2”表示。该文本通过特征量化，获取到每个分割单位的高维向量，且每个单位的每个特征均以拼接方式形成最后的向量表示。

作为优选，所述的实体提取模型使用神经网络进行建模，以字特征、词特征、索引位置、该单位在当前词的位置四项特征融合，通过一层双向长短记忆模型，并结合自注意力机制，采用全路径条件随机场进行结果解码，输出句子中所有潜在的关键实体和对应的业务属性。

文本的建模一般以字或者词为单位，通过将其构造成一些特征再进行量化，可实现以数学化方式进行文本信息的表达。以人为定义规则方式进行业务的实体识别具备高度的局限性，不仅只能识别特定已定义的规则以内的实体，不能识别新出现的实体，还需大量人力成本维护这些规则词典。因此本方案采取实体提取模型的方式进行自动提取，通过预先训练的实体提取模型，并通过***实时学习模块进行调优。

作为优选，所述的语义识别包括预设关系链接、已有图谱检索、远程监督关系连接和已存句法树；

预设关系链接：

通过将提取的实体进行归类到预定义好的关系集，从而识别实体间的关系；采用神经网络进行提取，获取字、词向量，融入抽取到的每对实体的索引位置、标签特征，采用卷积神经网络和仿射注意机制层，输出每对实体的关系；

已有图谱检索：

对于提取到的实体对，若能直接在已有的图谱数据库找到相应的关系，则直接输出；否则采用其他的方法；

远程监督关系连接：

由一个通用中文的知识图谱进行发掘每对实体的新关系，如果该对实体在图谱中能够找到链接关系，输出其关系，并存入最终的数据库；

已存句法树：

通过识别文本每个字词语法属性，分析句子各个语言单位之间的语义关联，将语义关联以依存结构呈现。

通过识别数据源的关键实体信息和潜在关系进行统一的数据存储和检索，提取过程智能，提取结果丰富。

作为优选，所述的步骤S6包括以下步骤：

S601：知识对齐；

通过相似度的方式，用于融合预设关系链接、远程监督关系链接、依存句法树三个子模块产生的关系，产生统一的关系表示；

S602：知识过滤；

对提取到的关系进行统计，以统计指标和置信度测试排除低频关系。

稳定模型识别效果，用于优化***的自学习。

作为优选，还包括主题建模；对搜集的节点文本数据进行无监督的主题发掘后，为每个输入的数据进行主题标记，并在数据库存取时，依据相应主题进行相关的操作。

一般不同源节点搜集的数据具有潜在的主题，如公司日常报告和药品生产报告两个方面的节点数据就具备不同的先验信息，因此在提取关系或通过知识图谱进行检索预测时也需要带有这种信息。

作为优选，所述的关键实体识别的训练输入数据包括文本和实***置和对应标签；实体链接的训练输入数据包括实***置和对应标签和关系标签。

对知识过滤后的结果，***将定时采集，并进行关键实体识别和实体链接的神经网络的再训练和调优，因为通过知识过滤后的数据是干净且带有标签的，可直接用于自学习过程。

本发明的有益效果是：

1.通过一站式数据汇集、关键实体识别、实体链接和数据存储等技术，解决了多数据源、多数据类型、多数据形态的结构化存储。

2.通过识别数据源的关键实体信息和潜在关系进行统一的数据存储和检索，提取过程智能，提取结果丰富。

3.基于多维度的关系提取、知识发掘和关系过滤，持续学习提取模型，增强关系识别能力。

附图说明

图1是本发明的结构化资料处理方法流程图。

图2是本发明的依存句法树的输出结果示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本实施例的一种智慧监管黑匣子的结构化资料处理方法，如图1所示，包括以下步骤：

S1：节点数据采集；开放标准接口以原始文本为传入数据，并自动赋予节点唯一标签。

为解决多数据类型问题，通过键值json方式传入指定数据，键名将以属性附带解析数据以节点方式存入图数据库。

通过赋予节点唯一标签，并在后续处理以该节点为父节点，进行子节点的建立和扩展，最终实现每个节点的属性可溯源，从而在检索时，可将该节点的原始数据和解析后的数据进行匹配和输出。

例如，其中″raw_text″为必填信息，用于接受原始文本，″attributes″为额外属性，可自由传入，不受长度和键名的限制，实现了可用即可传。

″raw_text″：

″《合同法》第二百零一条贷款人未按照约定的日期、数额提供借款，造成借款人损失的，应当赔偿损失。″；

″attributes″：

″pic″：″/path/to/pic″，

″desc″：″《合同法》的图片″，

″timestamp″：″1625456251″，

″type″：″设备1″。

S2：数据清洗；通过预设的清洗规则，去除具有结构规则的无关字符。

开放多种预设的清洗规则，也开放自定义的清洗规则，清洗对象为节点的文本数据，清洗的目的是去除具有结构规则的无关字符，用于输出较为规则的数据进行展示，同时可提升后续模型的精度和效果。

例如，通过预设的去除网页标签的方式抽取主要文本内容，对于文本“＜spanstyle＝″box-sizing：inherit″data-from-paste＝″1″data-diagnose-id＝″6397640c946911be0a8e7b56f23b458d″>虽然迄今由于美国政府的错误政策导致中美关系仍处于紧张状态，但中美在部分领域已经传出了好消息，比如双方在经贸领域已经多次进行了通话。</span>”通过预设规则可提取到“虽然迄今由于美国政府的错误政策导致中美关系仍处于紧张状态，但中美在部分领域已经传出了好消息，比如双方在经贸领域已经多次进行了通话。”的主要新闻内容，并依此进行后续输入。

S3：将输入文本以字、词、句、标签特征以及各单位的统计特征维度进行句子向量化。

为了更好的适应多源、多类型、多形态数据，首先对文本进行了向量化，该模块将输入文本所有指定的特征计算出来，方便后续模型进行取舍。

输入文本首先通过分词分字算法进行分割，然后通过预训练的向量库进行各单位的向量映射。对于统计特征，***以one-hot、Embedding或绝对数的方式进行表示。

统计特征包括历史出现频数、词干、所在句子的索引位置、拼接前后单位后历史是否出现、字词属性和该单位在当前词的位置，词开头以“0”表示，词中以“1”表示，词结尾以“2”表示。如表1所示，总结各特征的量化方式。

表1.各特征的量化方式

通过该步骤文本将获取丰富的高维度表示，例如对于文本“今天杭州的天气如何”通过分字分句后可以得到分割后的文本，“今/天/杭/州/的/天/气/如/何/今天/杭州/的/天气/如何”该文本通过特征量化，获取到每个分割单位的高维向量，且每个单位的每个特征均以拼接方式形成最后的向量表示。

如对于第一个分割单位“今”，选用字特征、索引位置、拼接前后单位后历史是否出现、该单位在当前词的位置、字词属性，可以获取到100+1+1+1+21维的向量表示。

自此，通过以上步骤，对训练数据进行编码，我们可获取到每句话的向量化的初级表示。

S4：关键实体识别；将各节点采集的文本数据通过预先训练好的实体提取模型识别，输出该条文本数据中包含的所有关键实体及其业务属性字段。

通过数据清洗后，***会收集到每个采集点的文本数据，可以进行下游模型的训练和预测。关键实体识别的输入是一条文本数据，而输出是该条文本中包含的所有关键业务属性字段。

业务属性由***业务预先定义后，交由模型识别，除此之外，开放热词功能，用于快速增删未定义类别以达到识别效果。

文本的建模一般以字或者词为单位，通过将其构造成一些特征再进行量化，可实现以数学化方式进行文本信息的表达。

以人为定义规则方式进行业务的实体识别具备高度的局限性，不仅只能识别特定已定义的规则以内的实体，不能识别新出现的实体，还需大量人力成本维护这些规则词典。本实施例的方案采取实体提取模型的方式进行自动提取，通过预先训练的实体提取模型，并通过***实时学习模块进行调优。

在本实施例中，通过业务属性识别，识别文本中是否出现药企名称、药品名字、时间等等关键实体。

实体提取模型使用神经网络进行建模，以字特征、词特征、索引位置、该单位在当前词的位置四项特征融合，融合的方式采用四项特征的向量拼接，再通过一层前向网络，目的在于间接给予各特征权重，输出一个固定长度的特征向量，如四项特征的维度分别为100、300、1、1，拼接后的向量维度为402，前向网络输出维度为256。最后将融合后的向量通过一层双向长短记忆模型，采用全路径条件随机场进行结果解码，输出句子中所有潜在的关键实体和对应的业务属性。

例如，对于以下句子“近期，国家药品监督管理局组织对广州爱芯达电子有限公司进行了飞行检查，企业批号20200620的医用红外体温计生产记录无签字，不符合《规范》中每批(台)产品均应当有生产记录。”模型将输出以下结果

{″value″：″广州爱芯达电子有限公司″，

″entity″：″ORG″，

″start″：″15″，

″end″：″26″}；

{″value″：″20200620″，

″entity″：″CNUM″，

″start″：″38″，

″end″：″46″}；

{″value″：″医用红外体温计″，

″entity″：″CPROD″，

″start″：″47″，

″end″：″54″}；

{″value″：″《规范》″，

″entity″：″LAW″，

″start″：″65″，

″end″：″69″}。

S5：实体链接，将步骤S4中识别的实体通过语义识别提取实体间的关系。

通过业务属性的提取，获取到文本中每个节点的关键信息，而实体链接则是运用语意理解能力提取实体间的行为关系，如提取哪个企业在何时生产了何种药品。

实体链接是一种分类任务，通过将每对提取的实体进行归类到预定义好的关系集，从而识别他们的关系。然后，一般领域中存在大量的关系，不易一次性进行收集和定义，因此***在预设定关系外，也采用了已有图谱检索、远程监督、依存句法树的方式进行潜在新关系的发掘。

预设关系链接：

通过将提取的实体进行归类到预定义好的关系集，从而识别实体间的关系。

通过领域内的专业意见，支持企业-时间、企业-药品、药品-成分、文献-事件等关系簇的提取，每个簇又包含多种子关系，如企业-时间包含企业建立时间、企业生产时间、企业行为时间等。

采用神经网络进行提取，获取字、词向量，融入抽取到的每对实体的索引位置、标签特征，其中特征的融入方式同S4中实体识别的方式一致，即拼接向量再输入到一层前向网络，输出固定长度的融合后的特征向量，最后采用卷积神经网络和仿射注意机制层，拟合特征向量到分类模型参数，输出每对实体的关系。

已有图谱检索：

对于提取到的实体对，若能直接在已有的图谱数据库找到相应的关系，则直接输出；否则采用其他的方法。

远程监督关系连接：

该模块尝试发掘每对实体的新关系，由一个通用中文的知识图谱进行发掘每对实体的新关系，如果该对实体在图谱中能够找到链接关系，输出其关系，并存入最终的数据库；

已存句法树：

依存句法树是通过识别文本每个字词语法属性，如主语、谓语等，形成语言单位，并分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。该模块代表了***直接从句法构造上进行新关系的提取能力，丰富了实体的链接关系和能力。使用依存句法数主要分析文本中主语与宾语的施事、受事、时间和地点等关系。

如图2所示，表示了依存句法树的输出结果，可以从结果中识别到主语为“我”，宾语为“玉米汤”，谓语为”喝“，因此可以建立出了主谓宾的关系，除此之外，也提取到了”我-餐厅-喝汤“，”我-勺子-喝汤“等丰富的次要关系。

S6：收集从步骤S5中实体链接产生的所有关系结果，进行知识对齐和知识过滤，用于优化***的自学习。

S601：知识对齐；

通过相似度的方式，用于融合预设关系链接、远程监督关系链接、依存句法树三个子模块产生的关系，产生统一的关系表示；如生产药品、生产出了药品是同一种表示，将统一以生产药品进行对齐；其中，相似度的建模以逻辑回归模型进行，对预设关系链接和远程监督关系链接子模块提取到的关系合并，分别计算输入文本和实体、输入文本和关系的字和词级的重叠量以及对应的重叠率，重叠量的计算满足后者出现在前者则加1，重叠率的计算满足重叠量除以二者的并集，这样会得到8个数值特征，通过计算依存句法树产生的关系数量得到1个数值特征，通过逻辑回归模型对这9个特征进行建模和预测是否为同一表示；如输入句子为“A公司于今年年初首批进行了相关药物的生产试验”，分词后为“A公司/于/今年年初/首批/进行/了/相关/药品/的/生产试验”预设关系链接输出关系为“生产药品”，远程监督关系链接输出关系为“生产出了药品”，实体为“公司”、“药品”，输入文本和实体的字级特征为[4，0.174]，词级特征为[1，0.091]，合并关系并分词为[“生产”，“药品”，“生产”，“出”，“了”，“药品”]，输入文本和关系的字级特征为[5，0.2]，词级特征为[3，0.25]，依存句法树输出的关系数为1，最后获取到的特征为[4，0.174，1，0.091，5，0.2，3，0.25，1]，逻辑回归根据这9个特征预测进行二分类输出是否为同一特征。

S602：知识过滤；

对提取到的关系进行统计，以统计指标和置信度测试排除低频关系。为稳定模型的识别效果，需要对低频关系进行过滤。其中统计指标选择频数区间的卡方检验，对提取到的关系进行区间分组后，统计组中关系的频数和，使用卡方检验进行区间数下的频数置信度检验，给定置信水平p＝0.05，若低频区间的置信度高于置信水平，则拒绝该低频区间作用显著的假设，排除区间内的所有关系。

主体建模；

通过对搜集的节点文本数据进行无监督的主题发掘后，为每个输入的数据进行主题标记，并在数据库存取时，依据相应主题进行相关的操作。

S7：知识图谱；在获取到实体及其对应的关系后，将所有数据节点被识别到的新的关系存入图数据库中，并开放接口进行检索和查询。

通过知识过滤后的数据是干净且带有标签的，可直接用于自学习过程。

关键实体识别的训练输入数据包括文本和实***置和对应标签。实体链接的训练输入数据包括实***置和对应标签和关系标签。

本方案提供一站式数据汇集、关键实体识别、实体链接、数据存储等技术，解决了多数据源、多数据类型、多数据形态的结构化存储问题。通过识别数据源的关键实体信息和潜在关系进行统一的数据存储和检索，提取过程智能，提取结果丰富；基于多维度的关系提取、知识发掘和关系过滤，持续学习提取模型，增强关系识别能力。

一般的数据归集以原始数据存放，或者采用成本较大的人工标记、规则标记进行简单的数据关系抽取，造成存放方式混乱，检索难度大，难以具备迁移性和实用性。本实施例方案的数据归集***通过丰富的自然语言技术栈，设计丰富的要素抽取和实体链接算法进行智能的结构化数据存储，既能动态获取节点数据的关键实体，又能识别实体间的行为关系，从而实现结构化的数据归集。

一般的关键实体识别和关系抽取需要大量的数据进行模型训练，成本较大。本实施例的方案通过设计主题建模、预训练模型、丰富的文本特征、远程监督和持续学习能力，支持***冷启动使用，且具备良好的关系提取效果，***通过多维度能力进行已有实体链接识别、新关系发掘，从而支撑多种关系的存储。

一般的实体链接模型难以排除无关关系，从而造成提取结果冗杂。本实施例的方案通过主题建模、相似度模型和统计置信手段，对提取的关系进行对齐和过滤，从而有助于模型的自学习优化和知识图谱的整洁。

一般的知识图谱构建需对全库进行***更新和推理，本实施例的方案通过主题建模，强化实体链接关系和数据采集节点的背景信息关系，从而在图谱中实现多样化的表达。

应理解，实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种智慧监管黑匣子的结构化资料处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，通过键值json方式传入指定数据，键名将以属性附带解析数据以节点方式存入图数据库。

3.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，所述的步骤S3中，输入文本首先通过分词分字算法进行分割，然后通过预训练的向量库进行各单位的向量映射；对于统计特征，***以 one-hot、Embedding或绝对数的方式进行表示；

统计特征包括历史出现频数、词干、所在句子的索引位置、拼接前后单位后历史是否出现、字词属性和该单位在当前词的位置，词开头以“0”表示，词中以“1”表示，词结尾以“2”表示。

4.根据权利要求1或3所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，所述的实体提取模型使用神经网络进行建模，以字特征、词特征、索引位置、该单位在当前词的位置四项特征融合，通过一层双向长短记忆模型，并结合自注意力机制，采用全路径条件随机场进行结果解码，输出句子中所有潜在的关键实体和对应的业务属性。

5.根据权利要求1或3所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，所述的语义识别包括预设关系链接、已有图谱检索、远程监督关系连接和已存句法树；

预设关系链接：

已有图谱检索：

远程监督关系连接：

已存句法树：

6.根据权利要求5所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，所述的步骤S6包括以下步骤：

S601：知识对齐；

S602：知识过滤；

7.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，还包括主题建模；对搜集的节点文本数据进行无监督的主题发掘后，为每个输入的数据进行主题标记，并在数据库存取时，依据相应主题进行相关的操作。

8.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法，其特征在于，所述的关键实体识别的训练输入数据包括文本和实***置和对应标签；实体链接的训练输入数据包括实***置和对应标签和关系标签。