CN113642336A

CN113642336A - 一种基于SaaS的保险自动问答方法及***

Info

Publication number: CN113642336A
Application number: CN202110997831.0A
Authority: CN
Inventors: 王晶
Original assignee: Qingdao Quanshopkeeper Technology Co ltd
Current assignee: Qingdao Quanshopkeeper Technology Co ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-12
Anticipated expiration: 2041-08-27
Also published as: CN113642336B

Abstract

本发明提出一种基于SaaS的保险自动问答方法及***，所述方法包括以下步骤：(1)输入问句Question；(2)共享特征抽取；(3)实体识别；(4)实体关系抽取；(5)语料库选择；(6)生成答案Answer。本发明提出的基于SaaS的保险自动问答方法及***，不仅满足了保险中介平台自身对对话***的需求，还为缺乏IT能力的小型保险中介和个人搭建自己的对话***，提供了技术解决方案，实现共赢，具有十分重要的使用价值。

Description

一种基于SaaS的保险自动问答方法及***

技术领域

本发明属于自然语言处理领域，具体涉及一种基于SaaS的保险自动问答方法及***。

背景技术

问答***(Question Answering System,QAS)是信息检索***的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题，其研究兴起的主因是人们对快速、准确地获取信息的需求。保险中介是指介于保险经营机构之间或保险经营机构与投保人之间，专门从事保险业务咨询与销售、风险管理与安排、价值衡量与评估、损失鉴定与理算等中介服务活动，并从中依法获取佣金或手续费的单位或个人。移动互联网的发展，使微信、微博、QQ成了保险知识传播的媒介，越来越多的知识涌入各个平台。保险代理人对保险知识和保险条款的理解良莠不齐，规模较小的保险中介没有能力开发成熟的IT***，而大型保险中介对保险信息的收集、清洗、校正、整合是专业的，有能力对输出IT能力。

目前保险代理平台的问答***通常以离线客服的形式，只为本平台的APP、微信公众号等服务。鉴于问答***对研发人员要求高，研发投入大，对于有问答***需求的小型中介，只能向大型保险机构购买相关服务。SaaS(Software-as-a-Service)平台是运营SaaS软件的平台。SaaS提供商为企业搭建信息化所需要的所有网络基础设施及软件、硬件运作平台，并负责所有前期的实施、后期的维护等一系列服务，企业无需购买软硬件、建设机房、招聘IT人员，即可通过互联网使用信息***。

有鉴于此，本发明提出了一种基于SaaS平台的保险自动问答方法及***，以解决上述问题。

发明内容

本发明的目的是：为了解决现有技术存在的问题，本发明提出了一种基于SaaS平台的保险自动问答方法及***，不仅能满足大型保险中介自身对问答***的需求，还可以将问答***输出给小型中介平台，不但减少了小型中介的IT成本，也可以提高大型保险中介的收入，互利共赢。

为了解决上述问题，本发明所采用的技术方案是：一种基于SaaS的保险自动问答方法，应用于保险自动问答***，所述方法依次包括如下步骤：

(1)输入问句Question；

(2)共享特征抽取：使用基于Bert方式构建共享特征抽取模块，得到共享特征抽取模型Bert；

(3)实体识别：将Question输入共享特征抽取模型Bert，经过Softmax层，识别其中的实体，并用相应的label表示；

(4)实体关系抽取：在Question经过实体识别模块获取实体后，通过关系分类模块输出实体之间的关系；

(5)语料库选择：将[CLS]和Question问句输入共享特征抽取模块Bert，经过特征提取、关系融合，获得[CLS]和Question问句的特征矩阵，其中[CLS]表示句子的开始，将[CLS]对应的向量作为Question的特征向量，该特征向量的维度是128，经过Softmax层构建分类模型，问句通过分类模型后，给出该问句属于私有语料库、公有语料库、专业语料库、推荐语料库的概率值，选择最大概率值的语料库作为生成Answer的语料库；

(6)生成答案Answer：根据已建立的answer模板数据库，通过将实体识别模块和实体关系抽取模块提取的实体和实体关系，映射到模板，最终生成相应的answer返回给***，输出答案Answer。

进一步的，所述步骤(1)具体包括：用户通过微信公众号、微博或QQ聊天工具的输入框输入问句，通过后台***上传到问答***，等待获取答案Answer。

进一步的，所述步骤(2)包括：

(2.1)通过保险关键词爬虫收集百度、微博、微信公众号的保险领域相关资料及保险强相关的网站数据，不限于新闻、聊天、保险条款、疾病；

(2.2)将(2.1)获取的保险资料去掉无效数据，按标点符号为分隔符，按行存储到txt格式文件中；

(2.3)将(2.2)生成的txt文本输入到共享特征抽取模型Bert中，经训练得到保险领域的词向量模型，并保存成h5格式，用户输入***的保险问句被转化为64行*128列的矩阵，其中行表示句子的最大长度为64，列表示每个字由128维的向量表示。

进一步的，所述步骤(3)包括：

(3.1)识别出实体词边界，基于BertForTokenClassification的命名实体识别方法属于有监督的学习方法，利用规则标注的大规模语料对BertForTokenClassification模型的参数进行训练，得到实体识别模块的预训练模型，Question通过实体识别模块，得到问句中各个实体的开始位置和结束位置；

(3.2)识别出实体的类型，根据实体的开始和结束位置，将实体组组合并将其转为保险名称、年龄、性别、疾病、犹豫期、金额这些具体实体类型。

进一步的，所述步骤(4)包括：

(4.1)将Question输入共享特征抽取模块Bert，得到表示Question64*128的特征矩阵，将矩阵输入RE Module实体关系抽取模块，输入Fully Connected全连接神经网络；

(4.2)实体识别模块的输出，经过转换得到一个跟输入序列长度相同的，转化为固定维度的序列，拼接得到的向量分别通过一个Feed Forward前馈神经网络层，通过一个Biaffine分类器，预测出实体之间的关系；Biaffine分类器的实际表示如下：

其中，

表示实体h_j和实体h_k之间的关系概率；

和

分别表示实体h_j和h_k的向量；

表示x₁接受x₂依赖的概率；U是维度为m*d*d的仿射变换，m是输入问句的长度，d是输入向量的维度；W(x₁||x₂)表示x₁和x₂的拼接转换向量，b表示偏置向量。

进一步的，所述步骤(6)包括：

(6.1)租户通过后台***上传关注的保险知识，以Question|Answer存储到csv中，通过后台上传csv，并解析csv中的Question、Answer构建自身的私有语料库；

(6.2)SaaS***开发平台利用自己的技术优势，经过抓取、清洗、提取、人工审核步骤，建立公有语料库及专业语料库，租户按需在后台配置是否启用相应的语料库；***统计某一时间段最热门或者租户配置的引导问题构成推荐语料库；

(6.3)根据已建立的answer模板数据库，通过将实体识别模块和实体关系抽取模块提取的实体和实体关系，映射到模板，最终生成相应的answer返回给租户接入的***，完成问答流程。

本发明还提供一种基于SaaS的保险自动问答***，采用如上所述的基于SaaS的保险自动问答方法，其特征在于，包括：

输入模块，用于输入问句Question；

共享特征抽取模块，用于使用基于Bert方式构建共享特征抽取模块，得到共享特征抽取模型Bert；

实体识别模块，用于将Question输入共享特征抽取模型Bert，经过Softmax层，识别其中的实体，并用相应的label表示；

实体关系抽取模块，用于在Question经过实体识别模块获取实体后，通过关系分类模块输出实体之间的关系；

语料库选择模块，用于将[CLS]和Question问句输入共享特征抽取模块Bert，经过特征提取、关系融合，获得[CLS]和Question问句的特征矩阵，其中[CLS]表示句子的开始，将[CLS]对应的向量作为Question的特征向量，该特征向量的维度是128，经过Softmax层构建分类模型，问句通过分类模型后，给出该问句属于私有语料库、公有语料库、专业语料库、推荐语料库的概率值，选择最大概率值的语料库作为生成Answer的语料库；

输出模块，用于根据建立的answer模板数据库，通过将实体识别模块和实体关系抽取模块提取的实体和实体关系，映射到模板，最终生成相应的answer返回给***，输出答案Answer。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明提出的基于SaaS的保险自动问答方法及***，不仅满足了保险中介平台自身对对话***的需求，还为缺乏IT能力的小型保险中介和个人搭建自己的对话***，提供了技术解决方案，实现共赢，具有十分重要的使用价值。

本发明提出的基于SaaS的保险自动问答方法及***，租户可以将属于自己的信息输入SaaS平台，建立自己的私有语料库，租户通过接口的形式将问答***接入自己的公众号、APP，以较低的成本实现问答***。SaaS平台可以利用自己的技术优势，实现公开保险知识的收集、清洗、提取、保存，构建SaaS平台的公有语料库，为所有租户提供可选服务。对保险条款等自动提取知识难度高的，SaaS平台可以利用IT和AI的能力，构建保险知识的专业语料库，通过收费，提供服务。如此，SaaS平台集租户私有语料库、平台公有语料库及专业语料库于一体，大大提高了技术输出能力，租户则不仅能使用私有语料库，更可以便利的使用平台公有语料库和专业语料库。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例公开的基于SaaS的保险自动问答方法的流程图。

图2为本发明实施例公开的基于SaaS的保险自动问答方法的数据处理的流程图。

图3为本发明实施例公开的共享特征抽取模型Bert。

图4为本发明实施例公开的实体识别模块。

图5为本发明实施例公开的实体关系抽取模块。

图6为本发明实施例公开的语料库选择模块。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例公开的一种基于SaaS的保险自动问答方法，其中步骤依次包括步骤：(1)输入问句Question；(2)共享特征抽取；(3)实体识别；(4)实体关系抽取；(5)语料库选择；(6)生成答案Answer。下面对每个步骤进行详细说明。

1.输入问句Question。用户通过微信公众号、微博、QQ等聊天工具的输入框输入问句，通过后台***上传到问答***，等待获取答案Answer。

2.共享特征抽取。自然语言处理任务中都避免不了使用词的表示，词的表示有很多种，该模块主要使用基于Bert方式构建共享特征抽取模型表达词向量。本步骤进一步包括：

2.1通过保险关键词爬虫收集百度、微博、微信公众号等保险领域相关资料及保险强相关的网站数据(共10G文本)，不限于新闻、聊天、保险条款、疾病等。

2.2将2.1获取的保险资料去掉无效数据(例如js代码、html标签、广告文本等)，按点号(顿号、逗号、冒号、分号、句号、问号、感叹号)为分隔符，按行存储到txt格式文件中。

2.3将2.2生成的txt文本输入到共享特征抽取模型Bert(图3)中，经训练得到保险领域的词向量模型，并保存成h5格式。用户输入***的保险问句被转化为64行*128列的矩阵，其中行表示句子的最大长度为64，列表示每个字由128维的向量表示。

3.实体识别。在自然语言处理领域，实体通常指的是人名、地名、机构名，在保险问答***中，我们会关心保险名称、年龄、性别、疾病、犹豫期、金额等实体。实体识别分为：

3.1识别出实体词边界。基于BertForTokenClassification的命名实体识别方法属于有监督的学习方法，需要利用规则标注的大规模语料对BertForTokenClassification模型的参数进行训练，得到实体识别模块的预训练模型。Question通过图4实体识别模块，得到问句中各个实体的开始位置和结束位置。

3.2识别出实体的类型。根据实体的开始和结束位置，将实体组组合并将其转为保险名称、年龄、性别、疾病、犹豫期、金额等具体实体类型。

4.实体关系抽取。实体关系抽取分以下步骤：

4.1将Question输入共享特征抽取模块Bert，得到表示Question64*128的特征矩阵，将矩阵输入图5右边的RE Module(关系抽取)，输入Fully Connected全连接神经网络。

4.2实体识别模块的输出，经过转换得到一个跟输入序列长度相同的，转化为固定维度的序列。拼接得到的向量分别通过一个Feed Forward(前馈神经网络)层，通过一个Biaffine分类器，预测出实体之间的关系。Biaffine分类器的实际表示如下：

其中，

表示实体h_j和实体h_k之间的关系概率；

和

分别表示实体h_j和h_k的向量；

表示x₁接受x₂依赖的概率；U是维度为m*d*d的仿射变换(m是输入问句的长度，d是输入向量的维度)；W(x₁||x₂)表示x₁和x₂的拼接转换向量，b表示偏置向量。

5.语料库选择。将Question将[CLS]和Question问句输入图3共享特征抽取模块Bert，经过特征提取、关系融合，可以获得[CLS]和Question问句的特征矩阵，其中[CLS]表示句子的开始，将[CLS]对应的向量作为Question的特征向量，该特征向量的维度是128，经过Softmax层构建分类模型，问句通过分类模型后，给出该问句属于私有语料库、公有语料库、专业语料库、推荐语料库的概率值，选择最大概率值得语料库作为生成Answer的语料库。

6.Answer生成。Answer生成分为以下步骤：

6.1租户通过后台***上传关注的保险知识，以Question|Answer存储到csv中，通过后台上传csv，并解析csv中的Question、Answer，构建自身的私有语料库；

6.2SaaS***开发平台利用自己的技术优势，经过抓取、清洗、提取、人工审核等步骤，建立公有语料库及专业语料库，租户可以按需在后台配置是否启用相应的语料库；***统计某一时间段最热门或者租户配置的引导问题构成推荐语料库。

6.3建立answer模板，本模块存储了大量answer模板(例如，得了{高血压}能投保{重疾险}吗？高血压和重疾险是两个实体，实体之间的关系是投保)，通过将实体识别模块和实体关系抽取模块提取的实体和实体关系，映射到模板，最终生成相应的answer返回给租户接入的***，完成问答流程。

本发明提出的基于SaaS的保险自动问答***，不仅满足了保险中介平台自身对对话***的需求，还为缺乏IT能力的小型保险中介和个人搭建自己的对话***，提供了技术解决方案，实现共赢，具有十分重要的使用价值。

图2是整个数据处理的流程图，用户提出Question，通过模型融合，分析Question中的实体及实体间的关系，经过图6语料库选择模块进入相应的语料库生成Answer，返给用户，完成回答。

图3中，Text Input是***问句的输入，[CLS]表示句子的开始，MASK表示将句子中的某些字或词掩盖，用于预训练模型；Embedding表示嵌入层，分表将输入字的位置信息、字信息、句信息相加，输入到Encoder编码中；Mix Model表示混合编码层，由12层self-attention(自编码)构成；Word Vector表示每个输入的字都可以用一个128维的向量表示，而整个句子可以被表示维64*128的矩阵。

图4实体识别模块是将Question输入图3共享特征抽取模型Bert，经过Softmax层，识别其中的实体(保险产品名称、疾病、年龄、地区等)，并用相应的label表示，例如B-Loc表示地区实体的开始，I-Loc表示该实体的后续，O表示该字不是实体类。

图5实体关系抽取模块是在Question经过图4的实体识别模块获取实体后，通过REModule(关系分类模块)输出实体之间的关系，其中Fully Connected表示全连接层，Dropout表示防止过拟合层，Softmax表示函数将多个标量映射为一个概率分布，其输出的每一个值范围在(0,1)。

图6语料库选择模块是将Question输入共享特征抽取模型BERT，将[CLS]生成的向量作为整个句子的特征向量，经过一个Fully Connected Layer&Dropout Layer，经Softmax层，输出该句子属于私有、公有、专业、推荐语料库的可能值，取最大值进入相应语料库，进行Answer的组合。

表1是实施例所列举的部分问答***对话，根据问题所在的知识库，对问题做出回复。

表1问答***对话

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。