CN109829150B

CN109829150B - 保险理赔文本处理方法及装置

Info

Publication number: CN109829150B
Application number: CN201811425880.1A
Authority: CN
Inventors: 曹绍升; 赵婷婷
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2023-11-14
Anticipated expiration: 2038-11-27
Also published as: CN109829150A

Abstract

本公开提供一种用于保险理赔文本处理的方法，包括：使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本中的经过分词处理后的各个第二保险理赔文本的句子表示向量；基于各个第一保险理赔文本的句子表示向量和各个第二保险理赔文本的句子表示向量，确定各个第一保险理赔文本与各个第二保险理赔文本之间的相似度；以及基于所确定出的相似度，从至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。利用该方法，可以有效地识别出存在非法骗保行为的保险理赔文本，由此提高非法骗保行为识别效率。

Description

保险理赔文本处理方法及装置

技术领域

本公开通常涉及计算机技术领域，更具体地，涉及用于保险理赔文本处理的方法及装置。

背景技术

在保险领域，比如企业推出的例如订单险、运输险、健康险之类的保险业务，黑产行业经常使用一些不法手段来进行非法骗保。为了应对黑产行业的非法骗保，提供保险业务的企业提出许多非法骗保识别方案来进行非法骗保识别。常规的非法骗保识别方案是获取投保用户的地理位置和账号注册设备等用户信息，并基于所获取的投保用户的地理位置和账号注册设备等用户信息进行分析来完成非法骗保识别，例如，通过对所获取的投保用户的地理位置和账号注册设备等用户信息以及已经被识别为非法骗保用户的地理位置和账号注册设备等用户信息进行关联性分析等来进行非法骗保识别。

然而，在黑产行业通过建立即时聊天群组织更多人员参与骗保活动来进行团伙非法骗保的情况下，由于团队非法骗保的参与人员中部分人的用户地理位置和账号注册设备可能不在已经被识别为非法骗保用户的地理位置和账号注册设备等历史数据中，例如，首次参与非法骗保的用户的地理位置和账号注册设备等信息不在已经被识别为非法骗保用户的地理位置和账号注册设备等历史数据中，从而使得基于用户的地理位置和账号注册设备等信息进行分析，并不能有效地识别出这类用户的非法骗保行为。

发明内容

鉴于上述，本公开提供了一种保险理赔文本处理方法及装置。利用该保险理赔文本处理方法及装置，通过对待处理的至少一个第一保险理赔文本和被标注为非法理赔的至少一个第二保险理赔文本进行语义分析来确定第一保险理赔文本与至少一个第二保险理赔文本之间的相似度，并基于所确定出的相似度来判断第一保险理赔文本是否是存在非法骗保的保险理赔文本，由于涉及非法骗保的保险理赔文本在语义上非常相似，从而按照这种处理方法，可以有效地识别出存在非法骗保行为的保险理赔文本，由此提高非法骗保行为识别效率。

根据本公开的一个方面，提供了一种用于保险理赔文本处理的方法，包括：使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本的经过分词处理后的各个第二保险理赔文本的句子表示向量，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本；基于所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量，确定所述各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度；以及基于所确定出的相似度，从所述至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。

可选地，在上述方面的一个示例中，使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本的经过分词处理后的各个第二保险理赔文本的句子表示向量包括：使用句子向量表示模型来基于词向量集、所述经过分词处理后的各个第一保险理赔文本和所述经过分词处理后的各个第二保险理赔文本，获取所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量。

可选地，在上述方面的一个示例中，所述词向量集是使用词向量训练模型来基于给定语料库训练出的。

可选地，在上述方面的一个示例中，所述方法还可以包括：使用词向量训练模型来基于所述经过分词处理后的至少一个第一保险理赔文本和所述经过分词处理后的至少一个第二保险理赔文本进行词向量训练，以得出所述词向量集。

可选地，在上述方面的一个示例中，在使用词向量训练模型来基于所述经过分词处理后的至少一个第一保险理赔文本和所述经过分词处理后的至少一个第二保险理赔文本进行词向量训练以得出所述词向量集之前，所述方法还可以包括：对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

可选地，在上述方面的一个示例中，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理可以包括：基于过滤词数据库，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

可选地，在上述方面的一个示例中，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理可以包括：基于词语的词频，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理，其中，所述词语的词频是基于给定语料库统计出的。

可选地，在上述方面的一个示例中，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理可以包括：统计所述经过分词处理后的至少一个第一保险理赔文本中的各个词语和/或所述经过分词处理后的至少一个第二保险理赔文本中的各个词语在所述至少一个第一保险理赔文本和所述至少一个第二保险理赔文本中的出现词频；以及基于所统计的词语的出现词频，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

可选地，在上述方面的一个示例中，所述相似度采用下述中的一种来表征：夹角余弦距离；欧式距离；以及曼哈顿距离。

可选地，在上述方面的一个示例中，所述句子向量表示模型包括paragraph2vec模型。

可选地，在上述方面的一个示例中，所述词向量训练模型包括cw2vec模型或者word2vec模型。

根据本公开的另一方面，提供一种用于保险理赔文本处理的装置，包括：句子向量表示单元，被配置为使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本的经过分词处理后的各个第二保险理赔文本的句子表示向量，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本；文本相似度确定单元，被配置为基于所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量，确定所述各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度；以及保险理赔文本处理单元，被配置为基于所确定出的相似度，从所述至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。

可选地，在上述方面的一个示例中，所述句子向量表示单元被配置为：使用句子向量表示模型来基于词向量集、所述经过分词处理后的各个第一保险理赔文本和所述经过分词处理后的各个第二保险理赔文本，获取所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量。

可选地，在上述方面的一个示例中，所述装置还可以包括：词向量训练单元，被配置为使用词向量训练模型来基于所述经过分词处理后的至少一个第一保险理赔文本和所述经过分词处理后的至少一个第二保险理赔文本进行词向量训练，以得出所述词向量集。

可选地，在上述方面的一个示例中，所述装置还可以包括：词语过滤单元，被配置为在使用词向量训练模型来基于所述经过分词处理后的至少一个第一保险理赔文本和所述经过分词处理后的至少一个第二保险理赔文本进行词向量训练以得出所述词向量集之前，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

可选地，在上述方面的一个示例中，所述词语过滤单元被配置为：基于过滤词数据库，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

可选地，在上述方面的一个示例中，所述词语过滤单元被配置为：基于词语的词频，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理，其中，所述词语的词频是基于给定语料库统计出的。

可选地，在上述方面的一个示例中，所述词语过滤单元可以包括：词频统计模块，被配置为统计所述经过分词处理后的至少一个第一保险理赔文本中的各个词语和/或所述经过分词处理后的至少一个第二保险理赔文本中的各个词语在所述至少一个第一保险理赔文本和所述至少一个第二保险理赔文本中的出现词频；以及词语过滤处理模块，被配置为基于所统计的词语的词频，对所述经过分词处理后的至少一个第一保险理赔文本和/或所述经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。

根据本公开的另一方面，提供一种计算设备，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于保险理赔文本处理的方法。

根据本公开的另一方面，提供一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于保险理赔文本处理的方法。

附图说明

通过参照下面的附图，可以实现对于本公开内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本公开的实施例的保险理赔文本处理方法的流程图；

图2示出了根据本公开的另一实施例的保险理赔文本处理方法的流程图；

图3示出了根据本公开的实施例的词语过滤过程的一个示例的流程图；

图4示出了根据本公开的实施例的词语过滤过程的另一示例的流程图；

图5示出了根据本公开的实施例的保险理赔文本处理装置的方框图；

图6示出了根据本公开的另一实施例的保险理赔文本处理装置的方框图；

图7示出了根据本公开的实施例的词语过滤单元的一个示例的方框图；

图8示出了根据本公开的实施例的用于保险理赔文本处理的计算设备的方框图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

下面将结合附图来详细描述根据本公开的问题派发方法及装置的实施例。

图1示出了根据本公开的实施例的保险理赔文本处理方法的流程图。

如图1所示，在获取到经过分词处理后的至少一个第一保险理赔文本110和经过分词处理后至少一个第二保险理赔文本120后，在块130，使用句子向量表示模型来基于经过分词处理后的各个第一保险理赔文本获取经过分词处理后的各个第一保险理赔文本的句子表示向量。在块140，使用句子向量表示模型来基于经过分词处理后的各个第二保险理赔文本获取经过分词处理后的各个第二保险理赔文本的句子表示向量。例如，分别将经过分词处理后的各个第一保险理赔文本输入到句子向量表示模型来获得每个第一保险理赔文本的句子表示向量，以及将经过分词处理后的各个第二保险理赔文本输入到句子向量表示模型来获得每个第二保险理赔文本的句子表示向量。在本公开的一个示例中，所述句子向量表示模型可以包括paragraph2vec模型。

在本公开中，第一保险理赔文本是未经过标注处理的保险理赔文本，即，待处理的保险理赔文本。第二保险理赔文本是被标注为非法理赔的保险理赔文本。针对第二保险理赔文本的标注处理可以是人工标注处理，也可以是使用标注处理模型来进行标注处理。

例如，假设第一保险理赔文本是“老婆说是假的”，以及第二保险理赔文本是“”，则经过分词处理后的第一保险理赔文本是“【老婆】【认为】【是】【假的】”，经过分词处理后的第二保险理赔文本是“【朋友】【讲】【，】【假的】”。经过上述句子向量表示处理后，第一保险理赔文本的句子表示向量为(a₁，a₂，a₃，……，a_n)，以及第二保险理赔文本的句子表示向量为(b₁，b₂，b₃，……，b_n)，其中，n是向量维度数，a₁，a₂，a₃，……，a_n以及b₁，b₂，b₃，……，b_n是每个维度的取值，该取值是-1到1之间的实数值。这里要说明的是，使用句子向量表示模型所得到的句子表示量是分布式向量。该分布式向量是稠密、低维的实值向量，每一维度表示句子的一个特征。

在如上得到经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量后，在块150，基于各个第一保险理赔文本的句子表示向量和各个第二保险理赔文本的句子表示向量，确定各个第一保险理赔文本与各个第二保险理赔文本之间的相似度。例如，可以通过向量相乘计算的方式来确定出各个第一保险理赔文本与各个第二保险理赔文本之间的相似度。此外，也可以采用本领域中的其他合适相似度计算方式来确定出各个第一保险理赔文本与各个第二保险理赔文本之间的相似度。在本公开中，所述相似度可以采用下述中的一种来表征：夹角余弦距离；欧式距离；以及曼哈顿距离。相应地，可以通过计算各个第一保险理赔文本与各个第二保险理赔文本之间的夹角余弦距离、欧式距离或者曼哈顿距离来确定各个第一保险理赔文本与各个第二保险理赔文本之间的两两相似度。

在确定出各个第一保险理赔文本与各个第二保险理赔文本之间的相似度之后，在块160，基于所确定出的相似度，从至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。例如，可以将所确定出的相似度与预定阈值进行比较，将所确定出的相似度大于该预定阈值的第一保险理赔文本确定为存在非法骗保行为的第一保险理赔文本。或者，将所确定出的相似度输入预定识别函数或预定识别模型，并基于该预定识别函数或预定识别模型的输出值来确定该第一保险理赔文件是否为存在非法骗保行为的第一保险理赔文本。

在上述实施例所描述的保险理赔文本处理方法中，通过对待处理的至少一个第一保险理赔文本和被标注为非法理赔的至少一个第二保险理赔文本进行语义分析来确定第一保险理赔文本与至少一个第二保险理赔文本之间的相似度，并基于所确定出的相似度来判断第一保险理赔文本是否是存在非法骗保的保险理赔文本，从而可以有效地识别出存在非法骗保行为的保险理赔文本，由此提高非法骗保行为识别效率。

图2示出了根据本公开的另一实施例的保险理赔文本处理方法的流程图。

如图1所示，在获取到第一保险理赔文本集210和第二保险理赔文本集220后，在块230，对至少一个第一保险理赔文本和至少一个第二保险理赔文本进行分词处理。这里，针对第一保险理赔文本和第二保险理赔文本的分词处理可以采用本领域中的任何合适的分词处理方式来实现。

在对第一保险理赔文本和第二保险理赔文本进行分词处理后，在块240，使用词向量训练模型来对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词向量训练，以得到词向量集。在本公开的一个示例，所述词向量训练模型可以包括cw2vec模型或者word2vec模型。相应地，所得到的词向量集中的词向量是分布式词向量，并且每个词向量与经过分词处理后得到的一个词语对应。该分布式词向量是稠密、低维的实值向量，每一维度表示词语的一个特征。

然后，在块250，使用句子向量表示模型来基于所得到的词向量集和经过分词处理后的各个第一保险理赔文本获取经过分词处理后的各个第一保险理赔文本的句子表示向量。在块260，使用句子向量表示模型来基于所得到的词向量集和经过分词处理后的各个第二保险理赔文本，获取经过分词处理后的各个第二保险理赔文本的句子表示向量。例如，分别将所得到的词向量集和经过分词处理后的各个第一保险理赔文本输入到句子向量表示模型来获得每个第一保险理赔文本的句子表示向量，以及分别将所得到的词向量集和经过分词处理后的各个第二保险理赔文本输入到句子向量表示模型来获得每个第二保险理赔文本的句子表示向量。在本公开的一个示例中，所述句子向量表示模型可以包括paragraph2vec模型。块250和块260的操作可以分别参考上面参照图1描述的块130和块140的操作。

然后，在块270，基于经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量，确定各个第一保险理赔文本与各个第二保险理赔文本之间的相似度。块270的操作可以参考上面参照图1描述的块150的操作。

在确定出各个第一保险理赔文本与各个第二保险理赔文本之间的相似度之后，在块280，基于所确定出的相似度，从至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。块280的操作可以参考上面参照图1描述的块160的操作。

利用图2中公开的实施例，通过使用词向量训练模型来训练经过分词处理后的至少一个第一保险理赔文本和至少一个第二保险理赔文本进行词向量而得到词向量集，并使用句子向量表示模型来基于所得到的词向量集、至少一个第一保险理赔文本和至少一个第二保险理赔文本得到至少一个第一保险理赔文本的句子表示向量和至少一个第二保险理赔文本的句子表示向量，可以提高第一保险理赔文本的句子表示向量和第二保险理赔文本的句子表示向量的准确率，由此提高非法骗保行为识别的准确率。

如上参照图1和图2对根据本公开的保险理赔文本处理方法进行描述。这里要说明的是，图1和图2示出的仅仅是根据本公开的保险理赔文本处理方法的一个实施例，在本公开的其它实施例中，还可以对图1和图2中示出的保险理赔文本处理方法进行修改。

例如，在本公开的另一实施例中，可以不包括图2中的块130的操作。在这种情况下，至少一个第一保险理赔文本以及至少一个第二保险理赔文本可以是预先经过分词处理的第一保险理赔文本和经过分词处理的第二保险理赔文本，例如，经过人工分词处理或者利用分词模型来完成分词处理后的第一保险理赔文本和第二保险理赔文本。

此外，在本公开的另一实施例中，也可以不包括图2中的块140的操作。在这种情况下，词向量集可以基于给定语料库来使用词向量训练模型预先训练出的。

此外，在本公开的另一实施例中，根据本公开的保险理赔文本处理方法还可以包括：获取至少一个第一保险理赔文本和至少一个第二保险理赔文本集。

此外，在本公开的另一实施例中，在使用词向量训练模型来对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词向量训练之前，根据本公开的保险理赔文本处理方法还可以包括：对经过分词处理后的至少一个第一保险理赔文本和/或经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。相应地，使用句子向量表示模型来基于词向量集、经过分词处理后的各个第一保险理赔文本和经过分词处理后的各个第二保险理赔文本，获取所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量包括：使用句子向量表示模型来基于词向量集、经过分词处理和词语过滤处理后的各个第一保险理赔文本和经过分词处理和词语过滤处理后的各个第二保险理赔文本，获取各个第一保险理赔文本的句子表示向量和各个第二保险理赔文本的句子表示向量。如何进行词语过滤处理将在下面参照图3和图4进行描述。

图3示出了根据本公开的实施例的词语过滤过程的一个示例的流程图。如图3所示，针对经过分词处理后的各个第一保险理赔文本310和/或经过分词处理后的各个第二保险理赔文本320，在块340，基于过滤词数据库330，对经过分词处理后的至少一个第一保险理赔文本和/或经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理，由此得到经过分词处理和词语过滤处理后的第一保险理赔文本350以及经过分词处理和词语过滤处理后的第二保险理赔文本360。例如，从对至少一个第一保险理赔文本进行分词处理后得到的词语中过滤掉与过滤词数据库330中所包含的过滤词匹配的词语，以及从对至少一个第二保险理赔文本进行分词处理后得到的词语中过滤掉与过滤词数据库330中所包含的过滤词匹配的词语。在本公开中，过滤词数据库330可以是通过对历史保险理赔文本进行分析后获得的。这里，过滤词是指对于保险理赔文本相似度确定不能提供有效信息或者所提供的有效信息非常低的词语。例如，第一保险理赔文本“【老婆】【认为】【是】【假的】”中的词语“【是】”，以及第二保险理赔文本“【朋友】【讲】【，】【假的】”中的“【，】”。

图4示出了根据本公开的实施例的词语过滤过程的另一示例的流程图。如图4所示，针对经过分词处理后的各个第一保险理赔文本410和/或经过分词处理后的各个第二保险理赔文本420，在块430，统计经过分词处理后的各个第一保险理赔文本410的各个词语和经过分词处理后的各个第二保险理赔文本中的各个词语在各个第一保险理赔文本410和各个第二保险理赔文本420中的出现词频。然后，在块440中，基于所统计的词语的出现词频，对经过分词处理后的各个第一保险理赔文本410的各个词语和经过分词处理后的各个第二保险理赔文本进行词语过滤处理。例如，从经过分词处理后的各个第一保险理赔文本和/或各个第二保险理赔文本中过滤所统计的出现词频大于预定词频的词语，由此得到经过分词处理和词语过滤处理后的第一保险理赔文本450和/或经过分词处理和词语过滤处理后的第二保险理赔文本460。

此外，在本公开的另一示例中，词语词频统计可以是基于给定语料库来统计的。相应地，根据本公开的实施例的词语过滤过程包括：基于所统计的词语的词频，对经过分词处理后的各个第一保险理赔文本的各个词语和经过分词处理后的各个第二保险理赔文本进行词语过滤处理。例如，从经过分词处理后的各个第一保险理赔文本和经过分词处理后的各个第二保险理赔文本中过滤词频大于预定词频的词语，由此得到经过分词处理和词语过滤处理后的第一保险理赔文本以及经过分词处理和词语过滤处理后的第二保险理赔文本。

这里要说明的是，经过词语过滤处理的至少一个第一保险理赔文本和/或至少一个第二保险理赔文本可以被使用来进行词向量训练，和/或也可以被使用来进行句子向量表示。换言之，词向量训练过程可以使用经过词语过滤处理后的至少一个第一保险理赔文本和/或至少一个第二保险理赔文本，也可以使用未经过词语过滤处理后的至少一个第一保险理赔文本和至少一个第二保险理赔文本。同样，句子向量表示过程可以使用经过词语过滤处理后的至少一个第一保险理赔文本和/或至少一个第二保险理赔文本，也可以使用未经过词语过滤处理后的至少一个第一保险理赔文本和至少一个第二保险理赔文本。

在本公开中，通过对经过分词处理后的至少一个第一保险理赔文本和/或至少一个第二保险理赔文本进行词语过滤处理，从而可以过滤掉对文本语义分析没有影响的词语，由此可以减少文本相似度确定过程的词语处理量，进而提高文本相似度确定的准确率。

图5示出了根据本公开的实施例的保险理赔文本处理装置500的方框图。如图5所示，保险理赔文本处理装置500包括句子向量表示单元510、文本相似度确定单元520和保险理赔文本处理单元530。

句子向量表示单元510被配置为使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本中的经过分词处理后的各个第二保险理赔文本的句子表示向量，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本。句子向量表示单元510的操作可以参考上面参照图1描述的块130和140的操作。

文本相似度确定单元520被配置为基于经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量，确定各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度。文本相似度确定单元520的操作可以参考上面参照图1描述的块150的操作。

保险理赔文本处理单元530被配置为基于所计算出的相似度，从至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。保险理赔文本处理单元530的操作可以参考上面参照图1描述的块160的操作。

图6示出了根据本公开的另一实施例的保险理赔文本处理装置600的方框图。如图6所示，保险理赔文本处理装置600包括分词处理单元610、词向量训练单元620、句子向量表示单元630、文本相似度确定单元640和保险理赔文本处理单元650。

分词处理单元610被配置为对至少一个第一保险理赔文本和至少一个第二保险理赔文本进行分词处理，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本。分词处理单元610的操作可以参考上面参照图2描述的块210的操作。

词向量训练单元620被配置为使用词向量训练模型来对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词向量训练，以得到词向量集。词向量训练单元620的操作可以参考上面参照图2描述的块240的操作。

句子向量表示单元630被配置为使用句子向量表示模型来基于词向量集、经过分词处理后的各个第一保险理赔文本和经过分词处理后的各个第二保险理赔文本，获取经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量。句子向量表示单元630的操作可以参考上面参照图2描述的块250和260的操作。

文本相似度确定单元640被配置为基于经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量，确定各个第一保险理赔文本与各个第二保险理赔文本之间的相似度。文本相似度确定单元640的操作可以参考上面参照图2描述的块270的操作。

保险理赔文本处理单元650被配置为基于所计算出的相似度，从至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。保险理赔文本处理单元650的操作可以参考上面参照图2描述的块280的操作。

这里要说明的是，图5和图6示出的仅仅是根据本公开的保险理赔文本处理装置的一个实施例，在本公开的其它实施例中，还可以对图5和图6中示出的保险理赔文本处理装置进行修改。

例如，在本公开的另一实施例中，保险理赔文本处理装置600可以不包括分词处理单元610。在这种情况下，第一保险理赔文本集中的至少一个第一保险理赔文本以及第二保险理赔文本集中的至少一个第二保险理赔文本可以是预先已经经过分词处理的第一保险理赔文本和第二保险理赔文本，例如，经过人工分词处理或者利用分词模型来完成分词处理后的第一保险理赔文本和第二保险理赔文本。

此外，在本公开的另一实施例中，保险理赔文本处理装置600也可以不包括词向量训练单元620。在这种情况下，词向量集可以基于给定语料库来使用词向量训练模型预先训练出的。在本公开的另一实施例中，保险理赔文本处理装置600也可以不包括分词处理单元610和词向量训练单元620两者。

此外，在本公开的另一实施例中，保险理赔文本处理装置600还可以包括文本获取单元(未示出)。所述文本获取单元被配置为获取至少一个第一保险理赔文本和至少一个第二保险理赔文本。

此外，在本公开的另一实施例中，保险理赔文本处理装置600还可以包括词语过滤单元660。词语过滤单元660被配置为在使用词向量训练模型来对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词向量训练之前，对经过分词处理后的至少一个第一保险理赔文本和/或经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。相应地，句子向量表示单元630被配置为；使用句子向量表示模型来基于词向量集、经过分词处理和词语过滤处理后的各个第一保险理赔文本以及经过分词处理和词语过滤处理后的各个第二保险理赔文本，获取经过分词处理后的各个第一保险理赔文本的句子表示向量和经过分词处理后的各个第二保险理赔文本的句子表示向量。

图7示出了根据本公开的实施例的词语过滤单元660的一个示例的方框图。如图7所示，词语过滤单元660包括词频统计模块661和词语过滤模块663。

词频统计模块661被配置为统计经过分词处理后的至少一个第一保险理赔文本的各个词语和/或经过分词处理后的至少一个第二保险理赔文本中的各个词语在至少一个第一保险理赔文本和至少一个第二保险理赔文本中的出现词频。词频统计模块661的操作可以参考上面参照图4描述的块430的操作。

词语过滤模块663被配置为基于所统计的词语的出现词频，对经过分词处理后的各个第一保险理赔文本的各个词语和/或经过分词处理后的各个第二保险理赔文本进行词语过滤处理。例如，从经过分词处理后的至少一个第一保险理赔文本和/或经过分词处理后的至少一个第二保险理赔文本中过滤所统计的出现词频大于预定词频的词语。词语过滤模块563的操作可以参考上面参照图4描述的块440的操作。

此外，在本公开的另一示例中，词语词频统计可以是基于给定语料库来统计的。相应地，词语过滤单元660被配置为：基于词语的词频，对经过分词处理后的各个第一保险理赔文本的各个词语和/或经过分词处理后的各个第二保险理赔文本进行词语过滤处理。例如，从经过分词处理后的各个第一保险理赔文本和/或经过分词处理后的各个第二保险理赔文本中过滤词频大于预定词频的词语。

在本公开的另一示例中，词语过滤单元660也可以被配置为：基于过滤词数据库，对经过分词处理后的至少一个第一保险理赔文本和/或经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理。在本公开中，过滤词数据库可以是通过对历史保险理赔文本数据进行分析后获得的。

如上参照图1到图7，对根据本公开的保险理赔文本处理方法及保险理赔文本处理装置的实施例进行了描述。上面的保险理赔文本处理装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图8示出了根据本公开的实施例的用于保险理赔文本处理的计算设备800的方框图。根据一个实施例，计算设备800可以包括至少一个处理器810，该至少一个处理器810执行在计算机可读存储介质(存储器820)中存储或编码的至少一个计算机可读指令(上述以软件形式实现的元素)。

在一个实施例中，在存储器820中存储计算机可执行指令，其当执行时使得至少一个处理器810：使用句子向量表示模型来获取至少一个第一保险理赔文本中的经过分词处理后的各个第一保险理赔文本的句子表示向量以及至少一个第二保险理赔文本的经过分词处理后的各个第二保险理赔文本的句子表示向量，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本；基于所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量，确定所述各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度；以及基于所确定出的相似度，从所述至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。

应该理解，在存储器820中存储的计算机可执行指令当执行时使得至少一个处理器810进行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。

在本公开中，计算设备800可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

根据一个实施例，提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。具体地，可以提供配有可读存储介质的***或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各***结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于保险理赔文本处理的方法，包括：

基于词语的词频，对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理以过滤掉大于预定词频的分词，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本；

使用句子向量表示模型来获取经过词语过滤处理后的各个第一保险理赔文本的子表示向量以及所述词语过滤处理后的各个第二保险理赔文本的句子表示向量，所得到的句子表示向量是分布式向量，每个维度表示句子的一个特征；

基于所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量，确定所述各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度；以及

基于所确定出的相似度，从所述至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。

2.如权利要求1所述的方法，其中，使用句子向量表示模型来获取所述经过词语过滤处理后的各个第一保险理赔文本的句子表示向量以及所述经过词语过滤处理后的各个第二保险理赔文本的句子表示向量包括：

使用句子向量表示模型来基于词向量集、所述经过词语过滤处理后的各个第一保险理赔文本和所述经过词语过滤处理后的各个第二保险理赔文本，获取所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量。

3.如权利要求2所述的方法，其中，所述词向量集是使用词向量训练模型来基于给定语料库训练出的。

4.如权利要求2所述的方法，还包括：

使用词向量训练模型来基于所述经过词语过滤处理后的至少一个第一保险理赔文本和所述经过词语过滤处理后的至少一个第二保险理赔文本进行词向量训练，以得出所述词向量集。

5.如权利要求3所述的方法，其中，在使用句子向量表示模型来获取所述经过词语过滤处理后的各个第一保险理赔文本的句子表示向量以及所述经过词语过滤处理后的各个第二保险理赔文本的句子表示向量之前，所述方法还包括：

基于过滤词数据库，对所述经过词语过滤处理后的至少一个第一保险理赔文本和所述经过词语过滤处理后的至少一个第二保险理赔文本进行词语过滤处理。

6.如权利要求1所述的方法，其中，所述词语的词频基于给定语料库统计出。

7.如权利要求1所述的方法，其中，所述词语的词频包括所述经过分词处理后的至少一个第一保险理赔文本的各个词语和/或所述经过分词处理后的至少一个第二保险理赔文本中的各个词语在所述至少一个第一保险理赔文本和所述至少一个第二保险理赔文本中的出现词频。

8.如权利要求1所述的方法，其中，所述相似度采用下述中的一种来表征：

夹角余弦距离；

欧式距离；以及

曼哈顿距离。

9.如权利要求1所述的方法，其中，所述句子向量表示模型包括paragraph2vec模型。

10.如权利要求2或3所述的方法，其中，所述词向量训练模型包括cw2vec模型或者word2vec模型。

11.一种用于保险理赔文本处理的装置，包括：

词语过滤单元，基于词语的词频，对经过分词处理后的至少一个第一保险理赔文本和经过分词处理后的至少一个第二保险理赔文本进行词语过滤处理以过滤掉大于预定词频的分词，所述第一保险理赔文本是未经过标注处理的保险理赔文本，所述第二保险理赔文本是被标注为非法理赔的保险理赔文本；

句子向量表示单元，被配置为使用句子向量表示模型来获取经过词语过滤处理后的各个第一保险理赔文本的句子向量表示和所述词语过滤处理后的各个第二保险理赔文本的句子向量表示，所得到的句子表示向量是分布式向量，每个维度表示句子的一个特征；

文本相似度确定单元，被配置为基于所述各个第一保险理赔文本的句子表示向量和所述各个第二保险理赔文本的句子表示向量，确定所述各个第一保险理赔文本与所述各个第二保险理赔文本之间的相似度；以及

保险理赔文本处理单元，被配置为基于所确定出的相似度，从所述至少一个第一保险理赔文本中确定出存在非法骗保行为的第一保险理赔文本。

12.如权利要求11所述的装置，其中，所述句子向量表示单元被配置为：

13.如权利要求12所述的装置，其中，所述词向量集是使用词向量训练模型来基于给定语料库训练出的。

14.如权利要求12所述的装置，还包括：

词向量训练单元，被配置为使用词向量训练模型来基于所述经过词语过滤处理后的至少一个第一保险理赔文本和所述经过词语过滤处理后的至少一个第二保险理赔文本进行词向量训练，以得出所述词向量集。

15.如权利要求11所述的装置，其中，所述词语过滤单元进一步基于过滤词数据库，对所述经过词语过滤处理后的至少一个第一保险理赔文本和所述经过词语过滤处理后的至少一个第二保险理赔文本进行词语过滤处理。

16.如权利要求11所述的装置，其中，所述词语的词频基于给定语料库统计出。

17.如权利要求11所述的装置，其中，所述词语的词频包括所述经过分词处理后的至少一个第一保险理赔文本中的各个词语和所述经过分词处理后的至少一个第二保险理赔文本中的各个词语在所述至少一个第一保险理赔文本和所述至少一个第二保险理赔文本中的出现词频。

18.一种计算设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到10中任一所述的方法。

19.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到10中任一所述的方法。