CN111221960A - 文本检测方法、相似度计算方法、模型训练方法及装置 - Google Patents
文本检测方法、相似度计算方法、模型训练方法及装置 Download PDFInfo
- Publication number
- CN111221960A CN111221960A CN201911030483.9A CN201911030483A CN111221960A CN 111221960 A CN111221960 A CN 111221960A CN 201911030483 A CN201911030483 A CN 201911030483A CN 111221960 A CN111221960 A CN 111221960A
- Authority
- CN
- China
- Prior art keywords
- text
- vectors
- training
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 149
- 238000004364 calculation method Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 209
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。获取第二文本以及待检测的第一文本,生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n‑元笔画向量,将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度,基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。基于文本各词语的n元笔画向量计算文本相似度,可以从更粒度地提取词语之间的关联,也解决了预测中出现新词语的问题,可以有效检测测出目标类别的文本。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。
背景技术
在某些情况下,需要检测出满足一定条件的目标类别的文本。通常,在检测一个文本是否为目标类别的文本时,可以将该文本与一个目标类别的文本进行比对,如果两者相似度较高,即可判定该文本属于目标类别,因此准确地计算文本的相似度显得非常关键。举个例子,有些不法分子会采取非法手段对一些保险服务进行骗保,比如,不法分子通过建立QQ群进行团伙骗保作案,针对这种骗保方式,仅通过常规的地理位置、账号注册设备等信息分析,已经不能很好的抓取团伙成员。经过对骗保理赔文本的仔细研究,发现在同一个作案团伙中,骗保团伙成员填写的保险理赔文本在语义上非常相似,因此可以通过文本语义分析的手段,挖掘潜在的骗保团队成员。为了更有效和更准确的识别出目标类别的文本,有必要对文本相似度的计算方法和文本的检测方法加以改进。
发明内容
基于此,本说明书提供了一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。
根据本说明书实施例的第一方面,提供一种目标文本的检测方法,所述方法包括:
获取第二文本以及待检测的第一文本;
生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
根据本说明书实施例的第二方面,提供一种文本相似度计算模型的训练方法,所述方法包括:
获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
根据本说明书实施例的第三方面,提供一种确定文本相似度的方法,所述方法包括:
获取至少两个文本;
生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
将所述至少两个文本以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本之间的相似度。
根据本说明书实施例的第四方面,提供一种目标文本的检测装置,所述装置包括:
获取模块,用于获取第二文本以及待检测的第一文本;
向量生成模块,用于生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块,用于将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
判定模块,用基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
根据本说明书实施例的第五方面,提供一种文本相似度计算模型的训练装置,所述装置包括:
获取模块,用于获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
向量生成模块,用于生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
训练模块,用于根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
根据本说明书实施例的第六方面,提供一种确定文本相似度的装置,所述装置包括:
获取模块,用于至少两个文本;
向量生成模块,用于生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块,用于将所述至少两个文本中的各词语以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本的相似度。
根据本说明书实施例的第七方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
应用本说明书实施例方案,一方面,在进行文本相似度计算模型的训练时,将了训练文本中各词语的词向量外,还将各词语的n元笔画向量作为模型输入,对模型进行训练,可以在更细的粒度上刻画中文词语的语义信息,也可以将更多的训练数据中未出现的词语,通过n元笔画向量也进行刻画,使得模型计算的文本相似度更加准确。另一方面,在计算文本之间的相似性时,将文本中各词语的词向量以及n元笔画向量作为特征输入到预先训练的模型中进行相似度计算,可以从更粒度地提取词语之间的关联,也解决了预测中出现新词语的问题,使得计算结果更加准确。通过这种方式,可以更加准确地计算文本之间的相似度,也可以更加准确地通过文本的相似度检测出目标类别的文本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书一个实施例的一种文本相似度计算模型训练方法流程图。
图2是本说明书一个实施例的一种文本相似度计算方法的流程图。
图3是本说明书一个实施例的一种目标类别的文本的检测方法流程图。
图4是本说明书一个实施例的一种文本相似度计算模型训练装置的逻辑结构框图。
图5是本说明书一个实施例的一种文本相似度计算装置的逻辑结构框图。
图6是本说明书一个实施例的一种目标类别的文本的检测装置的逻辑结构框图。
图7是本说明书一个实施例的用于实施本说明书方法的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
很多应用场景中,需要检测出满足一定条件的目标类别的文本。通常,在检测一个文本是否为目标类别的文本时,可以将该文本与目标类别的文本进行比对,如果两者相似度较高,即可判定该文本属于同一个类别,因此准确地计算文本的相似度显得非常关键。举个例子,有些不法分子会采取非法手段对一些保险服务进行骗保,比如,针对淘宝推出的一些保险服务,通常会有不法分子采取一些骗保行为进行骗保。针对骗保行为,常规的方法是通过对地理位置、账号注册设备等信息进行分析来检测,但是针对不法分子通过建立QQ群进行团伙骗保作案的方式,常规的方法已经不能很好的抓取团伙成员。经过对骗保理赔文本的仔细研究,发现在同一个作案团伙中,骗保团伙成员填写的保险理赔文本在语义上非常相似,因此可以通过文本语义分析的手段,挖掘潜在的骗保团队成员。
在对违规的骗保文本进行检测时,可以将一个待检测的文本和已确定的骗保文本或非骗保文本进行比对,分析两个文本中的句子的语义相似度,根据语义相似度来确定待检测文本是否为骗保文本。其中,文本相似度可以通过一些文本相似度计算模型来计算。为了可以更加有效地检测出目标类别的文本,准确地计算两个文本之间的相似度显得十分关键。
基于此,本说明书实施例首先提供了一种文本相似度计算模型的训练方法,如图1所示,所述方法可包括以下步骤:
S102、获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
S104、生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
S106、根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
在训练文本相似度计算模型时,可以采用大量的训练文本对模型进行训练。其中,训练文本可以包括第一训练文本和第二训练文本,第一训练文本和第二训练文本可以是一句话或者一段话。第一训练文本和第二训练文本的语义的相似度已经预先确定好。相似度可以用来表征两个训练文本的相似或者相关程度,在某些实施例中,相似度可以通过具体的数值表示,比如0至100%,数值越大,相似度越高。在某些实施例中,相似度也可以直接表示成“相似”或“不相似”。
由于计算机无法识别训练文本,因而可以先将训练文本转化成计算机可以识别的向量,即将文本向量化表示,通过向量来表示文本之间语义的相似度。因此,在获取第一训练文本和第二训练文本以及第一训练文本与第二训练文本的相似度后,可以先生成第一生成所述第一训练文本和所述第二训练文本中各词语的向量集合,其中,所述向量集合包括各词语的词向量以及n-元笔画向量。将文本中的各词语表示成词向量的算法已经比较成熟,有些算法直接根据各词语在词表中的位置来构建词向量,比如One-hot算法,有些算法通过词语的上下文语义来将各词语表示成向量,比如Word2Vec算法,当然,还有些算法基于各词语的n-元笔画来训练词向量,比如用cw2vec算法。本说明书实施例可以采用任一方法得到各词语的词向量。
由于词向量只是从词语的层面来表征词语之间的关联关系,比较适合表征已出现过的词语的关联,对于一些新词,可能没法很好的判定词语之间关联。因此,本说明书实施例在训练文本相似度计算模型时,除了将各词语的词向量作为模型的输入,还将各词语的n-元笔画向量也作为模型输入,从更细粒度去挖掘词语之间的关联。其中,n-元笔画则为各词语的连续n个笔画,举个例子,“林”的笔画可以拆分成为“横、竖、撇、捺,每个笔画对应一个数字,比如,横(1)、竖(2)、撇(3)、捺(4),其中,1元笔画分别为“横、竖、撇、捺、横、竖、撇、捺”,对应的数字为1、2、3、4、1、2、3、4;2元笔画为横竖、竖撇、撇捺、捺横、横竖、竖撇、撇捺,对应数字表示分别为12、23、34、41、12、23、34;3元笔画分别为横竖撇、竖撇捺、撇捺横、横竖撇、竖撇捺,对应数字表示分别为123、234、412、123、234。当然,也可以是4元笔画、5元笔画或者更多元笔画,其提取方式类似,在此不再赘述。
n-元笔画向量为表示各词语的连续n个笔画的向量。在某些实施例中,将各词语的n元笔画分别用数字化表示,作为各词语的特征,然后结合词语上下文语义,进行词向量训练,即可以得到各词语的词向量以及各词语的n-元笔画向量。
在某些实施例中,向量集合也可以包括各词语的n-元拼音向量,n元拼音为各词语的连续n个拼音,举个例子,“森林”的拼音为“senlin”,将该拼音可以拆分成不同的字符,即s、e、n、l、i、n。其中,不同的字符可以用不同的数字表示,比如,s(1)、e(2)、n(3)、l(4)、i(5)、n(6),那么“森林”这一词的1元拼音分别为s、e、n、l、i、n,对应的数字表示为1、2、3、4、5;2元拼音分别为se、en、nl、li、in,对应的数字表示为12、23、34、45、53;3元拼音分别为sen、enl、nli、lin,对应的数字表示为123、234、345、453。当然,也可以是4元拼音、5元拼音或者更多元拼音,其提取方式类似,在此不再赘述。通过将n-元拼音向量作为模型的输入对模型进行训练,可以从语音角度更细粒度刻画词语之间的关联。
由于中文之间没有空隔,计算机无法区分如何对一个句子中的各个字符进行划分,因而,在某些实施例中,在为第一训练文本和第二训练文本中各词语生成向量集合之前,可以先对第一训练文本和第二训练文本进行分词处理,得到第一训练文本和第二训练文本的一个或多个词语。当然,对第一训练文本和第二训练文本进行分词时,可以将训练文本与预设的词库表中各词语进行比对,将词库表中出现过的词语划分为一个词。当然,也可以采用其他的分词算法,本说明书不作限制。
在某些实施例中,对第一训练文本和第二训练文本进行分词处理,把第一训练文本和第二训练文本划分成一个或多个词语后,可以通过cw2vec算法为这些词语生成词向量、n-元笔画向量以及n-元拼音向量。当然cw2vec算法只是本说明书实施例中的一个例子,本说明书实施例并不排除其他具有相似功能的算法。
在某些实施例中,文本相似度计算模型可以选用DSSM(Deep SemanticSimilarity Model,深度语义匹配模型)模型,DSSM模型准确度高,适用于相似文本的分类。可以将生成的第一训练文本以及第二训练文本的向量集合、第一训练文本中的各词语以及第二训练文本中的各词语作为DSSM模型的输入,第一训练文本以及第二训练文本的相似度作为DSSM模型的输出,对DSSM模型进行训练,得到最后的文本相似度计算模型。
由于在训练文本相似度计算模型时,除了将各词语的词向量作为模型的输入外,还将n元笔画向量作为模型的输入,通过这种方式,一方面,可以在更细的粒度上刻画中文词语的语义信息,另一方面,也可以将更多的训练数据中未出现的词语,通过n元笔画向量也进行刻画,解决了预测中出现新词语的问题。通过这种方式训练得到的文本相似度计算模型,可以更准确地计算文本之间的相似度。
此外,本说明书实施例还提供了一种文本相似度计算方法,可以用于计算两个或者多个文本的相似度,如图2所示,所述方法包括以下步骤:
S202、获取至少两个文本;
S204、生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
S206、将所述至少两个文本以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本之间的相似度。
本说明实施例中的文本相似度计算模型可以是通过上述文本相似度计算模型训练方法训练得到,当然,也可以是通过其他训练方法训练得到,只要具备类似的文本相似度预测功能即可,在此不做限定。
首先,可以获取待确定相似度的至少两个文本,然后为该文本中的各词语生成向量集合,其中,所述向量集合包括各词语的词向量和n-元笔画向量。n-元笔画向量为表示各词语的连续n个笔画的向量。其中,n-元笔画的定义以及向量集合的生成方法可以参考上述文本相似度计算模型的训练方法中的描述,在此不再赘述。
在某些实施例中,向量集合还可以包括各词语的n-元拼音向量,n元拼音为各词语的连续n个拼音。n-元拼音的定义以可以参考上述文本相似度计算模型的训练方法中的描述,在此不再赘述。在计算文本之间的相似度时,通过将n-元拼音向量作为特征,输入到模型进行相似度计算,可以从语音的角度更细粒度刻画词语之间的关联,使得文本相似度的预测更加准确。
在某些实施例中,在为文本中各词语生成向量集合之前,可以文本进行分词处理,得到文本的一个或多个词语。当然,对文本进行分词时,可以将文本与预设的词库表中各词语进行比对,将词库表中出现过的词语划分为一个词。当然,也可以采用其他的分词算法,本说明书不作限制。
在某些实施例中,对待确定相似度的文本进行分词处理处理后,可以通过cw2vec算法为这些词语生成词向量、n-元笔画向量或者n-元拼音向量。当然cw2vec算法只是本说明书实施例中的一个例子,本说明书实施例并不排除其他具有相似功能的算法。
在得到待确定相似度的文本的向量集合后,可以将该向量集合以及待确定相似度的至少两个文本分词得到的各词语输入到预先训练的文本相似度计算模型,通过文本相似度计算模型计算两两文本之间的相似度。由于本说明书实施例在计算文本相似度时,除了将文本中的各词语的词向量作为特征输入到预先训练的模型,同时也将文本中各词语的n-元笔画向量作为特征输入到预先训练的模型,可以在更细的粒度上去提取中文词语的语义信息,也可以将更多的训练数据中未出现的词语,通过n元笔画向量也进行刻画,解决了预测中出现新词语的问题。通过这种方式,可以更准确地计算文本之间的相似度。
本说明书实施例还提供了一种目标类别的文本的检测方法,用于检测目标类别的文本,如图3所示,所述方法包括以下步骤:
S302、获取第二文本以及待检测的第一文本;
S304、生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
S306、将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
S308、基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
本说明书实施中的目标文本检测方法可用于各种通过文本相似性来判定文本是否为目标类别的文本的场景。比如,可以用于检测保险理赔文本是否为违规的骗保文本,由于骗保的理赔文本之间相似度比较高,因而可以通过判断待检测文本与骗保文本或者非骗保文本之间的相似度来确定待检测文本是否为目标类别的文本。
在进行文本违规检测时,可以先获取待检测的第一文本,以及已经确定了类别的第二文本,比如,针对保险理赔文本,第二文本的类别可以是骗保或者非骗保。
然后可以生成第一文本和第二文本中各词语的向量集合,该向量集合包括各词语的词向量以及n-元笔画向量。各词语的词向量可以基于One-hot算法、Word2Vec算法或者是cw2vec算法中的一种或多种得到。n-元笔画向量为表示各词语的连续n个笔画的向量。其中,n-元笔画向量的定义可以参考上述文本相似度计算模型的训练方法中的描述,在此不再赘述。在某些实施例中,将各词语拆分成笔画后,可以将其n-元笔画分别用数字化表示,作为各词语的特征,然后结合词语上下文语义,进行词向量训练,即可以得到各词语的词向量以及各词语的n-元笔画向量。
在某些实施例中,向量集合还可以包括各词语的n-元拼音向量,n元拼音为各词语的连续n个拼音。n-元拼音的定义以可以参考上述文本相似度计算模型的训练方法中的描述,在此不再赘述。在计算第一文本与第二文本之间的相似度时,通过将n-元拼音向量作为特征,输入到模型进行相似度计算,可以从语音的角度更细粒度刻画词语之间的关联,使得文本相似度的预测更加准确。
由于中文之间没有空隔,计算机无法区分如何对一个句子中的各个字符进行划分,因而,在某些实施例中,在为第一文本和第二文本中各词语生成向量集合之前,可以先对第一文本和第二文本进行分词处理,得到第一文本和第二文本的一个或多个词语。当然,对第一文本和第二文本进行分词时,可以将文本与预设的词库表中各词语进行比对,将词库表中出现过的词语划分为一个词。当然,也可以采用其他的分词算法,本说明书不作限制。
在某些实施例中,可以采用cw2vec算法生成第一文本和第二文本中各词语的向量集合,在采用cw2vec算法生成第一文本和第二文本的各词语的向量集合之前,可以先对第一文本和第二文本进行分词处理,把第一文本和第二文本划分成一个或多个词,然后通过cw2vec算法为这些词语生成词向量、n-元笔画向量以及n-元拼音向量。
在某些实施例中,第二文本的类别可以采用无监督学习模型得到。比如在进行骗保理赔文本的检测时,前期由于理赔文本都不带标签,因而可以先采用无监督学习模型对文本进行分类,区分出骗保文本和非骗保文本,经过一段时间的数据沉淀,即可以得到大量文本的标签,由于非监督学习的精确度没那么高,因而后期可以采用有监督的学习模型来进行目标文本的检测,即通过计算待检测文本与有标签文本的相似度来确定文本是否为目标文本,使得目标文本检测更加精确。
在某些实施例中,预先训练的文本相似度计算模型可以采用上述文本相似度计算模型训练方法训练得到,当然,也可以采用其他方法训练得到,只要最终训练得到的模型具有相似的功能即可。
在某些实施例中,文本相似度计算模型可以是DSSM(Deep Semantic SimilarityModel,深度语义匹配模型)模型,DSSM模型准确度高,适用于相似文本的分类。可以将生成的第一训练文本以及第二训练文本的向量集合、第一训练文本中各词语、第二训练文本中各词语作为DSSM模型的输入,第一训练文本以及第二训练文本的相似度作为DSSM模型的输出,对DSSM模型进行训练,得到最终的文本相似度计算模型。
在得到第一文本和第二文本中各词语的向量集合后,可以将第一文本分词得到的各词语、第二文本分词得到的各词语以及各词语的向量集合输入到预先训练的文本相似度计算模型,计算第一文本和第二文本的相似度,然后基于相似度以及第二文本的类别确定第一文本是否为目标类别的文本。比如第一文本与第二文本相似度大于一定的阈值,阈值可以根据实际情况设置,而第二文本为目标类别的文本,则将第一文本作为目标类别的文本。
为了进一步解释本说明书实施例提供的文本相似度计算模型训练方法、文本相似度计算方法以及目标文本检测方法,以下以一个具体的应用场景加以解释。
目前,很多不法分子会针对一些保险服务进行有组织的团伙骗保。由于骗保理赔文本之间非常相似,因而可以通过检测文本之间的相似性来检测骗保理赔文本。具体的,检测骗保文本包括两个阶段,文本相似度计算模型训练阶段,以及应用训练的文本相似度计算模型来检测骗保理赔文本的阶段。
模型训练阶段包含以下步骤:
1、数据收集:获取数据库里沉淀或标注的两个句子组成的句对,其中,所述沉淀或标注的句对携带有相似度信息,即携带有这两个句子的相似度信息。
2、句子分词:分别对上述句对进行分词处理;
3、词向量训练:利用cw2vec算法,根据分词后的句对,进行词向量和n元笔画向量的训练,得到句对中各词语的词向量和n元笔画向量;
4、DSSM模型训练:将分词后的句对、相似度信息、训练好的词向量和n元笔画向量作为输入,对DSSM模型进行训练,得到训练好的文本相似度计算DSSM模型。
骗保文本检测阶段:
1.数据收集:分别获取待检测的句子和带有标注信息的句子(其中,标注信息用于指示句子是骗保或正常);
2.句子分词:分别对上述两类句子进行分词处理;
3.数据处理:利用cw2vec算法,生成两类句子中各词语的词向量和n-元笔画向量。
4.相关度计算:将上述分词后的两类句子、两类句子中各词语的词向量和n-元笔画向量输入到训练好的DSSM模型,计算两类句子的相似度。
5.目标文本检测:根据相似度的值以及标注过的句子的标注信息确定待检测句子是否是骗保文本。
在训练文本相似度计算模型时,除了词向量外,还将cw2vec训练得到的n元笔画向量作为DSSM模型的输入,这样做,一方面,可以在更细的粒度上刻画中文词语的语义信息,另一方面,也可以将更多的训练数据中未出现的词语,通过n元笔画向量也进行刻画,解决了预测中出现新词语的问题,使得目标文本的检测更加准确。
以上实施例中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
如图4所示,是本说明书一个实施例的一种文本相似度计算模型的训练装置,所述装置40可包括:
获取模块41,用于获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
向量生成模块42,用于生成所述第一训练文本和所述第二训练文本中所述词语的向量集合,所述向量集合包括各词语的词向量以及n-元笔画向量;
训练模块43,用于根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
如图5所示,是本说明书一个实施例的一种确定文本相似度的装置,所述装置50可包括:
获取模块51,用于获取至少两个文本;
向量生成模块52,用于生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块53,用于将所述至少两个文本以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本的相似度。
如图6所示,是本说明书一个实施例的一种目标类别的文本的检测装置,所述装置60可包括:
获取模块61,用于获取第二文本以及待检测的第一文本;
向量生成模块62,用于生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块63,用于将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
判定模块64,用基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
在一个实施例中,所述向量集合还包括所述词语的n-元拼音向量。
在一个实施例中,所述装置用于生成所述第一文本以及所述第二文本中各词语的向量集合之前,所述装置还用于:
对所述第一文本以及第二文本进行分词处理,得到一个或多个词语。
在一个实施例中,所述第二文本的类别通过无监督学习模型得到。
在一个实施例中,所述文本相似度计算模型基于第一训练文本中的各词语、第二训练文本中的各词语、以及由第一训练文本中的各词语和第二训练文本中的各词语的词向量和n元笔画向量构成的向量集合训练得到。
在一个实施例中,所述文本相似度计算模型为DSSM模型。
上述装置中各个模块的功能和作用的实现过程具体详情见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书装置的实施例可以应用在计算机设备上,例如服务器或智能终端。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书装置所在计算机设备的一种硬件结构图,除了图7所示的处理器702、内存704、网络接口706、以及非易失性存储器708之外,实施例中装置所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。其中,所述非易失性存储器708中存储有计算机指令,所述处理器702执行所述计算机指令可实现上述任一实施例中的目标类别的文本的检测方法、文本相似度计算方法以及文本相似度计算模型训练方法。
相应地,本说明书实施例还提供一种计算机存储介质,所述存储介质中存储有程序,所述程序被处理器执行时实现上述任一实施例中的方法。
本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的说明书后,将容易想到本说明书实施例的其它实施方案。本说明书实施例旨在涵盖本说明书实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书实施例的一般性原理并包括本说明书实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书实施例的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书实施例的范围仅由所附的权利要求来限制。
以上所述仅为本说明书实施例的较佳实施例而已,并不用以限制本说明书实施例,凡在本说明书实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书实施例保护的范围之内。
Claims (12)
1.一种目标类别的文本的检测方法,所述方法包括:
获取第二文本以及待检测的第一文本;
生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
2.根据权利要求1所述的检测方法,所述向量集合还包括所述词语的n-元拼音向量。
3.根据权利要求1所述的检测方法,生成所述第一文本以及所述第二文本中各词语的向量集合之前,所述方法还包括:
对所述第一文本以及第二文本进行分词处理,得到一个或多个词语。
4.根据权利要求1所述的检测方法,所述第二文本的类别通过无监督学习模型得到。
5.根据权利要求1所述的检测方法,所述文本相似度计算模型基于第一训练文本中的各词语、第二训练文本中的各词语、以及由第一训练文本中的各词语和第二训练文本中的各词语的词向量和n元笔画向量构成的向量集合训练得到。
6.根据权利要求1所述的检测方法,所述文本相似度计算模型为DSSM模型。
7.一种文本相似度计算模型的训练方法,所述方法包括:
获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
8.一种确定文本相似度的方法,所述方法包括:
获取至少两个文本;
生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
将所述至少两个文本中的各词语以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本之间的相似度。
9.一种目标类别的文本的检测装置,所述装置包括:
获取模块,用于获取第二文本以及待检测的第一文本;
向量生成模块,用于生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块,用于将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
判定模块,用基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。
10.一种文本相似度计算模型的训练装置,所述装置包括:
获取模块,用于获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
向量生成模块,用于生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
训练模块,用于根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。
11.一种确定文本相似度的装置,所述装置包括:
获取模块,用于至少两个文本;
向量生成模块,用于生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
计算模块,用于将所述至少两个文本中的各词语以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本的相似度。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911030483.9A CN111221960A (zh) | 2019-10-28 | 2019-10-28 | 文本检测方法、相似度计算方法、模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911030483.9A CN111221960A (zh) | 2019-10-28 | 2019-10-28 | 文本检测方法、相似度计算方法、模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111221960A true CN111221960A (zh) | 2020-06-02 |
Family
ID=70830574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911030483.9A Pending CN111221960A (zh) | 2019-10-28 | 2019-10-28 | 文本检测方法、相似度计算方法、模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221960A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695333A (zh) * | 2020-06-24 | 2020-09-22 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN111708884A (zh) * | 2020-06-02 | 2020-09-25 | 上海硬通网络科技有限公司 | 文本分类方法、装置及电子设备 |
CN111832288A (zh) * | 2020-07-27 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
WO2022095370A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 一种文本匹配方法、装置、终端设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503184A (zh) * | 2016-10-24 | 2017-03-15 | 海信集团有限公司 | 确定目标文本所属业务类别的方法及装置 |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN109299269A (zh) * | 2018-10-23 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN110046340A (zh) * | 2018-12-28 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本分类模型的训练方法和装置 |
CN110059155A (zh) * | 2018-12-18 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 文本相似度的计算、智能客服***的实现方法和装置 |
CN110321433A (zh) * | 2019-06-26 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 确定文本类别的方法及装置 |
-
2019
- 2019-10-28 CN CN201911030483.9A patent/CN111221960A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503184A (zh) * | 2016-10-24 | 2017-03-15 | 海信集团有限公司 | 确定目标文本所属业务类别的方法及装置 |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN109299269A (zh) * | 2018-10-23 | 2019-02-01 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN110059155A (zh) * | 2018-12-18 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 文本相似度的计算、智能客服***的实现方法和装置 |
CN110046340A (zh) * | 2018-12-28 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本分类模型的训练方法和装置 |
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN110321433A (zh) * | 2019-06-26 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 确定文本类别的方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708884A (zh) * | 2020-06-02 | 2020-09-25 | 上海硬通网络科技有限公司 | 文本分类方法、装置及电子设备 |
CN111695333A (zh) * | 2020-06-24 | 2020-09-22 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN111695333B (zh) * | 2020-06-24 | 2022-09-13 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN111832288A (zh) * | 2020-07-27 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
CN111832288B (zh) * | 2020-07-27 | 2023-09-29 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
WO2022095370A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 一种文本匹配方法、装置、终端设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN111221960A (zh) | 文本检测方法、相似度计算方法、模型训练方法及装置 | |
CN109460455B (zh) | 一种文本检测方法及装置 | |
CN109583468B (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
JP2019511037A (ja) | 機械学習モデルのモデリング方法及びデバイス | |
US7783581B2 (en) | Data learning system for identifying, learning apparatus, identifying apparatus and learning method | |
KR20080075501A (ko) | 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和*** | |
CN110491368B (zh) | 基于方言背景的语音识别方法、装置、计算机设备和存储介质 | |
CN112036187A (zh) | 一种结合上下文语境的视频弹幕文本审核方法及*** | |
CN106997350B (zh) | 一种数据处理的方法及装置 | |
CN114399382A (zh) | 用户欺诈风险的检测方法、装置、计算机设备及存储介质 | |
KR102334018B1 (ko) | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 | |
CN117409419A (zh) | 图像检测方法、设备及存储介质 | |
CN111612284B (zh) | 数据的处理方法、装置及设备 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
CN113761137A (zh) | 一种提取地址信息的方法及装置 | |
CN115774784A (zh) | 一种文本对象的识别方法及装置 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN114510720A (zh) | 一种基于特征融合和NLP技术的Android恶意软件分类方法 | |
CN109492396B (zh) | 基于语义分割的恶意软件基因快速检测方法和装置 | |
CN113177603A (zh) | 分类模型的训练方法、视频分类方法及相关设备 | |
CN113343699A (zh) | 日志安全风险的监测方法、装置、电子设备及介质 | |
CN115186775B (zh) | 一种图像描述文字的匹配度检测方法、装置及电子设备 | |
CN111159397A (zh) | 文本分类方法和装置、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |
|
RJ01 | Rejection of invention patent application after publication |