CN114386421A - 相似新闻检测方法、装置、计算机设备和存储介质 - Google Patents

相似新闻检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114386421A
CN114386421A CN202210035103.6A CN202210035103A CN114386421A CN 114386421 A CN114386421 A CN 114386421A CN 202210035103 A CN202210035103 A CN 202210035103A CN 114386421 A CN114386421 A CN 114386421A
Authority
CN
China
Prior art keywords
news
similar
vector
target
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210035103.6A
Other languages
English (en)
Inventor
严勇文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210035103.6A priority Critical patent/CN114386421A/zh
Publication of CN114386421A publication Critical patent/CN114386421A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种相似新闻检测方法方法、装置、计算机设备和存储介质,该方法包括:当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;将摘要输入预配置的孪生网络模型,得到目标新闻的向量表征信息;根据向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则基于相似向量表征信息,在预配置的历史新闻数据库中检索到目标新闻的相似新闻。上述方法可以提高相似新闻确定的处理效率。

Description

相似新闻检测方法、装置、计算机设备和存储介质
技术领域
本发明涉及大数据分析技术领域,特别是涉及相似新闻检测方法、装置、计算机设备和存储介质。
背景技术
海量文本相似度算法是文本处理中的重要基础性算法,很多文本处理程序如目标新闻分析中的目标新闻去重、搜索引擎的网页去重等都需要能够处理海量文本的相似度算法。
目前主流的海量文本相似度算法是simhash算法。simhash算法是一种局部敏感哈希算法,原理是将文本分解为词,计算每个词的hash值,并加权求和,求和后大于0的位置为1,等于0的位置保持为0,由此得到文本的hash串。过比较文本hash串的海明距离来判断文本是否相似,海明距离大于阈值的为不相似,反之为相似。然而,采用simhash等局部敏感哈希的方法实现,无法实现语义级相同目标新闻的判断(如文字描述相差较大,但描述的是同一件事)。
除了基本的simhash算法之外,还有基于bert的相似文本查询虽然具有语义能力,但是在目标新闻达到百万级时,工程的查询速度非常慢,无法应用在大流量的线上环境中。常规采用bert进行2条目标新闻的判断,需要逐条配对输入bert进行推理。例如,有A,B,C,D4条目标新闻,则需要A[SEP]B,A[SEP]C,A[SEP]D分3次输入bert中计算([SEP]在bert中为连接的符号)。假设有00万条目标新闻,则新进来的目标新闻需要进行00万次推理计算,在V00显卡下需要1小时才能计算完,这无法满足工程的时效需求。
发明内容
本申请提供了一种相似新闻检测方法、装置、计算机设备和存储介质。
第一方面提供了一种相似新闻检测方法,所述方法包括:
当确定目标新闻的相似新闻时,对所述目标新闻进行基础信息采集,所述基础信息采集至少包括:提取所述目标新闻的摘要;
将所述摘要输入预配置的孪生网络模型,得到所述目标新闻的向量表征信息;
根据所述向量表征信息,在预配置的向量数据库中进行搜索,确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息;其中所述向量数据库存储有进行历史新闻的相似新闻检测时对所述历史新闻处理提取的向量表征信息;
当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则基于所述相似向量表征信息,在预配置的历史新闻数据库中检索到所述目标新闻的相似新闻。
在一些实施例中,所述提取所述目标新闻的摘要,包括:
将所述目标新闻进行切句得到句子列表;
将所述句子列表输入预配置的Bert模型中,提取得到文本特征;
将所述文本特征输入奇偶句编码层,识别句子中词语数量是奇数还是偶数,对奇数句和偶数句执行分开编码;
采用从transformer模型提取出的解码器进行解码,提取所述目标新闻的摘要。
在一些实施例中,当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则所述相似新闻检测方法,还包括:
将所述摘要输入预配置的实体提取模型,得到所述摘要中的命名实体;
将所述摘要输入预配置的关键词提取模型,得到所述摘要中的关键词;
将所述摘要输入预配置的分类模型,得到根据所述摘要确定所述目标新闻的目标新闻分类;
对所述目标新闻进行唯一ID的标注;
基于关系型数据库的建立算法,将所述目标新闻、所述摘要、所述命名实体、所述关键词、所述目标新闻分类以及所述唯一ID转换为数据库索引信息,并存储至历史新闻数据库中;
将所述文本特征向量和所述唯一ID转换为向量索引信息,并存储至所述向量数据库中。
在一些实施例中,在确定所述相似向量表征信息对应的历史新闻为所述目标新闻的相似新闻之后,还包括:
根据所述目标新闻与所述历史新闻的海明距离、第一重合度、第二重合度和第三重合度之一或组合,确定所述目标新闻和所述历史新闻是否为语义相同目标新闻;其中,所述海明距离为所述目标新闻的simhash值与所述历史新闻的simhash值的海明距离;所述第一重合度为所述目标新闻的命名实体与所述历史新闻的命名实体的重合度;所述第二重合度为所述目标新闻的关键词与所述历史新闻的关键词的重合度;所述第三重合度为所述目标新闻的目标新闻分类与所述历史新闻的目标新闻分类的重合度。
在一些实施例中,所述提取所述摘要中的命名实体,包括:
所述目标新闻的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到所述摘要中的命名实体;其中,所述BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量;所述CRF推理层用于基于所述新的特征向量输出概率最大的命名实体。
在一些实施例中,所述将所述目标新闻的摘要作为预配置的孪生网络模型的输入中,所述孪生网络模型的训练方法包括:
获取多篇相同训练新闻和多篇相似训练新闻;
对所述目标新闻进行基础信息采集,提取所述训练新闻的摘要;
将相同的训练新闻的摘要作为正样例输入孪生网络模型,将相似训练新闻的摘要作为负样例输入孪生网络模型,孪生网络模型利用Bert模型,将摘要转换为一个向量,并经过平均池化层,输出的2个向量进行相似度计算,得到两个训练新闻的相似度;
根据所述两个训练新闻的相似度对所述孪生网络模型进行训练。
在一些实施例中,所述确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息,包括:
根据所述目标新闻的向量表征信息与所述向量数据库中的向量表征信息之间的余弦相似度确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息。
第二方面提供了一种相似新闻检测装置,包括:
基础信息采集单元,用于当确定目标新闻的相似新闻时,对所述目标新闻进行基础信息采集,所述基础信息采集至少包括:提取所述目标新闻的摘要;
孪生网络模型单元,用于将所述摘要输入预配置的孪生网络模型,得到所述目标新闻的向量表征信息;
向量数据库单元,用于根据所述向量表征信息,在预配置的向量数据库中进行搜索,确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息;其中所述向量数据库存储有进行历史新闻的相似新闻检测时对所述历史新闻处理提取的向量表征信息;
结果输出单元,用于当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则基于所述相似向量表征信息,在预配置的历史新闻数据库中检索到所述目标新闻的相似新闻。
第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述相似新闻检测方法的步骤。
第四方面提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述相似新闻检测方法的步骤。
上述相似新闻检测方法、装置、计算机设备和存储介质,首先当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;其次将目标新闻的摘要作为预配置的孪生网络模型的输入,得到目标新闻的向量表征信息;再次根据目标新闻的向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;向量数据库存储有进行历史新闻的相似新闻检测时对历史新闻处理提取的向量表征信息;最后当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则确定相似向量表征信息对应的历史新闻为目标新闻的相似新闻。因此,本申请通过sbert模型,相同新闻的文本比较转为向量的相似度比较问题,同时依托于预配置的向量数据库,预先得到所有历史新闻的向量表征信息,使得语义级相同新闻的判断具备在亿级新闻数量级中,仍然可以在100毫秒内(典型值)完成结果的输出,即相较于现有技术,能够很好地提高匹配结果精度以及匹配效率。
附图说明
图1为一个实施例中提供的相似新闻检测方法的实施环境图;
图2为一个实施例中相似新闻检测方法的流程图;
图3为一个实施例中相似新闻检测方法的孪生网络模型的结构示意图;
图4为一个实施例中相似新闻检测装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,首先对本发明实施例涉及的技术术语进行解释:
孪生神经网络(Siameseneuralnetwork),又名双生神经网络,是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入,输出其嵌入高维度空间的表征,以比较两个样本的相似程度。狭义的孪生神经网络由两个结构相同,且权重共享的神经网络拼接而成。广义的孪生神经网络,或“伪孪生神经网络(pseudo-siamesenetwork)”,可由任意两个神经网拼接而成。孪生神经网络通常具有深度结构,可由卷积神经网络、循环神经网络等组成。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征。在自监督或非监督学习范式下,孪生神经网络可以最小化原输入和干扰输入(例如原始图像和该图像的裁减)间的表征。孪生神经网络可以进行小样本/单样本学习(one-shotlearning),且不容易被错误样本干扰,因此可用于对容错率要求严格的模式识别问题,例如人像识别、指纹识别、目标追踪等。
Bert(BidirectionalEncoder Representations from Transformers)是一个预训练的模型,Bert的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,Bert旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的Bert表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。
simhash是常用的文本去重hash算法之一,类似于md5、crc32等。原理是通过对文本数据提取的关键词做权重计算,最终将一篇大段的文本映射为仅8字节的hash值。其本身并不支持直接对文本进行相似性分析计算,但其产生的hash结果值可通过海明距离算法进行比对,从而计算出文本间的相似度。因为海明距离的计算所针对的是simhash的结果,并不是原有的文本数据,其计算量非常小,而且simhash结果可在取得文本数据后就提前计算取得。
如图1所示,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端是服务器。
如图1所示,该终端可以包括:处理器001,例如CPU,网络接口004,用户接口003,存储器005,通信总线002。其中,通信总线002用于实现这些组件之间的连接通信。用户接口003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口003还可以包括标准的有线接口、无线接口。网络接口004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器005可选的还可以是独立于前述处理器001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器005中可以包括操作***、网络通信模块、用户接口模块以及文本信息匹配度量程序。
在图1所示的终端中,网络接口004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器可以用于调用存储器005中存储的文本信息匹配度量程序。
如图2所示,在一个实施例中,提出了一种相似新闻检测方法,具体可以包括以下步骤:
步骤201、当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;
在一些实施例中,提取目标新闻的摘要,包括:
步骤201a、将目标新闻进行切句得到句子列表;
其中,采用[CLS]分割目标新闻。
步骤201b、将句子列表输入预配置的Bert模型中,提取得到文本特征;、
其中,可从Bert模型所在的程序管理库中直接接收Bert模型。Bert模型(Bidirectional Encoder Representations from Transformers)是一种当前已公开的通用自然语言处理框架,内部结构包括嵌入层、多头注意力机制层及前馈反向层,其中嵌入层的作用是将文本用矩阵进行表示,多头注意力机制层的作用是从矩阵文本中提取得到文本特征,前馈反向层的作用是根据文本特征调解Bert模型的内部参数,达到优化Bert模型的目的。
步骤201c、将文本特征输入奇偶句编码层,识别句子中词语数量是奇数还是偶数,对奇数句和偶数句执行分开编码;
其中,摘要提取模型是在Bert模型中的前馈反向层后,添加奇偶句编码层,得到编码器;奇偶句编码层的主要目的是识别句子中词语数量是奇数还是偶数,从而对奇数句和偶数句执行分开编码。其中,奇偶句编码层包括结巴分词程序,利用结巴分词程序拆分句子得到多组词语,并遍历多组词语的数量,从而完成对句子中词语数量的识别。
步骤201d、采用从transformer模型提取出的解码器进行解码,提取目标新闻的摘要。
transformer模型是一种开源的自然语言处理模型,包括解码器,本实施例中,从数据库中接收transformer模型,并提取出解码器。从transformer模型中提取解码器,组合编码器和解码器,得到摘要提取模型。
步骤202、将摘要输入预配置的孪生网络模型,得到目标新闻的向量表征信息;
可以理解的是,由于孪生网络由两个并行的BERT模型组成,每次输入的数据是一组句子对,因此需要对数据做一些加工处理完成训练。需要构造相似句子和相同的句子,在该实施例中相同是指语义级别意义上的相同。训练过程是将上述两个问题输入到孪生网络的BERT模型中,两个BERT模型共享参数,分别取最后一层的输出,采用平均池化策略,对所有token的每一维度输出取平均值作为Embedding向量。假设第一个句子的输出向量为u,第二个句子的输出向量为v,采用cos相似度作为优化的目标函数。使用这个新的网络进行训练,对BERT网络进行FineTurning。
如图3所示,孪生网络利用Bert预训练模型,从文本中得到句子(sentence)的向量,并经过池化(pooling),和全连接层(dense),得到2个输出(u,v),并对输出值进行余弦相似度的计算,得到最终相似的概率值。
在一些实施例中,上述步骤202中将目标新闻的摘要作为预配置的孪生网络模型的输入中,孪生网络模型的训练方法包括:
步骤202a、获取多篇相同训练新闻和多篇相似训练新闻;
步骤202b、对目标新闻进行基础信息采集,提取训练新闻的摘要;
步骤202c、将相同的训练新闻的摘要作为正样例输入孪生网络模型,将相似训练新闻的摘要作为负样例输入孪生网络模型,孪生网络模型利用Bert模型,将摘要转换为一个向量,并经过平均池化层,输出的2个向量进行相似度计算,得到两个训练新闻的相似度;
步骤202d、根据两个训练新闻的相似度对孪生网络模型进行训练。
步骤203、根据向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;其中向量数据库存储有进行历史新闻的相似新闻检测时对历史新闻处理提取的向量表征信息;
可以理解的是,标题+摘要通过sbert模型再平均池化后得到的向量,***milvus向量数据库中(milvus支持近实时搜索,***落盘即可检索)。对该目标新闻向量在milvus或faiss等向量数据库中进行检索。
步骤204、当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则基于相似向量表征信息,在预配置的历史新闻数据库中检索到目标新闻的相似新闻。
在一些实施例中,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息,可以包括:根据目标新闻的向量表征信息与向量数据库中的向量表征信息之间的余弦相似度确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息。
在一些实施例中,当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则实施例相似新闻检测方法,还包括:
(1)提取目标新闻的摘要中的命名实体;
在一些实施例中,提取目标新闻的摘要中的命名实体,包括:
目标新闻的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到目标新闻的摘要中的命名实体;其中,BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;BiLSTM网络层用于将字向量组成的序列双向编码获取新的特征向量;CRF推理层用于基于新的特征向量输出概率最大的命名实体。
本实施例基于BERT模型构建的命名实体识别模型,很好的解决了标注数据不足以及实体边界模糊时实体识别困难,精度不高的问题,提高实体识别模型的性能和识别准确率。
(2)提取目标新闻的摘要中的关键词;
在一些实施例中,通过tf-idf算法提取摘要的关键词。
(3)根据目标新闻的摘要,确定目标新闻的目标新闻分类;
在一些实施例中,确定目标新闻的目标新闻分类,可以包括:
采用LDA模型对训练新闻进行聚类,对各类训练新闻进行类别标注;
将训练新闻事件和目标新闻事件的类别标注作为作为BERT模型的训练数据,对所BERT模型进行训练,得到类型分析模型;
将最近目标新闻事件的摘要输入类型分析模型,得到最近目标新闻事件的类型。
(4)对目标新闻进行唯一ID的标注;
(5)基于关系型数据库的建立算法,将目标新闻、摘要、命名实体、关键词、目标新闻分类以及唯一ID转换为数据库索引信息,并存储至历史新闻数据库中;
(6)将文本特征向量和唯一ID转换为向量索引信息,并存储至向量数据库中。
进一步地,步骤204后,将目标新闻的相似新闻召回,召回后,需要对相似但不相同的目标新闻进行过滤,以提高精准率。
在一些实施例中,在确定相似向量表征信息对应的历史新闻为目标新闻的相似新闻之后,还包括:
根据目标新闻与历史新闻的海明距离、第一重合度、第二重合度和第三重合度之一或组合,确定目标新闻和历史新闻是否为语义相同目标新闻;其中,海明距离为目标新闻的simhash值与历史新闻的simhash值的海明距离;第一重合度为目标新闻的命名实体与历史新闻的命名实体的重合度;第二重合度为目标新闻的关键词与历史新闻的关键词的重合度;第三重合度为目标新闻的目标新闻分类与历史新闻的目标新闻分类的重合度。
具体举例:
目标新闻和历史新闻之间的余弦相似度大于0.8,否则过滤
目标新闻和历史新闻之间的simhash值小于20,直接采用
目标新闻和历史新闻之间的simhash值大于等于20的,采用如下方法过滤:
采用LAC(百度分词器)的rank模式,对标题+摘要进行关键词提取,其中,得分为3的为核心(core)关键词,得分为2的为重要(important)关键词。
如果新引入的目标新闻包含有核心关键词,且与之比较的所有历史新闻都包含其中任意一个核心关键词,则直接采用
如果新引入的目标新闻没有核心关键词,则比较重要关键词。
且与之比较的所有历史新闻都包含其中任意2个重要关键词,则直接采用。
如图4所示,在一个实施例中,提供了一种相似新闻检测装置,具体可以包括:
基础信息采集单元411,用于当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;
孪生网络模型单元412,用于将目标新闻的摘要作为预配置的孪生网络模型的输入,得到目标新闻的向量表征信息;
向量数据库单元413,用于根据目标新闻的向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;向量数据库存储有进行历史新闻的相似新闻检测时对历史新闻处理提取的向量表征信息;
结果输出单元414,用于当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则确定相似向量表征信息对应的历史新闻为目标新闻的相似新闻。
在一个实施例中,提出了一种计算机设备,计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:接收理赔请求,并根据理赔请求确定理赔数据,理赔数据可以包括当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;将目标新闻的摘要作为预配置的孪生网络模型的输入,得到目标新闻的向量表征信息;根据目标新闻的向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;向量数据库存储有进行历史新闻的相似新闻检测时对历史新闻处理提取的向量表征信息;当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则确定相似向量表征信息对应的历史新闻为目标新闻的相似新闻。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:当确定目标新闻的相似新闻时,对目标新闻进行基础信息采集,基础信息采集至少包括:提取目标新闻的摘要;将目标新闻的摘要作为预配置的孪生网络模型的输入,得到目标新闻的向量表征信息;根据目标新闻的向量表征信息,在预配置的向量数据库中进行搜索,确定向量数据库中是否存在目标新闻的向量表征信息的相似向量表征信息;向量数据库存储有进行历史新闻的相似新闻检测时对历史新闻处理提取的向量表征信息;当向量数据库中存在目标新闻的向量表征信息的相似向量表征信息,则确定相似向量表征信息对应的历史新闻为目标新闻的相似新闻。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种相似新闻检测方法,其特征在于,所述方法包括:
当确定目标新闻的相似新闻时,对所述目标新闻进行基础信息采集,所述基础信息采集至少包括:提取所述目标新闻的摘要;
将所述摘要输入预配置的孪生网络模型,得到所述目标新闻的向量表征信息;
根据所述向量表征信息,在预配置的向量数据库中进行搜索,确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息;其中所述向量数据库存储有进行历史新闻的相似新闻检测时对所述历史新闻处理提取的向量表征信息;
当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则基于所述相似向量表征信息,在预配置的历史新闻数据库中检索到所述目标新闻的相似新闻。
2.根据权利要求1所述的相似新闻检测方法,其特征在于,所述提取所述目标新闻的摘要,包括:
将所述目标新闻进行切句得到句子列表;
将所述句子列表输入预配置的Bert模型中,提取得到文本特征;
将所述文本特征输入奇偶句编码层,识别句子中词语数量是奇数还是偶数,对奇数句和偶数句执行分开编码;
采用从transformer模型提取出的解码器进行解码,提取所述目标新闻的摘要。
3.根据权利要求1所述的相似新闻检测方法,其特征在于,当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则所述相似新闻检测方法,还包括:
将所述摘要输入预配置的实体提取模型,得到所述摘要中的命名实体;
将所述摘要输入预配置的关键词提取模型,得到所述摘要中的关键词;
将所述摘要输入预配置的分类模型,得到根据所述摘要确定所述目标新闻的目标新闻分类;
对所述目标新闻进行唯一ID的标注;
基于关系型数据库的建立算法,将所述目标新闻、所述摘要、所述命名实体、所述关键词、所述目标新闻分类以及所述唯一ID转换为数据库索引信息,并存储至历史新闻数据库中;
将所述文本特征向量和所述唯一ID转换为向量索引信息,并存储至所述向量数据库中。
4.根据权利要求3所述的相似新闻检测方法,其特征在于,在确定所述相似向量表征信息对应的历史新闻为所述目标新闻的相似新闻之后,还包括:
根据所述目标新闻与所述历史新闻的海明距离、第一重合度、第二重合度和第三重合度之一或组合,确定所述目标新闻和所述历史新闻是否为语义相同目标新闻;其中,所述海明距离为所述目标新闻的simhash值与所述历史新闻的simhash值的海明距离;所述第一重合度为所述目标新闻的命名实体与所述历史新闻的命名实体的重合度;所述第二重合度为所述目标新闻的关键词与所述历史新闻的关键词的重合度;所述第三重合度为所述目标新闻的目标新闻分类与所述历史新闻的目标新闻分类的重合度。
5.根据权利要求3所述的相似新闻检测方法,其特征在于,所述提取所述摘要中的命名实体,包括:
所述目标新闻的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到所述摘要中的命名实体;其中,所述BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量;所述CRF推理层用于基于所述新的特征向量输出概率最大的命名实体。
6.根据权利要求1所述的相似新闻检测方法,其特征在于,所述将所述目标新闻的摘要作为预配置的孪生网络模型的输入中,所述孪生网络模型的训练方法包括:
获取多篇相同训练新闻和多篇相似训练新闻;
对所述目标新闻进行基础信息采集,提取所述训练新闻的摘要;
将相同的训练新闻的摘要作为正样例输入孪生网络模型,将相似训练新闻的摘要作为负样例输入孪生网络模型,孪生网络模型利用Bert模型,将摘要转换为一个向量,并经过平均池化层,输出的2个向量进行相似度计算,得到两个训练新闻的相似度;
根据所述两个训练新闻的相似度对所述孪生网络模型进行训练。
7.根据权利要求1所述的相似新闻检测方法,其特征在于,所述确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息,包括:
根据所述目标新闻的向量表征信息与所述向量数据库中的向量表征信息之间的余弦相似度确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息。
8.一种相似新闻检测装置,其特征在于,包括:
基础信息采集单元,用于当确定目标新闻的相似新闻时,对所述目标新闻进行基础信息采集,所述基础信息采集至少包括:提取所述目标新闻的摘要;
孪生网络模型单元,用于将所述摘要输入预配置的孪生网络模型,得到所述目标新闻的向量表征信息;
向量数据库单元,用于根据所述向量表征信息,在预配置的向量数据库中进行搜索,确定所述向量数据库中是否存在所述目标新闻的向量表征信息的相似向量表征信息;其中所述向量数据库存储有进行历史新闻的相似新闻检测时对所述历史新闻处理提取的向量表征信息;
结果输出单元,用于当所述向量数据库中存在所述目标新闻的向量表征信息的相似向量表征信息,则基于所述相似向量表征信息,在预配置的历史新闻数据库中检索到所述目标新闻的相似新闻。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述相似新闻检测方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述相似新闻检测方法的步骤。
CN202210035103.6A 2022-01-13 2022-01-13 相似新闻检测方法、装置、计算机设备和存储介质 Withdrawn CN114386421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210035103.6A CN114386421A (zh) 2022-01-13 2022-01-13 相似新闻检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210035103.6A CN114386421A (zh) 2022-01-13 2022-01-13 相似新闻检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114386421A true CN114386421A (zh) 2022-04-22

Family

ID=81202348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210035103.6A Withdrawn CN114386421A (zh) 2022-01-13 2022-01-13 相似新闻检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114386421A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309860A (zh) * 2022-07-18 2022-11-08 黑龙江大学 基于伪孪生网络的虚假新闻检测方法
CN116304065A (zh) * 2023-05-23 2023-06-23 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116304745A (zh) * 2023-03-27 2023-06-23 济南大学 基于深层次语义信息的文本话题匹配方法及***
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配***及方法
CN117573726A (zh) * 2024-01-12 2024-02-20 邯郸鉴晨网络科技有限公司 一种基于大数据的订单信息智能搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及***
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112528013A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 文本摘要提取方法、装置、电子设备及存储介质
WO2021196468A1 (zh) * 2020-03-31 2021-10-07 深圳壹账通智能科技有限公司 标签建立方法、装置、电子设备及介质
CN113704386A (zh) * 2021-10-27 2021-11-26 深圳前海环融联易信息科技服务有限公司 一种基于深度学习的文本推荐方法、装置及相关介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置
WO2021196468A1 (zh) * 2020-03-31 2021-10-07 深圳壹账通智能科技有限公司 标签建立方法、装置、电子设备及介质
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及***
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112528013A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 文本摘要提取方法、装置、电子设备及存储介质
CN113704386A (zh) * 2021-10-27 2021-11-26 深圳前海环融联易信息科技服务有限公司 一种基于深度学习的文本推荐方法、装置及相关介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309860A (zh) * 2022-07-18 2022-11-08 黑龙江大学 基于伪孪生网络的虚假新闻检测方法
CN116304745A (zh) * 2023-03-27 2023-06-23 济南大学 基于深层次语义信息的文本话题匹配方法及***
CN116304745B (zh) * 2023-03-27 2024-04-12 济南大学 基于深层次语义信息的文本话题匹配方法及***
CN116304065A (zh) * 2023-05-23 2023-06-23 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116304065B (zh) * 2023-05-23 2023-09-29 美云智数科技有限公司 舆情文本分类方法、装置、电子设备及存储介质
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配***及方法
CN116522165B (zh) * 2023-06-27 2024-04-02 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配***及方法
CN117573726A (zh) * 2024-01-12 2024-02-20 邯郸鉴晨网络科技有限公司 一种基于大数据的订单信息智能搜索方法
CN117573726B (zh) * 2024-01-12 2024-05-03 新疆原行网智慧文旅有限公司 一种基于大数据的订单信息智能搜索方法

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN114386421A (zh) 相似新闻检测方法、装置、计算机设备和存储介质
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN111125460B (zh) 信息推荐方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN111428028A (zh) 基于深度学习的信息分类方法及相关设备
CN112131352A (zh) 一种网页文本类不良信息的检测方法与检测***
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN114218348A (zh) 基于问答文本的直播片段获取方法、装置、设备及介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN117609479B (zh) 一种模型处理方法、装置、设备、介质及产品
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116663536A (zh) 一种临床诊断标准词的匹配方法及装置
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN116127097A (zh) 一种结构化文本关系抽取方法、装置、设备
Müller-Budack et al. Finding person relations in image data of news collections in the internet archive
CN113010643B (zh) 佛学领域词汇的处理方法、装置、设备及存储介质
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和***
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN117725555B (zh) 多源知识树的关联融合方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220422

WW01 Invention patent application withdrawn after publication