CN116521892A - 知识图谱的应用方法、装置、电子设备、介质和程序产品 - Google Patents
知识图谱的应用方法、装置、电子设备、介质和程序产品 Download PDFInfo
- Publication number
- CN116521892A CN116521892A CN202310461551.7A CN202310461551A CN116521892A CN 116521892 A CN116521892 A CN 116521892A CN 202310461551 A CN202310461551 A CN 202310461551A CN 116521892 A CN116521892 A CN 116521892A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- model
- entities
- triplet
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 230000004044 response Effects 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 230000002265 prevention Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 85
- 238000012549 training Methods 0.000 claims description 60
- 238000012795 verification Methods 0.000 claims description 53
- 238000010276 construction Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 108091026890 Coding region Proteins 0.000 description 6
- 230000004913 activation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012800 visualization Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于诈骗资讯的知识图谱的应用方法、装置、电子设备、介质和计算机程序产品。上述方法和装置可用于人工智能技术领域。上述方法包括根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;响应于查询请求,确定查询结果;利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案;以及根据查询结果或相关答案匹配防诈骗提示。其中,根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;对三元组预选集中的实体进行对齐,得到三元组集;以及根据三元组集构建知识图谱。
Description
技术领域
本公开涉及人工智能技术领域,更具体地,涉及一种基于诈骗资讯的知识图谱的应用方法、装置、电子设备、介质和计算机程序产品。
背景技术
随着网络的普及和快速发展,诈骗活动日新月异,银行作为交易的一线,拥有大量的诈骗资讯信息和具体的交易信息,可以理解的是,通过分析可以发现诈骗手段或账户信息等都是有迹可循的,如果能够将零散的诈骗资讯信息联系起来,可以有效的预防诈骗的产生,保障用户的财产安全。
发明内容
有鉴于此,本公开提供了一种能够获取全面的诈骗资讯,还可以获取到相应的防诈骗提示,从而可以有效的预防诈骗的产生,保障用户的财产安全的基于诈骗资讯的知识图谱的应用方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
本公开的一个方面提供了一种基于诈骗资讯的知识图谱的应用方法,包括:根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;响应于查询请求,确定查询结果,其中,所述查询请求包括与节点和/或边有关的关键词,所述查询结果包括所述知识图谱中的与所述查询请求对应的节点和/或边以及该节点和/或该边的关联信息;利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案;以及根据所述查询结果或所述相关答案匹配防诈骗提示。
其中,所述根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;对所述三元组预选集中的实体进行对齐,得到三元组集;以及根据所述三元组集构建知识图谱。
根据本公开实施例的基于诈骗资讯的知识图谱的应用方法,根据实时获得的银行内***的诈骗资讯信息,可以实时构建知识图谱。响应于查询请求,可以在知识图谱中进行搜索,因此可以在知识图谱中确定查询结果。利用预先构建的问答模型,响应于询问请求,可以从知识图谱中确定相关答案,相关答案可以为与询问请求中的问句相关的节点和/或边,以及与节点和/或边关联的边和/或节点。根据查询结果或相关答案可以在预先构建的防诈骗提示库中匹配防诈骗提示。本公开的应用方法能够将零散的诈骗资讯信息联系起来,响应于查询或者询问,可以获取全面的诈骗资讯,还可以获取到相应的防诈骗提示,从而可以有效的预防诈骗的产生,保障用户的财产安全。
在一些实施例中,所述对所述三元组预选集中的实体进行对齐,得到三元组集,包括:计算所述三元组预选集中的每两个实体之间的相似度;当两个实体之间的相似度满足设定阈值时,判断该两个实体所在的三元组中的关系是否一致;当该两个实体所在的三元组中的关系一致时,删除该两个实体所在的三元组中的其中一个;以及当该两个实体所在的三元组中的关系不一致时,用该两个实体中的一个替换另一个。
在一些实施例中,所述计算所述三元组预选集中的每两个实体之间的相似度,包括:利用Dice距离法,计算所述三元组预选集中的每两个实体之间的第一相似度;利用编辑距离法,计算该两个实体之间的第二相似度;以及对所述第一相似度和所述第二相似度加权求和,得到所述三元组预选集中的每两个实体之间的相似度。
在一些实施例中,所述预先构建实体关系抽取模型,包括:操作S41,根据训练文本数据中对每个单词的标注,训练所述实体关系抽取模型中的三元组的三元素的抽取规则,得到预抽取规则,其中,所述三元素包括第一实体、第一实体与第二实体之间的关系和第二实体;操作S42,利用验证文本数据对所述实体关系抽取模型的预抽取规则进行验证;操作S43,若验证通过,将所述预抽取规则作为所述实体关系抽取模型的抽取规则进行应用;以及操作S44,若验证未通过,重复执行操作S41和操作S42,直至验证通过。
在一些实施例中,所述利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案,包括:利用预先构建的向量拼接模型将所述询问请求的问句向量和所述知识图谱中的m个预选相关答案向量进行拼接,得到m个拼接向量,其中,m为大于等于1的整数;利用预先构建的概率预测模型,预测所述m个拼接向量中每个拼接向量的概率值;以及根据所述m个概率值的排序,确定m个预选相关答案中的一个作为相关答案。
在一些实施例中,所述预先构建向量拼接模型,包括:操作S61,根据训练样本,对向量拼接模型中的拼接参数进行训练,得到训练拼接参数,其中,所述训练样本包括问句向量和与该问句向量对应的预选相关答案向量;操作S62,利用验证样本对所述向量拼接模型的训练拼接参数进行验证;操作S63,若验证通过,将所述训练拼接参数作为所述向量拼接模型的模型参数进行应用;以及操作S64,若验证未通过,重复执行操作S61和操作S62,直至验证通过。
在一些实施例中,所述预先构建概率预测模型,包括:操作S71,根据拼接向量训练样本,对概率预测模型中的概率预测参数进行训练,得到训练概率预测参数;操作S72,利用拼接向量验证样本对所述概率预测模型的训练概率预测参数进行验证;操作S73,若验证通过,将所述训练概率预测参数作为所述概率预测模型的模型参数进行应用;以及操作S74,若验证未通过,重复执行操作S71和操作S72,直至验证通过。
本公开的另一个方面提供了一种基于诈骗资讯的知识图谱的应用装置,包括:第一构建模块,所述第一构建模块用于执行根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;第一确定模块,所述第一确定模块用于执行响应于查询请求,确定查询结果,其中,所述查询请求包括与节点和/或边有关的关键词,所述查询结果包括所述知识图谱中的与所述查询请求对应的节点和/或边以及该节点和/或该边的关联信息;第二确定模块,所述第二确定模块用于执行利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案;以及匹配模块,所述匹配模块用于执行根据所述查询结果或所述相关答案匹配防诈骗提示。
其中,所述根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;对所述三元组预选集中的实体进行对齐,得到三元组集;以及根据所述三元组集构建知识图谱。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及一个或多个存储器,其中,所述存储器用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现如上所述方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用方法、装置的示例性***架构;
图2示意性示出了根据本公开实施例的基于诈骗资讯的知识图谱的应用方法的流程图;
图3示意性示出了根据本公开实施例的根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱的流程图;
图4示意性示出了根据本公开实施例的对三元组预选集中的实体进行对齐,得到三元组集的流程图;
图5示意性示出了根据本公开实施例的计算三元组预选集中的每两个实体之间的相似度的流程图;
图6示意性示出了根据本公开实施例的预先构建实体关系抽取模型的流程图;
图7示意性示出了根据本公开实施例的利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案的流程图;
图8示意性示出了根据本公开实施例的预先构建向量拼接模型的流程图;
图9示意性示出了根据本公开实施例的预先构建概率预测模型的流程图;
图10示意性示出了根据本公开实施例的基于Dice和编辑距离的实体对齐方法的流程图;
图11示意性示出了根据本公开实施例的问句-关系语义匹配的流程图;
图12示意性示出了根据本公开实施例的银行诈骗领域知识图谱检索平台总体架构图;
图13示意性示出了根据本公开实施例的后端网页架构图;
图14示意性示出了根据本公开实施例的在双击扩展这一操作时底层的操作流程图;
图15示意性示出了根据本公开实施例的基于诈骗资讯的知识图谱的应用装置的框图;
图16示意性示出了根据本公开实施例的第一构建模块的框图;
图17示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。在本公开的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
随着网络的普及和快速发展,诈骗活动日新月异,银行作为交易的一线,拥有大量的诈骗资讯信息和具体的交易信息,可以理解的是,通过分析可以发现诈骗手段或账户信息等都是有迹可循的,如果能够将零散的诈骗资讯信息联系起来,可以有效的预防诈骗的产生,保障用户的财产安全。
本公开的实施例提供了一种基于诈骗资讯的知识图谱的应用方法、装置、电子设备、计算机可读存储介质和计算机程序产品。基于诈骗资讯的知识图谱的应用方法,包括:根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;响应于查询请求,确定查询结果,其中,查询请求包括与节点和/或边有关的关键词,查询结果包括知识图谱中的与查询请求对应的节点和/或边以及该节点和/或该边的关联信息;利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案;以及根据查询结果或相关答案匹配防诈骗提示。
其中,根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;对三元组预选集中的实体进行对齐,得到三元组集;以及根据三元组集构建知识图谱。
需要说明的是,本公开的基于诈骗资讯的知识图谱的应用方法、装置、电子设备、计算机可读存储介质和计算机程序产品可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,例如金融领域,这里对本公开的领域不做限定。
图1示意性示出了根据本公开实施例的可以应用基于诈骗资讯的知识图谱的应用方法、装置、电子设备、计算机可读存储介质和计算机程序产品的示例性***架构100。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的基于诈骗资讯的知识图谱的应用方法一般可以由服务器105执行。相应地,本公开实施例所提供的基于诈骗资讯的知识图谱的应用装置一般可以设置于服务器105中。本公开实施例所提供的基于诈骗资讯的知识图谱的应用方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的基于诈骗资讯的知识图谱的应用装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图9对本公开实施例的基于诈骗资讯的知识图谱的应用方法进行详细描述。
图2示意性示出了根据本公开实施例的基于诈骗资讯的知识图谱的应用方法的流程图。
如图2所示,该实施例的基于诈骗资讯的知识图谱的应用方法包括操作S210~操作S240。
在操作S210,根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱。
在操作S220,响应于查询请求,确定查询结果,其中,查询请求包括与节点和/或边有关的关键词,查询结果包括知识图谱中的与查询请求对应的节点和/或边以及该节点和/或该边的关联信息。
在操作S230,利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案。
在操作S240,根据查询结果或相关答案匹配防诈骗提示。
其中,如图3所示,操作S210根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括操作S211~操作S213。
在操作S211,利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集。
在操作S212,对三元组预选集中的实体进行对齐,得到三元组集。
在操作S213,根据三元组集构建知识图谱。通过操作S211~操作S213可以便于实现根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,其中,对齐操作后的三元组集与未进行对齐操作的三元组预选集相比,数据更干净,没有噪音干扰,使得通过三元组集构建的知识图谱更精简,便于在操作S220和操作S230中更高效地使用知识图谱。
根据本公开实施例的基于诈骗资讯的知识图谱的应用方法,根据实时获得的银行内***的诈骗资讯信息,可以实时构建知识图谱。响应于查询请求,可以在知识图谱中进行搜索,因此可以在知识图谱中确定查询结果。利用预先构建的问答模型,响应于询问请求,可以从知识图谱中确定相关答案,相关答案可以为与询问请求中的问句相关的节点和/或边,以及与节点和/或边关联的边和/或节点。根据查询结果或相关答案可以在预先构建的防诈骗提示库中匹配防诈骗提示。本公开的应用方法能够将零散的诈骗资讯信息联系起来,响应于查询或者询问,可以获取全面的诈骗资讯,还可以获取到相应的防诈骗提示,从而可以有效的预防诈骗的产生,保障用户的财产安全。
图4示意性示出了根据本公开实施例的对三元组预选集中的实体进行对齐,得到三元组集的流程图。
操作S212对三元组预选集中的实体进行对齐,得到三元组集,包括操作S2121~操作S2124。
在操作S2121,计算三元组预选集中的每两个实体之间的相似度。
作为一种可实施的方式,如图5所示,操作S2121计算三元组预选集中的每两个实体之间的相似度,包括操作S21211~操作S21213。
在操作S21211,利用Dice距离法,计算三元组预选集中的每两个实体之间的第一相似度。例如,第一相似度可以用Dice(e1,e2)表示,第一相似度可以通过公式(1)求得。
其中,e1表示每两个实体中的其中一个,e2表示每两个实体中的另外一个,Len(e1)表示e1的字符串长度,Len(e2)表示e2的字符串长度,common(e1,e2)表示e1和e2相同字符的个数。
在操作S21212,利用编辑距离法,计算该两个实体之间的第二相似度。可以理解的是,编辑距离法的原理可以如公式(2)所示。
Distance为编辑距离,i为一个字符串长度,j为另一个字符串长度,当min(i,j)=0,说明i和j字符串长度中有一个为空,此时需要进行max(i,j)次***字符操作才能使空字符串转换为非空,这种情况下的编辑距离是max(i,j)。
当min(i,j)≠0时,针对不同的动作有三种情况。Distance(i-1,j-1)+1代表执行删除操作,将一个字符串的第i个字符删除;Distance(i-1,j)+1代表***操作,即***另一个字符串中的第j个字符;Distance(i-1.j-1)i≠j+1代表替换操作,当两个字符串中的一个字符串的第i个字符和另一个字符串的第j个字符不同时进行替换,将一个字符串的第i个字符替换掉另一个字符串的第j个字符。基于此原理,可以根据公式(3)求得实体e1和e2之间的编辑距离。
D(e1,e2)=Distance(Len(e1)Len(e2)) (3)
其中,Len(e1)表示e1的字符串长度,Len(e2)表示e2的字符串长度。
可以理解的是,由于Dice距离与编辑距离的数据含义是相反的,Dice距离越大相似性越高,而编辑距离越大相似度越低。且Dice距离的范围为0~1,为了将二者结合进行相似度计算,需要将编辑距离D(e1,e2)进行放缩处理,放缩值可以理解为第二相似度,第二相似度可以用Score(e1,e2)表示,第二相似度可以通过公式(4)求得。
在操作S21213,对第一相似度和第二相似度加权求和,得到三元组预选集中的每两个实体之间的相似度。例如,每两个实体之间的相似度可以用Com(e1,e2)表示,相似度可以通过公式(5)求得。
Com(e1,e2)=α·Dice(e1,e2)+β·Score(e1,e2) (5)
其中,α表示实体e1的权重,β表示实体e2的权重。
通过操作S21211~操作S21213可以便于实现计算三元组预选集中的每两个实体之间的相似度。
在操作S2122,当两个实体之间的相似度满足设定阈值时,判断该两个实体所在的三元组中的关系是否一致。可以理解的是,假设设定阈值可以为一个临界值,当相似度大于临界值时,即判断两个实体相同。判断两个实体相同时需要继续判断该两个实体所在的三元组中的关系是否一致。
在操作S2123,当该两个实体所在的三元组中的关系一致时,删除该两个实体所在的三元组中的其中一个。
在操作S2124,当该两个实体所在的三元组中的关系不一致时,用该两个实体中的一个替换另一个。由此,通过操作S2121~操作S2124可以便于实现对三元组预选集中的实体进行对齐,得到三元组集。
图6示意性示出了根据本公开实施例的预先构建实体关系抽取模型的流程图。
预先构建实体关系抽取模型,包括操作S41~操作S44。
在操作S41,根据训练文本数据中对每个单词的标注,训练实体关系抽取模型中的三元组的三元素的抽取规则,得到预抽取规则,其中,三元素包括第一实体、第一实体与第二实体之间的关系和第二实体。
在操作S42,利用验证文本数据对实体关系抽取模型的预抽取规则进行验证。
在操作S43,若验证通过,将预抽取规则作为实体关系抽取模型的抽取规则进行应用。
在操作S44,若验证未通过,重复执行操作S41和操作S42,直至验证通过。
通过操作S41~操作S44可以便于实现预先构建实体关系抽取模型。
图7示意性示出了根据本公开实施例的利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案的流程图。
操作S230利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案,包括操作S231~操作S233。
在操作S231,利用预先构建的向量拼接模型将询问请求的问句向量和知识图谱中的m个预选相关答案向量进行拼接,得到m个拼接向量,其中,m为大于等于1的整数。
在操作S232,利用预先构建的概率预测模型,预测m个拼接向量中每个拼接向量的概率值。例如,每个拼接向量的概率值可以用P表示,概率值可以通过公式(6)求得。
P=sigmoid(Wf×f+bf) (6)
其中,f可以表示拼接向量,Wf和bf均可以表示为概率预测参数。
在操作S233,根据m个概率值的排序,确定m个预选相关答案中的一个作为相关答案。例如,可以将m个概率值从大到小排序,将排序第一的概率值对应的预选相关答案作为相关答案;例如,可以将m个概率值从小到大排序,将排序倒数第一的概率值对应的预选相关答案作为相关答案。
通过操作S231~操作S233可以便于实现利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案。
图8示意性示出了根据本公开实施例的预先构建向量拼接模型的流程图。
预先构建向量拼接模型,包括操作S61~操作S64。
在操作S61,根据训练样本,对向量拼接模型中的拼接参数进行训练,得到训练拼接参数,其中,训练样本包括问句向量和与该问句向量对应的预选相关答案向量。
在操作S62,利用验证样本对向量拼接模型的训练拼接参数进行验证。
在操作S63,若验证通过,将训练拼接参数作为向量拼接模型的模型参数进行应用。
操作S64,若验证未通过,重复执行操作S61和操作S62,直至验证通过。通过操作S61~操作S64可以便于实现预先构建向量拼接模型。
图9示意性示出了根据本公开实施例的预先构建概率预测模型的流程图。
预先构建概率预测模型,包括操作S71~操作S74。
在操作S71,根据拼接向量训练样本,对概率预测模型中的概率预测参数进行训练,得到训练概率预测参数。
在操作S72,利用拼接向量验证样本对概率预测模型的训练概率预测参数进行验证。
在操作S73,若验证通过,将训练概率预测参数作为概率预测模型的模型参数进行应用。
操作S74,若验证未通过,重复执行操作S71和操作S72,直至验证通过。通过操作S71~操作S74可以便于实现预先构建概率预测模型。
下面参照图10-图14详细描述根据本公开实施例的基于诈骗资讯的知识图谱的应用方法。值得理解的是,下述描述仅是示例性说明,而不是对本公开的具体限制。
本公开实施例的基于诈骗资讯的知识图谱的应用方法可以包括以下步骤。
1、银行数据信息知识图谱的构建。
本公开对于知识图谱构建需要的关键技术即知识抽取、实体对齐和知识存储进行了研究与实现。本公开设计了基于BERT语言模型的实体关系联合抽取模型。同时,针对一个语句中含有多个三元组的情况,本公开采用指针结合标注的思想应用到本公开知识抽取模型中。针对语义歧义的实体,本公开提出了一种Dice和编辑距离联合算法用于实体对齐,优化图谱效果,避免实体歧义。最终将得到的三元组信息通过Neo4j进行知识存储。
2、银行数据信息知识图谱问答模型的构建。
本公开通过对诈骗信息实体识别、候选答案生成和银行领域诈骗问句-关系语义匹配模型实现本公开基于娱知识图谱的问答。关系语义匹配模型实现本公开基于银行领域诈骗知识图谱的问答。针对银行领域诈骗实体识别任务在问答模型中的重要性,本公开采用BERT-BiLSTM-CRF模型抽取问句中的银行领域诈骗信息实体,通过对比实验,证明该模型能够有效提升实体识别效果。针对实体识别效果。针对BERT下游任务中只使用[CLS]位置的向量表示不足,本公开结合一维卷积和最大池化操作,设计了本公开结合一维卷积和最大池化操作,设计了基于BERT语言模型的银行领域诈骗问句语言模型的银行领域诈骗问句-关系语义匹配模型,实现对BERT编码序列所有位置编码信息的融合,提升了模型识别关系的能力
3、基于Web的银行领域诈骗预防的检索预警平台。
基于本公开构建的知识图谱,利用Python的Flask库搭建Web网页框架,利用Elasticsearch搭建搜索引擎。并通过Flask后台开发框架、Echarts图形可视化框架、BootStrap前端可视化框架等技术的交互设计,搭建了本公开领域的知识图谱检索推荐平台。该平台集成了本公开图谱可视化、本公开图谱检索、本公开智能推荐、本公开图谱扩展、本公开时间轴动态调整等模块。能够满足当前社会上对诈骗领域新闻获取的需求。
下面详细对上述三个步骤的具体技术方案进行描述。
1、实体关系联合抽取模型。
本公开使用的是基于BERT构建的知识抽取算法,并选取银行诈骗领域作为知识抽取对象,通过BERT层抽取文本数据的特征向量后据此预测主体″Subject″,之后依据抽取出的″Subject″预测抽取相应的关系″Link″和客体″Object″。算法主要流程是数据预处理、模型构建以及模型训练。
具体模型构建过程如下。
(1)首先将文本处理为ID序列后作为整个模型的输入传入BERT层,网络层会对其进行特征抽取,之后能够将文本转化成向量编码序列。
(2)之后我们将BERT输出的向量序列经过LN(Layer Normalization)即层归一化后接入两个二分类器去预测主体″Subject″。
(3)在预测出″Subject″后,我们按照它从BERT输出的序列中抽出主体″Subject″开始和结束位置对应的特征向量。
(4)而后将″Subject″的特征向量作为条件对BERT的输出序列进行层归一化。
(5)最后在条件归一化后通过多个分类器分别对每一个关系Link使用同样的方式去预测对应的客体Object。这样就巧妙的将信息抽取任务转化为了分类任务。
目前相对常规的三元组抽取的方法是先通过命名实体识别技术找到文本数据中的所有实体,而后对这些实体进行关系分类得到关系。但此种方法很难去解决一个Subject对应多个Object的问题,且它将信息抽取分为两个任务,需要独立的训练两个模型来完成,这会使得两部分的误差累加且相对较为复杂。在这里本公开将使用一个模型完成信息的抽取,将文本的实体关键词抽取转化为多个二分类任务的结合。具体来说就是在抽取主体Subject时可转化为找到Subject在句子中的开始和结束的位置。因此我们可构建两个分类器并对每一个单词都进行两次分类,判断这个单词是否为主体″Subject″的首尾位置,是就输出1否则输出0。处理完成后可根据输出序列的标注进行主体的抽取。之后将主体Subject的编码信息作为条件去抽取对应的关系Link和客体Object,这里我们对每一个类型的关系Link以和抽取主体Subject同样的方式去抽取客体Object。
因此,我们在模型中采用sigmoid激活函数,采取“0/1标注”策略,通过指针Start和End中1和0的位置来判断抽取出来的实体或关系在文本向量中的位置。
具体地,句子文本输入进BERT语言模型前先要进行文本进行预处理,将输入的文本信息通过词向量、位置向量和分段向量进行表示。传入BERT语言模型进行编码,先进行上下文特征的提取,得到一个序列。该序列蕴含着每个单词前后文本的信息,之后传入下一环节进行归一化操作。再通过两个指针分类器,他们都采用sigmoid激活函数实现。指针标注的方法为,S-Start为1代表此处为开始指针,S-End为1代表此处为结束指针,通过S-Start和S-End输出的编码可以判断出输入语句中的主实体Subject。
以实体“张三”为例,通过S-Start和S-End指针我们可以得到实体“张三”,通过与Subject连接的″Link″中去对应整个语句的Object从而得到Link对应的客实体Object。最终我们可以得到“[Subject,Link,Object]”的形式的三元组。如图1.1所示,以关系“被诈骗转账”为例,假设主实体Subject为“张三”,通过关系“被诈骗转账”得到的O-Start和O-End位置可以判断表明与主实体“张三”和关系“被诈骗转账”对应的客实体的位置信息,即“李四”。因此,将成功预测的三元组“[张三,被诈骗转账,李四]”输出。
在损失函数的选择上,由于模型处理的是分类问题,因此选用交叉熵。如公式(7)所示,其中Loss为损失值,x为样本,n为样本数,y为样本实际值,为模型预测输出值。它能够识别y和/>的差异,在这里可以表示为预测和实际得到的变量的区别。值越小证明得到的结果越准确。
2、银行诈骗领域实体关系对齐。
由于语法不匹配,逻辑不匹配,语义不匹配等原因的存在,知识图谱中存在大量的异构问题,他们之间的信息无法相互交互。如张小三与张三都是同一用户的表示形式,会被判定为两个实体。三元组“[张小三,被诈骗转账,李四]”和三元组“[张三,被诈骗转账,李四]”表示同一种三元组关系。在知识图谱中应该链接到同一个节点。由于新闻文本的复杂性,这种情况多有发生,会对图谱的质量造成影响。而实体对齐技术对于这种情况可以进行消歧,因此,完成知识抽取任务后,我们需要对抽取出来的三元组实体进行实体对齐,本公开提出了一种基于Dice和编辑距离的实体对齐方法,具体流程如图10所示。
本公开提出一种相似度结合的实体对齐方法,通过对Dice距离和编辑距离进行加权,得到一个分数。并设定一个阈值,当联合相似度达到阈值,表明两个实体语义一致,但是知识图谱是许多三元组构成的网络,可能存在相同实体对应不同关系的情况,因此我们要判断这两个实体所连接的关系是否相同,若相同表明节点重复,进行实体删除操作,若关系不同表明这两组三元组包含的意义不同,此时进行实体替换。
本公开采用Dice系数和编辑距离融合的方法对实体之间的相似度进行加权计算。Dice距离可以计算两个字符串的相似性,字符串也是集合的一种。Dice系数定义如下:用于比较相似度的度量,Dice系数与相似度成正比,该数值越大表明两个集合越相近,它的取值范围是0~1,定义如公式(8)所示。
其中|A|∩|B|是A和B之间的交集代表了两个集合中相似的值,|A|和|B|分别代表了A和B的数量,由于分母重复计算了两个字符,所以分子乘以2来平衡,Dice系数针对字符串的定义如公式(9)所示。
Len(e1)和Len(e2)分别代表字符串e1和e2的长度,common(e1,e2)表示主实体e1和e2相同字符的个数。
编辑距离是计算通过删除、添加、替换步骤将一个字符变成另外一个字符的步数,与Dice系数相反,编辑距离的大小和相似度成反比,步数越少表明两个字符串约接近。
对于任意两个字符串s1和s2,使用Distance(i,j)表示字符串中s1前i个字符和字符串s2中前j个字符的编辑距离,则字符串和之间的编辑距离D(s1,s2)满足公式(10)。
D(s1,s2)=Distance(Len(s1)+Len(s2)) (10)
其中Len(si)表示字符串si的长度,Distance(i,j)满足公式(11)。
当min(i,j)=0,说明s1和s2字符串中有一个为空,此时需要进行max(i,j)次***字符操作才能使空字符串转换为非空,这种情况下的编辑距离是max(i,j)。
当min(i,j)≠0时,针对不同的动作有三种情况。Distance(i-1,j-1)+1代表执行删除操作,将字符串s1中的第i个字符删除;Distance(i-1,j)+1代表***操作,即***字符串s2中的第j个字符;Distance(i-1.j-1)i≠j+1代表替换操作,当两个字符串中的一个字符串的第i个字符和另一个字符串的第j个字符不同时进行替换,将一个字符串的第i个字符替换掉另一个字符串的第j个字符。基于此原理,可以根据公式(12)求得实体e1和e2之间的编辑距离。
D(e1,e2)=Distance(Len(e1)Len(e2)) (12)
其中,Len(e1)表示e1的字符串长度,Len(e2)表示e2的字符串长度。
可以理解的是,由于Dice距离与编辑距离的数据含义是相反的,Dice距离越大相似性越高,而编辑距离越大相似度越低。且Dice距离的范围为0~1,为了将二者结合进行相似度计算,需要将编辑距离D(e1,e2)进行放缩处理,即将其编辑距离的值转变为0~1范围内的值,用Score(e1,e2)表示,可以通过公式(13)求得。
Score(e1,e2)与D(e1,e2)成反比关系,当e1和e2相似度越高,他们之间的编辑距离D(e1,e2)就越小,Score(e1,e2)就大,代表e1和e2是差异词。反之则为同义词。
在得到e1和e2的Dice系数和编辑距离后,本公开设计了一种将二者相结合的相似度方法,如公式(14)所示。
Com(e1,e2)=α·Dice(e1,e2)+β·Score(e1,e2) (14)
其中,α和β分别代表Dice和编辑距离在该算法中占据的权重。
求得两个主实体e1和e2之间联合相似度后,以该值为标准度量判断实体是否相似,因此我们设定了一个临界值,设定当相似度大于0.7时,即判断实体相同。下一步判断这两个实体在一个三元组单元中所链接的其他关系是否重合,如果关系重叠,表示这是两个重复的实体,执行删除三元组操作;如果不重叠,即表明该实体是链接其他实体关系的多链接节点,只是三元组中包含了一个相同的实体,此时执行替换实体操作。至此,实体对齐操作完成。
3、基于BERT语言模型的银行诈骗领域问句-关系语义匹配模型。
基于实体关系联合抽取生成的候选三元组数据,为了计算用户问句与候选三元组中关系信息之间的语义匹配分数,本公开将计算语义匹配分数的任务转换成0-1分类问题解决。其中,标签1表示问句和关系之间是语义匹配的,标签0表示问句和关系之间语义不匹配。
对于0-1分类问题,最后分类的激活函数一般采用sigmoid激活函数,输出的结果是事件的概率,范围是0~1,通过设定阈值来判定输入样本的类别。在本公开计算语义匹配分数的任务中,将0-1分类问题中最后设定阈值的步骤去掉,将sigmoid激活函数输出的事件概率作为输入问句和关系之间的语义匹配分数。输出的概率越接近于1表明输入问句和关系之间语义越相近。
本公开结合BERT语言模型、一维卷积、最大池化和sigmoid激活函数设计了银行诈骗领域问句-关系语义匹配模型。
具体地,如图11所示,使用特殊字符[CLS]和[SEP]将输入的问句q和关系p进行拼接,然后经向量化表示后输入BERT编码层,得到BERT编码序T。其中[CLS]字符对应位置的向量表示t既包含了当前位置字符的特征,也包含整个上下文文本的特征。在BERT的下游任务中通常基于[CLS]字符位置的向量表示t实现文本分类、文本匹配等任务。考虑到只用[CLS]位置的向量表示会忽略文本中其他位置的特征信息,本公开在用BERT语言模型的基础上,结合一维卷积和最大池化操作实现本公开的银行诈骗领域问句-关系匹配模型。本公开将BERT编码层输出的编码序列T分成两部分表示,序列T2,直接使用一维卷积和最大池化操作提取文本深度特征,然后通过向量拼接操作与序列T1进行拼接,进一步实现对BERT编码序列所有位置编码信息的融合。通过该方法可以解决BERT下游任务中只使用[CLS]位置的向量表示的不足。
在执行一维卷积的操作过程中,本公开采用不同尺寸的卷积核来提取文本的特征向量。在自然语言文本的卷积操作中,卷积核尺寸的大小即移动窗口的大小,可取3、4、5,用来提取不同窗口下文本的局部特征。对于每个大小为s的窗口,使用一个内核矩阵WS和非线性函数relu对BERT的编码序列T2进行卷积处理,卷及处理可以如公式(15)所示。
Ci=relu(WS×t[i:i+s]+BS) (15)
其中WS和BS可通过训练得到,t[i:i+s]表示从BERT编码序列T2中选择相对位置i到位置i+s内的向量表示,即选择移动窗口内的向量表示。针对每个窗口,对长度为1的编码序列T2进行卷积操作,最终得到局部特征,对于每一个窗口获得的局部特征c,通过最大池化操作提取c中的最大特征,将多个窗口的局部特征进行连接,进一步得到池化层的特征向量fmax pooling,然后将其与T1进行拼接得到最终的特征向量f。
最后,通过sigmoid函数计算标签的概率分布,即输入的问句和关系被识别为正样本“1”和负样本“0”的概率。本公开将识别为正样本“1”的概率作为问句-关系的匹配分数,分数越高表明问句和关系之间的匹配程度越高,概率的计算方法如公式(16)所示。
P=sigmoid(Wf×f+bf) (16)
P表示模型预测的标签的概率分布。其中Wf和Bf通过训练得到。
4、基于Web的银行反诈骗知识图谱网络的应用。
本公开采用的Flask是一个轻量级框架,它通过Python进行实现,其设计的目的是为了提供Web开发所需要的最小功能子集[51]。它主要由Jinja2模板引擎以Werkzeug工具包组成。Jinja2引擎为我们提供了网站模板继承机制,可以使我们在已有的HTML的模板上进行开发和修改。且它具有HTML自动转义机制,能够防止脚本攻击。Werkzeug集成了URL网页链接路由请求,能够在同一时间处理回应多个用户的页面访问请求,能迅速回应客户端发起的不同任务。
Flask不需要绑定连接,有很多内置的方式,使得该框架的开发者能够使用任何方式和工具去设计应用架构。因此,相比于其他的框架(如Django)能给开发者带来更高的灵活性,当客户端输入网址向服务器发起HTTP请求时,Flask框架就会对这些请求进行处理。通过Flask我们可以快速的搭建Web网站及服务,无需自己设计处理HTTP请求与回应等。Flask底层逻辑简单,可以快速上手。因此本公开采用Flask框架进行本公开的平台搭建,结合构建的银行诈骗领域知识图谱和检索模型,搭建一个集成图谱可视化、图谱检索、图谱扩展、实体属性展示、最常访问、相关推荐、时间轴等功能的银行诈骗领域知识图谱。
***使用Bootstrap[52]框架作为前端开发框架,该框架最大的特点是响应式界面设计,支持浏览器在不同设备之间平滑切换,使得页面每一个板块很好地适应了不同长宽比例屏幕的显示。此外,Bootstrap丰富的组件和通过Data API可访问的jQuery插件,帮助开发***结构清晰的操作界面。
***使用ECharts[53]作为数据可视化框架,ECharts能够提供类型丰富的可视化图形,支持不同图表之间的信息联动,实现数据的样式多样化。
***采用Elasticsearch针对用书输入关键词进行语义查询,返回实体所有的实体名称和属性值。
***采用Neo4j图数据库进行银行诈骗领域知识图谱的构建,并查询信息在数据库中进行遍历,找到所需节点后,将此节点连接的所有图谱进行返回,传送到前端进行展示。
***使用Flask框架进行应用的搭建,实现动态数据加载功能。结合了Ajax技术实现Echarts软件与数据库数据调取操作。
本公开设计的银行诈骗领域知识图谱检索平台总体架构分为银行诈骗领域数据层、银行诈骗领域技术层和知识图谱应用层,技术层分别对应银行诈骗领域抽取中三个重要的技术模块。平台整体架构图如图12所示。
数据层主要包括数据采集与数据清洗模块。数据采集模块根据银行诈骗领域的规则与数据形式,结合实验过程中遇到的反爬虫机制包装设计一个面向银行诈骗领域的知识爬取器。数据清洗模块主要通过正则表达式等标准化操作,根据数据的用途进行预处理。并最终为银行诈骗领域知识图谱的构建和***的应用提供支撑。
技术层分为银行诈骗领域知识图谱构建技术层和检索型技术层。
针对银行诈骗领域知识图谱构建,本公开对于非结构化数据采取自主标注数据集的方法,对于实体和关系进行定义,并基于BERT实体关系联合抽取模型实现三元组信息的抽取。并将其规范化为标准的数据格式以便后续进行知识存储。针对语义歧义的实体,本公开提出了一种Dice和编辑距离联合算法用于实体对齐,以提升图谱质量。银行诈骗领域的知识图谱存储部分主要通过Neo4j针对三元组数据和属性进行存储。
针对银行诈骗领域知识图谱的检索:本公开基于构建的银行诈骗领域知识图谱实现,通过用户提交的信息到Elasticsearch中将自然语言转换为对应的逻辑和查询语句,进行精确查询加速,再传入我们构建好的银行诈骗领域Neo4j知识图谱库中通过精准或模糊匹配得到用户需要的知识图谱信息,并找出与之相关的所有节点,返回数据到前端进行渲染。基于此完成对银行诈骗领域实体的识别和查询、新闻之间的关系查询、图谱扩展、实体属性展示、最常访问、相关推荐、时间轴等功等功能,给用户提供易操作的应用体验和精致的页面。
应用层的意义是将数据层存储与技术层算法训练得到的知识图谱进行应用研究。搭建了一个后端基于Flask框架结合前端Echarts与Boostrap框架的银行诈骗领域知识图谱检索推荐应用。
本应用涉及到的技术较多,主要分为三个方向上的技术,数据库技术,算法技术和前后端交互与设计技术。
数据库层主要通过Neo4j针对三元组数据和属性进行存储。为了大规模的存储数据,我们采用Python中的py2neo包对抽取出的三元组进行知识存储。我们通过Neo4j数据库中的账号密码将python与Neo4j进行连接。再进行节点的实体名称与属性的构建。之后基于三元组数据中的实体链接将主客实体进行连接,实现关系的存储。我们将三元组的index和type类型的索引存储到Elasticsearch中通过用户提交的信息到Elasticsearch中将自然语言转换对应的逻辑和查询语句,进行精确查询加速,传入我们构建好的银行诈骗领域Neo4j知识图谱库中通过精准或模糊匹配得到用户需要的知识图谱信息。
在算法层,本公开搭建了深度学习模型BERT,模型是基于Tensoreflow和Keras深度学习框架进行搭建的,还运用到了一些自然语言处理工具包,英文分词包nltk,语言分析包numpy和pandas等。
在前后端交互层,采用BootStrap框架为图表展示框架Echarts提供网线参考。Echarts从知识图谱动态获取数据并进行知识图谱网络的可视化展示。Flask开发框架完成银行诈骗领域知识图谱检索平台的前后端开发,结合训练好的算法模型以及存储的数据,搭建整体的基于Web的银行诈骗领域检索应用***。
***将展示给用户的界面叫做前端,配合前端不断进行数据变化的叫做后端,***后端基于Flask编写接口用于与前端的数据传输。页面主体使用Bootstrap框架实现各个功能模块的位置与布局,首先为知识图谱留出DOM容器,即知识图谱的展示位。Bootstrap支持浏览器在不同设备之间平滑切换,使得页面每一个板块很好地适应不同长宽比例屏幕的显示。此外,Bootstrap丰富的组件和通过Data API可访问的jQuery插件,能够帮助开发结构清晰的操作界面。
Echarts是一种将数据可视化的库,主要通将数据通过图表的形式展现出来,知识图谱也是一种图,本文的银行诈骗领域知识图谱可视化就依赖于Echarts前端框架,Echarts本身是静态的,而知识图谱的信息查询和展示是一个动态的过程,因此本应用的展示需要不断动态地获取数据,这部分涉及到的动态数据加载功能结合了Ajax技术,进行Echarts软件与数据库数据调取操作。主要实现逻辑如下。
(1)JSP页面(JAVA服务器页面)借助AJAX1异步数据加载向后台请求数据,查找用户所输入的银行诈骗领域新闻信息。
(2)Servlet页面跳转获取JSP页面传递的银行诈骗领域信息进行查询,并将查询结果存储为list。
(3)将list页面经过处理得到JSP界面可以接受的json形式的数据,并将查询到的信息传回JSP界面。
(4)JSP页面获取后台传过来的json数据,根据符合要求的模式对数据进行格式调整。获得Echarts符合赋值条件的Node,Link数据。将最后获得的数据通过Echarts的myChart.setOption进行赋值,将传送过来的json数据转换成Echarts接收的数据格式,即可实现图谱的动态显示。后端网页架构如图13所示。
针对用户输入的关键词,本文首先将通过Python的nltk库对用户输入的关键词进行分词操作,并于Elasticsearch库中的index和type进行匹配,并将查询结果进行解析,之后通过遍历Neo4j图数据库进行节点和关系实现匹配。Neo4j可以进行精准匹配和模糊匹配。我们首先进行精准匹配。精准匹配只匹配关键词,包容度较低,但准确性较高。
Neo4j的模糊匹配有两种方式,使用=~’模糊匹配对象’进行表示。另外一种是根据位置关进行表示,可采用starts with、end with、Contains等位置关系。与之前精准匹配不同的是,模糊匹配将关键词做了处理转化为模糊匹配对象,由于可能会出现重复的查询结果,所以在得到匹配信息后需要执行去重操作。最终得到匹配节点信息。
由于诈骗信息的复杂性,大量节点之间存在复杂的联系,为了更好的利用连接,实现名副其实的知识网络。当用户对某一节点感到好奇进行点击时,拓展节点与原始图谱进行合并展示,以这一节点为中心进行拓展。本公开的知识图谱具有扩展功能模块。双击某一节点即可唤起该功能。
用户双击后的效果不能将原有的节点覆盖,因此需要进行三步操作,当用户双击时,首先将当前所展示的图谱信息保留,再通过用户所点击的节点进行二次查询,查询到与其相关的其他节点信息,最后将所有信息全部整合展示,即可实现图谱扩展的效果。这一方法在实验中遇到了新的困难,当用户双击扩展图谱时,我们第一步将当前页面上的图谱信息进行保存的操作会导致这一部分的信息重复保存,导致页面中出现重复的节点。因此这一步骤还需要添加一个去重操作。在保存当前图谱的同时覆盖原有节点,这样拓展的新图谱在点击节点时视觉展示为扩散出新节点。展示效果流畅,用户体验好。图14展示了我们在双击扩展这一操作时底层的操作流程。
本公开设计的知识图谱搜索网站主要由两个页面构成,分别是知识图谱的搜索页面和知识图谱的显示与交互页面。搜索页面主要是用来获取用户输入的关键词,得到关键词后交给后端查询Neo4j数据库,进而找出与关键词节点互相连接的其余节点和关系,并返回给知识图谱显示页面进行渲染显示。
通过点击搜索框右侧的“检索”按钮进行提交查询,得到银行诈骗信息检索平台的搜索子页面。该页面集成了图谱搜索、图谱扩展、推荐搜索、最常浏览和属性显示等功能。将知识图谱可视化,即以“点-线-点”的方式对银行诈骗领域图谱的网络结构进行了展示。
基于上述基于诈骗资讯的知识图谱的应用方法,本公开还提供了一种基于诈骗资讯的知识图谱的应用装置。以下将结合图15和图16对基于诈骗资讯的知识图谱的应用装置10进行详细描述。
图15示意性示出了根据本公开实施例的基于诈骗资讯的知识图谱的应用装置10的结构框图。
基于诈骗资讯的知识图谱的应用装置10包括第一构建模块1、第一确定模块2、第二确定模块3和匹配模块4。
第一构建模块1,第一构建模块1用于执行操作S210:根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱。
第一确定模块2,第一确定模块2用于执行操作S220:响应于查询请求,确定查询结果,其中,查询请求包括与节点和/或边有关的关键词,查询结果包括知识图谱中的与查询请求对应的节点和/或边以及该节点和/或该边的关联信息。
第二确定模块3,第二确定模块3用于执行操作S230:利用预先构建的问答模型,响应于询问请求,从知识图谱中确定相关答案。
匹配模块4,匹配模块4用于执行操作S240:根据查询结果或相关答案匹配防诈骗提示。
其中,图16示意性示出了根据本公开实施例的第一构建模块1的结构框图。
第一构建模块1用于执行根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,第一构建模块1可以包括抽取单元11、对齐单元12和第一构建单元13。
抽取单元11,抽取单元11用于利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集。
对齐单元12,对齐单元12用于对三元组预选集中的实体进行对齐,得到三元组集。
第一构建单元13,第一构建单元13用于根据三元组集构建知识图谱。
根据本公开的一些实施例,对齐单元可以包括计算元件、判断元件、删除元件和替换元件。
计算元件,计算元件用于计算三元组预选集中的每两个实体之间的相似度。
判断元件,判断元件用于当两个实体之间的相似度满足设定阈值时,判断该两个实体所在的三元组中的关系是否一致。
删除元件,删除元件用于当该两个实体所在的三元组中的关系一致时,删除该两个实体所在的三元组中的其中一个。
替换元件,替换元件用于当该两个实体所在的三元组中的关系不一致时,用该两个实体中的一个替换另一个。
根据本公开的一些实施例,计算元件可以包括第一计算件、第二计算件和第三计算件。
第一计算件,第一计算件用于利用Dice距离法,计算三元组预选集中的每两个实体之间的第一相似度。
第二计算件,第二计算件用于利用编辑距离法,计算该两个实体之间的第二相似度。
第三计算件,第三计算件用于对第一相似度和第二相似度加权求和,得到三元组预选集中的每两个实体之间的相似度。
根据本公开的一些实施例,基于诈骗资讯的知识图谱的应用装置还包括第二构建模块,第二构建模块用于预先构建实体关系抽取模型,第二构建模块可以包括第一训练单元、第一验证单元、第一确定单元和第一重复单元。
第一训练单元,第一训练单元用于操作S41,根据训练文本数据中对每个单词的标注,训练实体关系抽取模型中的三元组的三元素的抽取规则,得到预抽取规则,其中,三元素包括第一实体、第一实体与第二实体之间的关系和第二实体。
第一验证单元,第一验证单元用于操作S42,利用验证文本数据对实体关系抽取模型的预抽取规则进行验证。
第一确定单元,第一确定单元用于操作S43,若验证通过,将预抽取规则作为实体关系抽取模型的抽取规则进行应用。
第一重复单元,第一重复单元用于操作S44,若验证未通过,重复执行操作S41和操作S42,直至验证通过。
根据本公开的一些实施例,第二确定模块可以包括拼接单元、预测单元和排序单元。
拼接单元,拼接单元用于利用预先构建的向量拼接模型将询问请求的问句向量和知识图谱中的m个预选相关答案向量进行拼接,得到m个拼接向量,其中,m为大于等于1的整数。
预测单元,预测单元用于利用预先构建的概率预测模型,预测m个拼接向量中每个拼接向量的概率值。
排序单元,排序单元用于根据m个概率值的排序,确定m个预选相关答案中的一个作为相关答案。
根据本公开的一些实施例,基于诈骗资讯的知识图谱的应用装置还包括第三构建模块,第三构建模块用于预先构建向量拼接模型,第三构建模块可以包括第二训练单元、第二验证单元、第二确定单元和第二重复单元。
第二训练单元,第二训练单元用于操作S61,根据训练样本,对向量拼接模型中的拼接参数进行训练,得到训练拼接参数,其中,训练样本包括问句向量和与该问句向量对应的预选相关答案向量。
第二验证单元,第二验证单元用于操作S62,利用验证样本对向量拼接模型的训练拼接参数进行验证。
第二确定单元,第二确定单元用于操作S63,若验证通过,将训练拼接参数作为向量拼接模型的模型参数进行应用。
第二重复单元,第二重复单元用于操作S64,若验证未通过,重复执行操作S61和操作S62,直至验证通过。
根据本公开的一些实施例,基于诈骗资讯的知识图谱的应用装置还包括第四构建模块,第四构建模块用于预先构建概率预测模型,第四构建模块可以包括第三训练单元、第三验证单元、第三确定单元和第三重复单元。
第三训练单元,第三训练单元用于操作S71,根据拼接向量训练样本,对概率预测模型中的概率预测参数进行训练,得到训练概率预测参数。
第三验证单元,第三验证单元用于操作S72,利用拼接向量验证样本对概率预测模型的训练概率预测参数进行验证。
第三确定单元,第三确定单元用于操作S73,若验证通过,将训练概率预测参数作为概率预测模型的模型参数进行应用。
第三重复单元,第三重复单元用于操作S74,若验证未通过,重复执行操作S71和操作S72,直至验证通过。
根据本公开实施例的基于诈骗资讯的知识图谱的应用方法,根据实时获得的银行内***的诈骗资讯信息,可以实时构建知识图谱。响应于查询请求,可以在知识图谱中进行搜索,因此可以在知识图谱中确定查询结果。利用预先构建的问答模型,响应于询问请求,可以从知识图谱中确定相关答案,相关答案可以为与询问请求中的问句相关的节点和/或边,以及与节点和/或边关联的边和/或节点。根据查询结果或相关答案可以在预先构建的防诈骗提示库中匹配防诈骗提示。本公开的应用方法能够将零散的诈骗资讯信息联系起来,响应于查询或者询问,可以获取全面的诈骗资讯,还可以获取到相应的防诈骗提示,从而可以有效的预防诈骗的产生,保障用户的财产安全。
另外,根据本公开的实施例,第一构建模块1、第一确定模块2、第二确定模块3和匹配模块4中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,第一构建模块1、第一确定模块2、第二确定模块3和匹配模块4中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。
或者,第一构建模块1、第一确定模块2、第二确定模块3和匹配模块4中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图17示意性示出了根据本公开实施例的适于实现上述方法的电子设备的方框图。
如图17所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出(I/O)接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时,该程序代码用于使计算机***实现本公开实施例的方法。
在该计算机程序被处理器901执行时执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种基于诈骗资讯的知识图谱的应用方法,其特征在于,包括:
根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;
响应于查询请求,确定查询结果,其中,所述查询请求包括与节点和/或边有关的关键词,所述查询结果包括所述知识图谱中的与所述查询请求对应的节点和/或边以及该节点和/或该边的关联信息;
利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案;以及
根据所述查询结果或所述相关答案匹配防诈骗提示,
其中,所述根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:
利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;
对所述三元组预选集中的实体进行对齐,得到三元组集;以及
根据所述三元组集构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述对所述三元组预选集中的实体进行对齐,得到三元组集,包括:
计算所述三元组预选集中的每两个实体之间的相似度;
当两个实体之间的相似度满足设定阈值时,判断该两个实体所在的三元组中的关系是否一致;
当该两个实体所在的三元组中的关系一致时,删除该两个实体所在的三元组中的其中一个;以及
当该两个实体所在的三元组中的关系不一致时,用该两个实体中的一个替换另一个。
3.根据权利要求2所述的方法,其特征在于,所述计算所述三元组预选集中的每两个实体之间的相似度,包括:
利用Dice距离法,计算所述三元组预选集中的每两个实体之间的第一相似度;
利用编辑距离法,计算该两个实体之间的第二相似度;以及
对所述第一相似度和所述第二相似度加权求和,得到所述三元组预选集中的每两个实体之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述预先构建实体关系抽取模型,包括:
操作S41,根据训练文本数据中对每个单词的标注,训练所述实体关系抽取模型中的三元组的三元素的抽取规则,得到预抽取规则,其中,所述三元素包括第一实体、第一实体与第二实体之间的关系和第二实体;
操作S42,利用验证文本数据对所述实体关系抽取模型的预抽取规则进行验证;
操作S43,若验证通过,将所述预抽取规则作为所述实体关系抽取模型的抽取规则进行应用;以及
操作S44,若验证未通过,重复执行操作S41和操作S42,直至验证通过。
5.根据权利要求1所述的方法,其特征在于,所述利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案,包括:
利用预先构建的向量拼接模型将所述询问请求的问句向量和所述知识图谱中的m个预选相关答案向量进行拼接,得到m个拼接向量,其中,m为大于等于1的整数;
利用预先构建的概率预测模型,预测所述m个拼接向量中每个拼接向量的概率值;以及
根据所述m个概率值的排序,确定m个预选相关答案中的一个作为相关答案。
6.根据权利要求5所述的方法,其特征在于,所述预先构建向量拼接模型,包括:
操作S61,根据训练样本,对向量拼接模型中的拼接参数进行训练,得到训练拼接参数,其中,所述训练样本包括问句向量和与该问句向量对应的预选相关答案向量;
操作S62,利用验证样本对所述向量拼接模型的训练拼接参数进行验证;
操作S63,若验证通过,将所述训练拼接参数作为所述向量拼接模型的模型参数进行应用;以及
操作S64,若验证未通过,重复执行操作S61和操作S62,直至验证通过。
7.根据权利要求5所述的方法,其特征在于,所述预先构建概率预测模型,包括:
操作S71,根据拼接向量训练样本,对概率预测模型中的概率预测参数进行训练,得到训练概率预测参数;
操作S72,利用拼接向量验证样本对所述概率预测模型的训练概率预测参数进行验证;
操作S73,若验证通过,将所述训练概率预测参数作为所述概率预测模型的模型参数进行应用;以及
操作S74,若验证未通过,重复执行操作S71和操作S72,直至验证通过。
8.一种基于诈骗资讯的知识图谱的应用装置,其特征在于,包括:
第一构建模块,所述第一构建模块用于执行根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱;
第一确定模块,所述第一确定模块用于执行响应于查询请求,确定查询结果,其中,所述查询请求包括与节点和/或边有关的关键词,所述查询结果包括所述知识图谱中的与所述查询请求对应的节点和/或边以及该节点和/或该边的关联信息;
第二确定模块,所述第二确定模块用于执行利用预先构建的问答模型,响应于询问请求,从所述知识图谱中确定相关答案;以及
匹配模块,所述匹配模块用于执行根据所述查询结果或所述相关答案匹配防诈骗提示,
其中,所述根据实时获得的银行内***的诈骗资讯信息,实时构建知识图谱,包括:
利用预先构建的实体关系抽取模型,对实时获得的银行内***的诈骗资讯信息进行实体和关系抽取,得到三元组预选集;
对所述三元组预选集中的实体进行对齐,得到三元组集;以及
根据所述三元组集构建知识图谱。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序包括一个或者多个可执行指令,所述可执行指令被处理器执行时实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461551.7A CN116521892A (zh) | 2023-04-26 | 2023-04-26 | 知识图谱的应用方法、装置、电子设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461551.7A CN116521892A (zh) | 2023-04-26 | 2023-04-26 | 知识图谱的应用方法、装置、电子设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521892A true CN116521892A (zh) | 2023-08-01 |
Family
ID=87389675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461551.7A Pending CN116521892A (zh) | 2023-04-26 | 2023-04-26 | 知识图谱的应用方法、装置、电子设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521892A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131208A (zh) * | 2023-10-24 | 2023-11-28 | 北京中企慧云科技有限公司 | 产业科技文本数据推送方法、装置、设备和介质 |
-
2023
- 2023-04-26 CN CN202310461551.7A patent/CN116521892A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131208A (zh) * | 2023-10-24 | 2023-11-28 | 北京中企慧云科技有限公司 | 产业科技文本数据推送方法、装置、设备和介质 |
CN117131208B (zh) * | 2023-10-24 | 2024-02-02 | 北京中企慧云科技有限公司 | 产业科技文本数据推送方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534B (zh) | 信息处理方法和装置 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US11501080B2 (en) | Sentence phrase generation | |
US20170337261A1 (en) | Decision Making and Planning/Prediction System for Human Intention Resolution | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
US20150286943A1 (en) | Decision Making and Planning/Prediction System for Human Intention Resolution | |
US20200035229A1 (en) | Word clustering and categorization | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US11276099B2 (en) | Multi-perceptual similarity detection and resolution | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机***和可读存储介质 | |
US11966389B2 (en) | Natural language to structured query generation via paraphrasing | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN116521892A (zh) | 知识图谱的应用方法、装置、电子设备、介质和程序产品 | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN111126073B (zh) | 语义检索方法和装置 | |
US11734602B2 (en) | Methods and systems for automated feature generation utilizing formula semantification | |
CN116719999A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |