CN114048311A - 网络诈骗的预警方法、装置、设备及存储介质 - Google Patents

网络诈骗的预警方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114048311A
CN114048311A CN202111101612.6A CN202111101612A CN114048311A CN 114048311 A CN114048311 A CN 114048311A CN 202111101612 A CN202111101612 A CN 202111101612A CN 114048311 A CN114048311 A CN 114048311A
Authority
CN
China
Prior art keywords
behavior classification
url
behavior
acquiring
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111101612.6A
Other languages
English (en)
Inventor
杨蓝暄
阿曼太
马寒军
傅强
梁彧
蔡琳
田野
王杰
杨满智
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202111101612.6A priority Critical patent/CN114048311A/zh
Publication of CN114048311A publication Critical patent/CN114048311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种网络诈骗的预警方法、装置、设备及存储介质,该方法包括:获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括URL;若是,则提取URL的设定部分,并根据设定部分,获取分词列表;根据分词列表,获取目标特征矩阵;将目标特征矩阵输入至预先训练的行为分类模型,获取行为分类模型输出的目标行为分类;根据目标行为分类,确定用户受骗程度,并根据用户受骗程度进行诈骗预警。本发明实施例的技术方案,通过预先训练的行为分类模型,对网络流量中的URL进行分析,确定用户的受骗程度,并基于用户的受骗程度进行网络诈骗预警,实现了对网络诈骗的及时预警,避免了用户的人身和财产的损失。

Description

网络诈骗的预警方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种网络诈骗的预警方法、 装置、设备及存储介质。
背景技术
通过对用户的网络行为进行统计与分析,进而在发现用户的网络行为存在 风险时,及时给出告警,对提升用户的人身和财产安全具有重要意义。
目前,现有的用户行为分析方法,通常是基于网络流量中的统一资源定位 符(Uniform Resource Locator,URL)、referer、cookie以及网页内容等信息, 分析用户的网页浏览习惯和兴趣偏好,以针对性的向用户进行广告推荐;然而, 对于诈骗网站中用户的受骗程度,无法实现对应的判断和预测,进而无法及时 向用户进行预警。
发明内容
本发明实施例提供一种网络诈骗的预警方法、装置、设备及存储介质,可 以实现对网络诈骗的及时预警,降低用户被网络诈骗的风险,避免用户的人身 和财产损失。
第一方面,本发明实施例提供了一种网络诈骗的预警方法,包括:
获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括所 述URL;
若是,则提取所述URL的设定部分,并根据所述设定部分,获取分词列表;
根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入至预先 训练的行为分类模型,获取所述行为分类模型输出的目标行为分类;
根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗程度进 行诈骗预警。
第二方面,本发明实施例还提供了一种网络诈骗的预警装置,包括:
待分析URL获取模块,用于获取待分析的统一资源定位符URL,并判断 预设域名黑名单中是否包括所述URL;
分词列表获取模块,用于若是,则提取所述URL的设定部分,并根据所述 设定部分,获取分词列表;
目标行为分类获取模块,用于根据所述分词列表,获取目标特征矩阵;将 所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输 出的目标行为分类;
用户受骗程度确定模块,用于根据所述目标行为分类,确定用户受骗程度, 并根据所述用户受骗程度进行诈骗预警。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行,使得所述一 个或多个处理器执行所述计算机程序时实现本发明任意实施例提供的网络诈骗 的预警方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质 上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的网 络诈骗的预警方法。
本发明实施例提供的技术方案,通过获取待分析的统一资源定位符URL, 并在确定预设域名黑名单中包括当前URL时,提取URL的设定部分,并根据 设定部分,获取分词列表;进而根据分词列表,获取目标特征矩阵;并将目标 特征矩阵输入至预先训练的行为分类模型,获取行为分类模型输出的目标行为 分类;最终根据目标行为分类,确定用户受骗程度,并根据用户受骗程度进行 诈骗预警,实现了对网络诈骗的及时预警,降低了用户被网络诈骗的风险,避 免了用户的人身和财产损失。
附图说明
图1是本发明一实施例中的一种网络诈骗的预警方法的流程图;
图2A是本发明另一实施例中的一种网络诈骗的预警方法的流程图;
图2B是本发明另一实施例中的一种网络诈骗的预警方法的流程示意图;
图3是本发明另一实施例中的一种网络诈骗的预警装置的结构示意图;
图4是本发明另一实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明 的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不 应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和 完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用, 并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序 执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行 示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语 “基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另 一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施 例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、 模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺 序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的, 本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个 或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说 明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本发明一实施例提供的一种网络诈骗的预警方法的流程图,本发明 实施例可适用于基于预先训练的行为分类模型,对网络流量中的URL进行分 析,确定用户的受骗程度,并基于用户的受骗程度进行网络诈骗预警;该方法 可以由网络诈骗的预警装置来执行,该装置可由硬件和/或软件组成,并一般可 集成在电子设备中,典型的,可以集成在计算机设备或者服务器中。如图1所 示,该方法具体包括如下步骤:
S110、获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否 包括所述URL。
其中,统一资源定位符(Uniform Resource Locator,URL),是互联网上 标准的资源的地址;在互联网中,每个文件都对应一个唯一的URL,通过URL 包含的信息,可以获取文件的位置以及对应的处理方式。
在本实施例中,可以通过抓包软件抓取用户访问网站的URL作为待分析的 URL,也可以通过客户端访问网站,查看源代码获取网站的URL作为待分析的 URL,本实施例对于待分析URL的获取方式不作限定。
预设域名黑名单,是指包括至少一个诈骗网站的URL的列表;典型的,诈 骗网站可以是***类诈骗网站。在本实施例中,诈骗网站可以是相关机关公布 的违法网站,也可以是被举报的违法犯罪网站,本实施例对诈骗网站的URL的 获取方式不作具体限定。
在本实施例中,在获取到待分析的URL之后,在预设域名黑名单中进行匹 配已存URL的查找;若确定查找到与待分析URL一致的已存URL,则可以确 定当前待分析的URL为诈骗网站的URL,表示当前用户存在诈骗网站的访问 行为,即存在被诈骗的风险。
S120、若是,则提取所述URL的设定部分,并根据所述设定部分,获取分 词列表。
其中,URL的设定部分,为URL的指定组成部分;典型的,设定部分可 以是URL的路径(Path)部分;Path,用于描述项目或者模块中资源绝对路径。 需要说明的是,URL的组成格式可以包括protocol//hostname[:port]/path/ [;parameter][?query]#fragment;其中,protocol表示协议,例如,常用的协议是 超文本传输协议(Hyper Text TransferProtocol,HTTP);hostname表示主机地 址,可以是域名,也可以是网际协议地址;port表示主机端口号;对于HTTP 协议,其默认端口是:80端口,即如果内容为空则默认就是:80端口;path表示 网络资源在服务器中的指定路径;parameter,用于配置需要向服务器传入的参数,query,用于配置查询字符串,以在服务器中进行内容查询;fragment用于 配置访问网页后直接到达指定位置;[.]表示该项为可选项。
需要说明的是,当用户登录诈骗网站后,不同的操作将跳转至不同的页面; 对应的,不同页面的URL中的Path部分不同,故Path部分内容可以体现用户 的行为。因此,通过获取URL中的Path部分,并对当前Path部分进行分析, 可以获取用户执行的对应操作,以实现对用户行为的分类。
在本实施例的一个可选的实施方式中,提取所述URL的设定部分,并根据 所述设定部分,获取分词列表,可以包括:提取所述URL的设定部分,并根据 预设间隔符对所述设定部分进行分割,获取所述设定部分对应的至少一个分词; 根据所述至少一个分词,获取分词列表。
其中,预设间隔符,可以是“/”或者“-”等间隔符。具体的,在获取到 URL的设定部分之后,通过预设分隔符对设定部分进行分割,以获取分割后的 多个分词;例如,设定部分为ABC/DEF,通过预设间隔符“/”对设定部分进 行划分,可以获取分词ABC和DEF。在获取到待分析URL对应的多个分词之 后,根据多个分词生成分词列表。
S130、根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入 至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类。
在本实施例中,可以根据特征提取算法,对分词列表进行行为特征提取, 并根据各行为分类对应的特征提取结果,确定目标特征矩阵;具体的,可以将 各行为分类对应的特征提取数量,作为目标特征矩阵的元素值,以获取待分析 URL对应的目标特征矩阵;其中,目标特征矩阵的元素个数等于行为分类的数 量,且每一个元素对应的一个行为分类。
进一步的,在获取到目标特征矩阵之后,可以将目标特征矩阵输入至预先 训练完成的行为分类模型,以获取行为分类模型输出的,待分析URL对应的行 为分类。其中,行为分类模型,可以采用具有行为分类标签的特征矩阵训练样 本,对基于机器学习算法(例如,隐性马尔科夫算法或者贝叶斯算法等用于分 类的机器学习算法)构建的初始行为分类模型进行训练得到。
在本实施例中,可以首先基于机器学习算法,构建初始行为分类模型,并 获取预先标注有行为分类的特征矩阵作为训练样本,对初始行为分类模型进行 有监督训练,直至行为分类模型对训练样本的识别结果与标注信息一致,获取 训练完成的行为分类模型。
在本实施例中,行为分类可以包括注册、登录、充值提现、访问个人中心、 投注买入、查询记录以及联系在线客服中的至少一项。其中,对于***类诈骗 网站,获取用户的主要行为分类,进而获取上述行为分类的训练样本对初始行 为分类模型进行训练,获取可实现上述行为分类识别的行为分类模型。
在本实施例的一个可选的实施方式中,根据所述分词列表,获取目标特征 矩阵,可以包括:
将所述分词列表分别与各预设行为关键词库进行比对,分别获取所述分词 列表包括各预设行为关键词库中关键词的数量;根据预设行为关键词库的数量, 获取初始特征矩阵;将所述分词列表包括各预设行为关键词库中关键词的数量 填充至初始特征矩阵,获取目标特征矩阵;其中,初始特征矩阵为1×N的零矩 阵,N表示预设行为关键词库的数量,预设行为关键词库与行为分类一一对应。
在本实施例中,可以针对各行为分类分别预先建立对应的关键词库;具体 的,可以获取在诈骗网站中执行不同行为时的URL,并根据该URL获取对应 的关键词,以建立与各行为分类分别对应的关键词库。其中,行为分类的数量 与类型可以根据任务需求进行自适应设置,本实施例对此不作具体限定。
其次,将分词列表分别与各行为分类对应的关键词库进行比对,记录分词 列表包括各关键词库中关键词的数量;例如,当前分词列表与注册行为对应的 关键词库具有5个相同的关键词,分词列表与登录行为对应的关键词库具有4 个相同的关键词。根据预设行为关键词库的数量,获取初始特征矩阵,例如, 当前具有7个预设行为关键词库,则初始特征矩阵可以为[0,0,0,0,0,0,0],每一位 元素对应一个行为分类。
最终,将分词列表包括各预设行为关键词库中关键词的数量填充至初始特 征矩阵,获取目标特征矩阵;例如,初始特征矩阵为[0,0,0,0,0,0,0],对应的行为 分类依次为注册、登录、充值提现、访问个人中心、投注买入、查询记录以及 联系在线客服;分词列表包括当前各行为分类对应的关键词库中关键词的数量 依次为1、2、0、0、0、3和4,将上述数值依次添加至初始特征矩阵,可以得 到目标特征矩阵为[1,2,0,0,0,3,4]。
S140、根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗 程度进行诈骗预警。
其中,受骗程度可以包括轻度受骗、中度受骗和重度受骗。在本实施例中, 可以预选确定行为分类与受骗程度的对应关系,例如,注册和登录对应轻度受 骗,访问个人中心、查询记录和联系在线客服对应中度受骗,投注买入和充值 提现对应重度受骗。
需要说明的是,在获取到目标行为分类之后,可以根据预先确定的行为分 类与受骗程度的对应关系,确定目标行为分类对应的用户受骗程度;进一步的, 根据用户受骗程度进行诈骗预警,可以是在检测到用户受骗程度达到轻度受骗 时,即检测到用户正在登录诈骗网站或者登录过诈骗网站时,直接进行诈骗预 警,例如,向用户播放提示语音“行为存在被诈骗风险,请注意”;也可以是 在检测到用户受骗程度达到中度受骗或者重度受骗时,进行诈骗预警,本实施 例对此不作具体限定。
在本实施例中,通过行为分类模型对用户访问网站的URL进行分析,实现 对用户行为分类的识别,可以在确定用户当前行为存在被诈骗风险时,及时给 出告警信息,可以降低用户后续被诈骗的概率,实现对网络诈骗的及时预警。
本发明实施例提供的技术方案,通过获取待分析的统一资源定位符URL, 并在确定预设域名黑名单中包括当前URL时,提取URL的设定部分,并根据 设定部分,获取分词列表;进而根据分词列表,获取目标特征矩阵;并将目标 特征矩阵输入至预先训练的行为分类模型,获取行为分类模型输出的目标行为 分类;最终根据目标行为分类,确定用户受骗程度,并根据用户受骗程度进行 诈骗预警,实现了对网络诈骗的及时预警,降低了用户被网络诈骗的风险,避 免了用户的人身和财产损失。
本发明又一实施例提供了一种网络诈骗的预警方法,本实施例以上述实施 例为基础,具体介绍在对待分析的URL进行识别之前,获取训练完成的行为识 别模型。
图2A为本发明又一实施例提供的网络诈骗的预警方法的流程图,本实施 例以上述技术方案为基础,提供了一种网络诈骗的预警方法,该方法包括:
S210、获取样本URL,将所述样本URL与各预设行为关键词库进行比对, 根据比对结果,获取样本特征矩阵。
其中,样本URL,为用于对行为分类模型进行训练的URL。需要说明的是, 对于各样本URL对应的行为分类已知。
在本实施例中,可以获取一定数量的具有行为分类标签的URL作为样本 URL,并对样本URL的设定部分进行提取和分割,以获取样本URL对应的分 词列表;进一步的,将分词列表与各预设行为关键词库进行比对,以获取分词 列表包括各预设行为关键词库中关键词的数量,并根据该数量和预设行为关键 词库的数量,获取样本特征矩阵。
在本实施例的一个可选的实施方式中,在获取样本URL,将所述样本URL 与各预设行为关键词库进行比对之前,还可以包括:获取在诈骗网站中执行不 同分类行为对应的URL,并提取所述URL的设定部分;根据预设间隔符,对 所述设定部分进行分割,获取初始分词;对所述初始分词进行去重操作和无效 分词过滤操作,获取各行为分类对应的预设行为关键词库。
在本实施例中,可以模拟受骗用户访问一定数量的诈骗网站,进行注册、 登录、充值提现、访问个人中心、投注买入、查询记录以及联系在线客服共七 类行为操作,并记录执行每种操作时对应的URL。进而,提取URL中的Path 部分,并根据“/”和“-”等间隔符对Path部分进行分割,获取最小单位的初 始分词;在获取到初始分词之后,可以按照不同的行为分类对初始分词进行分 别统计,并针对各行为分类的初始分词进行去重和无效分词(例如,index和 html等)过滤,以获取各行为分类对应的预设行为关键词库。
S220、根据所述样本特征矩阵和所述样本URL的行为分类,获取训练样本。
在本实施例中,在获取到样本特征矩阵之后,将样本URL的行为分类作为 样本特征矩阵的标签,以生成训练样本。
S230、通过所述训练样本对初始行为分类模型进行训练,获取训练完成的 行为分类模型。
其中,初始行为分类模型可以基于朴素贝叶斯算法构建。朴素贝叶斯(
Figure BDA0003271140010000111
Bayes)算法,是基于贝叶斯定理与特征条件独立假设的分类方法,可以结合先 验概率和后验概率,实现对大数据集的高准确率识别,且算法的实现较为简单。 在本实施例中,基于朴素贝叶斯算法建立初始行为分类模型,并采用获取的训 练样本对初始行为分类模型进行训练,获取训练完成的行为分类模型,提升了 获取的行为分类模型的分类准确度。
需要说明的是,在通过训练样本对初始行为分类模型进行训练时,可以将 70%的训练样本用于初始行为分类模型的训练,其余30%的训练样本用于对训 练完成的行为分类模型进行分类预测,以观察行为分类模型的分类效果。可以 理解的是,当分类效果无法满足预设分类准确率时,可以在用于进行分类预测 的训练样本中筛选分类错误的训练样本,对训练完成的分类模型进行再次训练, 直至行为分类模型的行为分类结果满足预设分类准确率。
S240、获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否 包括所述URL。
S250、若是,则提取所述URL的设定部分,并根据所述设定部分,获取分 词列表。
S260、根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入 至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类。
在本实施例的一个可选的实施方式中,将所述目标特征矩阵输入至预先训 练的行为分类模型,获取所述行为分类模型输出的目标行为分类,可以包括:
判断所述目标特征矩阵中是否存在至少一个元素值不为零;若是,则将所 述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输出 的目标行为分类。
需要说明的是,当目标特征矩阵的各元素值均为零时,表示当前待分析URL 未命中任何一种行为分类;而由于行为分类模型由对应当前几种行为分类的训 练样本训练得到,故当待分析URL不涉及当前的行为分类时,行为分类模型无 法确定待分析URL的行为分类;此时,即无必要将目标行为特征输入至行为分 类模型。
在本实施例中,在通过行为分类模型对目标特征矩阵进行行为识别之前, 可以首先对目标特征矩阵进行检测;若检测到目标特征矩阵的各元素值均为零, 可直接对当前目标特征矩阵进行丢弃,放弃对待分析URL的识别。而若检测到 目标特征矩阵的各元素值存在至少一个不为零,则表示待分析URL至少命中了 一种行为分类;此时,可以将目标特征矩阵输入至训练完成的行为分类模型, 以通过行为分类模型确定目标特征矩阵的行为分类。
在本实施例中,在通过训练完成的行为分类模型对目标特征矩阵进行行为 识别之前,预先对目标特征矩阵的各元素值进行检测,以确定是否将目标特征 矩阵输入至行为分类模型,可以降低行为分类模型需要处理的数据量,降低系 统的数据处理压力。
S270、根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗 程度进行诈骗预警。
本发明实施例提供的技术方案,通过获取样本URL,并将样本URL与各 预设行为关键词库进行比对,以根据比对结果,获取样本特征矩阵;根据样本 特征矩阵和样本URL的行为分类,获取训练样本;通过训练样本对基于朴素贝 叶斯算法构建的初始行为分类模型进行训练,获取训练完成的行为分类模型, 提升了获取的行为分类模型的准确度;进一步的,通过获取待分析的统一资源 定位符URL,并在确定预设域名黑名单中包括当前URL时,提取URL的设定 部分,并根据设定部分,获取分词列表;进而根据分词列表,获取目标特征矩阵;并将目标特征矩阵输入至预先训练的行为分类模型,获取行为分类模型输 出的目标行为分类;最终根据目标行为分类,确定用户受骗程度,并根据用户 受骗程度进行诈骗预警,实现了对网络诈骗的及时预警,降低了用户被网络诈 骗的风险,避免了用户的人身和财产损失。
在本实施例的一个具体的实施方式中,如图2B所示,首先遍历待分析URL 列表,以判断是否命中域名黑名单;其中,若确定当前待分析URL未命中域名 黑名单,则继续判断下一待分析URL是否命中域名黑名单,直至完成对URL 列表的遍历;而若确定当前待分析URL命中域名黑名单,则提取URL的PATH 部分,并对PATH部分进行分词拆分,以及对拆分后的分词进行无效关键词的 过滤,以获取分词列表。进一步的,将分词列表与关键字库进行匹配,以获取 特征矩阵;最终,将特征矩阵输入至行为分类模型,以进行用户行为预测,并 确定用户的受骗程度。
图3为本发明另一实施例提供的一种网络诈骗的预警装置的结构示意图。 如图3所示,该装置包括:待分析URL获取模块310、分词列表获取模块320、 目标行为分类获取模块330和用户受骗程度确定模块340。其中,
待分析URL获取模块310,用于获取待分析的统一资源定位符URL,并判 断预设域名黑名单中是否包括所述URL;
分词列表获取模块320,用于若是,则提取所述URL的设定部分,并根据 所述设定部分,获取分词列表;
目标行为分类获取模块330,用于根据所述分词列表,获取目标特征矩阵; 将所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型 输出的目标行为分类;
用户受骗程度确定模块340,用于根据所述目标行为分类,确定用户受骗 程度,并根据所述用户受骗程度进行诈骗预警。
本发明实施例提供的技术方案,通过获取待分析的统一资源定位符URL, 并在确定预设域名黑名单中包括当前URL时,提取URL的设定部分,并根据 设定部分,获取分词列表;进而根据分词列表,获取目标特征矩阵;并将目标 特征矩阵输入至预先训练的行为分类模型,获取行为分类模型输出的目标行为 分类;最终根据目标行为分类,确定用户受骗程度,并根据用户受骗程度进行 诈骗预警,实现了对网络诈骗的及时预警,降低了用户被网络诈骗的风险,避 免了用户的人身和财产损失。
可选的,在上述技术方案的基础上,分词列表获取模块320,具体用于提 取所述URL的设定部分,并根据预设间隔符对所述设定部分进行分割,获取所 述设定部分对应的至少一个分词;根据所述至少一个分词,获取分词列表。
可选的,在上述技术方案的基础上,目标行为分类获取模块330,包括:
关键词数量获取单元,用于将所述分词列表分别与各预设行为关键词库进 行比对,分别获取所述分词列表包括各预设行为关键词库中关键词的数量;
初始特征矩阵获取单元,用于根据预设行为关键词库的数量,获取初始特 征矩阵;
目标特征矩阵获取单元,用于将所述分词列表包括各预设行为关键词库中 关键词的数量填充至初始特征矩阵,获取目标特征矩阵;
其中,初始特征矩阵为1×N的零矩阵,N表示预设行为关键词库的数量, 预设行为关键词库与行为分类一一对应。
可选的,在上述技术方案的基础上,用户受骗程度确定模块340,包括:
元素值判断单元,用于判断所述目标特征矩阵中是否存在至少一个元素值 不为零;若是,则将所述目标特征矩阵输入至预先训练的行为分类模型,获取 所述行为分类模型输出的目标行为分类。
可选的,在上述技术方案的基础上,所述网络诈骗的预警装置,还包括:
设定部分提取模块,用于获取在诈骗网站中执行不同分类行为对应的URL, 并提取所述URL的设定部分;
初始分词获取模块,用于根据预设间隔符,对所述设定部分进行分割,获 取初始分词;
预设行为关键词库获取模块,用于对所述初始分词进行去重操作和无效分 词过滤操作,获取各行为分类对应的预设行为关键词库。
可选的,在上述技术方案的基础上,所述网络诈骗的预警装置,还包括:
样本特征矩阵获取模块,用于获取样本URL,将所述样本URL与各预设 行为关键词库进行比对,根据比对结果,获取样本特征矩阵;
训练样本获取模块,用于根据所述样本特征矩阵和所述样本URL的行为分 类,获取训练样本;
模型训练模块,用于通过所述训练样本对初始行为分类模型进行训练,获 取训练完成的行为分类模型;其中,初始行为分类模型基于朴素贝叶斯算法构 建。
可选的,在上述技术方案的基础上,行为分类包括注册、登录、充值提现、 访问个人中心、投注买入、查询记录以及联系在线客服中的至少一项。
上述装置可执行本发明前述实施例所提供的网络诈骗的预警方法,具备执 行上述方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术 细节,可参见本发明前述实施例所提供的网络诈骗的预警方法。
图4为本发明另一实施例提供的一种电子设备的结构示意图,如图4所示, 该电子设备包括处理器410、存储器420、输入装置430和输出装置440;电子 设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例; 电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过 总线或其他方式连接,图4中以通过总线连接为例。存储器420作为一种计算 机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发 明任意实施例中的一种网络诈骗的预警方法对应的程序指令/模块(例如,一种 网络诈骗的预警装置中的待分析URL获取模块310、分词列表获取模块320、 目标行为分类获取模块330和用户受骗程度确定模块340)。处理器410通过运 行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种 功能应用以及数据处理,即实现上述的一种网络诈骗的预警方法。也即,该程 序被处理器执行时实现:
获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括所 述URL;
若是,则提取所述URL的设定部分,并根据所述设定部分,获取分词列表;
根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入至预先 训练的行为分类模型,获取所述行为分类模型输出的目标行为分类;
根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗程度进 行诈骗预警。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使 用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以 包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失 性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410 远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络 的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输 入装置430可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置440可 包括显示屏等显示设备。
可选的,该电子设备可以为服务器,服务器可以是独立的服务器,也可以 是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中 间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、 以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例 所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的一 种网络诈骗的预警方法中的相关操作。也即,该程序被处理器执行时实现:
获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括所 述URL;
若是,则提取所述URL的设定部分,并根据所述设定部分,获取分词列表;
根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入至预先 训练的行为分类模型,获取所述行为分类模型输出的目标行为分类;
根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗程度进 行诈骗预警。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是 个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述网络诈骗的预警装置的实施例中,所包括的各个单元 和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实 现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分, 并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种网络诈骗的预警方法,其特征在于,包括:
获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括所述URL;
若是,则提取所述URL的设定部分,并根据所述设定部分,获取分词列表;
根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类;
根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗程度进行诈骗预警。
2.根据权利要求1所述的方法,其特征在于,提取所述URL的设定部分,并根据所述设定部分,获取分词列表,包括:
提取所述URL的设定部分,并根据预设间隔符对所述设定部分进行分割,获取所述设定部分对应的至少一个分词;
根据所述至少一个分词,获取分词列表。
3.根据权利要求1所述的方法,其特征在于,根据所述分词列表,获取目标特征矩阵,包括:
将所述分词列表分别与各预设行为关键词库进行比对,分别获取所述分词列表包括各预设行为关键词库中关键词的数量;
根据预设行为关键词库的数量,获取初始特征矩阵;
将所述分词列表包括各预设行为关键词库中关键词的数量填充至初始特征矩阵,获取目标特征矩阵;
其中,初始特征矩阵为1×N的零矩阵,N表示预设行为关键词库的数量,预设行为关键词库与行为分类一一对应。
4.根据权利要求1所述的方法,其特征在于,将所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类,包括:
判断所述目标特征矩阵中是否存在至少一个元素值不为零;
若是,则将所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取在诈骗网站中执行不同分类行为对应的URL,并提取所述URL的设定部分;
根据预设间隔符,对所述设定部分进行分割,获取初始分词;
对所述初始分词进行去重操作和无效分词过滤操作,获取各行为分类对应的预设行为关键词库。
6.根据权利要求5所述的方法,其特征在于,在对所述初始分词进行去重操作和无效分词过滤操作,获取各行为分类对应的预设行为关键词库之后,还包括:
获取样本URL,将所述样本URL与各预设行为关键词库进行比对,根据比对结果,获取样本特征矩阵;
根据所述样本特征矩阵和所述样本URL的行为分类,获取训练样本;
通过所述训练样本对初始行为分类模型进行训练,获取训练完成的行为分类模型;其中,初始行为分类模型基于朴素贝叶斯算法构建。
7.根据权利要求1-6中任一所述的方法,其特征在于,行为分类包括注册、登录、充值提现、访问个人中心、投注买入、查询记录以及联系在线客服中的至少一项。
8.一种网络诈骗的预警装置,其特征在于,包括:
待分析URL获取模块,用于获取待分析的统一资源定位符URL,并判断预设域名黑名单中是否包括所述URL;
分词列表获取模块,用于若是,则提取所述URL的设定部分,并根据所述设定部分,获取分词列表;
目标行为分类获取模块,用于根据所述分词列表,获取目标特征矩阵;将所述目标特征矩阵输入至预先训练的行为分类模型,获取所述行为分类模型输出的目标行为分类;
用户受骗程度确定模块,用于根据所述目标行为分类,确定用户受骗程度,并根据所述用户受骗程度进行诈骗预警。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行所述计算机程序时实现如权利要求1-7中任一所述的网络诈骗的预警方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一所述的网络诈骗的预警方法。
CN202111101612.6A 2021-09-18 2021-09-18 网络诈骗的预警方法、装置、设备及存储介质 Pending CN114048311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111101612.6A CN114048311A (zh) 2021-09-18 2021-09-18 网络诈骗的预警方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111101612.6A CN114048311A (zh) 2021-09-18 2021-09-18 网络诈骗的预警方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114048311A true CN114048311A (zh) 2022-02-15

Family

ID=80204452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111101612.6A Pending CN114048311A (zh) 2021-09-18 2021-09-18 网络诈骗的预警方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114048311A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460059A (zh) * 2022-07-28 2022-12-09 浪潮通信信息***有限公司 风险预警方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460059A (zh) * 2022-07-28 2022-12-09 浪潮通信信息***有限公司 风险预警方法及装置
CN115460059B (zh) * 2022-07-28 2024-03-08 浪潮通信信息***有限公司 风险预警方法及装置

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
US8095547B2 (en) Method and apparatus for detecting spam user created content
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN107257390B (zh) 一种url地址的解析方法和***
CN103685308A (zh) 一种钓鱼网页的检测方法及***、客户端、服务器
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
US20170289082A1 (en) Method and device for identifying spam mail
CN108600172B (zh) 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
Deshpande et al. Detection of phishing websites using Machine Learning
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN113779481A (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN106790025B (zh) 一种对链接进行恶意性检测的方法及装置
CN114048311A (zh) 网络诈骗的预警方法、装置、设备及存储介质
CN112468444B (zh) 互联网域名滥用识别方法和装置,电子设备,存储介质
CN113965377A (zh) 一种攻击行为检测方法及装置
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
Luz et al. Data preprocessing and feature extraction for phishing URL detection
US9843559B2 (en) Method for determining validity of command and system thereof
CN115879110A (zh) 一种基于指纹穿透技术识别金融风险网站的***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination