CN113434792B - 网络地址匹配模型的训练方法和网络地址匹配方法 - Google Patents

网络地址匹配模型的训练方法和网络地址匹配方法 Download PDF

Info

Publication number
CN113434792B
CN113434792B CN202110822040.4A CN202110822040A CN113434792B CN 113434792 B CN113434792 B CN 113434792B CN 202110822040 A CN202110822040 A CN 202110822040A CN 113434792 B CN113434792 B CN 113434792B
Authority
CN
China
Prior art keywords
network address
resource
training
determining
matching model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110822040.4A
Other languages
English (en)
Other versions
CN113434792A (zh
Inventor
徐胜超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110822040.4A priority Critical patent/CN113434792B/zh
Publication of CN113434792A publication Critical patent/CN113434792A/zh
Application granted granted Critical
Publication of CN113434792B publication Critical patent/CN113434792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种网络地址匹配模型的训练方法、网络地址匹配方法、装置、设备、存储介质以及程序产品,涉及数据处理技术领域,尤其涉及大数据、人工智能技术领域。具体实现方案为:确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本;利用多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型;确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本;以及利用多个第二网络地址特征样本,对第一训练匹配模型进行第二训练,得到第二训练匹配模型。

Description

网络地址匹配模型的训练方法和网络地址匹配方法
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、人工智能技术领域。
背景技术
互联网中的资源可以用简单的字符串来表示,这些字符串被称为URL(UniformResource Locator,统一资源定位符)。互联网上的每个资源都有一个唯一的URL,用于指示该资源的在互联网中的位置。
发明内容
本公开提供了一种网络地址匹配模型的训练方法、网络地址匹配方法、装置、设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种网络地址匹配模型的训练方法,包括:确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本;利用所述多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型;确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本;以及利用所述多个第二网络地址特征样本,对所述第一训练匹配模型进行第二训练,得到第二训练匹配模型。
根据本公开的另一方面,提供了一种网络地址匹配方法,包括:获取第一网络地址和第二网络地址;分别确定所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征;以及将所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征依次输入网络地址匹配模型,得到所述第一网络地址和所述第二网络地址之间的匹配度,其中,所述网络地址匹配模型是利用本公开实施例所述的方法训练的。
根据本公开的另一方面,提供了一种网络地址匹配模型的训练装置,包括:第一确定模块,用于确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本;第一训练模块,用于利用所述多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型;第二确定模块,用于确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本;以及第二训练模块,用于利用所述多个第二网络地址特征样本,对所述第一训练匹配模型进行第二训练,得到第二训练匹配模型。
根据本公开的另一方面,提供了一种网络地址匹配装置,包括:获取模块,用于获取第一网络地址和第二网络地址;特征确定模块,用于分别确定所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征;以及输入模块,用于将所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征依次输入网络地址匹配模型,得到所述第一网络地址和所述第二网络地址之间的匹配度,其中,所述网络地址匹配模型是利用本公开实施例所述的方法训练的。
本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,计算机程序,所述计算机程序在被处理器执行时实现本公开实施例所示的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的对网络地址匹配模型的训练方法的流程图;
图2示意性示出了根据本公开实施例的对网络地址匹配模型进行第一训练的示意图;
图3示意性示出了根据本公开实施例的对网络地址匹配模型进行第二训练的示意图;
图4示意性示出了根据本公开的实施例的网络地址匹配方法的流程图;
图5示意性示出了根据本公开另一实施例的对网络地址匹配模型的训练方法的示意图;
图6示意性示出了根据本公开实施例的网络地址匹配模型的训练装置的框图;
图7示意性示出了根据本公开实施例的网络地址匹配模型的训练装置的框图;以及
图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下将结合图1,对网络地址匹配模型的训练方法进行详细描述。
图1示意性示出了根据本公开实施例的对网络地址匹配模型的训练方法的流程图。
如图1所示,该实施例的对网络地址匹配模型的训练方法100可以包括操作S110~操作S140。
在操作S110,确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本。
在操作S120,利用多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型。
在操作S130,确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本。
在操作S140,利用多个第二网络地址特征样本,对第一训练匹配模型进行第二训练,得到第二训练匹配模型。
根据本公开的实施例,第一资源和第二资源分别可以为一种网络中的资源,例如可以为文本、音频、视频等等。第一资源和第二资源可以是相同的资源也可以为不同的资源。第一资源和第二资源中的每个资源可以存储在网络中的不同位置,相应地,每个资源可以具有多个网络地址,用于指示该资源在网络中的位置。
根据本公开的实施例,可以收集第一资源的网络地址,解析第一资源的网络地址,获得第一资源的原始标识。示例性地,原始标识可以为第一资源的网络地址中包含的资源标识,资源标识例如可以为资源ID。进一步解析第一资源的原始标识,得到第一资源的多个扩展标识。示例性地,该多个扩展标识可以包括与第一资源对应的不同格式的资源标识,其中也可以包括原始标识。然后根据多个扩展标识中的每个扩展标识,确定第一网络地址特征样本,其中,每个第一网络地址特征样本包含第一资源的多个扩展标识中的一个。
示例性地,本实施例中,第一网络地址特征样本可以包括域名、网络地址路径、扩展标识和名称特征。其中,域名、网络地址路径可以通过解析第一资源的网络地址得到,名称特征可以根据第一资源的名称来确定。示例性地,每个第一网络地址特征样本中的域名、网络地址路径和名称特征可以相同,但扩展标识彼此不同。
根据本公开的实施例,第一训练例如可以包括以下操作。可以使用网络地址匹配模型,确定多个第一网络地址特征样本彼此之间的匹配度,根据多个第一网络地址特征样本彼此之间的匹配度,得到第一匹配准确率,在第一匹配准确率小于第一准确率阈值的情况下,调整网络地址匹配模型的参数,并返回使用网络地址匹配模型,确定多个第一网络地址特征样本彼此之间的匹配度的步骤。
根据本公开的实施例,通过第一训练可以提高网络地址匹配模型对网络地址中包含的不同资源标识的识别能力。
根据本公开的实施例,可以获取第二资源的多个网络地址。针对第二资源的多个网络地址中的每个网络地址,确定与网络地址对应的域名、网络地址路径、资源标识和名称特征。示例性地,本实施例中,可以通过解析第二资源的每个网络地址,得到与网络地址对应的域名、网络地址路径、资源标识,并根据第二资源的名称进行切词,得到切词结果,根据切词结果确定第二名称特征。例如,根据切词结果计算MD5值,得到第二名称特征。然后,将域名、网络地址路径、资源标识和名称特征,作为第二网络地址特征样本。
根据本公开的实施例,还可以对解析网络地址得到的资源标识进行进一步解析,将资源标识转换为多个格式的资源标识,从而提高匹配量。
根据本公开的实施例,可以对网络地址路径进行格式化。通过格式化,可以保证路径格式相同,有助于提高匹配的准确率。作为一种可选的实施例,也可以通过格式化去掉路径。
根据本公开的实施例,网络地址例如可以为URL(Uniform Resource Locator,统一资源定位符)。以下对根据本公开实施例的URL进行详细描述。
根据本公开的实施例,URL的格式可以如下所示:
protocol://Hostname[:port]/Path/[;parameters][?query]#fragment
其中,protocol(协议)是指定使用的传输协议,例如ftp、HTTP、HTTPS协议等。Hostname(主机域名)是指存放资源的服务器的域名***(DNS)主机名或IP地址。port(端口号)是端口号,属于可选内容,可省略,省略时使用传输协议默认的端口号。Path(路径)是由零个或多个“/”符号隔开的字符串,可以用于表示主机上的一个目录或文件地址。parameters(参数)可以用于指定特殊参数,属于可选内容。query(查询)可以用于给动态网页传递参数,属于可选内容。fragment(信息片段)用于指定网络资源中的片段。
根据本公开的实施例,可以通过解析URL中的Hostname,得到域名,可以通过解析URL中的Path得到URL路径,可以通过解析URL中的Path或query获取资源标识。
以URL为www.xxx.com.cn/details/detail.do?_type=perio&id=aaa为例,通过解析该URL的Hostname,可以得到域名为www.xxx.com.cn,通过解析该URL中的Path得到URL路径为/details/detail.do,通过解析该URL中的query得到资源标识为aaa。
以URL为d.xxx.com/details/periodical/bbb为例,通过解析该URL的Hostname,可以得到域名为d.xxx.com,通过解析该URL中的Path得到URL路径为/details/periodical/bbb,通过解析该URL中的Path还可以得到资源标识为bbb。
根据本公开的实施例,第二训练例如可以包括以下操作。使用第一训练匹配模型,确定多个第二网络地址特征样本彼此之间的匹配度。根据多个第二网络地址特征样本彼此之间的匹配度,得到第二匹配准确率。在第二匹配准确率小于第二准确率阈值的情况下,调整第一训练匹配模型的参数,并返回使用第一训练匹配模型,确定多个第二网络地址特征样本彼此之间的匹配度的步骤。
根据本公开的实施例,通过第二训练可以提高网络地址匹配模型对网络地址特征的识别能力。
需要说明的是,上述操作的序号仅用于区分不同操作,并不表示执行顺序。根据本公开的实施例,操作S110可以在操作S120执行之前的任意时间执行,操作S130可以在操作S140执行之前的任意时间执行。
根据本公开的实施例,第一训练与第二训练之间的执行顺序可以任意设定。例如,可以先对网络地址匹配模型进行第一训练,然后对经第二训练的网络地址匹配模型进行第二训练,也可以先对网络地址匹配模型进行第二训练,然后对经第二训练的网络地址匹配模型进行第一训练。
根据本公开的另一些实施例,可以针对网络地址匹配模型进行n轮第一训练和m轮第二训练,其中,n、m为正整数。在进行n轮第一训练和m轮第二训练的过程中,可以先进行也进行n轮第一训练再进行m轮第二训练,也可以先进行也进行m轮第二训练再进行n轮第一训练,还可以依靠任意顺序穿插进行第一训练和第二训练。另外,每轮第一训练或每轮第二训练所使用的样本可以相同也可以不同。
以下将结合图2,对本公开实施例的对网络地址匹配模型进行第一训练的方法进行详细描述。
图2示意性示出了根据本公开实施例的对网络地址匹配模型进行第一训练的方法示意图。
如图2所示,该对网络地址匹配模型进行第一训练的方法220包括在操作S221,获取资源的原始标识。在操作S222,根据资源标识的解析规则,对原始标识进行解析,以将该原始标识变换为多个格式的资源标识,即扩展标识。然后根据利用多个扩展标识,确定多个网络地址特征样本。在操作S223,将该多个网络地址特征输入网络地址匹配模型。在操作S224,利用网络地址匹配模型计算输入的网络地址特征之间的匹配度。在操作S226,网络地址匹配模型输出多个网络地址特征样本彼此之间的匹配度,并对该多个网络地址特征样本彼此之间的匹配度进行统计,得到匹配准确率。在操作S226,判断匹配准确率是否小于第一准确率阈值。其中,第一准确率阈值可以根据实际需要进行设置。在匹配准确率小于第一准确率阈值的情况下,调整网络地址匹配模型的参数,并返回操作S223。在匹配准确率大于或等于第一准确率阈值的情况下,执行操作S227,结束第一训练。
以下将结合图3,对本公开实施例的对网络地址匹配模型进行第二训练的方法进行详细描述。
图3示意性示出了根据本公开实施例的对网络地址匹配模型进行第二训练的方法示意图。
如图3所示,该对网络地址匹配模型进行第二训练的方法340包括在操作S341,获取资源的多个网络地址,并确定每个网络地址所对应的域名31、网络地址路径32、名称特征33和资源标识34,作为网络地址特征样本,其中,该多个网络地址指向该资源的网络位置。需要说明的是,确定每个网络地址所对应的域名31、网络地址路径32、名称特征33和资源标识34的方法可以参考上文在此不再赘述。在操作S342,将网络地址特征样本,即域名31、网络地址路径32、名称特征33和资源标识34输入网络地址匹配模型。在操作S343,使用网络地址匹配模型,计算多个网络地址特征样本彼此之间的匹配度。在操作S344,网络地址匹配模型输出多个网络地址特征样本彼此之间的匹配度,并对多个网络地址特征样本彼此之间的匹配度进行统计,得到匹配准确率。在操作S345,判断匹配准确率是否小于第二准确率阈值。其中,第二准确率阈值可以根据实际需要进行设置。在匹配准确率小于第二准确率阈值的情况下,调整第一训练匹配模型的参数,并返回操作S342。在匹配准确率大于或等于第一准确率阈值的情况下,执行操作S346,结束第二训练。
以下将结合图4,对网络地址匹配方法进行详细描述。
图4示意性示出了根据本公开的实施例的网络地址匹配方法的流程图。
如图4所示,该实施例的网络地址匹配方法400可以包括操作S410~操作S430。
在操作S410,获取第一网络地址和第二网络地址。
然后,在操作S420,分别确定第一网络地址的网络地址特征和第二网络地址的网络地址特征。
在操作S430,将第一网络地址的网络地址特征和第二网络地址的网络地址特征依次输入网络地址匹配模型,得到第一网络地址和第二网络地址之间的匹配度。
根据本公开的实施例,网络地址匹配模型可以根据本公开实施例所示的网络地址匹配模型的训练方法训练得到。
根据本公开的实施例,匹配度可以用于表示两网络地址之间的匹配程度,若两网络地址之间的匹配度大于匹配度阈值,则表示该两网络地址指示了同一个资源的网络位置。其中,匹配度阈值可以根据实际需要进行设置。
根据本公开的实施例,例如可以根据以下操作确定第一网络地址的网络地址特征。解析第一网络地址,得到第一域名、第一网络地址路径和第一资源标识。根据与第一网络地址对应的第一资源名称,确定第一名称特征。确定第一域名、第一网络地址路径、第一名称特征和第一资源标识,作为第一网络地址的网络地址特征。
根据本公开的实施例,可以对第一资源名称进行切词处理,得到第一切词结果。根据第一切词结果,确定第一名称特征。通过切词处理,可以去掉资源名称中的标点和无意义词,减少干扰,有助于提高匹配的准确率。示例性地,可以对第一切词结果计算MD5值,得到第一名称特征。
根据本公开的实施例,例如可以根据以下操作确定第二网络地址的网络地址特征。解析第二网络地址,得到第二域名、第二网络地址路径和第二资源标识。根据与第二网络地址对应的第二资源名称,确定第二名称特征。确定第二域名、第二网络地址路径、第二名称特征和第二资源标识,作为第二网络地址的网络地址特征。
根据本公开的实施例,可以对第二资源名称进行切词处理,得到第二切词结果。根据第二切词结果,确定第二名称特征。示例性地,可以对第二切词结果计算MD5值,得到第二名称特征。
根据本公开的实施例,可以分别对第一网络地址路径和第二网络地址路径进行格式化。通过格式化,可以保证路径格式相同,有助于提高匹配的准确率。作为一种可选的实施例,也可以通过格式化去掉路径。
下面参考图5,结合具体实施例对上文所示的网络地址匹配方法做进一步说明。本领域技术人员可以理解,以下示例实施例仅用于理解本公开,本公开并不局限于此。
示例性地,本实施例中,资源可以为论文。网络地址可以为URL。
论文往往来自多个渠道,每个渠道的数据完整程度和可信程度不一致,因此需要通过从期刊中抓取论文列表来确定论文所属的期刊信息。期刊中包含论文的URL,可以通过访问该URL进入该论文的论文详情页,从而获得该论文。如何匹配期刊中的论文URL和论文详情页的URL是亟待解决的问题。
图5示意性示出了根据本公开另一实施例的网络地址匹配方法的示意图。
在图5中示出了,该网络地址匹配的方法500包括在操作S510,收集论文的URL和论文名称。
根据本公开的实施例,可以收集论文所在网站的每个URL,包括该网站的顶级域名、二级域名和其他级别域名所对应的URL。示例性地,本实施例中收集到论文的URL可以包括:
www.xxx.com.cn/details/detail.do?_type=perio&id=aaa
d.xxx.com.cn/details//KCMS/detail/detail.aspx?filename=bbb
在操作S520,针对收集到的URL进行动态解析,解析出URL中的域名、URL路径和论文ID。
在操作S530,对于URL路径进行格式化,保证每个URL路径的格式相同。
根据本公开的实施例,可以将URL中路径部分的大写字符都转换为小写格式。另外,还可以将URL中出现的参数也转换为路径格式。例如对于/details/detail.do?_type=perio&id=aaa可以转换成/periodical/aaa。
在操作S540,解析论文ID,分析论文ID生成规则,将原论文ID变换为多个格式的论文ID,以提高匹配量。例如,对于/KCMS/detail/detail.aspx?filename=bbb,可以变换为Article/CJFDTotal-bbb,其中,原论文id为bbb,新论文id为CJFDTotal-bbb。
在操作S550,根据论文名称,确定名称特征。
根据本公开的实施例,可以对论文名称进行切词处理,以去掉论文名称中的标点和无意义的词,得到切词结果。对切词结果计算MD5,作为名称特征。
在操作S560,对URL匹配模型进行训练。
根据本公开的实施例,可以分两步对URL匹配模型学习。在第一步,利用解析得到的多个论文ID对URL模型进行第一训练。在第二步,可以利用获得的多个URL的域名、URL路径、论文ID和论文名称,对URL匹配模型进行第二训练。
然后,在操作S570,利用URL匹配模型确定待匹配的URL期刊中与目标论文URL匹配的URL。
根据本公开的实施例,可以分别确定期刊中的目标论文URL和待匹配的各URL所对应的URL特征,该URL特征包括与URL对应的域名、URL路径、资源标识和资源名称。其中确定URL特征的方法可以参考上文在此不再赘述。接下来利用经第一训练和第二训练的URL匹配模型,对期刊中的目标论文URL和待匹配的各URL进行匹配计算,确定目标论文URL和待匹配的各URL之间的匹配度,并确定待匹配的URL中匹配度大于匹配度阈值的URL作为与目标论文URL匹配的URL。
图6示意性示出了根据本公开实施例的网络地址匹配模型的训练装置的框图。
如图6所示,该网络地址匹配模型的训练装置600包括第一确定模块610、第一训练模块620、第二确定模块630和第二训练模块640。
第一确定模块610,用于确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本。
第一训练模块620,用于利用多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型。
第二确定模块630,用于确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本。
第二训练模块640,用于利用多个第二网络地址特征样本,对第一训练匹配模型进行第二训练,得到第二训练匹配模型。
图7示意性示出了根据本公开实施例的网络地址匹配模型的训练装置的框图。
如图7所示,该网络地址匹配模型的训练装置700包括获取模块710、特征确定模块720和输入模块730。
获取模块710,用于获取第一网络地址和第二网络地址。
特征确定模块720,用于分别确定第一网络地址的网络地址特征和第二网络地址的网络地址特征。
输入模块730,用于将第一网络地址的网络地址特征和第二网络地址的网络地址特征依次输入网络地址匹配模型,得到第一网络地址和第二网络地址之间的匹配度。
其中,网络地址匹配模型是利用本公开实施例所示的方法训练的。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如网络地址匹配模型的训练和/或网络地址匹配方法。例如,在一些实施例中,网络地址匹配模型的训练和/或网络地址匹配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时,可以执行上文描述的网络地址匹配模型的训练和/或网络地址匹配方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网络地址匹配模型的训练和/或网络地址匹配方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种网络地址匹配模型的训练方法,包括:
确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本;
利用所述多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型;
确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本;以及
利用所述多个第二网络地址特征样本,对所述第一训练匹配模型进行第二训练,得到第二训练匹配模型;
其中,确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本包括:
解析所述第一资源的网络地址,获得所述第一资源的原始标识;
解析所述第一资源的原始标识,得到所述第一资源的多个扩展标识;以及
根据所述多个扩展标识中的每个扩展标识,确定所述第一网络地址特征样本,其中,每个所述第一网络地址特征样本包含第一资源的多个扩展标识中的一个。
2.根据权利要求1所述的方法,其中,所述利用所述多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,包括:
使用网络地址匹配模型,确定所述多个第一网络地址特征样本彼此之间的匹配度;
根据所述多个第一网络地址特征样本彼此之间的匹配度,得到第一匹配准确率;以及
在所述第一匹配准确率小于第一准确率阈值的情况下,调整所述网络地址匹配模型的参数,并返回使用网络地址匹配模型,确定所述多个第一网络地址特征样本彼此之间的匹配度的步骤。
3.根据权利要求1所述的方法,其中,所述确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本包括:
获取第二资源的多个网络地址;
针对所述第二资源的多个网络地址中的每个网络地址,确定与所述网络地址对应的域名、网络地址路径、资源标识和名称特征;以及
将所述域名、所述网络地址路径、所述资源标识和所述名称特征,作为所述第二网络地址特征样本。
4.根据权利要求3所述的方法,其中,所述利用与第二资源的多个网络地址一一对应的多个第二网络地址特征样本,对所述第一训练匹配模型进行第二训练,包括:
使用第一训练匹配模型,确定所述多个第二网络地址特征样本彼此之间的匹配度;
根据多个第二网络地址特征样本彼此之间的匹配度,得到第二匹配准确率;以及
在所述第二匹配准确率小于第二准确率阈值的情况下,调整所述第一训练匹配模型的参数,并返回使用第一训练匹配模型,确定所述多个第二网络地址特征样本彼此之间的匹配度的步骤。
5.一种网络地址匹配方法,包括:
获取第一网络地址和第二网络地址;
分别确定所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征;以及
将所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征依次输入网络地址匹配模型,得到所述第一网络地址和所述第二网络地址之间的匹配度,
其中,所述网络地址匹配模型是利用权利要求1-4中任一项所述的方法训练的。
6.根据权利要求5所述的方法,其中,所述确定所述第一网络地址的网络地址特征包括:
解析所述第一网络地址,得到第一域名、第一网络地址路径和第一资源标识;
根据与所述第一网络地址对应的第一资源名称,确定第一名称特征;以及
确定所述第一域名、所述第一网络地址路径、所述第一资源标识和所述第一名称特征,作为所述第一网络地址的网络地址特征。
7. 根据权利要求6所述的方法,其中,所述根据所述第一资源名称,确定第一名称特征,包括:
对所述第一资源名称进行切词处理,得到第一切词结果;以及
根据所述第一切词结果,确定第一名称特征。
8.根据权利要求6或7所述的方法,其中,所述确定所述第二网络地址的网络地址特征包括:
解析所述第二网络地址,得到第二域名、第二网络地址路径和第二资源标识;
根据与所述第二网络地址对应的第二资源名称,确定第二名称特征;以及
确定所述第二域名、所述第二网络地址路径、所述第二资源标识和所述第二名称特征,作为所述第二网络地址的网络地址特征。
9. 根据权利要求8所述的方法,其中,所述根据所述第二资源名称,确定第二名称特征,包括:
对所述第二资源名称进行切词处理,得到第二切词结果;以及
根据所述第二切词结果,确定第二名称特征。
10.根据权利要求6-8之一所述的方法,还包括:
分别对所述第一网络地址路径和所述第二网络地址路径进行格式化。
11.一种网络地址匹配模型的训练装置,包括:
第一确定模块,用于确定与第一资源的多个扩展标识一一对应的多个第一网络地址特征样本;
第一训练模块,用于利用所述多个第一网络地址特征样本,对网络地址匹配模型进行第一训练,得到第一训练匹配模型;
第二确定模块,用于确定与第二资源的多个网络地址一一对应的多个第二网络地址特征样本;以及
第二训练模块,用于利用所述多个第二网络地址特征样本,对所述第一训练匹配模型进行第二训练,得到第二训练匹配模型;
其中,所述第一确定模块包括:
第一解析单元,用于解析所述第一资源的网络地址,获得所述第一资源的原始标识;
第二解析单元,用于解析所述第一资源的原始标识,得到所述第一资源的多个扩展标识;以及
确定单元,用于根据所述多个扩展标识中的每个扩展标识,确定所述第一网络地址特征样本,其中,每个所述第一网络地址特征样本包含第一资源的多个扩展标识中的一个。
12.一种网络地址匹配装置,包括:
获取模块,用于获取第一网络地址和第二网络地址;
特征确定模块,用于分别确定所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征;以及
输入模块,用于将所述第一网络地址的网络地址特征和所述第二网络地址的网络地址特征依次输入网络地址匹配模型,得到所述第一网络地址和所述第二网络地址之间的匹配度,
其中,所述网络地址匹配模型是利用权利要求1-4中任一项所述的方法训练的。
13. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
CN202110822040.4A 2021-07-20 2021-07-20 网络地址匹配模型的训练方法和网络地址匹配方法 Active CN113434792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822040.4A CN113434792B (zh) 2021-07-20 2021-07-20 网络地址匹配模型的训练方法和网络地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822040.4A CN113434792B (zh) 2021-07-20 2021-07-20 网络地址匹配模型的训练方法和网络地址匹配方法

Publications (2)

Publication Number Publication Date
CN113434792A CN113434792A (zh) 2021-09-24
CN113434792B true CN113434792B (zh) 2023-07-18

Family

ID=77761195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822040.4A Active CN113434792B (zh) 2021-07-20 2021-07-20 网络地址匹配模型的训练方法和网络地址匹配方法

Country Status (1)

Country Link
CN (1) CN113434792B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053185B1 (en) * 2012-04-30 2015-06-09 Google Inc. Generating a representative model for a plurality of models identified by similar feature data
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN110543558A (zh) * 2019-09-06 2019-12-06 北京百度网讯科技有限公司 问题匹配方法、装置、设备和介质
CN112465036A (zh) * 2020-11-30 2021-03-09 上海寻梦信息技术有限公司 地址匹配模型的训练方法、代收地址确定方法及相关设备
CN112711723A (zh) * 2019-10-25 2021-04-27 北京搜狗科技发展有限公司 一种恶意网址检测方法、装置及电子设备
CN112866023A (zh) * 2021-01-13 2021-05-28 恒安嘉新(北京)科技股份公司 网络检测、模型训练方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241740A1 (en) * 2009-03-23 2010-09-23 Yahoo! Inc. System and method for resolving network addresses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053185B1 (en) * 2012-04-30 2015-06-09 Google Inc. Generating a representative model for a plurality of models identified by similar feature data
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN110543558A (zh) * 2019-09-06 2019-12-06 北京百度网讯科技有限公司 问题匹配方法、装置、设备和介质
CN112711723A (zh) * 2019-10-25 2021-04-27 北京搜狗科技发展有限公司 一种恶意网址检测方法、装置及电子设备
CN112465036A (zh) * 2020-11-30 2021-03-09 上海寻梦信息技术有限公司 地址匹配模型的训练方法、代收地址确定方法及相关设备
CN112866023A (zh) * 2021-01-13 2021-05-28 恒安嘉新(北京)科技股份公司 网络检测、模型训练方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大规模网络流量下的恶意地址检测技术研究;李洁;陈博;赵昱红;;吉林电力(04);全文 *

Also Published As

Publication number Publication date
CN113434792A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
US10178115B2 (en) Systems and methods for categorizing network traffic content
US9218482B2 (en) Method and device for detecting phishing web page
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN110602269B (zh) 一种转换域名的方法
CN114157502B (zh) 一种终端识别方法、装置、电子设备及存储介质
EP3101580B1 (en) Website information extraction device, system, website information extraction method, and website information extraction program
CN112765324B (zh) 一种概念漂移检测方法及装置
CN114363019B (zh) 钓鱼网站检测模型的训练方法、装置、设备及存储介质
CN105635064A (zh) Csrf攻击检测方法及装置
CN107786529B (zh) 网站的检测方法、装置及***
CN109284465B (zh) 一种基于url的网页分类器构建方法及其分类方法
CN103825772A (zh) 识别用户点击行为的方法及网关设备
CN113204695B (zh) 网站识别方法和装置
CN113434792B (zh) 网络地址匹配模型的训练方法和网络地址匹配方法
CN113312611A (zh) 密码检测方法、装置、设备和计算机可读存储介质
CN113055420B (zh) Https业务识别方法、装置及计算设备
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN115865457A (zh) 一种网络攻击行为的识别方法、服务器及介质
US8219667B2 (en) Automated identification of computing system resources based on computing resource DNA
CN113051876B (zh) 恶意网址识别方法及装置、存储介质、电子设备
CN113553370A (zh) 异常检测方法、装置、电子设备及可读存储介质
CN114722385A (zh) 一种流量信息分析方法、***及相关组件
CN113452581A (zh) 流式数据的特征提取方法及装置、存储介质、计算机设备
CN116962084B (zh) 泛解析子域名的识别方法、装置、设备及存储介质
CN115396183B (zh) 用户身份识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant