CN108073613A - 信息发送方法及装置 - Google Patents

信息发送方法及装置 Download PDF

Info

Publication number
CN108073613A
CN108073613A CN201611001828.4A CN201611001828A CN108073613A CN 108073613 A CN108073613 A CN 108073613A CN 201611001828 A CN201611001828 A CN 201611001828A CN 108073613 A CN108073613 A CN 108073613A
Authority
CN
China
Prior art keywords
website
information
product
url
product information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611001828.4A
Other languages
English (en)
Inventor
陈华明
张红林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201611001828.4A priority Critical patent/CN108073613A/zh
Publication of CN108073613A publication Critical patent/CN108073613A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息发送方法及装置,属于互联网技术领域。所述方法包括:获取浏览器发送的用户帐号和历史统一资源定位符URL,历史URL是用户帐号历史浏览过的URL;对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息。本发明通过服务器直接根据历史URL的网址字符串,得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,提高了挖掘过程的效率;还通过服务器根据与网站标识和产品标识对应的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,达到了实现精准的向兴趣人群发送推荐信息的效果。

Description

信息发送方法及装置
技术领域
本发明实施例涉及互联网技术领域,特别涉及一种信息发送方法及装置。
背景技术
基于浏览行为的兴趣人群挖掘,是一种根据用户的网页浏览记录挖掘出对产品信息感兴趣的人群的数据挖掘技术,对挖掘出的兴趣人群推送信息会具有较好的推荐效果。其中,产品信息是用于对某一种具体产品进行描述的信息。
目前的一种信息发送方法包括:用户在浏览器上使用统一资源定位符(英文:Uniform Resource Locator,URL)对网页进行浏览;浏览器每隔预定时间段向服务器上报用户帐号和该用户帐号历史浏览过的URL;对于每个URL,服务器通过网络爬虫获取该URL对应的网页内容,服务器对该网页内容进行语义分析,从该网页内容中提取出用户感兴趣的产品信息,进而将该用户的用户帐号确定为对该产品信息感兴趣的用户帐号,然后向该用户的用户帐号发送与该产品信息对应的推荐信息。
上述方法中,通过网络爬虫获取网页内容的过程和语义分析的过程均需要耗费服务器的大量计算资源,并且受限于一些语义分析技术的分析能力较差的原因,服务器通过语义分析得到的产品信息的准确率较低,导致上述方法所挖掘到的用户帐号的准确率较差,无法实现精准的向兴趣人群发送推荐信息。
发明内容
为了解决现有技术存在的问题,本发明实施例提供了一种信息发送方法及装置。所述技术方案如下:
第一方面,提供了一种信息发送方法,所述方法包括:
获取浏览器发送的用户帐号和历史统一资源定位符URL,所述历史URL是所述用户帐号历史浏览过的URL;
对所述历史URL的网址字符串进行分析,得到网站标识和产品标识;
确定与所述网站标识和所述产品标识对应的产品信息;
根据所述产品信息向所述用户帐号发送推荐信息。
第二方面,提供了一种信息发送装置,所述装置包括:
第一获取模块,用于获取浏览器发送的用户帐号和历史统一资源定位符URL,所述历史URL是所述用户帐号历史浏览过的URL;
得到模块,用于对所述历史URL的网址字符串进行分析,得到网站标识和产品标识;
确定模块,用于确定与所述网站标识和所述产品标识对应的产品信息;
发送模块,用于根据所述产品信息向所述用户帐号发送推荐信息。
本发明实施例提供的技术方案至少具有如下有益效果:
通过获取浏览器发送的用户帐号和历史统一资源定位符URL,对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息;一方面,使得服务器直接根据历史URL的网址字符串得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,避免了通过网络爬虫获取网页内容且对网页内容进行语义分析的过程中效率较低的情况,提高了挖掘过程的效率;另一方面,使得服务器根据确定的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,从而避免了现有技术采用语义分析技术导致所挖掘到的用户帐号的准确率较差的情况,达到了实现精准的向兴趣人群发送推荐信息的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例涉及的一种信息发送***的结构示意图;
图2是本发明一个实施例提供的信息发送方法的流程图;
图3是本发明一个实施例提供的信息发送方法的原理示意图;
图4是本发明另一个实施例提供的信息发送方法的流程图;
图5是本发明另一个实施例提供的信息发送方法的流程图;
图6A是本发明另一个实施例提供的信息发送方法的流程图;
图6B是本发明另一个实施例提供的信息发送方法的原理示意图;
图6C是本发明另一个实施例提供的信息发送方法的原理示意图;
图7是本发明另一个实施例提供的信息发送装置的结构示意图;
图8是本发明另一个实施例提供的信息发送装置的结构示意图;
图9是本发明一个实施例提供的终端的结构方框图;
图10是本发明一个实施例提供的服务器的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先,对本发明实施例涉及到的一些名词进行解释:
目标网站:是针对某一类产品提供资讯信息的行业网站。通常为该产品行业内的Top N网站。比如,在汽车行业的汽车X家网站,XX汽车网站。在每一个行业网站中,包括很多网站URL,网站URL所对应的网页内容用于对某一种具体的产品信息进行介绍。例如,一个网站URL用于对车型A进行介绍,另一个网站URL用于对车型B进行介绍。
历史URL:是用户在浏览器上历史浏览过的URL。通常,每个用户对应一个用户帐号,每个用户帐号对应多个历史URL。这些历史URL可能包括了上述目标网站中的网站URL。
产品信息:是用于描述某一个具体产品的信息。可选地,产品信息包括与具体产品关联的一个或者多个相关信息。例如,对于汽车产品来讲,产品信息可以是车型名称,或者,车型名称、所属品牌、车型配置和车型价格等信息的集合。
网站标识:用于在多个目标网站中,唯一标识目标网站。
产品标识:用于在一个目标网站中标识产品信息。同一个产品信息在不同的目标网站中,具有相同或不同的产品标识。比如,车型A在目标网站1中具有产品标识1,在目标网站2中具有产品标识2。
产品信息库:是用于存储网站标识、产品标识和产品信息三者之间的对应关系。
其中,将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库。
兴趣帐号集合:是对某一个产品信息感兴趣的用户帐号集合,通常是浏览了同一个产品信息的用户帐号的集合。
请参考图1,其示出了本发明实施例涉及的一种信息发送***的结构示意图。该***包括至少一个用户终端120、服务器集群140、至少一个目标网站服务器160和至少一个投放者终端180。
用户终端120中运行有浏览器。用户终端120可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。浏览器用于向服务器集群140中的用户挖掘服务器142上报用户帐号和该用户帐号浏览过的历史URL。
用户终端120与服务器集群140之间通过通信网络相连。可选地,通信网络是有线网络或无线网络。
服务器集群140是一台服务器,或者是若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心。可选地,服务器集群140包括用户挖掘服务器142,以及信息推荐服务器144。
可选地,用户挖掘服务器142,用于管理和存储网站标识、产品标识和产品信息三者之间的对应关系,还用于确定与产品信息对应的兴趣帐号集合。
可选地,信息推荐服务器144,用于根据兴趣帐号集合,向用户终端120发送推荐信息。
服务器集群140与目标网站服务器160之间通过通信网络相连。可选地,用户挖掘服务器142与目标网站服务器160之间通过通信网络相连。通信网络是有线网络或无线网络。
目标网站服务器160,用于向服务器集群140提供网站URL和与网站URL对应的网页内容。比如,用户挖掘服务器142通过网络爬虫从目标网站服务器160中抓取网站URL和与网站URL对应的网页内容;又比如,在达成合作意向后,目标网站服务器160按照约定的数据格式,向用户挖掘服务器142发送网站URL和与网站URL对应的网页内容。
投放者终端180包括信息投送设备。投放者终端180可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
投放者终端180与服务器集群140之间通过通信网络相连。可选地,通信网络是有线网络或无线网络。
通常情况下,在挖掘用户帐号之前,服务器集群140通过网络爬虫获取目标网站服务器160的网站URL和与网站URL对应的网页内容,根据网站URL的网址字符串得到网站标识,从网页内容中提取出产品标识和产品信息;将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库中。在挖掘用户帐号时,用户终端120向服务器集群140上报用户帐号和该用户帐号浏览过的历史URL,接着,服务器集群140根据历史URL的网址字符串得到网站标识和产品标识,在产品信息库中查询与网站标识和产品标识对应的产品信息,从而确定与网站标识和产品标识对应的产品信息。在向用户帐号发送推荐信息之前,服务器集群140将用户帐号添加至产品信息对应的兴趣帐号集合中,投放者终端180向服务器集群140发送推荐信息,投放者终端180还可以在服务器集群140上指定投放标签,当产品信息与投放标签的关联度大于预设阈值时,服务器集群140向兴趣帐号集合中各个用户帐号的用户客户端所在的用户终端160发送推荐信息。
请参考图2,其示出了本发明一个实施例提供的信息发送方法的流程图。本实施例以该信息发送方法应用于图1所示的服务器集群140中来举例说明。该信息发送方法包括:
步骤201,获取浏览器发送的用户帐号和历史URL。
其中,历史URL是用户帐号历史浏览过的URL。
可选地,服务器获取浏览器发送的用户帐号和历史URL。由于用户终端为多个,服务器也会接收到多组用户帐号和历史URL。
可选地,浏览器每隔预定时间间隔向服务器上报一次用户帐号和历史URL,或者,每次浏览器启动时向服务器上报一次用户帐号和历史URL,或者,每次浏览器关闭前向服务器上报一次用户帐号和历史URL。
可选地,每个用户帐号对应的历史URL为一个或者多个。
步骤202,根据历史URL的网址字符串得到网站标识和产品标识。
可选地,服务器根据历史URL的网址字符串得到网站标识和产品标识。网址字符串是指URL本身所对应的字符串。
示意性的,同一个网站对应一个网站标识,在同一个网站中同一个产品信息对应一个产品标识。该产品标识是某一个具体产品在该网站范围内的标识。
步骤203,确定与网站标识和产品标识对应的产品信息。
可选地,服务器确定与网站标识和产品标识对应的产品信息。
可选地,服务器在产品信息库中查询与网站标识和产品标识对应的产品信息;其中,产品信息库包括网站标识、产品标识和产品信息三者之间的对应关系。
步骤204,根据产品信息向用户帐号发送推荐信息。
可选地,服务器根据产品信息向用户帐号发送推荐信息。
示意性的,结合参考图3,用户终端向服务器发送用户帐号A1和历史URL“http://www.xxhome.com.cn/692/#pvareaid=103177”,对应的,服务器接收该用户帐号A和该历史URL,从该历史URL中提取产品标识“692”,从该历史URL中提取出该历史URL中的前缀部分“http://www.xxhome.com.cn”,根据该前缀部分和预存的对应关系得到网站标识“1”,服务器在产品信息库中查询与网站标识“1”和产品标识“692”对应的产品信息“奥迪a5”,则服务器向该用户帐号A1发送与产品信息“奥迪a5”有关的推荐信息。
需要说明的是,本发明实施例中是以产品为汽车来举例说明的,但也可以适用于其它产品,本发明实施例对此不加以限定。
综上所述,本实施例通过获取浏览器发送的用户帐号和历史统一资源定位符URL,对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息;一方面,使得服务器直接根据历史URL的网址字符串得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,避免了通过网络爬虫获取网页内容且对网页内容进行语义分析的过程中效率较低的情况,提高了挖掘过程的效率;另一方面,使得服务器根据与网站标识和产品标识对应的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,从而避免了现有技术采用语义分析技术导致所挖掘到的用户帐号的准确率较差的情况,达到了实现精准的向兴趣人群发送推荐信息的效果。
上述图2实施例中根据历史URL的网址字符串,得到网站标识和产品标识,在不同的实施例中可以具有不同的方法。下文中的图4和图5分别示出了两种不同的方法:
在一种可能的实现方式中,步骤202可替代实现为步骤202a、步骤202b和步骤202c,如图4所示:
步骤202a,根据历史URL的网址字符串的前缀部分得到网站标识。
可选地,该历史URL为“http://www.xxhome.com.cn/692/#pvareaid=103177”,则该历史URL的网址字符串的前缀部分为“http://www.xxhome.com.cn”,
在一些可能的实施例中,该前缀部分直接作为网站标识来使用。
在另一些可能的实施例中,服务器中预先存储有前缀部分与网站标识的对应关系,在服务器挖掘到历史URL的前缀部分后,根据该前缀部分从对应关系中查询出与该前缀部分对应的网站标识。
可选地,一个前缀部分对应一个网站标识。该前缀部分通常是URL中的域名部分。
步骤202b,获取与网站标识对应的正则表达式。
可选地,一个网站标识对应一个或者多个正则表达式。因为同一个目标网站中具有几大类不同的URL,每一大类的URL具有相同的字符串特征,所以每一大类的URL对应一个正则表达式。
可选地,服务器获取与网站标识对应的正则表达式。
步骤202c,通过正则表达式,在历史URL的网址字符串的预定位置中匹配出产品标识。
可选地,服务器通过正则表达式,在历史URL的网址字符串的预定位置中匹配出产品标识。
当同一个网站标识对应多个正则表达式时,服务器先用第i个正则表达式匹配,i的初始值为1,如果匹配成功,则在历史URL的网址字符串的预定位置中匹配出产品标识;如果匹配不成功,则令i=i+1,重新执行上一步骤,直至匹配出产品标识。
对于同一个网站中同一类型的产品信息,网站URL的网址字符串的后缀部分的位置规律是一样的,即通过一个正则表达式就可以匹配出产品标识,而通常情况下,同一个目标网站中有不同类型的产品信息,则网站URL的网址字符串的后缀部分的位置规律是不同的,则需要多个正则表达式一一进行匹配。
当采用一个正则表达式在历史URL的网址字符串的预定位置中匹配产品标识时,如果匹配成功则得到产品标识;如果匹配失败,则得不到产品标识,表明当前正则表达式可能不适合,服务器重新采用与该网站标识对应的另一个正则表达式进行匹配。
比如,网站“汽车X家”对应的网站标识为57,网站“汽车X家”的页面中包括不同类型的产品信息页面,如车型信息页面、品牌信息页面、价格信息页面,对于车型信息页面,包括车型信息页面A1,车型信息页面A2,车型信息页面A3;对于品牌信息页面,包括品牌信息页面B1,品牌信息页面B2,品牌信息页面B3;对于价格信息页面,包括价格信息页面C1,价格信息页面C2,价格信息页面C3;则网站标识57对应三个正则表达式,分别为与车型信息页面对应一个正则表达式1,即车型信息页面A1、A2、A3对应的历史URL均通过正则表达式1,在历史URL的网址字符串的预定位置中匹配出产品标识;与品牌信息页面对应一个正则表达式2,即品牌信息页面B1、B2、B3对应的历史URL均通过正则表达式2,在历史URL的网址字符串的预定位置中匹配出产品标识;与价格信息页面对应一个正则表达式3,即价格信息页面C1、C2、C3对应的历史URL均通过正则表达式3,在历史URL的网址字符串的预定位置中匹配出产品标识。
综上所述,本实施例通过根据历史URL的网址字符串的前缀部分得到网站标识,获取与网站标识对应的正则表达式,通过正则表达式,在历史URL的网址字符串的预定位置中匹配出产品标识;使得服务器根据获取的正则表达式与历史URL的网址字符串一一进行匹配,直接从历史URL的网址字符串的预定位置中匹配出产品标识,提高了产品标识提取过程的效率。
在另一种可能的实现方式中,步骤202可替代实现为步骤202d、步骤202e和步骤202f,如图5所示:
步骤202d,根据历史URL的网址字符串的前缀部分得到网站标识。
可选地,服务器根据历史URL的网址字符串的前缀部分得到网站标识。
步骤202e,获取与网站标识对应的字符串解析规则。
可选地,服务器获取与网站标识对应的字符串解析规则。
可选地,产品信息库中存储有网络标识与字符串解析规则的对应关系,服务器从产品信息库中提取与网络标识对应的字符串解析规则,该字符串解析规则用于根据历史URL的网址字符串的解析规则解析出预定位置中的产品标识。
步骤202f,通过字符串解析规则,在历史URL的网址字符串的预定位置中解析出产品标识。
可选地,服务器通过字符串解析规则,在历史URL的网址字符串的预定位置中解析出产品标识。
综上所述,本实施例通过根据历史URL的网址字符串的前缀部分得到网站标识,获取与网站标识对应的字符串解析规则,通过字符串解析规则,在历史URL的网址字符串的预定位置中解析出产品标识;使得服务器根据与网站标识对应的字符串解析规则,在历史URL的网址字符串的预定位置中解析出产品标识,提高了产品标识提取过程的效率。
服务器通过获取的历史URL的网址字符串中提取网站标识和产品标识,在确定与网站标识和产品标识对应的产品信息之前,服务器需要提前生成产品信息库,该产品信息库包括网站标识、产品标识和产品信息三者之间的对应关系,生成产品信息库的方法如下。
请参考图6A,其示出了本发明另一个实施例提供的信息发送方法的流程图。本实施例以该信息发送方法应用于图1所示的服务器集群140中来举例说明。该信息发送方法包括:
步骤601,通过网络爬虫获取目标网站的网站URL和与网站URL对应的网页内容。
可选地,在服务器通过网络爬虫获取目标网站的网站URL和与网站URL对应的网页内容之前,服务器确定目标网站。
示意性的,在确定需要挖掘的用户帐号是浏览过关于汽车的网站的用户帐号,即表示该用户有对汽车感兴趣的可能性,则确定目标网站为关于汽车的网站,比如:汽车X家网站、XX汽车网站等,在确定出目标网站为“汽车X家”后,服务器通过网络爬虫获取“汽车X家”的网站URL和与网站URL对应的汽车X家的网页内容,其中网站URL可以是一个,也可以是多个,通常为多个。
步骤602,根据网站URL的网址字符串得到网站标识,从网页内容中提取产品标识和产品信息。
可选地,网站标识可以是网站URL的网址字符串中的前缀部分,也可以是设置的与网站URL的网址字符串中的前缀部分对应的标识。
可选地,产品标识包括产品品牌标识、产品类型标识、产品型号标识、产品价格标识、产品配置标识中的至少一种。
可选地,服务器通过网络爬虫从网页内容中提取产品标识和产品信息;示意性的,产品信息包括品牌信息、类型信息、型号信息、价格信息、配置信息中的至少一种。
示意性的,如图6B所示,目标网站为网站A和网站B,与网站A对应的网站标识为1,与网站B对应的网站标识为2,产品标识包括品牌标识和车型标识,产品信息包括品牌信息、车型信息和价格信息。服务器根据网站A的网站URL1的网址字符串得到网站标识1,通过网络爬虫从网站URL1对应的网页内容中提取品牌标识7、车型标识32、品牌信息“奥迪”、车型信息“奥迪a3”和价格信息”18-28万”;服务器根据网站A的网站URL2的网址字符串得到网站标识1,通过网络爬虫从网站URL2对应的网页内容中提取品牌标识20、车型标识55、品牌信息“宝马”、车型信息“宝马x1”和价格信息”25-29万”;服务器根据网站B的网站URL3的网址字符串得到网站标识2,通过网络爬虫从网站URL3对应的网页内容中提取品牌标识06、车型标识45、品牌信息“奥迪”、车型信息“奥迪a3”和价格信息“17-28.5万”;服务器将对应网站A的网站URL1的网站标识1、车型标识32和车型信息“奥迪a3”作为一组对应关系、将对应网站A的网站URL2的网站标识1、车型标识55和车型信息“宝马x1”作为另一组对应关系、将对应网站B的网站URL3的网站标识2、车型标识45和车型信息“奥迪a3”作为另一组对应关系存储至产品信息库。
可选地,通过人工采集数据的方法服务器从网站URL对应的网页页面中采集网站标识、产品标识和产品信息;也可以通过数据同步的方法将该网站的网站标识、产品标识和产品信息直接同步到服务中。
步骤603,将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库。
可选地,为了方便之后的查询步骤,服务器将网站标识和产品标识进行组合,设置与该组合对应的第一标识rid,该第一标识rid与提取出的网站标识和产品标识唯一对应。
可选地,产品信息库包括一张表格、两张表格或者三张表,本发明实施例对此不加以限定。
示意性的,以产品信息库包括三张表格为例,表一是网站标志、产品标识、第一标识rid和产品信息的对应关系,表二是车型信息、第一标识rid和第二标识vid的对应关系,表三是第二标识vid和车型信息的对应关系。
示意性的,如表一所示,目标网站为网站A和网站B,与网站A对应的网站标识为1,与网站B对应的网站标识为2,产品信息包括品牌信息、车型信息和价格信息。当网站标识为1、产品标识为32和产品信息为奥迪a3时,设置对应的第一标识rid为10,当网站标识为2、产品标识为45和产品信息为奥迪a3时,设置对应的第一标识rid为11,当网站标识为1、产品标识为55和产品信息为宝马x1时,设置对应的第一标识rid为12,当网站标识为2、产品标识为69和产品信息为宝马x1时,设置对应的第一标识rid为13,当网站标识为1、产品标识为90和产品信息为奔驰c200时,设置对应的第一标识rid为14,当网站标识为2、产品标识为95和产品信息为奔驰c200时,设置对应的第一标识rid为15。
表一
由上述的表一可以看出,表一用于表示从目标网站的网站URL和与网站URL对应的网页内容中所提取出的全部信息,表一携带的信息量很大,包括网站名称、网站标识、产品标识、产品信息和第一标识rid,当服务器根据网站标识和产品标识,需要从产品信息库中查询的产品信息为车型信息,即并不需要品牌信息和报价信息时,服务器通过上述的表一并不能很快速的找到对应的车型信息。
可选地,服务器设置第二标识vid,该第二标识vid与不同的目标网站中同一个产品信息一一对应。
示意性的,如表二所示,第二标识vid与不同目标网站即网站A和网站B中同一个车型信息一一对应,即当车型信息为奥迪a3时,设置第二标识vid为100;当车型信息为宝马x1时,设置第二标识vid为200;当车型信息为奔驰c200时,设置第二标识vid为300。
表二
车型信息 第一标识rid 第二标识vid
奥迪a3 10 100
奥迪a3 11 100
宝马x1 12 200
宝马x1 13 200
奔驰c200 14 300
奔驰c200 15 300
示意性的,如表三所示,服务器根据设置的第二标识vid和从网页内容中提取的车型信息,建立标准车型表,该标准车型表用于存储第二标识vid和车型信息的对应关系。
表三
步骤604,服务器获取浏览器发送的用户帐号和历史URL。
其中,历史URL是用户帐号历史浏览过的URL。
可选地,服务器获取浏览器发送的用户帐号和历史URL
步骤605,服务器根据历史URL的网址字符串,得到网站标识和产品标识。
步骤606,服务器在产品信息库中查询与网站标识和产品标识对应的产品信息,产品信息库包括网站标识、产品标识和产品信息三者之间的对应关系。
步骤607,服务器将用户帐号添加至产品信息对应的兴趣帐号集合中。
步骤608,服务器接收信息投送设备发送的推荐信息和投放标签。
可选地,信息投送设备向服务器发送投放者需要投放的推荐信息和投放标签;对应的,服务器接收信息投送设备发送的推荐信息和投放标签。
需要说明的是,投放者是在信息推荐服务器上投放推荐信息的用户或组织;推荐信息是与产品信息关联的广告信息、新闻信息和资讯信息中的至少一种;当推荐信息是广告信息时,投放者即为广告主
可选地,投放者根据需要投放的推荐信息,依据历史经验或者数据分析预先确定对该推荐信息感兴趣的投放标签;示意性的,在投放者投放推荐信息X时,确定对推荐信息X具有较高兴趣倾向的用户帐号集合,由于每个用户帐号都对应有自己的用户标签,通过对这些用户标签进行统计分析,能够分析得到与推荐信息X对应的投放标签;示意性的,该投放标签包括:年龄15-22、性别女、操作***IOS和所在地江浙沪。
步骤609,服务器确定产品信息与投放标签的关联度是否大于预设阈值。
可选地,服务器确定产品信息的关键字集合,该关键字集合包括:用于描述产品信息的关键字、用于描述与产品信息存在竞品关系的其它产品信息的关键字、用于描述与产品信息的使用人群特点的关键字中的至少一种;服务器计算关键字集合与投放标签的关键字关联度。
示意性的,当产品信息为奥迪a3时,服务器确定产品信息的关键字集合包括:用于描述产品信息的关键字“奥迪a3”,用于描述与产品信息存在竞品关系的其它产品信息的关键字“宝马x1”、“奔驰c200”,用于描述与产品信息的使用人群特点的关键字“商务”等等。
可选地,服务器通过如下公式计算关联度scorei
其中,Ni为产品信息的第i种关键字和投放标签的第i种标签对应的关联度值,Si为产品信息的的第i种关键字和投放标签的第i种标签对应的权值。
其中,产品信息包括n种关键字,投放标签包括n种标签,n和i均为正整数。本发明实施例对产品信息包括的关键字的个数和投放标签包括的标签的个数不加以限定。
可选地,若产品信息的第i种关键字包括A1个字符,投放标签的第i种标签包括A2个字符,则终端统计第i种关键字和第i种标签相同的文字数A3,计算得到产品信息的第i种关键字和投放标签的第i种标签对应的关联度值为A3/X,其中,X为A1和A2中的较小值或较大值或平均值。
步骤610,当产品信息与投放标签的关联度大于预设阈值时,服务器向兴趣帐号集合中的各个用户帐号的用户客户端发送推荐信息。
可选地,当产品信息与投放标签的关联度大于预设阈值时,服务器确定登录有兴趣帐号集合中的用户帐号的至少一个第一用户客户端,和登录有与用户帐号绑定的其它用户帐号的至少一个第二用户客户端;示意性的,通常终端中运行有多个用户客户端,每个用户客户端对应有一个用户帐号,当注册一个用户帐号时,通常需要通过与一个已验证的用户帐号进行绑定来进行身份认证,因此当两个用户帐号存在绑定关系时,可以推测出这两个用户帐号是同一个用户所使用,当服务器确定登录有兴趣帐号集合中的用户帐号的至少一个第一用户客户端,由于与该用户帐号绑定的其它用户帐号对应的是同一个用户,则服务器也可以确定登录有与用户帐号绑定的其它用户帐号的至少一个第二用户客户端。
比如,当兴趣帐号集合中的一个用户帐号为用户帐号A时,与用户帐号A绑定的是用户帐号B,服务器确定登录有用户帐号A的第一用户客户端10,,和登录有用户帐号B的第二用户客户端20。
可选地,服务器从第一用户客户端和第二用户客户端中选择出阅读频率高于预设条件的目标用户客户端;示意性的,预设条件是投放者设置的或服务器根据数据统计分析得到的经验值。
比如,当服务器确定出第一用户客户端10和第二用户客户端20时,服务器检测第一用户客户端10的阅读频率是否高于预设条件,若没有高于预设条件,则服务器检测第二用户客户端20的阅读频率是否高于预设条件,若高于预设条件,则服务器选择该第二用户客户端20为目标用户客户端。
又比如,当服务器确定出第一用户客户端10和第二用户客户端20时,若服务器检测出第一用户客户端10和第二用户客户端20的阅读频率均高于预设条件时,服务器判断第一用户客户端10的阅读频率是否高于第二用户客户端20的阅读频率,若高于第二用户客户端20的阅读频率,则服务器选择该第一用户客户端10为目标用户客户端;若不高于第二用户客户端20的阅读频率,则服务器选择该第二用户客户端20为目标用户客户端。
又比如,当服务器确定出第一用户客户端10和第二用户客户端20时,若服务器检测出第一用户客户端10和第二用户客户端20的阅读频率均高于预设条件时,服务器将该第一用户客户端10和为第二用户客户端20均确认为目标用户客户端。
可选地,服务器向目标用户客户端发送推荐信息。
示意性的,如图6C所示,在挖掘用户帐号之前,确定一组关于某一产品的行业网站,服务器通过站点爬虫确定出目标网站,目标网站通常为该产品行业内的Top N网站,在确定出目标网站后,服务器通过网络爬虫获取该目标网站的网站URL和与网站URL对应的网页内容,根据网站URL的网址字符串得到网站标识,从网页内容中提取产品标识和产品信息,根据同一个网站URL的网站标识、产品标识和产品信息,定制正则表达式,再将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库。在挖掘用户帐号时,服务器获取浏览器发送的用户帐号和历史URL,服务器进行用户帐号挖掘,得到与该产品信息对应的兴趣帐号集合。其中,根据同一个网站URL的网站标识、产品标识和产品信息,定制与一个网站标识对应的多个正则表达式。因为同一个目标网站中具有几大类不同的URL,每一大类的URL具有相同的字符串特征,所以每一大类的URL对应一个正则表达式。比如,网站“汽车X家”中一个车型信息页面的URL为“http://www.xxhome.com.cn/692/#pvareaid=103177”,则定制该与该车型信息页面对应的一个正则表达式,服务器通过该正则表达式“http://xxhome.com.cn/([0-9]+)/#pvareaid.*”,可以在URL的网址字符串的预定位置中可以匹配出产品标识“629”,则同一车型类的车型信息页面的URL均采用该正则表达式。
综上所述,本实施例通过获取浏览器发送的用户帐号和历史统一资源定位符URL,对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息;一方面,使得服务器直接根据历史URL的网址字符串得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,避免了通过网络爬虫获取网页内容且对网页内容进行语义分析的过程中效率较低的情况,提高了挖掘过程的效率;另一方面,使得服务器根据与网站标识和产品标识对应的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,从而避免了现有技术采用语义分析技术导致所挖掘到的用户帐号的准确率较差的情况,达到了实现精准的向兴趣人群发送推荐信息的效果。
本实施例还通过在挖掘用户帐号之前,通过网络爬虫获取目标网站的网站URL和与网站URL对应的网页内容,根据网站URL的网址字符串得到网站标识,从网页内容中提取产品标识和产品信息,将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库;使得该产品信息库中的网站标识、产品标识与产品信息一一对应,达到了该网站标识和产品标识可以明确用来标识该产品的信息的效果。
请参考图7,其示出了本发明一个实施例提供的信息发送装置的结构示意图。该装置包括:
第一获取模块710,用于获取浏览器发送的用户帐号和历史统一资源定位符URL,历史URL是用户帐号历史浏览过的URL;
得到模块720,用于对历史URL的网址字符串进行分析,得到网站标识和产品标识;
确定模块730,用于确定与网站标识和产品标识对应的产品信息;
发送模块740,用于根据产品信息向用户帐号发送推荐信息。
综上所述,本实施例通过获取浏览器发送的用户帐号和历史统一资源定位符URL,对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息;一方面,使得服务器直接根据历史URL的网址字符串得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,避免了通过网络爬虫获取网页内容且对网页内容进行语义分析的过程中效率较低的情况,提高了挖掘过程的效率;另一方面,使得服务器根据与网站标识和产品标识对应的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,从而避免了现有技术采用语义分析技术导致所挖掘到的用户帐号的准确率较差的情况,达到了实现精准的向兴趣人群发送推荐信息的效果。
请参考图8,其示出了本发明另一个实施例提供的信息发送装置的结构示意图。
确定模块730,包括:
在产品信息库中查询与网站标识和产品标识对应的产品信息,产品信息库包括网站标识、产品标识和产品信息三者之间的对应关系。
该装置,还包括:
第二获取模块740,用于通过网络爬虫获取目标网站的网站URL和与网站URL对应的网页内容;
提取模块750,用于根据网站URL的网址字符串得到网站标识,从网页内容中提取产品标识和产品信息;
存储模块760,用于将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库。
得到模块720,包括:
第一得到单元721、第一获取单元722和匹配单元723;
第一得到单元721,用于根据历史URL的网址字符串的前缀部分,得到网站标识;
第一获取单元722,用于获取与网站标识对应的正则表达式;
匹配单元723,用于通过正则表达式,在历史URL的网址字符串的预定位置中匹配出产品标识。
得到模块720,包括:
第二得到单元724、第二获取单元725和解析单元726;
第二得到单元724,用于根据历史URL的网址字符串的前缀部分,得到网站标识;
第二获取单元725,用于获取与网站标识对应的字符串解析规则;
解析单元726,用于通过字符串解析规则,在历史URL的网址字符串的预定位置中解析出产品标识。
发送模块740,包括:
添加单元741、接收单元742、确定单元743和发送单元744;
添加单元741,用于将用户帐号添加至产品信息对应的兴趣帐号集合中;
接收单元742,用于接收信息投送设备发送的推荐信息和投放标签;
确定单元743,用于确定产品信息与投放标签的关联度是否大于预设阈值;
发送单元744,用于当产品信息与投放标签的关联度大于预设阈值时,向兴趣帐号集合中的各个用户帐号的用户客户端发送推荐信息。
确定单元743,包括:
第一确定子单元743a和计算子单元743b;
第一确定子单元743a,用于确定产品信息的关键字集合,关键字集合包括:用于描述产品信息的关键字、用于描述与产品信息存在竞品关系的其它产品信息的关键字、用于描述与产品信息的使用人群特点的关键字中的至少一种;
计算子单元743b,用于计算关键字集合与投放标签的关键字关联度。
发送单元744,包括:
第二确定子单元744a、选择子单元744b和发送子单元744c;
第二确定子单元744a,用于确定登录有兴趣帐号集合中的用户帐号的至少一个第一用户客户端,和登录有与用户帐号绑定的其它用户帐号的至少一个第二用户客户端;
选择子单元744b,用于从第一用户客户端和第二用户客户端中选择出阅读频率高于预设条件的目标用户客户端;
发送子单元744c,用于向目标用户客户端发送推荐信息。
综上所述,本实施例通过获取浏览器发送的用户帐号和历史统一资源定位符URL,对历史URL的网址字符串进行分析,得到网站标识和产品标识;确定与网站标识和产品标识对应的产品信息;根据产品信息向用户帐号发送推荐信息;一方面,使得服务器直接根据历史URL的网址字符串得到网站标识和产品标识,不需要对该历史URL所对应的网页内容进行分析,避免了通过网络爬虫获取网页内容且对网页内容进行语义分析的过程中效率较低的情况,提高了挖掘过程的效率;另一方面,使得服务器根据与网站标识和产品标识对应的产品信息向用户帐号发送推荐信息,由于该产品标识是在该网站中明确用来标识产品的信息,准确率很高,从而避免了现有技术采用语义分析技术导致所挖掘到的用户帐号的准确率较差的情况,达到了实现精准的向兴趣人群发送推荐信息的效果。
本实施例还通过在挖掘用户帐号之前,通过网络爬虫获取目标网站的网站URL和与网站URL对应的网页内容,根据网站URL的网址字符串得到网站标识,从网页内容中提取产品标识和产品信息,将对应同一个网站URL的网站标识、产品标识和产品信息作为一组对应关系存储至产品信息库;使得该产品信息库中的网站标识、产品标识与产品信息一一对应,达到了该网站标识和产品标识可以明确用来标识该产品的信息的效果。
请参考图9,其示出了本发明一个实施例提供的终端900的框图,该终端可以运行用户客户端。具体来讲:设备900可以包括RF(Radio Frequency,射频)电路910、包括有一个或一个以上计算机可读存储介质的存储器920、输入单元930、显示单元940、传感器950、音频电路960、WiFi(wireless fidelity,无线保真)模块970、包括有一个或者一个以上处理核心的处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器980处理;另外,将涉及上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯***)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。存储器920可用于存储软件程序以及模块。处理器980通过运行存储在存储器920的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据设备900的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器920还可以包括存储器控制器,以提供处理器980和输入单元930对存储器920的访问。
输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元930可包括触敏表面931以及其他输入设备932。触敏表面931,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面931上或在触敏表面931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选地,触敏表面931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面931。除了触敏表面931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及设备90的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选地,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板941。进一步的,触敏表面931可覆盖在显示面板941之上,当触敏表面931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触敏表面931与显示面板941是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面931与显示面板941集成而实现输入和输出功能。
设备900还可包括至少一种传感器950,比如光传感器、运动传感器以及其它传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在设备900移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于设备900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其它传感器,在此不再赘述。
音频电路960、扬声器921,传声器922可提供用户与设备900之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器921,由扬声器921转换为声音信号输出;另一方面,传声器922将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给另一设备,或者将音频数据输出至存储器920以便进一步处理。音频电路960还可能包括耳塞插孔,以提供外设耳机与设备900的通信。
WiFi属于短距离无线传输技术,设备900通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于设备900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是设备900的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行设备900的各种功能和处理数据,从而对设备进行整体监控。可选地,处理器980可包括一个或多个处理核心;可选地,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
设备900还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理***与处理器980逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源990还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,设备900还可以包括摄像头、蓝牙模块等,在此不再赘述。
设备900还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,使得装置900能够执行上述由终端执行的信息发送方法。
请参考图10,其示出了本发明一个实施例提供的服务器的结构框架图。该服务器可以是后台服务器集群140中的服务器。具体来讲:所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的***存储器1004,以及连接***存储器1004和中央处理单元1001的***总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1006,和用于存储操作***1010、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。
根据本发明的各种实施例,所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述***总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的信息发送方法中由服务器集群所执行的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的信息发送方法中全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种信息发送方法,其特征在于,所述方法包括:
获取浏览器发送的用户帐号和历史统一资源定位符URL,所述历史URL是所述用户帐号历史浏览过的URL;
对所述历史URL的网址字符串进行分析,得到网站标识和产品标识;
确定与所述网站标识和所述产品标识对应的产品信息;
根据所述产品信息向所述用户帐号发送推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述网站标识和所述产品标识对应的产品信息,包括:
在产品信息库中查询与所述网站标识和所述产品标识对应的产品信息,所述产品信息库包括所述网站标识、所述产品标识和所述产品信息三者之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述在产品信息库中查询与所述网站标识和所述产品标识对应的产品信息之前,还包括:
通过网络爬虫获取目标网站的网站URL和与所述网站URL对应的网页内容;
根据所述网站URL的网址字符串得到所述网站标识,从所述网页内容中提取所述产品标识和所述产品信息;
将对应同一个所述网站URL的所述网站标识、所述产品标识和所述产品信息作为一组对应关系存储至所述产品信息库。
4.根据权利要求1至3任一所述的方法,其特征在于,所述对所述历史URL的网址字符串进行分析,得到网站标识和产品标识,包括:
根据所述历史URL的网址字符串的前缀部分,得到所述网站标识;
获取与所述网站标识对应的正则表达式;
通过所述正则表达式,在所述历史URL的网址字符串的预定位置中匹配出所述产品标识。
5.根据权利要求1至3任一所述的方法,其特征在于,所述对所述历史URL的网址字符串进行分析,得到网站标识和产品标识,包括:
根据所述历史URL的网址字符串的前缀部分,得到所述网站标识;
获取与所述网站标识对应的字符串解析规则;
通过所述字符串解析规则,在所述历史URL的网址字符串的预定位置中解析出所述产品标识。
6.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述产品信息向所述用户帐号发送推荐信息,包括:
将所述用户帐号添加至所述产品信息对应的兴趣帐号集合中;
接收信息投送设备发送的所述推荐信息和投放标签;
确定所述产品信息与所述投放标签的关联度是否大于预设阈值;
当所述产品信息与所述投放标签的关联度大于预设阈值时,向所述兴趣帐号集合中的各个用户帐号的用户客户端发送所述推荐信息。
7.根据权利要求6所述的方法,其特征在于,所述确定所述产品信息与所述投放标签的关联度是否大于预设阈值,包括:
确定所述产品信息的关键字集合,所述关键字集合包括:用于描述所述产品信息的关键字、用于描述与所述产品信息存在竞品关系的其它产品信息的关键字、用于描述与所述产品信息的使用人群特点的关键字中的至少一种;
计算所述关键字集合与所述投放标签的关键字关联度。
8.根据权利要求6所述的方法,其特征在于,所述向所述兴趣帐号集合中的各个用户帐号的用户客户端发送所述推荐信息,包括:
确定登录有所述兴趣帐号集合中的所述用户帐号的至少一个第一用户客户端,和登录有与所述用户帐号绑定的其它用户帐号的至少一个第二用户客户端;
从所述第一用户客户端和所述第二用户客户端中选择出阅读频率高于预设条件的目标用户客户端;
向所述目标用户客户端发送所述推荐信息。
9.一种信息发送装置,其特征在于,所述装置包括:
第一获取模块,用于获取浏览器发送的用户帐号和历史统一资源定位符URL,所述历史URL是所述用户帐号历史浏览过的URL;
得到模块,用于对所述历史URL的网址字符串进行分析,得到网站标识和产品标识;
确定模块,用于确定与所述网站标识和所述产品标识对应的产品信息;
发送模块,用于根据所述产品信息向所述用户帐号发送推荐信息。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,包括:
在产品信息库中查询与所述网站标识和所述产品标识对应的产品信息,所述产品信息库包括所述网站标识、所述产品标识和所述产品信息三者之间的对应关系。
11.根据权利要求10所述的装置,其特征在于,所述装置,还包括:
第二获取模块,用于通过网络爬虫获取目标网站的网站URL和与所述网站URL对应的网页内容;
提取模块,用于根据所述网站URL的网址字符串得到所述网站标识,从所述网页内容中提取所述产品标识和所述产品信息;
存储模块,用于将对应同一个所述网站URL的所述网站标识、所述产品标识和所述产品信息作为一组对应关系存储至所述产品信息库。
12.根据权利要求9至11任一所述的装置,其特征在于,所述得到模块,包括:
第一得到单元、第一获取单元和匹配单元;
所述第一得到单元,用于根据所述历史URL的网址字符串的前缀部分,得到所述网站标识;
所述第一获取单元,用于获取与所述网站标识对应的正则表达式;
所述匹配单元,用于通过所述正则表达式,在所述历史URL的网址字符串的预定位置中匹配出所述产品标识。
13.根据权利要求9至11任一所述的装置,其特征在于,所述得到模块,包括:
第二得到单元、第二获取单元和解析单元;
所述第二得到单元,用于根据所述历史URL的网址字符串的前缀部分,得到所述网站标识;
所述第二获取单元,用于获取与所述网站标识对应的字符串解析规则;
所述解析单元,用于通过所述字符串解析规则,在所述历史URL的网址字符串的预定位置中解析出所述产品标识。
14.根据权利要求9至11任一所述的装置,其特征在于,所述发送模块,包括:
添加单元、接收单元、确定单元和发送单元;
所述添加单元,用于将所述用户帐号添加至所述产品信息对应的兴趣帐号集合中;
所述接收单元,用于接收信息投送设备发送的所述推荐信息和投放标签;
所述确定单元,用于确定所述产品信息与所述投放标签的关联度是否大于预设阈值;
所述发送单元,用于当所述产品信息与所述投放标签的关联度大于预设阈值时,向所述兴趣帐号集合中的各个用户帐号的用户客户端发送所述推荐信息。
15.根据权利要求14所述的装置,其特征在于,所述确定单元,包括:
第一确定子单元和计算子单元;
所述第一确定子单元,用于确定所述产品信息的关键字集合,所述关键字集合包括:用于描述所述产品信息的关键字、用于描述与所述产品信息存在竞品关系的其它产品信息的关键字、用于描述与所述产品信息的使用人群特点的关键字中的至少一种;
所述计算子单元,用于计算所述关键字集合与所述投放标签的关键字关联度。
16.根据权利要求14所述的装置,其特征在于,所述发送单元,包括:
第二确定子单元、选择子单元和发送子单元;
所述第二确定子单元,用于确定登录有所述兴趣帐号集合中的所述用户帐号的至少一个第一用户客户端,和登录有与所述用户帐号绑定的其它用户帐号的至少一个第二用户客户端;
所述选择子单元,用于从所述第一用户客户端和所述第二用户客户端中选择出阅读频率高于预设条件的目标用户客户端;
所述发送子单元,用于向所述目标用户客户端发送所述推荐信息。
CN201611001828.4A 2016-11-14 2016-11-14 信息发送方法及装置 Pending CN108073613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611001828.4A CN108073613A (zh) 2016-11-14 2016-11-14 信息发送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611001828.4A CN108073613A (zh) 2016-11-14 2016-11-14 信息发送方法及装置

Publications (1)

Publication Number Publication Date
CN108073613A true CN108073613A (zh) 2018-05-25

Family

ID=62162367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611001828.4A Pending CN108073613A (zh) 2016-11-14 2016-11-14 信息发送方法及装置

Country Status (1)

Country Link
CN (1) CN108073613A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674386A (zh) * 2018-06-14 2020-01-10 北京百度网讯科技有限公司 资源推荐方法、装置及存储介质
CN110675205A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 基于应用的竞品分析方法、装置及存储介质
CN112417269A (zh) * 2020-10-30 2021-02-26 南京湛杰信息科技有限公司 一种智能在线培训服务信息推送算法
CN112651781A (zh) * 2020-12-29 2021-04-13 车主邦(北京)科技有限公司 竞品分析方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093476A1 (en) * 2008-04-10 2011-04-21 Ntt Docomo, Inc. Recommendation information generation apparatus and recommendation information generation method
CN103440259A (zh) * 2013-07-31 2013-12-11 亿赞普(北京)科技有限公司 一种网络广告推送方法和装置
CN104991917A (zh) * 2015-06-23 2015-10-21 上海斐讯数据通信技术有限公司 广告个性化推送***及方法
CN105868291A (zh) * 2012-07-10 2016-08-17 北京奇虎科技有限公司 推荐网址的方法、装置及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093476A1 (en) * 2008-04-10 2011-04-21 Ntt Docomo, Inc. Recommendation information generation apparatus and recommendation information generation method
CN105868291A (zh) * 2012-07-10 2016-08-17 北京奇虎科技有限公司 推荐网址的方法、装置及***
CN103440259A (zh) * 2013-07-31 2013-12-11 亿赞普(北京)科技有限公司 一种网络广告推送方法和装置
CN104991917A (zh) * 2015-06-23 2015-10-21 上海斐讯数据通信技术有限公司 广告个性化推送***及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674386A (zh) * 2018-06-14 2020-01-10 北京百度网讯科技有限公司 资源推荐方法、装置及存储介质
CN110674386B (zh) * 2018-06-14 2022-11-01 北京百度网讯科技有限公司 资源推荐方法、装置及存储介质
CN110675205A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 基于应用的竞品分析方法、装置及存储介质
CN110675205B (zh) * 2018-07-03 2022-11-29 百度在线网络技术(北京)有限公司 基于应用的竞品分析方法、装置及存储介质
CN112417269A (zh) * 2020-10-30 2021-02-26 南京湛杰信息科技有限公司 一种智能在线培训服务信息推送算法
CN112651781A (zh) * 2020-12-29 2021-04-13 车主邦(北京)科技有限公司 竞品分析方法和装置

Similar Documents

Publication Publication Date Title
US11270343B2 (en) Method and apparatus for generating targeted label, and storage medium
CN108881339B (zh) 推送方法、用户标签的生成方法、装置及设备
CN105900466B (zh) 消息处理方法及装置
CN110046299B (zh) 用于自动地执行隐式消息搜索的计算机化***和方法
US9241242B2 (en) Information recommendation method and apparatus
WO2016173398A1 (zh) 贴片视频播放方法、终端及视频服务器
CN111178012A (zh) 一种表单渲染方法、装置、设备及存储介质
CN106548364A (zh) 信息发送方法及装置
CN103294800A (zh) 一种信息推送方法及装置
CN104182488A (zh) 搜索方法、服务器及客户端
CN104468101A (zh) 一种用户身份的验证方法、装置和验证服务***
CN108073613A (zh) 信息发送方法及装置
CN104580177B (zh) 资源提供方法、装置和***
CN104731870A (zh) 一种用于提供推荐信息的方法与设备
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
CN103177096B (zh) 基于文本属性的页面元素定位方法及设备
CN106056350B (zh) 一种电子邮件的信息抽离方法、装置和***
CN104063400B (zh) 数据搜索方法和装置
CN107992615B (zh) 一种网址推荐方法、服务器及终端
CN111078986A (zh) 数据检索方法、装置及计算机可读存储介质
CN106844528A (zh) 获取多媒体文件的方法和装置
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及***
CN109271779A (zh) 一种安装包检测方法、终端设备及服务器
CN106790915B (zh) 号码识别控制方法、装置及相应的服务器和移动终端
CN107562917A (zh) 用户推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221122

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Applicant after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180525

RJ01 Rejection of invention patent application after publication