CN100456298C - 广告信息检索***及广告信息检索方法 - Google Patents

广告信息检索***及广告信息检索方法 Download PDF

Info

Publication number
CN100456298C
CN100456298C CNB2006100985920A CN200610098592A CN100456298C CN 100456298 C CN100456298 C CN 100456298C CN B2006100985920 A CNB2006100985920 A CN B2006100985920A CN 200610098592 A CN200610098592 A CN 200610098592A CN 100456298 C CN100456298 C CN 100456298C
Authority
CN
China
Prior art keywords
user
keyword
index
data
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100985920A
Other languages
English (en)
Other versions
CN1877582A (zh
Inventor
李彦宏
朱洪波
刘建国
郭眈
周利民
王湛
刘子正
袁杰
王闯
杨文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CNB2006100985920A priority Critical patent/CN100456298C/zh
Publication of CN1877582A publication Critical patent/CN1877582A/zh
Priority to JP2007183684A priority patent/JP5716985B2/ja
Priority to US11/826,107 priority patent/US7788216B2/en
Application granted granted Critical
Publication of CN100456298C publication Critical patent/CN100456298C/zh
Priority to JP2014253667A priority patent/JP5970738B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种广告信息检索***及方法,根据访问日志生成Cookie关键词索引数据;在接收到检索请求后,根据Cookie查询Cookie关键词索引,得到Cookie对应的关键词,并查询关键词广告索引,从而得到Cookie对应的广告索引。本发明还涉及另一种广告信息检索***及方法,根据访问日志生成关键词Cookie索引数据,根据关键词Cookie索引及广告关键词索引建立广告Cookie索引,并进而建立Cookie广告索引;在接收到检索请求后,根据Cookie查询Cookie广告索引,得到Cookie对应的广告索引。本发明利用Cookie建立索引,基于用户历史行为匹配广告,使广告能为用户提供能为有用的信息。在用户个性化服务和客户广告定向投放的准确度、覆盖度和实时性等方面具有很大的优越性。

Description

广告信息检索***及广告信息检索方法
技术领域
本发明涉及信息检索技术,尤其涉及广告信息检索***及广告信息检索方法。
背景技术
互联网搜索引擎作为一个信息服务平台,在为互联网用户提供搜索服务的同时,也为互联网广告客户提供广告投放服务。投放广告的服务不但可以为广告客户进行宣传,而且可以为用户提供更多的服务信息。通过搜索引擎投放广告已成为广告商普遍采用的一种广告投放方式。
在现有的搜索引擎中,普遍采用根据用户的当前查询此匹配相关广告的广告投放方法。互联网用户在搜索时,向搜索引擎提交查询词,搜索引擎将与查询词最相关的一组网页的链接作为搜索结果页面返回给用户;用户可以点击这些链接去访问相关的网页。广告客户通过搜索关键词竞价排名***注册与其所要推广的广告链接网站/网页密切相关的一组搜索关键词。如果互联网用户提交的查询词与竞价排名***中的关键词匹配,那么注册该关键词的广告客户所提供的广告链接也将出现在搜索结果页面中。这种广告投放方法存在一定的缺陷,由于搜索结果页中所展现的广告,是根据用户当前的查询词与广告关键词的匹配来选择确定的,如果用户的一个查询在广告库中没有找到匹配的关键词,即使从该用户的搜索历史记录中可以看出用户最近经常搜索的一些查询在广告库中都有合适的广告可以匹配,但返回用户的搜索结果中也不展现广告。并且,对于不同的用户,只要查询词相同,匹配显示的广告信息也是相同的,在匹配中并没有考虑用户的历史行为。
现在,还有一种广告投放方式,即在互联网用户浏览一个网页时,网页的所有者在网页中以文字链接方式展现相关广告。目前常用的方法是:通过分析网页的文本内容,选择展现与该网页在内容上最密切相关的文字链广告。在这种投放方法中,由于网站服务器根据当前网页的文本内容选择展现与其相关的广告;如果当前网页的内容在广告库中没有合适的匹配,即使搜索引擎可以选取展现一些与用户的过去搜索历史中的查询词相关的广告该网页展现,页面中也将没有广告。
利用用户网上行为历史中的信息,目前通用的技术是对用户的网上行为历史的原始数据进行分析和挖掘,生成用户简档(user-profile);对于一个用户,用户简档保存了一些事实性或推测性的个人身份信息(如性别,年龄、籍贯、职业、地址等)和主要个人行为倾向信息(如某些方面的兴趣、爱好和习惯等);用户简档的特点是,数据具有总结性,存储的数据量相对较小,格式一般为结构化数据。用户简档中的每一种信息,一般是对用户在某一方面的归类信息。现在普遍使用的一种生成用户简档的方法是,为用户提供个人信息输入表,该表中有关于个人身份信息和个人行为倾向的空格或选项,当用户通过填写完毕后,对用户填写的信息进行分析总结,生成用户简档。当用户身份信息或兴趣发生变化时,一般只有在用户主动修改个人信息时,才会对其用户简档进行修改更新,因此用户简档往往不能及时有效地反映用户的实际信息;并且,用户信息的准确程度与信息输入表格设计也有很大的关系,有时用户并不能从中选择到合适自己的选项,从而用户填写的表格并不能准确完整的反映用户的实际信息。
发明内容
本发明的目的在于针对现有技术所存在的缺陷,提供广告信息检索***及广告信息检索方法,能够对用户访问行为进行记录,并利用用户标识建立索引,基于用户历史行为匹配广告,使广告能为用户提供更为有用的信息。
为了实现上述目的,本发明提供了一种广告信息检索***,包括:日志分析子***,用于记录、分析用户的访问日志;索引子***,与所述日志分析子***连接,用于生成关键词广告索引及根据日志信息生成用户标识关键词索引;检索子***,与所述日志分析子***及索引子***连接,用于根据接收到的检索请求包含的用户标识,在所述用户标识关键词索引数据中检索与所述用户标识匹配的关键词,根据所述关键词检索所述关键词广告索引数据,获得匹配的广告信息。
所述日志分析子***包括日志分析设备,该日志分析设备包括:日志信息库,用于存储日志信息;日志记录模块,与所述日志信息库连接,用于接收检索请求,并将检索请求记录于日志信息库中;日志预处理库,用于存储日志预处理数据,该日志预处理数据包括用户标识及查询串;日志预处理模块,与所述日志信息库及日志预处理库连接,用于分析日志信息,抽取查询串,并将生成的预处理数据存储于日志预处理库中。
为了避免每天大规模的传输历史库造成的网络开销,由检索设备负责用户标识关键词索引历史库的生成,索引子***只生成用户标识关键词索引增量数据。
所述索引子***包括索引设备,该索引设备包括:用户标识关键词索引库,用于存储用户标识关键词索引数据;用户标识关键词索引生成模块,与所述日志预处理库及用户标识关键词索引库连接,用于根据所述日志预处理数据和用户标识关键词索引数据生成用户标识关键词索引增量数据并将用户标识关键词索引增量数据存储于用户标识关键词索引库中;关键词广告索引库,用于存储关键词广告索引数据;关键词广告索引生成模块,与所述关键词广告索引库连接,用于生成关键词广告索引数据并将关键词广告索引数据存储于关键词广告索引库中。。
所述检索子***包括检索设备,该检索设备包括:WEB服务模块,与所述日志记录模块连接,用于检索子***与互联网的通信;用户接口模块,与所述WEB服务模块连接,用于接收所述WEB服务模块转发的检索请求,生成广告检索结果页面;用户标识关键词索引历史库,用于存储用户标识关键词索引历史数据;用户标识关键词索引历史库生成模块,与所述用户标识关键词索引历史库连接,用于将用户标识关键词索引数据合并到用户标识关键词索引历史库中;广告匹配模块,与关键词广告索引库及用户标识关键词索引库连接,用于根据检索请求,检索用户标识关键词索引库及关键词广告索引库,将匹配的广告发送至用户接口模块。所述检索设备还包括:第二关键词广告索引库,与广告匹配模块连接,广告匹配模块在该第二关键词广告索引库中检索匹配的广告索引信息。
每一子***中均可包括一台或多台相应设备,当包括多台相应设备时,每一设备根据预先设定的分组,对部分用户标识的数据进行处理。
对于一个搜索引擎,每天有大量的访问用户,为了避免索引子***成为***的瓶颈,由日志分析设备进行部分的数据处理工作,生成分时段的用户标识关键词索引增量数据。而索引设备只需将用户标识关键词索引分时段增量数据合并为用户标识关键词索引增量数据,并传送给检索子***即可。日志分析设备还可包括:分时段增量生成模块,与所述日志预处理库连接,用于实时读取日志预处理数据,对查询串切词,得到关键词,生成用户标识关键词索引增量并将用户标识关键词索引增量存储到分时段增量库中;分时段增量库,与所述分时段增量生成模块及用户标识关键词索引生成模块连接,用于存储用户标识关键词索引分时段增量数据;用户标识关键词索引生成模块将用户标识关键词索引的分时段增量数据合并为用户标识关键词索引增量数据。
为了实现上述目的,本发明还提供了一种广告信息检索方法,包括:
记录日志信息,根据所述日志信息生成用户标识关键词索引数据的步骤;
根据检索请求中的用户标识,检索用户标识关键词索引数据,得到用户标识对应的关键词列表的步骤;
根据用户标识对应的关键词列表检索关键词广告索引库,得到匹配的广告索引信息的步骤;
在所述生成用户标识关键词索引数据时,对日志信息进行预处理,实时分析日志信息,抽取查询串,生成预处理数据,该预处理数据包括用户标识信息及查询串。
在生成用户标识关键词索引数据时,对日志信息进行预处理,实时分析日志信息,抽取查询串,生成预处理数据,该预处理数据包括用户标识信息及查询串。实时对查询串进行切词,抽取关键词,生成用户标识关键词索引增量数据。定时将用户标识关键词索引增量数据与用户标识关键词索引历史库中的用户标识关键词索引历史数据进行合并,并存储于用户标识关键词索引历史库中。
所述用户标识关键词索引数据可包括关键词的权值信息。当将用户标识关键词索引增量数据合并入用户标识关键词索引历史库时,可执行以下步骤:
步骤121、将用户标识关键词索引历史库中各关键词的权值乘以衰减因子;
步骤122、提取用户标识关键词索引增量数据中待合并的第一个用户标识;
步骤123、判断用户标识关键词索引历史库中是否存在该用户标识,若存在,执行步骤124,否则,执行步骤125;
步骤124、将用户标识关键词索引增量数据中与用户标识对应的关键词列表并入用户标识关键词索引历史库中相应关键词列表,执行步骤126;
步骤125、将用户标识关键词索引增量数据中与用户标识对应的关键词列表***用户标识关键词索引历史库中;
步骤126、判断是否存在待合并的用户标识关键词索引增量数据,若存在,执行步骤122,否则执行步骤127;
步骤127、结束。
在将用户标识关键词索引增量数据中与用户标识对应的关键词列表并入用户标识关键词索引历史库中相应关键词列表时,可执行以下步骤:
步骤1241、访问用户标识关键词索引增量数据中与用户标识对应的关键词列表中待合并的第一个关键词;
步骤1242、判断该关键词是否存在于用户标识关键词索引历史库相应关键词列表中,若是,执行步骤1243,否则,执行步骤1244;
步骤1243、将用户标识关键词索引增量数据中该关键词的权值累加在用户标识关键词索引历史库与用户标识对应的关键词列表的相应关键词权值上,执行步骤1245;
步骤1244、将该关键词***用户标识关键词索引历史库与用户标识对应的关键词列表,权值与用户标识关键词索引增量数据中的权值相同;
步骤1245、判断是否存在待合并的关键词,若存在,执行步骤1242;否则,执行步骤126。
在检索用户标识关键词索引数据时,可只检索历史数据,也可结合增量数据和历史数据共同检索,还可结合当前检索请求中的查询串得到关键词,并将关键词并入检索得到的关键词列表中。
在检索关键词广告索引库,生成关键词广告索引检索结果时,可执行以下步骤:
步骤111、针对与用户标识对应的关键词列表,在关键词广告索引库中查找并读取各关键词对应的广告索引列表;
步骤112、将广告索引列表合并,得到与用户标识对应的总广告索引列表;
步骤113、生成广告检索结果页面。
在合并广告索引列表时,可根据关键词的权值,计算广告索引的权值。当一个广告索引与多个关键词相对应时,将多个关键词权值累加,得到该广告索引的权值。得到总广告索引列表后,按照广告索引权值由高至低的顺序排列总广告索引列表中的广告索引,从而广告检索结果中,排在第一位的广告索引为权值最大,与用户最相关的广告索引。
为了实现上述目的,本发明提供了另一种广告信息检索***,包括:日志分析子***,用于记录、分析用户的访问日志,根据日志信息生成关键词用户标识索引增量数据;索引子***,与所述日志分析子***连接,用于生成广告关键词索引数据,并根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据;检索子***,与所述日志分析子***及索引子***连接,用于根据检索请求中的用户标识检索用户标识广告索引数据,得到匹配的广告索引信息。
日志分析子***包括日志分析设备,日志分析设备包括:日志信息库,用于存储日志信息;日志记录模块,与所述日志信息库连接,用于接收检索请求,并将检索请求记录于日志信息库中;日志预处理库,用于存储日志预处理数据,该日志预处理数据包括用户标识和查询串;日志预处理模块,与所述日志信息库及日志预处理库连接,用于分析日志信息,抽取查询串,生成日志预处理数据并存储于日志预处理库中;关键词用户标识索引库,用于存储关键词用户标识索引数据;关键词用户标识索引生成模块,与所述日志预处理库及关键词用户标识索引库连接,用于根据日志预处理数据生成关键词用户标识索引增量数据并存储于关键词用户标识索引库中。
索引子***包括索引设备,索引设备可包括:广告关键词索引库,用于存储广告关键词索引数据;广告关键词索引生成模块,与所述广告关键词索引库连接,用于生成广告关键词索引数据并存储于广告关键词索引库中;关键词用户标识索引历史库,用于存储关键词用户标识索引历史数据;关键词用户标识索引历史库生成模块,与所述关键词用户标识索引库及关键词用户标识索引历史库连接,用于将关键词用户标识索引增量数据合并到关键词用户标识索引历史库中;用户标识广告索引库,用于存储用户标识广告索引数据;用户标识广告索引生成模块,与所述广告关键词索引库及关键词用户标识索引库连接,用于生成用户标识广告索引数据并存储于用户标识广告索引库中。
检索子***包括检索设备,检索设备可包括:WEB服务模块,用于检索子***与互联网的通信;用户接口模块,与所述WEB服务模块连接,用于接收检索请求,生成广告检索结果页面;广告匹配模块,与用户标识广告索引库连接,用于根据检索请求中的用户标识,检索用户标识广告索引库,得到匹配的广告索引数据并发送至用户接口模块。所述检索设备还包括第二用户标识广告索引库,与所述广告匹配模块连接,该第二用户标识广告索引库的数据与索引设备的用户标识广告索引库的数据一致。
每一子***中均可包括一台或多台相应设备,当包括多台相应设备时,每一设备根据预先设定的分组,对部分用户标识的数据进行处理。
为了实现上述目的,本发明又提供了另一种广告信息检索方法,包括:
记录日志信息,根据日志信息,生成关键词用户标识索引数据;根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据的步骤;
根据检索请求中的用户标识,检索用户标识广告索引数据,得到用户标识对应的广告索引列表的步骤;
在生成关键词用户标识索引数据中包括:对日志信息进行预处理,实时分析日志信息,抽取查询串,生成预处理数据,该预处理数据包括用户标识信息及查询串。
在生成用户标识关键词索引数据时,可先根据日志信息,生成关键词用户标识索引数据;然后根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据。
本发明实现了对用户访问行为进行记录,并利用Cookie用户标识建立索引,基于用户历史行为匹配广告,使广告能为用户提供能为有用的信息。在用户个性化服务和客户广告定向投放的准确度、覆盖度和实时性等方面具有很大的优越性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的一种广告信息检索***结构示意图;
图2为本发明的一种广告信息检索***的日志分析设备一具体实施例结构示意图;
图3为本发明的一种广告信息检索***的日志分析设备另一具体实施例结构示意图;
图4为本发明的一种广告信息检索***的索引设备一具体实施例结构示意图;
图5为本发明的一种广告信息检索***的检索设备一具体实施例结构示意图;
图6为本发明的一种广告信息检索***的日志分析设备再一具体实施例结构示意图;
图7为本发明的一种广告信息检索***一具体实施例结构示意图;
图8为本发明的一种广告信息检索方法流程图;
图9为本发明的一种广告信息检索方法的广告匹配的方法流程图;
图10为本发明的一种广告信息检索方法的Cookie关键词索引增量数据合并入Cookie关键词索引历史库的方法流程图;
图11为本发明的一种广告信息检索方法的增量数据关键词列表合并入Cookie关键词索引历史库关键词列表的方法流程图;
图12为本发明的一种广告信息检索方法的广告列表合并方法流程图;
图13为本发明的另一种广告信息检索方法流程图;
图14为本发明的另一种广告信息检索***的日志分析设备一具体实施例的结构示意图;
图15为本发明的另一种广告信息检索方法的在内存中生成关键词Cookie索引数据的方法流程图;
图16为本发明的另一种广告信息检索方法的将内存中的关键词Cookie索引增量数据与关键词Cookie索引库中的关键词Cookie索引增量数据进行合并的方法流程图;
图17为本发明的另一种广告信息检索***的索引设备一具体实施例结构示意图;
图18为本发明的另一种广告信息检索方法的将关键词Cookie索引增量数据与Cookie关键词索引历史数据进行合并的方法流程图;
图19为本发明的另一种广告信息检索方法的根据关键词Cookie索引数据及广告关键词索引数据生成Cookie广告索引数据的方法流程图;
图20为本发明的另一种广告信息检索方法的根据各广告索引对应的总Cookie列表建立Cookie广告索引数据的方法流程图
图21为本发明的另一种广告信息检索***的检索设备一具体实施例结构示意图;
图22为本发明的另一种广告信息检索***一具体实施例结构示意图。
具体实施方式
一个大型互联网搜索引擎在给大量用户提供搜索服务的同时,积累了海量的关于用户的搜索行为信息。利用这些搜索行为信息可以改进搜索引擎,为用户和客户提供更高质量的搜索服务。
Cookie是Web服务器保存在用户硬盘上的一段文本。Cookie允许一个Web站点在用户的电脑上保存信息并且随后再取回它。Cookie中存储有WEB网站分配给用户的唯一标识信息,本发明的广告信息检索***,收集和分析互联网搜索引擎的查询和点击日志,记录Cookie中的用户标识及其所对应的用户在一段时间内的搜索点击浏览行为,建立索引,根据用户历史行为匹配广告信息。为了叙述方便,以下将用户标识称为Cookie,并将由A到B的索引数据成为AB索引,例如,从Cookie到关键词的索引称为Cookie关键词索引,从关键词到广告的索引称为关键词广告索引,从广告到关键词的索引称为广告关键词索引。
如图1所示,为本发明的一种广告信息检索***结构示意图,包括:日志分析子***、索引子***及检索子***。日志分析子***,用于记录、分析用户的访问日志;索引子***,与日志分析子***连接,用于生成Cookie关键词索引及关键词广告索引;检索子***,与日志分析子***及索引子***连接,用于根据检索请求、Cookie关键词索引库及关键词广告索引库匹配广告信息。
日志分析子***由日志分析设备构成。如图2所示,为本发明的一种广告信息检索***的日志分析设备一具体实施例结构示意图,包括:日志信息库、日志记录模块、日志预处理模块及日志预处理库。日志记录模块接收检索请求,并将检索请求记录于日志信息库中;日志预处理模块实时分析日志信息库中的日志信息,抽取查询串,生成日志预处理数据,并将日志预处理数据存储于日志预处理库中。其中,日志预处理数据包括Cookie及查询串。
日志分析设备可以为一台或多台。当日志信息数据量大,访问量大时,可采用多台日志分析设备。可将日志分析设备分为多组,每组日志分析设备记录部分Cookie的日志信息。各设备IP地址不同,但映射为同一域名。对于一个检索请求,可根据组数对Cookie进行取模运算,根据取模结果来选择组,进而选择由哪台日志分析设备记录日志信息。为了防止及其故障时,***仍能正常工作,每组可设置2台设备,一台作为另一台的备份。正常情况下,所有机器负载均衡。如果某一台机器出现问题,则请求会转移到同组的另一台。
如图3所示,为本发明的一种广告信息检索***的日志分析设备另一具体实施例结构示意图。本实施例在上一实施例的基础上加入了日志分发模块,该模块用于接收检索请求,并根据检索请求中的Cookie将检索请求转发至相应的日志记录模块,从而可保证同一Cookie的日志信息记录于一台日志分析设备中,以便于索引的建立。
为了避免每天大规模的传输历史库造成的网络开销,由检索设备负责Cookie关键词索引历史库的生成。索引设备只生成Cookie关键词索引增量数据,根据数据量和***的具体情况,索引子***中的Cookie关键词索引增量数据可以为半天的增量数据,也可以为当天、两天、三天或一周的增量数据。
索引子***由索引设备构成,根据索引数据量的大小,索引设备可以为一台或多台。如图4所示,为本发明的一种广告信息检索***的索引设备一具体实施例结构示意图,包括:Cookie关键词索引库、Cookie关键词索引生成模块、关键词广告索引库以及关键词广告索引生成模块。Cookie关键词索引库存储Cookie关键词索引数据,即存储Cookie及相应的关键词信息;Cookie关键词索引生成模块与日志预处理库及Cookie关键词索引库连接,生成Cookie关键词索引增量数据并将Cookie关键词索引增量数据存储于Cookie关键词索引库中;关键词广告索引库存储关键词广告索引数据,即存储关键词与广告信息的对应关系;关键词广告索引生成模块,与关键词广告索引库连接,用于生成关键词广告索引数据。
考虑到当索引信息较多时,可能将索引机分为多组,每组设备负责生成部分Cookie的Cookie关键词索引增量数据,每组的索引机器可以配置多台,互为备份。为了使***具有良好的可扩展性,传送模块具有按分组分发数据的功能,在选择分组时,也可采用上述的根据组数对Cookie取模的方式,在此不再赘述。与传送模块相配合,索引设备中可设置一接收模块,用于接收Cookie关键词索引的分时段增量数据。
检索子***由检索设备构成,如图5所示,为本发明的一种广告信息检索***的检索设备一具体实施例结构示意图,包括WEB服务模块、用户接口模块、Cookie关键词索引历史库、Cookie关键词索引历史库生成模块及广告匹配模块。WEB服务模块用于检索子***与互联网的通信;用户接口模块与WEB服务模块连接,用于接收WEB服务模块转发的检索请求,并生成广告检索结果页面;Cookie关键词索引历史库存储Cookie关键词索引历史数据;Cookie关键词索引历史库生成模块与Cookie关键词索引库及Cookie关键词索引历史库连接,将索引设备生成的Cookie关键词索引增量数据合并到Cookie关键词索引历史库中;广告匹配模块,与Cookie关键词索引历史库及Cookie关键词索引库连接,根据检索请求中的Cookie,检索Cookie关键词索引历史库,得到与Cookie对应的关键词列表,根据关键词列表检索关键词广告索引库,得到匹配的广告索引列表,发送至用户接口模块。若Cookie对应多个关键词,那么会在关键词广告索引库中检索出多个广告索引列表,此时,要对多个列表合并,得到总广告索引列表,并向用户接口模块发送。其中,广告匹配模块也可只检索
由于Cookie关键词索引库中的增量数据比Cookie关键词索引历史库中的历史数据更能反映用户近期行为特点,因此在匹配广告信息时,还可参考增量数据,或对两类数据综合参考。因此,在检索设备另一实施例中,广告匹配模块还与索引设备的Cookie关键词索引库连接,在接收到检索请求时,即检索Cookie关键词索引历史数据又检索增量数据,根据两个数据库的检索结果得到Cookie对应的关键词列表。
检索设备可以为一台或多台,当检索设备为多台时,需要对检索设备分组,每组设备只响应部分检索请求。WEB服务模块接收到检索请求后,根据Cookie将请求转发到相应的检索设备,由相应检索设备进行处理。
对于一个搜索引擎,每天有大量活跃的Cookie,所以为了避免索引子***成为***的瓶颈,由日志分析设备进行部分的数据处理工作,生成分时段的Cookie关键词索引增量数据。而索引设备只需将Cookie关键词索引分时段增量数据合并为Cookie关键词索引增量数据,并传送给检索子***即可。
如图6所示,为本发明的一种广告信息检索***的日志分析设备再一具体实施例结构示意图,本实施例进一步加入了分时段增量生成模块、分时段增量库以及传送模块。分时段增量生成模块与日志预处理库连接,该模块实时读取日志预处理数据,对查询串切词,得到关键词,在内存中记录的Cookie与关键词的对应关系,定时转储到分时段增量库中,生成Cookie关键词索引分时段增量数据,并清空内存。为了保证Cookie关键词索引库的及时更新,还在日志分析设备中设置一传送模块,专门用于向检索设备发送Cookie关键词索引分时段增量数据,只要关键词分时段增量数据转储到分时段增量库,传送模块就将分时段增量数据传送到索引设备。
由于日志信息数据量比较大,Cookie查询串索引数据(即Cookie与查询串的对应关系)相对较小,因此,可保存多天的Cookie查询串索引数据,当***崩溃、数据被破坏时,Cookie查询串索引数据可作为建立Cookie关键词索引的数据源;并且,Cookie查询串索引库也可作对用户行为进行深层次分析的数据资源。
如图7所示,为本发明的本发明的一种广告信息检索***一具体实施例结构示意图。由日志分析子***、索引子***及检索子***组成。每一子***包括一台或多台设备。日志分析设备包括上述的日志分发模块、日志记录模块、日志信息库、日志预处理模块、日志预处理库、分时段增量生成模块、分时段增量库及传送模块,并进一步加入了Cookie查询串索引库及Cookie查询串索引生成模块。Cookie查询串索引库用于存储Cookie查询串索引数据,在该查询库可查找与Cookie对应的查询串;Cookie查询串索引生成模块,与日志预处理库及Cookie查询串索引库连接,用于生成Cookie查询串索引数据并存储至Cookie查询串索引库中。Cookie查询串索引生成模块可定时对实时生成的预处理数据进行合并,生成定时预处理数据,并存储预定时间段内的定时预处理数据。例如,每天在网站访问低谷时段生成当天的预处理数据,存储于Cookie查询串索引库中,基于数据安全性的考虑,可保存一段时间内的查询串数据,例如保存若干天的查询串数据,这段时间前的查询串数据被覆盖。
为了减小检索关键词广告索引库和Cookie关键词索引库的网络传输开销,可在检索子***中存储Cookie关键词索引增量数据以及关键词广告索引数据,这样,在进行广告匹配时,检索设备在本地就可完成信息检索,而不需再去访问索引设备了。从而,在本实施例中,检索设备除了包括WEB服务模块、用户接口模块、广告匹配模块、Cookie关键词索引历史库及Cookie关键词索引历史库生成模块外,进一步包括了关键词广告索引库及待合并Cookie关键词索引库。关键词广告索引库用于存储关键词广告索引数据,其数据来源于检索子***的关键词广告索引库,并且与该数据库的数据保持一致。待合并Cookie关键词索引库用于存储待并入Cookie关键词索引历史库的Cookie关键词索引增量数据,其数据来源于索引设备的Cookie关键词索引库,Cookie关键词索引历史库生成模块定期将待合并Cookie关键词索引库中的Cookie关键词索引增量数据合并到Cookie关键词索引历史库中。例如,当Cookie关键词索引库存储的是当天Cookie关键词索引增量数据时,可在每天网站访问的低谷时段进行Cookie关键词索引数据的合并。
本实施例的索引设备除了包括Cookie关键词索引生成模块、Cookie关键词索引库、关键词广告索引生成模块及关键词广告索引库之外,进一步包括了接收模块和索引传送模块。接收模块与日志分析设备的传送模块配合工作,接收Cookie关键词索引分时段增量数据。索引传送模块与Cookie关键词索引库及关键词广告索引库连接,用于定时向检索设备传送Cookie关键词索引增量数据,并在广告库更新时将关键词广告索引库传送到检索设备。
基于数据安全性的考虑,可在索引设备中保留一定时间段内的Cookie关键词索引增量数据,例如保留一段时间的当天Cookie关键词索引增量数据,用于***崩溃数据丢失情况下的Cookie关键词索引历史库的重建。但是,在待合并Cookie关键词索引库中,只需保存需要合并入Cookie关键词索引历史库的增量数据即可,例如,若每天进行一次索引历史数据的合并,那么只需在待合并Cookie关键词索引历史库中存储当天的Cookie关键词索引增量数据。
如图8所示,为本发明的一种广告信息检索方法流程图,包括如下步骤:
步骤11、记录日志信息,生成Cookie关键词索引数据的步骤;
步骤12、根据检索请求中的Cookie,检索Cookie关键词索引数据,得到Cookie对应的关键词列表;
步骤13、根据Cookie对应的关键词列表检索关键词广告索引库,得到匹配的广告索引信息。
当存在多台检索设备时,检索设备的WEB服务器接收到检索请求后,根据Cookie及检索设备分组,将检索请求发送至相应的检索设备。
如图9所示,为本发明的一种广告信息检索方法的广告匹配的方法流程图,包括如下步骤:
步骤111、针对与Cookie对应的关键词列表,在关键词广告索引库中查找并读取相应的广告索引列表;
步骤112、将广告索引列表合并,得到与Cookie对应的总广告索引列表;
步骤113、生成广告检索结果页面。
在合并广告索引列表时,可直接将各列表合并,删除重复的广告信息,即可得到与Cookie对应的广告信息。
为了使广告与用户历史行为更准确地匹配,为用户提供更为有效的信息,可为Cookie对应的每个关键词设置一个权值,并记录于Cookie关键词索引库及Cookie关键词索引历史库中,Cookie关键词索引库中权值大小与Cookie关键词索引历史库中的权值可能不同。关键词权值取决于相应时间段内用户使用该关键词的频率,使用的时间及词的属性等信息。例如,当Cookie关键词索引库记录当天增量数据时,关键词的权值取决于用户当天使用该词的频率、关键词的属性等信息;在Cookie关键词索引历史库中,关键词的权值还取决于访问的时间,每次将Cookie关键词索引增量数据并入Cookie关键词索引历史库时,都要将历史库所有关键词的权值乘上一个衰减因子,若用户长期没有使用某个关键词,那么该关键词的权值会随时间一直衰减;直到权值小于某个阈值时,将该关键词从历史库中删除。
如图10所示,为本发明的一种广告信息检索方法的将Cookie关键词索引增量数据合并入Cookie关键词索引历史库的方法流程图,包括如下步骤:
步骤121、将Cookie关键词索引历史库中各关键词的权值乘以衰减因子;
步骤122、提取增量数据中待合并的第一个Cookie;
步骤123、判断Cookie关键词索引历史库中是否存在该Cookie,若存在,执行步骤124,否则,执行步骤125;
步骤124、将Cookie关键词索引增量数据中Cookie的关键词列表并入Cookie关键词索引历史库中相应关键词列表,执行步骤126;
步骤125、将Cookie关键词索引增量数据中Cookie的关键词列表***Cookie关键词索引历史库中;
步骤126、判断是否存在待合并的增量数据,若存在,执行步骤122,否则执行步骤127;
步骤127、结束。
若Cookie关键词索引历史库中存在当前Cookie,在步骤1 24中,将增量数据中关键词列表并入Cookie关键词索引历史库中相应关键词列表时,可顺序对每个关键词进行处理,方法如图11所示:
步骤1241、访问增量数据中当前Cookie的关键词列表中待合并的第一个关键词;
步骤1242、判断该关键词是否存在于历史库相应关键词列表中,若是,执行步骤1243,否则,执行步骤1244;
步骤1243、将增量数据中该关键词的权值累加在历史库当前Cookie的关键词列表的相应关键词权值上;
步骤1244、将该关键词***历史库当前Cookie的关键词列表,权值与增量数据中的权值相同;
步骤1245、判断是否存在待合并的关键词,若存在,执行步骤1242;否则,执行步骤126。
当为关键词设置了权值后,可将Cookie对应的关键词按权值排序。在对各广告列表合并时,根据关键词权值计算每个广告的权值,当一个广告对应多个关键词时,可将多个关键词的权值累加,得到广告的权值,合并方法如图12所示:
步骤131、建立总广告索引列表,用于记录已处理的关键词广告索引信息以及关键词广告索引的权值;建立一标号数组,用于记录已处理的广告标号及广告索引在总广告索引列表中的位置;
步骤132、访问第一个待合并的广告列表;
步骤133、访问第一个待合并的广告索引;
步骤134、在标号数组中查找是否包含广告索引中的标号,若存在,执行步骤135,否则,执行步骤136;
步骤135、根据标号对应的位置,在总广告索引列表中查找广告索引,并将当前广告列表对应的关键词权值累加到总广告索引列表中该广告索引的权值上;
步骤136、将广告索引添加到总广告索引列表中,将广告标号及广告索引在总广告索引列表的位置记录于标号数组中;
步骤137、判断当前广告列表是否有未合并的广告索引,若是,执行步骤133,否则执行步骤138;
步骤138、判断是否有未合并的广告列表,若是,执行步骤132,否则,执行步骤139;
步骤139、结束。
在执行了步骤131-139后,总广告索引列表中存放了与Cookie匹配的所有广告索引信息以及相应的权值,即得到了与检索请求中的Cookie匹配的广告。
还可进一步对总广告索引列表中的广告索引按照权值排序,在返回的广告检索结果中按照权值从大到小的顺序排列广告索引,排在最前面的广告索引是与用户最相关的广告。
在根据Cookie确定关键词时,可检索Cookie关键词索引历史库,根据用户在当天以前的历史数据匹配广告信息;也可既检索Cookie关键词索引历史库,又检索存储有Cookie关键词索引增量数据的待合并Cookie关键词索引库,在得到Cookie在两个数据库中的关键词列表后,先对两关键词列表进行合并,得到一个既能体现用户当前时间段行为特征又能体现用户历史行为特征的关键词列表。在既检索Cookie关键词索引历史库又检索待合并Cookie关键词索引库时,关键词的权值计算方法可参照将增量数据并入Cookie关键词索引历史库的权值计算方法,假设Cookie在待合并Cookie关键词索引库中的索引列表称为列表1,在Cookie关键词索引历史库中的索引列表为索引列表2,那么先建立一个空的列表3,将索引列表2的信息复制到列表3中,列表3中各关键词权值乘以衰减因子;顺序访问列表1中的每一个关键词,若列表3中存在该关键词,则将列表1中的关键词权值累加到列表3的关键词权值上,若不存在,则在列表3中***该关键词,并记录列表1中的关键词权值;当列表1中的关键词全部处理完毕后,列表3中记录着列表1和列表2的合并结果,即Cookie对应的关键词信息,该信息即可反映用户的当天行为特征又可反映用户的历史行为特征。
在根据Cookie确定关键词时,还可考虑用户当前查询的关键词,根据关键词属性等信息为该关键词设置一个权值,然后将该关键词及权值合并到检索出的关键词中;在合并时,若关键词列表中没有这个关键词,那么直接将这个关键词及权值信息***关键词列表中,若关键词列表中有这个关键词,则将当前关键词权值累加到关键词列表中的权值上。
在Cookie关键词索引历史库中存储的各Cookie中,可能有部分Cookie并不经常访问该网站,或者有些Cookie只在某一时间内段内对一些关键词的相关信息感兴趣,若对这些长时间没有使用的Cookie或者关键词进行长期的保存无疑会浪费存储空间,因此可在将索引增量数据合并入进行历史库时,对各关键词的权值进行搜索,删除权值小于预定阈值的关键词,并且,若某个Cookie的关键词均被删除了,说明该Cookie长期没有访问过网站,那么将该Cookie也删除。
上述的广告信息检索***及广告信息检索方法是根据用户访问日志建立Cookie关键词索引,Cookie与关键词的对应关系还可以另一种索引方式来记录,即关键词Cookie索引。当建立了关键词Cookie索引后,可根据广告关键词索引数据确定广告索引对应的关键词列表,进而利用关键词Cookie索引数据确定广告的投放用户群,并根据广告Cookie索引建立其倒排索引,即Cookie广告索引,从而在用户访问网站时,可根据Cookie查询Cookie广告索引,确定向用户播放的广告。
本发明的另一种广告信息检索***结构示意图同样如图1所示,包括日志分析子***、索引子***及检索子***。但各子***的功能与上述的广告信息检索***相应子***的功能有所不同。本广告信息检索***中,日志分析子***用于记录、分析用户的访问日志,生成关键词Cookie索引增量数据;索引子***,与所述日志分析子***连接,用于生成广告关键词索引数据,并根据关键词Cookie索引数据及广告关键词索引数据生成Cookie广告索引数据;检索子***,与所述日志分析子***及索引子***连接,用于根据检索请求中的Cookie检索Cookie广告索引数据,得到匹配的广告索引信息。
与前述的广告信息检索***相似,每一子***均可包括一台或多台相应的设备,但各设备的功能与前述广告信息检索***相应设备的功能有所不同。
如图13所示,为本发明的另一种广告信息检索方法流程图,包括如下步骤:
步骤21、记录日志信息,生成Cookie广告索引数据;
步骤22、根据检索请求中的Cookie,检索Cookie广告索引数据,得到Cookie对应的广告索引列表。
日志分析设备记录日志信息,并对日志进行分析处理,生成关键词Cookie索引增量数据。索引设备建立广告关键词索引,定时将关键词Cookie索引增量并入Cookie关键词索引历史数据中,并根据广告关键词索引数据及关键词Cookie索引历史数据生成广告Cookie索引数据,并进而生成Cookie广告索引数据。检索设备在接收到检索请求后,根据检索请求中的Cookie查询Cookie广告索引数据,得到播放的广告索引数据。
如图14所示,为本发明的另一种广告信息检索***的日志分析设备一具体实施例的结构示意图,包括:日志信息库、日志记录模块、日志预处理库、日志预处理模块、关键词Cookie索引库以及关键词Cookie索引生成模块。日志信息库用于存储日志信息;日志记录模块与日志信息库连接,用于接收检索请求,并将检索请求记录于日志信息库中;日志预处理库用于存储日志预处理数据,该日志预处理数据包括Cookie及查询串数据;日志预处理模块,与日志信息库及日志预处理库连接,用于分析日志信息,抽取查询串,生成日志预处理数据并存储于日志预处理库中;关键词Cookie索引库用于存储关键词Cookie索引数据;关键词Cookie索引生成模块,与日志预处理库及关键词Cookie索引库连接,用于根据日志预处理数据生成关键词Cookie索引增量数据并存储于关键词Cookie索引库中。
当日志分析设备为多台时,可将日志分析设备分为多组,每一日志分析设备根据分组,记录和分析部分Cookie的日志信息,生成包括部分Cookie的关键词Cookie索引数据。此时,日志分析设备应具有根据检索请求选择设备的功能,即根据检索请求中的Cookie,将检索请求发送至相应的日志分析设备处理。在本发明的另一种广告信息检索***的日志分析设备另一具体实施例中,该设备还包括日志分发模块,该日志分发模块用于接收检索请求,并根据检索请求中的Cookie将检索请求转发至相应的日志记录模块,从而可保证同一Cookie的日志信息记录于一台日志分析设备中,以便索引的建立。
关键词Cookie索引生成模块对查询串进行切词,抽取关键词,生成关键词Cookie索引增量数据。该模块可实施监控并读取日志预处理库不断增加的预处理数据并在内存中生成关键词Cookie索引数据。关键词Cookie模块首先创建关键词词典、Cookie词典并分配Cookie属性存储空间和关键词cookie索引空间。如图15所示,为本发明的另一种广告信息检索方法的在内存中生成关键词Cookie索引数据的方法流程图,包括如下步骤:
步骤211、读入一行日志记录;
步骤212、提取日志记录中的Cookie,在内存中的Cookie词典中查找是否存在该Cookie,若存在,执行步骤214,否则,执行步骤213;
步骤213、在内存中的Cookie词典中***该Cookie,并存储日志记录中Cookie的属性;
步骤214、对日志记录的查询串进行切词,在内存中的关键词词典中查找是否存在切词结果,若存在,执行步骤216,否则,执行步骤215;
步骤215、在内存中的关键词词典中***切词结果;
步骤216、顺序对切词结果中的各关键词进行处理,若关键词的Cookie列表中存在当前Cookie,则更新Cookie信息,若不存在,则***Cookie信息。
为了对Cookie与关键词及广告的相关性进行衡量,根据预先定义的规则为切词结果中的每一关键词设置以权值。在确定权值时可考虑关键词在广告库中出现的频率及切词类型等因素。
在更新Cookie信息时,根据当前日志活动时间更新Cookie活动时间,并合并权值。在向关键词对应的用户列表***Cookie时,将Cookie属性信息的存储位置、当前日志活动时间及权值进行封装,按照Cookie升序***Cookie列表。
当读取到内存的数据记录达到一定数量(如Cookie数达3兆)或者自从上次合并数据以来经历了一定的时间(例如1个小时),关键词Cookie索引生成模块就将内存中的关键词Cookie索引增量数据与关键词Cookie索引库中的关键词Cookie索引增量数据合并。如图16所示,为本发明的另一种广告信息检索方法的将内存中的关键词Cookie索引增量数据与关键词Cookie索引库中的关键词Cookie索引增量数据进行合并的方法流程图,包括:
步骤221、遍历读入的关键词Cookie索引库关键词词典,对该关键词词典中的每一关键词,在内存中的关键词词典中查找,若查找到,则将内存中该关键词的Cookie列表与关键词Cookie索引库中该关键词的Cookie列表合并,并在内存中的关键词词典中删除该关键词;
步骤222、遍历内存中的关键词词典,将每个关键词***关键词Cookie索引库关键词词典中,并将各关键词的Cookie列表***关键词Cookie索引库。
当关键词Cookie索引增量数据达到一定数量或到达某一指定的时间点时,由索引设备将关键词Cookie索引增量数据并入关键词Cookie索引历史数据。
如图17所示,为本发明的另一种广告信息检索***的索引设备一具体实施例结构示意图,包括:广告关键词索引库、广告关键词索引生成模块、关键词Cookie索引历史库、关键词Cookie索引历史库生成模块、Cookie广告索引库以及Cookie广告索引生成模块。广告关键词索引库用于存储广告关键词索引数据;广告关键词索引生成模块与广告关键词索引库连接,用于生成广告关键词索引数据并存储于广告关键词索引库中;关键词Cookie索引历史库用于存储关键词Cookie索引历史数据;关键词Cookie索引历史库生成模块,与关键词Cookie索引库及关键词Cookie索引历史库连接,用于将关键词Cookie索引增量数据合并到关键词Cookie索引历史库中;Cookie广告索引库用于存储Cookie广告索引数据;Cookie广告索引生成模块与广告关键词索引库及关键词Cookie索引库连接,用于生成Cookie广告索引数据并存储于Cookie广告索引库中。
如图18所示,为本发明的另一种广告信息检索方法的将关键词Cookie索引增量数据与Cookie关键词索引历史数据进行合并的方法流程图,包括:
步骤231、遍历读入的关键词Cookie索引历史库关键词词典,对该关键词词典中的每一关键词,在关键词Cookie索引库关键词词典中查找,若查找到,则将关键词Cookie索引库该关键词的Cookie列表与关键词Cookie索引历史库中该关键词的Cookie列表合并,并在关键词Cookie索引库的关键词词典中删除该关键词;在权值合并时,与第一种广告索引方法类似,可将索引历史数据中的权值乘以衰减因子,使权值随时间衰减。当关键词的用户列表中Cookie对应的权值小于预先设定的阈值或Cookie过期(如Cookie最近活动时间距当前时间超过某预定天数)时,删除该Cookie。
步骤232、遍历关键词Cookie索引库的关键词词典,将每个关键词***关键词Cookie索引历史库关键词词典中,并将各关键词的Cookie列表***关键词Cookie索引历史库。
在合并Cookie时,可采用2路归并。在合并索引库时,可采用0/1目录相互切换的方法。也就是说和0目录中索引库合并后的新索引库会输出到1目录下,和1目录中索引库合并后的新索引库会输出到0目录下,如此不断循环更新。当前使用的最新目录号会更新在与0/1目录统计的状态文件中,供确定哪份目录下的索引库是最新的。
在得到关键词Cookie索引数据及广告关键词索引数据后,就可以建立Cookie广告索引了。如图19所示,为本发明的另一种广告信息检索方法的根据关键词Cookie索引数据及广告关键词索引数据生成Cookie广告索引数据的方法流程图,包括:
步骤241、遍历广告关键词索引库,对每一个广告索引,提取对应的关键词列表,并根据每一个关键词,从关键词Cookie索引历史库中提取Cookie列表;将多个Cookie列表合并,得到该广告索引对应的总Cookie列表;
步骤242、根据各广告索引对应的总Cookie列表建立Cookie广告索引数据。
其中,如图20所示,步骤242的根据各广告索引对应的总Cookie列表建立Cookie广告索引数据的方法包括:
步骤2421、访问待处理的第一个广告索引;
步骤2422、访问该广告索引对应的待处理的第一个Cookie;
步骤2423、判断该Cookie是否存在于Cookie广告索引库中,若存在,执行步骤2424,否则,执行步骤2425;
步骤2424、将广告索引***Cookie对应的广告索引列表中,执行步骤2426;
步骤2425、在Cookie广告索引库中***该Cookie,并将广告索引置于Cookie的广告索引列表的初始位置,执行步骤2426;
步骤2426、判断当前用户列表中是否存在待处理的Cookie,若存在,执行步骤2422,否则,执行步骤2427;
步骤2427、判断是否存在待处理的广告索引,若存在,执行步骤2421,否则,执行步骤2428;
步骤2428、结束。
每当得到新的关键词Cookie索引历史数据或新的广告关键词索引数据后,就可对Cookie广告索引数据进行更新。关键词Cookie索引历史数据变化引起的更新可执行步骤2421-2428;广告关键词索引数据变化引起的更新需要生成新的广告Cookie索引,然后再根据该索引生成Cookie广告索引。为了便于广告信息变化引起的更新,可存储广告Cookie索引数据,即存储每个广告索引对应的总Cookie列表。在更新时,只需调整有变化的广告的总Cookie列表。
得到Cookie广告索引后,检索设备就可根据检索请求中的Cookie查询对应的广告索引信息了。
如图21所示,为本发明的另一种广告信息检索***的检索设备一具体实施例结构示意图,包括:WEB服务模块、用户接口模块及广告匹配模块。WEB服务模块用于检索子***与互联网的通信;用户接口模块与WEB服务模块连接,用于接收检索请求,生成广告检索结果页面;广告匹配模块与关键词广告索引库连接,用于根据检索请求中的Cookie,检索Cookie广告索引库,得到匹配的广告索引数据并发送至用户接口模块。
由于日志信息数据量比较大,Cookie查询串索引数据(即Cookie与查询串的对应关系)相对较小,因此,可保存多天的Cookie查询串索引数据,当***崩溃、数据被破坏时,Cookie查询串索引数据可作为建立Cookie关键词索引的数据源;并且,Cookie查询串索引库也可作对用户行为进行深层次分析的数据资源。
如图22所示,为本发明的另一种广告信息检索***一具体实施例结构示意图。在本实施例中,日志分析设备除了包括日志信息库、日志记录模块、日志预处理库、日志预处理模块、关键词Cookie索引库以及关键词Cookie索引生成模块之外,还加入了数据传送模块,专门用于向索引设备传输关键词Cookie索引增量数据,并加入了Cookie查询串索引库及Cookie查询串索引生成模块,Cookie查询串索引库用于存储Cookie查询串索引数据,Cookie查询串索引生成模块与所述日志预处理库及Cookie查询串索引库连接,用于生成Cookie查询串索引数据并存储于Cookie查询串索引库中。
索引设备除了包括广告关键词索引库、广告关键词索引生成模块、关键词Cookie索引历史库、关键词Cookie索引历史库生成模块、Cookie广告索引库以及Cookie广告索引生成模块之外,还加入了与数据传送模块配合工作的数据接收模块,并加入用于向检索设备传送Cookie广告索引数据的索引传送模块。
检索设备除了WEB服务模块、用户接口模块及广告匹配模块之外,还加入了Cookie广告索引库,该索引库中的数据与索引设备中的Cookie广告索引库一致,当检索设备保存有Cookie广告索引数据后,在本地就可完成检索,而不需再通过网络访问索引设备,从而可减小网络开销。
本发明使用信息检索和搜索技术对用户搜索行为数据直接建立索引提供查询,在保持用户搜索记录多样性和完整性的基础上,以用户以前所使用过的查询词作为对该用户行为特征的直接描述。这样的方法在用户个性化服务和客户广告定向投放的准确度、覆盖度和实时性等方面具有很大的优越性,无论对用户和客户都能产生更令人满意的服务效果。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (61)

1、一种广告信息检索***,其中包括:
日志分析子***,用于记录、分析用户的访问日志;
索引子***,与所述日志分析子***连接,用于生成关键词广告索引数据及根据日志信息生成用户标识关键词索引数据;
检索子***,与所述日志分析子***及索引子***连接,用于根据接收到的检索请求包含的用户标识,在所述用户标识关键词索引数据中检索与所述用户标识匹配的关键词,根据所述关键词检索所述关键词广告索引数据,获得匹配的广告信息;所述日志分析子***包括日志分析设备,该日志分析设备包括:
日志信息库,用于存储日志信息;
日志记录模块,与所述日志信息库连接,用于接收检索请求,并将检索请求记录于日志信息库中;
日志预处理库,用于存储日志预处理数据,该日志预处理数据包括用户标识和查询串;
日志预处理模块,与所述日志信息库及日志预处理库连接,用于分析日志信息,抽取查询串,生成预处理数据并存储于日志预处理库中。
2、根据权利要求1所述的广告信息检索***,其中所述日志分析设备为多台,每一日志分析设备用于根据预先设定的分组,记录和分析部分用户标识的日志信息。
3、根据权利要求2所述的广告信息检索***,其中所述日志分析设备还包括日志分发模块,该日志分发模块用于接收检索请求并根据检索请求中的用户标识将检索请求转发至相应的日志记录模块。
4、根据权利要求1至3任一所述的广告信息检索***,其中所述日志分析设备还包括:
用户标识查询串索引库,用于存储用户标识查询串索引数据;
用户标识查询串索引生成模块,与所述日志预处理库及用户标识查询串索引库连接,用于根据所述用户标识和查询串生成用户标识查询串索引数据并将用户标识查询串索引数据存储于用户标识查询串索引库中。
5、根据权利要求1所述的广告信息检索***,其中所述索引子***包括索引设备,该索引设备包括:
用户标识关键词索引库,用于存储用户标识关键词索引数据;
用户标识关键词索引生成模块,与所述日志预处理库及用户标识关键词索引库连接,用于根据所述日志预处理数据和用户标识关键词索引数据生成用户标识关键词索引增量数据并将用户标识关键词索引增量数据存储于用户标识关键词索引库中;
关键词广告索引库,用于存储关键词广告索引数据;
关键词广告索引生成模块,与所述关键词广告索引库连接,用于生成关键词广告索引数据并将关键词广告索引数据存储于关键词广告索引库中。
6、根据权利要求5所述的广告信息检索***,其中所述索引设备为多台,每一索引设备用于根据预先设定的分组生成部分用户标识的用户标识关键词索引数据。
7、根据权利要求5所述的广告信息检索***,其中所述日志分析设备还包括:
分时段增量生成模块,与所述日志预处理库连接,用于实时读取日志预处理数据,对查询串切词,得到关键词,生成用户标识关键词索引分时段增量数据并将用户标识关键词索引分时段增量数据存储于分时段增量库中;
分时段增量库,与所述分时段增量生成模块及用户标识关键词索引生成模块连接,用于存储用户标识关键词索引分时段增量数据;用户标识关键词索引生成模块对用户标识关键词索引分时段增量数据进行合并,生成用户标识关键词索引增量数据。
8、根据权利要求7所述的广告信息检索***,其中所述日志分析设备还包括数据传送模块,所述索引设备还包括数据接收模块;数据传送模块实时地将用户标识关键词索引分时段增量数据通过数据接收模块发送至用户标识关键词索引生成模块。
9、根据权利要求5所述的广告信息检索***,其中所述索引设备还包括数据索引传送模块,与所述用户标识关键词索引库及关键词广告索引库连接,用于向检索子***发送索引数据。
10、根据权利要求5所述的广告信息检索***,其中所述检索子***包括检索设备,该检索设备包括:
WEB服务模块,与所述日志记录模块连接,用于检索子***与互联网的通信;
用户接口模块,与所述WEB服务模块连接,用于接收所述WEB服务模块转发的检索请求,生成广告检索结果页面;
用户标识关键词索引历史库,用于存储用户标识关键词索引历史数据;
用户标识关键词索引历史库生成模块,与所述用户标识关键词索引历史库连接,用于将用户标识关键词索引数据合并到用户标识关键词索引历史库中;
广告匹配模块,与关键词广告索引库及用户标识关键词索引历史库连接,用于根据检索请求,检索用户标识关键词索引历史库,得到用户标识对应的关键词列表,根据关键词列表检索关键词广告索引库,得到匹配的广告索引数据并发送至用户接口模块。
11、根据权利要求10所述的广告信息检索***,其中所述检索设备为多台,每一检索设备用于根据预先设定的分组记录部分用户标识的用户标识关键词索引历史数据,响应部分检索请求。
12、根据权利要求10或11所述的广告信息检索***,其中所述检索设备还包括待合并用户标识关键词索引库,用于存储待并入用户标识关键词索引历史库的用户标识关键词索引数据,用户标识关键词索引历史库生成模块定时将待合并用户标识关键词索引库中的用户标识关键词索引数据合并到用户标识关键词索引历史库中。
13、根据权利要求12所述的广告信息检索***,其中所述检索设备的广告匹配模块与待合并用户标识关键词索引库连接;所述广告匹配模块检索用户标识关键词索引历史库及待合并用户标识关键词索引库,得到用户标识对应的关键词列表。
14、根据权利要求10或11所述的广告信息检索***,其中所述检索设备还包括:第二关键词广告索引库,与广告匹配模块连接,广告匹配模块在该第二关键词广告索引库中检索匹配的广告索引信息。
15、一种广告信息检索方法,其中包括:
记录日志信息,根据所述日志信息生成用户标识关键词索引数据的步骤;
根据检索请求中的用户标识,检索用户标识关键词索引数据,得到用户标识对应的关键词列表的步骤;
根据用户标识对应的关键词列表检索关键词广告索引库,得到匹配的广告索引信息的步骤;
在所述生成用户标识关键词索引数据时,对日志信息进行预处理,实时分析日志信息,抽取查询串,生成预处理数据,该预处理数据包括用户标识信息及查询串。
16、根据权利要求15所述的广告信息检索方法,其中还包括:接收到检索请求的检索设备根据用户标识及检索设备分组,将检索请求发送至相应的检索设备。
17、根据权利要求15所述的广告信息检索方法,其中所述的根据用户标识对应的关键词列表检索关键词广告索引库,得到匹配的广告索引信息的步骤具体为:
步骤111、针对与用户标识对应的关键词列表,在关键词广告索引库中查找并读取各关键词对应的广告索引列表;
步骤112、将广告索引列表合并,得到与用户标识对应的总广告索引列表;
步骤113、生成广告检索结果页面。
18、根据权利要求15所述的广告信息检索方法,其中所述的记录日志信息的步骤具体为:根据检索请求中携带的用户标识选择相应的日志记录模块记录日志信息。
19、根据权利要求15所述的广告信息检索方法,其中所述的生成用户标识关键词索引数据的步骤具体为:根据日志信息,生成用户标识关键词索引增量数据,并存储于用户标识关键词索引库中;定时将用户标识关键词索引增量数据与用户标识关键词索引历史数据进行合并,并存储于用户标识关键词索引历史库中。
20、根据权利要求19所述的广告信息检索方法,其中所述的生成用户标识关键词索引增量数据的步骤具体为:实时对查询串进行切词,抽取关键词,生成用户标识关键词索引增量数据。
21、根据权利要求19所述的广告信息检索方法,其中所述的生成用户标识关键词索引增量数据的步骤具体为:实时对查询串进行切词,抽取关键词,记录用户标识与关键词的映射关系,并定时转储到硬盘中,生成用户标识关键词索引分时段增量数据;对用户标识关键词索引分时段增量数据进行合并,生成用户标识关键词索引增量数据。
22、根据权利要求15-21任一所述的广告信息检索方法,其中所述的检索用户标识关键词索引数据的步骤具体为:在用户标识关键词索引历史数据中检索用户标识对应的关键词列表。
23、根据权利要求15-21任一所述的广告信息检索方法,其中所述的检索用户标识关键词索引数据的步骤具体为:在用户标识关键词索引历史数据及用户标识关键词索引增量数据中分别检索用户标识对应的关键词列表,并将检索出的关键词列表合并。
24、根据权利要求23所述的广告信息检索方法,其中还包括:从检索请求中提取查询串,对查询串切词得到关键词,根据预先设定的规则为关键词设置权值,将关键词合并入与用户标识对应的关键词列表中。
25、根据权利要求17所述的广告信息检索方法,其中所述步骤111具体为:按照关键词权值对关键词排序,读取各关键词对应的广告索引列表。
26、根据权利要求17所述的广告信息检索方法,其中所述步骤112还包括:根据关键词的权值,计算广告索引的权值。
27、根据权利要求26所述的广告信息检索方法,其中当一个广告索引与多个关键词相对应时,将多个关键词权值累加,得到该广告索引的权值。
28、根据权利要求26所述的广告信息检索方法,其中所述步骤113还包括:按照权值由高至低的顺序排列总广告索引列表中的广告索引。
29、根据权利要求15所述的广告信息检索方法,其中还包括:定时对实时生成的预处理数据进行合并,生成用户标识查询串索引数据,并存储预定时间段内的用户标识查询串索引数据。
30、根据权利要求19所述的广告信息检索方法,当用户标识关键词索引数据包括关键词权值信息时,所述的将用户标识关键词索引增量数据与用户标识关键词索引历史库中的用户标识关键词索引历史数据进行合并的步骤具体为:
步骤121、将用户标识关键词索引历史库中各关键词的权值乘以衰减因子;
步骤122、提取用户标识关键词索引增量数据中待合并的第一个用户标识;
步骤123、判断用户标识关键词索引历史库中是否存在该用户标识,若存在,执行步骤124,否则,执行步骤125;
步骤124、将用户标识关键词索引增量数据中与用户标识对应的关键词列表并入用户标识关键词索引历史库中相应关键词列表,执行步骤126;
步骤125、将用户标识关键词索引增量数据中与用户标识对应的关键词列表***用户标识关键词索引历史库中;
步骤126、判断是否存在待合并的用户标识关键词索引增量数据,若存在,执行步骤122,否则执行步骤127;
步骤127、结束。
31、根据权利要求30所述的广告信息检索方法,其中所述步骤124具体为:
步骤1241、访问用户标识关键词索引增量数据中与用户标识对应的关键词列表中待合并的第一个关键词;
步骤1242、判断该关键词是否存在于用户标识关键词索引历史库相应关键词列表中,若是,执行步骤1243,否则,执行步骤1244;
步骤1243、将用户标识关键词索引增量数据中该关键词的权值累加在用户标识关键词索引历史库与用户标识对应的关键词列表的相应关键词权值上,执行步骤1245;
步骤1244、将该关键词***用户标识关键词索引历史库与用户标识对应的关键词列表,权值与用户标识关键词索引增量数据中的权值相同;
步骤1245、判断是否存在待合并的关键词,若存在,执行步骤1242;否则,执行步骤126。
32、根据权利要求30或31所述的广告信息检索方法,其中还包括:删除权值小于预先设置的阈值的关键词。
33、根据权利要求32所述的广告信息检索方法,其中还包括:当与用户标识对应的关键词列表中不存在关键词时,删除该用户标识。
34、一种广告信息检索***,其中包括:
日志分析子***,用于记录、分析用户的访问日志,根据日志信息生成关键词用户标识索引增量数据;
索引子***,与所述日志分析子***连接,用于生成广告关键词索引数据,并根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据;
检索子***,与所述日志分析子***及索引子***连接,用于根据检索请求中的用户标识检索用户标识广告索引数据,得到匹配的广告索引信息;所述日志分析子***包括日志分析设备,该日志分析设备包括:
日志信息库,用于存储日志信息;
日志记录模块,与所述日志信息库连接,用于接收检索请求,并将检索请求记录于日志信息库中;
日志预处理库,用于存储日志预处理数据,该日志预处理数据包括用户标识和查询串;
日志预处理模块,与所述日志信息库及日志预处理库连接,用于分析日志信息,抽取查询串,生成日志预处理数据并存储于日志预处理库中;
关键词用户标识索引库,用于存储关键词用户标识索引数据;
关键词用户标识索引生成模块,与所述日志预处理库及关键词用户标识索引库连接,用于根据日志预处理数据生成关键词用户标识索引增量数据并将关键词用户标识索引增量数据存储于关键词用户标识索引库中。
35、根据权利要求34所述的广告信息检索***,其中所述日志分析设备为多台,每一日志分析设备用于根据预先设定的分组,记录和分析部分用户标识的日志信息并生成部分用户标识的关键词用户标识索引数据。
36、根据权利要求34所述的广告信息检索***,其中所述日志分析设备还包括日志分发模块,该日志分发模块用于接收检索请求并根据检索请求中的用户标识将检索请求转发至相应的日志记录模块。
37、根据权利要求34所述的广告信息检索***,其中所述日志分析设备还包括:
用户标识查询串索引库,用于存储用户标识查询串索引数据;
用户标识查询串索引生成模块,与所述日志预处理库及用户标识查询串索引库连接,用于生成用户标识查询串索引数据并将用户标识查询串索引数据存储于用户标识查询串索引库中。
38、根据权利要求34-37任一所述的广告信息检索***,其中所述索引子***包括索引设备,该索引设备包括:
广告关键词索引库,用于存储广告关键词索引数据;
广告关键词索引生成模块,与所述广告关键词索引库连接,用于生成广告关键词索引数据并将广告关键词索引数据存储于广告关键词索引库中;
关键词用户标识索引历史库,用于存储关键词用户标识索引历史数据;
关键词用户标识索引历史库生成模块,与所述关键词用户标识索引库及关键词用户标识索引历史库连接,用于将关键词用户标识索引增量数据合并到关键词用户标识索引历史库中;
用户标识广告索引库,用于存储用户标识广告索引数据;
用户标识广告索引生成模块,与所述广告关键词索引库及关键词用户标识索引库连接,用于生成用户标识广告索引数据并将用户标识广告索引数据存储于用户标识广告索引库中。
39、根据权利要求38所述的广告信息检索***,其中所述索引设备为多台,每一索引设备用于根据预先设定的分组生成部分用户标识的关键词用户标识索引数据。
40、根据权利要求38所述的广告信息检索***,其中所述日志分析设备还包括数据传送模块,所述索引设备还包括数据接收模块,数据传送模块将关键词用户标识索引增量数据经数据接收模块发送至关键词用户标识索引历史库生成模块。
41、根据权利要求38所述的广告信息检索***,其中所述索引设备还包括数据索引传送模块,与所述用户标识广告索引库连接,用于向检索子***发送索引数据。
42、根据权利要求38所述的广告信息检索***,其中所述检索子***包括检索设备,该检索设备包括:
WEB服务模块,用于检索子***与互联网的通信;
用户接口模块,与所述WEB服务模块连接,用于接收检索请求,生成广告检索结果页面;
广告匹配模块,与用户标识广告索引库连接,用于根据检索请求中的用户标识,检索用户标识广告索引库,得到匹配的广告索引数据并发送至用户接口模块。
43、根据权利要求42所述的广告信息检索***,其中所述检索设备为多台,每一检索设备根据预先设定的分组响应部分用户标识的检索请求。
44、根据权利要求42或43所述的广告信息检索***,其中所述检索设备还包括第二用户标识广告索引库,与所述广告匹配模块连接,该第二用户标识广告索引库的数据与索引设备的用户标识广告索引库的数据一致。
45、一种广告信息检索方法,其中包括:
记录日志信息,根据日志信息,生成关键词用户标识索引数据;根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据的步骤;
根据检索请求中的用户标识,检索用户标识广告索引数据,得到用户标识对应的广告索引列表的步骤;
在生成关键词用户标识索引数据中包括:对日志信息进行预处理,实时分析日志信息,抽取查询串,生成预处理数据,该预处理数据包括用户标识信息及查询串。
46、根据权利要求45所述的广告信息检索方法,其中所述的记录日志信息的步骤具体为:根据检索请求中携带的用户标识选择相应的日志记录模块记录日志信息。
47、根据权利要求45所述的广告信息检索方法,其中的生成关键词用户标识索引数据的步骤具体为:生成关键词用户标识索引增量数据,并存储于关键词用户标识索引库中;定时将关键词用户标识索引增量数据与关键词用户标识索引历史数据进行合并,并存储于关键词用户标识索引历史库中。
48、根据权利要求47所述的广告信息检索方法,其中所述的生成关键词用户标识索引增量数据的步骤具体为:对查询串进行切词,抽取关键词,生成关键词用户标识索引增量数据。
49、根据权利要求47所述的广告信息检索方法,其中所述的生成关键词用户标识索引增量数据的步骤具体为:实时对查询串进行切词,抽取关键词,在内存中生成关键词用户标识索引增量数据,并定时或在内存中的数据记录达到预定数量时,将内存中的关键词用户标识索引增量数据与关键词用户标识索引库中的关键词用户标识索引增量数据进行合并。
50、根据权利要求49所述的广告信息检索方法,其中所述的在内存中生成关键词用户标识索引增量数据的步骤具体为:
步骤211、读入一行日志记录;
步骤212、提取日志记录中的用户标识,在内存中的用户标识词典中查找是否存在该用户标识,若存在,执行步骤214,否则,执行步骤213;
步骤213、在内存中的用户标识词典中***该用户标识,并存储日志记录中用户标识的属性;
步骤214、对日志记录的查询串进行切词,在内存中的关键词词典中查找是否存在该关键词,若存在,执行步骤216,否则,执行步骤215;
步骤215、在内存中的关键词词典中***切词结果;
步骤216、顺序对切词结果中的各关键词进行处理,若关键词的用户标识列表中存在当前用户标识,则更新用户标识信息,若不存在,则***用户标识信息。
51、根据权利要求50所述的广告信息检索方法,其中在步骤215与步骤216之间还包括:根据预先设定的规则设置各关键词的权值。
52、根据权利要求51所述的广告信息检索方法,其中所述的更新用户标识信息的步骤具体为:将用户标识列表中的用户标识活动时间更新为当前日志活动时间,并将权值合并。
53、根据权利要求51所述的广告信息检索方法,其中所述的***用户标识信息的步骤具体为:将用户标识属性信息的存储位置、当前日志活动时间及权值进行封装,按照用户标识升序***用户标识列表。
54、根据权利要求51所述的广告信息检索方法,其中所述的将内存中的关键词用户标识索引增量数据与关键词用户标识索引库中的关键词用户标识索引增量数据进行合并的步骤具体为:
步骤221、遍历读入的关键词用户标识索引库关键词词典,对该关键词词典中的每一关键词,在内存中的关键词词典中查找,若查找到,则将内存中该关键词的用户标识列表与关键词用户标识索引库中该关键词的用户标识列表合并,并在内存中的关键词词典中删除该关键词;
步骤222、遍历内存中的关键词词典,将每个关键词***关键词用户标识索引库关键词词典中,并将各关键词的用户标识列表***关键词用户标识索引库。
55、根据权利要求54所述的广告信息检索方法,其中所述的将关键词用户标识索引增量数据与关键词用户标识索引历史数据进行合并的步骤具体为:
步骤231、遍历读入的关键词用户标识索引历史库关键词词典,对该关键词词典中的每一关键词,在关键词用户标识索引库关键词词典中查找,若查找到,则将关键词用户标识索引库该关键词的用户标识列表与关键词用户标识索引历史库中该关键词的用户标识列表合并,并在关键词用户标识索引库的关键词词典中删除该关键词;
步骤232、遍历关键词用户标识索引库的关键词词典,将每个关键词***关键词用户标识索引历史库关键词词典中,并将各关键词的用户标识列表***关键词用户标识索引历史库。
56、根据权利要求55所述的广告信息检索方法,其中所述步骤231中在合并时,将关键词用户标识索引历史库中的权值乘以衰减因子。
57、根据权利要求56所述的广告信息检索方法,其中当关键词的用户列表中用户标识对应的关键词的权值小于预先设定的阈值时,删除该用户标识。
58、根据权利要求55所述的方法,其中若关键词的用户列表中用户标识过期,则删除该用户标识。
59、根据权利要求45所述的广告信息检索方法,其中所述的根据关键词用户标识索引数据及广告关键词索引数据生成用户标识广告索引数据的步骤具体为:
步骤241、遍历广告关键词索引库,对每一个广告索引,提取对应的关键词列表,并根据每一个关键词,从关键词用户标识索引历史库中提取用户标识列表;将多个用户标识列表合并,得到该广告索引对应的总用户标识列表;
步骤242、根据各广告索引对应的总用户标识列表建立用户标识广告索引数据。
60、根据权利要求59所述的广告信息检索方法,其中所述步骤242具体为:
步骤2421、访问待处理的第一个广告索引;
步骤2422、访问该广告索引对应的待处理的第一个用户标识;
步骤2423、判断该用户标识是否存在于用户标识广告索引库中,若存在,执行步骤2424,否则,执行步骤2425;
步骤2424、将广告索引***用户标识对应的广告索引列表中,执行步骤2426;
步骤2425、在用户标识广告索引库中***该用户标识,并将广告索引置于用户标识的广告索引列表的初始位置,执行步骤2426;
步骤2426、判断当前用户列表中是否存在待处理的用户标识,若存在,执行步骤2422,否则,执行步骤2427;
步骤2427、判断是否存在待处理的广告索引,若存在,执行步骤2421,否则,执行步骤2428;
步骤2428、结束。
61、根据权利要求45所述的广告信息检索方法,其中还包括:接收到检索请求的检索设备根据用户标识及检索设备分组,将检索请求发送至相应的检索设备。
CNB2006100985920A 2006-07-12 2006-07-12 广告信息检索***及广告信息检索方法 Active CN100456298C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB2006100985920A CN100456298C (zh) 2006-07-12 2006-07-12 广告信息检索***及广告信息检索方法
JP2007183684A JP5716985B2 (ja) 2006-07-12 2007-07-12 広告情報を検索するためのシステムおよび方法、広告情報を配信するためのシステムおよび方法、ならびに、情報が記録された機械可読媒体
US11/826,107 US7788216B2 (en) 2006-07-12 2007-07-12 Method and system for retrieving advertisement information
JP2014253667A JP5970738B2 (ja) 2006-07-12 2014-12-16 広告情報を検索するためのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100985920A CN100456298C (zh) 2006-07-12 2006-07-12 广告信息检索***及广告信息检索方法

Publications (2)

Publication Number Publication Date
CN1877582A CN1877582A (zh) 2006-12-13
CN100456298C true CN100456298C (zh) 2009-01-28

Family

ID=37510014

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100985920A Active CN100456298C (zh) 2006-07-12 2006-07-12 广告信息检索***及广告信息检索方法

Country Status (3)

Country Link
US (1) US7788216B2 (zh)
JP (2) JP5716985B2 (zh)
CN (1) CN100456298C (zh)

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
GB2458072A (en) 2007-02-01 2009-09-09 Billion People 7 Dynamic reconfiguration of web pages based on user behavioral portrait
CN100462980C (zh) * 2007-06-26 2009-02-18 腾讯科技(深圳)有限公司 内容相关广告识别方法和内容相关广告服务器
KR100939897B1 (ko) * 2007-08-08 2010-01-29 엔에이치엔비즈니스플랫폼 주식회사 광고 노출 방법 및 시스템
CN100535904C (zh) * 2007-08-11 2009-09-02 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
US20090055200A1 (en) * 2007-08-20 2009-02-26 Yahoo! Inc. Identifying and validating factors that have particular effects on user behavior
US8452761B2 (en) * 2007-10-24 2013-05-28 International Business Machines Corporation Apparatus for and method of implementing system log message ranking via system behavior analysis
JP2009145953A (ja) * 2007-12-11 2009-07-02 Sharp Corp データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体
US7945573B1 (en) * 2008-02-11 2011-05-17 Sprint Communications Company L.P. Dynamic transcoding to stitch streaming digital content
US8626575B1 (en) * 2008-03-20 2014-01-07 Google Inc. Targeted advertising using temporal analysis of user specific data
US8140538B2 (en) * 2008-04-17 2012-03-20 International Business Machines Corporation System and method of data caching for compliance storage systems with keyword query based access
US8190594B2 (en) * 2008-06-09 2012-05-29 Brightedge Technologies, Inc. Collecting and scoring online references
US8201089B2 (en) * 2008-07-14 2012-06-12 Google Inc. Content item selection
US9104778B2 (en) * 2008-12-02 2015-08-11 Trueffect, Inc. Cookie derivatives
US8190473B2 (en) * 2009-03-10 2012-05-29 Google Inc. Category similarities
AU2010201495B2 (en) * 2009-04-16 2012-04-12 Accenture Global Services Limited Touchpoint customization system
US10977723B2 (en) 2009-05-29 2021-04-13 Google Llc Matching content providers and interested content users
KR101169840B1 (ko) * 2009-08-05 2012-07-30 삼성전자주식회사 사용자 맞춤형 휴대 광고 서비스를 제공하는 시스템 및 방법
CN102026027A (zh) * 2009-09-15 2011-04-20 鸿富锦精密工业(深圳)有限公司 电视广告点播***及方法
US20110072038A1 (en) * 2009-09-18 2011-03-24 Daniel Burge Web site with content based on referring link information
KR101597247B1 (ko) * 2010-03-29 2016-02-25 네이버 주식회사 실시간 키워드 연동형 광고 노출 시스템 및 방법
US8352474B2 (en) * 2010-06-16 2013-01-08 Fuji Xerox Co., Ltd. System and method for retrieving information using a query based index
US8307006B2 (en) 2010-06-30 2012-11-06 The Nielsen Company (Us), Llc Methods and apparatus to obtain anonymous audience measurement data from network server data for particular demographic and usage profiles
CA3027898C (en) 2010-09-22 2023-01-17 The Nielsen Company (Us), Llc Methods and apparatus to determine impressions using distributed demographic information
JP5130340B2 (ja) * 2010-10-26 2013-01-30 ヤフー株式会社 情報選択装置、方法及びプログラム
US8290925B1 (en) * 2010-11-15 2012-10-16 Amazon Technologies, Inc. Locating product references in content pages
US8909697B2 (en) * 2010-11-29 2014-12-09 Hughes Network Systems, Llc Computer networking system and method with javascript execution for pre-fetching content from dynamically-generated URL and javascript injection to modify date or random number calculation
CA2819268C (en) 2010-12-20 2017-10-17 The Nielsen Company (Us), Llc Methods and apparatus to determine media impressions using distributed demographic information
US9483557B2 (en) * 2011-03-04 2016-11-01 Microsoft Technology Licensing Llc Keyword generation for media content
EP2686779A4 (en) 2011-03-18 2014-09-17 Nielsen Co Us Llc METHOD AND DEVICE FOR DETERMINING MEDIA IMPRESSIONS
CN102760124B (zh) * 2011-04-25 2014-11-12 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及***
US8688514B1 (en) 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US10972530B2 (en) 2016-12-30 2021-04-06 Google Llc Audio-based data structure generation
US11087424B1 (en) 2011-06-24 2021-08-10 Google Llc Image recognition-based content item selection
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CN103020836B (zh) * 2011-09-23 2016-05-04 阿里巴巴集团控股有限公司 站外投放关键词方法和***
US11093692B2 (en) 2011-11-14 2021-08-17 Google Llc Extracting audiovisual features from digital components
US10586127B1 (en) * 2011-11-14 2020-03-10 Google Llc Extracting audiovisual features from content elements on online documents
US8538333B2 (en) 2011-12-16 2013-09-17 Arbitron Inc. Media exposure linking utilizing bluetooth signal characteristics
CN102567520B (zh) * 2011-12-28 2015-04-15 用友软件股份有限公司 参照处理装置和参照处理方法
US9116994B2 (en) * 2012-01-09 2015-08-25 Brightedge Technologies, Inc. Search engine optimization for category specific search results
US9015255B2 (en) 2012-02-14 2015-04-21 The Nielsen Company (Us), Llc Methods and apparatus to identify session users with cookie information
US8768907B2 (en) * 2012-04-05 2014-07-01 Brightedge Technologies, Inc. Ranking search engine results
CN102693499A (zh) * 2012-05-25 2012-09-26 上海传漾网络科技有限公司 一种预览任意时间真实广告效果的方法
AU2013204865B2 (en) 2012-06-11 2015-07-09 The Nielsen Company (Us), Llc Methods and apparatus to share online media impressions data
CN103631803A (zh) * 2012-08-23 2014-03-12 百度国际科技(深圳)有限公司 基于输入行为的进行广告定向的方法、装置及服务器
AU2013204953B2 (en) 2012-08-30 2016-09-08 The Nielsen Company (Us), Llc Methods and apparatus to collect distributed user information for media impressions
CN103971262B (zh) * 2013-02-05 2020-08-07 腾讯科技(深圳)有限公司 广告定向设置方法及装置
KR101314312B1 (ko) * 2013-03-04 2013-10-02 (주)나우미디어콥 컨텐츠 관리 장치 및 이를 이용한 컨텐츠 제공 방법
CN103198128A (zh) * 2013-04-11 2013-07-10 苏州阔地网络科技有限公司 一种云教育平台的数据搜索方法及***
CN103164534A (zh) * 2013-04-11 2013-06-19 苏州阔地网络科技有限公司 一种基于云教育平台的数据搜索方法及***
CN103198129A (zh) * 2013-04-11 2013-07-10 苏州阔地网络科技有限公司 一种基于云教育平台实现数据搜索的方法及***
US9697533B2 (en) 2013-04-17 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to monitor media presentations
US9519914B2 (en) 2013-04-30 2016-12-13 The Nielsen Company (Us), Llc Methods and apparatus to determine ratings information for online media presentations
US9953085B1 (en) 2013-05-31 2018-04-24 Google Llc Feed upload for search entity based content selection
US11030239B2 (en) 2013-05-31 2021-06-08 Google Llc Audio based entity-action pair based selection
CN104252298A (zh) * 2013-06-25 2014-12-31 刘建 基于电子装置外部设备的信息管理***
US10068246B2 (en) 2013-07-12 2018-09-04 The Nielsen Company (Us), Llc Methods and apparatus to collect distributed user information for media impressions
CN103440259A (zh) * 2013-07-31 2013-12-11 亿赞普(北京)科技有限公司 一种网络广告推送方法和装置
US9313294B2 (en) 2013-08-12 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to de-duplicate impression information
US12013862B1 (en) * 2013-08-22 2024-06-18 Soundhound Ai Ip, Llc Sponsored search ranking simulation for patterns triggered by natural language queries
US10333882B2 (en) 2013-08-28 2019-06-25 The Nielsen Company (Us), Llc Methods and apparatus to estimate demographics of users employing social media
US9332081B2 (en) * 2013-08-30 2016-05-03 Google Inc. Anonymous cross-device linking using temporal identifiers
US9172720B2 (en) * 2013-08-30 2015-10-27 Bank Of America Corporation Detecting malware using revision control logs
US9332035B2 (en) 2013-10-10 2016-05-03 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US10956947B2 (en) 2013-12-23 2021-03-23 The Nielsen Company (Us), Llc Methods and apparatus to measure media using media object characteristics
CN103747114B (zh) * 2013-12-27 2015-09-09 北京集奥聚合网络技术有限公司 在nat网络环境下关联用户的方法和***
US9852163B2 (en) 2013-12-30 2017-12-26 The Nielsen Company (Us), Llc Methods and apparatus to de-duplicate impression information
US9237138B2 (en) 2013-12-31 2016-01-12 The Nielsen Company (Us), Llc Methods and apparatus to collect distributed user information for media impressions and search terms
US20150193816A1 (en) 2014-01-06 2015-07-09 The Nielsen Company (Us), Llc Methods and apparatus to correct misattributions of media impressions
US10147114B2 (en) 2014-01-06 2018-12-04 The Nielsen Company (Us), Llc Methods and apparatus to correct audience measurement data
CN103840969A (zh) * 2014-01-20 2014-06-04 浪潮(北京)电子信息产业有限公司 云计算***中告警日志的管理方法和***
CN104834647B (zh) * 2014-02-12 2019-04-23 腾讯科技(深圳)有限公司 一种获取信息摘要的方法及装置
US9953330B2 (en) 2014-03-13 2018-04-24 The Nielsen Company (Us), Llc Methods, apparatus and computer readable media to generate electronic mobile measurement census data
GB2539588A (en) 2014-03-13 2016-12-21 Nielsen Co Us Llc Methods and apparatus to compensate impression data for misattribution and/or non-coverage by a database proprietor
CN103942279B (zh) 2014-04-01 2018-07-10 百度(中国)有限公司 搜索结果的展现方法和装置
CN103942707B8 (zh) * 2014-04-08 2018-06-29 璧合科技股份有限公司 基于实时竞价的广告效果优化***
JP6351392B2 (ja) * 2014-06-12 2018-07-04 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
US10311464B2 (en) 2014-07-17 2019-06-04 The Nielsen Company (Us), Llc Methods and apparatus to determine impressions corresponding to market segments
US10460098B1 (en) 2014-08-20 2019-10-29 Google Llc Linking devices using encrypted account identifiers
US20160063539A1 (en) 2014-08-29 2016-03-03 The Nielsen Company (Us), Llc Methods and apparatus to associate transactions with media impressions
WO2016106571A1 (en) * 2014-12-30 2016-07-07 Yahoo! Inc. Systems and methods for building keyword searchable audience based on performance ranking
US20160189182A1 (en) 2014-12-31 2016-06-30 The Nielsen Company (Us), Llc Methods and apparatus to correct age misattribution in media impressions
JP2016184246A (ja) * 2015-03-25 2016-10-20 株式会社オプティム 電子書籍端末、広告配信方法及び電子書籍用プログラム
US10235411B2 (en) * 2015-06-08 2019-03-19 Conduent Business Services, Llc Online dynamic solution retrieval based on automatic keyword selection during customer dialogue
US10380633B2 (en) 2015-07-02 2019-08-13 The Nielsen Company (Us), Llc Methods and apparatus to generate corrected online audience measurement data
US10045082B2 (en) 2015-07-02 2018-08-07 The Nielsen Company (Us), Llc Methods and apparatus to correct errors in audience measurements for media accessed using over-the-top devices
CN104965924B (zh) * 2015-07-09 2018-05-08 无锡天脉聚源传媒科技有限公司 一种数据存储方法及装置
US9838754B2 (en) 2015-09-01 2017-12-05 The Nielsen Company (Us), Llc On-site measurement of over the top media
CN106649403B (zh) 2015-11-04 2020-07-28 深圳市腾讯计算机***有限公司 文件存储中的索引实现方法和***
US10205994B2 (en) 2015-12-17 2019-02-12 The Nielsen Company (Us), Llc Methods and apparatus to collect distributed user information for media impressions
KR101736406B1 (ko) * 2016-05-30 2017-05-29 주식회사 인피니플럭스 데이터 복제 방법 및 그 장치
CN106528657A (zh) * 2016-10-19 2017-03-22 广东欧珀移动通信有限公司 浏览器跳转至应用程序的控制方法及装置
CN106528781A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 链接推送装置及方法
CN107179953B (zh) * 2017-03-31 2020-04-03 北京奇艺世纪科技有限公司 一种索引文件生成方法、装置及***
CN107220364B (zh) * 2017-06-07 2021-01-26 深圳天珑无线科技有限公司 一种信息处理的方法及装置
CN109150757B (zh) * 2017-06-16 2021-06-11 腾讯科技(深圳)有限公司 一种广告资源处理方法、装置及电子设备
CN107609902A (zh) * 2017-08-28 2018-01-19 口碑(上海)信息技术有限公司 一种定向广告的展示方法及装置
CN108563706A (zh) * 2018-03-27 2018-09-21 昆山和君纵达数据科技有限公司 一种催收大数据智能服务***及其运行方法
CN112419078A (zh) * 2020-12-03 2021-02-26 中国人寿保险股份有限公司 产品推荐方法、装置和电子设备
CN112632621A (zh) * 2020-12-30 2021-04-09 ***通信集团江苏有限公司 数据存取方法、装置、设备及计算机存储介质
JP7043650B1 (ja) 2021-03-19 2022-03-29 ヤフー株式会社 推定装置、推定方法及び推定プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023715A1 (en) * 2001-07-16 2003-01-30 David Reiner System and method for logical view analysis and visualization of user behavior in a distributed computer network
CN1487438A (zh) * 2002-09-23 2004-04-07 国际商业机器公司 根据用户输入的url和/或搜索关键词提供广告的方法和***
US20040215515A1 (en) * 2003-04-25 2004-10-28 Aquantive, Inc. Method of distributing targeted Internet advertisements based on search terms
WO2004092970A1 (en) * 2003-04-14 2004-10-28 Zedo, Inc. System and method for determining the unique web users and calculating the reach, frequency and effective reach of user web access
CN1777909A (zh) * 2003-04-22 2006-05-24 Nhn株式会社 利用因特网用户的访问意向介绍提供广告的方法及其***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO313399B1 (no) * 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
JP2003150844A (ja) * 2001-11-09 2003-05-23 Matsushita Electric Ind Co Ltd 情報提供システム、情報提供方法、及び情報提供サーバ
US8352499B2 (en) * 2003-06-02 2013-01-08 Google Inc. Serving advertisements using user request information and user information
JP2004177936A (ja) * 2002-09-02 2004-06-24 Hiromitsu Takayama 広告配信方法、広告配信システム、広告配信サーバ、クライアント端末
US20050216823A1 (en) * 2003-12-30 2005-09-29 Microsoft Corporation Assigning textual ads based on article history
WO2006036781A2 (en) * 2004-09-22 2006-04-06 Perfect Market Technologies, Inc. Search engine using user intent
US20060074883A1 (en) * 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US20070233375A1 (en) * 2006-03-31 2007-10-04 Ashutosh Garg Providing advertising in aerial imagery
US20070260512A1 (en) * 2006-05-04 2007-11-08 Sattley Bruce R Methods and apparatus for measuring the effect of online advertising on online user behavior

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023715A1 (en) * 2001-07-16 2003-01-30 David Reiner System and method for logical view analysis and visualization of user behavior in a distributed computer network
CN1487438A (zh) * 2002-09-23 2004-04-07 国际商业机器公司 根据用户输入的url和/或搜索关键词提供广告的方法和***
WO2004092970A1 (en) * 2003-04-14 2004-10-28 Zedo, Inc. System and method for determining the unique web users and calculating the reach, frequency and effective reach of user web access
CN1777909A (zh) * 2003-04-22 2006-05-24 Nhn株式会社 利用因特网用户的访问意向介绍提供广告的方法及其***
US20040215515A1 (en) * 2003-04-25 2004-10-28 Aquantive, Inc. Method of distributing targeted Internet advertisements based on search terms

Also Published As

Publication number Publication date
JP5716985B2 (ja) 2015-05-13
JP2015053086A (ja) 2015-03-19
JP2008033927A (ja) 2008-02-14
US20080172422A1 (en) 2008-07-17
JP5970738B2 (ja) 2016-08-17
US7788216B2 (en) 2010-08-31
CN1877582A (zh) 2006-12-13

Similar Documents

Publication Publication Date Title
CN100456298C (zh) 广告信息检索***及广告信息检索方法
CN100442290C (zh) 访问标识索引***及访问标识索引库生成方法
US7895325B2 (en) Server architecture and methods for storing and serving event data
CN102713909B (zh) 用于移动搜索的基于社区的动态高速缓存
CN102799662B (zh) 基于域名访问历史记录推荐网址的方法、装置及***
CN100514337C (zh) 关键词的联想信息生成***和生成方法
US9094478B2 (en) Prereading method and system for web browser
CN104850546B (zh) 移动媒介信息的展示方法和***
KR100923505B1 (ko) 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법
CN101911065B (zh) 访问对象信息检索装置
CN102737021B (zh) 搜索引擎及其实现方法
CN101416212A (zh) 蜂音广告信息的瞄准
KR20070053282A (ko) 정보에 대한 말단 사용자 요청에 응답하는 방법 및 장치
CN112269816B (zh) 一种政务预约事项相关性检索方法
CN102722498A (zh) 搜索引擎及其实现方法
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN101997933A (zh) 一种网址提供方法、装置及***
KR20040017008A (ko) 검색엔진을 활용한 정보 제공 시스템 및 그 방법
CN101133415B (zh) 使用页面集而提供信息搜索服务的服务器、方法和***
CN101458701A (zh) 数据检索装置以及数据检索方法
KR100840019B1 (ko) 사용자의 스케쥴 정보를 이용하여 광고를 제공하는 방법 및시스템
KR100633534B1 (ko) 웹 스크래핑 엔진 시스템
WO2002041182A1 (fr) Systeme et procede de distribution de nouvelles interessantes
CN109388649B (zh) 一种土地智能推荐方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant