CN107958078A - 信息生成方法和装置 - Google Patents

信息生成方法和装置 Download PDF

Info

Publication number
CN107958078A
CN107958078A CN201711327540.0A CN201711327540A CN107958078A CN 107958078 A CN107958078 A CN 107958078A CN 201711327540 A CN201711327540 A CN 201711327540A CN 107958078 A CN107958078 A CN 107958078A
Authority
CN
China
Prior art keywords
historical search
word
clicked
search
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711327540.0A
Other languages
English (en)
Inventor
袁鹏程
杨仁凯
宋勋超
***
冯欣伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711327540.0A priority Critical patent/CN107958078A/zh
Publication of CN107958078A publication Critical patent/CN107958078A/zh
Priority to US16/133,483 priority patent/US11055373B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了信息生成方法和装置。该方法的一具体实施方式包括:获取历史点击日志,其中,历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;确定历史点击日志中是否存在匹配的被点击的历史搜索结果;响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;根据建立的同义关系,生成关系词表。该实施方式有助于丰富关系词表的内容,可以提高关系词表的覆盖面。

Description

信息生成方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及信息搜索技术领域,尤其涉及信息生成方法和装置。
背景技术
信息检索(Information Retrieval)往往是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。信息检索通常有广义和狭义的之分。
狭义的信息检索一般仅指信息查询。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索一般是信息按一定的方式进行加工、整理、组织部存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。
发明内容
本申请实施例提出了信息生成方法和装置。
第一方面,本申请实施例提供了一种信息生成方法,包括:获取历史点击日志,其中,历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;确定历史点击日志中是否存在匹配的被点击的历史搜索结果;响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;根据建立的同义关系,生成关系词表。
在一些实施例中,历史搜索结果包括统一资源定位符URL;以及确定历史点击日志中是否存在匹配的被点击的历史搜索结果,包括:确定历史点击日志中,被点击的历史搜索结果中是否存在相同的URL。
在一些实施例中,历史搜索结果包括标题信息;以及确定历史点击日志中是否存在匹配的被点击的历史搜索结果,包括:确定历史点击日志中,被点击的历史搜索结果中是否存在相同或相近的标题信息。
在一些实施例中,该方法还包括:对于具有同义关系的历史搜索词所对应的被点击的历史搜索结果,判断各标题信息之间是否存在相同的字符串;响应于判断结果为存在,将字符串与对应的历史搜索词建立近义关系;将建立的近义关系存储至关系词表中。
在一些实施例中,根据建立的同义关系,生成关系词表,包括:根据建立的同义关系,利用统计机器翻译方法,选取同义关系满足预设条件的历史搜索词,生成关系词表。
在一些实施例中,该方法还包括:接收用户发送的搜索请求,并获取与搜索请求对应的搜索结果;将搜索请求在关系词表中匹配;若搜索请求中存在与关系词表中的词匹配的搜索词,则对搜索结果中的目标字符串进行标记,其中,目标字符串为包含关系词表中与搜索请求中匹配的搜索词存在关系的词的字符串;生成包含搜索结果的页面,并将页面发送给用户。
第二方面,本申请实施例提供了一种信息生成装置,包括:获取单元,配置用于获取历史点击日志,其中,历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;确定单元,配置用于确定历史点击日志中是否存在匹配的被点击的历史搜索结果;第一建立单元,配置用于响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;生成单元,配置用于根据建立的同义关系,生成关系词表。
在一些实施例中,历史搜索结果包括统一资源定位符URL;以及确定单元进一步配置用于:确定历史点击日志中,被点击的历史搜索结果中是否存在相同的URL。
在一些实施例中,历史搜索结果包括标题信息;以及确定单元进一步配置用于:确定历史点击日志中,被点击的历史搜索结果中是否存在相同或相近的标题信息。
在一些实施例中,该装置还包括:判断单元,配置用于对于具有同义关系的历史搜索词所对应的被点击的历史搜索结果,判断各标题信息之间是否存在相同的字符串;第二建立单元,配置用于响应于判断结果为存在,将字符串与对应的历史搜索词建立近义关系;存储单元,配置用于将建立的近义关系存储至关系词表中。
在一些实施例中,生成单元进一步配置用于:根据建立的同义关系,利用统计机器翻译方法,选取同义关系满足预设条件的历史搜索词,生成关系词表。
在一些实施例中,该装置还包括:接收单元,配置用于接收用户发送的搜索请求,并获取与搜索请求对应的搜索结果;匹配单元,配置用于将搜索请求在关系词表中匹配;标记单元,配置用于若搜索请求中存在与关系词表中的词匹配的搜索词,则对搜索结果中的目标字符串进行标记,其中,目标字符串为包含关系词表中与搜索请求中匹配的搜索词存在关系的词的字符串;发送单元,配置用于生成包含搜索结果的页面,并将页面发送给用户。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面中任一实施例所描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如上述第一方面中任一实施例所描述的方法。
本申请实施例提供的信息生成方法和装置,通过获取历史点击日志,从而可以确定该历史点击日志中是否存在匹配的被点击的历史搜索结果。其中,历史点击日志可以包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果。在响应于确定存在的情况下,可以在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系。也就是说,根据被点击的历史搜索结果,来确定具有同义关系的历史搜索词。从而根据建立的同义关系,生成关系词表。这样有助于丰富关系词表的内容,可以提高关系词表的覆盖面。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的信息生成方法的一个实施例的流程图;
图3是根据本申请的信息生成方法的又一个实施例的流程图;
图4A和图4B是根据本申请的信息生成方法的应用场景的示意图;
图5是根据本申请的信息生成装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息生成方法或信息生成装置的示例性***架构100。
如图1所示,***架构100可以包括终端101、102、103,网络104,服务器105和数据库服务器106。网络104用以在终端101、102、103,服务器105和数据库服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端101、102、103可以通过网络104与服务器105、数据库服务器106进行交互,以接收或发送消息等。终端101、102、103上可以安装有各种客户端应用,例如网页浏览器、搜索类应用、购物类应用和即时通讯工具等。
终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
数据库服务器106可以是提供各种服务的服务器,例如数据库服务器106上可以存储有历史点击日志。其中,历史点击日志可以包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果。
服务器105也可以是提供各种服务的服务器,例如对终端101、102、103上显示的各种应用提供支持的后台服务器。后台服务器可以对从数据库服务器106获取的历史点击日志进行分析等处理,从而生成关系词表。同时,后台服务器还可以对终端101、102、103发送的搜索请求进行分析处理,并且可以将处理结果(例如包含搜索结果的页面)发送给终端101、102、103。
需要说明的是,本申请实施例所提供的信息生成方法一般由服务器105执行,相应地,信息生成装置一般设置于服务器105中。
需要指出的是,当服务器105具有数据库服务器106的功能时,***架构100可以不设置数据库服务器106。
应该理解,图1中的终端、网络、服务器和数据库服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络、服务器和数据库服务器。
继续参考图2,其示出了根据本申请的信息生成方法的一个实施例的流程200。该信息生成方法可以包括以下步骤:
步骤201,获取历史点击日志。
在本实施例中,信息生成方法运行于其上的电子设备(例如图1所示的服务器105)可以通过多种方法来获取历史点击日志。其中,历史点击日志可以包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果。
例如,电子设备可以从与其通信连接的数据库服务器(例如图1所示的数据库服务器106)或终端(例如图1所示的终端101、102、103)来获取历史点击日志。数据库服务器或终端上可以安装有搜索引擎。当用户利用搜索引擎进行搜索,并点击查阅相关搜索结果时,数据库服务器或终端可以对用户的操作行为信息进行记录,从而存储生成历史点击日志。或者,数据库服务器或终端可以将用户的操作行为信息上传至云服务器,云服务器对这些信息进行处理,以存储生成历史点击日志。
再例如,电子设备上同样可安装搜索引擎,或者电子设备可以对终端上的搜索引擎提供支持。此时,电子设备可以对用户的操作行为信息进行记录,并在本地存储生成历史点击日志。这样,电子设备可以从本地来获取历史点击日志。可以理解的是,历史点击日志的生成方式及具体存储位置在本申请中并不限制。
在这里,历史搜索词可以包括数字、字母、文字等字符中的一种或多种。历史搜索词可以用于搜索新闻、图片、视频、商品、文档等内容的词语。而历史上搜索结果可以是与历史搜索词相关的内容,如新闻、视频、图片、文档、商品等等。搜索结果中可以包含以下至少一项:URL(统一资源定位符,Uniform Resource Locator)、标题信息、内容介绍、图片等。
步骤202,确定历史点击日志中是否存在匹配的被点击的历史搜索结果。
在本实施例中,对于步骤201中获取的历史点击日志,电子设备可以通过多种方式来确定其中是否存在匹配的被点击的历史搜索结果。例如,在被点击的历史搜索结果中,若两个历史搜索结果中包含相同的字符串,则电子设备可以确定这两个历史搜索结果匹配。
在本实施例的一些可选地实现方式中,历史搜索结果可以包括URL。此时,电子设备可以确定历史点击日志中,被点击的历史搜索结果中是否存在相同的URL。例如电子设备可以先确定两个被点击过的URL的长度(字符个数)是否相同;若相同,则可以对这两个URL中位于相同位置的字符进行逐一比较;若位于相同位置的字符均相同,则可以确定这两个URL相同。
可选地,历史搜索结果还可以包括标题信息。其中,标题信息可以包括数字、字母、文字等字符中的一种或多种。此时,电子设备可以确定历史点击日志中,被点击的历史搜索结果中是否存在相同或相近的标题信息。例如,电子设备可以先对两个标题信息进行切词;然后利用语义分析等方法来计算这两个标题信息的相似度;若相似度的值大于预设相似度值(如0.8)时,则可以确定这两个标题信息相近。可以理解的是,若相似度的值趋近于1或为1时,则可以确定这两个标题信息相同。
需要说明的是,确定被点击的历史搜索结果是否匹配的方法在本申请中并不限制。可以根据实际情况来设置具体的匹配方法。
步骤203,响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系。
在本实施例中,根据步骤202中的确定结果,若电子设备确定历史点击日志中存在匹配的被点击的历史搜索结果,则可以在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系。
例如历史搜索词Q1,与之相关的被点击的历史搜索结果有URL1和URL2;历史搜索词Q2,与之相关的被点击的历史搜索结果有URL3和ERL4。此时,若电子设备确定URL2与URL3匹配,则可以将Q1与Q2建立同义关系。也就是说,如果不同的历史搜索词所对应历史搜索结果中有匹配的历史搜索结果,那么可以认为匹配的历史搜索结果对应的历史搜索词之间存在同义关系。
在本实施例中,建立同义关系的方式在本申请中并不限制,例如给具有同义关系的历史搜索词添加相同的标识,或者在两者之间建立链接等。
步骤204,根据建立的同义关系,生成关系词表。
在本实施例中,电子设备可以根据步骤203中建立的同义关系,生成关系词表。其中,关系词表用于表示词与词之间的关系。
在本实施例的一些可选地实现方式中,电子设备可以对所有具有同义关系的历史搜索词进行统计,并进行去重处理。然后,将这些具有同义关系的历史搜索词录入预先创建的表中,从而生成关系词表。
可选地,为了提高关系词表中各词间关系的准确度和紧密度,电子设备还可以根据建立的同义关系,利用统计机器翻译方法(Statistical Machine Translation,SMT),选取同义关系满足预设条件(如同义关系的统计概率大于70%)的历史搜索词,生成关系词表。这样还有利于减少关系表中词的数量,提高处理效率。其中,预设条件可以根据实际需求进行设置。
在这里,统计机器翻译是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。也就是说,利用统计机器翻译法,可以统计将搜索词Q1输入模型后,输出与Q1具有同义关系的搜索词Q2的概率。
进一步地,为了提高关系词表的准确度和覆盖面,对于具有同义关系的历史搜索词所对应的被点击的历史搜索结果,电子设备还可以判断各标题信息之间是否存在相同的字符串;若判断结果为存在,电子设备可以将该字符串与对应的历史搜索词建立近义关系;并可以将建立的近义关系存储至关系词表中。
例如对于具有同义关系的历史搜索词为Q1和Q2,若Q1对应的被点击的各历史搜索结果中的标题信息与Q2对应的被点击的各历史搜索结果中的标题信息之间,存在相同的字符串C1。则电子设备可以将C1与Q1、Q2建立近义关系,并将该近义关系存储至生成的关系词表中。需要说明的是,为了进一步提高处理效率和关系词表的准确度,这里具有同义关系的历史搜索词可以是关系词表中的词。
可以理解的是,用户在表达搜索意图时往往是比较随性的,即搜索请求中可能会有错别字、漏字以及各种各样的简写等。也就是说,用户使用的搜索词通常是不规范的,而且不一定是热门词。通过分析大量用户的历史点击日志,发现其中的共现行为,从而可以增加关系词表中词的数量,丰富词与词之间的关系,进而可以提高关系词表的覆盖面。
此外,本实施例中的信息生成方法还可以包括利用所生成的关系词表,对用户发送的搜索请求进行处理的过程。具体可以参见图3所示实施例中的相关描述,此处不再赘述。
本实施例提供的信息生成方法,通过获取历史点击日志,从而可以确定该历史点击日志中是否存在匹配的被点击的历史搜索结果。其中,历史点击日志可以包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果。在响应于确定存在的情况下,可以在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系。也就是说,根据被点击的历史搜索结果,来确定具有同义关系的历史搜索词。从而根据建立的同义关系,生成关系词表。这样有助于丰富关系词表的内容,可以提高关系词表的覆盖面。
进一步参见图3,其示出了根据本申请的信息生成方法的又一个实施例的流程300。该信息生成方法除了可以包括图2实施例中的步骤外,还可以包括以下步骤:
步骤301,接收用户发送的搜索请求,并获取与搜索请求对应的搜索结果。
在本实施例中,信息生成方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或无线连接方式,来接收用户发送的搜索请求。然后,电子设备可以利用常用的处理方法(如对搜索请求进行切词和语义分析等),以从数据库服务器(例如图1所示的数据库服务器106)或本地获取与该搜索请求相关的搜索结果。
在这里,搜索请求可以是用于指示搜索图片、视频、文档、商品等内容的请求。搜索请求中可以包括数字、字母、符号、文字等字符中的一种或多种。搜索结果中同样可以包括数字、字母、符号、文字等字符中的一种或多种。且搜索结果的内容通常可以包括以下至少一项:标题信息、简要描述和URL。
步骤302,将搜索请求在关系词表中匹配。
在本实施例中,电子设备可以将关系词表中的每个词在搜索请求中匹配。例如,电子设备可以对搜索请求切词,生成对应的搜索词。然后将关系词表中的词与搜索词进行逐一比较。若存在与关系词表中的词相同的搜索词,则可以确定匹配成功。
步骤303,若搜索请求中存在与关系词表中的词匹配的搜索词,则对搜索结果中的目标字符串进行标记。
在本实施例中,根据步骤302中的匹配结果,若搜索请求中存在与关系词表中的词匹配的搜索词,则电子设备可以对与该搜索请求对应的搜索结果中的目标字符串进行标记。其中,目标字符串为包含关系词表中与搜索请求中匹配的搜索词存在关系的词的字符串。
例如搜索请求Q1中存在与关系词表中的词A1匹配的搜索词A1,同时关系词表中与词A1存在关系的词有A2和A3。此时,电子设备可以对与搜索请求Q1对应的搜索结果中的目标字符串(即包含词A1、A2和A3中的一个或多个的字符串)进行标记。
在本实施例中,标记方式并不限制,例如采用有颜色的框(如红色方框)、添加背景颜色、字体加粗或字号变大等任意方式中的一种或多种。
步骤304,生成包含搜索结果的页面,并将页面发送给用户。
在本实施例中,在步骤303中对搜索结果中的目标字符串进行标记之后,电子设备可以生成包含所有搜索结果的页面,并可以将该页面发送给用户。其中,该页面中可以显示标记信息。这样可以使用户更加关注标记信息处的搜索结果,从而激发用户的点击欲望。
在本实施例的一些可选地实现方式中,电子设备还可以对搜索结果进行排序,且生成的页面中各搜索结果按照排序的顺序显示。例如,电子设备可以根据历史点击日志,统计各搜索结果的点击量,以作为排序的参考参数。再例如,电子设备还可以根据各搜索结果的标记情况进行排序,如将有标记的搜索结果排列在前面。进一步地,电子设备还可以统计各搜索结果的目标字符串中包含关系词表中的词的数量,以作为排序的参考参数。
本实施例提供的信息生成方法,利用生成的关系词表,可以对与搜索请求相关的搜索结果进行标记处理,进而发送给用户。这样可以丰富被标记的内容和标记的覆盖范围。
请参见图4A和图4B,图4A和图4B是根据本实施例的信息生成方法的应用场景的示意图。
在图4A的应用场景中,用户可以在终端上显示的浏览器的输入框41内输入“知识产权”的搜索请求,并点击搜索按键,以发送该搜索请求。服务器在接收该搜索请求后,可以获取与之相关的搜索结果。之后,服务器可以根据预先生成的关系词表,对搜索结果中的目标字符串进行标记,并生成包含搜索结果的页面。最后,服务器可以将该页面发送给终端。其中,关系词表是服务器通过对历史点击日志进行分析,从而根据在匹配的被点击的历史搜索结果对应的历史搜索词之间建立的同义关系而生成的。
在图4B的应用场景中,终端可以向用户显示服务器发送的搜索结果以及标记信息。其中,搜索结果的标题信息为“知识产权_百科”,并且标题信息中的“知识产权”四个字被用红色粗线方框42标记。
可以理解的是,在搜索产品中,通过标记来表达用户搜索词在结果中的匹配情况,特别是在商业搜索产品中,标记区域对广告效果影响很大。合理的标记有利于客户对其核心业务进行推广,以及用户对信息的把控感知。因此,如果能根据用户的搜索请求有效地扩展标记区域,用户的感知会更丰富,点击欲望也会更强,从而可以提升广告收入。而通过本申请实施例生成的关系词表,不仅可以增加关系词的数量,而且有助于扩大标记的覆盖区域,同时可以提升中长尾搜索词的搜索效果,从而提高用户体验。在这里,中长尾搜索词即长尾关键词(Long Tail Keyword),一般是指网站上的非目标关键词但与目标关键词相关的也可以带来搜索流量的组合型关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。
继续参见图5,作为对上述各图所示方法的实现,本申请提供了一种信息生成装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息生成装置500可以包括:获取单元501,配置用于获取历史点击日志,其中,历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;确定单元502,配置用于确定历史点击日志中是否存在匹配的被点击的历史搜索结果;第一建立单元503,配置用于响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;生成单元504,配置用于根据建立的同义关系,生成关系词表。
在本实施例中,获取单元501、确定单元502、第一建立单元503和生成单元504的具体实现方式及产生的有益效果,可以分别参见图2所示实施例中的步骤201、步骤202、步骤203和步骤204的相关描述,此处不再赘述。
在本实施例的一些可选的实现方式中,历史搜索结果可以包括统一资源定位符URL;以及确定单元502可以进一步配置用于:确定历史点击日志中,被点击的历史搜索结果中是否存在相同的URL。
可选地,历史搜索结果还可以包括标题信息;以及确定单元502可以进一步配置用于:确定历史点击日志中,被点击的历史搜索结果中是否存在相同或相近的标题信息。
进一步地,该装置500还可以包括:判断单元(图中未示出),配置用于对于具有同义关系的历史搜索词所对应的被点击的历史搜索结果,判断各标题信息之间是否存在相同的字符串;第二建立单元(图中未示出),配置用于响应于判断结果为存在,将字符串与对应的历史搜索词建立近义关系;存储单元(图中未示出),配置用于将建立的近义关系存储至关系词表中。
在一些实施例中,生成单元504可以进一步配置用于:根据建立的同义关系,利用统计机器翻译方法,选取同义关系满足预设条件的历史搜索词,生成关系词表。
可选地,该装置500还可以包括:接收单元(图中未示出),配置用于接收用户发送的搜索请求,并获取与搜索请求对应的搜索结果;匹配单元(图中未示出),配置用于将搜索请求在关系词表中匹配;标记单元(图中未示出),配置用于若搜索请求中存在与关系词表中的词匹配的搜索词,则对搜索结果中的目标字符串进行标记,其中,目标字符串为包含关系词表中与搜索请求中匹配的搜索词存在关系的词的字符串;发送单元(图中未示出),配置用于生成包含搜索结果的页面,并将页面发送给用户。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括触摸屏、键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、确定单元、第一建立单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取历史点击日志的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取历史点击日志,其中,历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;确定历史点击日志中是否存在匹配的被点击的历史搜索结果;响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;根据建立的同义关系,生成关系词表。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种信息生成方法,包括:
获取历史点击日志,其中,所述历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;
确定所述历史点击日志中是否存在匹配的被点击的历史搜索结果;
响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;
根据建立的同义关系,生成关系词表。
2.根据权利要求1所述的方法,其中,所述历史搜索结果包括统一资源定位符URL;以及
所述确定所述历史点击日志中是否存在匹配的被点击的历史搜索结果,包括:
确定所述历史点击日志中,被点击的历史搜索结果中是否存在相同的URL。
3.根据权利要求1所述的方法,其中,所述历史搜索结果包括标题信息;以及
所述确定所述历史点击日志中是否存在匹配的被点击的历史搜索结果,包括:
确定所述历史点击日志中,被点击的历史搜索结果中是否存在相同或相近的标题信息。
4.根据权利要求3所述的方法,其中,所述方法还包括:
对于具有同义关系的历史搜索词所对应的被点击的历史搜索结果,判断各标题信息之间是否存在相同的字符串;
响应于判断结果为存在,将所述字符串与对应的历史搜索词建立近义关系;
将建立的近义关系存储至所述关系词表中。
5.根据权利要求1所述的方法,其中,所述根据建立的同义关系,生成关系词表,包括:
根据建立的同义关系,利用统计机器翻译方法,选取同义关系满足预设条件的历史搜索词,生成关系词表。
6.根据权利要求1-5之一所述的方法,其中,所述方法还包括:
接收用户发送的搜索请求,并获取与所述搜索请求对应的搜索结果;
将所述搜索请求在所述关系词表中匹配;
若所述搜索请求中存在与所述关系词表中的词匹配的搜索词,则对所述搜索结果中的目标字符串进行标记,其中,所述目标字符串为包含所述关系词表中与所述搜索请求中匹配的搜索词存在关系的词的字符串;
生成包含所述搜索结果的页面,并将所述页面发送给所述用户。
7.一种信息生成装置,包括:
获取单元,配置用于获取历史点击日志,其中,所述历史点击日志包括历史搜索词和与历史搜索词对应的被点击的历史搜索结果;
确定单元,配置用于确定所述历史点击日志中是否存在匹配的被点击的历史搜索结果;
第一建立单元,配置用于响应于确定存在,在匹配的被点击的历史搜索结果对应的历史搜索词之间建立同义关系;
生成单元,配置用于根据建立的同义关系,生成关系词表。
8.根据权利要求7所述的装置,其中,所述生成单元进一步配置用于:
根据建立的同义关系,利用统计机器翻译方法,选取同义关系满足预设条件的历史搜索词,生成关系词表。
9.根据权利要求7或8所述的装置,其中,所述装置还包括:
接收单元,配置用于接收用户发送的搜索请求,并获取与所述搜索请求对应的搜索结果;
匹配单元,配置用于将所述搜索请求在所述关系词表中匹配;
标记单元,配置用于若所述搜索请求中存在与所述关系词表中的词匹配的搜索词,则对所述搜索结果中的目标字符串进行标记,其中,所述目标字符串为包含所述关系词表中与所述搜索请求中匹配的搜索词存在关系的词的字符串;
发送单元,配置用于生成包含所述搜索结果的页面,并将所述页面发送给所述用户。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201711327540.0A 2017-12-13 2017-12-13 信息生成方法和装置 Pending CN107958078A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711327540.0A CN107958078A (zh) 2017-12-13 2017-12-13 信息生成方法和装置
US16/133,483 US11055373B2 (en) 2017-12-13 2018-09-17 Method and apparatus for generating information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711327540.0A CN107958078A (zh) 2017-12-13 2017-12-13 信息生成方法和装置

Publications (1)

Publication Number Publication Date
CN107958078A true CN107958078A (zh) 2018-04-24

Family

ID=61958699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711327540.0A Pending CN107958078A (zh) 2017-12-13 2017-12-13 信息生成方法和装置

Country Status (2)

Country Link
US (1) US11055373B2 (zh)
CN (1) CN107958078A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN109740161A (zh) * 2019-01-08 2019-05-10 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
CN110737757A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN112765966A (zh) * 2021-04-06 2021-05-07 腾讯科技(深圳)有限公司 联想词去重方法及装置、计算机可读存储介质和电子设备
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666448B (zh) * 2020-04-21 2024-01-26 北京奇艺世纪科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN112364235A (zh) * 2020-11-19 2021-02-12 北京字节跳动网络技术有限公司 搜索处理方法、模型训练方法、装置、介质及设备
CN113032683B (zh) * 2021-04-28 2021-12-24 玉米社(深圳)网络科技有限公司 一种网络推广中快速分词的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292700A1 (en) * 2008-05-23 2009-11-26 Xerox Corporation System and method for semi-automatic creation and maintenance of query expansion rules
CN102722498A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN103942339A (zh) * 2014-05-08 2014-07-23 深圳市宜搜科技发展有限公司 同义词挖掘方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942279B (zh) * 2014-04-01 2018-07-10 百度(中国)有限公司 搜索结果的展现方法和装置
US10496686B2 (en) * 2016-06-13 2019-12-03 Baidu Usa Llc Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292700A1 (en) * 2008-05-23 2009-11-26 Xerox Corporation System and method for semi-automatic creation and maintenance of query expansion rules
CN102722498A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN103942339A (zh) * 2014-05-08 2014-07-23 深圳市宜搜科技发展有限公司 同义词挖掘方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李亚楠: "搜索引擎查询推荐技术综述", 《中文信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN108804532B (zh) * 2018-05-03 2020-06-26 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN110737757A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110737757B (zh) * 2018-07-03 2022-07-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN109740161A (zh) * 2019-01-08 2019-05-10 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
CN112765966A (zh) * 2021-04-06 2021-05-07 腾讯科技(深圳)有限公司 联想词去重方法及装置、计算机可读存储介质和电子设备
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备
CN116340469B (zh) * 2023-05-29 2023-08-11 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
US11055373B2 (en) 2021-07-06
US20190179965A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
CN107958078A (zh) 信息生成方法和装置
CN107679211B (zh) 用于推送信息的方法和装置
WO2018192491A1 (zh) 信息推送方法和装置
CN108804450B (zh) 信息推送的方法和装置
CN107256267A (zh) 查询方法和装置
CN107590174B (zh) 页面访问方法及装置
US10402479B2 (en) Method, server, browser, and system for recommending text information
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
CN106874467A (zh) 用于提供搜索结果的方法和装置
CN107577763A (zh) 检索方法和装置
CN109635094B (zh) 用于生成答案的方法和装置
CN106960030A (zh) 基于人工智能的推送信息方法及装置
WO2014194689A1 (en) Method, server, browser, and system for recommending text information
CN108572990A (zh) 信息推送方法和装置
CN108268450B (zh) 用于生成信息的方法和装置
CN106919711A (zh) 基于人工智能的标注信息的方法和装置
CN107943895A (zh) 信息推送方法和装置
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN104615639B (zh) 一种用于提供图片的呈现信息的方法和设备
CN111488186A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN108804448A (zh) 生成待推送信息的方法和装置
CN107729573A (zh) 信息推送方法和装置
CN110245357B (zh) 主实体识别方法和装置
CN106899755B (zh) 信息分享方法、信息分享装置及终端
CN105740453B (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180424