CN113239258A - 提供查询建议的方法、装置、电子设备和存储介质 - Google Patents

提供查询建议的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113239258A
CN113239258A CN202110547368.XA CN202110547368A CN113239258A CN 113239258 A CN113239258 A CN 113239258A CN 202110547368 A CN202110547368 A CN 202110547368A CN 113239258 A CN113239258 A CN 113239258A
Authority
CN
China
Prior art keywords
string
character
strings
term
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110547368.XA
Other languages
English (en)
Other versions
CN113239258B (zh
Inventor
周丽芳
张谦
陈国梁
王岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110547368.XA priority Critical patent/CN113239258B/zh
Publication of CN113239258A publication Critical patent/CN113239258A/zh
Application granted granted Critical
Publication of CN113239258B publication Critical patent/CN113239258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种提供查询建议的方法、装置、电子设备和存储介质,涉及数据处理,尤其涉及搜索引擎和内容推荐领域。一种提供查询建议的方法包括:获取用户输入的第一字符串;使用第一字符串作为索引查询预配置的数据库,其中,数据库是倒排索引数据库,在数据库中,以第一字符串作为索引存储第二字符串,第一字符串表示第二字符串或第二字符串的一部分在被输入时的中间字符序列;并且输出第二字符串作为查询建议。

Description

提供查询建议的方法、装置、电子设备和存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及搜索引擎和内容推荐,具体涉及一种提供查询建议的方法、装置、电子设备和存储介质。
背景技术
在搜索引擎领域,在用户输入查询词的过程中,期望能够为用户提供可能的提示语句,或者对用户当前输入的部分搜索进行补全。这样的提示词或者补全语句被称为查询建议(Suggestion,或简称Sug)或“提示词”。期望一种能够更加实时地提供查询建议的方法。
发明内容
本公开提供了一种提供查询建议的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种提供查询建议的方法,包括:获取用户输入的第一字符串;使用所述第一字符串作为索引查询预配置的数据库,其中,所述数据库是倒排索引数据库,在所述数据库中,以所述第一字符串作为索引存储第二字符串,所述第一字符串表示所述第二字符串或第二字符串的一部分在被输入时的中间字符序列;并且输出第二字符串作为查询建议。
根据本公开的另一方面,提供了一种提供查询建议的装置,包括:字符串输入单元,被配置成获取用户输入的第一字符串;字符串查询单元,被配置成使用所述第一字符串作为索引查询预配置的数据库,其中,所述数据库是倒排索引数据库,在所述数据库中,以所述第一字符串作为索引存储第二字符串,所述第一字符串表示所述第二字符串或第二字符串的一部分在被输入时的中间字符序列;以及字符串输出单元,被配置成输出第二字符串作为查询建议。
根据本公开的又一方面,提供了一种数据库构建方法,包括:处理词项字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串是所述词项字符串或所述词项字符串的一部分在被输入时的中间字符序列;以及针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储所述词项字符串。
根据本公开的又一方面,提供了一种数据库构建装置,包括:字符串处理单元,被配置成处理词项字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串是所述词项字符串或所述词项字符串的一部分在被输入时的中间字符序列;以及字符串存储单元,被配置成针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储所述词项字符串。
根据本公开的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开的实施例的用于提供查询建议的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开的实施例的用于提供查询建议的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据本公开的实施例的用于提供查询建议的方法。
根据本公开的一个或多个实施例,可以实时地提供查询建议。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性***的示意图;
图2是示出了根据本公开的实施例的用于提供查询建议的方法的流程图;
图3A是示出了根据本公开的实施例的用于提供查询建议的方法的示例应用场景图;
图3B和图3C是示出了根据本公开的实施例的数据库中存储的数据的示意图;
图4A-图4F是示出了根据本公开的实施例的用于提供查询建议的方法和数据库预配置方法的流程图;
图5A是示出了根据本公开的实施例的用于提供查询建议的装置的结构框图;
图5B是示出了根据本公开的实施例的用于构建数据库的装置的结构框图;
图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性***100的示意图。参考图1,该***100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
在本公开的实施例中,服务器120可以运行使得能够执行用于提供查询建议的方法的一个或多个服务或软件应用。
在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。
在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的***配置是可能的,其可以与***100不同。因此,图1是用于实施本文所描述的各种方法的***的一个示例,并且不旨在进行限制。
用户可以使用客户端设备101、102、103、104、105和/或106来例如进行搜索、键入搜索词、接收查询建议、查看查询结果等。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。
客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏***、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作***,例如Microsoft Windows、AppleiOS、类UNIX操作***、Linux或类Linux操作***(例如Google Chrome OS);或包括各种移动操作***,例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏***可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作***的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作***以及任何商业上可用的服务器操作***的一个或多个操作***。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。
在一些实施方式中,服务器120可以为分布式***的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
***100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如,由服务器120使用的数据存储库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中,由服务器120使用的数据存储库可以是数据库,例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件***支持的常规存储库。
图1的***100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
下面参照图2来描述根据本公开的实施例的提供查询建议的方法200。
在步骤210处,获取用户输入的第一字符串。
在步骤220处,使用第一字符串作为索引查询预配置的数据库。数据库可以是倒排索引数据库。在该数据库中,以第一字符串作为索引存储有第二字符串,第一字符串表示第二字符串或所述第二字符串的一部分在被输入时的中间字符序列。例如,针对第二字符串(例如,潜在的搜索词)“理学”,第一字符串可以是输入过程中的中间字符序列“lix”、“理xue”、“lx”等,或者是第二字符串的一部分(“理”)的输入过程中的中间字符序列“li”“理”等。
倒排索引是指这样一种索引表,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
在步骤230处,输出第二字符串作为查询建议。
参照图3A描述根据本公开的示例形式示例的方法的示例应用场景。也就是说,在实施该方法的过程中,在输入区域310获取用户输入的第一字符串“lix”,在库中读取第二字符串“李雪”,并且在查询建议区域320中,将其作为查询建议返回给用户。输出第二字符串作为查询建议可以包括使得终端设备输入或者向用户展现查询建议。由此,可以准确实时地提供查询建议,尤其是在用户输入未完成或者输入部分片段的时候,即提供查询建议。
在现有技术中,一般是在用户输入字符串(例如,拼音字母或部分汉字)时,在线解析用户输入的字符串,对其进行分词、拼音匹配、语义解析等处理,然后从库中搜索查询建议。这样的过程实时性比较差,需要在线的计算过程。
相反,根据本公开的方案,能够预先构建片段字符串-完整字符串的数据库,并且以片段字符串作为索引来储存。在这里,通过利用“倒排索引”的思路,也即使用属性值(片段字符串或者第一字符串)作为索引,关联存储对应的完整字符串。例如,继续使用上文的示例,可以使用“lix”作为索引,存储理学、理想等。在实时搜索过程中,接收用户输入的第一字符串lix。由于数据库中已经在“lix”的索引下存储“理学”,可以直接从数据库中读取“理学”作为查询建议,而不需要在线对用户输入的“lix”进行分析、匹配等计算,只需要读取即可。例如,参照图3B,其中的数据321是倒排索引中存储的数据的一个示例,其中以“lix”为索引存储“理学”(以及可选地,“李雪”、“理学院”等)。
本公开提供的方法尤其适用于并且容易扩展到具体专业领域以文字为载体的检索服务,例如商品名检索,论文检索等信息检索领域。可以理解的是,本公开的方法并不限于这样的领域。
下面参照图4A-图4F,描述根据本公开的实施例的方法200的一些变型示例以及数据库的预配置过程的一些示例。
图4A示出了根据一些实施例的数据库的预配置过程410。
在步骤411处,处理第二字符串以获得一个或多个片段字符串,一个或多个片段字符串中的每个片段字符串表示第二字符串或第二字符串的一部分在被输入时的中间字符序列。一个或多个片段字符串包括第一字符串。例如,在预配置过程中,针对第二字符串“理学”,可以获取片段字符串,例如包括“lix,lixue,lx,理xue,理x”等等。在这里,第二字符串可以被称为完整字符串或者词项字符串,因为其往往是完整的、有含义的提示词。
在步骤412处,针对一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储第二字符串。例如,可以将“理学”分别存储在lix、lixue、lx的索引下,使得当用户输入lix、lixue、lx中的一个作为第一字符串时等,可以对应到“理学”这个查询建议。继续参照图3B,其中的数据322示出了“理学”还可以被存储在“lixue”这个索引下。
图4A给出了对如何预先配置倒排索引数据库进行的进一步限定。具体地,静态限定了该数据库是通过预先或离线的步骤进行配置的。例如,这样的步骤可以发生在词库更新时,而在实时提供查询建议的时候,不需要在线计算的步骤。在一些实施例中,数据库的预配置过程可以发生在第二字符串入库时。由此,可与建库数据同频入库更新,秒级别生效服务于在线提示词服务,保证用户获取到最新的数据物料信息。在用户查询词与实时物料数据强相关的场景下,尤其是针对需要高频物料数据更新的场景,能够以高实时性来实现查询建议服务。
参照图4B进一步描述根据一些实施例的图4A中的步骤411。根据一些实施例,第二字符串可以是汉字字符串。在这样的实施例中,步骤411也即处理第二字符串以获得一个或多个片段字符串的步骤可以由步骤421-423来实现。
在步骤421处,获取第二字符串的一个或多个汉字子字符串,每个汉字子字符串包括第二字符串中的连续排列的一个或多个汉字字符。例如,针对第二字符串“理学院”,汉字子字符串可以包括:理学院、理学、学院、理、学、院等。
在步骤422处,针对一个或多个汉字子字符串中的每个汉字子字符串,通过将该汉字子字符串中的至少一个汉字替换成对应的拼音表示,生成一个或多个混合子字符串。例如,针对汉字子字符串“学院”,混合子字符串可以包括:学y、xuey、xyuan……等。
在步骤423处,使用所生成的汉字子字符串和混合子字符串中的一个或多个作为针对第二字符串的一个或多个片段字符串。所生成的片段字符串可以包括纯汉字的子串,也可以包括汉字与字母混合(或者纯字母)的子串。例如,对于“理学院”,可以包括理学院、理学、学院、理……理学y、理xuey、lxyuan……等。也就是说,方法200中的第一字符串可以是理学院、理学、学院、理……理学y、理xuey、lxyuan等中的一个。可以理解的是,在对数据库进行充分预配置的情况下,几乎任意字符串都可以作为第一字符串来实现本公开的查询建议提供方法。也就是说,对于任何可能的用户输入,例如不超过一定长度的汉字与拼音组合等,数据库里可能都已经预配置有以该用户输入为索引的对应完整字符串。
参照图4B描述的步骤,能够针对第二字符串也即完整字符串,简单高效且全面地生成片段字符串,例如包括纯汉字的字符串和混合拼音的字符串。
参照图4C,其中进一步描述了根据一些实施例的图4B中的步骤421。根据一些实施例,步骤421也即获取第二字符串的一个或多个汉字子字符串的步骤可以进一步由步骤431-432来实现。
在步骤431处,生成第二字符串的一个或多个右侧子串,每个右侧子串是第二字符串中的连续排列的子字符串,并且右侧子串的最后一个字符与第二字符串的最后一个字符相同。例如,针对第二字符串“理学院”,生成的右侧子串可以是“理学院”、“学院”、“院”,每个右侧子串的最后一个字与第二字符串的最后一个字相同。可以看出,虽然被称为“子串”,但这并不意味着子串所包含的字符数量少于字符串。例如,对于一字符串,针对其生成的子字符串可以是该字符串本身。
在步骤432处,针对每个右侧子串,生成该右侧子串的左侧子串作为针对第二字符串的子字符串,每个左侧子串是右侧子串中的连续排列的子字符串,并且左侧子串的第一个字符与该右侧子串的第一个字符相同。针对右侧子串“学院”,生成的左侧子串可以是“学”、“学院”,每个左侧子串的第一个字与右侧子串的第一个字相同。
通过如图4C所示的步骤,分别从左侧和右侧拆分生成子字符串,能够最大化用户可能的输入片段。
参照图4D进一步描述根据一些实施例的图4B中的步骤422。根据一些实施例,针对一个或多个汉字子字符串中的每个汉字子字符串,步骤422也即生成一个或多个混合子字符串的步骤可以由步骤441-444来实现。
在步骤441处,将该汉字子字符串的前k个字符作为第一拼接部分,其中k是非负整数并且k≤n,n是该汉字子字符串的字符数量。在这里,k表示需要保留的汉字字符个数。k的大小可以是预设的,也可以根据不同的情况进行修改。k的大小能够约束生成的子字符串的集合大小,这是因为k越小,意味着一定要保留的汉字越少,因而形成的子集更多,联想能力更强,并且需要的存储空间也相对更大;反之亦然。此外,也可以根据对查询建议的匹配准确程度来选择k,这是因为k越小,则针对更短的用户输入片段也能够联想到包含更多汉字的查询建议;而在k较大的情况下,则需要在用户输入较多汉字时,才提示该查询建议。可以理解的是,在配置数据库期间,对于不同的字符串或者不同的子字符串,k的大小或者k对于n的占比可以是不同的。
作为一个示例,汉字子字符串是“大学物理课程”,字符数量n=6,并且设定k=3。此时,前3个字符不会做拼音转化,直接保留为第一拼接部分“大学物”。可以理解的是,当k等于n时,全部中文字符将保留作为第一拼接部分并且因而作为混合子字符串输出,而第二拼接部分和第三拼接部分在这种情况下可以为空。也就是说,这里“混合子字符串”的叙述并不要求混合子字符串一定包括拼音字符,也不要求混合子字符串一定比汉字子字符串包含更少的汉字字符。
在步骤442处,生成一个或多个第二拼接部分,一个或多个第二拼接部分中的每个是该汉字子字符串的第k+1到第n-1个字符的全拼或者首字母按顺序形成的字符串。考虑用户输入习惯和拼音的歧义,这部分或者直接使用全拼,或者简拼只保留首字母。
例如,继续上文的示例,针对汉字子字符串“大学物理课程”,n=6,k=3,第k+1到第n-1个字符对应于“理课”,可能的拼音转化为全拼和首拼两种组合,多个第二拼接部分可以是“like、lk”。
在步骤443处,生成一个或多个第三拼接部分,一个或多个第三拼接部分中的每个是该汉字子字符串的第n个字符的全拼或全拼的左侧有序子集。例如,继续上文的示例,针对汉字子字符串“大学物理课程”,最后一个中文字符“程”,则多个第三拼接部分可以是:cheng(全拼);以及chen、che、ch、c(全拼的左侧有序子集)。
在步骤444处,生成一个或多个混合子字符串,每个混合子字符串是第一拼接部分、一个或多个第二拼接部分中的一个第二拼接部分以及一个或多个第三拼接部分中的一个第三拼接部分按顺序拼接而形成的字符串。例如,混合子字符串可以表述成:第一拼接部分+第二拼接部分(任选其一)+第三拼接部分(任选其一)。具体地,继续上文的示例“大学物理课程”,并且在k=3的情况下,混合子字符串可以是“大学物”+“like或lk”+“cheng或chen或che或ch或c”。更具体地,一个示例可以是“大学物likechen”。可以理解的是,根据某些准则(例如字符长度限制或者用户习惯偏好等),可以只生成或选取其中的一部分作为混合子字符串,而不生成或者丢弃其他的一些。也可以将所有可能的混合子字符串均作为针对该汉字子字符串的混合子字符串保留并存储。具体地,在上文的示例中,最多可以有2×5=10种可能的混合子字符串,但最终生成的混合子字符串不必然要包括全部这10种。能够理解的是,本公开不限于此。
根据图4D的实施例,能够针对给定的由汉字构成的汉字子字符串,计算简单、覆盖全面并且贴合用户习惯地生成对应的混合子字符串。这样配置成的数据库更能够反应可能的查询建议,并且由此,使得本公开的查询建议提供方法更加准确有效。
下面结合图4E描述根据一些实施例的数据库的预配置过程的变型450。根据一些实施例,数据库的预配置过程450可以由步骤451-453来实现。
在步骤451处,处理第二字符串以获得一个或多个片段字符串。步骤451可以类似于步骤411,并且在此省略重复描述。
随后,在步骤452处,针对一个或多个片段字符串中的每个片段字符串,确定该片段字符串与第二字符串之间的关联值。关联值也可以称为关联度、关联得分、建议得分等等,并且本公开不限于此。
在步骤453处,针对一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引,存储第二字符串与对应的关联值。在步骤453中,将片段字符串作为索引存储第二字符串的过程可以类似于步骤412,并且在此省略重复描述。参照图3C,其中示出了数据331,其中在“lix”的索引下存储多个字符串(“第二字符串”)以及对应的关联值。可以理解的是,图3C中的括号仅为示意性示例。本领域技术人员将理解,可以以任意的数据格式和存储形式(包括但不限于关联对),将第二字符串与关联值存储在对应的索引下。
根据这样的实施例,在数据库中已经预先存储有关联值的情况下,步骤230还可以包括:响应于确定第一字符串与第二字符串之间的关联值满足阈值条件,输出第二字符串。例如,阈值条件可以是高于预定值,或者按照阈值排序前几个字符,等等。
根据图4E所述的实施例,在预配置的过程中,还计算关联度值。由此,可以离线计算第一字符串(片段字符串)与第二字符串之间的匹配得分,并且在在线生成建议的时候直接按照得分输出即可,而不需要在线的计算或者排序过程。这样,能够使得生成查询建议的过程更加实时。在线召回时,无需设计额外复杂精排算法,利用离线的关联度值即可做排序。
参照图4F进一步描述根据一些实施例的图4E中的步骤452。根据一些实施例,步骤452也即确定片段字符串与第二字符串之间的关联值的步骤可以由步骤461-463来实现。
在步骤461处,确定片段字符串相对于第二字符串的偏移度。偏移度可以指示在第二字符串中的、与该片段字符串中的第一个字符对应的字符的位置。偏移度可以反映前缀优先匹配程度。
例如,首先计算偏移offset,也即其首字符或者首字母在原文中的位置,位置从1开始计数。例如,针对第二字符串“理学院”,如果第一字符串是“理学y”,偏移为1;如果是“学yuan”,则偏移为2,因为首字“学”的位置为2。
接下来,可以进一步计算偏移度,例如归一化的偏移度得分
offset_score=[10-min(offset,L)]/L
其中,L反映用户查询的众数、平均数,也即常见的查询词(query)字符长度。L是可以调节的。例如,L可以是10。
引入L是为了表示如果offset大于设定的众数或平均数L,则该项为零。也就是说,对于字符过长的项,对后面的字词降低得分。例如,当检测到用户输入字符“xx”时,希望“xx”对应的内容尽量位于开头的位置,而不应在L(例如,10)个字符以后的位置的汉字。
在步骤462处,确定该片段字符串与第二字符串的重合度,重合度指示该片段字符串与第二字符串的内容匹配程度。重合度可以表征片段字符串与原始字符串的重合字符数量(例如,占原始字符串的比例)。例如,重合度可以按照以下公式计算重合度=片段字符串的混合长度/第二字符串的混合长度
这里的“混合长度”采用如下逻辑:如果片段字符串中包括汉字字符,则该字符的分子分母的“混合长度”按汉字计数;如果对应位置为拼音,则分子分母的“混合长度”按照拼音计数。也就是说,如果当前片段字符串是由i个汉字+拼音组成,则第二字符串(包括n个汉字)被记为i个汉字(i)+其余(n-i)个汉字的全拼数量。
例如,采用片段字符串“理xue”并且第二字符串是“理学院”作为示例,由于在第二个字“学”的位置是拼音,则重合度计算为重合度=“理xue”的混合长度/“理xueyuan”的混合长度=(1+3)/(1+7)=0.5。
在步骤463处,基于偏移度与重合度确定该片段字符串与第二字符串之间的关联值。
例如,关联值可以计算为:
score=offset_weight*offset_score+ctr_weight*ctr_score
其中offset_weight表示偏移度权重,offset_score表示偏移度,ctr_weight表示重合度权重,ctr_score表示重合度。偏移度权重和重合度权重例如默认均为0.5,可自定义配置,以分别代表业务对前缀优先匹配、相关性匹配的关注程度。
通过这样的关联度计算,能够离线对字符串片段与完整字符串之间的关联性进行打分,基于前缀优先匹配的全局打分排序算法,算法简单却可快速将两个此项的相关性进行全局打分。
继续返回参照图4E,根据另外一些实施例,数据库的预配置过程450还可以包括步骤454-456。
在步骤454处,处理第三字符串以获得一个或多个片段字符串,一个或多个片段字符串中的每个片段字符串表示第三字符串或其一部分的中间字符序列,并且一个或多个片段字符串包括第一字符串。例如,处理第三字符串的过程可以类似于步骤411或451,并且在此不再赘述。返回参照图3B或图3C,例如,第三字符串可以是“李雪”或“理想”等。
在步骤455处,针对一个或多个片段字符串中的每个片段字符串,确定该片段字符串与第三字符串之间的关联值。
在步骤456处,使用一个或多个片段字符串中的每个片段字符串作为索引,在数据库中,在对应的索引下存储第三字符串与对应的关联值。步骤455可以类似于步骤452,并且步骤456可以类似于步骤453。具体细节在此不再赘述。
根据这样的实施例,在数据库中已经预先存储有多个字符串相关联的关联值的情况下,步骤230还可以包括:响应于确定第一字符串与第二字符串的关联值大于第一字符串与第三字符串的关联值,使得相对于第三字符串优先输出第二字符串。例如,参考图3C,在接收到“lix”时,由于已经存储“lix”与“李雪”的关联度是0.95,与“理学”的关联度是0.92,则可以在无需复杂计算甚至无需任何在线计算的情况下,将“李雪”排序在更高的位置推送给用户。
在获取查询建议之后,相关技术往往需要在线计算查询建议的排序。常见的查询建议服务一般是先根据用户的输入查询词,在线实时召回一批相关的查询建议集合,然后设计相关的算法去衡量查询建议列表与查询词的相关性匹配度,需要在线实时计算和调整排序。相反,根据本实施例,能够利用离线计算的关联值得分,在线直接读取排序。由此,可以获得更高的实时性。尤其是,根据本公开的实施例的打分算法,能够在不知道全局查询建议集合的前提下,预先实现对查询建议的全局打分。
本公开提供的查询建议服务构建方法更加实时。使用该方法,可以基于最新应用数据,实时提供查询文本的相关提示词服务,即将被用于查询的文本,将其潜在查询建议进行实时构建展示给用户,该机制可根据自身策略需求,对查询建议集合进行自定义策略优化,从而提高提示词相关性。通过与建库数据的同频更新,将查询建议实时服务于用户,从而提高用户满意度。例如,方法可以在数据入库时,针对可能被用户检索的字段,在入库的同时,产生其查询建议集合,并对每个查询建议做全局打分排序,构建索引入库,在线检索时,可有效展示查询最可能的头部查询建议集合列表。
常规检索***基本存在倒排索引模块。本文的实时查询建议构建服务可以巧妙依托检索***的倒排索引模块,通过“数据构建入库,建库时可得到一个全局打分,倒排索引实时更新,检索便可实时获取最新查询建议数据服务”,整体过程是基于实时数据检索***,完成查询建议的同频更新和检索。进一步,构建倒排索引时,根据本公开的实施例,可以选择保留查询建议与原始文本相关其他数值信息,如“offset,中文字符长度,字母字符长度”等,并且能够根据业务需求,在召回后叠加策略做精排,从而更好的提升检索提示词的体验。
在相关技术中,在用户输入查询词后,通常会对查询词做预处理,但在根据本公开的实施例的场景下,如用户输入“lixuey”时,查询词即为倒排索引,无需处理,直接发送给数据库进行查询,如果存在该查询词的索引,则对应获取整个链表即可。此外,通常在获取整个链表后,还需要对链接的文档信息做更一步的精排策略处理,如精确计算文档的ctr、cqr等指标信息,优先前缀匹配符合的文档。根据本公开的实施例,在召回查询建议后,可利用离线的全局打分(关联度得分score)直接排序输出。
根据本公开的实施例,还可以进行物料的实时更新入库与实时删除。删除可保证用户不会看到已经被删除的查询建议,该机制尤其适合在物料文本变更频繁的场景下,保证用户搜索时能获取到最新的物料查询建议信息。
常见的查询建议服务往往依赖于离线索引批量更新构建,定时reload更新服务。根据本公开的实施例,索引构建可实时更新,且能做和建库物料数据同频更新,基于检索***的实时性,从而做到在线查询建议服务的秒级别数据更新生效。
根据本公开的一些事实施例,给出的关联度计算公式巧妙融合偏移与重合度,能够不仅关注前缀优先匹配,又纳入了文本相关性考量。这样的关联度得分Score在离线阶段便具备了全局比较性。
此外,这样的全局打分算法可根据业务定制化调整,通过分配和调节权重项,很灵活的支持业务的定制化排序需求。上述关联度得分在没有用户点击数据的情况下,快速冷启动即可基于字面相关性做匹配。
进一步,上述关联度得分还可以进行灵活拓展。例如,根据业务发展,可以加入其他关联度策略。例如,可以利用积累的相关点击日志数据来调整公式项。为相关点击信息分配一定权重后,可以加入点击信息作为排序标准。更新的关联度得分可以是
Score=offset_weight*offset_score+ctr_weight*ctr_score+click_rate*click_weight其中,click_rate可由业务自行定义,如click_num/default_max_click_num。
因此,根据本公开的实施例,能够实现灵活的业务定制能力和拓展性。
图5A示出了根据本公开的实施例的提供查询建议的装置500。装置500可以包括字符串输入单元510、字符串查询单元520和字符串输出单元530。字符串输入单元510可以被配置成获取用户输入的第一字符串。字符串查询单元520可以被配置成使用第一字符串作为索引查询预配置的数据库。数据库可以倒排索引数据库。在该数据库中,可以以第一字符串作为索引存储第二字符串,第一字符串表示第二字符串或第二字符串的一部分在被输入时的中间字符序列。字符串输出单元530可以被配置成输出第二字符串作为查询建议。
图5B示出了根据本公开的实施例的提供数据库构建装置550。装置550可以包括字符串处理单元560和字符串存储单元570。字符串处理单元560可以被配置成处理词项字符串以获得一个或多个片段字符串。一个或多个片段字符串中的每个片段字符串是词项字符串或词项字符串的一部分在被输入时的中间字符序列。
字符串存储单元570可以被配置成针对一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储词项字符串。
根据一些实施例,词项字符串是汉字字符串。在这样的实施例中,字符串处理单元560还可以包括:被配置成获取词项字符串的一个或多个汉字子字符串的单元,每个汉字子字符串包括词项字符串中的连续排列的一个或多个汉字字符;被配置成针对一个或多个汉字子字符串中的每个汉字子字符串,通过将该汉字子字符串中的至少一个汉字替换成对应的拼音表示,生成一个或多个混合子字符串的单元;以及被配置成使用所生成的汉字子字符串和混合子字符串中的一个或多个作为针对词项字符串的一个或多个片段字符串的单元。
根据一些实施例,装置550还可以包括:被配置成在处理词项字符串以获得一个或多个片段字符串之后,针对一个或多个片段字符串中的每个片段字符串,确定该片段字符串与词项字符串之间的关联值的单元。字符串存储单元570可以包括:被配置成针对一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引,存储词项字符串与对应的关联值的单元。
根据进一步的实施例,被配置成在处理词项字符串以获得一个或多个片段字符串之后,针对一个或多个片段字符串中的每个片段字符串,确定该片段字符串与词项字符串之间的关联值的单元可以包括:被配置成确定该片段字符串相对于词项字符串的偏移度的单元,偏移度指示在词项字符串中的、与该片段字符串中的第一个字符对应的字符的位置;被配置成确定该片段字符串与词项字符串的重合度的单元,重合度指示该片段字符串与词项字符串的内容匹配程度;以及被配置成基于偏移度与重合度确定该片段字符串与词项字符串之间的关联值的单元。
根据本公开的实施例,还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如方法200以及方法410、450等。例如,在一些实施例中,方法200以及方法410、450等可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的方法200以及方法410、450等的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200以及方法410、450等。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、***和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (20)

1.一种提供查询建议的方法,包括:
获取用户输入的第一字符串;
使用所述第一字符串作为索引查询预配置的数据库,其中,所述数据库是倒排索引数据库,在所述数据库中,以所述第一字符串作为索引存储第二字符串,所述第一字符串是所述第二字符串或所述第二字符串的一部分在被输入时的中间字符序列;并且
输出所述第二字符串作为查询建议。
2.根据权利要求1所述的方法,其中,所述数据库通过如下步骤进行预配置:
处理所述第二字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串是所述第二字符串或所述第二字符串的一部分在被输入时的中间字符序列,并且所述一个或多个片段字符串包括所述第一字符串;以及
针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储所述第二字符串。
3.根据权利要求2所述的方法,其中,所述第二字符串是汉字字符串,并且其中,处理所述第二字符串以获得一个或多个片段字符串包括:
获取所述第二字符串的一个或多个汉字子字符串,每个汉字子字符串包括所述第二字符串中的连续排列的一个或多个汉字字符;
针对所述一个或多个汉字子字符串中的每个汉字子字符串,通过将该汉字子字符串中的至少一个汉字替换成对应的拼音表示,生成一个或多个混合子字符串;以及
使用所生成的汉字子字符串和混合子字符串中的一个或多个作为针对所述第二字符串的所述一个或多个片段字符串。
4.根据权利要求3所述的方法,其中,获取所述第二字符串的一个或多个汉字子字符串包括:
生成所述第二字符串的一个或多个右侧子串,每个右侧子串是所述第二字符串中的连续排列的子字符串,并且所述右侧子串的最后一个字符与所述第二字符串的最后一个字符相同;并且
针对每个右侧子串,生成该右侧子串的左侧子串作为针对所述第二字符串的子字符串,每个左侧子串是所述右侧子串中的连续排列的子字符串,并且所述左侧子串的第一个字符与该右侧子串的第一个字符相同。
5.根据权利要求3或4所述的方法,其中,针对所述一个或多个汉字子字符串中的每个汉字子字符串,生成一个或多个混合子字符串包括:
将该汉字子字符串的前k个字符作为第一拼接部分,其中k是非负整数并且k≤n,n是该汉字子字符串的字符长度;
生成一个或多个第二拼接部分,所述一个或多个第二拼接部分中的每个是该汉字子字符串的第k+1到第n-1个字符的全拼或者首字母按顺序形成的字符串;
生成一个或多个第三拼接部分,所述一个或多个第三拼接部分中的每个是该汉字子字符串的第n个字符的全拼或全拼的左侧有序子集;
生成所述一个或多个混合子字符串,每个混合子字符串是第一拼接部分、一个或多个第二拼接部分中的一个第二拼接部分以及一个或多个第三拼接部分中的一个第三拼接部分按顺序拼接而形成的字符串。
6.根据权利要求2-5中任一项所述的方法,其中,所述数据库还通过如下步骤进行预配置:
在处理所述第二字符串以获得一个或多个片段字符串之后,针对所述一个或多个片段字符串中的每个片段字符串,确定该片段字符串与所述第二字符串之间的关联值,并且
将该片段字符串作为索引存储所述第二字符串包括:将该片段字符串作为索引,存储所述第二字符串与对应的关联值;
并且其中,输出所述第二字符串作为查询建议包括:
响应于确定所述第一字符串与所述第二字符串之间的关联值满足阈值条件,使得向所述用户输出所述第二字符串。
7.根据权利要求6所述的方法,其中,确定该片段字符串与所述第二字符串之间的关联值包括:
确定该片段字符串相对于所述第二字符串的偏移度,偏移度指示在所述第二字符串中的、与该片段字符串中的第一个字符对应的字符的位置;
确定该片段字符串与所述第二字符串的重合度,重合度指示该片段字符串与所述第二字符串的内容匹配程度;并且
基于所述偏移度与所述重合度确定该片段字符串与所述第二字符串之间的所述关联值。
8.根据权利要求6或7所述的方法,其中,所述数据库还通过如下步骤进行预配置:
处理所述第三字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串表示所述第三字符串或所述第三字符串的一部分在被输入时的中间字符序列,并且所述一个或多个片段字符串包括所述第一字符串;
针对所述一个或多个片段字符串中的每个片段字符串,确定该片段字符串与所述第三字符串之间的关联值;以及
使用所述一个或多个片段字符串中的每个片段字符串作为索引,在所述数据库中,在对应的索引下存储所述第三字符串与对应的关联值。
并且其中,输出所述第二字符串作为查询建议包括:
响应于确定所述第一字符串与所述第二字符串的关联值大于所述第一字符串与所述第三字符串的关联值,相对于所述第三字符串优先输出所述第二字符串。
9.一种数据库构建方法,包括:
处理词项字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串是所述词项字符串或所述词项字符串的一部分在被输入时的中间字符序列;以及
针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储所述词项字符串。
10.根据权利要求9所述的方法,其中,所述词项字符串是汉字字符串,并且其中,处理所述词项字符串以获得一个或多个片段字符串包括:
获取所述词项字符串的一个或多个汉字子字符串,每个汉字子字符串包括所述词项字符串中的连续排列的一个或多个汉字字符;
针对所述一个或多个汉字子字符串中的每个汉字子字符串,通过将该汉字子字符串中的至少一个汉字替换成对应的拼音表示,生成一个或多个混合子字符串;以及
使用所生成的汉字子字符串和混合子字符串中的一个或多个作为针对所述词项字符串的所述一个或多个片段字符串。
11.根据权利要求9或10所述的方法,还包括:
在处理所述词项字符串以获得一个或多个片段字符串之后,针对所述一个或多个片段字符串中的每个片段字符串,确定该片段字符串与所述词项字符串之间的关联值,并且
将该片段字符串作为索引存储所述词项字符串包括:将该片段字符串作为索引,存储所述词项字符串与对应的关联值。
12.根据权利要求11所述的方法,其中,确定该片段字符串与所述词项字符串之间的关联值包括:
确定该片段字符串相对于所述词项字符串的偏移度,偏移度指示在所述词项字符串中的、与该片段字符串中的第一个字符对应的字符的位置;
确定该片段字符串与所述词项字符串的重合度,重合度指示该片段字符串与所述词项字符串的内容匹配程度;并且
基于所述偏移度与所述重合度确定该片段字符串与所述词项字符串之间的所述关联值。
13.一种提供查询建议的装置,包括:
字符串输入单元,被配置成获取用户输入的第一字符串;
字符串查询单元,被配置成使用所述第一字符串作为索引查询预配置的数据库,其中,所述数据库是倒排索引数据库,在所述数据库中,以所述第一字符串作为索引存储第二字符串,所述第一字符串表示所述第二字符串或所述第二字符串的一部分在被输入时的中间字符序列;以及
字符串输出单元,被配置成输出第二字符串作为查询建议。
14.一种数据库构建装置,包括:
字符串处理单元,被配置成处理词项字符串以获得一个或多个片段字符串,所述一个或多个片段字符串中的每个片段字符串是所述词项字符串或所述词项字符串的一部分在被输入时的中间字符序列;以及
字符串存储单元,被配置成针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引存储所述词项字符串。
15.根据权利要求14所述的装置,其中,所述词项字符串是汉字字符串,并且其中,所述字符串处理单元还包括:
被配置成获取所述词项字符串的一个或多个汉字子字符串的单元,每个汉字子字符串包括所述词项字符串中的连续排列的一个或多个汉字字符;
被配置成针对所述一个或多个汉字子字符串中的每个汉字子字符串,通过将该汉字子字符串中的至少一个汉字替换成对应的拼音表示,生成一个或多个混合子字符串的单元;以及
被配置成使用所生成的汉字子字符串和混合子字符串中的一个或多个作为针对所述词项字符串的所述一个或多个片段字符串的单元。
16.根据权利要求14或15所述的装置,还包括:
被配置成在处理所述词项字符串以获得一个或多个片段字符串之后,针对所述一个或多个片段字符串中的每个片段字符串,确定该片段字符串与所述词项字符串之间的关联值的单元,并且
所述字符串存储单元包括:被配置成针对所述一个或多个片段字符串中的每个片段字符串,将该片段字符串作为索引,存储所述词项字符串与对应的关联值的单元。
17.根据权利要求16所述的装置,其中,被配置成在处理所述词项字符串以获得一个或多个片段字符串之后,针对所述一个或多个片段字符串中的每个片段字符串,确定该片段字符串与所述词项字符串之间的关联值的单元包括:
被配置成确定该片段字符串相对于所述词项字符串的偏移度的单元,偏移度指示在所述词项字符串中的、与该片段字符串中的第一个字符对应的字符的位置;
被配置成确定该片段字符串与所述词项字符串的重合度的单元,重合度指示该片段字符串与所述词项字符串的内容匹配程度;以及
被配置成基于所述偏移度与所述重合度确定该片段字符串与所述词项字符串之间的所述关联值的单元。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8或9-12中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8或9-12中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-8或9-12中任一项所述的方法。
CN202110547368.XA 2021-05-19 2021-05-19 提供查询建议的方法、装置、电子设备和存储介质 Active CN113239258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110547368.XA CN113239258B (zh) 2021-05-19 2021-05-19 提供查询建议的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110547368.XA CN113239258B (zh) 2021-05-19 2021-05-19 提供查询建议的方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113239258A true CN113239258A (zh) 2021-08-10
CN113239258B CN113239258B (zh) 2023-06-27

Family

ID=77137723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110547368.XA Active CN113239258B (zh) 2021-05-19 2021-05-19 提供查询建议的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113239258B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002046965A1 (en) * 2000-12-08 2002-06-13 Netrics. Com Inc. Improved multistage intelligent database search method
US20100082604A1 (en) * 2008-09-22 2010-04-01 Microsoft Corporation Automatic search query suggestions with search result suggestions from user history
US20100131902A1 (en) * 2008-11-26 2010-05-27 Yahoo! Inc. Navigation assistance for search engines
CN101944102A (zh) * 2010-08-04 2011-01-12 张占平 一种从众多网络搜索词里生成折射词的方法
CN102306171A (zh) * 2011-08-22 2012-01-04 百度在线网络技术(北京)有限公司 一种用于提供网络访问建议和网络搜索建议的方法与设备
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN102546979A (zh) * 2010-12-29 2012-07-04 上海博泰悦臻电子设备制造有限公司 呼叫中心及其兴趣点搜索方法、兴趣点搜索***
CN102831224A (zh) * 2012-08-24 2012-12-19 北京百度网讯科技有限公司 一种数据索引库的建立方法、搜索建议生成方法和装置
US8577913B1 (en) * 2011-05-27 2013-11-05 Google Inc. Generating midstring query refinements
CN103389800A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种生成词条的方法和装置
CN103455499A (zh) * 2012-05-29 2013-12-18 北京百度网讯科技有限公司 移动终端中根据搜索词自动匹配搜索类型的方法及***
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、***及相关服务器
US20140358957A1 (en) * 2013-05-31 2014-12-04 International Business Machines Corporation Providing search suggestions from user selected data sources for an input string
US20170024424A1 (en) * 2015-07-26 2017-01-26 Saad Almohizea Suggestive search engine
US9607100B1 (en) * 2014-06-12 2017-03-28 Amazon Technologies, Inc. Providing inline search suggestions for search strings
CN108604235A (zh) * 2015-11-19 2018-09-28 微软技术许可有限责任公司 显示查询建议的图形表示
US10540378B1 (en) * 2016-06-28 2020-01-21 A9.Com, Inc. Visual search suggestions

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002046965A1 (en) * 2000-12-08 2002-06-13 Netrics. Com Inc. Improved multistage intelligent database search method
US20100082604A1 (en) * 2008-09-22 2010-04-01 Microsoft Corporation Automatic search query suggestions with search result suggestions from user history
US20100131902A1 (en) * 2008-11-26 2010-05-27 Yahoo! Inc. Navigation assistance for search engines
CN101944102A (zh) * 2010-08-04 2011-01-12 张占平 一种从众多网络搜索词里生成折射词的方法
CN102546979A (zh) * 2010-12-29 2012-07-04 上海博泰悦臻电子设备制造有限公司 呼叫中心及其兴趣点搜索方法、兴趣点搜索***
US8577913B1 (en) * 2011-05-27 2013-11-05 Google Inc. Generating midstring query refinements
CN102306171A (zh) * 2011-08-22 2012-01-04 百度在线网络技术(北京)有限公司 一种用于提供网络访问建议和网络搜索建议的方法与设备
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN103389800A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种生成词条的方法和装置
CN103455499A (zh) * 2012-05-29 2013-12-18 北京百度网讯科技有限公司 移动终端中根据搜索词自动匹配搜索类型的方法及***
CN102831224A (zh) * 2012-08-24 2012-12-19 北京百度网讯科技有限公司 一种数据索引库的建立方法、搜索建议生成方法和装置
US20140358957A1 (en) * 2013-05-31 2014-12-04 International Business Machines Corporation Providing search suggestions from user selected data sources for an input string
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、***及相关服务器
US9607100B1 (en) * 2014-06-12 2017-03-28 Amazon Technologies, Inc. Providing inline search suggestions for search strings
US20170024424A1 (en) * 2015-07-26 2017-01-26 Saad Almohizea Suggestive search engine
CN108604235A (zh) * 2015-11-19 2018-09-28 微软技术许可有限责任公司 显示查询建议的图形表示
US10540378B1 (en) * 2016-06-28 2020-01-21 A9.Com, Inc. Visual search suggestions

Also Published As

Publication number Publication date
CN113239258B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US11720633B2 (en) Aggregating personalized suggestions from multiple sources
RU2726728C2 (ru) Идентификация шаблонов запросов и ассоциированной агрегированной статистики среди поисковых запросов
US9519703B2 (en) Refining search results for a compound search query
EP3679488A1 (en) System and method for recommendation of terms, including recommendation of search terms in a search system
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN113656668B (zh) 多模态信息库的检索方法、管理方法、装置、设备和介质
US20220237376A1 (en) Method, apparatus, electronic device and storage medium for text classification
CN115114424A (zh) 查询请求的应答方法及装置
KR20230006601A (ko) 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
JP2024507902A (ja) 情報検索方法、装置、電子機器および記憶媒体
CN114443989A (zh) 排序方法、排序模型的训练方法、装置、电子设备及介质
CN113239258B (zh) 提供查询建议的方法、装置、电子设备和存储介质
CN114238745A (zh) 一种提供搜索结果的方法及装置、电子设备和介质
CN115329150A (zh) 生成搜索条件树的方法、装置、电子设备及存储介质
CN110659406A (zh) 搜索方法及装置
WO2021196470A1 (zh) 信息推送方法、装置、设备及存储介质
CN113239278A (zh) 信息展示方法、装置、电子设备以及存储介质
CN113806519A (zh) 一种搜索召回方法、装置及介质
CN111782958A (zh) 推荐词确定方法、装置、电子装置及存储介质
CN115809364B (zh) 对象推荐方法和模型训练方法
JP6221593B2 (ja) データ管理方法、データ管理プログラム及びデータ管理装置
CN114254216A (zh) 一种提供搜索结果的方法及装置、电子设备和介质
EP4152174A1 (en) Data processing method and apparatus, and computing device and medium
CN117056460A (zh) 文档的检索方法、装置、电子设备和介质
CN113326417B (zh) 用于更新网页库的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant