CN114154072A - 检索方法、装置、电子设备以及存储介质 - Google Patents

检索方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN114154072A
CN114154072A CN202111502498.8A CN202111502498A CN114154072A CN 114154072 A CN114154072 A CN 114154072A CN 202111502498 A CN202111502498 A CN 202111502498A CN 114154072 A CN114154072 A CN 114154072A
Authority
CN
China
Prior art keywords
data
retrieval
information
determining
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111502498.8A
Other languages
English (en)
Inventor
解珍
杨熙
武光蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Duyou Information Technology Co ltd
Original Assignee
Beijing Duyou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Duyou Information Technology Co ltd filed Critical Beijing Duyou Information Technology Co ltd
Priority to CN202111502498.8A priority Critical patent/CN114154072A/zh
Publication of CN114154072A publication Critical patent/CN114154072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种检索方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及云计算、大数据等技术领域。具体实现方案为:针对检索信息,确定与检索信息相对应的数据源;确定与数据源相对应的目标数据集合;以及从目标数据集合中,确定与检索信息相匹配的目标数据。

Description

检索方法、装置、电子设备以及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及云计算、大数据等技术领域,具体涉及检索方法、装置、电子设备、存储介质以及程序产品。
背景技术
随着互联网的普及,智能检索已经成为互联网的重要工具之一。智能检索可以提供信息查询、信息定位等服务,在提供该些服务的过程中,可以通过不断优化其智能化、个性化、交互性、主动性等,使用户能够快速精准地得到自己需要的信息。
发明内容
本公开提供了一种检索方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种检索方法,包括:针对检索信息,确定与所述检索信息相对应的数据源;确定与所述数据源相对应的目标数据集合;以及从所述目标数据集合中,确定与所述检索信息相匹配的目标数据。
根据本公开的另一方面,提供了一种检索装置,包括:第一确定模块,用于针对检索信息,确定与所述检索信息相对应的数据源;第二确定模块,用于确定与所述数据源相对应的目标数据集合;以及第三确定模块,用于从所述目标数据集合中,确定与所述检索信息相匹配的目标数据。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用检索方法及装置的示例性***架构;
图2示意性示出了根据本公开实施例的检索方法的流程图;
图3示意性示出了根据本公开实施例的倒排索引表的示意图;
图4示意性示出了根据本公开另一实施例的倒排索引表的示意图;
图5示意性示出了根据本公开实施例的检索方法的流程示意图;
图6示意性示出了根据本公开实施例的检索装置的框图;以及
图7示意性示出了根据本公开实施例的适于实现检索方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种检索方法、装置、电子设备、存储介质以及程序产品。
根据本公开的实施例,提供了一种检索方法,可以包括:针对检索信息,确定与检索信息相对应的数据源;确定与数据源相对应的目标数据集合;以及从目标数据集合中,确定与检索信息相匹配的目标数据。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示意性示出了根据本公开实施例的可以应用检索方法及装置的示例性***架构。
需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如,在另一实施例中,可以应用检索方法及装置的示例性***架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的检索方法及装置。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
“服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。”
需要说明的是,本公开实施例所提供的检索方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的检索装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的检索方法一般也可以由服务器105执行。相应地,本公开实施例所提供的检索装置一般可以设置于服务器105中。本公开实施例所提供的检索方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的检索装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,用户在个人存储空间中进行文件检索时,终端设备101、102、103可以获取用户输入的检索信息例如文件名称,然后将获取的检索信息发送给服务器105,由服务器105对检索信息进行分析,确定与检索信息相对应的数据源,即用户的个人存储空间,并确定与数据源相匹配的目标数据集合。从目标数据集合中,来确定与检索信息相匹配的目标数据。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对检索信息以及检索信息相对应的数据源进行分析,并最终实现确定与检索信息相匹配的目标数据。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的检索方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,针对检索信息,确定与检索信息相对应的数据源。
在操作S220,确定与数据源相对应的目标数据集合。
在操作S230,从目标数据集合中,确定与检索信息相匹配的目标数据。
根据本公开的实施例,检索信息可以包括表明用户意图或者感兴趣的信息。对检索信息的类型或者输入方式不作限定。例如,检索信息的类型可以是文字、音频、图像等。可以利用语音交互功能输入音频,将音频作为检索信息。也可以利用语音转换文字模型对音频进行识别,得到文字类型的检索信息。也可以利用上传文件功能输入图像,将图像作为检索信息。也可以利用图像处理模型对图像中的内容进行识别,得到文字类型的检索信息。还可以直接在文本框内输入文字,来作为检索信息。
根据本公开的实施例,数据源可以是指数据的归属,例如可以将数据当前的存储空间或者归属对象称为数据源。可以通过数据源来区分不同归属的数据。数据源的确定方式,可以根据输入检索信息的用户标识来确定。例如,在用户在自己的存储空间例如网盘中进行检索的情况下,则可以将用户、或者用户的存储空间来作为数据源,当然并不局限于此。数据源还可以是指数据的来源,例如,数据公开的网站、平台等可以称为数据源。可以通过数据源来确定数据的来源。例如,用户在检索信息的过程中,不仅可以输入表明用户搜索意图的信息例如“AA新闻”,还可以输入限定信息来源的信息例如“BB日报”,则信息来源如“BB日报”即为与检索信息相对应的数据源。
根据本公开的实施例,目标数据集合可以是指与数据源相对应、或者与数据源相匹配的目标数据集合。例如,目标数据集合可以指用户的存储空间内的数据集合,或者是指与用户具体限定的信息来源的数据集合。
根据本公开的实施例,在针对检索信息进行检索的过程中,可以先确定与数据源相对应的目标数据集合,再从目标数据集合中来确定与检索信息相匹配的目标数据。以此来缩小检索的遍历范围。进而实现缩小检索范围,提高检索效率。
根据本公开的实施例,可以将检索方法应用于个人存储、云存储等领域,来支持存储了万亿级别的数据量的检索***。但是并不局限与此。还可以将检索方法应用于个人邮件检索场景,个人发布的UGC内容(User Generated Content,用户生成内容),例如用户原创内容包括上百万条记录的检索场景。以便提高针对拥有文件量级百万的用户对个人记录的检索性能。
根据本公开的实施例,可以按照倒排索引方式来从目标数据集合中确定与检索信息相匹配的目标数据。但是并不局限于此。还可以按照正排索引方式来从目标数据集合中确定与检索信息相匹配的目标数据。
根据本公开的实施例,倒排索引方式也称为反向索引方式、置入档案方式、或者反向档案方式。倒排索引方式可以是指根据属性值来查找记录。例如,以关键字、关键词作为属性值,根据属性值来确定记录的位置。
根据本公开的实施例,正排索引方式可以是与倒排索引方式正相反的方式,以文档的标识作为关键字,记录文档中每个字的位置信息,检索时,扫描表中每个文档中字的信息指导找出包含查询关键字的文档。
根据本公开的实施例,正排索引方式是指从文档到关键字的映射,而倒排索引方式是从关键字到文档的映射。
根据本公开的可选实施例,利用倒排索引方式来从目标数据集合中确定与检索信息相匹配的目标数据,可以降低遍历的数据范围、提高检索效率,进而提高用户的检索体验。
根据本公开的实施例,倒排索引表是倒排索引方式中,体现从关键字到文档的映射关系的列表。需要说明的是,倒排索引表一般采用表格形式例如体现从关键字到文档的映射关系的列表,但是并不局限与此,还可以将倒排索引表理解为记录倒排索引信息的文件等。可以通过如图3或图4所示的Key-Value(键值)存储方式来构建倒排索引表,基于倒排索引表来执行检索操作。
图3示意性示出了根据本公开实施例的倒排索引表的示意图。
如图3所示,可以以倒排拉链的记录方式来得到倒排索引表。例如Term(关键词、关键字)作为第一键,以包含这个Term的所有记录作为第一键的第一值。第一值可以是与Term相关的拉链结果Doc,例如Doc1、Doc2、……、DocN等。
具体地,Term可以是指对数据标识例如文件名称进行切分后生成的数据子标识。例如,可以按照预定分词规则对数据标识进行切分,生成数据子标识。预定分词规则可以是以中文单字为单位进行切分,得到中文单字。或者以连续英文例如一个英文单词为单位进行切分,以及以字符串例如连续数字为单位进行切分,得到英文单词或者一串数字例如电话号码等。
具体地,Doc可以是指数据的存储位置信息,例如文件标识信息例如文件编号或者存储地址信息等。
根据本公开的实施例,利用倒排拉链的记录方式得到的倒排索引表来进行检索,可以基于检索信息,快速、友好地确定与检索信息相关的拉链结果。在写入数据的数据量少、读取数据的数据量多的情况下,提高其检索性能。
根据本公开的实施例,还可以通过将数据集合按照键值存储方式进行存储,生成倒排索引表。倒排索引表可以包括多个列表项,每个列表项包括第二键和与第二键相对应的第二值。可以基于第二键来进行索引,第二值在索引中无实际意义。
根据本公开的实施例,倒排索引表中的每一个列表项中的第二键可以包括数据集合中的至少一个数据各自的数据源标识、至少一个数据各自的存储位置信息、与至少一个数据各自一一对应的至少一个数据子标识集合中的一项或多项。倒排索引表中的每一个列表项中的第二值可以用占位符来表示,例如,将任意占位符例如1作为第二值。
根据本公开的实施例,可以利用如下操作来生成倒排索引表。
例如,确定数据集合中的至少一个数据各自的数据源标识。确定数据集合中的至少一个数据各自的存储位置信息。按照预定分词规则对至少一个数据各自的数据标识进行切分,生成与至少一个数据各自一一对应的至少一个数据子标识集合;以及基于数据源标识、存储位置信息以及至少一个数据子标识集合,生成倒排索引表。
图4示意性示出了根据本公开另一实施例的倒排索引表的示意图。
在图4的示例中,可以对Filename进行切分,生成数据子标识集合。例如包含如图4所示的Token1、Token2、Token3的数据子标识集合。将数据子标识集合、数据源标识UID、数据的存储位置信息例如FSID1组合,得到多个第二键。将多个第二键与第二值例如占位符1结合,生成包含<UID-Token1-FSID1,1>、<UID-Token2-FSID1,1>、<UID-Token3-FSID1,1>的倒排索引表。
具体地,对例如如图4所示的Filename(文件名称)进行切分后生成例如Token1、Token2和Token3的数据子标识集合。可以按照预定分词规则对数据标识Filename进行切分,生成数据子标识集合。预定分词规则可以是以中文单字为单位进行切分,得到中文单字。或者以连续英文例如一个英文单词为单位进行切分,以及以字符串例如连续数字为单位进行切分,得到英文单词或者一串数字例如电话号码等。
具体地,UID可以是指数据的数据源标识,也可以是指用户的用户标识。
具体地,FSID1可以是指数据的存储位置信息,例如文件标识信息例如文件编号或者存储地址信息等。
根据本公开的实施例,基于第二键进行索引的倒排索引表,可以在高并发的写入数据的情况下,友好且快速地进行变更。在写入数据的数据量多、读取数据的数据量少的情况下,提高其检索性能。
例如,文件名称为“学习资料.mp4”。数据的存储位置信息例如文件标识,例如为“12345”。将文件名称按照中文单字为单位进行切分后,倒排索引表的列表项可以包括第二键和第二值(例如占位符为1),可以是<UID-学-12345,1>、<UID-习-12345,1>、<UID-资-12345,1>、<UID-料-12345,1>、<UID-.-12345,1>、<UID-mp-12345,1>、<UID-4-12345,1>。可以将该倒排索引表的数据写入到K-V存储***例如开源的RocksDB(数据库)。
根据本公开的实施例,可以在获取用户输入的检索信息的同时,获取用户标识,基于用户标识来确定与检索信息相对应的数据源,例如数据源标识。可以基于数据源标识,从倒排索引表中的第二键中来确定与数据源相对应的目标数据集合。
根据本公开的实施例,数据标识可以是与检索信息相对应的内容,例如,数据标识可以是指文件名称例如“学习资料”,检索信息可以是用户输入的“资料”或者“学习资料”,可以基于数据子标识集合以及数据的存储位置信息,从倒排索引表中的第二键中来确定与检索信息相匹配的目标数据。
图5示意性示出了根据本公开实施例的检索方法的流程示意图。
如图5所示,可以按照预定分词规则对检索信息Query进行切分,生成至少一个检索子信息例如Token1、Token2、Token3以及Token4。例如,检索信息为“学习资料”,切分后生成Token1为“学”、Token2为“习”、Token3为“资”、Token4为“料”等检索子信息。
可以结合数据源标识UID与检索子信息Token1、Token2、Token3、Token4,来按照倒排索引方式,基于倒排索引表,从数据集合中确定与数据源例如数据源标识UID相对应的目标数据集合。从目标数据集合中确定与至少一个检索子信息相匹配的至少一个检索数据。以及从至少一个检索数据中确定目标数据。
例如,可以按照前缀匹配的方式,从目标数据集合中确定与至少一个检索子信息相匹配的至少一个检索数据。具体地,基于倒排索引表,从至少一个数据子标识集合中确定与检索子信息相匹配的至少一个数据子标识,生成数据子标识子集合。例如,基于Token1为“学”匹配得到第二键的列表项<UID-Token1-FSID1X>例如<UID-学-12345>、<UID-Token1-FSID2Y>例如<UID-学-12358>、<UID-Token1-FSID3Z>例如<UID-学-12367>。基于Token2为“习”可以匹配得到第二键的列表项<UID-Token2-FSID1X>例如<UID-习-12345>、<UID-Token2-FSID2Y>例如<UID-习-12358>。基于Token3为“资”可以匹配得到第二键的列表项<UID-Token3-FSID1X>例如<UID-资-12345>、<UID-Token3-FSID2Y>例如<UID-资-12358>。基于Token4为“料”可以匹配得到第二键的列表项<UID-Token4-FSID1X>例如<UID-料-12345>、<UID-Token4-FSID2Y>例如<UID-料-12358>。由此得到包含数据子标识“资”、“料”、“学”、“习”的数据子标识子集合。
基于倒排索引表中与数据子标识子集合相对应的存储位置信息例如FSID为12367、12358以及12345等,对数据子标识子集合中的数据子标识进行交集处理,从目标数据集合中确定与至少一个检索子信息相匹配的至少一个检索数据,例如第二键为UID-Filename1-FSID1X的列表项,文件名为“学习资料.mp4”、FSID为12345的检索数据。以及第二键为UID-Filename2-FSID2Y的列表项,文件名为“医学资料与学习总结.doc”、FSID为12358的检索数据。
根据本公开的实施例,从至少一个检索数据中确定目标数据可以是按照精准匹配的方式进行确定操作。但是并不局限于此。还可以是按照模糊匹配的方式进行确定操作。
根据本公开的实施例,精准匹配的方式可以是按照字符串匹配规则进行匹配的方式。例如,可以响应于用户发出的第一检索指令,按照字符串匹配规则从至少一个检索数据中确定目标数据,其中,目标数据的数据标识与检索信息之间符合字符串匹配规则。
根据本公开的实施例,字符串匹配规则可以是指字符串包含的匹配规则。例如,目标数据的数据标识包含检索信息,并且,目标数据的数据标识的多个字符之间的排列顺序与检索信息的多个字符之间的排列顺序相同。例如,检索信息为“学习资料”与数据标识为“学习资料.mp4”之间符合字符串匹配规则。利用精准匹配的方式,可以确定数据标识为“学习资料.mp4”的数据为目标数据。
根据本公开的实施例,模糊匹配的方式可以是按照相似度匹配规则进行匹配的方式。例如,可以响应于用户发出的第二检索指令,按照相似度匹配规则从至少一个检索数据中确定目标数据,其中,目标数据的数据标识与检索信息之间符合相似度匹配规则。
根据本公开的实施例,相似度匹配规则可以是语义相似的匹配规则,或者字符相似的匹配规则。例如,检索信息为“学习资料”与数据标识为“与学习相关的资料.doc”之间为语义相似,符合相似度匹配规则,则可以确定数据标识为“与学习相关的资料.doc”的数据为目标数据。还例如,检索信息为“学习资料”与数据标识“医学资料与学习总结.doc”之间的字符相似性高,该字符相似性高可以理解为:数据标识中包括检索信息的所有字符,并且可以与字符串的排列顺序无关。利用模糊匹配的方式,可以将数据标识为“学习资料.mp4”的数据、数据标识为“医学资料与学习总结.doc”的数据、数据标识为“与学习相关的资料.doc”的数据均确定为目标数据。
利用本公开实施例提供的检索方法,可以利用在倒排索引表中标记数据源标识来实现数据之间的隔离性,减小检索范围,提高检索效率。另外,还可以利用倒排索引方式中的“以中文字为单位进行切分、以英文单词为单位进行切分、以字符串为单位进行切分”,由此保证目标数据的完整性。避免因以词来进行切分而导致分词错误、分词不一致等问题,进而发生未能检索到目标数据或者检索到的目标数据不完整的缺陷。此外,还可以利用键值存储的方式构建倒排索引表,以便能够更友好的实现写入数据的操作,以此来匹配上亿级用户频繁对数据进行更新的场景。
图6示意性示出了根据本公开实施例的检索装置的框图。
如图6所示,检索装置600可以包括第一确定模块610、第二确定模块620、第三确定模块630。
第一确定模块610,用于针对检索信息,确定与检索信息相对应的数据源。
第二确定模块620,用于确定与数据源相对应的目标数据集合。
第三确定模块630,用于从目标数据集合中,确定与检索信息相匹配的目标数据。
根据本公开的实施例,第三确定模块可以包括倒排索引子模块。
倒排索引子模块,用于按照倒排索引方式,从目标数据集合中确定与检索信息相匹配的目标数据。
根据本公开的实施例,倒排索引子模块可以包括切分单元、第一确定单元、第二确定单元。
切分单元,用于按照预定分词规则对检索信息进行切分,生成至少一个检索子信息。
第一确定单元,用于按照倒排索引方式,基于倒排索引表,从目标数据集合中确定与至少一个检索子信息相匹配的至少一个检索数据。
第二确定单元,用于从至少一个检索数据中确定目标数据。
根据本公开的实施例,检索装置还可以包括存储模块。
存储模块,用于通过将数据集合按照键值存储方式进行存储,生成倒排索引表,以便基于倒排索引表,从数据集合中确定与数据源相对应的目标数据集合。
根据本公开的实施例,倒排索引表可以包括以下至少一项:数据集合中的至少一个数据各自的数据源标识、至少一个数据各自的存储位置信息、与至少一个数据各自一一对应的至少一个数据子标识集合。
根据本公开的实施例,检索装置还可以包括标识确定模块、位置确定模块、切分模块、生成模块。
标识确定模块,用于确定数据集合中的至少一个数据各自的数据源标识。
位置确定模块,用于确定数据集合中的至少一个数据各自的存储位置信息。
切分模块,用于按照预定分词规则对至少一个数据各自的数据标识进行切分,生成与至少一个数据各自一一对应的至少一个数据子标识集合。
生成模块,用于基于数据源标识、存储位置信息以及至少一个数据子标识集合,生成倒排索引表。
根据本公开的实施例,第一确定单元可以包括生成子单元、交集子单元。
生成子单元,用于针对至少一个检索子信息中的每个检索子信息,基于倒排索引表,从至少一个数据子标识集合中确定与检索子信息相匹配的至少一个数据子标识,生成数据子标识子集合。
交集子单元,用于基于倒排索引表中的存储位置信息,对数据子标识子集合中的数据子标识进行交集处理,从目标数据集合中确定与至少一个检索子信息相匹配的至少一个检索数据。
根据本公开的实施例,第二确定单元可以包括第一响应子单元、第二响应子单元。
第一响应子单元,用于响应于第一检索指令,按照字符串匹配规则从至少一个检索数据中确定目标数据,其中,目标数据的数据标识与检索信息之间符合字符串匹配规则。
第二响应子单元,用于响应于第二检索指令,按照相似度匹配规则从至少一个检索数据中确定目标数据,其中,目标数据的数据标识与检索信息之间符合相似度匹配规则。
根据本公开的实施例,预定分词规则包括以下至少一项:以中文字为单位进行切分、以英文单词为单位进行切分、以字符串为单位进行切分。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如检索方法。例如,在一些实施例中,检索方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的检索方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行检索方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种检索方法,包括:
针对检索信息,确定与所述检索信息相对应的数据源;
确定与所述数据源相对应的目标数据集合;以及
从所述目标数据集合中,确定与所述检索信息相匹配的目标数据。
2.根据权利要求1所述的方法,其中,所述从所述目标数据集合中确定与所述检索信息相匹配的目标数据包括:
按照倒排索引方式,从所述目标数据集合中确定与所述检索信息相匹配的目标数据。
3.根据权利要求2所述的方法,其中,所述按照倒排索引方式,从所述目标数据集合中确定与所述检索信息相匹配的目标数据包括:
按照预定分词规则对所述检索信息进行切分,生成至少一个检索子信息;
按照所述倒排索引方式,基于倒排索引表,从所述目标数据集合中确定与所述至少一个检索子信息相匹配的至少一个检索数据;以及
从所述至少一个检索数据中确定所述目标数据。
4.根据权利要求3所述的方法,还包括:
通过将数据集合按照键值存储方式进行存储,生成所述倒排索引表,以便基于所述倒排索引表,从所述数据集合中确定与所述数据源相对应的所述目标数据集合,
其中,所述倒排索引表包括以下至少一项:
所述数据集合中的至少一个数据各自的数据源标识、所述至少一个数据各自的存储位置信息、与所述至少一个数据各自一一对应的至少一个数据子标识集合。
5.根据权利要求4所述的方法,还包括:
确定所述数据集合中的至少一个数据各自的数据源标识;
确定所述数据集合中的至少一个数据各自的存储位置信息;
按照预定分词规则对所述至少一个数据各自的数据标识进行切分,生成与所述至少一个数据各自一一对应的至少一个数据子标识集合;以及
基于所述数据源标识、存储位置信息以及所述至少一个数据子标识集合,生成所述倒排索引表。
6.根据权利要求3所述的方法,其中,所述按照所述倒排索引方式,基于倒排索引表,从所述目标数据集合中确定与所述至少一个检索子信息相匹配的至少一个检索数据包括:
针对所述至少一个检索子信息中的每个检索子信息,基于所述倒排索引表,从所述至少一个数据子标识集合中确定与所述检索子信息相匹配的至少一个数据子标识,生成数据子标识子集合;以及
基于所述倒排索引表中的存储位置信息,对所述数据子标识子集合中的数据子标识进行交集处理,从所述目标数据集合中确定与所述至少一个检索子信息相匹配的至少一个检索数据。
7.根据权利要求3所述的方法,其中,所述从所述至少一个检索数据中确定所述目标数据包括:
响应于第一检索指令,按照字符串匹配规则从所述至少一个检索数据中确定所述目标数据,其中,所述目标数据的数据标识与所述检索信息之间符合所述字符串匹配规则;以及
响应于第二检索指令,按照相似度匹配规则从所述至少一个检索数据中确定所述目标数据,其中,所述目标数据的数据标识与所述检索信息之间符合所述相似度匹配规则。
8.根据权利要求3或5所述的方法,其中,所述预定分词规则包括以下至少一项:
以中文字为单位进行切分、以英文单词为单位进行切分、以字符串为单位进行切分。
9.一种检索装置,包括:
第一确定模块,用于针对检索信息,确定与所述检索信息相对应的数据源;
第二确定模块,用于确定与所述数据源相对应的目标数据集合;以及
第三确定模块,用于从所述目标数据集合中,确定与所述检索信息相匹配的目标数据。
10.根据权利要求9所述的装置,其中,所述第三确定模块包括:
倒排索引子模块,用于按照倒排索引方式,从所述目标数据集合中确定与所述检索信息相匹配的目标数据。
11.根据权利要求10所述的装置,其中,所述倒排索引子模块包括:
切分单元,用于按照预定分词规则对所述检索信息进行切分,生成至少一个检索子信息;
第一确定单元,用于按照所述倒排索引方式,基于倒排索引表,从所述目标数据集合中确定与所述至少一个检索子信息相匹配的至少一个检索数据;以及
第二确定单元,用于从所述至少一个检索数据中确定所述目标数据。
12.根据权利要求11所述的装置,还包括:
存储模块,用于通过将数据集合按照键值存储方式进行存储,生成所述倒排索引表,以便基于所述倒排索引表,从所述数据集合中确定与所述数据源相对应的所述目标数据集合,
其中,所述倒排索引表包括以下至少一项:
所述数据集合中的至少一个数据各自的数据源标识、所述至少一个数据各自的存储位置信息、与所述至少一个数据各自一一对应的至少一个数据子标识集合。
13.根据权利要求12所述的装置,还包括:
标识确定模块,用于确定所述数据集合中的至少一个数据各自的数据源标识;
位置确定模块,用于确定所述数据集合中的至少一个数据各自的存储位置信息;
切分模块,用于按照预定分词规则对所述至少一个数据各自的数据标识进行切分,生成与所述至少一个数据各自一一对应的至少一个数据子标识集合;以及
生成模块,用于基于所述数据源标识、存储位置信息以及所述至少一个数据子标识集合,生成所述倒排索引表。
14.根据权利要求11所述的装置,其中,所述第一确定单元包括:
生成子单元,用于针对所述至少一个检索子信息中的每个检索子信息,基于所述倒排索引表,从所述至少一个数据子标识集合中确定与所述检索子信息相匹配的至少一个数据子标识,生成数据子标识子集合;以及
交集子单元,用于基于所述倒排索引表中的存储位置信息,对所述数据子标识子集合中的数据子标识进行交集处理,从所述目标数据集合中确定与所述至少一个检索子信息相匹配的至少一个检索数据。
15.根据权利要求11所述的装置,其中,所述第二确定单元包括:
第一响应子单元,用于响应于第一检索指令,按照字符串匹配规则从所述至少一个检索数据中确定所述目标数据,其中,所述目标数据的数据标识与所述检索信息之间符合所述字符串匹配规则;以及
第二响应子单元,用于响应于第二检索指令,按照相似度匹配规则从所述至少一个检索数据中确定所述目标数据,其中,所述目标数据的数据标识与所述检索信息之间符合所述相似度匹配规则。
16.根据权利要求11或13所述的装置,其中,所述预定分词规则包括以下至少一项:
以中文字为单位进行切分、以英文单词为单位进行切分、以字符串为单位进行切分。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的方法。
CN202111502498.8A 2021-12-08 2021-12-08 检索方法、装置、电子设备以及存储介质 Pending CN114154072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111502498.8A CN114154072A (zh) 2021-12-08 2021-12-08 检索方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111502498.8A CN114154072A (zh) 2021-12-08 2021-12-08 检索方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114154072A true CN114154072A (zh) 2022-03-08

Family

ID=80453885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111502498.8A Pending CN114154072A (zh) 2021-12-08 2021-12-08 检索方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114154072A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302810A (zh) * 2014-06-12 2016-02-03 北京搜狗科技发展有限公司 一种信息搜索方法和装置
CN110245215A (zh) * 2019-06-05 2019-09-17 阿里巴巴集团控股有限公司 一种文本检索方法和装置
CN110647537A (zh) * 2019-09-24 2020-01-03 中国联合网络通信集团有限公司 数据搜索方法、装置及存储介质
CN110765275A (zh) * 2019-10-14 2020-02-07 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
CN113407586A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 数据检索方法、装置、办公***、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302810A (zh) * 2014-06-12 2016-02-03 北京搜狗科技发展有限公司 一种信息搜索方法和装置
CN110245215A (zh) * 2019-06-05 2019-09-17 阿里巴巴集团控股有限公司 一种文本检索方法和装置
CN110647537A (zh) * 2019-09-24 2020-01-03 中国联合网络通信集团有限公司 数据搜索方法、装置及存储介质
CN110765275A (zh) * 2019-10-14 2020-02-07 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
CN113407586A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 数据检索方法、装置、办公***、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN107256267B (zh) 查询方法和装置
US9626440B2 (en) Tenantization of search result ranking
US9244991B2 (en) Uniform search, navigation and combination of heterogeneous data
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US20130060769A1 (en) System and method for identifying social media interactions
US11030242B1 (en) Indexing and querying semi-structured documents using a key-value store
CN112883248B (zh) 信息推送方法、装置以及电子设备
US10303704B2 (en) Processing a data set that is not organized according to a schema being used for organizing data
US11481454B2 (en) Search engine results for low-frequency queries
US20230169134A1 (en) Annotation and retrieval of personal bookmarks
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN114610845A (zh) 基于多***的智能问答方法、装置和设备
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN110245357B (zh) 主实体识别方法和装置
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
CN115510247A (zh) 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN114154072A (zh) 检索方法、装置、电子设备以及存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN109978645B (zh) 一种数据推荐方法和装置
CN111639099A (zh) 全文索引方法及***
CN115794984B (zh) 数据存储方法、数据检索方法、装置、设备以及介质
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination