CN114385922A - 一种基于布隆滤波器的图书馆***知识推荐方法 - Google Patents

一种基于布隆滤波器的图书馆***知识推荐方法 Download PDF

Info

Publication number
CN114385922A
CN114385922A CN202210049269.3A CN202210049269A CN114385922A CN 114385922 A CN114385922 A CN 114385922A CN 202210049269 A CN202210049269 A CN 202210049269A CN 114385922 A CN114385922 A CN 114385922A
Authority
CN
China
Prior art keywords
bloom filter
document
book
documents
books
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210049269.3A
Other languages
English (en)
Inventor
陈俊
张耀
吴秀华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Afadi Intelligent Digital Technology Co ltd
Original Assignee
Shanghai Afadi Intelligent Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Afadi Intelligent Digital Technology Co ltd filed Critical Shanghai Afadi Intelligent Digital Technology Co ltd
Priority to CN202210049269.3A priority Critical patent/CN114385922A/zh
Publication of CN114385922A publication Critical patent/CN114385922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于布隆滤波器的图书馆***知识推荐方法,包括步骤:一、确定用于图书馆***知识推荐的布隆滤波器的整体结构和参数;所述参数包括布隆滤波器位数和哈希函数的个数;二、对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储;三、对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献;其中,N的取值为非0自然数。本发明不需要保存每本图书/文献的关键词文字信息,只需要保存特定结构的布隆滤波器信息,数据结构固定;图书/文献相似度比较时不需要进行关键字匹配,只需要根据各自布隆滤波器之间按位比较,就可以判断相似度,计算更加简单高效,提高了推荐效率。

Description

一种基于布隆滤波器的图书馆***知识推荐方法
技术领域
本发明属于图书管理***技术领域,具体涉及一种基于布隆滤波器的图书馆***知识推荐方法。
背景技术
推荐技术发展由来已久,常用的推荐技术包括协同过滤推荐、基于知识的推荐等。其中协同过滤推荐又分为基于用户的协同过滤和基于项目的协同过滤;基于知识的推荐根据对用户需要的形式化表示进行推荐。已有的推荐技术,在根据用户历史行为预测将来行为方面可以获得很好的效果,其中协同过滤技术广泛应用于各类商业推荐***中;基于知识的推荐***更加侧重某个细分领域的推荐,且需要专家知识的介入,适用于规模较小且规律较明显的***。
图书馆***知识推荐***中,重点在于怎样根据图书/文献之间的相似度进行关联程度的判断。采用用户历史操作的方法需要记录大量的用户借阅/下载记录,且存在用户/项目的冷启动问题;采用专家知识推荐的方法,可以将图书/文献按照图书分类法进行大类划分,但是这种划分方式粒度太粗,对关联图书/文献的推荐不够准确。
利用图书/文献的关键词信息进行匹配查找,是一种比较容易想到的图书/文献关联推荐方法,但是已有的利用关键词的推荐方法,大多基于关键词的字符串匹配,该方法存在以下两点缺陷:1、需要记录***所有关键词,记录数量庞大,且格式不统一;2、需要对关键字逐个进行字符串匹配,计算开销较大。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于布隆滤波器的图书馆***知识推荐方法,其不需要保存每本图书/文献的关键词文字信息,只需要保存特定结构的布隆滤波器信息,数据结构固定;图书/文献相似度比较时不需要进行关键字匹配,只需要根据各自布隆滤波器之间按位比较,就可以判断相似度,计算更加简单高效,提高了推荐效率。
为解决上述技术问题,本发明采用的技术方案是:一种基于布隆滤波器的图书馆***知识推荐方法,该方法包括以下步骤:
步骤一、确定用于图书馆***知识推荐的布隆滤波器的整体结构和参数;所述参数包括根据图书馆***文献的关键词数量和布隆滤波器失误率确定的布隆滤波器位数,以及根据图书馆***文献的关键词数量和布隆滤波器位数确定的用于将每个图书馆***文献的关键词信息映射到布隆滤波器中的哈希函数的个数;
步骤二、对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储;
步骤三、对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献;其中,N的取值为非0自然数。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤三之后还包括步骤四、从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤一中所述布隆滤波器位数采用公式
Figure BDA0003473112200000031
确定,单位为bit;步骤一种所述哈希函数的个数采用公式
Figure BDA0003473112200000032
确定;其中,m为布隆滤波器位数,k为哈希函数的个数,n为图书馆***文献的关键词数量,p为布隆滤波器失误率。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤一中所述哈希函数包括非加密型哈希函数murmur hash。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤二中所述对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储的具体方法为:将将每本图书/文献的每个关键词,用步骤一中的多个哈希函数分别哈希,并将该图书/文献所有关键词的哈希结果按位异或存储到该图书/文献对应的布隆滤波器结构中。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤三中所述对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的具体方法为:对某本图书/文献,将其布隆滤波器结构和其他图书/文献的布隆滤波器结构依次进行按位异或操作,异或操作之后,布隆滤波器结构中1的个数作为两本图书/文献的相似度评判值,遍历所有图书/文献,找到相似度评判值最高的前N本图书/文献,作为该图书/文献的关联图书/文献。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,所述N的取值为10~60的非0自然数。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,步骤四中所述从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献的具体方法为:
步骤401、用户每借阅过一本图书/文献,就将该图书/文献存储在已借阅数组中,且没隔时间段T清零一次;
步骤402、将已借阅数组中的图书/文献,分别通过hash函数计算形成多个哈希表;
步骤403、将关联性最大的前N本图书/文献进行hash函数计算得到计算结果;
步骤404、将步骤403中的计算结果与步骤402中的多个哈希表进行匹配,当匹配成功时,判断为图书/文献在时间段T内被用户借阅过,去除推荐;否则,当匹配不成功时,判断为图书/文献在时间段T内未被用户借阅过,继续推荐。
上述的一种基于布隆滤波器的图书馆***知识推荐方法,所述时间段T为1~6个月。
本发明与现有技术相比具有以下优点:
1、本发明基于布隆滤波器进行图书馆***知识推荐,不需要保存每本图书/文献的关键词文字信息,只需要保存特定结构的布隆滤波器信息,数据结构固定。
2、本发明图书/文献相似度比较时不需要进行关键字匹配,只需要根据各自布隆滤波器之间按位比较,就可以判断相似度,计算更加简单高效,提高了推荐效率。
3、本发明通过加入从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献的步骤,能够进一步为用户提供更好更优质的推荐服务,节省用于查看之前重复看过的图书/文献的时间。
4、本发明的实用性强,推广应用价值高。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例1的方法流程框图;
图2为本发明实施例2的方法流程框图。
具体实施方式
实施例1
如图1所示,本实施例的基于布隆滤波器的图书馆***知识推荐方法,包括以下步骤:
步骤一、确定用于图书馆***知识推荐的布隆滤波器的整体结构和参数;所述参数包括根据图书馆***文献的关键词数量和布隆滤波器失误率确定的布隆滤波器位数,以及根据图书馆***文献的关键词数量和布隆滤波器位数确定的用于将每个图书馆***文献的关键词信息映射到布隆滤波器中的哈希函数的个数;
本实施例中,步骤一中所述布隆滤波器位数采用公式
Figure BDA0003473112200000051
确定,单位为bit;步骤一种所述哈希函数的个数采用公式
Figure BDA0003473112200000052
确定;其中,m为布隆滤波器位数,k为哈希函数的个数,n为图书馆***文献的关键词数量,p为布隆滤波器失误率。
本实施例中,步骤一中所述哈希函数包括非加密型哈希函数murmur hash。
具体实施时,还可以选择其他已有字符串哈希函数,如BKDRHash、APHash、DJBHash、JSHash、RSHash、SDBMHash、PJWHash、ELFHash等。
步骤二、对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储;
本实施例中,步骤二中所述对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储的具体方法为:将将每本图书/文献的每个关键词,用步骤一中的多个哈希函数分别哈希,并将该图书/文献所有关键词的哈希结果按位异或存储到该图书/文献对应的布隆滤波器结构中。
本实施例中,是将将每本图书/文献的每个关键词,用步骤一中的k个哈希函数分别哈希,每个哈希函数的哈希结果是m个bit。
步骤三、对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献;其中,N的取值为非0自然数。
本实施例中,步骤三中所述对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的具体方法为:对某本图书/文献,将其布隆滤波器结构和其他图书/文献的布隆滤波器结构依次进行按位异或操作,异或操作之后,布隆滤波器结构中1的个数作为两本图书/文献的相似度评判值,遍历所有图书/文献,找到相似度评判值最高的前N本图书/文献,作为该图书/文献的关联图书/文献。
本实施例中,所述N的取值为10~60的非0自然数。
本实施例中,步骤三中对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的逻辑伪代码为:
1)提取其布隆滤波器结构BFi
2)初始化top N条目为空;
3)对每个其他图书/文献bookItemj
a)提取其布隆滤波器结构BFi
b)计算BFi与BFi的异或结果中1的个数,作为bookItemi
bookItemj的相似度评判值;
c)与bookItemi的top N条目相似度评判值比较,更新bookItemi的top N条目;
得到bookItemi的top N关联图书/文献。
实施例2
如图2所示,本实施例的基于布隆滤波器的图书馆***知识推荐方法,包括以下步骤:
步骤一、确定用于图书馆***知识推荐的布隆滤波器的整体结构和参数;所述参数包括根据图书馆***文献的关键词数量和布隆滤波器失误率确定的布隆滤波器位数,以及根据图书馆***文献的关键词数量和布隆滤波器位数确定的用于将每个图书馆***文献的关键词信息映射到布隆滤波器中的哈希函数的个数;
本实施例中,步骤一中所述布隆滤波器位数采用公式
Figure BDA0003473112200000071
确定,单位为bit;步骤一种所述哈希函数的个数采用公式
Figure BDA0003473112200000072
确定;其中,m为布隆滤波器位数,k为哈希函数的个数,n为图书馆***文献的关键词数量,p为布隆滤波器失误率。
本实施例中,步骤一中所述哈希函数包括非加密型哈希函数murmur hash。
具体实施时,还可以选择其他已有字符串哈希函数,如BKDRHash、APHash、DJBHash、JSHash、RSHash、SDBMHash、PJWHash、ELFHash等。
步骤二、对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储;
本实施例中,步骤二中所述对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储的具体方法为:将将每本图书/文献的每个关键词,用步骤一中的多个哈希函数分别哈希,并将该图书/文献所有关键词的哈希结果按位异或存储到该图书/文献对应的布隆滤波器结构中。
本实施例中,是将将每本图书/文献的每个关键词,用步骤一中的k个哈希函数分别哈希,每个哈希函数的哈希结果是m个bit。
步骤三、对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献;其中,N的取值为非0自然数;
本实施例中,步骤三中所述对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的具体方法为:对某本图书/文献,将其布隆滤波器结构和其他图书/文献的布隆滤波器结构依次进行按位异或操作,异或操作之后,布隆滤波器结构中1的个数作为两本图书/文献的相似度评判值,遍历所有图书/文献,找到相似度评判值最高的前N本图书/文献,作为该图书/文献的关联图书/文献。
本实施例中,所述N的取值为10~60的非0自然数。
本实施例中,步骤三中对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的逻辑伪代码为:
1)提取其布隆滤波器结构BFi
2)初始化top N条目为空;
3)对每个其他图书/文献bookItemj
a)提取其布隆滤波器结构BFi
b)计算BFi与BFi的异或结果中1的个数,作为bookItemi
bookItemj的相似度评判值;
c)与bookItemi的top N条目相似度评判值比较,更新bookItemi的top N条目;
得到bookItemi的top N关联图书/文献。
步骤四、从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献。
本实施例中,步骤四中所述从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献的具体方法为:
步骤401、用户每借阅过一本图书/文献,就将该图书/文献存储在已借阅数组中,且没隔时间段T清零一次;
步骤402、将已借阅数组中的图书/文献,分别通过hash函数计算形成多个哈希表;
本实施例中,hash函数采用与步骤一中相同的哈希函数;
步骤403、将关联性最大的前N本图书/文献进行hash函数计算得到计算结果;
步骤404、将步骤403中的计算结果与步骤402中的多个哈希表进行匹配,当匹配成功时,判断为图书/文献在时间段T内被用户借阅过,去除推荐;否则,当匹配不成功时,判断为图书/文献在时间段T内未被用户借阅过,继续推荐。
本实施例中,所述时间段T为1~6个月。
本实施例与实施例1相比,通过增加步骤四,去除用户在时间段T内已借阅过的图书/文献,除了具有实施例1中方法的优点外,能够进一步为用户提供更好更优质的推荐服务,节省用于查看之前重复看过的图书/文献的时间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (9)

1.一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:该方法包括以下步骤:
步骤一、确定用于图书馆***知识推荐的布隆滤波器的整体结构和参数;所述参数包括根据图书馆***文献的关键词数量和布隆滤波器失误率确定的布隆滤波器位数,以及根据图书馆***文献的关键词数量和布隆滤波器位数确定的用于将每个图书馆***文献的关键词信息映射到布隆滤波器中的哈希函数的个数;
步骤二、对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储;
步骤三、对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献;其中,N的取值为非0自然数。
2.按照权利要求1所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤三之后还包括步骤四、从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献。
3.按照权利要求1或2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤一中所述布隆滤波器位数采用公式
Figure FDA0003473112190000011
确定,单位为bit;步骤一种所述哈希函数的个数采用公式
Figure FDA0003473112190000012
确定;其中,m为布隆滤波器位数,k为哈希函数的个数,n为图书馆***文献的关键词数量,p为布隆滤波器失误率。
4.按照权利要求1或2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤一中所述哈希函数包括非加密型哈希函数murmur hash。
5.按照权利要求1或2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤二中所述对每本图书/文献,建立对应的布隆滤波器结构,作为其属性之一进行存储的具体方法为:将将每本图书/文献的每个关键词,用步骤一中的多个哈希函数分别哈希,并将该图书/文献所有关键词的哈希结果按位异或存储到该图书/文献对应的布隆滤波器结构中。
6.按照权利要求1或2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤三中所述对每本图书/文献,根据布隆滤波器结构判断关联性最大的前N本图书/文献的具体方法为:对某本图书/文献,将其布隆滤波器结构和其他图书/文献的布隆滤波器结构依次进行按位异或操作,异或操作之后,布隆滤波器结构中1的个数作为两本图书/文献的相似度评判值,遍历所有图书/文献,找到相似度评判值最高的前N本图书/文献,作为该图书/文献的关联图书/文献。
7.按照权利要求1或2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:所述N的取值为10~60的非0自然数。
8.按照权利要求2所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:步骤四中所述从关联性最大的前N本图书/文献中,去除用户在时间段T内已借阅过的图书/文献的具体方法为:
步骤401、用户每借阅过一本图书/文献,就将该图书/文献存储在已借阅数组中,且没隔时间段T清零一次;
步骤402、将已借阅数组中的图书/文献,分别通过hash函数计算形成多个哈希表;
步骤403、将关联性最大的前N本图书/文献进行hash函数计算得到计算结果;
步骤404、将步骤403中的计算结果与步骤402中的多个哈希表进行匹配,当匹配成功时,判断为图书/文献在时间段T内被用户借阅过,去除推荐;否则,当匹配不成功时,判断为图书/文献在时间段T内未被用户借阅过,继续推荐。
9.按照权利要求8所述的一种基于布隆滤波器的图书馆***知识推荐方法,其特征在于:所述时间段T为1~6个月。
CN202210049269.3A 2022-01-17 2022-01-17 一种基于布隆滤波器的图书馆***知识推荐方法 Pending CN114385922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210049269.3A CN114385922A (zh) 2022-01-17 2022-01-17 一种基于布隆滤波器的图书馆***知识推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210049269.3A CN114385922A (zh) 2022-01-17 2022-01-17 一种基于布隆滤波器的图书馆***知识推荐方法

Publications (1)

Publication Number Publication Date
CN114385922A true CN114385922A (zh) 2022-04-22

Family

ID=81200883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210049269.3A Pending CN114385922A (zh) 2022-01-17 2022-01-17 一种基于布隆滤波器的图书馆***知识推荐方法

Country Status (1)

Country Link
CN (1) CN114385922A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739028A (zh) * 2023-08-15 2023-09-12 深圳市海恒智能股份有限公司 一种纸电书籍一体化自动管理的方法、***及图书架

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224600A (zh) * 2015-08-31 2016-01-06 北京奇虎科技有限公司 一种样本相似度的检测方法及装置
CN105577455A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 一种对海量日志进行实时uv统计的方法及***
CN109977976A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 可执行文件相似度的检测方法、装置和计算机设备
WO2020022536A1 (ko) * 2018-07-27 2020-01-30 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
CN110781386A (zh) * 2019-10-10 2020-02-11 支付宝(杭州)信息技术有限公司 信息推荐、布隆过滤器的创建方法及装置
CN111159436A (zh) * 2018-11-07 2020-05-15 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
CN112527433A (zh) * 2020-12-08 2021-03-19 平安科技(深圳)有限公司 页面弹窗控制方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224600A (zh) * 2015-08-31 2016-01-06 北京奇虎科技有限公司 一种样本相似度的检测方法及装置
CN105577455A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 一种对海量日志进行实时uv统计的方法及***
CN109977976A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 可执行文件相似度的检测方法、装置和计算机设备
WO2020022536A1 (ko) * 2018-07-27 2020-01-30 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
CN111159436A (zh) * 2018-11-07 2020-05-15 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
CN110781386A (zh) * 2019-10-10 2020-02-11 支付宝(杭州)信息技术有限公司 信息推荐、布隆过滤器的创建方法及装置
CN112527433A (zh) * 2020-12-08 2021-03-19 平安科技(深圳)有限公司 页面弹窗控制方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739028A (zh) * 2023-08-15 2023-09-12 深圳市海恒智能股份有限公司 一种纸电书籍一体化自动管理的方法、***及图书架

Similar Documents

Publication Publication Date Title
US20230125566A1 (en) Long string pattern matching of aggregated account data
US6493709B1 (en) Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US20190332606A1 (en) A system and method for processing big data using electronic document and electronic file-based system that operates on RDBMS
CN102725755B (zh) 文件访问方法及***
US9697301B2 (en) Systems and methods for standardization and de-duplication of addresses using taxonomy
WO2008106668A1 (en) User query mining for advertising matching
KR20120018226A (ko) 검색 부하들에 따라 균형이 맞춰지는 지문 데이터베이스를 갖는 미디어 식별 시스템
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN112579155A (zh) 代码相似性检测方法、装置以及存储介质
CN110990676A (zh) 一种社交媒体热点主题提取方法与***
CA3171740A1 (en) Context driven data profiling
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
CN114385922A (zh) 一种基于布隆滤波器的图书馆***知识推荐方法
CN107784027A (zh) 一种裁判文书检索关键词的提示方法及装置
CN109656929B (zh) 一种雕复关系型数据库文件的方法及装置
CN116821053B (zh) 数据上报方法、装置、计算机设备和存储介质
Manalu et al. The Development of Document Similarity Detector by Jaccard Formulation
CN111931233B (zh) 基于区块链和本地化差分隐私保护的信息推荐方法及***
CN109063097B (zh) 基于区块链的数据对比及共识方法
Viji et al. Hash-Indexing Block-Based Deduplication Algorithm for Reducing Storage in the Cloud.
Arbitman et al. Approximate hashing for bioinformatics
TWI518531B (zh) 檔案搜尋系統及其方法
Chauhan et al. A parallel computational approach for similarity search using Bloom filters
CN113609123B (zh) 基于HBase的海量用户数据去重存储的方法及装置
US9747368B1 (en) Batch reconciliation of music collections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220422