CN112434070A - 一种基于相似度算法的分页查询方法 - Google Patents
一种基于相似度算法的分页查询方法 Download PDFInfo
- Publication number
- CN112434070A CN112434070A CN202011466707.3A CN202011466707A CN112434070A CN 112434070 A CN112434070 A CN 112434070A CN 202011466707 A CN202011466707 A CN 202011466707A CN 112434070 A CN112434070 A CN 112434070A
- Authority
- CN
- China
- Prior art keywords
- data
- requiredlist
- similarity
- datalist
- paging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于相似度算法的分页查询方法,包括以下步骤:步骤1:查询出数据表中需要进行排序的需求数据;步骤2:新建一个空集合requiredList用于保存计算了相似度后,相似数据已相邻集中排列的数据;步骤3:根据余弦相似度算法进行排序计算;步骤4:对于dataList中除[数据1]之外的剩余需求数据进行遍历处理;步骤5:对最终所取得requiredList中的数据进行自定义分页,得到的数据即为相似数据集中展示的结果。通过相似度算法对查询结果数据进行排序及分页的方法;利用算法解决了分页查询无法将相似数据集中排列排序及查询性能降低的问题,有效提升了查询效率。
Description
技术领域
本发明涉及分页查询领域,更具体的说是涉及一种基于相似度算法的分页查询方法。
背景技术
在通常的分页排序方法中,大多采用通过数据库(如mysql等)的排序方法查询,利用LIMIT限制获取数据的起始值来获取指定页的数据。但使用此种方法会存在两个问题:一是通常数据库中排序方式为按首字母排序或按数据字段编码排序,如果需要将相似数据集中排列则无法做到,如ABCDEFG和ADBCEFG在一定情况下认为是相似数据,但使用通常的方法在这两条数据之间会夹杂大量如AC……的数据;二是每一次的换页查询均会请求一次数据库,而多次进行数据库的查询操作会将时间耗费在打开连接上,导致效率低下。
发明内容
本发明的目的在于提供一种基于相似度算法的分页查询方法,以期解决背景技术中的问题。本专利利用相似度算法,解决了分页查询无法将相似数据集中排列排序及查询性能降低的问题,有效提升了查询效率。
为了实现上述目的,本发明采用以下技术方案:
一种基于相似度算法的分页查询方法,包括以下步骤:
步骤1:查询出数据表中需要进行排序的需求数据;
步骤2:新建一个空集合requiredList用于保存计算了相似度后,相似数据已相邻集中排列的数据;
步骤3:根据余弦相似度算法进行排序计算;
步骤4:对于dataList中除[数据1]之外的剩余需求数据进行遍历处理;
步骤5:对最终所取得requiredList中的数据进行自定义分页,得到的数据即为相似数据集中展示的结果。
进一步的,所述步骤1,具体包括:
步骤1.1:建立一个对象集合dataList,用于保存从数据表中查询所得的数据;
步骤1.2:通过查询条件,使用select…from…where…语句查询出对应满足查询条件的所有数据[数据1,数据2……数据n-1,数据n];
步骤1.3:将步骤1.3中查询所得到的[数据1,数据2……数据n-1,数据n],保存到步骤1.1中所建的对象集合dataList中。
进一步的,所述步骤2中所创建的空集合requiredList,其类型与步骤1.1中所建立的对象集合dataList类型一致,区别在于其中数据的排列顺序不同。
进一步的,所述步骤3,具体包括:
步骤3.1:从步骤1得到的dataList数据集合中的数据里选取出每条数据需要进行相似度计算的关键字,选出的关键字字段对应的值用于后续计算相似度;
步骤3.2:设置一个预定值A作为数据相似度的判断标准阈值,采用余弦相似度算法,其计算公式为:
其中,xi指[数据m-1,数据m]中[数据m-1]中某个字母出现的次数,yi指[数据m-1,数据m]中[数据m]中此字母出现的次数,k指[数据m-1,数据m]中字母的个数,m为3≤m≤n的整数;预定值A的取值范围为0~1。
步骤3.3:将步骤1得到的dataList中的第一个数据[数据1]保存至步骤2创建的requiredList集合中,根据余弦相似度算法计算出此[数据1]与dataList集合中其余数据[数据2……数据n-1,数据n]的相似度a(1),a(2)……a(n-2),a(n-1),若相似度a(i)大于步骤3.2所设定的预定值A,则认为此条数据与[数据1]相似,若a<A则认为与[数据1]不相似;
步骤3.4:将步骤3.3中计算出的所有相似度大于A的数据按顺序保存到步骤2中所创建的集合requiredList中。
进一步的,所述步骤4,具体包括:
步骤4.1:首先判断[数据x]是否已经保存在步骤2创建的集合requiredList中;其中,[数据x]为[数据2……数据n-1,数据n]中的任一一个数据;
步骤4.2:如果该数据已存在于步骤2创建的集合requiredList中,则获取下一个数据重新执行步骤4,
步骤4.3:如果数据不存在于步骤2创建的集合requiredList中,则将[数据1]替换为[数据x]后重复步骤3中的步骤3.3和步骤3.4进行相似度计算,将结果保存至集合requiredList中;
步骤4.4:获取下一个数据重新执行步骤4直到需求数据集合dataList中的最后一条数据也保存至集合requiredList中。
进一步的,所述步骤5,具体包括:
步骤5.1:建立一个集合pageDataList,保存分页后的数据;
步骤5.2:获取到需要展示的页码数pageNum及每页的数据量pageSize,此两条数据由前端作为分页参数传入;
步骤5.3:计算数据总数totalCount:取requiredList集合的大小作为数据总数;总页数totalPageNum:取数据总数除以每页数据量向上取整;
步骤5.4:根据步骤5.1获取的页码数及每页数据量计算出当前页需要展示的数据位于requiredList集合中的位置;其中开始位置startNum=(pageNum-1)*pageSize;结束位置endNum=pageNum*pageSize-1;
步骤5.5:从requiredList中取出第startNum~endNum位的数据存入步骤5.1建立的集合pageDataList中,此时获得的pageDataList集合即为相似数据集中且分页展示的数据。
本发明与现有技术相比具有的有益效果是:
通过相似度算法对查询结果数据进行排序及分页的方法;利用算法解决了分页查询无法将相似数据集中排列排序及查询性能降低的问题,有效提升了查询效率。
附图说明
图1为本发明的一种基于相似度算法的分页查询方法的流程图;
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
实施例1:
一种基于相似度算法的分页查询方法,包括以下步骤:
步骤1:查询出数据表(如mysql或oracle等数据库)中需要进行排序的需求数据;
步骤1.1:建立一个对象集合dataList,用于保存从数据表中查询所得的数据;
步骤1.2:通过查询条件,使用select…from…where…语句查询出对应满足查询条件的所有数据[数据1,数据2……数据n-1,数据n];
步骤1.3:将步骤1.3中查询所得到的[数据1,数据2……数据n-1,数据n],保存到步骤1.1中所建的对象集合dataList中。
步骤2:新建一个空集合requiredList用于保存计算了相似度后,相似数据已相邻集中排列的数据;所述步骤2中所创建的空集合requiredList,其类型与步骤1.1中所建立的对象集合dataList类型一致,区别在于其中数据的排列顺序不同。
步骤3:根据余弦相似度算法进行排序计算;
步骤3.1:从步骤1得到的dataList数据集合中的数据里选取出每条数据需要进行相似度计算的关键字,选出的关键字字段对应的值用于后续计算相似度;
步骤3.2:设置一个预定值A作为数据相似度的判断标准阈值,采用余弦相似度算法,其计算公式为:
其中,xi指[数据m-1,数据m]中[数据m-1]中某个字母出现的次数,yi指[数据m-1,数据m]中[数据m]中此字母出现的次数,k指[数据m-1,数据m]中字母的个数,m为3≤m≤n的整数;预定值A的取值范围为0~1。
步骤3.3:将步骤1得到的dataList中的第一个数据[数据1]保存至步骤2创建的requiredList集合中,根据余弦相似度算法计算出此[数据1]与dataList集合中其余数据[数据2……数据n-1,数据n]的相似度a(1),a(2)……a(n-2),a(n-1),若相似度a(i)大于步骤3.2所设定的预定值A,则认为此条数据与[数据1]相似,若a<A则认为与[数据1]不相似;
步骤3.4:将步骤3.3中计算出的所有相似度大于A(即与[数据1]相似)的数据按顺序保存到步骤2中所创建的集合requiredList中。
步骤4:对于dataList中除[数据1]之外的剩余需求数据进行遍历处理;
步骤4.1:首先判断[数据x]是否已经保存在步骤2创建的集合requiredList中;其中,[数据x]为[数据2……数据n-1,数据n]中的任一一个数据;
步骤4.2:如果该数据已存在于步骤2创建的集合requiredList中,则获取下一个数据重新执行步骤4,
步骤4.3:如果数据不存在于步骤2创建的集合requiredList中,则将[数据1]替换为[数据x]后重复步骤3中的步骤3.3和步骤3.4进行相似度计算,将结果保存至集合requiredList中;
步骤4.4:获取下一个数据重新执行步骤4直到需求数据集合dataList中的最后一条数据也保存至集合requiredList中。
步骤5:对最终所取得requiredList中的数据进行自定义分页,得到的数据即为相似数据集中展示的结果。
步骤5.1:建立一个集合pageDataList,保存分页后的数据;
步骤5.2:获取到需要展示的页码数pageNum及每页的数据量pageSize,此两条数据由前端作为分页参数传入;
步骤5.3:计算数据总数totalCount:取requiredList集合的大小作为数据总数;总页数totalPageNum:取数据总数除以每页数据量向上取整;
步骤5.4:根据步骤5.1获取的页码数及每页数据量计算出当前页需要展示的数据位于requiredList集合中的位置(即数据的起始位置);其中开始位置startNum=(pageNum-1)*pageSize;结束位置endNum=pageNum*pageSize-1;
步骤5.5:从requiredList中取出第startNum~endNum位的数据存入步骤5.1建立的集合pageDataList中,此时获得的pageDataList集合即为相似数据集中且分页展示的数据。
下面结合附图,通过具体的余弦相似度算法来详细描述本发明的具体实施例,如图1所示,具体的工作流程如下:
步骤1:从数据库表table中按指定字段englishName对应值的首字母排序查询出全部数据,将数据存入集合dataList中。
步骤2:创建对象集合List<Object>requiredList,用于保存计算了相似度后的数据。
步骤3:设定一个相似度判定阈值A=0.7
步骤4:遍历dataList,对dataList中每一个数据进行处理及判断:
4.1:取出数据data=dataList.get(i),判断data是否存在requiredList中,若存在则取下一个数据继续判断,不存在则进行下一步计算。
4.2:根据余弦相似度算法依次计算data的englishName字段与dataList中剩下数据englisName字段的相似度,计算结果为a,b,c,d……
4.3:将数据data及相似度计算结果大于A的数据依次存入requiredList集合中。
步骤5:对处理后得到的requiredList集合进行自定义分页:
5.1:获取前端传入的页码数pageNum及每页的数据量pageSize。
5.2:建立一个集合pageDataList,类型与(2)中创建的requiredList一致,保存分页后的数据;
5.3:计算数据总数totalCount:取requiredList集合的大小作为数据总数;总页数totalPageNum:取数据总数totalCount除以每页数据量pageSize向上取整
5.4:根据5.1获取的pageNum及pageSize计算出当前页需要展示的数据位于requiredList集合中的位置(即数据的起始位置):其中开始位置startNum=(pageNum-1)*pageSize;结束位置endNum=pageNum*pageSize-1;
5.5:从requiredList中取出第startNum~endNum位的数据存入5.2建立的集合pageDataList中,此时获得的pageDataList集合即为相似数据集中且分页展示的数据。
以上所述仅为本发明较佳实例而已,本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (6)
1.一种基于相似度算法的分页查询方法,其特征在于,包括以下步骤:
步骤1:查询出数据表中需要进行排序的需求数据;
步骤2:新建一个空集合requiredList用于保存计算了相似度后,相似数据已相邻集中排列的数据;
步骤3:根据余弦相似度算法进行排序计算;
步骤4:对于dataList中除[数据1]之外的剩余需求数据进行遍历处理;
步骤5:对最终所取得requiredList中的数据进行自定义分页,得到的数据即为相似数据集中展示的结果。
2.根据权利要求1所述的一种基于相似度算法的分页查询方法,其特征在于,所述步骤1,具体包括:
步骤1.1:建立一个对象集合dataList,用于保存从数据表中查询所得的数据;
步骤1.2:通过查询条件,使用select…from…where…语句查询出对应满足查询条件的所有数据[数据1,数据2……数据n-1,数据n];
步骤1.3:将步骤1.3中查询所得到的[数据1,数据2……数据n-1,数据n],保存到步骤1.1中所建的对象集合dataList中。
3.根据权利要求2所述的一种基于相似度算法的分页查询方法,其特征在于,所述步骤2中所创建的空集合requiredList,其类型与步骤1.1中所建立的对象集合dataList类型一致,区别在于其中数据的排列顺序不同。
4.根据权利要求2所述的一种基于相似度算法的分页查询方法,其特征在于,所述步骤3,具体包括:
步骤3.1:从步骤1得到的dataList数据集合中的数据里选取出每条数据需要进行相似度计算的关键字,选出的关键字字段对应的值用于后续计算相似度;
步骤3.2:设置一个预定值A作为数据相似度的判断标准阈值,采用余弦相似度算法,其计算公式为:
其中,xi指[数据m-1,数据m]中[数据m-1]中某个字母出现的次数,yi指[数据m-1,数据m]中[数据m]中此字母出现的次数,k指[数据m-1,数据m]中字母的个数,m为3≤m≤n的整数;预定值A的取值范围为0~1。
步骤3.3:将步骤1得到的dataList中的第一个数据[数据1]保存至步骤2创建的requiredList集合中,根据余弦相似度算法计算出此[数据1]与dataList集合中其余数据[数据2……数据n-1,数据n]的相似度a(1),a(2)……a(n-2),a(n-1),若相似度a(i)大于步骤3.2所设定的预定值A,则认为此条数据与[数据1]相似,若a<A则认为与[数据1]不相似;
步骤3.4:将步骤3.3中计算出的所有相似度大于A的数据按顺序保存到步骤2中所创建的集合requiredList中。
5.根据权利要求2所述的一种基于相似度算法的分页查询方法,其特征在于,所述步骤4,具体包括:
步骤4.1:首先判断[数据x]是否已经保存在步骤2创建的集合requiredList中;其中,[数据x]为[数据2……数据n-1,数据n]中的任一一个数据;
步骤4.2:如果该数据已存在于步骤2创建的集合requiredList中,则获取下一个数据重新执行步骤4,
步骤4.3:如果数据不存在于步骤2创建的集合requiredList中,则将[数据1]替换为[数据x]后重复步骤3中的步骤3.3和步骤3.4进行相似度计算,将结果保存至集合requiredList中;
步骤4.4:获取下一个数据重新执行步骤4直到需求数据集合dataList中的最后一条数据也保存至集合requiredList中。
6.根据权利要求2所述的一种基于相似度算法的分页查询方法,其特征在于,所述步骤5,具体包括:
步骤5.1:建立一个集合pageDataList,保存分页后的数据;
步骤5.2:获取到需要展示的页码数pageNum及每页的数据量pageSize,此两条数据由前端作为分页参数传入;
步骤5.3:计算数据总数totalCount:取requiredList集合的大小作为数据总数;总页数totalPageNum:取数据总数除以每页数据量向上取整;
步骤5.4:根据步骤5.1获取的页码数及每页数据量计算出当前页需要展示的数据位于requiredList集合中的位置;其中开始位置startNum=(pageNum-1)*pageSize;结束位置endNum=pageNum*pageSize-1;
步骤5.5:从requiredList中取出第startNum~endNum位的数据存入步骤5.1建立的集合pageDataList中,此时获得的pageDataList集合即为相似数据集中且分页展示的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466707.3A CN112434070A (zh) | 2020-12-14 | 2020-12-14 | 一种基于相似度算法的分页查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466707.3A CN112434070A (zh) | 2020-12-14 | 2020-12-14 | 一种基于相似度算法的分页查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434070A true CN112434070A (zh) | 2021-03-02 |
Family
ID=74692603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011466707.3A Pending CN112434070A (zh) | 2020-12-14 | 2020-12-14 | 一种基于相似度算法的分页查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434070A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750002A (zh) * | 2005-10-26 | 2006-03-22 | 孙斌 | 提供搜索结果的方法 |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
US20150081688A1 (en) * | 2006-07-26 | 2015-03-19 | International Business Machines Corporation | Results from search providers using a browsing-time relevancy factor |
CN105912624A (zh) * | 2016-04-07 | 2016-08-31 | 北京中安智达科技有限公司 | 分布式部署的异构数据库的查询方法 |
CN107943762A (zh) * | 2017-11-24 | 2018-04-20 | 四川长虹电器股份有限公司 | 一种基于es搜索的文本相似度排序方法 |
CN109460404A (zh) * | 2018-09-03 | 2019-03-12 | 中新网络信息安全股份有限公司 | 一种基于redis的高效Hbase分页查询方法 |
CN109710864A (zh) * | 2018-11-29 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 页面内容划分方法、装置、可读存储介质及电子设备 |
CN110874368A (zh) * | 2018-08-14 | 2020-03-10 | 山东华软金盾软件股份有限公司 | 一种基于Realm数据库的数据分页***及方法 |
CN111460011A (zh) * | 2020-03-27 | 2020-07-28 | 中国平安人寿保险股份有限公司 | 页面数据展示方法、装置、服务器及存储介质 |
CN111858581A (zh) * | 2020-06-08 | 2020-10-30 | 远光软件股份有限公司 | 一种分页查询的方法、装置、存储介质和电子设备 |
CN111984891A (zh) * | 2020-08-07 | 2020-11-24 | 游艺星际(北京)科技有限公司 | 页面展示方法、装置、电子设备和存储介质 |
-
2020
- 2020-12-14 CN CN202011466707.3A patent/CN112434070A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750002A (zh) * | 2005-10-26 | 2006-03-22 | 孙斌 | 提供搜索结果的方法 |
US20180113941A1 (en) * | 2006-07-26 | 2018-04-26 | International Business Machines Corporation | Results from search providers using a browsing-time relevancy factor |
US20150081688A1 (en) * | 2006-07-26 | 2015-03-19 | International Business Machines Corporation | Results from search providers using a browsing-time relevancy factor |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN105912624A (zh) * | 2016-04-07 | 2016-08-31 | 北京中安智达科技有限公司 | 分布式部署的异构数据库的查询方法 |
CN107943762A (zh) * | 2017-11-24 | 2018-04-20 | 四川长虹电器股份有限公司 | 一种基于es搜索的文本相似度排序方法 |
CN110874368A (zh) * | 2018-08-14 | 2020-03-10 | 山东华软金盾软件股份有限公司 | 一种基于Realm数据库的数据分页***及方法 |
CN109460404A (zh) * | 2018-09-03 | 2019-03-12 | 中新网络信息安全股份有限公司 | 一种基于redis的高效Hbase分页查询方法 |
CN109710864A (zh) * | 2018-11-29 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 页面内容划分方法、装置、可读存储介质及电子设备 |
CN111460011A (zh) * | 2020-03-27 | 2020-07-28 | 中国平安人寿保险股份有限公司 | 页面数据展示方法、装置、服务器及存储介质 |
CN111858581A (zh) * | 2020-06-08 | 2020-10-30 | 远光软件股份有限公司 | 一种分页查询的方法、装置、存储介质和电子设备 |
CN111984891A (zh) * | 2020-08-07 | 2020-11-24 | 游艺星际(北京)科技有限公司 | 页面展示方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629046B (zh) | 一种字段匹配方法及终端设备 | |
CN108897761B (zh) | 一种聚簇存储方法及装置 | |
CN103514201B (zh) | 一种非关系型数据库的数据查询方法和装置 | |
CN107784070B (zh) | 一种提高数据清洗效率的方法、装置及设备 | |
CN108376143B (zh) | 一种新型的olap预计算***及生成预计算结果的方法 | |
CN109408681B (zh) | 一种字符串匹配方法、装置、设备及可读存储介质 | |
US20140074819A1 (en) | Optimal Data Representation and Auxiliary Structures For In-Memory Database Query Processing | |
CN108363558B (zh) | 面向大数据处理的机器数级数据比较方法 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
CN101661484A (zh) | 一种查询方法及*** | |
CN108846016A (zh) | 一种面向中文分词的搜索算法 | |
CN101751416A (zh) | 一种对字符串排序和查找的方法 | |
US20220005546A1 (en) | Non-redundant gene set clustering method and system, and electronic device | |
CN112445833A (zh) | 一种分布式数据库的数据分页查询方法、装置和*** | |
CN101639851B (zh) | 一种数据存储、查询的方法和装置 | |
CN112434070A (zh) | 一种基于相似度算法的分页查询方法 | |
CN109857366B (zh) | 基于外存的***排序方法、***、设备及存储介质 | |
CN112069175A (zh) | 数据查询的方法、装置及电子设备 | |
CN110928902A (zh) | 针对分页获取云平台终端数据的查询方法和*** | |
CN112380445B (zh) | 数据查询方法、装置、设备和存储介质 | |
CN114372071A (zh) | 一种表数据删除方法、装置、计算机设备及存储介质 | |
CN112507181B (zh) | 搜索请求分类方法、装置、电子设备及存储介质 | |
CN113609247A (zh) | 一种基于改进Simhash算法的大数据文本去重技术 | |
CN110875743B (zh) | 基于抽样猜测的数据压缩方法 | |
CN110955751A (zh) | 工作票文本去重方法、装置、***及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210302 |