CN111949610B

CN111949610B - 一种基于ai训练平台的海量文件检索方法、装置及设备

Info

Publication number: CN111949610B
Application number: CN202010988313.8A
Authority: CN
Inventors: 姬贵阳
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-12-23
Anticipated expiration: 2040-09-18
Also published as: CN111949610A; US20230214356A1; WO2022057460A1; US11768805B2

Abstract

本发明提供一种基于AI训练平台的海量文件检索方法、装置及设备，所述方法：AI训练平台获取用户下发的检索任务；AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。本发明提供利用检索线程流控制检索过程业务逻辑，防止AI训练平台长时间占用服务器资源的CPU，同时深度优先遍历与二分查找方式结合提高了检索效率，避免单独使用深度优先遍历，而文件靠后的检索时间很长的缺陷，缩短了AI训练平台的训练时间。

Description

一种基于AI训练平台的海量文件检索方法、装置及设备

技术领域

本发明属于文件检索技术领域，具体涉及一种基于AI训练平台的海量文件检索方法、装置及设备。

背景技术

AI训练平台，即人工智能训练平台，管理并调度CPU和GPU等资源，模型训练，任务管理的平台。

随着人工智能相关产业的蓬勃发展，越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高，AI训练平台有效解决了企业或科研机构对计算力的要求，AI训练平台的一项重要的也是最基本的功能就是文件的相关操作，如何在海量的文件中检索出有效信息，成为算法研究人员的常用基础功能，在数据集中或者在用户目录下进行具体文件以及模糊文件的检索，海量文件检索的性能关乎于AI训练平台使用研究人员的工作效率，如何提升检索性能是亟需解决的问题。

目前涉及文件检索的现有技术主要用于各个***的文件管理等，文件数量大小与AI训练平台的文件数量级别差别很大，而且现有技术也无外乎循环递归遍历所有文件，进行模糊匹配比对；利用操作***linux的相关命令find进行模糊匹配查找；再者搭建文件分布式存储进行大规模专门的对文件进行管理，其性能好坏依赖于大量硬件等高配置的设备。这些技术用于AI训练平台显得非常落后，其没有非常合适的技术应用场景解决AI训练平台文件的检索功能。

同时循环遍历所有文件进行模糊匹配比对，不仅耗时非常之长，而且在底层***中占有非常多的***的资源，包含CPU等，首先对用户使用体验来说非常差，等待的时间非常长，如果文件数据量达到T级别，那等待的时间让使用人员崩溃；其次消耗非常多的***资源，对***平台其他业务的影响非常大，最危险的可能造成***崩溃的情况。部分不考虑***性能的检索，例如find模糊查找，等待的时间比循环递归遍历还要慢很久，不仅不释放当前占用的资源，甚至会造成底层资源的进程阻塞等。

现有技术也存在海量文件的检索，但是其做法对业务非常专一，即只针对文件的操作，一般不会涉及其他的业务功能，此现有技术依靠太多硬件设备等高配置资源，搭建分布式文件管理平台进行分布式检索查找，这类技术只适合解决业务单一，对AI训练平台的业务支持非常低，甚至不可取，造成资源的浪费。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种基于AI训练平台的海量文件检索方法、装置及设备，是非常有必要的。

发明内容

针对现有技术的上述现有检索的遍历方式、文件管理方式以及仅支持文件操作的方式不适合AI训练平台，造成资源浪费的缺陷，本发明提供一种基于AI训练平台的海量文件检索方法、装置及设备，以解决上述技术问题。

第一方面，本发明提供一种基于AI训练平台的海量文件检索方法，包括如下步骤：

S1.AI训练平台获取用户下发的检索任务；

S2.AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；

S3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。

进一步地，步骤S1具体步骤如下：

S11.AI训练平台获取用户登录的令牌；

S12.AI训练平台根据令牌接收用户下发的检索任务。保证同一令牌对应一个检索任务。

进一步地，步骤S2具体步骤如下：

S21.AI训练平台启动检索线程；

S22.每完成一次检索，判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24；

S23.判断检索任务是否完成；

若是，进入步骤S28；

若否，进入步骤S25；

S24.继续检索，返回步骤S22；

S25.返回检索内容，暂停检索，判断检索总时长是否超过检索时长阈值；

若是，进入步骤S26；

若否，进入步骤S27；

S26.检索超时，检索结束；

S27.检索唤醒，返回步骤S24；

S28.返回检索内容，检索结束。设置检索次数，在满足检索次数时，需要控制进行一次暂停，而未完成检索任务的需要继续检索，若检索结束仍未达到检索次数，则返回结束标志；设置检索时长阈值，用于控制检索时长和暂停时间，防止出现检索不中断，超时则自动结束检索，实际检索过程中，为了速度，也不会等待很长时间，而且暂停时间过长，也会造成线程不释放的问题。

进一步地，步骤S22具体步骤如下：

S221.每完成一次检索，判断是否有同一令牌的用户下发的下一检索任务；

若有，进入步骤S222；

若否，进入步骤S224；

S222.中断当前检索任务线程，根据下一检索任务类型进行操作；

S223.判断当前检索线程任务中断是否超时；

若超时，则判定检索中断超时，检索结束；

若未超时，等待下一检索任务完成，返回步骤S223；

S224.判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24。同一个令牌只能对应一个检索任务，若有同一令牌的用户下发的下一检索任务，则需要中断当前检索任务线程，并根据下一检索任务类型进行操作，而当前检索任务的中断时间有限制，超时，则中断的检索任务停止。

进一步地，步骤S222中，判断下一检索任务类型；

若下一检索任务类型为覆盖检索，则将下一检索任务作为新的检索任务，返回步骤S21；

若下一检索任务类型为排队检索，则将下一检索任务设定到等待队列，进入步骤S24；

若下一检索任务类型为暂停检索，则进入步骤S25；

若下一检索任务类型为继续检索，则进入步骤S24；

若下一检索任务类型为终止检索，则进入步骤S28。根下一检索任务类型确定是否覆盖中断的艰难任务。

进一步地，步骤S3具体步骤如下：

S31.AI训练平台将数据库中文件以文件夹为单位通过hash散列方式进行顺序编码，生成递增或者递减队列文件夹；

S32.AI训练平台从检索任务中提取出检索关键字，定位一个队列文件夹；

S33.AI训练平台在遍历检索前根据检索关键字和定位队列文件夹确定遍历深度，再根据遍历深度以二分查找方式确定遍历路径；

S34.AI训练平台沿着遍历路径在定位队列文件夹中进行遍历检索，并在遍历检索完成后，判断是否所有队列文件夹遍历完毕；

若是，进入步骤S35；

若否，定位到下一个队列文件夹，返回步骤S33；

S35.返回检索内容，检索结束。顺序编码是后续二分查找的基础，从而保证后续在查找过程中采用跳跃式的方式进行检索，即按照有序的队列进行折半查找，如果查找的对象小于队列中间对象，则查找范围缩小到前半区，否则查找范围定位到后半区；未使用效率更高的二平衡叉树或者B+树的进行检索，由于二平衡叉树或者B+树需要进行建立索引，需要维护大量索引，性能成本不适合AI训练平台，故而本专利使用二分查找的方式进行遍历路径确定；以文件夹为单位，对同一文件夹内文件进行顺序编码，不是以所有文件为单位进行编码，防止文件太多，队列庞大难于维护。

进一步地，步骤S33具体步骤如下：

S331.AI训练平台获取检索关键字类型；

S332.AI训练平台根据检索关键字类型及定位队列文件夹中内容确定遍历深度；

S333.AI训练平台确定定位队列文件夹中遍历深度层级的所有顺序文件节点，根据文件节点递增或递减顺序，确定定位首节点和定位尾节点；

S334.AI训练平台根据定位首节点及定位尾节点计算出定位中间节点；

S335.AI训练平台根据文件节点采用递增还是递减顺序，新的定位首节点和定位尾节点，并计算新的定位中间节点，直至同一遍历深度的文件节点设定遍历路径完毕。二分查找实现检索的跳跃，大大缩小检索范围；

进一步地，若步骤S331中，检索关键字类型为文件夹关键字；

步骤S332中，AI训练平台以文件夹关键字属性以及定位队列文件夹中内容进行遍历深度确定；

步骤S333中，若定位队列文件中内容属性不一致，则AI训练平台以同一遍历深度中文件夹节点建立遍历路径，而同一遍历深度中文件节点忽略；

若步骤S331中，检索关键字类型为文件关键字；

步骤S332中，AI训练平台以文件关键字属性以及定位队列文件夹中内容进行遍历深度确定；

步骤S333中，若定位队列文件中内容属性不一致，则AI训练平台以同一遍历深度中文件节点建立遍历路径，而同一遍历深度中文件夹节点，返回步骤S332中继续确定遍历深度。

第二方面，本发明提供一种基于AI训练平台的海量文件检索装置，包括：

检索任务获取模块，用于设置AI训练平台获取用户下发的检索任务；

检索线程流设置模块，用于设置AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；

遍历检索模块，用于设置AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。

第三方面，本发明还提供一种设备，包括处理器和存储器；其中，该存储器用于存储计算机程序；该处理器用于从存储器中调用并运行该计算机程序，使得设备执行上述第一方面所述的方法。

本发明的有益效果在于，

本发明提供的基于AI训练平台的海量文件检索装置，利用检索线程六控制检索过程业务逻辑，防止AI训练平台长时间占用服务器资源的CPU，降低资源利用率，保证AI训练平台的业务稳定运行，同时深度优先遍历与二分查找方式结合提高了检索效率，避免单独使用深度优先遍历，而文件靠后的检索时间很长的缺陷，缩短了AI训练平台的训练时间，提高了模型训练的效效率，提高了AI训练平台的海量文件检索的性能，增强AI训练平台的竞争力。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程示意图一；

图2是本发明的方法流程示意图二；

图3是本发明的***示意图；

图中，1-检索任务获取模块；1.1-令牌获取单元；1.2-检索任务获取单元；2-检索线程流设置模块；2.1-检索线程启动单元；2.2-检索次数阈值判断单元；2.3-检索任务完成判断单元；2.4-继续检索单元；2.5-检索总时长判断单元；2.6-检索超时判定单元；2.7-检索唤醒单元；2.8-检索内容第一返回单元；3-遍历检索模块；3.1-序列编码单元；3.2-队列文件夹定位单元；3.3-遍历路径确定单元；3.4-遍历检索单元；3.5-队列文件夹再定位单元；3.6-检索内容第二返回单元。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本发明提供一种基于AI训练平台的海量文件检索方法，包括如下步骤：

S1.AI训练平台获取用户下发的检索任务；

实施例2：

如图2所示，本发明提供一种基于AI训练平台的海量文件检索方法，包括如下步骤：

S1.AI训练平台获取用户下发的检索任务；具体步骤如下：

S11.AI训练平台获取用户登录的令牌；

S12.AI训练平台根据令牌接收用户下发的检索任务；保证同一令牌对应一个检索任务；

S2.AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；具体步骤如下：

S21.AI训练平台启动检索线程；

S22.每完成一次检索，判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24；

S23.判断检索任务是否完成；

若是，进入步骤S28；

若否，进入步骤S25；

S24.继续检索，返回步骤S22；

若是，进入步骤S26；

若否，进入步骤S27；

S26.检索超时，检索结束；

S27.检索唤醒，返回步骤S24；

S28.返回检索内容，检索结束；

设置检索次数，如请求检索页面50次，在完成检索50条情况下，需要控制进行一次暂停，而未完成检索任务的需要继续检索，若检索结束仍未达到50条，则返回结束标志；设置检索时长阈值，用于控制检索时长和暂停时间，防止出现检索不中断，超时则自动结束检索，实际检索过程中，为了速度，也不会等待很长时间，而且暂停时间过长，也会造成线程不释放的问题；以文件夹为单位，对同一文件夹内文件进行顺序编码，不是以所有文件为单位进行编码，防止文件太多，队列庞大难于维护；

S3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索；具体步骤如下：

若是，进入步骤S35；

若否，定位到下一个队列文件夹，返回步骤S33；

S35.返回检索内容，检索结束。

顺序编码是后续二分查找的基础，从而保证后续在查找过程中采用跳跃式的方式进行检索，即按照有序的队列进行折半查找，如果查找的对象小于队列中间对象，则查找范围缩小到前半区，否则查找范围定位到后半区；未使用效率更高的二平衡叉树或者B+树的进行检索，由于二平衡叉树或者B+树需要进行建立索引，需要维护大量索引，性能成本不适合AI训练平台，故而本专利使用二分查找的方式进行文件定位检索。

在某些实施例中，步骤S22具体步骤如下：

若有，进入步骤S222；

若否，进入步骤S224；

S223.判断当前检索线程任务中断是否超时；

若超时，则判定检索中断超时，检索结束；

若未超时，等待下一检索任务完成，返回步骤S223；

S224.判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24。同一个令牌只能对应一个检索任务，若有同一令牌的用户下发的下一检索任务，则需要中断当前检索任务线程，并根据下一检索任务类型进行操作，而当前检索任务的中断时间有限制，超时，则中断的检索任务停止。在某些实施例中，步骤S222中，判断下一检索任务类型；

若下一检索任务类型为暂停检索，则进入步骤S25；

若下一检索任务类型为继续检索，则进入步骤S24；

在某些实施例中，步骤S33具体步骤如下：

S331.AI训练平台获取检索关键字类型；

S335.AI训练平台根据文件节点采用递增还是递减顺序，新的定位首节点和定位尾节点，并计算新的定位中间节点，直至同一遍历深度的文件节点设定遍历路径完毕。二分查找实现检索的跳跃，大大缩小检索范围。

在某些实施例中，若步骤S331中，检索关键字类型为文件夹关键字；例如，检索带有某些关键字的文件夹；

步骤S333中，若定位队列文件中内容属性不一致，例如，定位队列文件夹中既有文件夹，也有文件，则AI训练平台以同一遍历深度中文件夹节点建立遍历路径，而同一遍历深度中文件节点忽略；

若步骤S331中，检索关键字类型为文件关键字；例如检索带有某些后缀的文件；

步骤S333中，若定位队列文件中内容属性不一致，例如，定位队列文件夹中既有文件夹，也有文件，则AI训练平台以同一遍历深度中文件节点建立遍历路径，而同一遍历深度中文件夹节点，返回步骤S332中继续确定遍历深度。

实施例3：

如图3所示，本发明提供一种基于AI训练平台的海量文件检索装置，包括：

检索任务获取模块1，用于设置AI训练平台获取用户下发的检索任务；检索任务获取模块1包括：

令牌获取单元1.1，用于设置AI训练平台获取用户登录的令牌；

检索任务获取单元1.2，用于设置AI训练平台根据令牌接收用户下发的检索任务；

检索线程流设置模块2，用于设置AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；检索线程流设置模块2包括：

检索线程启动单元2.1，用于设置AI训练平台启动检索线程；

检索次数阈值判断单元2.2，用于当每完成一次检索时，判断是否满足检索次数阈值；

检索任务完成判断单元2.3，用于不满足检索次数阈值时，判断检索任务是否完成；

继续检索单元2.4，用于当满足检索次数阈值时，继续检索；

检索总时长判断单元2.5，用于不满足检索次数阈值，但检索任务未完成时，返回检索内容，暂停检索，判断检索总时长是否超过检索时长阈值；

检索超时判定单元2.6，用于检索总时长超过检索时长阈值时，判定检索超时，检索结束；

检索唤醒单元2.7，用于检索总时长未超过检索时长阈值，判定检索唤醒；

检索内容第一返回单元2.8，用于不满足检索次数阈值，且检索任务完成时，返回检索内容，检索结束；

遍历检索模块3，用于设置AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索；遍历检索模块3包括：

序列编码单元3.1，用于设置AI训练平台将数据库中文件以文件夹为单位通过hash散列方式进行顺序编码，生成递增或者递减队列文件夹；

队列文件夹定位单元3.2，用于设置AI训练平台从检索任务中提取出检索关键字，定位一个队列文件夹；

遍历路径确定单元3.3，用于设置AI训练平台在遍历检索前根据检索关键字和定位队列文件夹确定遍历深度，再根据遍历深度以二分查找方式确定遍历路径；

遍历检索单元3.4，用于设置AI训练平台沿着遍历路径在定位队列文件夹中进行遍历检索，并在遍历检索完成后，判断是否所有队列文件夹遍历完毕；

队列文件夹再定位单元3.5，用于存在队列文件夹未遍历时，定位到下一个队列文件夹；

检索内容第二返回单元3.6，用于所有队列文件夹遍历完毕时，返回检索内容，检索结束。

实施例4：

本发明提供一种设备，包括处理器和存储器；其中，该存储器用于存储计算机程序；该处理器用于从存储器中调用并运行该计算机程序，使得设备执行上述实施例1或实施例2所述的方法。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于AI训练平台的海量文件检索方法，其特征在于，包括如下步骤：

S1.AI训练平台获取用户下发的检索任务；步骤S1具体步骤如下：

S11.AI训练平台获取用户登录的令牌；

S12.AI训练平台根据令牌接收用户下发的检索任务；

S2.AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；步骤S2具体步骤如下：

S21.AI训练平台启动检索线程；

S22.每完成一次检索，判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24；

S23.判断检索任务是否完成；

若是，进入步骤S28；

若否，进入步骤S25；

S24.继续检索，返回步骤S22；

若是，进入步骤S26；

若否，进入步骤S27；

S26.检索超时，检索结束；

S27.检索唤醒，返回步骤S24；

S28.返回检索内容，检索结束；

2.如权利要求1所述的基于AI训练平台的海量文件检索方法，其特征在于，步骤S22具体步骤如下：

若有，进入步骤S222；

若否，进入步骤S224；

S223.判断当前检索线程任务中断是否超时；

若超时，则判定检索中断超时，检索结束；

若未超时，等待下一检索任务完成，返回步骤S223；

S224.判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24。

3.如权利要求2所述的基于AI训练平台的海量文件检索方法，其特征在于，步骤S222中，判断下一检索任务类型；

若下一检索任务类型为暂停检索，则进入步骤S25；

若下一检索任务类型为继续检索，则进入步骤S24；

若下一检索任务类型为终止检索，则进入步骤S28。

4.如权利要求1所述的基于AI训练平台的海量文件检索方法，其特征在于，步骤S3具体步骤如下：

若是，进入步骤S35；

若否，定位到下一个队列文件夹，返回步骤S33；

S35.返回检索内容，检索结束。

5.如权利要求4所述的基于AI训练平台的海量文件检索方法，其特征在于，步骤S33具体步骤如下：

S331.AI训练平台获取检索关键字类型；

S335.AI训练平台根据文件节点采用递增还是递减顺序，新的定位首节点和定位尾节点，并计算新的定位中间节点，直至同一遍历深度的文件节点设定遍历路径完毕。

6.如权利要求5所述的基于AI训练平台的海量文件检索方法，其特征在于，若步骤S331中，检索关键字类型为文件夹关键字；

若步骤S331中，检索关键字类型为文件关键字；

7.一种基于AI训练平台的海量文件检索装置，其特征在于，包括：

检索任务获取模块（1），用于设置AI训练平台获取用户下发的检索任务；具体过程如下：

S11.AI训练平台获取用户登录的令牌；

S12.AI训练平台根据令牌接收用户下发的检索任务；

检索线程流设置模块（2），用于设置AI训练平台根据检索任务生成检索线程流，并根据检索线程流控制检索过程的业务逻辑；具体过程如下：

S21.AI训练平台启动检索线程；

S22.每完成一次检索，判断是否满足检索次数阈值；

若是，进入步骤S23；

若否，进入步骤S24；

S23.判断检索任务是否完成；

若是，进入步骤S28；

若否，进入步骤S25；

S24.继续检索，返回步骤S22；

若是，进入步骤S26；

若否，进入步骤S27；

S26.检索超时，检索结束；

S27.检索唤醒，返回步骤S24；

S28.返回检索内容，检索结束；

遍历检索模块（3），用于设置AI训练平台将数据库中文件以文件夹为单位进行顺序编码，生成有序队列文件夹，并从检索任务中提取出检索关键字，再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。

8.一种基于AI训练平台的海量文件检索设备，其特征在于，包括处理器和存储器；其中，该存储器用于存储计算机程序；该处理器用于从存储器中调用并运行该计算机程序，使得设备执行上述权利要求 1-6任一项所述的方法。